Mathematische Optimierung

Transkript

1 Mathematische Optimierung Geschrieben von Jan Pöschko auf Grundlage der Vorlesung von Bettina Klinz TU Graz Sommersemester 2007 Stand: 27. Oktober 2009

2

3 Inhaltsverzeichnis I Lineare Optimierung 7 1 Grundlegende Definitionen und Überlegungen 9 2 Das Simplexverfahren Herleitung eines Rechenschemas für die Transformationsschritte Hauptsatz der linearen Optimierung Detailsicht des Simplexverfahrens zur Lösung linearer Programme Endlichkeit des Simplexverfahrens Bestimmung einer zulässigen Ausgangsbasislösung Einige Erweiterungen des Simplexverfahrens Anmerkungen zur Wahl der Pivotspalte Kurze Anmerkung zur Effizienz des Simplexverfahrens Konvexe Mengen, Polyeder und Zusammenhang zur linearen Optimierung Zusammenhang zwischen Basislösungen und Ecken Geometrische Interpretation des Simplexverfahrens Dualität Motivation und Einführung Interpretation des dualen Problems zum Transportproblem Der Dualitätssatz der linearen Optimierung Trennungssätze im R n Alternativsätze Beweis des Dualitätssatzes Duales Simplexverfahren 55 6 Innere Punkte Methoden Grundidee der primal-dualen Pfadverfolgungsmethode II Ganzzahlige Optimierung 63 7 Vollständig unimodulare Matrizen Beispielklassen für vollständig unimodulare Matrizen Anmerkung zur Erkennung vollständig unimodularer Matrizen Dynamische Programmierung Binäres Rucksackproblem Matrixmultiplikation Die Branch and Bound Methode Gemischt-ganzzahlige lineare Programme

4 Inhaltsverzeichnis 10 Einige Beispiele für die Modellierung mit ganzzahligen Variablen Disjunkte Nebenbedingungen (Restriktionen) Formulierung stückweise linearer Zielfunktionen Funktionen mit N möglichen Werten Transportproblem III Kurzeinführung in Nichtlineare Optimierung Einführung Verfahren zur Minimierung von Funktionen einer Variablen Verfahren ohne Ableitungsinformation Verfahren mit Ableitungsinformation Mehrdimensionale nichtlineare Optimierung ohne Nebenbedingungen Wiederholung Grundlagen von Lösungsverfahren Allgemeines Abstiegsverfahren Schrittweiten Steilstes Abstiegsverfahren (Gradientenverfahren) Newton-Verfahren Quasi-Newtonverfaren Optimalitätskriteria für nichtlineare Optimierungsaufgaben mit Nebenbedingungen Karush-Kuhn-Tucker Bedingungen (KKT) A Programmpakete 103 Sätzeverzeichnis 105 Index 107 4

5 Einleitung Extremwertaufgaben Zielfunktion objective function Nebenbedingung constraint ( = subject to = unter der Bedingung) Beispiele 1. nicht linear: min x 2 + 4y 2 x + 3y 5 x 2y 1 2. linear: min x + 4y x + 3y 5 x 2y 1 Wichtige Klassen von Optimierungsproblemen Lineare Optimierung lineare Zielfunktion lineare Nebenbedingungen Allgemeine Form: Gegeben m n Matrix A, a ij R, Vektor b R m, Vektor c R n. Lineares Programm: max c t x = c 1 x c n x n (lineare Nebenbedingung). a 11 x 1 + a 12 x a 1n x n b 1 a m1 x 1 + a m2 x a mn x n b m Beispiel (Ernährungsproblem lt. Stigler) Gegeben: Menge von Nahrungsmitteln, Preis pro Einheit, Einschränkungen eines möglichen Nahrungsplans. Ziel: kostengünstiger Ernährungsplan, der alle Bedingungen erfüllt. Entscheidungsvariablen x i : Anzahl an Portionen pro Nahrungsmittel i. 5

6 Zielfunktion: min c 1 x c n x n (c i : Kosten pro Einheit von i) Typische Nebenbedingungen: Portionsbeschränkung: z.b. 0 x 1 4 Kalorien: z.b. 110x x Ganzzahlige Optimierung (integer programming) Entscheidungsvariablen Z. Spezialfall: ganzzahlige lineare Optimierung (x i Z). Beispiel min x 1 + 4x 2 + 5x 3 x 1 2x 2 + x 3 4 x 1 + x 2 + 3x 3 5 x 1, x 2, x 3 Z Im Allgemeinen schwieriger als lineare Optimierung (oft NP-schwer). Nichtlineare ganzzahlige Optimierungsprobleme im Allgemeinen hoffnungslos. Kombinatorische Optimierung (siehe LV Kombinatorische Optimierung) Typ: endliche (diskrete) Menge von zulässigen Lösungen. Beispiele Kürzestes-Weg-Problem, Rundreiseprobleme. Nichtlineare Optimierung Optimalitätsbegriff: lokales Optimum (im Gegensatz zum globalen Optimum: eigenes Feld, im Allgemeinen schwerer). Spezielle nichtlineare Optimierung: Quadratische Optimierung: quadratische Zielfunktion mit linearen Nebenbedingungen Konvexe Optimierung: min f(x) g(x) 0 (f, g konvex). Angenehme Eigenschaft: lokales Optimum = globales Optimum. Stochastische Optimierung Zufallsvariablen spielen eine Rolle. 6

7 Teil I Lineare Optimierung 7

8

9 1 Grundlegende Definitionen und Überlegungen Definition (Lineares Programm in Standardform) Gegeben sei eine Matrix A R m n sowie Vektoren b R m, c R n. Das Problem max c t x (1.1) Ax b (1.2) x 0 (1.3) heißt lineares Programm in Standardform. Die affin-lineare Funktion c t x in (1.1) heißt Zielfunktion. Die Bedingungen (1.3) heißen Vorzeichenbedingungen oder Nicht-Negativitätsbedingungen. Komponentenweise Schreibweise: max c 1 x 1 + c 2 x c n x n n a ij x j b i j=1 x j 0 i = 1,..., m j = 1,..., n m Restriktionen (exkl. Vorzeichenbedingungen), n Entscheidungsvariablen. Bemerkungen c wird auch Zielfunktionsvektor genannt (c j : j-ter Zielfunktionskoeffizient). b wird auch rechter Seitenvektor genannt. A heißt Restriktionsmatrix. Beispiel max 5x 1 + 4x 2 + 3x 3 2x 1 + 2x 2 + x 3 5 4x 1 + x 2 + 2x x 1 + 4x 2 + 2x 3 8. Hier wäre A = 4 1 2, b = 11, c =

10 1 Grundlegende Definitionen und Überlegungen Bemerkung Jedes lineare Programm lässt sich in die Standardform überführen: 1. min c t x ist äquivalent zu max c t x. 2. Ungleichungen vom Typ : n a ij x j b i j=1 n a ij x j b i. j=1 3. Gleichungsrestriktionen n j=1 a ijx j = b i sind äquivalent zu n a ij x j b i und n a ij x j b i, j=1 j=1 also n a ij x j b i und n a ij x j b i. j=1 j=1 4. Keine Vorzeichenbedingungen für Variable x j : Ersetze x j durch x + j x j mit x + j, x j 0. Beispiel max 4x + 3y x + y 7 x 0. y = y + y liefert max 4x + 3y + 3y x + y + y 7 x, y + y 0. Bemerkung Andere Umformungen bzw. Standardformen sind möglich. Zum Beispiel wird aus n j=1 a ijx j b i durch Einführen der Variablen z i eine Gleichung und Vorzeichenbedingung: n a ij x ij + z i = b i j=1 z i 0. Bemerkung Unter einem allgemeinen linearen Programm versteht man ein lineares Programm der Form max c t x oder min c t x (lineare Zielfunktion) n a ij x j b i j=1 10

11 oder n a ij x j b i j=1 oder n a ij x j = b i j=1 (lineare Nebenbedingungen). Beispiel max 5x 1 + 4x 2 + 3x 3 Idee: Umformen in Gleichungen, also 2x 1 + 3x 2 + x 3 5 4x 1 + x 2 + 2x x 1 + 4x 2 + 2x 3 8 x 1, x 2, x 3 0 2x 1 + 3x 2 + x 3 + x 4 = 5 4x 1 + x 2 + 2x 3 + x 5 = 11 3x 1 + 4x 2 + 2x 3 + x 6 = 8 x 1, x 2, x 3, x 4, x 5, x 6 0. Definition (Zulässigkeit, Unbeschränktheit) Ein Vektor x R n heißt zulässig für ein lineares Programm (P), wenn Ax b und x 0. Sonst heißt x unzulässig. Das Problem (P) heißt unzulässig, wenn es für (P) keine zulässige Lösung gibt. (P) heißt unbeschränkt, wenn es für alle M R eine zulässige Lösung x von (P) mit c t x > M gibt. Beispiel Hier existiert eine zulässige Lösung mit Zielfunktionswert (ZFW) 0. x 1 = x 2 = x 3 = 0, x 4 = 5, x 5 = 11, x 6 = 8 Frage 1: Ist die vorliegende Lösung bereits optimal? Definition (Optimallösung) Sei x zulässig für (P). x heißt Optimallösung für (P), wenn keine zulässige Lösunge y existiert mit c t y > c t x. Frage 2: Wenn nein, wie erreicht man eine bessere Lösung? Beobachtung Durch Erhöhen von x 1, x 2 oder x 3 kann versucht werden, den ZFW zu erhöhen. (x 1, x 2, x 3 haben positiven Koeffizient in der Zielfunktion.) Versuchen wir x 1 zu erhöhen, x 2 und x 3 bleiben 0. 2x 1 + x 4 = 5 x 4 = 5 2x 1 0 x x 1 + x 5 = 11 x 5 = 11 4x 1 0 x x x 1 + x 6 = 8 x 6 = 8 3x 1 0 x

12 1 Grundlegende Definitionen und Überlegungen x 1 darf also maximal auf 5 2 erhöht werden. x 4 wird dann 0. Neue Lösung x 1 = 5 2, x 2 = x 3 = x 4 = 0, x 5 = 1, x 6 = mit ZFW 2. x 1 muss mit x 4 die Rolle tauschen; eliminiere also x 1 in der 1. Restriktion: 2x 1 + 3x 2 + x 3 + x 4 = x x x 4 + x 1 = 5 2. x 1 = x x x 4 Transformiere Zielfunktion: 5 ( x x x ) 4 + 4x2 + 3x 3 = x x x 4. Nun kann nur mehr x 3 durch Erhöhung zu einer Erhöhung des ZFW beitragen. Forme nun auch die restlichen zwei Ungleichungen um und erhalte so das neue System Erhöhe nun x 3 : 3 2 x x x 4 + x 1 = 5 2 5x 2 2x 4 + x 5 = x x x 4 + x 6 = 1 2. x 1 = x } 3 0 x 3 5 x 6 = x x x 3 1 x 3 darf also maximal auf 1 erhöht werden. x 6 wird dann 0. Neue Lösung x 1 = 2, x 2 = 0, x 3 = 1, x 4 = 0, x 5 = 1, x 6 = 0 mit ZFW 13. x 3 und x 6 tauschen nun Rollen; elimiere also x 3 : Einsetzen in Zielfunktion liefert x 3 = 1 + x 2 + 3x 4 2x x x x 4 = x x x 4 x 6 = 13 3x 2 x 4 x 6. Die vorliegende Lösung ist also optimal! 2 Stoßrichtungen: 1. Korrektheit der Methode und Klärung offener Fragen (Bestimmung einer zulässigen Startbedingung, Erkennung von unzulässigen bzw. unbeschränkten Problemen). 2. Praktische Durchführung, algorithmische Umsetzung. 12

13 2 Das Simplexverfahren Das im Beispiel hergeleitete Verfahren geht zurück auf George Dantzig. 2.1 Herleitung eines Rechenschemas für die Transformationsschritte Allgemeine Situation: m n Matrix A, rechter Seitenvektor b R m, Zielfunktionsvektor c R n, x R m+n. Problem in der Form max c t x Ax = b x 0 Annahme: rg A = m. Daher enthält A m linear unabhängige Spalten, A = (A B, A N ) (ggf. nach Vertauschen der Spalten), wobei A B die m linear unabhängigen Spalten und A N die restlichen Spalten sind. Ebenso x = (x B, x N ) (ggf. nach derselben Vertauschung wie bei A). somit Ax = ( A B A N ) ( x B x N ) = b A }{{} B x B + A N x N = b, invertierbar x B = A 1 B } {{ } b A 1 B A N x N. } {{ } b Ã N Allgemeine Lösung des Gleichungssystems: ) ( b Ã N x N x =. x N In der Folge interessieren wir uns für Lösungen mit x N = 0 (auch als Basislösungen bekannt). Beispiel ( ) ( ) A =, b = Hier ist ( ) ( ) A B =, A N =

14 2 Das Simplexverfahren und A 1 B = ( ), A 1 B b = ( 1 1 ), A 1 B A N = ( ) 3. 1 Definition (Basis, Nichtbasis) Sei A eine m n Matrix, rg A = m. A B sei eine Untermatrix von A mit rg A B = m. 1. x heißt Basislösung von Ax = b zur Basis B, falls alle Komponenten von x, die nicht Spalten von A B entsprechen, gleich 0 sind. 2. Die Komponenten von x, die zu Spalten von A B gehören, werden als Basisvariablen (BV) bezeichnet, alle anderen als Nichtbasisvariablen (NBV). 3. Die Menge der Indizes der Basisvariablen wird als Basis bezeichnet, die der Nichtbasisvariablen als Nichtbasis. Die Matrix bestehend aus den zur Basis (Nichtbasis) gehörenden Spalten von A wird Basismatrix A B ( Nichtbasismatrix A N ) genannt. Bemerkung Durch Vorgabe der Werte der Nichtbasisvariablen sind die Werte der Basisvariablen eindeutig bestimmt. Definition (Zulässigkeit, Entartung von Basislösungen bzw. Basen) 1. Eine Basislösung heißt entartet ( degeneriert), wenn mindestens eine Basisvariable den Wert 0 annimmt. 2. Eine Basislösung von Ax = b heißt zulässig, wenn x B Eine Basis heißt entartet, wenn die zugehörige Basislösung entartet ist. 4. Eine Basis heißt zulässig, wenn die zugehörige Basislösung zulässig ist. Bemerkungen 1. Jeder Basis entspricht genau eine zugehörige Basislösung. 2. Jeder nicht-entarteten Basislösung entspricht genau eine Basis (gilt nicht bei Entartung). Motivation hinter Basislösungen: Sie treten im exemplarisch skizzierten Lösungsverfahren auf. Hauptsatz der linearen Optimierung (folgt noch). 2.2 Hauptsatz der linearen Optimierung Dieser Satz rechtfertigt die im Beispiel verwendete Methode (Einschränkung auf Basislösungen). Satz 2.1 (Hauptsatz der linearen Optimierung) Gegeben sei das lineare Programm max c t x Ax = b x 0 mit A eine m n Matrix und rg A = m. Dann gilt: 14

15 2.2 Hauptsatz der linearen Optimierung 1. {Ax = b, x 0} besitzt genau dann zulässige Lösungen, wenn {Ax = b, x 0} zulässige Basislösungen besitzt. 2. Es existiert genau dann eine optimale zulässige Lösung (d.h. das lineare Programm ist weder unzulässig noch unbeschränkt), wenn eine optimale zulässige Basislösung existiert. Korollar Auf der Suche nach Optimallösungen für lineare Programme kann man sich auf die Menge der Basislösungen einschränken. Beweis 1. x zulässige Lösung von Ax = b. p y i a i = 0 (x 1,..., x p > 0, x p+1,..., x n = 0) i=1 x = x ε ỹ A x = b Es muss auch gelten: x 0, d.h. x j 0 j, x j = x j εỹ j. Fall a: ỹ i 0 x j 0. Da x j 0 (da x zulässig) und ε > 0, hier keine Einschränkung für ε. Fall b: ỹ j > 0 x j εỹ j 0 ε xj ỹ j. { } xj Wähle ε als min ỹ j : ỹ j > 0 =: ε (nichtleer ε wohldefiniert). Beobachtung: x hat mindestens eine Nullkomponente mehr als x. Durch iterative Anwendung erhält man nach endlich vielen Schritten eine zulässige Basislösung. 2. Sei x eine optimale Lösung von Problem P. Wir wollen zeigen, dass eine optimale Basislösung existiert. Vorgangsweise: analog zu Teil 1. Annahme: x 1,..., x p > 0, x p+1,..., x n = 0. Fall 1: {a 1,..., a p } lin. unabh. x ist bereits Basislösung. Fall 2: {a 1,..., a p } lin. abh. Dann gibt es y 0, y R p mit p a i y i = 0. Ergänze y auf Vektor im R n durch Nullkomponenten Ergebnis ỹ. Betrachte wieder Für 0 ε ε ist x(ε) zulässig. x ist optimal εc t ỹ 0, somit c t ỹ 0. i=1 x(ε) = x εỹ. c t x(ε) = c t x εc t ỹ. Betrachte ε < 0. Einschränkungen an ε durch Komponenten mit ỹ j < 0. Definiere ε = max{ x j ỹ j : ỹ j < 0}. Für ε ε 0 ist x(ε) zulässig und mit analoger Vorgangsweise wie oben erhält man nun c t ỹ 0. 15

16 2 Das Simplexverfahren Insgesamt erhält man also c t ỹ = 0. Nun gilt somit ist x ebenfalls Optimallösung. c t x = c t x εc t y = c t x, Durch iterative Wiederholung steigt die Anzahl der Nullkomponenten und wir landen bei einer optimalen Basislösung. 2.3 Detailsicht des Simplexverfahrens zur Lösung linearer Programme Grundidee: 1. Starte mit einer zulässigen Basislösung. 2. (Optimalitätsüberprüfung) Falls die vorliegende Basislösung bereits optimal ist, Stop. Ansonsten Übergang zu einer neuen zulässigen Basislösung mit besserem Zielfunktionswert (oder Erkennen eines unbeschränkten Problems) durch Austauschen einer Basisvariable (wird zu Nichtbasisvariable) gegen eine Nichtbasisvariable (wird zu Basisvariable). Für den Austauschschritt wichtig: Wahl der Nichtbasisvariable, die neu in die Basis kommt (abhängig von Zielfunktion, siehe auch Beispiel). Wahl der Basisvariable, die die Basis verlässt (abhängig von Restriktionen, neue Basislösung muss zulässig sein). Auch noch zu klären: Finden einer zulässigen Ausgangslösung in Schritt 1? Wie stellt man Vorliegen eines unzulässigen Problems fest? (siehe später) Wie stellt man Unbeschränktheit fest? Effiziente Durchführung von Schritt 2. Frage der Endlichkeit des Verfahrens. Problem: Ax = b A = (A B, A N ) x = (x B, x N ) t Somit Basislösung: Einsetzen in Zielfunktion: A B x B + A N x n = b. x N = 0, x B = A 1 B } {{ } b A 1 B A N x N. } {{ } = b =ÃN c t x = c t Bx B + c t Nx N = c t BA 1 B } {{ } b +( c t N c t BA 1 B A N )x N, } {{ } =c t B b Vektor der reduzierten Kostenkoeffizienten=: c t N 16

17 2.3 Detailsicht des Simplexverfahrens zur Lösung linearer Programme wobei b der augenblickliche Wert der Basisvariablen ist, somit c t b b der augenblickliche Zielfunktionswert. Optimalitätskriterium: x ist optimale Basislösung wenn c N 0. liefert Kriterium für die Auswahl einer Nichtbasisvariablen, die neu in die Basis kommen soll, wenn noch keine optimale Lösung vorliegt. Man kann beliebige Nichtbasisvariable mit c N(j) > 0 wählen (feinere Auswahlregel siehe später). Angenommen die j-te Nichtbasisvariable, x N(j), tritt neu in Basis ein. Welche Variable verlässt die Basis? Bisher x B = b ÃNx N x N = 0 Nun x N(j) = ε, ε > 0 und ε so groß wie möglich, unter der Einschränkung, dass neue Basislösung wieder zulässig ist. x B (ε) = b ÃN x }{{} N neuer x N -Vektor = b ã j ε, wobei ã j die Spalten von ÃN sind, die zur Variable x N(j) gehören. (da x zulässig), damit x zulässig. für alle i mit ã ij > 0. Definiere }{{} b ã j }{{} ε 0 0 >0 ε b i ã ij ε = min{ b i ã ij ã ij > 0}. Der Fall {ã ij > 0} = wird im Anschluss diskutiert. Die neue Basislösung erhält man, indem man die neue Basisvariable auf den Wert ε setzt. Als die Basis verlassende Basisvariable kann eine beliebige Basisvariable x B(i) mit ε = gewählt werden. Im Fall ã ij 0 für alle i liegt ein unbeschränktes Problem vor. (ε kann beliebig groß werden.) Hier haben wir also ein Kriterium für das Vorliegen eines unbeschränkten linearen Programms! Nun fehlt noch die Umsetzung des Austauschschritts (Pivot-Schritt). Wir brauchen eine Problemdarstellung bzgl. der neuen Basis/Nichtbasis. Beim Start des Verfahrens (mittels der künstlichen Variablen) haben wir A B = I (Einheitsmatrix). Nach einem Austauschschritt: In späteren Schritten haben wir 1 a 1s a rs a ms 1 I x B + ÃN x N = b. b i ã ij 17

18 2 Das Simplexverfahren Auch hier haben wir die Situation, dass anstelle der Einheitsmatrix nach dem Austauschschritt eine Matrix auftaucht, die sich in einer Spalte von der Einheitsmatrix unterscheidet. Frage: Wie sieht die Inverse einer Matrix der Form 1 d C = d r d m 1 (d r 0) aus? d r d C 1 = 1 d r d r 1 d r 1 d r+1. d r... (Hier ist also auch nur eine Spalte von der Einheitsmatrix verschieden.) Auf diese Weise lässt sich die neue Matrix ÃN für die neue Nichtbasis N in eleganter Weise aus der alten Matrix ÃN berechnen. d m d r Ã N = (t ij ) Ã N = (t ij ) Sei s die Spalte von A N, die verschieden von A N ist (d.h. hier spielt sich Wechsel in Nachtbasis ab). Sei r die Zeile, die der Variablen entspricht, die die Basis verlässt. Es gilt 1 i = r, j = s t ij = t rs t rj t rs tis Zur Illustration anhand unseres Beispiels: Start: t rs t ij tistrj t rs max 5x 1 + 4x 2 + 3x 3 i = r, j s i r, j = s i r, j s 2x 1 + 3x 2 + x 3 + x 4 = 5 4x 1 + x 2 + 2x 3 + x 5 = 11 3x 1 + 4x 2 + 2x 3 + x 6 = 8 B = (4, 5, 6) N = (1, 2, 3) 18

19 2.3 Detailsicht des Simplexverfahrens zur Lösung linearer Programme A B = A N = b = 11 = b zu Beginn 7 0 c B = c N = 4 3 x 1 soll neu in Basis, { 5 ε = min 2, 11 4, 8 } = also verlässt x 4 die Basis. Neue Basis: B = (1, 5, 6) Neue Nichtbasis N = (4, 2, 3) A B = A 1 = B A N = und Somit Ã N = A 1 B A N = = bneu = A 1 B b = Zum Beispiel hatten wir x 1 = x x x 3. 19

20 2 Das Simplexverfahren Strukturierte Vorgangsweise in einem Tableau (erste Zeile: Zielfunktionszeile; dann: Basisvariablen): x x x 6 wobei links oben der negative Wert der augenblicklichen Zielfunktion steht. Im nächsten Schritt (r = 1, s = 1): , x x x 6 Oben stehen die augenblicklich reduzierten Kostenkoeffizienten, links die augenblicklichen Werte der Basisvariablen. Das Element in Zeile r (Pivotzeile) und Spalte s (Pivotspalte) heißt Pivotelement. Frage: Endlichkeit des Verfahrens? 2.4 Endlichkeit des Simplexverfahrens Im Spezialfall, dass sich in jeder Iteration ein verbesserter Zielfunktionswert ergibt, ist die Endlichkeit garantiert. (Es gibt nur endlich viele verschiedene Basen.) Problemfall: Existieren entartete Basislösungen, so kann der Fall auftreten, dass sich der Zielfunktionswert von einer Iteration zur nächsten nicht ändert. Es kann also passieren, dass man nach einer Abfolge von Austauschschritten wieder bei einer bereits betrachteten Basis ankommt. (Somit taucht ein Kreisen auf, kein endliches Verfahren!) Es sind Beispiele bekannt, für die ein solches Kreisen wirklich auftritt (etwa Beispiel von Bland). Es gibt verschiedene Methoden, um Kreisen zu verhindern. Hier 2 Methoden: 1. Regel von Bland ( Kleinste-Index-Regel ): schränkt sowohl Wahl der Pivot-Zeile als auch Wahl der Pivot-Spalte ein. Wahl der Pivot-Spalte: Wähle erste Nichtbasisvariable (d.h. mit kleinstem Index, Reihenfolge im Tableaut ist gleichgültig), die einen positiven reduzierten Kostenkoeffizienten hat. (Das ist eine eindeutige Festlegung!) Beispiel x 1 x 4 x 3 x Hier würde man x 3 auswählen. Wahl der Pivot-Zeile: Falls mehrere Basisvariablen bei Bestimmung von ε den Minimalwert ergeben, wird jene als Pivotzeile gewählt, die den kleinsten Index hat. 2. Lexikographische Auswahlregel: Keine Einschränkung in der Wahl der Pivotspalte, aber höherer Aufwand zur Wahl der Pivotzeile. Sei ã j die Pivotspalte des Tableaus. Für jede Zeile i im Tableau, für die ã ij > 0, berechne den Vektor, der sich ergibt, wenn diese Zeile durch das Pivotelement dividiert wird (inkl. rechter Seite als 0-te Spalte). Wähle jene Zeile, deren zugehöriger Vektor lexikographisch minimal ist. 20

21 2.5 Bestimmung einer zulässigen Ausgangsbasislösung Beispiel Hier führt die 1. Zeile auf ( 1 3, 0, 5 3, 1). Die 3. Zeile führt auf ( 1 3, 0, 7 3, 1). Die 3. Komponente ergibt die lexikographische Ordnung; wähle hier also die 3. Zeile. Man kann folgendes zeigen: Jede Zeile des Tableaus (mit Ausnahme der Zielfunktionszeile) bleibt lexikographisch positiv. Die Zielfunktionszeile nimmt von Iteration zu Iteration lexikographisch ab. Definition (lexikographische Ordnung für Vektoren) Seien u, v R k. u < v : u v < 0, d.h. die erste Nichtnullkomponente von u v ist negativ. Beispiele (1, 7, 5) < (3, 6, 2) (1, 5, 9) < (1, 7, 1) Bemerkung Ist das Minimum für ε eindeutig, so stimmen die Ergebnisse mit und ohne lexikographischer Regel überein. Für beide Methoden kann bewiesen werden, dass Kreisen verhindert wird. Die Endlichkeit des Simplexverfahrens ist somit garantiert. Nachteil der Regel von Bland: recht inflexibel, weil auch Wahl der Pivotspalte eingeschränkt. Noch zu behandeln: Bestimmung einer zulässigen Ausgangslösung Wie viele Pivotschritte können maximal auftreten? 2.5 Bestimmung einer zulässigen Ausgangsbasislösung In den typischen Methoden werden Hilfsprobleme (neue Zielfunktion, neue Variable) verwendet Methode 1 Gegeben lineares Programm max c t x Ax b x 0, wobei i mit b i < 0 (sonst: verwende triviale Startlösung). An einem Beispiel: max x 1 x 2 + x 3 21

22 2 Das Simplexverfahren 2x 1 x 2 + 2x 3 4 2x 1 3x 2 + x 3 5 x 1 + x 2 2x 3 1 x 1, x 2, x 3 0 Idee: Führe eine neue (künstliche) Variable ein; sei diese x 0 genannt. Betrachte folgendes Hilfsproblem: min x 0 max x 0 2x 1 x 2 + 2x 3 x 0 4 2x 1 3x 2 + x 3 x 0 5 x 1 + x 2 2x 3 x 0 1 x 0, x 1, x 2, x 3 0. Das Ausgangsproblem besitzt eine zulässige Lösung genau dann, wenn das Hilfsproblem eine Optimallösung mit Zielfunktionswert 0 (x 0 = 0) besitzt. x 1 x 2 x 3 x Zielfunktion des Hilfsproblems Zielfunktion des Ausgangsproblems x x x 6 (kein zulässiges Tableau). Nimm x 0 in Basis auf und werfe eine Variable, die zu einer Restriktion mit b i < 0 und b i max. gehört, aus der Basis. x 1 x 2 x 3 x x x x 6 (zulässiges Tableau). ( 9 ε = min 2, 5 3, 4 ) 4 noch nicht optimal für Hilfsproblem. x 1 x 6 x 3 x x x x 2 22

23 2.5 Bestimmung einer zulässigen Ausgangsbasislösung Dann x 1 x 6 x 0 x ab nun ignorieren x x x 2 (optimale Lösung des Hilfsproblems erreicht) = Ausgangsproblem zulässig. x 2 = 11 5, x 3 = 8 5, x 1 = 0, x 4 = 3, x 5 = x 6 = 0 ist zulässige Lösung des Ausgangsproblems. Nun streichen der Hilfszielfunktionszeile. Wenn x 0 in Nichtbasis ist, kann diese Spalte gestrichen werden. (Lösung des Beispiels noch nicht optimal!) Hilfsproblem in allgemeiner Form: min x 0 (Beweis der Korrektheit als Übung.) Methode 2 Eine künstliche Variable pro Restriktion. 1 Ax x 0. b 1 x 0,..., x n 0 max x 1 + x 2 + x 3 x 1 + 2x 2 + 3x 3 = 3 x 1 + 2x 2 + 6x 3 = 2 4x 2 + 3x 3 = 5 3x 3 + x 4 = 1 x 1, x 2, x 3, x 4 0 Hilfsproblem min x 5 + x 6 + x 7 + x 8 max x 5 x 6 x 7 x 8 x 1 + 2x 2 + 3x 3 + x 5 = 3 x 1 + 2x 2 + 6x 3 + x 6 = 2 4x 2 + 9x 3 + x 7 = 5 3x 3 + x 4 + x 8 = 1 x 1,..., x 8 0 Beobachtung: Hilfsproblem hat Optimalwert 0 Ausgangsproblem besitzt zulässige Lösung. 23

24 2 Das Simplexverfahren (5, 6, 7, 8) stellt zulässige Basis für Hilfsproblem dar: x 5 = 3, x 6 = 7, x 7 = 5, x 8 = 1. Wir müssen die Hilfszielfunktion durch NBV x 1,..., x 4 darstellen. x 5 = x 1 + 2x 2 + 3x 3 3 x 6 = x 1 + 2x 2 + 6x 3 2 x 7 = 4x 2 + 5x 3 5 x 8 = 3x 3 + x 4 1 Addieren ergibt x 5 x 6 x 7 x 8 = 8x x 3 + x x 1 x 2 x 3 x Hilfszielfunktion Zielfunktion x x x x 8 Nun wird das Hilfsproblem gelöst. Eine mögliche Folge von Austauschschritten: 1. x 4 rein, x 8 raus 2. x 3 rein, x 4 raus 3. x 2 rein, x 6 raus 4. x 1 rein, x 5 raus x 5 x 6 x 4 x Hilfsfunktionswert 1 x x 2 0 x x 3 Optimaler Wert des Hilfsproblems ist 0, d.h. es gibt eine zulässige Lösung für das Ausgangsproblem. x 1 = 1, x 2 = 1 2, x 3 = 1 3, x 4 = 0. Zum Weiterrechnen: Hilfszielfunktion streichen, ebenso alle Spalten zu künstlichen Variablen in Nichtbasis. Bemerkung Es gibt viele Varianten und Modifikationen dieser Methoden. Die M-Methode etwa ist eine Variante von Methode 1 (Hilfszielfunktion eigentliche Zielfunktion M x, M groß genug). 2.6 Einige Erweiterungen des Simplexverfahrens 1. Gleichungen 2. Variablen ohne Vorzeichenbeschränkungen 3. Variablen mit oberen Schranken (z.b. x 4 39) Ziel: direkt behandeln, ohne Umformung (in Fällen 1, 2), bzw. ohne Behandlung als explizite Restriktion (Fall 3). 24

25 2.6.1 Gleichungen 2.6 Einige Erweiterungen des Simplexverfahrens Variante 1 Gleichungssystem Ax = b kann nach einer Basis B aufgelöst werden und dann weitermachen. Nachteile: aufwendig Es ist nicht offensichtlich zulässig. Variante 2 Beispiel Verwende künstliche Variablen (eine pro Gleichung). max x 1 + 2x 2 x 3 x 1 + x 2 4 2x 1 + x 2 + x 3 = 5 x 2 x 3 = 1 x 1, x 2, x 3 0 Hilfszielfunktion: min y 1 + y 2 x 1 + x 2 4 2x 1 + x 2 + x 3 + y 1 = 5 x 2 + x 3 + y 2 = 1 x 1, x 2, x 3, y 1, y 2 0 Beobachtung: Hat Hilfsproblem Optimalwert 0, so existiert eine zulässige Basis für das Ausgangsproblem HZF ZF x y y 2 Zur Übung fertigrechnen. Optimallösung: x 1 = 2, x 2 = 0, x 3 = Variablen ohne Vorzeichenbeschränkung Optimalitätskriterium abändern: Änderung nur für nicht vorzeichenbeschränkte Variablen. Basislösung x = (x B,..., x N ) ist optimal c j 0 für alle j N und x j ist vorzeichenbeschränkt und c j = 0 für alle j N und x j ist nicht vorzeichenbeschränkt. Verändertes Spaltenauswahlkriterium: Wähle NBV, die das Optimalitätskriterium nicht erfüllt. Veränderte Bestimmung der Pivotzeile (Variable, die neu in Basis kommt): Für nicht vorzeichenbeschränkte Basisvariablen ist kein Test auf Positivität erforderlich, ignoriere also solche Zeilen. Annahme: x s kommt neu in Basis. Fallunterscheidung: 1. c s > 0, d.h. x s nicht erhöht. (Anmerkung: Falls x s vorzeichenbeschränkt, ist dies der einzige Fall.) x i = b i ã is x s (x i ist die i-te Basisvariable). 25

26 2 Das Simplexverfahren a) x i ist vorzeichenbeschränkt. x s b i ã is für ã is > 0. Keine Einschränkung für x s für ã is 0. b) x i ist nicht vorzeichenbeschränkt. Keine Einschränkung für Wert von x s, keine Aktion nötig. 2. x s wird reduziert, wird < 0. (Dieser Fall tritt nur für nicht vorzeichenbeschr. x s auf.) a) x i ist vorzeichenbeschränkt. x i = b i ã is x s wie oben. x s b i ã is für ã is < 0. Keine Einschränkung für ã is 0. b) x i nicht vorzeichenbeschränkt. Keine Aktion nötig. ( { } bi ε = min min : ã is > 0 und x i vorzeichenbeschränkt und c s > 0, ã is { }) (2.1) bi min ã is : ã is < 0 und x i vorzeichenbeschränkt und c s < 0 Eine Zeile, für die das Minimum in ε angenommen wird, kann als Pivotzeile gewählt werden. Verändertes Kriterium für das Vorliegen eines unbeschränkten Problems: Unbeschränktheit liegt vor, wenn es eine NBV (mit c s 0) gibt, für die (2.1) keine Einschränkung ergibt. Beispiel max x 1 + 2x 2 (x 1, x 2 nicht vorzeichenbeschränkt). x 1 x 2 2 x 1 + x 2 1 x 1 + x 2 3 Hier ist Wenn beschränkt, wäre hier fertig. x 1 x x x x 5 { 3 ε = min 1, 1 } = 1. 1 x 1 x x x x 5 26

27 2.6 Einige Erweiterungen des Simplexverfahrens Hier ist c 1 < 0 { } 2 ε = min = 1. 2 x 5 x x 3 2 x x 1 Optimallösung: x 1 = 1, x 2 = 2, x 3 = 5, Zielfunktionswert: Variablen mit oberen Schranken Beschränkte Variable: 0 x j d j, d j > 0. (In Wirklichkeit: Kann untere Schranke beliebig verschieben. Sonst: Kombiniere 2 und 3.) Das entspricht x j + x j = d j mit x j, x j 0. (2.2) x j ist die Komplementärvariable zu x j (ebenso umgekehrt). Statt (2.2) als Restriktion im Simplexverfahren mitzuführen, führt man nur x j oder x j als augenblickliche Variable der Komponente j mit. Wir brauchen neue Auswahlregel: Sei x s die Variable, die neu in die Basis kommt. Mögliche Situationen: 1. x s ist eine beschränkte Variable, d.h. x s d s, also ε d s. 2. Basisvariable x i 0 und x i nicht nach oben beschränkt. x s b i ã is für ã is > 0, alles wie üblich. D.h. und x i nach oben beschränt. ε b i ã is für ã is > 0 3. Basisvariable x i 0 und x i nach oben beschränkt (x i d i ). a) ã is < 0: x s b i d i ã is, b) ã is > 0: x s b i ã is wie üblich, ε b i d i ã is. ε b i ã is. Noch zu überlegen: Vorgangsweise, wenn Minimum durch oder angenommen wird. Ad Situation 1: x s wird auf d s gesetzt, i.a. wird kein BV zu 0. Was tun? x s = d s x s = 0 Idee: Tausche x s und x s aus. D.h. statt x s kommt x s ins Problem. (Bzw. wäre x s dort, dann kommt x s neu hinzu.) 27

28 2 Das Simplexverfahren Wann immer Situation 1 auftaucht, wird Variable durch ihr Komplement ersetzt. ã i1 x N(1) + + ã is x N(n) + + ã in x N(n) + x B(i) = b i, wobei N(j) Index der j-ten NBV, B(i) Index der i-ten BV. x N(s) + x N(s) = d N(s) x N(s) = d N(s) x N(s) Somit ã i1 x N(1) + = ã is x N(s) + + ã in x N(n) + x B(i) = b i ã is d N(s) Beobachtung: Übergang zur Komplementärvar. kann in 2 Schritten im Tableau vollzogen werden. 1. Spalte zur Var. x N(s) mit 1 mult. 2. rechte Seite ersetzen durch b i ã is d N(s) x N(s) ist nun 0, ist in Nichtbasis. Algorithmus kann nun fortgesetzt werden, nächster Pivotschritt. Ad Situation 3: Fall Basisvariable x r (r: Pivotzeile) erreicht Schranke, muss also durch ihre Komplementärvariable ersetzt werden. Vorgangsweise: 1. Pivotschritt mit Pivotelement ã rs < 0 (ε = b r d r ã rs ) 2. Übergang von x r zu Komplementärvariable (neue NBV). Übergang wie in Situation 1. Beispiel max x 1 + x 2 x 1 x 2 2 x 1 + x 2 3 x 2 4 x 1, x 2 0 Somit x 2 + x 2 = 4. x 1 x x x 4 ε = min { 4 }{{} Situation 1, 3 }{{} Situation 2 } = 3. x 1 x x x 2 28

29 2.6 Einige Erweiterungen des Simplexverfahrens { } 3 4 ε = min = 1. 1 } {{ } Situation 3 Fallunterscheidung, in welcher Situation Minimum für ε erreicht wird. x 2 x x x 1 optimal. Beispiel x 2 x x x 1 max x 1 4x 2 x 1 x 2 + x 3 = 2 0 x x 3 5 x 1 0 { ε = min x 1 x x 3 }{{} 4, Situation 1 } } {{ } Situation 3 = 3. x 1 x x 2 { } 3 4 ε = min = 1. 1 } {{ } Sit. 3 x 2 x x 1 29

30 2 Das Simplexverfahren ( Temporär unzulässig. ) Übergang zu x 2. Das ist optimal: x 1 = 1, x 3 = 5, x 2 = 4. x 2 x x Anmerkungen zur Wahl der Pivotspalte Es gibt keine dominierende Regel. Verschiedene Regeln im Einsatz: 1. Regel von Dantzig: Wähle Nichtbasisvariable mit dem stärksten Anstieg im Raum der augenblicklichen NBV. (Für vorzeichenbeschr. Variablen ist der Anstieg durch c s gegeben, sonst durch c s.) c j : betragsgrößter red. Kostenkoeff. für Variable, die Opt.krit. erfüllt. Vorteil: Recht gut für Verwendung durch Hand. Nachteil: für große lineare Programme zu aufwendig! 2. Erste-Index-Regel: Wähle die erste NBV, die Optimalitätskriterium verletzt Vorteil: schnelle Auswertung Nachteil: i.a. größere Anzahl an Pivotschritten als bei anderen Verfahren 3. stärkster Zuwachs der Zielfunktion: Berechnet für jede mögliche Wahl der Pivotspalte s das zugehörige ε = ε (s) und wählt jene Pivotspalte, für die (Anstieg der Zielfkt.) maximal ist. Nachteil: sehr, sehr aufwendig. ε (s) c s 4. stärkster Anstieg im Raum aller Variablen: Änderung von NBV x N(j) um 1, so resultiert Änderung des ZFW um c j. Änderung der Werte der BV: x B = A 1 B A 1 B A N x N = b ã j. Hier x N(j) = 1, x N(k) = 0 für k j. ã j ist die j-te Spalte von ÃN. x = (x B, x N ). Änderungsvektor ( ã ij, ã 2j,..., ã mk, 0,..., 0, 1 }{{} Stelle von x N(j), 0,..., 0). Komponente zu x N(j) des Gradienten der Zielfunktion im Raum aller Variablen: c j 1 + m i=1 ã2 ij (2.3) Auswahl jener Variable x N(j), für die (2.3) maximal ist. Aufwendiger als 1., liefert meistens aber geringere Anzahl an Pivotschritte. Etwas Rechenaufwand kann durch Rekursionsformeln von Goldfarb und Reid eingespart werden. 5. Kandidatenlisten-Regeln: Man baut sich Pool von Kandidatenspalten/-variablen auf und wendet auf diesen Pool eine Auswahlregel (z.b ) an. Meistens kommen nur Variablen in den Pool, die das Optimalitätskriterium verletzen. Verschiedene Methoden für Poolmanagement. 30

31 2.8 Kurze Anmerkung zur Effizienz des Simplexverfahrens 2.8 Kurze Anmerkung zur Effizienz des Simplexverfahrens 2 Einflussgrößen: 1. Zahl der Pivotschritte: Kernproblem des Simplexverfahrens, 2. Aufwand pro Pivotschritt: ist polynomial, mit Standardmethoden aus numerischen linearen Algebra gut im Griff Zahl der Pivotschritte Man kennt keine Spaltenauswahlregel, für die das Simplexverfahren auch im schlechtesten Fall nur eine polynomiale Anzahl von Pivotschritten benötigt. Für die meisten bekannten Spaltenauswahlregeln kennt man Beispiele für lineare Programme, für die das resultierende Simplexverfahren exponentiell viele Pivotschritte benötigt (z.b. Klee, Minty Beispiele). In der Praxis ist die Anzahl der Pivotschritte i.a. vernünftig klein, oft sogar linear in der Anzahl der Restriktionen (empirische Aussage). Average case Analyse (Borgwardt, 1977, später Adler und Megiddo): Im durchschnittlichen Fall unter Gleichverteilungsannahme der Daten ist die Anzahl der Pivotschritte polynomiell beschränkt (Borgwardt). Später: O ( min{n 2, m 2 } ). Smoothed analysis ( geglättete Analyse ; Spielman): Die sich schlecht verhaltenden Instanzen sind recht dünn verteilt. 31

32 2 Das Simplexverfahren 32

33 3 Konvexe Mengen, Polyeder und Zusammenhang zur linearen Optimierung Definition C R n heißt konvex, wenn Lemma Seien C, D konvex. Dann gilt: 1. λc := {λx x C} ist konvex für alle λ. 2. C D ist konvex. x, y C λ [0, 1] : λx + (1 λ)y C. 3. Der Durchschnitt von endlichen vielen konvexen Mengen ist konvex. 4. C + D = {x + y x C, y D} ist konvex. Definition (konvexe Hülle) Sei S R n. Die kleinste (im Sinne von ) konvexe Menge, die S enthält, heißt konvexe Hülle von S, conv(s). Bemerkung Sei S = {x 1,..., x k }. Dann ist { k conv(s) = λ i x i x i S, λ i 0, (Dieser Darstellungssatz gilt auch für nicht endliche Mengen.) i=1 } k λ i = 1. Definition (Kegel) Sei S R n mit 0 S. S heißt Kegel (engl. cone), wenn Beispiele Skizzen. x S α > 0 : αx S. Definition (Hyperebene, Halbraum) Sei a R n, α R. i=1 1. Die Menge H := {x R n a t x = α} R n heißt Hyperebene. (Spezialfälle: n = 2 Gerade, n = 3 Ebene.) 2. Die Menge H 1 = {x R n a t x α} heißt (abgeschlossener) Halbraum. Definition (Polyeder, Polytop) 1. Ein Polyeder ist der Durchschnitt von endlich vielen Halbräumen (engl. polyhedron). 2. Ein Polytop ist ein nicht leerer, beschränkter Polyeder. Beispiele Skizzen. 33

34 3 Konvexe Mengen, Polyeder und Zusammenhang zur linearen Optimierung Lemma Polyeder sind konvexe Mengen. Beweis Als Übung. Bemerkung Die Restriktionenmenge eines linearen Programms beschreibt einen Polyeder. Korollar Die Restriktionenmenge eines linearen Programms ist konvex. Frage: Zusammenhang zwischen Polyeder und Simplexverfahren (insbesondere Basislösungen)? Definition (Extremalpunkt, Ecke, Eckpunkt) Sei C R n konvex. x C heißt Extremalpunkt (oder Ecke) von C, falls es keine 2 verschiedenen Punkte x 1, x 2 C (x 1 x 2 ) gibt, sodass Beispiele Kreis: Jeder Randpunkt ist Ecke. Halbraum: keine Ecken. Beispiel In Standardform: 2 NBV, 1 BV. 1. B = (1), x 1 = 3, x 2 = x 3 = 0 2. B = (2), x 1 = 3, x 1 = x 3 = 0 3. B = (3), x 3 = 3, x 1 = x 2 = 0 Skizze. x = αx 1 + (1 α)x 2 mit α (0, 1). x 1 + x 2 3 x 1, x 2 0 x 1 + x 2 + x 3 = 3 x 1, x 2, x Zusammenhang zwischen Basislösungen und Ecken Satz 3.1 (Zusammenhang zwischen Basislösungen und Ecken) Sei A eine m n Matrix, rank A = m, b R m. Betrachte Polyeder k := {x R n Ax = b, x 0}. Dann ist x genau dann eine (zulässige) Ecke von K, wenn x eine (zulässige) Basislösung des linearen Programms mit den Restriktionen Ax = b, x 0 ist. Beweis = : Sei x = (x 1,..., x m, 0,..., 0) eine zulässige Basislösung, d.h. x i 0 für alle i {1,..., m}. m i=1 a ix i = b, wobei a i die i-te Spalte von A ist. {a 1,..., a m } ist linear unabhängig. Annahme: x ist keine Ecke. 34

35 3.1 Zusammenhang zwischen Basislösungen und Ecken Dann existieren y, z (y z) und α (0, 1), sodass x = αy + (1 α)z und Ay = b, y 0 und Az = b, z 0. Da x j = 0 für j > m und y 0, z 0, α (0, 1), gilt y j = 0 und z j = 0 für alle j > m. Insgesamt also m m a i y i = b und a i z i = b. i=1 Da {a 1,..., a m } linear unabhängig, folgt y = z (lineares Gleichungssystem eindeutig lösbar), Widerspruch. = : Sei x K eine (zulässige) Ecke, i=1 x = (x 1,..., x q, 0,..., 0) } {{ } >0 (ggf. Komponenten umnummerieren). Aus x K folgt q x i a i = b. i=1 Zu zeigen bleibt noch, dass {a 1,..., a q } linear unabhängig ist. Annahme: {a 1,..., a q } linear abhängig. Dann existieren y 1,..., y q R mit y = (y 1,..., y q ) 0 und q i=1 y ia i = 0. ỹ = (y 1,..., y q, 0,..., 0) R n mit Aỹ = 0. Da x i > 0 für alle i {1,..., q}, gibt es ein ε > 0 mit Somit u := x + εỹ 0 v := x εỹ 0 Au = Ax + εaỹ = b + 0 = b (analog Av = b) und somit u K, v K und u v (da ỹ 0). Nun gilt aber x = 1 2 u v, Widerspruch dazu, dass x Ecke ist. rg A = m. x R n ist Ecke von {x R n Ax = b, x 0} x ist zulässige Lösung. Konsequenz und Beobachtungen K = {x R n Ax = b, x 0}, rg A = m (vgl. Satz 3.1). 1. K = K besitzt mindestens eine Ecke. 2. K und beschränkt bzw. es liegt beschränktes lineares Programm vor = Es gibt optimale Ecke (d.h. Ecke von K, die einer Optimallösung des linearen Programms entspricht). 3. Es gibt endlich viele Ecken. Definition (entartete Ecke) Sei K = {x R n Ax = b, x 0} mit rg A = m. x heißt entartete ( degenerierte) Ecke von K, wenn sich mehr als n m Hyperebenen in x schneiden (d.h. mehr als n m Komponenten von x 0 sind). Bemerkung Das ist gleichbedeutend damit, dass x eine entartete (zulässige) Basislösung ist. 35

36 3 Konvexe Mengen, Polyeder und Zusammenhang zur linearen Optimierung Konsequenz Wenn Entartung vorliegt, dann gibt es keine eindeutige Zuordnung zwischen Ecken und Basen. Eine entartete Ecke korrespondiert zu mehreren Basen. Tritt im Simplexverfahren Entartung auf, so steckt man in einer entarteten Ecke fest. 3.2 Geometrische Interpretation des Simplexverfahrens 1. Starte in (zulässiger) Ecke von K. 2. Teste, ob Ecke optimal ist (lokaler Optimumstest). (Das entspricht dem Test, ob es eine benachbarte/adjazente Ecke mit besserem Zielfunktionswert gibt. Die zugehörigen Basislösungen entstehen durch Tausch einer BV gegen eine NBV.) 3. Wenn eine Ecke noch nicht optimal ist, geht man zur Ecke mit besserem (nicht schlechterem im Entartungsfall) ZWF, sonst stoppe. 36

37 4 Dualität 4.1 Motivation und Einführung Beispiel min x 2 + y 2 Lagrangefunktion: Nun muss gelten: 2x + y = 5. L(x, y, λ) = x 2 + y 2 + λ (5 y 2x). L x = 0 L y = 0 L λ = 0 L x = 2x 2λ L y = 2y λ L λ = 5 y 2x Gegeben: lineares Programm (primal). Gesucht ist ein anderes lineares Programm (dual) mit dem Ziel eines Optimalitätsnachweises à la Lagrange-Multiplikatoren. Definition (Duales lineares Programm) Sei max c t x Ax b x 0 das primale Problem. Das dazu duale lineare Programm hat folgende Gestalt: (y: Vektor der dualen Variablen). min b t y A t y c y 0 Bemerkung y spielt dabei die Rolle der Lagrangemultiplikatoren für das primale Problem. Beispiel Primales Problem: max 4x 1 + 2x 2 x 3 x 1 2x 2 + x 3 3 2x 1 + 3x 3 5 x 2 4 x 1, x 2, x

38 4 Dualität Duales Problem: min 3y 1 + 5y 2 + 4y 3 y 1 + 2y 2 4 2y 1 + y 3 2 y 1 + 3y 2 1 y 1, y 2, y Direkte Behandlung von Gleichungen Seien α R n, β R. α t x = β entspricht α t x β ( y 1 ) α t x β ( y 2 ). Somit lautet das duale Problem: min βy 1 βy 2 α 1 y 1 α 1 y 2 c 1 α 2 y 1 α 2 y 2 c 2 α n y 1 α n y 2 c n y 1, y Das ist äquivalent zu min βỹ α 1 ỹ c 1. α n ỹ c n (ỹ nicht vorzeichenbeschränkt). Eine Gleichung im primalen Problem entspricht also einer nicht vorzeichenbeschränkten Variablen im dualen Problem Direkte Behandlung von nicht vorzeichenbeschränkten Variablen x j nicht vorzeichenbeschränkt bedeutet α 1 Seien α =. α n, β = β 1 x j = x + j x j mit x + j, x j 0... Betrachte das Problem β n max cz 38

39 4.1 Motivation und Einführung αz β (z nicht vorzeichenbeschränkt). Das ist äquivalent zu max c (z + z ) α (z + z ) β z +, z 0. Das dazu duale Problem lautet: n min β j y j j=1 αj y j c αj y j c y j 0. Eine nicht vorzeichenbeschränkte Variable im primalen Problem entspricht also einer Gleichungsrestriktion als zugehöriger dualer Restriktion. Beispiel Das primale Problem entspricht dem dualen Problem Zusammenfassung P (primal) Zielfunktion max c t x rechte Seite b Koeffizientenmatrix A i-te Restriktion ist Gleichung i-te Restriktion ist -Ungleichung j-te Variable ist vorzeichenbeschränkt j-te Variable ist nicht vorzeichenbeschr. max x 1 + x 2 + 3x 3 2x 1 + x 2 x 3 5 x 1 x 2 3 x 1 2x 2 + 4x 3 = 1 x 1, x 2 0 min 5y 1 + 3y 2 + y 3 2y 1 + y 2 + y 3 1 y 1 y 2 2y 3 1 y 1 + 4y 3 = 3 y 1, y 2 0. D (dual) rechte Seite c Zielfunktion min b t y Koeffizientenmatrix A t i-te duale Variable ist nicht vorzeichenbeschr. i-te duale Variable ist vorzeichenbeschränkt j-te duale Restriktion ist -Ungleichung j-te duale Restriktion ist Gleichung Bemerkung Das duale lineare Programm von (D) ist wieder (P). 39

40 4 Dualität 4.2 Interpretation des dualen Problems zum Transportproblem m Fabriken; a i : erzeugte Menge in Fabrik i. n Abnehmer; b j : Bedarf von Abnehmer j. Annahme: m a i = i=1 n b j. c ij : Transportkosten pro Einheit von Fabrik i zu Abnehmer j. Ziel: minimiere Transportkosten. Variable x ij : Transportmenge von Fabrik i zu Abnehmer j. Das Problem lautet also m n min c ij x ij j=1 i=1 j=1 n x ij = a i j = 1,..., m Dualvariable u i j=1 m x ij = b j j = 1,..., n Dualvariable v i i=1 x ij 0 Duales Problem: (u, v, nicht vorzeichenbeschränkt). m n max a i u i + b j v j i=1 j=1 u i + v j c ij Bemerkung x ij kommt in zwei Restriktionen in (P) vor. Frage: Bedeutung bzw. Interpretation des Dualproblems? Setze u i := u i. Das duale Problem lautet dann n m max b j v j a i u i j=1 i=1 v j u i c ij i = 1,..., m; j = 1,..., n. Betrachte (externen) Transporteur: Kauft Waren in Fabriken auf, verkauft sie bei Abnehmern wieder und möchte Gewinn maximieren. v j : Preis, den der Transporteur beim Verkauf einer Einheit beim Abnehmer j erhält. u i : Preis, der beim Kauf in Fabrik i zu zahlen ist. Dann ist n m b j v j a i u i genau der Gewinn des Transporteurs und j=1 i=1 v j u i c ij eine ökonomische Bedingung, damit der Produzent einwilligt. 40

41 4.3 Der Dualitätssatz der linearen Optimierung 4.3 Der Dualitätssatz der linearen Optimierung Satz 4.1 (Dualitätssatz) Besitzt eines von zwei zueinander dualen linearen Programmen eine endliche Lösung, so auch das andere, und die optimalen Zielfunktionswerte stimmen überein. Satz 4.2 (schwacher Dualitätssatz) Sei (P) max c t x Ax b x 0 und (D) min b t y A t y c y 0. Seien weiters M P = {x R n Ax b, x 0}, M D = {y R m A t y c, y 0}. Dann gilt x M P, y M D : c t x b t y. Beweis Sei x M P und y M D. Dann gilt Ax b und x 0 und Daraus folgt A t y c und y 0. c t x (A t y) t x = y t Ax y t b = b t y. Satz 4.3 (Korollar) Sei x M P und y M D mit c t x = b t y. Dann ist x Optimallösung für (P) und y Optimallösung für (D). Satz 4.4 (Existenzsatz) 1. Haben zwei zueinander duale lineare Programme beide zulässige Lösungen, so haben beide eine endliche Optimallösung und die optimalen Zielfunktionswerte stimmen überein. 2. Wenn nur eines der zwei zueinander dualen linearen Programme eine zulässige Lösung hat, dann ist dieses Problem unbeschränkt, d.h. besitzt keine endliche Optimallösung. 3. Hat ein Problem zulässige Lösungen, aber keine endliche Optimallösung (also unbeschränkt), so besitzt das duale Problem keine zulässige Lösung. Beweis 41

42 4 Dualität 1. x M P, y M D. Dann gilt wegen Satz 4.2 c t x b t y. Somit ist {c t x x M P } eine nach oben beschränkte Menge. M P ist abgeschlossen, also wird das Maximum angenommen. Somit besitzt (P) eine endliche Optimallösung. Aus Satz 4.1 folgt, dass (D) eine endliche Optimallösung besitzt und die optimalen Zielfunktionswerte übereinstimmen. 2. Sei M P, also M D =. Annahme: (P) besitzt eine endliche Optimallösung. Wegen Satz 4.1 besitzt dann auch (D) eine endliche Optimallösung, Widerspruch zu (D) unzulässig. 3. Sei M P, (P) unbeschränkt. Annahme: M D. Dann folgt aus 1, dass beide Probleme eine endliche Optimallösung bestizen, Widerspruch zu (P) unbeschränkt. Satz 4.5 (Komplementaritätssatz, Satz vom komplementären Schlupf) Sei x M P und y M D. Dann sind folgende beiden Aussagen äquivalent: 1. x ist optimal für (P) und y ist optimal für (D). 2. Interpretation von (4.1) und (4.2): somit gilt für alle j = 1,..., n also i=1 x t x t (A t y c) = 0 (4.1) y t (Ax b) = 0 (4.2) }{{} (A t y c) = 0 } {{ } 0 0 x j = 0 oder (A t y c) j = 0, m m a ij y i c j = 0 a ij y j = c j (j-te Restriktion im dualen Problem ist mit Gleichheit erfüllt). D.h. (4.1) gilt genau dann, wenn für alle j = 1,..., n gilt: Entweder ist j-te primale Variable x j = 0 oder j-te duale Restriktion ist mit Gleichheit erfüllt. Analog interpretiert man (4.2): y t (Ax b) = 0 Entweder ist die i-te duale Variable y i = 0 oder die i-te primale Restriktion ist mit Gleichheit erfüllt. Beweis = : Sei i=1 x M P, d.h. Ax b, x 0 y M D, d.h. A t y c, y 0. Wegen A t y c und x 0 gilt (Dualitätssatz, x und y optimal). (A t y) t x c t x = b t y (4.3) (A t y) t x = y t Ax y t b = b t y (da x M P, y 0). Insgesamt y t (Ax b) 0. Aus (4.3) folgt außerdem y t (Ax b) 0. Somit folgt (4.2). 42

43 4.3 Der Dualitätssatz der linearen Optimierung Sei x M P, y M D mit (4.1). Ax b (Ax) t y b t y = c t x. Erhalte einmal 0 und einmal 0, also x t (A t y c) = 0 (4.1). = : Sei x M P, y M D, (4.1) und (4.2) erfüllt. Also x t (A t y c) = y t (Ax b) = 0. x t A t y x t c = 0 und y t Ax y t b = 0 x t A t y = x t c = c t x y t Ax = y t b = b t y } {{ } =y t Ax und somit c t x = c t y, also ist (wegen x M P, y M D ) x optimal für (P) und y optimal für (D). Beispiel Betrachte das primale Problem (P) max 7x 1 + 6x 2 + 5x 3 2x 4 + 3x 5 x 1 + 3x 2 + 5x 3 2x 4 + 2x 5 4 4x 1 + 2x 2 2x 3 + x 4 + x 5 3 2x 1 + 4x 2 + 4x 3 2x 4 + 5x 5 5 3x 1 + x 2 + 2x 3 x 4 2x 5 1 x 1, x 2, x 3, x 4, x 5 0 und das dazu duale Problem (D) min 4y 1 + 3y 2 + 5y 3 + y 4 Teste, ob x = ( y 1 + 4y y 3 + 3y 4 7 3y 1 + 2y 2 + 4y 3 + y 4 6 5y 1 2y 2 + 4y 3 + 2y 4 5 2y 1 + y 2 2y 3 y 4 2 2y 1 + y 2 + 5y 3 2y 4 3 y 1, y 2, y 3, y 4 0. t 5 3 0) optimal für (P) ist. Setze dazu x in die primale Restriktion ein: = = < = 1, 43

44 4 Dualität also y 3 = 0. Betrachte nun (4.1): x 2, x 3, x 4 > 0, daher müssen die 2., 3. und 4. duale Restriktion mit Gleichheit erfültt sein: 3y 1 + 2y 2 + 4y 3 + y 4 = 6 5y 1 2y 2 + 4y 3 + 2y 4 = 5 2y 1 + y 2 2y 3 y 4 = 2, also y 1 = 1, y 2 = 1, y 3 = 0, y 4 = 1. Es steht noch der Test aus, ob y M D. Betrachte dazu die 1. und 5. duale Restriktion. Es gilt zwar , nicht aber Die Restriktion ist damit verletzt und y nicht zulässig. Daher ist x nicht optimal. Satz 4.1 besitzt mehrere Beweismöglichkeiten. Die einfachste und kürzeste benutzt das Simplexverfahren. Wir gehen hier einen längeren Umweg. 4.4 Trennungssätze im R n Definition (Trennung) Die Hyperebene H = {x a t x = a 0 } trennt die nicht leere Menge A von der nicht leeren Menge B, wenn gilt. Sie trennt echt, wenn es ein α R gibt mit x A, y B : a t x a 0 a t y x A, y B : a t x α < a t y. Satz 4.6 (Trennung eines Punktes von einer konvexen Menge) Sei C, C R n, C konvex, y / C (topologischer Abschluss von C). Dann gibt es eine Hyperebene H, die den Punkt y echt von C trennt, d.h. Beweisskizze Betrachte a R n, a 0 R x C : a t x a 0 < a t y. inf x y = x 0 y =: δ. x C Sei x C beliebig. Weil C konvex: x 0 + λ(x x 0 ) C für ein 0 λ 1. d.h. Sei λ 0. Dann folgt für alle λ mit 0 < λ 1. d.h. x 0 + λ(x x 0 ) y > λ = x 0 y, x 0 y 2 + 2λ(x x 0 ) t (x 0 y) + λ 2 x x 0 2 x 0 y 2. 2(x x 0 ) t (x 0 y) + λ x x 0 2 } {{ } 0 =(x x 0) t (x x 0) (x x 0 ) t (x 0 y) 0, (x 0 y) t x (x 0 y) t x 0 = (x 0 y) t y + (x 0 y) t (x 0 y), 44

45 4.4 Trennungssätze im R n somit (x 0 y) t x > (x 0 y) t y x C. Verwende x 0 y als Vektor a für die Hyperebene H: H = {x (x 0 y) t = (x 0 y) t y} } {{ } =a 0 trennt y echt von C. Definition Eine Hyperebene H heißt Stützhyperebene (engl. supporting plain ) von C, wenn gilt: 1. H C, 2. C liegt ganz auf einer Seite von H. Satz 4.7 Sei C R n nicht leer und konvex, y ein Randpunkt von C. Dann gibt es eine Stützhyperebene H für C durch y. Beweisidee Durch Grenzprozesss aus Satz 4.6. Wähle Folge y k mit y k y, y k / C. Sei a k := x 0 (y k ) y k die Folge von (normierten) Normalvektoren der wie im Beweis von Satz 4.6 konstruierten trennenden Hyperebenen. Es gilt a t ky k < inf x C at kx. Da {a k } beschränkt ist, gibt es eine konvergente Teilfolge von a k, deren Grenzwert sei a. Dann gilt a t y = lim k at ky k lim k at kx = a t x für alle x C. Satz 4.8 Seien C 1, C 2 R n, C 1, C 2 und konvex, C 1 C 2 =, C 2 offen. Dann gibt es eine Hyperebene, die C 1 und C 2 trennt, d.h. Beweis Sei 0 / C 3, da C 1 C 2 =. C 3 ist konvex. C 3 ist offen, da C 3 = a R n, β R x C 1, y C 2 : a t x β < a t y. C 3 = {y x y C 2, x C 1 }. {y x y C 2 } } {{ } x C 1 offen, da C 2 offen eine Vereinigung von offenen Mengen, also offen ist. Es gibt also eine Hyperebene H, sodass C 3 ganz in einem von H erzeugten Halbraum liegt, d.h. a R n : a t (y x) 0 = a t 0. Setze Dann gilt β := inf y C 2 a t y. a t x β < a t y (< weil C 2 offen). 45

46 4 Dualität 4.5 Alternativsätze Satz 4.9 Entweder besitzt das Gleichungssystem Ax = b (4.4) eine Lösung, oder das Gleichungssystem A t y = 0 b t y = 0 (4.5) besitzt eine Lösung (aber nicht beide gleichzeitig). Beweis 1. Wir zeigen, dass (4.4) und (4.5) nicht zugleich lösbar sind. Beweis durch Widerspruch. Angenommen, es gibt x und y mit Ax = b A t y = 0 b t y = 1 Daraus folgt Widerspruch. 1 = b t y = (Ax) t y = x t A t y = 0, 2. Wenn Ax = b nicht lösbar ist, so ist A t y = 0, b t y = 1 lösbar: Ax = b nicht lösbar heißt, dass b linear unabhängig von den Spalten von A ist. Sei rank A = r. Dann gilt ( ) rank Ab = r + 1 ( ) rank A t b t = r + 1 ( ) A t 0 rank b t = r Letztere ist genau die erweiterte Koeffizientenmatrix von (4.5). 3. Analog sieht man, dass (4.4) lösbar ist, wenn (4.5) nicht lösbar ist. Satz 4.10 Entweder besitzt das System Ax = b x 0 eine Lösung, oder das System A t y 0 b t y < 0 besitzt eine Lösung, aber nie beide gleichzeitig. (4.6) (4.7) Bemerkung Geometrische Interpretation: K = {z R n z = Ax, z 0} ist Kegel (der von den Spalten von A aufgespannte Kegel). 46

47 4.5 Alternativsätze (4.6) hat Lösung b liegt im Kegel K (4.7) hat Lösung es gibt eine Hyperebene durch 0, die den Kegel von b trennt Beweis 1. (4.6) und (4.7) sind nicht zugleich lösbar. Beweis durch Wiederspruch. Angenommen es gibt x und y mit Ax = b, x 0 und A t y 0, b t < 0. Dann gilt Widerspruch. 0 > b t y = (Ax) t y = x t }{{} 0 A t y 0, }{{} 0 2. Wir zeigen, dass wenn Ax = b keine Lösung hat (somit (4.6) auch keine Lösung hat), (4.7) A t Y 0, b t y < 0 eine Lösung hat. Ax = b hat keine Lösung, somit hat A t y = 0, b t y = 1 lt. Satz 4.9 eine Lösung. Sei ŷ eine solche Lösung, also A t ŷ = 0, b t ŷ = 1. Betrachte ŷ = ŷ. Es gilt A t ŷ = 0 0 und b t ŷ = 1 < 0, ŷ ist also eine Lösung von (4.7). 3. (4.6) hat keine Lösung, aber Ax = b ist lösbar (sonst siehe Fall 2), d.h. jede Lösung x von Ax = b hat mindestens eine negative Komponente. Sei K := {z R n z = Ax, x 0}, b / K (da (4.6) nicht lösbar). K ist abgeschlossen und konvex (nicht leer). Idee: Verwende Trennungssatz (Satz 4.8). Setze C 1 := K, C 2 := {αu a b < ε, α > 0}. ε > 0 wird hinreichend klein gewählt. C 2 ist konvex und offen, C 1 C 2 =. Es gibt also eine Hyperebene H, die C 1 und C 2 trennt. Sei Sei z 1 C 1 und z 2 C 2. Dann gilt H := {y a t y = β}. a t z 1 β a t z 2 für alle z 1 C 1, z 2 C 2 (4.8) (Trennungseigenschaft). a t z 2 = a t αu, wobei α beliebig klein werden kann. Daher muss β = 0 sein. Dann folgt aus (4.8) z 1 C 1 : a t z 1 0. Wähle y := a. Dann gilt y t z 0 für alle z C 1. b t y = y t b < 0, da b nicht im Kegel K liegt. Insgesamt heißt das, dass y eine Lösung für A t y 0 b t y < 0 ist. (4.7) besitzt also eine Lösung. 47

48 4 Dualität Satz 4.11 (Lemma von Farkas) Folgende zwei Aussagen sind äquivalent: 1. Für alle y mit A t y > 0 gilt b t y Es gibt ein x 0 mit Ax = b. Beweis Wir zeigen, dass aus Satz 4.10 Satz 4.11 folgt. Wenn (2) gilt, hat (4.6) laut Satz 4.10 eine Lösung und (4.7) nicht. Somit gibt es keine Lösung für A t y 0, b t y < 0. Daher gilt für alle y mit A t y 0 b t y 0. Also gilt (1). Wenn (2) nicht gilt, hat (4.6) laut Satz 4.10 keine Lösung. Somit hat (4.7) eine Lösung, also gibt es ein y mit A t y 0, b t y < 0. Somit gilt (1) nicht. Unter Verwendung von Satz 4.10 haben wir also gezeigt, dass (1) (2). Bemerkung Satz 4.10 und Satz 4.11 sind äquivalent. Beweis Noch zu zeigen ist, dass aus Satz 4.11 Satz 4.10 folgt. Wenn (2) gilt, gilt auch (1), also ist (4.7) nicht lösbar. Gilt (2), d.h. (4.7) A t y 0, b t y < 0 Ax = b, x 0 hat keine Lösung, gilt (1) auch nicht. Somit gibt es ein y mit A t y 0, b t y < 0, d.h. (4.7) ist lösbar. Satz 4.12 (Tucker) Die Systeme A t y 0 und Ax = 0, x 0 besitzen Lösungen x und ỹ mit A t ỹ + x > 0 (komponentenweise). Beweis Bezeichne mit a (j) die j-te Spalte von A. Ax = 0, x 0 j k a (j) x j = a (k) x k, x k 0, k = 1,..., n. Betrachte folgende Systeme: a (j) x j = a } {{ (k) } j k ˆb Âˆx = ˆb ( a (j)) t y 0 Â t y 0 ( a (k)) t y > 0 ˆbt y < 0 x j 0, j = 1,..., n, j k j = 1,..., n, j k (4.9) (4.10) 48

49 4.5 Alternativsätze Wende Satz 4.10 an. Somit ist entweder das System (4.9) oder das System (4.10) lösbar. Sei nun Z 1 {1,..., n} die Menge aller k, für die (4.9) eine Lösung hat (analog Z 2 für (4.10)). Es gilt Z 1 Z 2 = {1,..., n}, Z 1 Z 2 =. Sei (4.9) lösbar für k {1,..., n}, also k Z 1. Es gibt ein x (k) mit j k (k) a (j)ˆx j = a (k) j = 1,..., n, j k ˆx (k) j 0. Setze ˆx (k) k = 1 ( 0), somit Aˆx (k) = 0, ˆx (k) 0. Sei nun (4.10) lösbar für k, also k Z 2. Dann existiert ein ŷ (k) mit A t ŷ (k) 0 ( a (k)) t ŷ(k) > 0. Setze und Es bleibt zu zeigen: x := { 0 falls Z 1 = k Z 1 ˆx (k) sonst { 0 falls Z 2 = ỹ := k Z 2 ŷ (k). sonst 1. A t ỹ 0 2. A x = 0, x A t ỹ + x > 0 Beweis: 1. A t ỹ = { 0 0 Z 2 = k Z 2 A t ỹ (k) 0 sonst 2. aufgrund der Konstruktion. { A t 0 0 Z 1 = ỹ = k Z 1 A x (k) = 0. 0 sonst x 0 analog. 3. Annahme: A t ỹ+ x habe Nullkomponente. Es gibt also eine Komponente q von A t ỹ+ x, sodass die q-te Komponente von x und die q-te Komponente von A t ỹ gleich 0 sind. Widerspruch zur Konstruktion von Z 1 von Z 2. 49

50 4 Dualität Satz 4.13 (Tucker) Sei A eine reelle schiefsymmetrische Matrix (A t = A). Dann gibt es ein w R n, sodass Beweis Betrachte Aw 0 w 0 Aw + w > 0 ( I (komponentenweise). ( ) I y 0 A ) ( ) x A = 0 z ( ) x 0. z Wende Satz 4.12 an: Es gibt y, x, z mit y 0 Ay 0 x Az = 0 x 0 z 0 und ( ) ( ) I x y + > 0. A z Das heißt Daraus folgt Wegen x = Az folgt also Setze w := y + z. Dann gilt y + x > 0 Ay + z > 0. x + y + Ay + z > 0. (4.11) Az + y + Ay + z > 0, (y + z) + A(y + z) > 0. Aw + w > 0. Ferner gilt Aw 0 (Ay 0, Az = x 0), w 0 (y, z 0). 4.6 Beweis des Dualitätssatzes max{c t x Ax b, x 0} (4.12) min{b t y A t y c, y 0} (4.13) 50

51 4.6 Beweis des Dualitätssatzes Aus schwachem Dualitätssatz folgt Definiere D ist schiefsymmetrisch. Weiters c t x b t y für allex M P, y M D. 0 n A t c D := A 0 m b. c t b t 0 x w = y. t Wende Satz von Tucker (4.13) an: Es gibt also eine Lösung w mit (aus w 0) (aus Dw 0) (aus Dw + w > 0) Fallunterscheidung: t > 0: Satz 4.14 bzw. t = 0: Satz 4.15 x 0 y 0 t 0 A t y tc 0 Ax + tb 0 c t x b t y 0 A t y tc + x > 0 Ax + tb + y > 0 c t x bty + t > 0 Satz 4.14 Ist t > 0, so gibt es Optimallösungen x von (4.12) und y von (4.13) mit Beweis Sei C t x = b t y A t y + x > c Ax y < b. x = x t y = y t. 51

52 4 Dualität Da x, y 0 und t > 0 folgt Es gilt (vgl. 2), somit Ebenso Also x M P und y M D. Ferner gilt somit x 0 y 0. A t y tc 0 A t y c. Ax + tb 0 Ax b. c t x b t y 0 c t x b t y 0, d.h. c t x b t y, c t x = b t y (schwacher Dualitätssatz). x ist also optimal für (4.12) und y ist optimal für (4.13). Die beiden anderen Aussagen folgen aus 3: bzw. A t y tc + x > 0 A t y c + x > 0 A t y + x > c Ax + tb + y > 0 Ax + b + y > 0 Ax y < b. Satz 4.15 Ist t = 0, so gilt 1. (4.12) oder (4.13) besitzt keine zulässigen Lösungen. 2. Ist M P, so ist (4.12) unbeschränkt. Ist M D, so ist (4.13) unbeschränkt. 3. Keines der beiden Probleme besitzt eine Optimallösung. Beweis Weiters gilt somit 1. Annahme M P, M D =. Es gibt also x M P, y M D. Aus (3) folgt c t x b t y + }{{} t > 0 x t x > b t y. =0 c t x ( A t y ) t x = y t }{{} 0 b t y < c t x 0. }{{} Ax, 0 Andererseits gilt Außerdem also Widerspruch. }{{} x t A t y 0. }{{} (4.14) 0 da x M P 0 t x t A t y = (Ax) y b t y, } {{ } b b t y 0, 52

53 4.6 Beweis des Dualitätssatzes 2. Sei M P, also gibt es ein x M P. Behauptung: x(λ) := x + λx M P für beliebige λ 0. ( Wollen unendliche Menge, damit unbeschränkt. ) Beweis: und Betrachte Zielfunktionswert von x(λ): Aus (3) folgt Verwende (4.14) zusammen mit M P : A x(λ) = }{{} Ax +λ }{{} Ax b b 0 x(λ) = }{{} x + }{{} λ }{{} x c t x(λ) = c t x + }{{} λ c t x. 0 c t x > b t y. by 0, somit c t x > 0, also wird c t x(λ) beliebig groß, wenn λ wächst. Also ist (4.12) unbeschränkt. Analog für (4.13). 3. Folgt aus Rest. Die Aussagen aus den Sätzen 4.14 und 4.15 vervollständigen den Beweis von Satz

54 4 Dualität 54

55 5 Duales Simplexverfahren (P ) : max{c t x : Ax b, x 0} (D) : min{b t y : A t y c, y 0} In Normalform: max{ b t y : A t y c, y 0}. Tableau: ( 1) ZFW b: Werte der Basisvar. Tableau (primal) zulässig: b 0 (primal) optimal: c 0 dual zulässig: c 0 c 0 dual optimal: b 0 x ist optimal für (P), wenn x primal und dual zulässig. Primales Simplexverfahren: Starte mit primal zulässiger Basislösung. c: reduzierte Kostenkoeffizienten Schreite von (primal zulässiger) Basislösung zu (primal zulässiger) Basislösung, solange Verbesserung möglich (d.h. nicht primal optimal). Duales Simplexverfahren: Ersetze primal durch dual Umsetzung? Beispiel ÃN max x 1 2x 2 x 1 + x 2 3 x 2 2 Starttableau x 1 + x 2 3 x 1 x 2 3 x 1, x 2 0 x 1 x x x x x 6 nicht primal zulässig, aber dual zulässig! Gegeben: dual zulässiges Tableau (c < 0). 2 Möglichkeiten: 55

56 5 Duales Simplexverfahren 1. b 0: Tableau optimal (primal und dual optimal), Stop. 2. b 0: Es gibt i mit b i < 0, Kandidaten für Pivotzeile (vgl. Auswahlregeln im primalen Simplexverfahren). Wähle so eine Pivotzeile r mit b r < 0. Wahl der Pivotspalte: Unbeschränktes Problem liegt vor, wenn es eine Zeile r mit b r ã rj 0 für alle j. < 0 im Tableau gibt mit Andernfalls berechne ε := min Wähle als Pivotspalte eine Spalte s mit Im Beispiel: r = 1, s = 1. Neues Tableau: a i := { } { } cj cj : ã rj > 0 = min : ã rj < 0. ã rj ã rj 1 ã rs ã rj ã rs ãis ã rs ε = ã ij ãisãrj ã rs c s ã rs = ε. { 1 1, 2 } = 1, 1 i = r, j = s i = r, j s (Pivotzeile) i r, j = s Pivotspalte) i r, j s Typische Anwendungen: x 3 x x x x x 6 Hinzunehmen neuer Restriktionen (z.b. in Schnittebenenverfahren, cutting plane methods ) Behandlung von Variablen mit oberen Schranken 56

57 6 Innere Punkte Methoden (interior point methods) Hier: eine Variante der primal-dualen Pfadverfolgungsmethode. Simplexverfahren: Vorteil: in Praxis recht gut Nachteil: keine Pivotregel bekannt mit polynomialem Gesamtaufwand Ellipsoidverfahren: Vorteil: polynomialer Laufzeit für lineare Programme im worst case Nachteil: praktisch unbrauchbar Innere Punkte Verfahren: versuchen Vorteile der beiden obigen Verfahren zu kombinieren Philosophie hinter inneren Punkteverfahren: arbeiten im Inneren des zulässigen Bereichs. Betrachte das primale Problem (P) und das dazu duale Problem (D) min{c t x : Ax = b, x 0} max{b t y : A t y c} = min{b t y : A t y + z = c, z 0}. Inneres: x j > 0 j und z j > 0 j. Idee: Einführung eines Strafterms. Für (P) definiere und für (D) H(x) = Beobachtung: x j 0 = H(x). Betrachte also die Probleme und }{{} c t x µ }{{} ZF von (P) >0 b t + µ n ln x j j=1 } {{ } ln Q n j=1 } {{ xj } Strafterm n ln z i. i=1 min c t x µ n ln x j j=1 Ax = b max b t y + µ n ln z i i=1 57

58 6 Innere Punkte Methoden Stelle Lagrangefunktionen auf: L P (x, y, µ) := c t x µ L D (x, y, µ) := b t y + µ A t y + z = c. n ln x i + y t (Ax b) } {{ } Vektor der Lagrangemult. n ln z i x t (A t y + z c) i=1 i=1 Bemerkung Bei einem Paar von zueinander dualen linearen Programmen entsprechen die Lagrange-Multiplikatoren des einen Programms den Variablen des dazu dualen Programms. Betrachte die partiellen Ableitungen der Lagrangefunktionen: Aus (6.4) folgt Aus (6.3) folgt Sei und also! = 0 L P x i = c i µ y t x i A }{{} i i = 1,..., n (6.1) i-te Spalte L P y = (Ax b) =! 0 (6.2) L D = µ! x i = 0 z i z i (6.3) L D x = (At y + z c) =! 0. (6.4) c = A t y + z. (6.5) x i z i = µ i = 1,..., n. X = diag(x 1,..., x n ), Z = diag(z 1,..., z n ), Z 1 = diag( 1 z 1,..., 1 z 1 ) (6.1) in Vektorform heißt dann Einsetzen von (6.5) in (6.6) ergibt also e = ( ) t, Z 1 e = 1 z 1. 1 z n. c µx 1 e A t y = 0. (6.6) A t y + z µx 1 e A t y = 0, z = µx 1 e XZ = µi x i z i = µ für i = 1,..., n. Es ergeben sich also 3 resultierende Bedingungen (S): Ax = b (x 0) (6.7) A t y + z = c (z 0) (6.8) x j z j = µ j (6.9) (6.9) mit µ = 0 heißt verallgemeinerte Komplementaritätsbedingung. 58

59 6.1 Grundidee der primal-dualen Pfadverfolgungsmethode Bemerkung Für µ = 0 beschreibt (S) die Bedingungen des Satzes vom komplementären Schlupf. Für µ 0 zeigt sich, dass eine Lösung (x, y, z) von (S) gegen Optimallösung x von (P) und Optimallösung y von (D) strebt. Wir interessieren uns für (S) für beliebige µ > 0. Behauptung: Für festes µ kann (S) nach x, y und z aufgelöst werden. Definition (zentraler Pfad) Γ := {(x(µ), y(µ), z(µ)) : x(µ), y(µ), z(µ) löst (S) für µ, µ > 0}. Satz 6.1 Es existieren x, y, z mit x > 0, Ax = b und z > 0, A t y + z = c. Dann hat das System Ax = b A t y + z = c XZe = µe für jedes µ > 0 eine Lösung (x(µ), y(µ), z(µ)), wobei x(µ) und z(µ) eindeutig bestimmt sind. Hat A vollen Rang, so ist auch y(µ) eindeutig. Beweis FEHLT. 6.1 Grundidee der primal-dualen Pfadverfolgungsmethode Geg. Sei (x, y, z) mit x > 0, z > 0 (beliebiger innerer Punkt). (Anmerkung: Zulässigkeit nicht erforderlich, Ax b erlaubt und Ay + z c erlaubt.) 1. Wähle µ geeignet (siehe später). 2. Berechne ( x, y, z), sodass (x + t x, y + t y, z + t z) in der Nähe des zentralen Pfads liegt. 3. (x(µ), y(µ), z(µ)) t: Schrittweite so wählen, dass x + t x > 0, z + t z > 0. und gehe wieder an Anfang. x neu := x + t x y neu := y + t y z neu := z + t z Details 1. Am zentralen Pfad gilt x j z j = µ für alle j = 1,..., n. Am zentralen Pfad gilt µ = xt z n. x t z = nµ. Damit Konvergenz von µ gegen 0 schneller fortschreitet, wird Faktor 0 < δ < 1 verwendet. Wähle µ := δ xt z n (häufig wird δ = 1 10 verwendet). 59

60 6 Innere Punkte Methoden 2. Geg. x, y, z; µ. Ges. x, y, z sodass d.h. A(x + x) = b A t (y + y) + (z + z) = c(x j + x j )(z j + z j ) = µ für alle j, (X + X)(Z + Z)e = µe mit X = diag( x 1,..., x n ), Z = diag( z 1,..., z n ). Aus (1) folgt Aus (2) folgt A x = b Ax. } {{ } ρ A t y + z = c A t y z. } {{ } σ In (3) wird nichtlinearer Term weggelassen: x j z j + z j x j + x j z j = µ für alle j, d.h. Z x + X z = µe Xz. Resultierendes lineares Gleichungssystem (in Blockform): A 0 0 x ρ 0 A t I y = σ. Z 0 X z µe Xz Einsetzen in 1. Block: A x = µaz 1 e Ax AXZ 1 σ + AXZ 1 A t y! = ρ. (Zugrundeliegend: Iteration des Newton-Verfahrens.) Schrittweitenwahl: { t < min t < min } x i < 0 x i } x i { z i z i < 0 z i Typischerweise wählt man Verkleinerungsfaktor β mit 0 < β < Verfahren im Detail 1. Start mit (x, y, z) beliebig mit x > 0, z > Setze 3. Berechne y als Lösung von ρ := b Ax σ := c A t y z µ := ρ xt z h ( 0 < δ < 1, z.b. δ = 1 ) 10 (AXZ 1 A t )δy = b µaz 1 e + AXZ 1 σ. 60

61 6.1 Grundidee der primal-dualen Pfadverfolgungsmethode 4. Berechne z = σ A t y. 5. Berechne x als 6. Bestimme x = µz 1 e x XZ 1 z. α P := min{ x i x i x i < 0} α D := min{ z i z i z i < 0}. Setze α P := 1 (bzw. α D := 1), falls Auswahlmenge leer. 7. Setze x neu := x + βα P x y := y + βα D y z := z + βα D z 8. Gilt X K (K geeignet groß): Abbruch ((P) wird als unbeschränkt erklärt). Beispiel Gilt Y K: Abbruch ((D) wird als unbeschränkt erklärt). Gilt ρ 1 < ε (Maß für primale Unzulässigkeit), σ 1 < ε (Maß für duale Unzulässigkeit) und x t z < ε (Maß für Entfernung von Optimallösung für (P) und (D)). min x 1 + 2x 2 + 4x 3 2x 1 + x 2 + x 3 2 x 1, x 2, x 3 0 Start: x 1 = 1, x 2 = 1, x 3 = 1, z 1 = 1, z 2 = 1, z 3 = 1, y = 0, b = β = x 1 x 2 x 3 z 1 z 2 z 3 y µ Anmerkungen zur Konvergenz und praktische Effizienz: Man kann zeigen, dass bei geeigneter Wahl von δ und der Schrittweitenstrategie der Algorithmus O ( n log ( ε 0ε )) Iterationen benötigt, um die Dualitätslücke von ε0 auf ε zu reduzieren. D.h. polynomielle Laufzeit bei geeigneter Implementierung. In empirischen Versuchen zeigt sich typischerweise ein Schrittzahlverhalten von ( ( ε0 )) O log n log. ε Methode wird gerne auch in Praxis eingesetzt, insbesondere für große lineare Programme. Bemerkung Es gibt viele weitere innere Punkte Verfahren und spezielle Schrittweiten-Steuerungsmethoden (z.b. Prädiktor-Korrektur-Verfahren). 61

62 6 Innere Punkte Methoden 62

63 Teil II Ganzzahlige Optimierung 63

64

65 7 Vollständig unimodulare Matrizen Allgemeine Fragestellung: max{c t x : Ax b, x 0}. Frage: Wann besitzt dieses lineare Programm (nur) ganzzahlige Optimallösungen? Definition Eine n n-matrix heißt unimodular, wenn det A = 1 oder det A = 1. Eine n n-matrix heißt vollständig unimodular ( totally unimodular ), wenn für jede quadratische Untermatrix B von A gilt. det B = 0 oder det B = 1 oder det B = 1 Beispiel ( ) 3 2 A = 7 5 ist unimodular, aber nicht vollständig unimodular. Bemerkung A vollständig unimodular = a ij {0, ±1}. Beispiel A = Untersuche, ob A vollständig modular ist. Satz 7.1 Sei A vollständig unimodular. Dann besitzt max{c t x : Ax b, x 0} für jedes ganzzahlige b eine ganzzahlige Optimallösung. Beweis Aufgrund des Hauptsatzes der linearen Optimierung können wir uns auf Basislösungen einschränken. Betrachte Basislösung: wobei x B = A 1 B b x N = 0 (ganzzahlig), A 1 B = 1 det A B A + B (Matrix der Kofaktoren ist ganzzahlig, det A B {+1, 1}). Somit ist x B ganzzahlig. Also ist jede Basislösung (Ecke) ganzzahlig, wenn b ganzzahlig ist. 65

66 7 Vollständig unimodulare Matrizen Satz 7.2 (Hoffman, Kruskal, Gale) Sei A eine ganzzahlige n n Matrix. Dann sind folgende Aussagen äquivalent: 1. A ist vollständig unimodular. 2. Für jedes beliebige ganzzahlige b besitzt die Menge nur ganzzahlige Ecken. S(b) := {x : Ax b, x 0} 3. Jede quadratische, nicht singuläre Untermatrix von A besitzt eine ganzzahlige Inverse. Beweis 1 = 2: Ecke von S(b) entspricht einer Basislösung erhalte also das System Ax b Ax + Iy = b, ( A Basismatrix zur Basislösung ist Untermatrix von Sei A B von der Gestalt ( ) B k 0. I m k Basislösung x B = A 1 B b. Wie sieht also die Inverse aus? A 1 B = ) ( ) x I = b. y ( ) A I mit det 0. ( B 1 k 0 I m k B k ist quadratische Untermatrix von A. Lt. Voraussetzung det B k {+1, 1}. Mit dem selben Argument wie im Beweis von Satz 7.1 folgt, dass B 1 k ganzzahlig ist. det A B = det(b k ) det(i r k ) {±1}, } {{ } } {{ } +1, 1 =1 also ist A 1 B ganzzahlig. Somit ist auch A 1 B b ganzzahlig. 2 = 3: Sei A B beliebige Baismatrix. Zu zeigen: A 1 B ganzzahlig. Sei b i die i-te Spalte von A 1 Sei weiters z ein beliebiger ganzzahliger Vektor, sodass b i + z 0 für alle i. S (i) (b(z)) := {x Ax A B z + e } {{ } i }, ganzzahlig wobei e i der i-te Einheitsvektor ist. Alle S (i) (b(z)) haben nur ganzzahlige Ecken. ) x B = A 1 B (A Bz + e i ) = z + b i ist ganzzahlig. Daher ist auch z ganzzahlig, und somit auch A 1 B. Sei F eine beliebige reguläre, quadratische Untermatrix von A, die keine Basismatrix ist. Dann lässt sich F zu einer Basismatrix von Ax + Iy = b ergänzen. A B = ( ) F 0, I m k B. 66

67 wobei F eine k k Matrix ist. A 1 B = ( ) F 1 0 I m k ist ganzzahlig (vorher bewiesen), damit auch F 1. 3 = 1: Sei F eine beliebige reguläre, quadratische Untermatrix von A. Laut Voraussetzung sind F und F 1 ganzzahlig. F F 1 = I det F det F 1 = det I = 1 Weil F und F 1 ganzzahlig sind, sind auch ihre Determinanten ganzzahlig, und daher det F, det F 1 {±1}. Somit ist A vollständig unimodular. Fragestellungen: Wie schauen vollständig unimodulare Matrizen aus? Beispiele bzw. Beispielklassen? Charakterisierung bzw. Erkennung Bemerkung Sei A vollständig unimodular. Dann sind auch die Matrizen ( ) ( ) ( ) A t, A A, A, A I, A A vollständig unimodular. Aus A, B vollständig unimodular folgt allerdings nicht, dass ist. ( A ) B vollständig unimodular Satz 7.3 (Heller, Tompkins, Gale) Sei A eine m n Matrix mit Einträgen {0, ±1}. A ist vollständig unimodular, wenn folgendes gilt: 1. Jede Spalte von A hat höchstens 2 von 0 verschiedene Einträge. 2. Die Zeilen von A lassen sich in zwei disjunkte Klassen Z 1 und Z 2 einteilen, sodass gilt: Beispiel a) Hat eine Spalte zwei Einträge ungleich 0 mit verschiedenen Vorzeichen, so liegen die zugehörigen Zeilen in derselben Klasse. b) Hat eine Spalte zwei Einträge mit gleichem Vorzeichen, so liegen die zugehörigen Zeilen in verschiedenen Klassen. Bedingung 1 ist erfüllt. Bedingung 2: Klasseneinteilung Z 1, Z 1, Z 2, Z 2. A ist also vollständig unimodular A = Bemerkung Bedingung ist hinreichend, aber nicht notwendig! Wenn keine Klasseneinteilung existiert, kann A sowohl unimodular als auch nicht unimodular sein. 67

68 7 Vollständig unimodulare Matrizen Beweis Vollständige Induktion nach Größe der Matrix: 1 1 Matrix: klar. Wir greifen nun aus A eine beliebige p p Matrix B heraus. Induktionsannahme: Behauptung für alle (p 1) (p 1) Untermatrizen bereits bewiesen. Fallunterscheidung: 1. B enthält 0-Spalte. Dann ist det B = 0, fertig. 2. B enthält eine Spalte mit genau einem Eintrag 0. Entwickle det B nach einer solchen Spalte j. det(b) = b ij det B, wobei b ij der Eintrag 0 in der Spalte j ist und B die (p 1) (p 1) Untermatrix von B, A. Die Determinante ist also {0, ±1} lt. Induktionsannahme. 3. Jede Spalte von B habe genau 2 Einträge 0. Es gilt a ij = i Z 1 i Z 2 a ij für alle Spalten j von B, also a ij a ij = 0. i Z 1 i Z 2 Es ergibt sich also eine lineare Abhängigkeit, weswegen det B = 0 gilt. 7.1 Beispielklassen für vollständig unimodulare Matrizen Transportproblem n Fabriken, n Kunden, Transporte kosten c ij. m n min c ij x ij i=1 j=1 n x ij = a i j=1 m x ij = b j i=1 x ij 0. i = 1,..., m j = 1,..., n Jede Spalte hat zwei von 0 verschiedene Einträge, Klasseneinteilung wie oben. Die Restriktionsmatrix eines Transportproblems ist also vollständig unimodular Knoten-Kanten-Inzidenzmatrix eines gerichteten Graphen Knoten-Kanten-Inzidenzmatrizen sind vollständig unimodular. Sie treten als Restriktionsmatrix in Flussproblemen auf (Flusserhaltung). 68

69 7.2 Anmerkung zur Erkennung vollständig unimodularer Matrizen Network matrices Man kann zeigen, dass network matrices vollständig unimodular sind. Korollar Seien A, b, c ganzzahlig. A sei vollständig unimodular. 1. Dann hat sowohl das primale Problem max{c t x : Ax b, x 0} also auch das duale min{b t y : A t y c, y 0} nur ganzzahlige Ecken (Basislösungen). 2. Die Ecken von S := {x : b Ax ˆb, 0 x ũ} sind für alle ganzzahligen b, ˆb, ũ ganzzahlig. Beweis 1. A vollständig unimodular = A t vollständig unimodular. 2. Ax ˆb Ax b, Ix ũ A A vollständig unimodular. I 7.2 Anmerkung zur Erkennung vollständig unimodularer Matrizen Klasseneinteilungskriterium erkennt nur Teilklasse. Trivialer Algorithmus hat exponentielle Laufzeit und ist für größere Matrizen unbrauchbar hat Seymour ein Zerlegungsresultat für die Klasse der vollständig unimodularen Matrizen gezeigt. (Vollständig unimodulare Matrizen lassen sich zerlegen über der Klasse der network matrices und 2 speziellen Matrizen.) Das Zerlegungsresultat kann für polynomielle Erkennungsalgorithmen eingesetzt werden. 69

70 7 Vollständig unimodulare Matrizen 70

71 8 Dynamische Programmierung (dynamische Optimierung) 8.1 Binäres Rucksackproblem Das binäre Rucksackproblem: n Gegenstände. Gegenstand i habe Gewicht a i und Wert c i. Rucksackkapazität b. n max c i x i i=1 n a i x i b i=1 x i {0, 1}. Dieses Problem gehört zur Klasse der NP-schweren Probleme! Naive Methode: Alle Möglichkeiten durchprobieren (Zeitbedarf O(2 n ), unbrauchbar). Idee: Verwende nur Teile dieses Graphen. Zentrale Idee: rekursives Vorgehen/Stufeneinteilung. Bestimmung der besten Lösung auf Stufe k aufbauend auf der besten Lösung auf Stufe k 1. Bei Rucksackproblem: Neue Stufe ist neuer Gegenstand. Stufe 1: Nur Gegenstand 1 zur Verfügung. Stufe 2: Nur Gegenstände 1 und 2 zur Verfügung. etc. F (k, y) := max{ k c i x i : i=1 n a i x i y, x i {0, 1}, i = 1,..., k}, k = 1,..., n, y = 0,..., b i=1 ist das Rucksackproblem mit Kapazität y und den Gegenständen 1,..., k. F (n, b) ergibt den Optimalwert von (RP). Das Ziel ist also, F (n, b) zu berechnen. Zentrale Beobachtung: Initialisierung: F (k + 1, y) = max{ F (k, y a k+1 ) + c k+1, F (k, y) }. } {{ } } {{ } Gegenstand k + 1 kommt mit Gegenstand k + 1 kommt nicht mit F (0, y) = 0 für y 0 F (k, y) = für y < 0, k = 0,..., n. F (k + 1, y) hängt nur von F (k, )-Werten ab stufenweise Berechnung: zuerst k = 1, dann k = 2 etc. Beispiel n = 4, b = 11 und i a i c i

72 8 Dynamische Programmierung Berechne schrittweise F (k, y) und erhalte so Der Optimalwert ist also 26. Bestimmung der optimalen Packung: y\k F (4, 11) > F (3, 11) x 4 = 1 F (3, 5) = F (2, 5) x 3 = 0 F (2, 5) = F (21, 5 2) + 6 x 2 = 1 F (1, 3) > F (0, 3) x 1 = 1. Zeitaufwand: O(n b) Variablen (Tabellenaufwand), O(1) pro Auswertung von F (k, y). Insgesamt also O(n b) (pseudopolynomial, nicht polynomialer Algorithmus) Matrixmultiplikation Folge von Matrizen M 1,..., M q, Matrix M i hat Dimension n i n i+1, i = 1,..., q. Wir wollen das Produkt M 1 M 2 M q berechnen und die Anzahl der Elementaroperationen soll minimiert weren. Welche Klammerung soll gewählt werden? Aufwand für Multiplikation einer r s mit einer s t Matrix: O(rst). Beispiel 4 Matrizen, n 1 = 10, n 2 = 5, n 3 = 100, n 4 = 10. Beobachtung: Unterschiedliche Klammerungen führen auf unterschiedlichen Gesamtaufwand. Idee: Sei t ij der minimale Aufwand (im obigen Sinn) für die Berechnung von M i M i+1 M j. t ii = 0 für i = 1,..., q t i,i+1 = n i n i+1 n i+2 für i = 1,..., q 1 t i,i+s = min {t ik + t k+1,i+s + n i n k+1 n i+s+1 } für s 2 und i = 1,..., r s. k=1,...,i+s 1 Ergebnis: t 1q. Rechenaufwand: O(q 2 ) Variablen, O(q) pro Auswertung, also O(q 3 ) insgesamt. 72

73 9 Die Branch and Bound Methode Betrache das Rucksackproblem n z RP = max c i x i i=1 n a i x i 6 b i=1 x i {0, 1} quadi = 1,..., n. Jedes Blatt entspricht einer Packung. Naiver Lösungsansatz: Alle Blätter des Baumes durchprobieren. (Explizite Enumeration: 2 n Blätter.) Verbesserungsidee: Implizite Enumeration des Lösungsbaums, lasse also Teile des Lösungsbaums weg, für die erwiesen ist, dass sie die Optimallösung nicht enthalten. Frage: Wie lassen sich Teile des Lösungsbaums ausschließen? Beispiel n = 4, b = 11 und Hilfsproblem (LP): c j a j c j a j z LP = max n c i x i i=1. n a i x i b i=1 0 x i 1 i = 1,..., n. Beobachtung: z LP z RP (bzw. z LP z RP bei ganzzahligen a i, c i ). (LP), die sogenannte lineare Programm Relaxation von (RP), liefert eine obere Schranke für den Optimalwert von (RP) (vgl. Ü68). x 1 = 1, x 2 = 1, x 3 = 1, x 4 = 1 2. Der optimale Zielfunktionswert von (LP) ist also = 30. (Es gibt also keine Lösung von (RP) mit Wert > 30.) Außerdem liefert dies eine zulässige Lösung von (RP): x 1 = 1, x 2 = 1, x 3 = 1, x 4 = 0 mit Zielfunktionswert

74 9 Die Branch and Bound Methode Allgemeine Vorgehensweise Versuche schwieries Problem (hier Rucksackproblem) durch ein einfacheres relaxiertes Problem zu ersetzen, sodass die zulässige Menge des relaxierten Problems eine Obermenge der zulässigen Menge des Ausgangsproblems ist und das relaxierte Problem möglichst hinreichend einfach zu lösen ist, aber immer noch eine hinreichend große Beziehung zum Ausgangsproblem hat (Trade-off ). Für das Rucksackproblem ist (LP) die typischerweise gewählte Relaxation. Die Relaxation bildet eine obere Schranke für Maximierungsprobleme und eine untere Schranke für Minimierungsprobleme. Beispiel Verzweigung nach kritischer Variable x 4 (x 4 / {0, 1}). Zweige brauchen nicht enumeriert werden, wenn bereits eine bessere zulässige Lösung in einem andere Zweig gefunden wurde! Hauptbestandteile des Branch and Bound Verfahrens Relaxation (führt für Maximierungsproblem auf obere Schranke) Aufspaltungsregel in Teilprobleme (Branching). Notwendig: Vereinigung der Teilprobleme muss aufzuspaltendes Problem ergeben. Nach Möglichkeit strebt man Disjunktheit der Probleme an. Wichtiges Kriterium bei der Wahl der Aufteilung ist, dass die Relaxationen der Teilprobleme vernünftig lösbar sind. Auswahlregel für das als nächstes zu behandelnde Teilproblem. Trade-off zwischen Speicherplatzbedarf und der Größe des resultierenden Suchbaums. Best-Bound: eher schlecht für Speicherplatzbedarf LILO (last in last out): entspricht Tiefensuche, eher günstig für Speicherplatzbedarf, eher schlecht für Baumgröße FIFO (first in first out) und viele Kombinationen. Wahl typischerweise problemabhängig. Optional: Von Vorteil stellt sich heraus, wenn eine Methode zur Bestimmung guter zulässiger Lösungen für die Teilprobleme bekannt ist. Daraus ergibt sich eine untere Schranke für Maximierungsprobleme (bezieht sich auf entsprechende Teilprobleme). Für Rucksackproblem: zulässige Lösung durch Greedy-Lösung (erhält man aus Relaxationslösung durch Setzen der kritischen Variable auf 0). Es gibt weitere Verfeinerungen von B&B-Verfahren, z.b. die Dominanzregel. 9.1 Gemischt-ganzzahlige lineare Programme (mixed integer programs) max c t x Ax b x 0 mit x 1,..., x k Z, x k+1,..., x n R. 74

75 9.1 Gemischt-ganzzahlige lineare Programme Beispiel max x 1 + 2x 2 2x 1 + x 2 10 x 1 + x 2 5 x 1 4 x 1, x 2 Z Relaxiertes lineares Programm durch Streichen der Bedingung x 1, x 2 Z. Löse lineares Programm: Optimallösung x 1 = 5 3, x 2 = 20 3 mit ZFW 15. Verzweigung nach Variablen mit nicht ganzzahligem Wert in der Optimallösung der Relaxation. Verzweige also nach x 1 : 5 5 = 1, = Bemerkung Diese Methode funktioniert in der Praxis für größere Probleme schlecht, weil der Suchbaum typischerweise sehr groß ist. Dies führt auf das Schnittebenenverfahren ( cutting plane ), Branch and Cut. 75

76 9 Die Branch and Bound Methode 76

77 10 Einige Beispiele für die Modellierung mit ganzzahligen Variablen Typische Anwendungen naheliegend: Anzahl etc. für 0/1-Variablen: Indikator für Ja/Nein-Entscheidung (z.b: Rucksackproblem: x j = 0: j-ter Gegenstand kommt nicht mit, x j = 1: j-ter Gegenstand kommt mit.) Transportproblem Sei x ij die transportierte Menge einer Ware von einem potenziellen Fabrikstandort i zu einem Abnehmer j. Es gibt fixe Errichtungskosten und Betriebskosten f i für Fabrik i und eine obere Schranke u i für die produzierte Menge. Die Summe der Errichtungskosten und Transportkosten ist zu minimieren. Führe die Variablen { 0 keine Fabrik in Standort i y i = 1 sonst ein. Das Problem lautet dann min m n m c ij x ij + f i y i i=1 j=1 i=1 m x ij = b i, j = 1,..., n. i=1 Kopplung zwischen x ij und y i : Fabrik i nicht errichtet (y i = 0) = kein Transport von i aus x ij = 0 j. Frage: Wie lässt sich y i = 0 = x ij = 0 j mittels einer linearen Restriktion formulieren? Eine Möglichkeit ist x ij u i y i j. Für y i = 0 bedeutet das x ij 0 x ij = 0, für y i = 1 ergibt sich mit x ij u i keine neue Einschränkung. Weiters muss x ij 0 y i {0, 1} i, j i gefordert werden Disjunkte Nebenbedingungen (Restriktionen) Beispiele x 7 x 1 + x 2 4 oder x 1 + 3x

78 10 Einige Beispiele für die Modellierung mit ganzzahligen Variablen Der Bereich ist jeweils nicht konvex, daher mit linearer Optimierung nicht formulierbar! Idee: Indikatorvariable für Erfülltheit der Restriktionen. Beispiel Neue Restriktionen: δ 1 = { 1 x 1 + x sonst und δ 2 = δ 1 + δ 2 1 { 1 x 1 + x sonst (Gleichheit bei ausschließendem Oder). Sei weiters M 1 eine obere Schranke für x 1 + x 2 4, d.h. x 1 + x 2 4 M 1 für alle zulässigen Kombinationen von x 1 und x 2. Somit x 1 + x 2 4 M 1 (1 δ 1 ). Wenn x 1 + x 2 > 4 (also > statt ) vorkommt: Bei ganzzahligen Variablen: x 1 + x 2 5. Einführen von ε > 0 geeignet klein ( Maschinenepsilon, problemabhängig gewählt). Statt mit x 1 + x 2 > 4 wird mit x 1 + x ε gearbeitet. Analog für 2. Restriktion und δ 2. Bemerkung Oft lässt sich auf einen Teil der Koppelung verzichten mittels Optimalitätsüberlegungen Formulierung stückweise linearer Zielfunktionen Beispiel mit Führe Indikatorvariablen ein: Restriktionen: z 1 = min f(x) + 8y x + y 5 y 4 0 x 8 10x 0 x 2 8x x 4 f(x) =. 6x x 6 4x x 8 { 1 0 x 2, z 2 = 0 sonst z 1 + z 2 + z 3 + z 4 = 1 { 1 2 x 4, etc. 0 sonst z i {0, 1}, i = 1,..., 4 78

79 10.3 Funktionen mit N möglichen Werten Definiere x i = { x x im i-ten Intervall (z i = 1). 0 sonst Es muss gelten: z i = x i = 0. Dies kann mittels x 1 0 x 2 2z 2 x 3 4z 3 x 4 6z 4 x 1 2z 1 x 2 4z 2 x 3 6z 3 x 4 8z 4 und x = x 1 + x 2 + x 3 + x 4 erreicht werden. Bemerkung Wenn Zielfunktion zu minimieren und die Funktion stückweise linear und konvex ist, dann kann man ohne ganzzahlige Variablen auskommen. Analoge Technik funktioniert auch für fixkostenartige Funktionen (Sprungstelle dabei): g(z) = { 0 z = 0 a + bz z > 0 (a 0). Indikator a δ + bz mit δ = { 1 z > 0 0 sonst Funktionen mit N möglichen Werten f(x 1,..., x n ) {d 1,..., d N }, z.b. Indikatorvariablen: f(x 1,..., x n ) = y i = n a j x j. j=1 { 1 f(x 1,..., x n ) = d i 0 sonst N y i = 1, y i {0, 1}. i=1 Dann gilt f(x 1,..., x n ) = d 1 y 1 + d 2 y d N y N. Beispiel 3x 1 + 2x 2 {6, 12, 18}. N = 3, d 1 = 6, d 2 = 12, d 3 = 18. 3x 1 + 2x 2 = 6y y y 3 y 1 + y 2 + y 3 = 1 y i {0, 1} i = 1, 2, 3 79

80 10 Einige Beispiele für die Modellierung mit ganzzahligen Variablen 10.4 Transportproblem m n min c ij x ij i=1 j=1 x ij = a i j x ij = b j i x ij 0, i = 1,..., m j = 1,..., n o.b.d.a. mit a i = b j. i j Nordwesteckenregel zur Bestimmung einer Ausgangslösung: Setze vorerst ã i := a i i = 1,..., m bj := b j j = 1,..., n. Starte in linker oberer Ecke: i := 1, j := 1. Betrachte x ij ( nordwestlich, nicht gestrichen): x ij := min{ã i, b j } und ã i := ã i x ij, bj := b j x ij. Falls ã i = 0, b j > 0, streiche Zeile i. Falls ã i > 0, b j = 0, streiche Spalte j. Falls ã i = 0, b j = 0, streiche Zeile i und Spalte j (degenerierter Fall, relevant für Basis). Beispiel a = (6, 25, 20, 13) und b = (4, 6, 10, 9, 7, 18). x = Es gilt rg A = m + n 1. Beobachtung A hat nicht vollen Zeilenrang = rg(a) m + n 1. Der zugehörige Graph ist kreisfrei und zusammenhängend (ein spannender Baum). Beobachtung Eine Kantenauswahl, die einen Kreis im Transportproblem enthält, liefert keine Basis (lineare Abhängigkeit). Behauptung: A B ist genau dann Basismatrix von A, wenn die Spalten von A B den Kanten eines spannenden Baumes entsprechen. Beweis: Bereits gezeigt: Kreis enthalten = keine Basis. Andere Richtung konstruktiv, Vorgangsweise startet bei Blättern. 80

81 10.4 Transportproblem Nordwestregel spannende Bäume: m + n 1 Kanten im Basisgraph Wahl Variable neu in Basis? Verwende reduzierte Kostenkoeffizienten: (nicht degenerierte Basislösung). b j c t N = c t N c t B A 1 B A N. } {{ } Ã N (A B, A N ) = A ist die Transportmatrix mit einer (beliebigen) Zeile gestrichen. π t = c t BA 1 B, also π t A B = c t B. Somit ist π Lösung dieses Gleichungssystems. π t = (u 1,..., u m, v 1,..., v n 1 ) (n-te Abnehmerbedingung gestrichen, setze also v n := 0). Transportproblem: min c ij x ij i j x ij = a i i j x ij = b j i x ij 0. j Duales Problem: max a i u i + b j v j Es gilt nun u i + v j c ij i, j. u i + v j = c ij (i, j) B, wobei B eine Basis ist. 81

82 10 Einige Beispiele für die Modellierung mit ganzzahligen Variablen Beispiel C = Hier gilt also Vorgehensweise: u 1 + v 1 = 2 u 1 + v 2 = 3. u 3 + v 4 = Bestimme π, also die u i, v j. 2. Berechne den reduzierten Kostenkoeffizienten c ij mittels c ij = c ij u i v j. Wende das rekursiv auf den Baum an, startend bei den Blättern. c 13 = 4 u 1 v 3 = = 3 c 14 = 1 u 1 v 4 = 2 etc. Somit 3 2 C = Optimalitätskriterium: Basis optimal dann, wenn c ij 0 für alle (i, j). Antwort: Wähle Nichtbasisvariable (also nicht im Baum) mit c ij < 0. Wahl Variable raus aus Basis? Durch das Hinzufügen einer neuen Kante zum Basisbaum entsteht genau ein Kreis. Beobachtung: Entlang des Kreises werden abwechselnd δ mehr bzw. um δ weniger Einträge verschickt. Sei Q die Menge der Kreiskanten und Q + die Kanten mt +δ, Q jene mit δ. Zulässigkeitsbedingung: x ij δ 0 für alle Kanten im Kreis, für die neuer Flusswert x j δ ist. Somit δ = min{x ij (i, j) Q }. 82

83 Teil III Kurzeinführung in Nichtlineare Optimierung 83

84

85 11 Einführung Die Nichtlineare Optimierung beschäftigt sich mit dem Finden lokaler Optima. Es gibt zwei große Klassen: 1. Probleme ohne Nebenbedingungen ( unconstrained ) 2. mit Nebenbedingungen ( constrained ) Hier: Optimalitätsbedingungen für 2 (und damit auch für 1 Kurze Übersicht über einige Methoden zur Lösung von 1 Wir wollen folgendes Problem betrachten: min f(x) g i (x) 0 h j (x) = 0 i = 1,..., p j = 1,..., m (Ungleichungsrestriktionen bzw. Gleichungsrestriktionen) mit x R n und f, g i, h j : R n R (nicht der allgemeinste Fall). p = und/oder m = 0 sind möglich. Spezielle Klassen von Problemen ergeben sich für spezielle Eigenschaften von f, g i, h j. Definition (Zulässigkeit) Ω = {x R n g i (x) 0 für i = 1,..., p, h j (x) = 0 für j = 1,..., m} heißt zulässige Menge. x heißt zulässiger Punkt Definition (lokales, globales Minimum) 1. x Ω heißt lokales Minimum von f über Ω genau dann, wenn ε > 0 x Ω : x x < ε f(x) f(x ). 2. x Ω heißt streng lokales Minimum von f über Ω genau dann, wenn ε > 0 x Ω : x x und x x < ε f(x) > f(x ). 3. x Ω heißt (globales) Minimum von f über Ω genau dann, wenn x Ω : f(x ) f(x). Definition (zulässige Richtung ( feasable direction )) Sei x 0 Ω. d R n heißt zulässige Richtung in x 0, wenn λ > 0 λ mit 0 λ λ : x 0 + λd Ω. Beispiele 85

86 11 Einführung ( ) 1. Ω = [0, 1] 2 0 (Quadrat), x 0 =. 0 d = ( d 1 d 2 ) zulässig in x 0 d 1 0 und d Betrachte Ω = {(x 1, x 2 ) R 2 x x 2 2 1} ( ) 1 (Einheitskreisscheibe), x 0 =. 0 Beobachtung: Es muss d 1 0 gelten. Aus d 1 = 0 folgt d 2 = 0. Eine zulässige Richtung liegt also genau für d 1 < 0 vor. 86

87 12 Verfahren zur Minimierung von Funktionen einer Variablen Zwei Klassen von Verfahren: 1. solche, die Ableitungsinformationen verwenden (siehe Analysis und numerische Mathematik, z.b. Newton-Verfahren), und 2. solche, die keine Ableitungsinformationen verwenden (unser Schwerpunkt, z.b. Intervallschachtelung). (Typischerweise sind Ableitungsinformationen schwer oder gar nicht zu beschaffen!) 12.1 Verfahren ohne Ableitungsinformation Definition Sei f : I R, I R, heißt unimodal, wenn f ein Minimum x I besitzt und es gilt f(x) f(x ) x I mit x x f(x) f(x ) x I mit x x. Definition f : I R heißt quasi konvex auf I, wenn für alle x, y I und 0 λ 1 gilt. f(λx + (1 λ)y) max{f(x), f(y)} Bemerkung Quasikonvexität ist eine Verallgemeinerung der Konvexität. Lemma Sei f : I R, I = [a, b], quasikonvex. Sei u, v I mit u < v. Falls f(u) > f(v), dann gilt f(x) f(v) für alle x [a, u]. (Das heißt das Teilintervall [a, u] kann eliminiert werden.) Falls f(u) < f(v), dann gilt f(x) f(v) für alle x [v, b]. 1. Naive Vorgehensweise: Vorauswahl der Kandidatenpunkte (äquidistante Unterteilung) 2. Drittelungsmethode 3. Methode des goldenen Schnitts 4. Fibonacci-Suche ( endliche Variante der goldenen Schnittmethode) 5. Dichotomie-Methode 12.2 Verfahren mit Ableitungsinformation 1. Bisektionsverfahren 2. Newton-Verfahren 3. Sekantenverfahren ( regula falsi ) 87

88 12 Verfahren zur Minimierung von Funktionen einer Variablen 88

89 13 Mehrdimensionale nichtlineare Optimierung ohne Nebenbedingungen 13.1 Wiederholung 13.2 Grundlagen von Lösungsverfahren 13.3 Allgemeines Abstiegsverfahren 13.4 Schrittweiten 1. Armijo-Regel 2. Wolfe-Powell-Strategie 13.5 Steilstes Abstiegsverfahren (Gradientenverfahren) 13.6 Newton-Verfahren 13.7 Quasi-Newtonverfaren Versuch: Newton-artige Verfahren, ohne Verwendung von Hesse-Matrix. Newton-Iteration: x k+1 = x k ( 2 f(x k )) 1 f(x k ) } {{ } g(x k ) Bezeichne g(x k ) = f(x k ). Bei Quasi-Newton: x k+1 = x k t k G k g(x k ) (t k bezeichnet die Schrittweite), wobei G k eine symmetrische n n-matrix ist. Ziel: G k soll ( 2 f(x k )) 1 geeignet annähern. Für G k = ( 2 f(x k )) 1 : Newton Newtonverfahren. Für G k = I: schnellstes Abstiegsverfahren. Es gilt g(x k+1 ) g(x k ) 2 f(x k ) (x k+1 x k ) } {{ } } {{ } q k (Annäherung 1. Ordnung, resultiert aus Taylorentwicklung). Setze q k := g(x k+1 ) g(x k ) p k := x k+1 x k. G k+1 wird als gute Approximation für ( 2 f(x k+1 )) 1 bezeichnet, wenn p k G k+1 q k = p k 89

90 13 Mehrdimensionale nichtlineare Optimierung ohne Nebenbedingungen (Quasi-Newton-Bedingung) gilt. Wir haben also n2 +n 2 Freiheitsgrade (Variablen), aber nur n Gleichungen, also ein stark unterbestimmtes Gleichungssystem. Unterschiedliche Ansätze unterscheiden sich durch die Zusatzforderungen an G k. Als recht erfolgreich hat sich folgender Ansatz herausgestellt (rank 2 update): G k+1 = G k + a uu t + b vv t, wobei a, b R und u, v R n. (uu t und vv t sind also Matrizen vom Rang 1, die Summe eine Matrix vom Rang 2.) Wir haben also 2n + 2 Freiheitsgrade. (Spezialfall b = 0: rank 1 update, nicht sehr zielführend.) Frage: Wie wählt man a, b, u, v? Quasi-Newton-Bedingung: G k+1 q k = p k (G k + auu t + bvv t )q k = p k G k q k + auu t q k + bvv t q k = p k G k q k + a(u t q k )u + b(v t q k )v = p k Eine mögliche Lösung dieser Gleichung ist durch gegeben (Daridon, Fletcher, Powell, DFP). u = p k, v = G k q k, a = 1 p t k q, k b = 1 qk t Gt k q k DFP-Algorithmus Start G 0 := I, x 0 R n Startpunkt, k := 0. Iteration k: Berechne g(x k ). Berechne Suchrichtung d k = G k g(x k ). Bestimme Schrittweite t k (mit geeigneter Schrittweitenstrategie). Setze x k+1 := x k + t k d k. Bestimme g(x k + 1): p k = x k+1 x k = t k G k g(x k ) q k = g(x k+1 ) g(x k ). Bestimmte G k+1 = G k + 1 p t k q p k p t k k 1 q t k Gt k q k G k q k q t kg k. Bemerkung G k positiv definit = G k+1 positiv definit, p t k p k > 0. Für den Spezialfall quadratischer Funktionen ist das Verfahren stabil. 90

91 13.7 Quasi-Newtonverfaren Alternative Vorgangsweise Statt ( 2 f(x k )) 1 approximiert man 2 f(x k ). Bisher nun G k+1 q k = q k, q k = H k+1 p x. (H k+1 ist Approximation für 2 f(x k+1 ).) Wieder Rang 2 Ansatz für H k+1. Es resultiert H k+1 = H k + q kqk t 1 p t xp x p t k H (H k p k )(H k p k ) t kp k (Broyoten, Fletcher, Goldfarb, Shanno, BFGS). Im BFGS-Verfahren ist für die Berechnung der Suchrichtung das Lösen eines Gleichungssystems nötig: H k d k = g(x k ). Für das BFGS-Verfahren sind bessere Konvergenzresultate bekannt. 91

92 13 Mehrdimensionale nichtlineare Optimierung ohne Nebenbedingungen 92

93 14 Optimalitätskriteria für nichtlineare Optimierungsaufgaben mit Nebenbedingungen Uns interessieren hier Kriterien für lokale Extrema (Kandidatenpunkte). Problemform: min f(x) h i (x) = 0 g i (x) 0 i = 1,..., m i = 1,..., p mit x R n. Bezeichne mit Ω = {x R n h i (x) = 0 für i = 1,..., m, g i (x) 0 für i = 1,..., p} die Menge der zulässigen Punkte. Spezialfälle des gesuchten Optimalitätskriteriums: m = p = 0: f(x) = 0 p = 0, m > 0: Lagrangefunktion mit L(x, λ) = f(x) + λ t h(x) L x = 0 L λ = 0. f, g, h linear: Satz vom komplementären Schlupf 2 einfache Beispiele zur einführenden Betrachtung: Beispiel min x 1 + x 2 x x = 0. Für jeden Punkt auf dem Kreisrand ( 1, 1) ist es möglich, zu einem anderen zulässigen Punkt (also auf Kreisrand) mit kleinerem Wert von f überzugehen. ( ) 1 f = 1 ( ) 2x 1 h = 2x 2 93

94 14 Optimalitätskriteria für nichtlineare Optimierungsaufgaben mit Nebenbedingungen Beobachtung: In x (und x, das ist Lsg. von max x 1 + x 2 ) sind die Richtungen von f und h parallel zueinander, d.h. λ R : f(x ) = λ h(x ) (ebenso für x). Betrachte die Lagrangefunktion L(x 1, x 2, µ) = x 1 + x 2 + µ(x x 2 2 2), also L x1 = µx 1! = 0 L x2 = µx 2! = 0 L µ = x x 2 2 2! = 0. Daraus ergibt sich x 1 = 1, x 2 = 1, µ = 1 2. Beispiel min x 1 + x 2 x x Hier bleibt die Lösung aus dem vorherigen Beispiel erhalten. x x ist eine sogenannte aktive Restriktion (Ungleichung). x ist nicht optimal, wenn wir eine Richtung d finden können, sodass die Zulässigkeit bei Fortbewegung entlang d erhalten bleibt und f abnimmt. Abnahme von f (Kriterium erster Ordnung): Zulässigkeit im Ungleichungsfall (g(x) 0): Suchen Richtung d, die (14.1) und (14.2) erfüllt. Fall 1 g(x) < 0. ( f(x)) t d < 0. (14.1) g(x + d) g(x) + ( h(x)) t d 0. (14.2) Im zweiten Beispiel ist jede Richtung d für x im Kreisinneren zulässigkeitserhaltend. Die Richtung erfüllt (14.1) und (14.2) für f(x) 0. Fall 2 g(x) = 0. Erste Bedingung: (offener Halbraum). Zweite Bedingung: (abgeschlossener Halbraum). d = g(x) f(x) f(x) ( f(x)) t d < 0 ( g(x)) t d 0 Es gibt keinen Schnitt der beiden Halbräume, wenn f und g parallel sind. 94

95 Beispiel min x 1 + x 2 x x x 2 0 Die Lagrangefunktion ist hier und hat die Ableitungen L(x 1, x 2, µ 1, µ 2 ) = x 1 + x 2 + µ 1 (x x 2 2 2) µ 2 x 2 L x1 = 1 + 2µ 1 x 1 L x2 = 1 + 2µ 1 x 2 µ 2 L µ1 = x x L µ2 = x 2. Wie im Fall p = 0 bauen wir also eine Lagrangefunktion auf: L(x, λ, µ) = f(x) + λ t h(x) + µ t g(x) = f(x) + Zunächst Spezialfall mit Ungleichungen, also m = 0. m λ i h i (x) + Lemma Sei f : R n R, S R n, S. f sei für x S differenzierbar. 1. Sei x lokales Minimum von f über S. Dann gilt wobei F 0 D =, F 0 = {d R n ( f(x)) t d < 0} i=1 p µ j g j (x). j=1 D = {d R n d 0, x + α d S α (0, δ) für ein δ > 0}. 2. Sei F 0 D =, f pseudokonvex in x (bedeutet nicht das gleiche wie quasikonvex!). Es gebe eine ε-umgebung U ε (x) von x, sodass d = x x D für alle x S U ε (x). Dann ist x ein lokales Minimum. Beweisskizze Angenommen es gibt ein d F 0 D. Dann gibt es ein δ 1 > 0 mit Da d D, gibt es weiters ein d 2 > 0 mit f(x + αd) < f(x) α (0, δ 1 ). x + β d S β (0, δ 2 ), Widerspruch zu x lokales Minimum über S. Lemma Sei Ω die zulässige Menge Ω = {x R n g(x) 0}. Sei x Ω und sei I := {i {1,..., p} g i (x) = 0} 95

96 14 Optimalitätskriteria für nichtlineare Optimierungsaufgaben mit Nebenbedingungen die Menge der aktiven Indizes. (g i (x) mit i I sind die aktiven Restriktionen.) Seien die g i, i I, in x differenzierbar. Die restlichen g i seien in x stetig. Sei G 0 := {d R n ( g i (x)) t d < 0 i I} G 0 := {d R n d 0, ( g i (x)) t d 0 i I}. Dann gilt G 0 D G 0. Satz 14.1 Betrachte min f(x) g(x) 0. Sei Ω die Menge der zulässigen Punkte, x Ω, I die Menge der aktiven Indizes bzgl. x, f differenzierbar in x, g i, i I, differenzierbar in x, g i, i I, stetig in x. 1. Sei x ein lokales Minimum von f. Dann gilt wobei F 0 G 0 =, F 0 = {d R n ( f(x)) t d < 0} G 0 = {d R n ( g i (x)) t d < 0 i I}. 2. Sei F 0 G 0 =, f pseudokonvex in x, g i, i I pseudokonvex in einer Umgebung von x. Dann ist x ein lokales Minimum. Beispiel Hier ist x = ( ) min f(x 1, x 2 ) = (x 1 3) 2 + (x 2 2) 2 x x x 1 + x 2 3 x 1, x 2 0. g 1 (x 1, x 2 ) = x x g 2 (x 1, x 2 ) = x 1 + x 2 3 g 3 (x 1, x 2 ) = x 1 g 4 (x 1, x 2 ) = x 2. ist ein zulässiger Punkt. I = {2}, da nur 2. Ungleichung aktiv in x. Es gilt ( ) 2(x 1 3) f(x 1, x 2 ) = 2(x 2 2) ( ) ( ) 2x 1 1 g 2 (x 1, x 2 ) =, g 2 (x 1, x 2 ) =, 2x

97 ( ) also (x) = Die zu betrachtenden Mengen sind also F 0 = {d R d d 2 < 0} G 0 = {d R 2 d 1 + d 2 < 0}, 14.1 Karush-Kuhn-Tucker Bedingungen (KKT) somit F 0 G 0. (Übung: Bestimme ( ) d F 0 G 0.) Also ist x kein lokales ( ) Minimum. 2 2 Betrachte zweiten Punkt ˆx =. Hier ist I = {1, 2} und f(ˆx) =. Die Mengen sind 1 2 F 0 = {d R 2 d 1 d 2 < 0} G 0 = {d R 2 4d 1 + 2d 2 < 0, d 1 + d 2 < 0}. Offensichtlich gilt F 0 G 0 =. Da f, g konvex sind, ist ˆx ein lokales Minimum Karush-Kuhn-Tucker Bedingungen (KKT) Satz 14.4 Betrachte min f(x) g(x) 0, wobei f : R n R, g : R n R, g = (g 1,..., g p ). Ω sei die zulässige Menge, x Ω. I sei die Menge der aktiven Indizes bzgl. x. f, g i, i I, seien in x differenzierbar. g i, i / I, stetig in x. Ferner seien die Vektoren g i (x), i I, linear unabhängig. Ist x lokales Minimum von f, so gibt es Skalare λ i, i I, (Lagrange-Multiplikatoren), mit f(x) + i I λ i g i (x) = 0 (14.3) und λ i 0 für alle i I. (14.4) Bemerkung (14.3) bedeutet, dass f(x) als Linearkombination von g i (x), i I, darstellbar ist. Die linke Seite von (14.3) entspricht L (L die Lagrangefunktion, siehe auch folgende Umformluierung von (14.3) und (14.4)). Bemerkung Formulierung von (14.3) und (14.4) ohne I: Voraussetzung: g i, i = 1,..., p, differenzierbar in x, g i (x), i = 1,..., p, linear unabhängig. Es gibt λ i, i = 1,..., p, sodass und f(x) + p λ i g i (x) = 0 (14.5) i=1 Es muss erzwungen werden, dass λ i = 0, wenn i / I, also λ i 0 für i = 1,..., p. (14.6) i I g i (x) = 0. Somit (Komplementaritätsbedingung). λ i g i (x) = 0 für i = 1,..., p (14.7) 97

98 14 Optimalitätskriteria für nichtlineare Optimierungsaufgaben mit Nebenbedingungen Definition Ein Punkt x, der (14.3) und (14.4) (bzw. (14.5), (14.6) und (14.7)) erfüllt, heißt KKT-Punkt. Satz 14.4 liefert notwendige Bedingung für das Vorliegen eines lokalen Minimums. Ein hinreichendes Kriterium 1. Ordnung liefert der folgende Satz. Definition (pseudokonvex) f : S R, S R n heißt pseudokonvex, wenn für alle x 1, x 2 S gilt. f(x 1 ) t (x 2 x 1 ) 0 f(x 2 ) f(x 1 ) Satz 14.5 (Hinreichendes Optimalitätskriterium 1. Ordnung) Betrachte min f(x) g(x) 0. Sei x ein KKT-Punkt, I die Menge der aktiven Indizes bzgl. x, Ω = {x : g i (x) 0, i I}. Wenn es eine ε-umgebung U ε (x) mit ε > 0 gibt, sodass f pseudokonvex für x U ε (x Ω und g i, i I differenzierbar in x und quasikonvex für x U ε (x) Ω, dann ist x ein lokales Minimum. Betrachte (P) min f(x) g(x) 0 h(x) = 0. Satz 14.6 (KKT-Bedingungen) Sei x Ω (d.h. g(x) 0, h(x) = 0). Sei weiters I die Menge der aktiven Indizes (g i (x) = 0 für i I). f, g i, i I, seien differenzierbar in x und g i, i / I, stetig in x. h i, i = 1,..., m, sei differenzierbar in x. Außerdem seien {g i (x), i I} linear unabhängig, ebenso {h i (x), i I}. Wenn x ein lokales Minimum ist, so gibt es Skalare λ i, i I, und µ j, j = 1,..., m, mit f(x) + i I λ i g i (x) + m µ j h j (x) = 0 (14.8) j=1 und λ i 0 für alle i I. (14.9) Bemerkung Ohne die Menge I heißt das f(x) + und p m λ i g i (x) + µ j h j (x) = 0 (14.10) i=1 λ i 0 i = 1,..., p (14.11) λ i g i (x) = 0 i = 1,..., p. (14.12) (Außerdem muss die Zulässigkeit von x gefordert werden, d.h. g i (x) 0, h i (x) = 0.) j=1 98

99 14.1 Karush-Kuhn-Tucker Bedingungen (KKT) Bemerkung Der Satz 14.6 verallgemeinert die Bedingungen an den Gradienten, Lagrangemultiplikatoren und den Satz vom komplementären Schlupf. Satz 14.7 (Hinreichende Optimalitätskriterium 1. Ordnung) Sei (P) x Ω. Weters sei min f(x) g(x) 0 h(x) = 0, I = {i {1,..., p} g i (x) = 0} J = {j {1,..., m} µ j 0} K = {j {1,..., m} µ j < 0}. Seien f pseudokonvex in x und g i, i I, h j, j J, h j, j K, quasikonvex in x. Dann ist x ein lokales Minimum, wenn obige Bedingungen nicht nur in x, sondern auch in einer ε-umgebung um x gelten. Beispiel Forme um auf min 2x 2 1 2x 1 x 2 + x x 1 15x 2 x 1 + x 2 30 x 1 0 x 2 0. g 1 (x 1, x 2 ) = x 1 + x g 2 (x 1, x 2 ) = x 1 0 g 3 (x 1, x 2 ) = x 2 0. Berechne Gradienten: ( ) 4x 1 2x 2 15 f(x 1, x 2 ) = 2x 2 2x 1 15 ( ) 1 g 2 (x 1, x 2 ) = 0 ( ) 1 g 1 (x 1, x 2 ) = 1 ( ) 0 g 3 (x 1, x 2 ) =. 1 Die KKT-Bedingungen lauten hier: 4x 1 2x λ 1 λ 2 = 0 2x 2 2x λ 1 λ 3 = 0 λ 1 (x 1 + x 2 30) = 0 λ 2 x 1 = 0 λ 3 x 2 = 0 λ 1, λ 2, λ

100 14 Optimalitätskriteria für nichtlineare Optimierungsaufgaben mit Nebenbedingungen und die Zulässigkeitsbedingungen Typische zwei Fragestellungen: x 1 + x 2 30 x 1, x Bestimme alle KKT-Punkte (geht nur für kleine Probleme, eher theoretisch). 2. Gegeben ein x, teste ob x ein KKT-Punkt ist (Zulässigkeitsproblem für lineares System, einfach lösbar). 1. Fallunterscheidung: Jedes λ i kann 0 oder 0 sein. (λ i > 0 g i (x) = 0.) 1. Fall x 1 > 0, x 2 > 0. Daraus folgt λ 2 = 0 und λ 3 = 0. Fall 1a λ 1 = 0. 4x 1 2x λ 1 = 0 2x 1 + 2x λ 1 = 0 λ 1 (x 1 + x 2 30) = 0. 4x 1 2x 3 15 = 0 2x 1 + 2x 2 15 = 0, somit x 1 = 15 > 0 und x 2 = 45 2 > 0. Hier gilt aber x 1 + x 2 > 30, der Punkt ist also nicht zulässig und damit kein KKT-Punkt. Fall 1b λ 1 0. Daraus folgt x 1 + x 2 = 30 und es gibt sich x 1 = 12 > 0 und x 2 = 18 > 0. P 1 (12, 18) ist also ein KKT-Punkt. 2. Fall x 1 = x 2 = 0. Daraus folgt x 1 + x 2 < 30 und somit λ 1 = 0. Es soll 15 λ 2 = 0 15 λ 3 = 0 gelten, also λ 2 = 15 < 0. Es handelt sich also um keinen KKT-Punkt. 3. Fall x 1 > 0, x 2 = 0. Daraus folgt λ 2 = 0 und 4x λ 1 = 0 2x λ 1 λ 3 = 0 λ 1 (x 1 30) = 0. Fall 3a λ 1 = 0. Daraus folgt x 1 = 15 4 und x 3 = 45 2 < 0, also kein KKT-Punkt. Fall 3b λ 1 0. Somit x 1 = 30, λ 1 = 105 < 0, also auch kein KKT-Punkt. 4. Fall x 1 = 0, x 2 > 0. Daraus folgt λ 3 = 0 und 2x λ 1 λ 2 = 0 2x λ 1 =

101 14.1 Karush-Kuhn-Tucker Bedingungen (KKT) Fall 4a λ 1 0. Somit x 2 = 30, λ 1 = 45 < 0, kein KKT-Punkt. Fall 4b λ 1 = 0. Somit x 2 = 15 2, λ 2 = 30 < 0, kein KKT-Punkt. P 1 (12, 18) ist also der einzige KKT-Punkt. 2. Test, ob (15, 15) ein KKT-Punkt ist: λ 1 λ 2 = λ 1 λ 3 = 0 Gleichungssystem nicht lösbar, also kein KKT-Punkt. λ 3 = 0 λ 3 =

102 14 Optimalitätskriteria für nichtlineare Optimierungsaufgaben mit Nebenbedingungen 102

103 A Programmpakete Solver für lineare Programme CPLEX zu bevorzugen. Lpsolve: nicht kommerziell, deutlich schlechter. Minos: schlecht geeignet! 103

104 A Programmpakete 104

105 Sätzeverzeichnis Satz 2.1 Hauptsatz der linearen Optimierung Satz 3.1 Zusammenhang zwischen Basislösungen und Ecken Satz 4.1 Dualitätssatz Satz 4.2 schwacher Dualitätssatz Satz 4.3 Korollar Satz 4.4 Existenzsatz Satz 4.5 Komplementaritätssatz, Satz vom komplementären Schlupf Satz 4.6 Trennung eines Punktes von einer konvexen Menge Satz Satz Satz Satz Satz 4.11 Lemma von Farkas Satz 4.12 Tucker Satz 4.13 Tucker Satz Satz Satz Satz Satz 7.2 Hoffman, Kruskal, Gale Satz 7.3 Heller, Tompkins, Gale Satz Satz Satz 14.5 Hinreichendes Optimalitätskriterium 1. Ordnung Satz 14.6 KKT-Bedingungen Satz 14.7 Hinreichende Optimalitätskriterium 1. Ordnung

106

107 Index aktive Restriktion, 92 aktiver Index, 94 Alternativsätze, Ausgangsbasislösung, 21 Basis, 14 Best-Bound, 74 Regel von Bland, 20 Branch and Bound, 73 Branch and Cut, 75 cutting plane, 75 Dantzig, 13 Regel von Dantzig, 30 Daridon, Fletcher, Powell, 90 disjunkte Nebenbedingung, 77 Dominanzregel, 74 Duales Problem, 37 Duales Simplexverfahren, Dualität, Existenzsatz, 41 Dualitätssatz, 41 schwacher, 41 Dynamische Programmierung, 71 Ecke, 34 Ernährungsproblem, 5 Erste-Index-Regel, 30 Extremwertaufgaben, 5 Lemma von Farkas, 48 FIFO, 74 Flussproblem, 68 Greedy-Lösung, 74 Halbraum, 33 Hauptsatz der linearen Optimierung, 14 Satz von Heller, Tompkins, Gale, 67 Satz von Hoffman, Kruskal, Gale, 66 Hyperebene, 33 Indikatorvariable, 78 Karush-Kuhn-Tucker-Bedingungen, 95 KKT-Punkt, 96 Kleinste-Index-Regel, 20 Knoten-Kanten-Inzidenzmatrix, 68 Komplementärvariable, 27 Komplementaritätsbedingung, 95 Satz vom komplementären Schlupf, 42 konvex, 33 konvexe Hülle, 33 Kostenkoeffizienten, 20 Lagrange-Multiplikatoren, 37 Lagrangefunktion, 92 Lexikographische Auswahlregel, 20 LILO, 74 Lineares Programm allgemeines, 10 duales, 37 Standardform, 9 M-Methode, 24 Matrixmultiplikation, 72 network matrices, 69 network matrix, 69 Nichtbasis, 14 Nordwesteckenregel, 80 Optimallösung, 11 Pivotelement, 20 Polyeder, 33 Polytop, 33 pseudokonvex, 96 Quasi-Newton-Bedingung, 89 rank 2 update, 89 relaxiertes Problem, 74 Rucksackproblem, 71 Schnittebenenverfahren, 75 Simplexverfahren, duales, 55 Effizienz, 31 Endlichkeit, 20 Erweiterungen, 24 geometrische Interpretation, 36 Gleichungen,

108 Index Obere Schranken, 27 Ohne Vorzeichenbeschränkung, 25 spannender Baum, 80 stückweise lineare Zielfunktion, 78 Stigler, 5 Tableau, 20 Trade-off, 74 Transportproblem, 40, 68, 77, 80 Trennungssätze, Unbeschränktheit, 11 unimodular, 65 vollständig unimodular, 65 zentraler Pfad, 59 Zulässigkeit,