Definition eines Nichtlinearen Optimierungsproblemes (NLP) min f (x) bzw. min f (x) s.d. x S x S wobei die zulässige Menge S R n typischerweise definiert ist durch S {x R n : h(x) =, c(x) } für Gleichungs- und Ungleichungsrestriktionen definiert durch h : R n R m und c : R n R p Falls m = = p heisst das NLP Problem unrestringiert. Müssen einige Komponenten x j ganzzahlig sein so spricht man von einem MINLP in Analogie zum linearen MILP. 7 Entsprechendes Entscheidungsproblem: Für welche Schranke ϕ hat das System algebraischer Gleichungen und Ungleichungen f (x) ϕ, h(x) =, c(x) überhaupt eine Lösung x R n? Komplexitätsvergleich Das jeweilige Entscheidungsproblem ist nur unwesentlich einfacher als das Optimierungsproblem, da letzteres durch eine Folge von Entscheidungsproblemen mit variierendem ϕ approximativ gelöst werden kann. Bemerkung Abgesehen vom unten besprochenen konvexen Fall ist schon das Entscheidungsproblem auch ohne Ganzzahligkeitsbedingung NP schwer. Unter Optimierern gehen die Meinungen über die praktische Bedeutung dieser theoretischen Aussage weit auseinander. 7 Wirkung von Nichtlinearität und Nichtkonvexität II Im Falle reiner Gleichungssysteme wurde festgestellt, dass nichtlineare Probleme, für die alle Funktionen stetig differenzierbar sind, im lokalen Sinne ( d.h. bei Vorgabe eines Anfangspunktes in der unmittelbaren Nähe einer Lösung ) nur unwesentlich schwerer als lineare Probleme sind. Das gilt auch in Kombination mit Ungleichungen. Als Verallgemeinerung von Newton s Methode nähert man dann das gegebenen NLP durch eine Folge von Systemen aus linearen Gleichungen und Ungleichungen an. Bei der direkten Lösung des Optimierungsproblemes wird dabei die Zielfunktion quadratisch angenähert. Das führt zu den sogenannten sukzessiven quadratischen (SQP). Global, d.h. ohne Vorgabe guter Startwerte, sind nichtlineare Probleme viel schwerer, da schon die Suche nach einem auch nur annäherungsweise zulässigen Vektor einen in der Zahl seiner Komponenten exponentiellen Aufwand verursachen kann. 74 Wirkung von Nichtlinearität und Nichtkonvexität I Die scheinbar harmlose polynomiale (Zusatz-)Gleichung x i( x i) = erzwingt, dass die i-te Variable x i binär ist, d.h. nur die Werte oder annehmen darf. ( Man kann so leicht das klassische Entscheidungsproblem SAT als NLP schreiben. ) Ein guter Anfangswert bedeutet hier praktisch die Vorentscheidung, ob x i nun oder sein soll. Nur im Falle konvexer NLP ( d.h. h muss linear sein, aber f und die p Komponenten von c können allgemeinere konvexe Funktionen sein ) werden keine guten Startwerte benötigt. Denn dann sind sowohl die Menge aller zulässigen und insbesondere die Menge aller optimalen Lösungen selbst konvex und es gibt keine lokalen Minima. 75
Eine wichtige Klasse (häufig unrestringierter) NLPs sind von der Form: min f (z) F (z) y = (F (z) y) (F (z) y) wobei F : R n R m mit m n ein an verschiedenen Punkten ausgewertetes mathematisches Modell darstellt. Der Variablenvektor z soll so gewählt werden soll, dass der Euklidische Abstand F (x) y zu gemessenen Daten y R m möglichst klein ist. Zum Beispiel könnte man die in Übung Aufgabe betrachteten synthetischen ( d.h. nicht wirklich gemessenen sondern künstlich erzeugten ) Daten y i = + 5xi, x i = {.6,.,.,,.,.,.6}, für i =,..., 7 auch nichtlinear annähern. 76 Fortsetzung des Beispieles Statt die Daten durch eine Linearkombination von Monomen u j(x) = x j oder sonstiger Basisfunktionen könnte man annehmen dass y i F i(z) ϕ(x i, z) mit ϕ(x, z) z + z cos(z x + z 4) Mit anderen Worten: Wir nutzen eine Kosinusfunktion mit den vier Parametern z (z i) i=,...,4 als Modell für unsere Daten. Offensichtlich ist nun F (z) y = (F i(z) y i) i=,...,4 nicht mehr linear und entsprechend f (z) F (z) y / auch nicht quadratisch in z. Wegen der Oszillationen der Kosinusfunktion ist dieses Problem auch nicht konvex und hat mehrere lokale Minima. können entweder mit allgemeinen Algorithmen zur nichtlinearen Optimierung oder mit verschiedenen Varianten des sogenannten Gauss-Newton - Verfahrens gelöst werden. 77 Gauss-Newton Bei dieser Verallgemeinerung des Newton-Verfahrens wird am jeweiligen Annäherungswert z für einen zunächst beliebigen Schritt s approximiert F (z + s) F z(s) F (z) + F (z)s wobei F (z) R m n wiederum die aus allen ersten partiellen Ableitungen F i/ z j von F nach z geformte Jacobimatrix darstellt. Während im Newtonverfahren der Schritte s so gewählt wird, dass das Gleichungssystem F (z)s = F (z) exakt erfüllt wird, geht dies im vorliegenden überbestimmten Falle m n im allgemeinen nicht. Hier wird wie beim linearen Ausgleichproblem s so gewählt, dass s das Residuum F (z)s + F (z) minimiert. Im wohlbestimmten Falle m = n ergibt dies den exakten Newton-Schritt s = F (z) F (z). 78 Gauss-Newton (Fortsetzung) Wiederholung führt hier unter Nutzung der Normalengleichung zur Gauss-Newton - Iteration z z [ F (z) F (z) ] F (z) F (z) Unter geeigneten Vorraussetzungen ergibt sich von guten Anfangspunkten lineare Konvergenz gegen ein lokales Minimum von f (z) = / F (z) y. Dabei muss gegebenenfalls eine Dämpfung der Schrittweite eingesetzt werden und selbst mit ihr ist Konvergenz von beliebigen Anfangspunkten nicht garantiert. 79
Lösbarkeit allgemeiner NLPs Man unterscheidet drei Möglichkeiten (i) zulässig S {x R n : h(x) =, c(x) } (ii) beschränkt < f inf{f (x) : x S} (iii) lösbar argmin(f S) {x S : f (x) = f } Bei der Linearen Programmierung, d.h. wenn f, c, h linear sind gilt (i) & (ii) = (iii) sowie argmin(f U S) argmin(f S) wobei f M die Restriktion der Funktion f auf eine beliebige Teilmenge M seines Definitonsbereiches symbolisiert. 8 Nichtlineares Gegenbeispiel: S = [, ), f (x) = e (x ) (iv) (v) zulässig und beschränkt, aber nicht lösbar. x = ist lokales aber nicht globales Minimum. Warnung: Die Möglichkeiten (iv) und (v) können im Allgemeinen durch einen Optimierungsalgorithmus nicht festgestellt werden. Praktisches Abbruchkriterium: Gib auf, wenn die an benachbarten zulässigen Punkten erzielbaren Reduktionen des Funktionswertes kleiner als eine vorgegebene Toleranz ist ( oder der Algorithmus anderen Hindernissen, wie zum Beispiel singulären Matrizen, begegnet ist.) 8 Grundlegende algorithmische Herangehensweisen Lokale Abstiegsmethodik Ausgehend von x S erzeuge eine Folge x k+ = x k + s k with f (x k+) < f (x k) so dass hoffentlich für ein offenes U lim xk = x with x argmin(f U S) k Globale Optimierungsmethodik Erzeuge eine endliche Punktwolke X = {x k} K k= Rn möglicherweise unter Berücksichtigng des Fitnesswertes f (x k) und wähle ˇx argmin(f S X ) See: Evolutionäre Algorithmen = Simmulated Annealing + Genetic Algorithms (GA) +... 8 Griewank s function: The GA playground 8.5 6 4.5.5 4 6 5 8 5 5 5 8 6 4 4 6 8 n x n ( ) i f (x) = + xi cos i= i= i google (Griewank function) = # 7 Kilohits 8
Comparison between PSA/GAc and GA (Griewank function) dim PSA GA (*) duga Optimum.e-5order Success rate.9.. Evaluations 8 4 67696 Success rate..7.9 Evaluations 84 9 8976 Comparison between PSA/GAc and GA (Rosenbrock function) Optimum dim.e-8order Success rate... Evaluations 757 4 4 Success rate... Evaluations 744 4 4 84 Optimalitätsbedingungen unrestringierten Fall (m = = p) = f (x) ( f ) Gradient verschwindet x i=,...,n i = Minimiere f ist lokal äquivalent zu löse g(x) f (x) = ( ) i=,...,n f f (x) Hessematrix H(x) ist positiv semi-definite x i x j j=,...,n g(x) = H(x) det(h(x)) = x lokales Minimum 85 Rosenbrock Funktion 5 5 4.5.5.5.5.5 86 Höhenlinien der Rosenbrock Funktion.5.5 x.5.5.5.5.5.5.5.5 x 87
Gradienten - Verfahren für Rosenbrock - Funktion.5.5 Start x.5 Solution.5.5.5.5.5.5.5 x 88 Was klemmt beim Steilsten Abstieg (Cauchy,847)??? x k+ = x k α kg k mit α k argmin(f (x k αg k)) α> Die Berechenung von α k heisst line-search bzw Strahlsuche. Für f (x, x ) = (x + κx ) zeigt die Methode zigzaging: PSfrag replacements x = x /κ x = x /κ Im allgemeinen Fall ist die Konvergenzrate x k x x x ( κ + )k x x ( k/κ) wobei κ = κ(h ) H H = λ max(h )/λ min(h ) 89 Bedeutung von Skalierungsinvarianz Steilster Abstieg funktioniert perfekt wenn κ(h(x )) = H(x ) = I oder wenn angewandt auf das transformierte Problem f (z) f (H / z) = Newton s Methode Dynamische Transformation x k+ = x k + α ks k mit H(x k)s k = g k = Quasi Newton Methode, z.b. B ks k = g k mit H k B k U(B k, s k, g k g k ) dies ist der einzige Weg zur superlinearen Konvergenz, d.h. x k+ x lim k x k x = 9 BFGS - Verfahren für Rosenbrock - Funktion.5.5 Start x.5 Solution.5.5.5.5.5.5.5 x 9
Mutations-Selektions - Verfahren für Rosenbrock-Funktion 9 Kosten der Linearen Algebra vs. Auswertungskomplexität OPS(H k g k) = n OPS(B k g k) n MEM(H k) = n MEM(B k) = k n for LM-BFGS LM Limited Memory Version OPS( f (x)) OPS(f (x)) 4 via Algorithmischem Differenzieren OPS( f (x)) OPS(f (x)) 4n im schlimssten vollbesetzten Fall 9 Zwischenfolgerungen (für den unrestringierten Fall) Gradienten kosten nur ein kleines Vielfaches der zu Grunde liegenden Funktionsauswertung vorrausgesetzt diese ist durch einen Auswertungscode gegeben. Hesse- und Jacobimatrizen, e.g. f und im beschränkten Falle h, c, können sehr teuer zu faktorisieren sein, falls sie keine geeignete Dünnbesetzheitsstruktur besitzen. Gradientenbasierte quasi Newton Methoden sind ein guter Kompromiss zwischen langsamen ableitungsfreien Verfahren und teuren Methoden zweiter Ordnung wie z.b. Newton. Bei unrestringierten Problemen kann durch Strahlsuche Konvergenz zu einem stationären Punkt erzwungen werden. Globale Optimierung ist extrem teuer und/oder sehr unzuverlässig. 94