Nichtlineare Optimierungsprobleme mit Komplexität



Ähnliche Dokumente
Mathematik 1 für Wirtschaftsinformatik

Optimierung für Nichtmathematiker

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

7 Rechnen mit Polynomen

Optimierungsprobleme mit Nebenbedingungen - Einführung in die Theorie, Numerische Methoden und Anwendungen

Mathematischer Vorbereitungskurs für Ökonomen

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung mit Ungleichungsnebenbedingungen

Eigenwerte und Eigenvektoren von Matrizen

Kevin Caldwell. 18.April 2012

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester gehalten von Harald Baum

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Bestimmung einer ersten

1 Mathematische Grundlagen

Lineare Gleichungssysteme

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Die reellen Lösungen der kubischen Gleichung

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Plotten von Linien ( nach Jack Bresenham, 1962 )

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Lineare Gleichungssysteme

Lösung. Prüfungsteil 1: Aufgabe 1

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Repetitionsaufgaben Wurzelgleichungen

Extrema von Funktionen in zwei Variablen

Optimierung. Florian Jarre Josef Stoer. Springer

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Nichtlineare Optimierung ohne Nebenbedingungen

4. Dynamische Optimierung

TECHNISCHE UNIVERSITÄT MÜNCHEN

Physik 4, Übung 11, Prof. Förster

Dynamische Mathematik mit GeoGebra 30. März 1. April 2009

Primzahlen und RSA-Verschlüsselung

Das Dilemma des Einbrechers Wer die Wahl hat, hat die Qual!

Kapitel 15. Lösung linearer Gleichungssysteme

Universität Bonn, Institut für Angewandte Mathematik. WS 2012/2013 Prüfung Angewandte Mathematik und Statistik - Agrarwiss. /ELW

Optimalitätskriterien

Grundbegriffe der Informatik

Approximation durch Taylorpolynome

Erfahrungen mit Hartz IV- Empfängern

6.2 Scan-Konvertierung (Scan Conversion)

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Lineare Gleichungssysteme I (Matrixgleichungen)

Matrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist.

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Definition 3.1: Ein Differentialgleichungssystem 1. Ordnung

DAS ABI-PFLICHTTEIL Büchlein

Info zum Zusammenhang von Auflösung und Genauigkeit

Professionelle Seminare im Bereich MS-Office

Abituraufgabe zur Analysis, Hessen 2009, Grundkurs (TR)

Lösungsmethoden gewöhnlicher Differentialgleichungen (Dgl.)

1 topologisches Sortieren

Erstellen von x-y-diagrammen in OpenOffice.calc

Stackelberg Scheduling Strategien

Charakteristikenmethode im Beispiel

a n := ( 1) n 3n n 2. a n := 5n4 + 2n 2 2n n + 1. a n := n 5n 2 n 2 + 7n + 8 b n := ( 1) n

Lernmaterial für die Fernuni Hagen effizient und prüfungsnah

Korrelation (II) Korrelation und Kausalität

Grundlagen der Theoretischen Informatik, SoSe 2008

Lineare Optimierung Ergänzungskurs

2.8 Grenzflächeneffekte

Das Mathematik-Abitur im Saarland

R ist freie Software und kann von der Website.

Statuten in leichter Sprache

Teil II Optimierung. Peter Buchholz Modellgestützte Analyse und Optimierung Kap. 9 Einführung Optimierung

Taschenbuch Versuchsplanung Produkte und Prozesse optimieren

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

agitat Werkzeuge kann man brauchen und missbrauchen - vom Einsatz von NLP in der Führung

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Einführung in. Logische Schaltungen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

!(0) + o 1("). Es ist damit möglich, dass mehrere Familien geschlossener Orbits gleichzeitig abzweigen.

6 Allgemeine Theorie des elektromagnetischen Feldes im Vakuum

1.3 Die Beurteilung von Testleistungen

Lineare Differentialgleichungen erster Ordnung erkennen

Lösungsvorschlag für die Probeklausuren und Klausuren zu Algebra für Informations- und Kommunikationstechniker bei Prof. Dr.

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Vorstellung Microsoft Mathematics 4.0

Paper Computer Science Experiment. Computation (NP-Vollständigkeit) Steinerbäume

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Übung Theoretische Grundlagen

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Lichtbrechung an Linsen

TEILWEISE ASYNCHRONE ALGORITHMEN

Lineare Algebra und Lösung linearer zeitinvarianter Differentialgleichungssysteme

Frohe Weihnachten und ein gutes neues Jahr!

Algorithmen II Vorlesung am

Zahlen auf einen Blick

Informationsblatt Induktionsbeweis

Kurzeinführung zum Plotten in Maple

Klausur Mathematik 2

Vorkurs Mathematik Übungen zu Differentialgleichungen

Transkript:

Definition eines Nichtlinearen Optimierungsproblemes (NLP) min f (x) bzw. min f (x) s.d. x S x S wobei die zulässige Menge S R n typischerweise definiert ist durch S {x R n : h(x) =, c(x) } für Gleichungs- und Ungleichungsrestriktionen definiert durch h : R n R m und c : R n R p Falls m = = p heisst das NLP Problem unrestringiert. Müssen einige Komponenten x j ganzzahlig sein so spricht man von einem MINLP in Analogie zum linearen MILP. 7 Entsprechendes Entscheidungsproblem: Für welche Schranke ϕ hat das System algebraischer Gleichungen und Ungleichungen f (x) ϕ, h(x) =, c(x) überhaupt eine Lösung x R n? Komplexitätsvergleich Das jeweilige Entscheidungsproblem ist nur unwesentlich einfacher als das Optimierungsproblem, da letzteres durch eine Folge von Entscheidungsproblemen mit variierendem ϕ approximativ gelöst werden kann. Bemerkung Abgesehen vom unten besprochenen konvexen Fall ist schon das Entscheidungsproblem auch ohne Ganzzahligkeitsbedingung NP schwer. Unter Optimierern gehen die Meinungen über die praktische Bedeutung dieser theoretischen Aussage weit auseinander. 7 Wirkung von Nichtlinearität und Nichtkonvexität II Im Falle reiner Gleichungssysteme wurde festgestellt, dass nichtlineare Probleme, für die alle Funktionen stetig differenzierbar sind, im lokalen Sinne ( d.h. bei Vorgabe eines Anfangspunktes in der unmittelbaren Nähe einer Lösung ) nur unwesentlich schwerer als lineare Probleme sind. Das gilt auch in Kombination mit Ungleichungen. Als Verallgemeinerung von Newton s Methode nähert man dann das gegebenen NLP durch eine Folge von Systemen aus linearen Gleichungen und Ungleichungen an. Bei der direkten Lösung des Optimierungsproblemes wird dabei die Zielfunktion quadratisch angenähert. Das führt zu den sogenannten sukzessiven quadratischen (SQP). Global, d.h. ohne Vorgabe guter Startwerte, sind nichtlineare Probleme viel schwerer, da schon die Suche nach einem auch nur annäherungsweise zulässigen Vektor einen in der Zahl seiner Komponenten exponentiellen Aufwand verursachen kann. 74 Wirkung von Nichtlinearität und Nichtkonvexität I Die scheinbar harmlose polynomiale (Zusatz-)Gleichung x i( x i) = erzwingt, dass die i-te Variable x i binär ist, d.h. nur die Werte oder annehmen darf. ( Man kann so leicht das klassische Entscheidungsproblem SAT als NLP schreiben. ) Ein guter Anfangswert bedeutet hier praktisch die Vorentscheidung, ob x i nun oder sein soll. Nur im Falle konvexer NLP ( d.h. h muss linear sein, aber f und die p Komponenten von c können allgemeinere konvexe Funktionen sein ) werden keine guten Startwerte benötigt. Denn dann sind sowohl die Menge aller zulässigen und insbesondere die Menge aller optimalen Lösungen selbst konvex und es gibt keine lokalen Minima. 75

Eine wichtige Klasse (häufig unrestringierter) NLPs sind von der Form: min f (z) F (z) y = (F (z) y) (F (z) y) wobei F : R n R m mit m n ein an verschiedenen Punkten ausgewertetes mathematisches Modell darstellt. Der Variablenvektor z soll so gewählt werden soll, dass der Euklidische Abstand F (x) y zu gemessenen Daten y R m möglichst klein ist. Zum Beispiel könnte man die in Übung Aufgabe betrachteten synthetischen ( d.h. nicht wirklich gemessenen sondern künstlich erzeugten ) Daten y i = + 5xi, x i = {.6,.,.,,.,.,.6}, für i =,..., 7 auch nichtlinear annähern. 76 Fortsetzung des Beispieles Statt die Daten durch eine Linearkombination von Monomen u j(x) = x j oder sonstiger Basisfunktionen könnte man annehmen dass y i F i(z) ϕ(x i, z) mit ϕ(x, z) z + z cos(z x + z 4) Mit anderen Worten: Wir nutzen eine Kosinusfunktion mit den vier Parametern z (z i) i=,...,4 als Modell für unsere Daten. Offensichtlich ist nun F (z) y = (F i(z) y i) i=,...,4 nicht mehr linear und entsprechend f (z) F (z) y / auch nicht quadratisch in z. Wegen der Oszillationen der Kosinusfunktion ist dieses Problem auch nicht konvex und hat mehrere lokale Minima. können entweder mit allgemeinen Algorithmen zur nichtlinearen Optimierung oder mit verschiedenen Varianten des sogenannten Gauss-Newton - Verfahrens gelöst werden. 77 Gauss-Newton Bei dieser Verallgemeinerung des Newton-Verfahrens wird am jeweiligen Annäherungswert z für einen zunächst beliebigen Schritt s approximiert F (z + s) F z(s) F (z) + F (z)s wobei F (z) R m n wiederum die aus allen ersten partiellen Ableitungen F i/ z j von F nach z geformte Jacobimatrix darstellt. Während im Newtonverfahren der Schritte s so gewählt wird, dass das Gleichungssystem F (z)s = F (z) exakt erfüllt wird, geht dies im vorliegenden überbestimmten Falle m n im allgemeinen nicht. Hier wird wie beim linearen Ausgleichproblem s so gewählt, dass s das Residuum F (z)s + F (z) minimiert. Im wohlbestimmten Falle m = n ergibt dies den exakten Newton-Schritt s = F (z) F (z). 78 Gauss-Newton (Fortsetzung) Wiederholung führt hier unter Nutzung der Normalengleichung zur Gauss-Newton - Iteration z z [ F (z) F (z) ] F (z) F (z) Unter geeigneten Vorraussetzungen ergibt sich von guten Anfangspunkten lineare Konvergenz gegen ein lokales Minimum von f (z) = / F (z) y. Dabei muss gegebenenfalls eine Dämpfung der Schrittweite eingesetzt werden und selbst mit ihr ist Konvergenz von beliebigen Anfangspunkten nicht garantiert. 79

Lösbarkeit allgemeiner NLPs Man unterscheidet drei Möglichkeiten (i) zulässig S {x R n : h(x) =, c(x) } (ii) beschränkt < f inf{f (x) : x S} (iii) lösbar argmin(f S) {x S : f (x) = f } Bei der Linearen Programmierung, d.h. wenn f, c, h linear sind gilt (i) & (ii) = (iii) sowie argmin(f U S) argmin(f S) wobei f M die Restriktion der Funktion f auf eine beliebige Teilmenge M seines Definitonsbereiches symbolisiert. 8 Nichtlineares Gegenbeispiel: S = [, ), f (x) = e (x ) (iv) (v) zulässig und beschränkt, aber nicht lösbar. x = ist lokales aber nicht globales Minimum. Warnung: Die Möglichkeiten (iv) und (v) können im Allgemeinen durch einen Optimierungsalgorithmus nicht festgestellt werden. Praktisches Abbruchkriterium: Gib auf, wenn die an benachbarten zulässigen Punkten erzielbaren Reduktionen des Funktionswertes kleiner als eine vorgegebene Toleranz ist ( oder der Algorithmus anderen Hindernissen, wie zum Beispiel singulären Matrizen, begegnet ist.) 8 Grundlegende algorithmische Herangehensweisen Lokale Abstiegsmethodik Ausgehend von x S erzeuge eine Folge x k+ = x k + s k with f (x k+) < f (x k) so dass hoffentlich für ein offenes U lim xk = x with x argmin(f U S) k Globale Optimierungsmethodik Erzeuge eine endliche Punktwolke X = {x k} K k= Rn möglicherweise unter Berücksichtigng des Fitnesswertes f (x k) und wähle ˇx argmin(f S X ) See: Evolutionäre Algorithmen = Simmulated Annealing + Genetic Algorithms (GA) +... 8 Griewank s function: The GA playground 8.5 6 4.5.5 4 6 5 8 5 5 5 8 6 4 4 6 8 n x n ( ) i f (x) = + xi cos i= i= i google (Griewank function) = # 7 Kilohits 8

Comparison between PSA/GAc and GA (Griewank function) dim PSA GA (*) duga Optimum.e-5order Success rate.9.. Evaluations 8 4 67696 Success rate..7.9 Evaluations 84 9 8976 Comparison between PSA/GAc and GA (Rosenbrock function) Optimum dim.e-8order Success rate... Evaluations 757 4 4 Success rate... Evaluations 744 4 4 84 Optimalitätsbedingungen unrestringierten Fall (m = = p) = f (x) ( f ) Gradient verschwindet x i=,...,n i = Minimiere f ist lokal äquivalent zu löse g(x) f (x) = ( ) i=,...,n f f (x) Hessematrix H(x) ist positiv semi-definite x i x j j=,...,n g(x) = H(x) det(h(x)) = x lokales Minimum 85 Rosenbrock Funktion 5 5 4.5.5.5.5.5 86 Höhenlinien der Rosenbrock Funktion.5.5 x.5.5.5.5.5.5.5.5 x 87

Gradienten - Verfahren für Rosenbrock - Funktion.5.5 Start x.5 Solution.5.5.5.5.5.5.5 x 88 Was klemmt beim Steilsten Abstieg (Cauchy,847)??? x k+ = x k α kg k mit α k argmin(f (x k αg k)) α> Die Berechenung von α k heisst line-search bzw Strahlsuche. Für f (x, x ) = (x + κx ) zeigt die Methode zigzaging: PSfrag replacements x = x /κ x = x /κ Im allgemeinen Fall ist die Konvergenzrate x k x x x ( κ + )k x x ( k/κ) wobei κ = κ(h ) H H = λ max(h )/λ min(h ) 89 Bedeutung von Skalierungsinvarianz Steilster Abstieg funktioniert perfekt wenn κ(h(x )) = H(x ) = I oder wenn angewandt auf das transformierte Problem f (z) f (H / z) = Newton s Methode Dynamische Transformation x k+ = x k + α ks k mit H(x k)s k = g k = Quasi Newton Methode, z.b. B ks k = g k mit H k B k U(B k, s k, g k g k ) dies ist der einzige Weg zur superlinearen Konvergenz, d.h. x k+ x lim k x k x = 9 BFGS - Verfahren für Rosenbrock - Funktion.5.5 Start x.5 Solution.5.5.5.5.5.5.5 x 9

Mutations-Selektions - Verfahren für Rosenbrock-Funktion 9 Kosten der Linearen Algebra vs. Auswertungskomplexität OPS(H k g k) = n OPS(B k g k) n MEM(H k) = n MEM(B k) = k n for LM-BFGS LM Limited Memory Version OPS( f (x)) OPS(f (x)) 4 via Algorithmischem Differenzieren OPS( f (x)) OPS(f (x)) 4n im schlimssten vollbesetzten Fall 9 Zwischenfolgerungen (für den unrestringierten Fall) Gradienten kosten nur ein kleines Vielfaches der zu Grunde liegenden Funktionsauswertung vorrausgesetzt diese ist durch einen Auswertungscode gegeben. Hesse- und Jacobimatrizen, e.g. f und im beschränkten Falle h, c, können sehr teuer zu faktorisieren sein, falls sie keine geeignete Dünnbesetzheitsstruktur besitzen. Gradientenbasierte quasi Newton Methoden sind ein guter Kompromiss zwischen langsamen ableitungsfreien Verfahren und teuren Methoden zweiter Ordnung wie z.b. Newton. Bei unrestringierten Problemen kann durch Strahlsuche Konvergenz zu einem stationären Punkt erzwungen werden. Globale Optimierung ist extrem teuer und/oder sehr unzuverlässig. 94