Vorlesung und Übung WS 2012/2013. Univ.-Prof. Dr. techn. Andreas KUGI OPTIMIERUNG

Transkript

1 - Vorlesung und Übung WS 22/23 Univ.-Prof. Dr. techn. Andreas KUGI OPTIMIERUNG

2 Optimierung Vorlesung und Übung WS 22/23 Univ.-Prof. Dr. techn. Andreas KUGI TU Wien Institut für Automatisierungs- und Regelungstechnik Gruppe für komplexe dynamische Systeme Gusshausstrasse Wien Telefon: Internet: Institut für Automatisierungs- und Regelungstechnik, TU Wien

3 Inhaltsverzeichnis Einleitung. Statische Optimierungsprobleme Mathematische Formulierung Beispiele Dynamische Optimierungsprobleme Mathematische Formulierung Beispiele Mathematische Grundlagen Infimum, Supremum, Minimum und Maximum Existenz von Minima und Maxima Gradient und Hessematrix Konvexität Konvexe Mengen Konvexe Funktionen Literatur Statische Optimierung: Unbeschränkter Fall 2 2. Optimalitätsbedingungen Rechnergestützte Minimierungsverfahren: Grundlagen Liniensuchverfahren Wahl der Schrittweite Intervallschachtelungsverfahren ( Goldener Schnitt ) Quadratische Interpolation Heuristische Wahl der Schrittlänge Wahl der Suchrichtung Gradientenmethode Newton Methode Konjugierte Gradientenmethode Quasi Newton Methode Methode der Vertrauensbereiche Direkte Suchverfahren Beispiel: Rosenbrock s Bananenfunktion Literatur Statische Optimierung: Mit Beschränkungen Optimalitätsbedingungen Gleichungsbeschränkungen

4 Inhaltsverzeichnis Seite II 3..2 Sensitivitätsbetrachtung Ungleichungsbeschränkungen Rechnergestützte Optimierungsverfahren Methode der aktiven Beschränkungen Gradienten Projektionsmethode Methode der Straf- und Barrierefunktionen Straffunktionen Barrierefunktionen Sequentielle Quadratische Programmierung (SQP) Lokales SQP-Verfahren Globalisierung des SQP-Verfahrens Beispiel: Rosenbrock s Bananenfunktion Software Übersicht Literatur Dynamische Optimierung Grundlagen der Variationsrechnung Problemformulierung Optimalitätsbedingungen Stückweise stetig differenzierbare Extremale Entwurf von Optimalsteuerungen Problemformulierung Existenz einer optimalen Lösung Variationsformulierung Minimumsprinzip von Pontryagin Minimumsprinzip für eingangsaffine Systeme Kostenfunktional mit verbrauchsoptimalem Anteil Kostenfunktional mit energieoptimalem Anteil Zeitoptimales Kostenfunktional Der singuläre Fall Literatur

5 Einleitung Einzelne Teile dieses Skriptums orientieren sich am Skriptum Optimierung, das Herr Dr.-Ing. Knut Graichen im WS 29/2 im Rahmen seiner Tätigkeit am Institut für Automatisierungs- und Regelungstechnik aufgebaut hat. Ein wesentlicher Punkt in unserem Berufs- und Privatleben besteht darin, richtige Entscheidungen zu treffen bzw. optimale Lösungen zu finden. Ein Entscheidungsfindungsprozess setzt dabei voraus, dass man in der Wahl der Entscheidung bzw. Lösung einen Spielraum hat, der naturgemäß gewissen Einschränkungen unterliegt. Die Suche nach einer optimalen Lösung macht nur in Zusammenhang mit einer genau spezifizierten Zielsetzung Sinn. Dementsprechend kann eine Lösung als optimal bezüglich einer Zielsetzung bezeichnet werden, wenn sie unter Berücksichtigung der vorhandenen Restriktionen das gewünschte Ziel am ehesten erfüllt. Um für eine bestimmte Aufgabenstellung eine optimale Lösung berechnen zu können, ist es erforderlich, diese in Form eines mathematischen Optimierungsproblems, im Folgenden kurz auch oft als OP abgekürzt, zu formulieren. Generell wird dabei zwischen statischen und dynamischen Optimierungsproblemen unterschieden. Statisches Optimierungsproblem: Minimierung einer Funktion mit Optimierungsvariablen, die Elemente eines Euklidischen Raumes sind. Dynamisches Optimierungsproblem: Minimierung eines Funktionals, bei dem die Optimierungsvariablen Elemente eines (unendlich-dimensionalen) Funktionenraumes sind (z. B. Zeitfunktionen). In diesem Kapitel soll zunächst anhand von einigen Beispielen ein Eindruck vom prinzipiellen Unterschied zwischen der statischen und dynamischen Optimierung vermittelt werden.. Statische Optimierungsprobleme Unter einem statischen Optimierungsproblem wird das Minimieren einer Funktion f(x) unter Berücksichtigung gewisser Nebenbedingungen verstanden, wobei die Optimierungsvariablen x Elemente des Euklidischen RaumesR n sind.

6 . Statische Optimierungsprobleme Seite 2.. Mathematische Formulierung Die Standardformulierung eines statischen Optimierungsproblems lautet min f(x) Kostenfunktion (.a) x R n u.b.v. g i (x) =, i =,..., p Gleichungsbeschränkungen (.b) h i (x), i =,..., q Ungleichungsbeschränkungen. (.c) Ist ein Optimierungsproblem ohne die Gleichungs- und Ungleichungsbeschränkungen (.b) und (.c) gegeben, spricht man von einem unbeschränkten Optimierungsproblem. Im allgemeinen Fall, d. h. unter Berücksichtigung der Nebenbedingungen (.b) (.c), handelt es sich um ein beschränktes Optimierungsproblem. Die Menge X ad R n, die die Gleichungs- und Ungleichungsbeschränkungen (.b) und (.c) erfüllt, X ad = { x R n : g i (x) =, i =,..., p, h i (x), i =,..., q } (.2) wird als zulässiger Bereich (Englisch: admissible or feasible region) und jedes x X ad als zulässiger Punkt bezeichnet. Damit lässt sich das statische Optimierungsproblem (.) auch in der äquivalenten Form min f(x) (.3) x X ad angeben. Im Falle von unbeschränkten Problemen gilt X ad =R n. Es ist direkt ersichtlich, dass X ad nicht die leere Menge sein darf, da das Optimierungsproblem (.3) ansonsten keine Lösung besitzt. Eine weitere notwendige Bedingung für X ad kann aus den Gleichungsbeschränkungen (.b) abgeleitet werden, da sich durch die algebraischen Restriktionen g i (x) = die Anzahl der freien Optimierungsvariablen x R n auf n p reduziert. Somit darf die Anzahl p der Gleichungsbeschränkungen (.b) nicht größer als die Anzahl der Optimierungsvariablen x R n sein, da die zulässige Menge X ad ansonsten leer wäre. Im Laufe der Jahrzehnte hat sich die Formulierung als Minimierungsproblem (.a) standardisiert. Analog dazu kann ein Maximierungsproblem ebenfalls als Minimierungsproblem gemäß (.a) geschrieben werden: max x R n f(x) = min f(x). x R n Neben der Bezeichnung statische Optimierung werden häufig auch die Begriffe Mathematische Programmierung oder Endlich Dimensionale Optimierung verwendet. Der Begriff Programmierung ist eher im Sinne von Planung zu verstehen als im Sinne der Erstellung eines Computerprogramms. Er wurde schon Mitte der 94er Jahre von George Dantzig, einem der Begründer der Linearen Optimierung, geprägt, bevor Computer zur Lösung linearer Optimierungsprobleme eingesetzt wurden. Unterschieden werden bei statischen Optimierungsproblemen häufig folgende Klassen: Lineare Programmierung: Die Kostenfunktion und die Beschränkungen sind linear.

7 . Statische Optimierungsprobleme Seite 3 Quadratische Programmierung: Die Kostenfunktion ist quadratisch, während die Beschränkungen linear sind. Nichtlineare Programmierung: Die Kostenfunktion oder mindestens eine Beschränkung ist nichtlinear. Konvexe Programmierung: Konvexität ist ein mathematischer Begriff, der im Hinblick auf die Optimierung eine besondere Bedeutung spielt, denn er erlaubt es, eine Klasse von Optimierungsproblemen zu formulieren, für die die notwendigen Optimalitätsbedingungen erster Ordnung gleichzeitig hinreichende Bedingungen für ein globales Optimum sind. Integer Programmierung: Alle Variablen sind diskret. Mixed Integer Programmierung: Kontinuierliche und diskrete Variablen treten auf...2 Beispiele Insbesondere die lineare Programmierung wird häufig bei wirtschaftlichen Fragestellungen, wie Produktions, Planungs oder Investitionsproblemen, eingesetzt. Das folgende Beispiel ist ein stark vereinfachtes Beispiel einer Portfolio Optimierung. Beispiel. (Portfolio Optimierung). Ein Anleger möchte. Euro gewinnbringend investieren und hat die Auswahl zwischen drei Aktienfonds mit unterschiedlicher Gewinnerwartung und Risikoeinstufung: Fonds erwarteter Gewinn/Jahr Risikoeinstufung A % 4 B 7 % 2 C 4 % Der Anleger möchte nach einem Jahr mindestens 6 Euro Gewinn erzielen. Andererseits möchte er sein Geld eher konservativ anlegen, d. h. er möchte mindestens 4. Euro in Fonds C investieren und das Risiko minimieren. Wie muss der Anleger die. Euro verteilen, damit diese Kriterien erfüllt werden? Zunächst werden die Optimierungsvariablen x, x 2, x 3 eingeführt, die den prozentualen Anteil der investierten. Euro an den jeweiligen Fonds A, B, C kennzeichnen. Dabei kann x 3 durch die Beziehung x 3 = x x 2 ersetzt werden. Der geforderte Mindestgewinn von 6 Euro lässt sich als die Beschränkung. [.x +.7x 2 +.4( x x 2 ) ] 6 6x + 3x 2 2 (.4) ausdrücken. Die Mindestanlage von 4. Euro in Fonds C führt zu.( x x 2 ) 4. x + x 2.6. (.5)

8 . Statische Optimierungsprobleme Seite 4 Des Weiteren muss x, x 2, x 3 gelten. Das Ziel ist die Minimierung des Anlagerisikos, was sich durch die Funktion ausdrücken lässt. f(x) = 4x + 2x 2 + ( x x 2 ) = + 3x + x 2 (.6) x x + 3x 2 = 2 x + x 2 =.6 x + x 2 = Optimum x Höhenlinien f(x) = konst. mit abnehmendem Betrag 3 zulässige Menge x Abbildung.: Veranschaulichung der Portfolio Optimierung in Beispiel.. Somit kann das statische Optimierungsproblem in der Form min f(x) = + 3x + x 2 (.7a) x R 2 u.b.v. 6x + 3x 2 2 (.7b) x + x 2.6 x + x 2 x, x 2 (.7c) (.7d) (.7e) geschrieben werden. Abbildung. stellt die einzelnen Beschränkungen sowie den zulässigen Bereich grafisch dar. Aus dem Verlauf der Höhenlinien f(x) = konst. der Kostenfunktion (.7a) ist direkt ersichtlich, dass der Punkt x des zulässigen Bereiches mit dem niedrigsten Wert von f(x) an der Ecke x liegt. Somit ergibt sich für die optimale Verteilung der. Euro auf die einzelnen Fonds x = 5, x 2 = 8 5, x 3 = 6 5. (.8)

9 . Statische Optimierungsprobleme Seite 5 Das folgende (akademische) Beispiel der quadratischen Programmierung soll den Einfluss von Beschränkungen auf eine optimale Lösung verdeutlichen. Beispiel.2. Betrachtet wird das (zunächst) unbeschränkte Problem min x R 2 f(x) = (x 2) 2 + (x 2 ) 2. (.9) Die Höhenlinien f(x) = konst. der Funktion f(x) sind in Abbildung.2 in Abhängigkeit der beiden Optimierungsvariablen x = x x 2 dargestellt. Es ist direkt [ ] T [ T ersichtlich, dass das Minimum f(x ) = an der Stelle x = 2 ] auftritt. 3 x 2 Optimum: x = [ 2 ] T, f(x ) = f = x 2 Optimum: x = [.8.6] T, f(x ) =.8 g(x) = f = f = 2 f = f =.25 f =.25 f = f = 2 3 x 2 3 x Abb..2: Geometrische Darstellung des unbeschränkten OP (.9). Abb..3: Geometrische Darstellung des beschränkten OP (.9), (.). Um den Einfluss verschiedener Beschränkungen zu untersuchen, wird zunächst eine zusätzliche Gleichungsbeschränkung der Form (.b) betrachtet g(x) = x 2 2x =. (.) Die Gleichungsbeschränkung entspricht einer algebraischen Zwangsbedingung, wodurch lediglich noch eine Optimierungsvariable frei wählbar ist. Geometrisch interpretiert bedeutet dies, dass eine mögliche Lösung auf der Gerade liegen muss, die durch (.) definiert wird, siehe Abbildung.3. Die optimale Lösung liegt dabei auf dem Berührpunkt der Geraden g(x) = mit der Höhenlinie f(x) =.8. Anstelle der Gleichungsbeschränkung (.) wird nun die Ungleichungsbeschränkung h (x) = x + x 2 2 (.)

10 .2 Dynamische Optimierungsprobleme Seite 6 [ ] T betrachtet, wodurch sich die Menge der zulässigen Punkte x = x x 2 auf die Region unterhalb der Geraden h (x) = beschränkt (siehe Abbildung.4). Das [ T Optimum f(x ) =.5 an der Stelle x =.5.5] befindet sich an der Grenze des zulässigen Bereiches und liegt, wie im vorherigen Szenario, auf einer Höhenlinie, die die Gerade h (x) = tangential berührt. Zusätzlich zur ersten Ungleichungsbeschränkung (.) soll eine weitere Ungleichung der Form h 2 (x) = x 2 x 2 (.2) betrachtet werden, durch die sich die Menge der zulässigen Punkte weiter verkleinert [ T (Abbildung.5). Der optimale Punkt x = ] mit dem Minimum f(x ) = liegt nun im Schnittpunkt der Kurven h (x) = und h 2 (x) =, d. h.beide Beschränkungen (.) und (.2) sind aktiv. 3 x 2 Optimum: x = [.5.5] T, f(x ) =.5 3 x 2 Optimum: x = [ ] T, f(x ) = h 2 (x) = 2 h (x) = f = f =.5 2 h (x) = f = f =.25 zulässige Menge f = zulässige Menge f = 2 3 x 2 3 x Abb..4: Geometrische Darstellung des beschränkten OP (.9), (.). Abb..5: Geometrische Darstellung des beschränkten OP (.9), (.), (.2). Das obige Beispiel.2 verdeutlicht den Einfluss von Gleichungs und Ungleichungsbeschränkungen auf die Lösung (und Lösbarkeit) des Optimierungsproblems (.a) (.c). Für eine systematische Untersuchung von statischen Optimierungsproblemen sowie die zugehörigen Verfahren zur numerischen Lösung sei auf die folgenden Kapitel verwiesen..2 Dynamische Optimierungsprobleme Bei den Problemstellungen der statischen Optimierung im vorherigen Abschnitt. stellen die Optimierungsvariablen x Elemente aus dem Euklidischen RaumR n dar. Bei der

11 .2 Dynamische Optimierungsprobleme Seite 7 dynamischen Optimierung handelt es sich darum, Funktionen einer unabhängigen Variablen zu bestimmen. Da es sich bei der unabhängigen Variablen meistens um die Zeit t handelt, wird in diesem Zusammenhang von dynamischer Optimierung gesprochen..2. Mathematische Formulierung Die generelle Struktur eines dynamischen Optimierungsproblems lautet min u( ) t J(u) = ϕ(t, x(t )) + l(t, x(t), u(t)) dt Kostenfunktional (.3a) t u.b.v. ẋ = f(t, x, u), x(t ) = x Systemdynamik & AB (.3b) ψ(t, x(t )) = Endbedingungen (EB) (.3c) h i (x, u), i =,..., q Ungleichungsbeschr. (.3d) Dabei stellt u R m die Eingangsgröße des nichtlinearen Systems (.3b) mit dem Zustand x R n dar. Zusätzlich zu den Anfangsbedingungen in (.3b) sind häufig Endbedingungen der Form (.3c) gegeben, um z. B. einen gewünschten Zustand x f zur Endzeit t zu erreichen (also ψ(t, x(t )) = x(t ) x f ). Ein häufiges Problem in der Praxis ist das Auftreten von Ungleichungsbeschränkungen (.3d), die z. B. die Begrenzung einer Stellgröße oder Sicherheitsschranken eines Zustandes darstellen können. Die Problemstellung der dynamischen Optimierung besteht nun darin, eine Eingangstrajektorie u(t), t [t, t ] derart zu finden, dass die Zustandstrajektorie x(t), t [t, t ] des dynamischen Systems (.3b), die Endbedingungen (.3c) und Beschränkungen (.3d) erfüllt und gleichzeitig das Kostenfunktional (.3a) minimiert wird. Abhängig davon, ob t vorgegeben oder unbekannt ist, spricht man von einer festen oder freien Endzeit t. Neben der Bezeichnung dynamische Optimierung werden häufig auch die Begriffe Unendlich Dimensionale Optimierung, Optimalsteuerungsproblem oder Dynamische Programmierung verwendet. Im Folgenden sind einige Beispiele angegeben, um die Problemund Aufgabenstellung der dynamischen Optimierung zu erläutern..2.2 Beispiele Beispiel.3 (Inverses Pendel). Ein klassisches Problem in der Regelungstechnik ist das inverse Pendel, das an einem Wagen drehbar befestigt ist. Als Beispielproblem soll das seitliche Versetzen des Pendels betrachtet werden min u( ) u.b.v. J(u) = t + c u 2 dt, (.4a) [ ] [ẍ ] [ ] ε cos θ ε = θ2 sin θ + u, ε = m/(m + m) (.4b) cos θ θ sin θ x() = [ T [ T π ], x(t ) = π ], (.4c) u. (.4d)

12 .2 Dynamische Optimierungsprobleme Seite 8 [ Die vereinfachten Bewegungsgleichungen (.4b) für die Zustände x = x ẋ θ θ sind normiert. Der Eingang u stellt die am Wagen angreifende Kraft dar und ist durch (.4d) beschränkt. Die Masse des Pendels wird mit m, diejenige des Wagens mit M bezeichnet. Abbildung.6 zeigt exemplarisch das seitliche Versetzen des Pendels, um die Bewegung zu verdeutlichen. Das Kostenfunktional (.4a) und somit der Charakter des Optimierungsproblems hängt von dem Parameter c ab. Für c = ergibt sich die Aufgabe, die Endzeit t zu minimieren J(u) = t ] T dt = t. (.5) Für c > wird der Eingang u im Kostenfunktional und somit der Aspekt der Energieoptimalität mitberücksichtigt. Abbildung.7 zeigt die optimalen Trajektorien für den Parameterwert ε =.5 sowie für die Werte c =, c =.25 und c =. Für c = weist der Eingang u ein Bang bang Verhalten auf, während für c > die Steueramplituden kleiner werden und die Versatzzeit t zunimmt Abb..6: Momentaufnahmen des Versetzens des inversen Pendels Position x Winkel θ Eingang u Zeit t c = c =.25 c = Abb..7: Optimale Trajektorien für das Versetzen des inversen Pendels. Das inverse Pendel ist ein gutes Beispiel um zu verdeutlichen, dass nicht zu jedem Optimierungsproblem eine Lösung existiert, insbesondere wenn die Endzeit t nicht festgelegt ist. Wie in Abbildung.7 dargestellt ist, vergrößert sich die Endzeit t bei zunehmender Gewichtung von u 2 im Vergleich zum zeitoptimalen Anteil in dem Kostenfunktional (.4a). Wenn reine Energieoptimalität gefordert würde, d. h. J(u) = t u 2 dt, (.6)

13 .2 Dynamische Optimierungsprobleme Seite 9 hätte das Optimierungsproblem keine Lösung, da das Versetzen des Pendels dann unendlich langsam mit t ablaufen würde. Beispiel.4 (Goddard Rakete [.,.2]). Ein klassisches Optimierungsproblem aus der Raumfahrt ist die Maximierung der Flughöhe einer Rakete unter dem Einfluss von Luftreibung und Erdbeschleunigung. Dieses Problem wurde von dem amerikanischen Raketenpionier Robert H. Goddard im Jahr 99 aufgestellt und kann in der Form (normiert) min u( ) h(t ) u.b.v. ḣ = v, v = u D(h, v) m (.7a) h 2, ṁ = u c, (.7b) h() =, v() =, m() =, m(t ) =.6, (.7c) u 3.5 (.7d) geschrieben werden. Die Zustandsgrößen sind die Flughöhe h, die Geschwindigkeit v und die Masse m der Rakete. Die Luftreibung D(h, v) hängt über die Funktion D(h, v) = D v 2 e [β( h)] (.8) von den Zuständen h und v ab. Die Randbedingungen in (.7c) umfassen die normierten Anfangsbedingungen sowie die Endbedingung für m(t ), die dem Leergewicht der Rakete ohne Treibstoff entspricht. Der Eingang des Systems ist der Schub u, der innerhalb der Beschränkungen (.7d) liegen muss. In Abbildung.8 sind die optimalen Trajektorien für die Goddard Rakete dargestellt. Die verwendeten Parameterwerte lauten c =.5, D = 3 und β = 5. Der Schub u(t) ist am Anfang maximal und weist dann einen parabelförmigen Verlauf auf, bevor der Treibstoff verbraucht ist. Dieses Verhalten wird durch den Luftwiderstand D(h, v) hervorgerufen, der mit zunehmender Höhe abnimmt. Es ist somit optimaler, im Falle eines hohen Luftwiderstandes nicht mit vollem Schub zu fliegen. Beispiel.5 (Ökonomisches Modell [.3,.4]). Ein weiterer Anwendungszweig der dynamischen Optimierung sind wirtschaftliche Prozesse. Das folgende Beispiel beschreibt das Verhalten eines typischen Konsumenten, der Konsum, Freizeit und Bildung über die Lebensdauer maximieren will. Der Bildungsgrad B und das Kapital K eines durchschnittlichen Konsumenten lassen sich durch folgendes Modell beschreiben Ḃ = K = Weiterbildung Vergessen {}}{{}}{ B ε u 2 u 3 δb, B() = B (.9a) ik }{{} Verzinsung + Bu 2 g(u 3 ) }{{} Einkommen u }{{}, K() = K. (.9b) Konsum

14 .2 Dynamische Optimierungsprobleme Seite Flughöhe h..5 Masse m Zeit t.5..5 Zeit t Geschwindigkeit v..5 Schub u Zeit t.5..5 Zeit t Abbildung.8: Trajektorien für die Goddard Rakete in Beispiel.4. Die Eingangsgrößen sind der Konsum u, der Anteil der Arbeitszeit an der Gesamtzeit u 2 sowie der Anteil der Fortbildungszeit an der Arbeitszeit u 3. Die Eingänge unterliegen den Beschränkungen u >, u 2, u 3 <. (.2) Das Optimierungsziel des Konsumenten ist die Maximierung von Konsum, Freizeit und Bildung über die Lebensdauer von t = 75 Jahren, was in dem (zu minimierenden) Kostenfunktional ausgedrückt ist. Der Integralanteil t J(u) = K κ (t ) U(t, u, u 2, B)e ρ t dt. (.2) t U(t, u, u 2, B) = α u α + β ( u 2 ) β + γ tb γ (.22) gewichtet dabei den Konsum u, die Freizeit u 2 und den Bildungsgrad B, während der Endwert K κ (t ) in (.2) zusätzlich das Vererbungskapital berücksichtigt. Die optimalen Zeitverläufe des Bildungsgrades B(t) und des Kapitals K(t) sind in Abbildung.9 dargestellt. Die Funktion g(u 3 ) in (.9b) ist durch die Parabel g(u 3 ) = ( a)u 3 au 2 3 gegeben. Die verwendeten Parameterwerte lauten a =.3, α =, α =, β =.5, β =, γ =.2, γ = 5, κ =.2, ρ =., ε =.35, δ =., i =.4, B = und K = 3. Die ersten 7 Jahre stellen die Lernphase dar (d. h. u 3 = ). Daraufhin folgt eine lange Arbeitsphase von 34 Jahren mit einem hohen Maß an Weiterbildung, bevor in den nächsten Jahren ( Lebensjahr) eine reine Arbeitsphase mit zusätzlich reduzierter Arbeitszeit u 2 stattfindet. Ab dem 62. Lebensjahr setzt der Ruhestand

15 .3 Mathematische Grundlagen Seite ein. Der Bildungsgrad B ist besonders hoch im Alter von 3 6 Jahren. Das Kapital K ist negativ während der ersten Lebenshälfte, was der Aufnahme eines Kredites entspricht. Im Laufe des Lebens wird dies aber durch das steigende Einkommen kompensiert. Bildungsgrad B Konsum u Zeit t Zeit t.6 Arbeitsanteil u2 Kapital K Zeit t Zeit t. Fortbildungsant. u Zeit t Abbildung.9: Optimale Trajektorien für das Konsumentenverhalten in Beispiel.5..3 Mathematische Grundlagen In diesem Abschnitt werden in aller Kürze einige mathematische Begriffe und Grundkonzepte erläutert, die für das Verständnis der weiteren Kapitel vonnöten sind..3. Infimum, Supremum, Minimum und Maximum Definition. (Infimum und Supremum). Es sei X Reine nichtleere Menge. Das Infimum von X, kurz inf X geschrieben, bezeichnet die größte untere Schranke von X, d. h. es existiert eine Zahl α so, dass gilt (a) x α für alle x X (b) für alle ᾱ > α existiert ein x X so, dass x < ᾱ. Das Supremum von X, kurz sup X geschrieben, bezeichnet die kleinste obere Schranke von X, d. h. es existiert eine Zahl α so, dass gilt (a) x α für alle x X (b) für alle ᾱ < α existiert ein x X so, dass x > ᾱ.

16 .3 Mathematische Grundlagen Seite 2 Es sollte an dieser Stelle erwähnt werden, dass auch wenn für die nichtleere Menge X ein Infimum oder Supremum existieren, diese nicht automatisch in X enthalten sind. Als Beispiel dazu betrachte man die Menge X = {x R x > } = (, + ). In diesem Fall gilt offensichtlich = inf X / X. Für die folgende Definition wird angenommen, dass X ad R n den zulässigen Bereich des betrachteten OP gemäß (.2) bezeichnet. Definition.2 (Globale und lokale Minima). Die Funktion f(x) besitzt in X ad an der Stelle x (a) ein lokales Minimum, falls ein ε > so existiert, dass gilt f(x ) f(x) für alle x U ε X ad, wobei U ε eine hinreichend kleine ε-umgebung von x bezeichnet, (b) ein striktes lokales Minimum, falls ein ε > so existiert, dass gilt f(x ) < f(x) für alle x U ε \{x } X ad (c) ein globales (absolutes) Minimum, falls f(x ) f(x) für alle x X ad, (d) ein striktes (eindeutiges) globales Minimum, falls f(x ) < f(x) für alle x X ad \{x }. Abbildung. gibt eine grafische Darstellung der unterschiedlichen Arten von Minima. Definition.2 lässt sich direkt auf lokale und globale Maxima übertragen. f(x) lokal lokal, strikt global, strikt x Abbildung.: Verschiedene Minima einer Funktion f(x) mit x R. An dieser Stelle sollte nochmals betont werden, dass im Falle eines Minimums (Maximums) der Wert min {f (x) x X ad } bzw. max {f (x) x X ad } in X ad enthalten sein muss, wohingegen der Wert inf {f (x) x X ad } bzw. sup {f (x) x X ad } nicht unbedingt ein zulässiger Punkt ist. Die Menge aller Minima wird oftmals auch in der Form G = arg min {f (x) : x X ad } := {x X ad f (x) = inf {f (x) : x X ad }} (.23) angeschrieben, wobei die Menge sowohl leer sein kann als auch aus endlich oder unendlich vielen Punkten bestehen kann. Im Falle eines strikten globalen Minimums in X ad versteht man unter dem Ausdruck x = arg min {f (x) : x X ad } meist jene Funktion, die den die Funktion f (x) minimierenden Wert x in X ad berechnet.

17 .3 Mathematische Grundlagen Seite 3 f(x) f(x) f(x) f(γ) α x β γ x α β α (a) (b) (c) + x Abbildung.: Nichtexistenz von Minima..3.2 Existenz von Minima und Maxima Abbildung. zeigt drei unterschiedliche Fälle, bei denen ein Minimum nicht existiert. In Abbildung.(a) ist das Infimum von f(x) in der Menge X := (α, β) durch f(β) gegeben. Da aber X nicht abgeschlossen ist und somit β / X, existiert in diesem Fall kein Minimum. In Abbildung.(b) ist der linksseitige Grenzwert lim x γ f (x) das Infimum von f(x) in der Menge X := [α, β]. Auch in diesem Fall existiert auf Grund der Unstetigkeit von f(x) das Minimum nicht. Im letzten Fall, Abbildung.(c), existiert das Minimum ebenfalls nicht, da f(x) in der unbeschränkten Menge X := {x R x α} nach unten hin nicht beschränkt ist. Der nachfolgende Satz gibt nun Bedingungen für die Existenz einer Lösung von Optimierungsproblemen an. Satz. (Weierstrass). Es sei X eine nichtleere und kompakte (abgeschlossene und beschränkte) Menge und f : X R stetig auf X. Dann ist die Menge aller Minima G = arg min {f (x) : x X } nichtleer und kompakt. Für den Beweis dieses Satzes sei auf die am Ende angeführte Literatur verwiesen. Es sei an dieser Stelle jedoch ausdrücklich betont, dass Satz. lediglich eine hinreichende Bedingung für die Existenz einer optimierenden Lösung angibt. Als Beispiel dazu betrachte man die Minimierungsaufgabe min x (,) x 2, die zeigt, dass mit x = ein Minimum gegeben ist, obwohl die Menge X := {x R < x < } offen und damit nicht kompakt ist..3.3 Gradient und Hessematrix Die Berechnung von Ableitungen erster und zweiter Ordnung einer Kostenfunktion f(x) ist von fundamentaler Bedeutung in der Optimierung. Da im Falle von unstetigen Funktionen oder unstetigen Ableitungen Probleme auftreten können (sowohl numerischer als auch theoretischer Natur), wird oft angenommen, dass alle Funktionen eines Optimierungsproblems stetig und hinreichend oft differenzierbar sind. Im Rahmen der Optimierungsalgorithmen spielen der Gradient und die Hessematrix eine bedeutende Rolle.

18 .3 Mathematische Grundlagen Seite 4 Definition.3 (Gradient). Es sei f : X R eine stetig differenzierbare Funktion, d. h. f C. Dann bezeichnet ( f) (x) = f ( ) f T x = x. (.24) f x n den Gradienten (also die. partielle Ableitung) von f(x) an der Stelle x = [ x... x n ] T. Definition.4 (Hessematrix). Es sei f : X R eine zweifach stetig differenzierbare Funktion, d. h. f C 2. Dann bezeichnet ( ) 2 f (x) = 2 f x f x n x... 2 f x x n. 2 f x 2 n die Hessematrix (also die 2. partielle Ableitung) von f(x) an der Stelle x = (.25) [ x... x n ] T. Im Falle von ein dimensionalen Funktionen f(x) wird die Notation normalerweise durch f (x) und f (x) ersetzt. Aus der Stetigkeit der 2. partiellen Ableitungen folgt Kommutativität, d. h. 2 f x i x j = 2 f x j x i. Somit ist die Hessematrix symmetrisch ( ( 2 f ) (x) = ( 2 f ) T (x)) und hat stets reelle Eigenwerte. In der Optimierung ist oft von Bedeutung, ob Hessematrizen positiv (semi-)definit sind. Diese Eigenschaft kann wie folgt untersucht werden. Satz.2 (Definitheit von Matrizen). Die Definitheit einer symmetrischen Matrix A R n n lässt sich durch folgende Bedingungen charakterisieren: (a) (b) (c) Matrix A ist für alle p R n alle n Eigenwerte λ i sind minoren D i für alle n Haupt- mit p gilt gilt positiv semi definit: p T - A p reell und positiv definit: p T A p > reell und > D i > negativ semi definit: p T - A p reell und negativ definit: p T A p < reell und < ( ) i+ D i < Die Eigenwerte λ i, i =,..., n der Matrix A sind die Lösungen der Gleichung det(λe A) =,

19 .3 Mathematische Grundlagen Seite 5 wobei E die Einheitsmatrix der Dimension n darstellt. Die Hauptminoren D i sind die Determinanten der linken oberen Untermatrizen von A, ([ ]) a ])... a n a a 2 D = det ([a, D 2 = det,, D n = det..... a 2 a, 22 a n... a nn wobei a ij die Elemente der i-ten Zeile und j-ten Spalte der Matrix A bezeichnen. Um die Definitheit einer symmetrischen Matrix A zu bestimmen, muss lediglich eine der drei Bedingungen (a) (c) ausgewertet werden, da jede für sich notwendig und hinreichend ist. Das Kriterium (c) wird auch Sylvester Kriterium genannt und kann nicht für semidefinite Matrizen verwendet werden. Bei der Abschätzung von Funktionen werden häufig der Gradient und die Hessematrix im Rahmen des Mittelwertsatzes (Satz von Taylor) verwendet. Satz.3 (Mittelwertsatz, Satz von Taylor). Es sei f(x) eine stetig differenzierbare Funktion, d. h. f C, in einer Menge X, die das Liniensegment [x, x 2 ] beinhaltet, dann existiert eine reelle Zahl α, α, so, dass gilt f(x 2 ) = f(x ) + (x 2 x ) T ( f) (αx + ( α)x 2 ). (.26) Ist die Funktion f(x) zweifach stetig differenzierbar, d. h. f C 2, dann existiert eine reelle Zahl α, α, so, dass die Beziehung f(x 2 ) = f(x )+(x 2 x ) T ( f) (x )+ ( ) 2 (x 2 x ) T 2 f (αx + ( α)x 2 ) (x 2 x ) gilt. (.27).3.4 Konvexität Die Eigenschaft der Konvexität ist von fundamentaler Bedeutung in der Optimierung und führt im Allgemeinen zu einer einfacheren (numerischen) Lösung des Optimierungsproblems. Der Begriff konvex kann sowohl auf Mengen als auch auf Funktionen angewandt werden Konvexe Mengen Definition.5 (Konvexe Menge). Eine Menge X R n nennt man konvex, falls für alle x, y X und alle reellen Zahlen α mit < α < gilt α x + ( α) y = z X. (.28) Eine geometrische Interpretation dieser Definition ist, dass eine Menge X R n genau dann konvex ist, falls die Verbindungslinie zwischen zwei beliebigen Punkten x, y X komplett in X enthalten ist. Abbildung.2 zeigt einige Beispiele konvexer und nicht konvexer Mengen. Für konvexe Mengen gelten nun folgende Eigenschaften:

20 .3 Mathematische Grundlagen Seite 6 y y y x y x x x (a) konvex (b) konvex (c) nicht-konvex (d) nicht-konvex Abbildung.2: Beispiele von konvexen und nicht konvexen Mengen. (a) Die Schnittmenge von konvexen Mengen ist wiederum konvex. (b) Wenn X eine konvexe Menge ist und α eine reelle Zahl, dann ist die Menge ebenfalls konvex. {y : y = αx, x X } (c) Das Bild einer konvexen Menge unter einer linearen Transformation ist konvex. (d) Wenn X und Y konvexe Mengen sind, dann ist die Menge ebenfalls konvex. {z : z = x + y, x X, y Y} Diese Eigenschaften sind u. a. bei der Charakterisierung der Konvexität der zulässigen Menge X ad von Optimierungsproblemen von Bedeutung Konvexe Funktionen Definition.6 (Konvexe und konkave Funktionen). Es sei X R n eine konvexe Menge. Man nennt die Funktion f : X Rkonvex auf X, falls für alle x, y X und alle reellen Zahlen α mit α gilt f(z) α f(x) + ( α) f(y) mit z = α x + ( α) y. (.29) Die Funktion f nennt man strikt konvex, falls für alle α mit < α < und x y gilt f(z) < α f(x) + ( α) f(y) mit z = α x + ( α) y. (.3) Man nennt die Funktion f (strikt) konkav, falls f (strikt) konvex ist. Die Definition.6 kann wie folgt geometrisch interpretiert werden: Eine Funktion f ist konvex (konkav), falls alle Funktionswerte f(z) für z = α x + ( α) y mit < α < unterhalb (oberhalb) der Verbindungslinie zwischen f(x) und f(y) liegen. Abbildung.3

21 .3 Mathematische Grundlagen Seite 7 f(z) f(z) f(z) f(z) x y z x y z x y z x y z (a) strikt konvex (b) konvex (nicht strikt) (c) konkav (d) weder konvex noch konkav Abbildung.3: Beispiele von konvexen und konkaven Funktionen. zeigt einige Beispiele konvexer und konkaver Funktionen. Es ist direkt ersichtlich, dass lineare Funktionen sowohl konkav als auch konvex sind. Konvexe Funktionen besitzen einige interessante Eigenschaften, die im Folgenden dargestellt sind. (a) Die Summenfunktion k f(x) = a i f i (x) (.3) i= von auf der konvexen Menge X konvexen Funktionen f i (x), i =,..., k mit den reellen Koeffizienten a i, i =,..., k ist auf X ebenfalls konvex. (b) Ist die Funktion f(x) auf der konvexen Menge X konvex, so ist die Menge S = {x : x X, f(x) c} (.32) für alle reellen Zahlen c > ebenfalls konvex, siehe Abbildung.4. (c) Eine stetig differenzierbare Funktion f C ist genau dann konvex auf der konvexen Menge X, wenn für alle x, y X die Ungleichung f(y) f(x) + (y x) T ( f) (x) (.33) erfüllt ist. Die geometrische Interpretation der Ungleichung (.33) ist, dass an jedem Punkt x einer konvexen Funktion f(x) eine sogenannte stützende Hyperebene (skalarer Fall: stützende Tangente) existieren muss, oberhalb der f(x) verläuft. Dies ist in Abbildung.5 veranschaulicht. (d) Eine zweifach stetig differenzierbare Funktion f C 2 ist genau dann konvex auf der konvexen Menge X, wenn die Hessematrix ( 2 f ) (x) positiv semi-definit auf X ist. Falls die Hessematrix ( 2 f ) (x) positiv definit ist, folgt auch die strikte Konvexität der Funktion f(x). Die Umkehrung der letzteren Aussage ist jedoch nicht gültig, denn wie man sich bei der Funktion f(x) = x 4 einfach überzeugen kann, ist die Funktion strikt konvex aber die Hessematrix an der Stelle x = ist identisch Null.

22 .3 Mathematische Grundlagen Seite 8 f(x) Konvexe Funktion f(x) f(z) Schnittebene f(x) = c f(x) f(y) x x 2 Konvexe Schnittmenge S = {x R 2 : f(x) c} f(x) + (y x)f (x) Abb..4: Konvexe Menge S, die durch den Schnitt einer konvexen Funktion Abb..5: Stützende Tangente einer konvexen Funktion f(z). f(x) mit der Ebene f(x) = konst. entsteht. x y z Aufgabe.. Beweisen Sie die Eigenschaften (a) (d) von konvexen Funktionen. Nutzen Sie für den Beweis der Eigenschaft (d) den Mittelwertsatz, siehe Satz.3, im Speziellen (.27). Aufgabe.2. Zeigen Sie, dass die Funktion f(x) = x 4 + x2 2x x 2 + x 2 [ ] 2 T gesamten Definitionsbereich x = x x 2 R 2 konvex ist. über ihrem

23 .4 Literatur Seite 9.4 Literatur [.] A. Bryson, Dynamic Optimization. Menlo Park, CA: Addison Wesley, 999. [.2] R. Goddard, A method for reaching extreme altitudes, Smithsonian Miscellaneous Collections 7, 99. [.3] K. Pohmer, Mikroökonomische Theorie der personellen Einkommens und Vermögensverteilung. Studies in Contemporary Economics. Springer, 985, Bd. 6. [.4] H. Oberle und R. Rosendahl, Numerical computation of a singular state subarc in an economic optimal control model, Optimal Control Applications and Methods, Bd. 27, S , 26. [.5] J. Nocedal und S. Wright, Numerical Optimization. Springer, 26. [.6] S. Boyd und L. Vandenberghe, Convex Optimization. Cambridge University Press, 24. [.7] M. Papageorgiou, Optimierung. München: Oldenbourg Verlag, 99. [.8] D. Bertsekas, Nonlinear Programming. Athena Scientific, 999. [.9] D. Luenberger und Y. Ye, Linear and Nonlinear Programming. Springer, 28. [.] B. Chachuat, Nonlinear and Dynamic Optimization: From Theory to Practice, 27.

24 2 Statische Optimierung: Unbeschränkter Fall 2. Optimalitätsbedingungen Bevor in den Abschnitten die numerischen Verfahren zur Lösung statischer Optimierungsprobleme ohne Beschränkungen behandelt werden, sollen in diesem Abschnitt die Optimalitätsbedingungen für ein allgemeines beschränktes Optimierungsproblem der Form (.3) min f(x) (2.) x X ad mit dem zulässigen Bereich X ad diskutiert werden. Zur Definition der Begriffe lokaler und globaler Minima sei auf Abschnitt.3. und im Speziellen auf Definition.2 verwiesen. Um die notwendigen Bedingungen für ein lokales Minimum x der Optimierungsaufgabe (2.) zu formulieren, führt man den Begriff einer zulässigen Richtung ein. Für x X ad ist der Vektor d eine zulässige Richtung am Punkt x, wenn ein ᾱ > so existiert, dass x + αd X ad für alle α, α ᾱ. Satz 2. (Notwendige Optimalitätsbedingungen erster Ordnung). Es sei X ad R n die zulässige Menge des Optimierungsproblems (2.) und f C eine Funktion definiert auf X ad. Wenn x ein lokales Minimum von f auf X ad ist, dann gilt für jede zulässige Richtung d am Punkt x die Ungleichungsbedingung d T ( f) (x ). (2.2) Gilt darüberhinaus, dass x im Inneren von X ad liegt (wie dies bespielsweise bei X ad = R n der Fall ist), dann folgt die Bedingung ( f) (x ) =. (2.3) Beweis. Da d eine zulässige Richtung am Punkt x ist, gilt für jedes α, α ᾱ, dass der Punkt x(α) = x +αd X ad. Nun definiert man für α ᾱ die Funktion g(α) = f(x(α)), die am Punkt α = ein lokales Minimum besitzt. Entwickelt man g(α) um den Punkt α = in eine Taylorreihe und bricht diese nach dem linearen Glied ab, erhält man g(α) = g() + g ()α + o(α), (2.4) wobei o(α) den Restterm bezeichnet, der schneller nach Null abklingt als α. Wäre nun g () <, dann würde für ein hinreichend kleines α > gelten g(α) g() <, was ein Widerspruch zur Annahme ist, dass α = bzw. x ein Minimum ist. Daher

25 2. Optimalitätsbedingungen Seite 2 muss gelten g () = d T ( f) (x ). Wenn x im Inneren von X ad liegt, dann ist jede Richtung am Punkt x zulässig, d. h. d T ( f) (x ) für alle d R n. Dies kann aber nur für alle d erfüllt sein, wenn ( f) (x ) = ist. Beispiel 2.. Man betrachte das Optimierungsproblem min f(x, x 2 ) = x 2 x R 2 x x 2 + x 2 2 3x 2. (2.5) Berechnet man nun die notwendige Optimalitätsbedingung erster Ordnung gemäß (2.3) 2x x 2 = x + 2x 2 = 3, (2.6a) (2.6b) [ T dann erkennt man, dass x = 2] eine eindeutige Lösung von (2.6) ist, welche in diesem Fall sogar das globale Minimum beschreibt. Beispiel 2.2. In einem weiteren Beispiel betrachte man die Optimierungsaufgabe mit der zulässigen Menge min f(x, x 2 ) = x 2 x + x 2 + x x 2 (2.7) x X ad X ad = { } x R 2 : x, x 2. (2.8) [ ] T Das Problem hat an der Stelle x = 2 ein globales Minimum. Wertet man den Gradienten an der Stelle x aus, so erhält man f (x ) = x 2x + x 2 = (2.9a) f (x ) = x 2 + x = 3 2. (2.9b) Wie man erkennt, verschwindet in diesem Fall der Gradient an der Stelle x nicht, aber die notwendige Bedingung (2.2) ist für alle zulässigen Richtungen d erfüllt, da die zweite Komponente von d wegen der Definition von X ad gemäß (2.8) größer gleich Null sein muss. Die notwendige Optimalitätsbedingung erster Ordnung für einen inneren Punkt (2.3) gemäß Satz 2. gibt lediglich an, dass es sich bei diesem Punkt um einen Extremalpunkt (auch als stationären Punkt bezeichnet) handelt, die Bedingung wird aber von einem Minimum, Maximum oder Sattelpunkt gleichermaßen erfüllt, siehe Abbildung 2.. Man kann nun Satz 2. weiter präzisieren, indem man bei der Taylorreihenentwicklung (2.4) Terme höherer Ordnung in α hinzunimmt.

26 2. Optimalitätsbedingungen Seite 22 f(x) Maximum f(x, x 2 ) Sattelpunkt Sattelpunkt (a) Minimum x x 2 Höhenlinien Abbildung 2.: Beispiele von stationären Punkten im ein und zwei dimensionalen Fall. (b) x Satz 2.2 (Notwendige Optimalitätsbedingungen zweiter Ordnung). Es sei X ad R n die zulässige Menge des Optimierungsproblems (2.) und f C 2 eine Funktion definiert auf X ad. Wenn x ein lokales Minimum von f auf X ad ist, dann gelten für jede zulässige Richtung d am Punkt x die Bedingungen (a) d T ( f) (x ) ( (2.a) ) (b) wenn d T ( f) (x ) =, dann d T 2 f (x )d. (2.b) Gilt darüberhinaus, dass x im Inneren von X ad liegt (wie dies bespielsweise bei X ad = R n der Fall ist), dann folgen die Bedingungen (a) ( f) (x ) = ( (2.a) ) (b) für alle d gilt d T 2 f (x )d. (2.b) Aufgabe 2.. Beweisen Sie Satz 2.2. Hinweis: Orientieren Sie sich dabei am Beweis von Satz 2.. Die Bedingung (2.b) entspricht der Forderung, dass die Hessematrix ( 2 f ) (x) an der Stelle x = x positiv semi-definit ist. Aufgabe 2.2. Betrachten Sie die Optimierungsaufgabe mit der zulässigen Menge min f(x, x 2 ) = x 3 x 2 x 2 + 2x 2 2 (2.2) x X ad X ad = { } x R 2 : x, x 2. (2.3)

27 2. Optimalitätsbedingungen Seite 23 [ T Zeigen Sie, dass der Punkt x = 6 9] zwar die Optimalitätsbedingung erster Ordnung erfüllt, aber trotzdem kein lokales Minimum beschreibt. Die Optimalitätsbedingungen von Satz 2.2 sind lediglich notwendig, wie man sich einfach anhand der Funktion f(x) = x 3 überzeugen kann. Die Funktion besitzt an der Stelle x = einen Extremalpunkt (f (x ) = 3(x ) 2 = ) und obwohl die zweite Ableitung f (x ) = 6x = positiv semi definit ist, ist x = kein Minimum, sondern ein Sattelpunkt (siehe Abbildung 2.). Für einen inneren Punkt von X ad lassen sich durch leichte Umformulierung von Satz 2.2 hinreichende Optimalitätsbedingungen angeben. Satz 2.3 (Hinreichende Optimalitätsbedingungen zweiter Ordnung). Es sei X ad R n die zulässige Menge des Optimierungsproblems (2.) und f C 2 eine Funktion definiert auf X ad. Wenn x ein innerer Punkt von X ad ist und folgende Bedingungen (a) ( f) (x ) = (2.4a) ( ) (b) 2 f (x ) > (positiv definite Hessematrix am Punkt x ) (2.4b) erfüllt sind, dann ist x ein striktes lokales Minimum von f. Aufgabe 2.3. Beweisen Sie Satz 2.3. Beispiel 2.3. Für das Optimierungsproblem min f(x) = x R x2 2 + ax 2 2 x x 2 (2.5) sollen die stationären Werte x in Abhängigkeit des Parameters a 4 charakterisiert werden. Der Gradient und die Hessematrix von f(x) ergeben sich zu [ ] 2x x 2 ( f) (x) =, 2ax 2 x Aus ( f) (x ) = folgt x = ( ) 2 f (x) = [ ] 2. (2.6) 2a [ ] T als einziger stationärer Punkt. Die Definitheit der Hessematrix ( 2 f ) (x) an der Stelle x lässt sich mit Hilfe der Hauptminoren (Sylvesterkriterium, siehe (c) in Satz.2) untersuchen D = 2, D 2 = 4a. (2.7) Somit ist ( 2 f ) (x ) positiv definit für a > 4 und x = [ ] T stellt ein striktes Minimum dar. Für a < 4 ist D > und D 2 < und ( 2 f ) (x) somit indefinit. In [ T diesem Fall ist x = ] ein Sattelpunkt, wie er in Abbildung 2.(b) für a = dargestellt ist. Wenn die Funktion f(x) (strikt) konvex ist, dann lassen sich stärkere Aussagen im

28 2. Optimalitätsbedingungen Seite 24 Vergleich zu den bisherigen Sätzen treffen. Der Grund dafür liegt darin, dass aus der Konvexität von f(x) unmittelbar die positive Semi-Definitheit der Hessematrix von f(x) folgt. Satz 2.4 (Minimierung konvexer Funktionen Menge der Minima). Es sei f(x) eine konvexe Funktion auf der konvexen Menge X ad. Dann ist die Menge aller Minima G = arg min {f (x) : x X ad } ebenfalls konvex und jedes lokale Minimum von f(x) ist ein globales Minimum. Beweis. Angenommen c beschreibt das Minimum von f. Dann ist die Menge G = {x : x X ad, f(x) c } gemäß (.32) ebenfalls konvex, womit der erste Teil des Satzes gezeigt ist. Im Weiteren nehme man an, dass x X ad ein lokales Minimum von f ist und ein weiterer Punkt y X ad so existiert, dass gilt f(y) < f(x ). Auf Grund der Konvexität von f folgt nach Definition.6, im Speziellen (.29), für alle α mit < α < die Ungleichung f (α y + ( α) x ) α f(y) + ( α) f(x ) < f(x ). (2.8) Da α hinreichend klein sein kann, folgt aber aus (2.8), dass ein weiterer Punkt z = α y + ( α) x in einer hinreichend kleinen Umgebung von x existiert, der die Funktion f noch kleiner macht, was gemäß Definition.2 ein Widerspruch dazu ist, dass x ein lokales Minimum von f ist. Der nächste Satz zeigt, dass für eine stetig differenzierbare und konvexe Funktion f die notwendigen Optimalitätsbedingungen erster Ordnung notwendig und hinreichend für die Existenz eines globalen Minimums sind. Satz 2.5 (Minimierung konvexer Funktionen globales Minimum). Es sei f C eine konvexe Funktion auf der konvexen Menge X ad. Existiert ein Punkt x X ad so, dass für alle y X ad gilt (y x ) T ( f) (x ), (2.9) dann ist x ein globales Minimum von f auf X ad. Gilt darüberhinaus, dass x im Inneren von X ad liegt, dann kann die Ungleichung (2.9) durch die Bedingung ( f) (x ) = ersetzt werden. Beweis. Da d = y x eine zulässige Richtung am Punkt x ist, entspricht (2.9) der notwendigen Optimalitätsbedingung erster Ordnung (2.2) von Satz 2.. Auf Grund der Konvexität von f folgt nach (.33) die Ungleichung f(y) f(x ) + (y x ) T ( f) (x ) f(x ) (2.2) für alle y X ad, womit der Satz bewiesen ist.

29 2.2 Rechnergestützte Minimierungsverfahren: Grundlagen Seite Rechnergestützte Minimierungsverfahren: Grundlagen Da die Stationaritätsbedingung ( f) (x ) = von (2.4a) (n nichtlineare Gleichungen in x ) nur in seltenen Fällen analytisch ausgewertet werden kann, ist man im Allgemeinen auf numerische Verfahren angewiesen, um einen stationären Punkt x zu finden. Im Wesentlichen basieren die Algorithmen auf der Idee, dass man beginnend bei einem Startpunkt x eine Folge {x k } so generiert, dass die Funktion f(x) in jedem Iterationsschritt abnimmt, d. h. f(x k+ ) < f(x k ), k =,, 2,.... (2.2) Das Ziel dabei ist es, dass die Folge für k gegen das (lokale) Minimum konvergiert lim x k = x. (2.22) k In der englischsprachigen Literatur werden solche Algorithmen auch als iterative descent algorithms bezeichnet. Bezüglich der genauen Analyse des (globalen) Konvergenzverhaltens der im Weiteren vorgestellten Algorithmen sei auf die am Ende angeführte Literatur verwiesen. An dieser Stelle sei lediglich der Begriff der Konvergenzordnung eines Algorithmus erläutert. Definition 2. (Konvergenzordnung). Es sei {x k } eine Folge, die gegen den Grenzwert x konvergiert. Die Konvergenzordnung der Folge {x k } ist das Supremum der nichtnegativen Zahlen p, für die gilt x k+ x lim k x k x p <. (2.23) Im Wesentlichen beschreibt die Konvergenzordnung das Verhalten der Folge für k. Größere Werte der Konvergenzordnung p bedeuten, dass die Folge schneller konvergiert, da der Abstand von x (zumindest für sehr große Werte von k) in einem Iterationsschritt um die p-te Potenz reduziert wird. Beispiel 2.4. Die Folge {a k } mit < a < konvergiert mit der Konvergenzordnung p = nach Null, da nur für p die Bedingung erfüllt ist. a k+ lim k a kp = lim k a+k( p) < (2.24) Aufgabe 2.4. Zeigen Sie, dass die Folge {a 2k } mit < a < mit der Konvergenzordnung 2 gegen konvergiert. Besonders häufig treten in diesem Zusammenhang Algorithmen mit linearer Konvergenzordnung auf. Definition 2.2 (Lineare Konvergenzordnung Konvergenzrate). Es sei {x k } eine Folge, die gegen den Grenzwert x konvergiert und es gelte x k+ x lim k x k x = β <. (2.25)

30 2.3 Liniensuchverfahren Seite 26 Man sagt dann, die Folge {x k } konvergiert linear gegen den Grenzwert x mit der Konvergenzrate β. Die Konvergenzgeschwindigkeit eines Algorithmus mit linearer Konvergenzordnung ist daher umso schneller, je kleiner die Konvergenzrate β ist. Der Grenzfall β = wird auch als superlinear bezeichnet, wobei unmittelbar einsichtig ist, dass jeder Algorithmus mit Konvergenzordnung größer superlinear ist. Beispiel 2.5. Die Folge { } hat eine lineare Konvergenzordnung, da nur für p k k die Bedingung lim k erfüllt ist. Die Auswertung von (2.25) für die Folge { k k } lim k k k = lim (k + ) k+ k k kp < (2.26) (k + ) k+ zeigt, dass die Folge { k k } superlinear gegen Null konvergiert. ( ) k k = β = (2.27) k + k + Bei den betrachteten Optimierungsalgorithmen für (2.) hat man es typischerweise mit Folgen von Vektoren der Form {x k }, die gegen ein Minimum x konvergieren, zu tun. Um die Konvergenzeigenschaft einer unendlichen Folge von Vektoren zu untersuchen, erfolgt zumeist eine Abbildung dieser Folge in eine Folge von Skalaren. Wenn f(x) die zu minimierende Funktion gemäß (2.) ist, dann wird üblicherweise das Konvergenzverhalten von {f(x k )} gegen f(x ) analysiert. Die Funktion f(x) wird in diesem Zusammenhang der Konvergenzanalyse auch als Fehlerfunktion bezeichnet. Man könnte natürlich als Fehlerfunktion auch eine Norm, beispielsweise x k x, verwenden, doch zeigt sich, dass die Konvergenzordnung einer Folge von Vektoren weitestgehend unabhängig von der Wahl der Fehlerfunktion ist. Die bekanntesten numerischen Verfahren zur Lösung unbeschränkter statischer Optimierungsprobleme sind die so genannten Liniensuchverfahren (Englisch: line search strategies). Daher wird im folgenden Abschnitt ein kurzer Überblick über die bekanntesten Liniensuchverfahren gegeben. Im Anschluss daran werden noch kurz zwei alternative Strategien, nämlich die Methode der Vertrauensbereiche und die direkten Suchverfahren, vorgestellt. 2.3 Liniensuchverfahren Die grundsätzliche algorithmische Struktur eines Liniensuchverfahrens sieht folgendermaßen aus: Zum Iterationsschritt k ermittelt man vorerst eine geeignete Suchrichtung bzw. Abstiegsrichtung s k so, dass wenn man sich hinreichend wenig vom Punkt x k aus in diese Richtung bewegt, also x k+ = x k + α k s k (2.28) mit einer geeigneten Schrittweite α k >, dann erfüllt man die Ungleichungsbedingung (2.2) f(x k+ ) = f(x k + α k s k ) < f(x k ). (2.29)

31 2.3 Liniensuchverfahren Seite 27 x k g(α k ) x k s k Höhenlinien α k Abbildung 2.2: Veranschaulichung des Liniensuchproblems (2.3). Nun muss die optimale Schrittweite α k > durch Lösung eines skalaren Optimierungsproblems min g (α k) = f (x k + α k s k ) (2.3) α k > gefunden werden. Diese Iteration wird nun solange durchgeführt, bis eine gewählte Fehlerfunktion betraglich kleiner als eine vorgegebene untere Schranke ist. Abbildung 2.2 veranschaulicht das Prinzip der Liniensuche für eine (nicht konvexe) Kostenfunktion f(x) mit x R 2 und einer gegebenen Suchrichtung s k. In diesem Zusammenhang wird auch der Name Liniensuchverfahren verständlich, da sich bei gegebener Suchrichtung s k die Optimierungsaufgabe auf das Auffinden eines Minimums entlang einer Linie reduziert Wahl der Schrittweite Intervallschachtelungsverfahren ( Goldener Schnitt ) Das Intervallschachtelungsverfahren generiert für das skalare Optimierungsproblem (2.3) eine konvergierende Folge von Intervallschachtelungen, um das Minimum von g(α k ) einzugrenzen. Zunächst muss ein Intervall [l, r ] gefunden werden, in dem die Funktion g(α k ) ein Minimum aufweist, siehe Abbildung 2.3. Dies kann z. B. dadurch erreicht werden, dass mit einem hinreichend kleinen l gestartet und r (ausgehend von l ) sukzessive vergrößert wird, bis der Funktionswert g(r ) anfängt zuzunehmen. Für das Folgende wird