14. Das Minimumprinzip

Ähnliche Dokumente
3 Optimierung mehrdimensionaler Funktionen f : R n R

Dierentialgleichungen 2. Ordnung

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

15 Hauptsätze über stetige Funktionen

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.

- 1 - zum Extremum macht, wenn y(x) eine bestimmte, genau charakterisierte Funktionenklasse ( n

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Mathematik 2 für Wirtschaftsinformatik

18 Höhere Ableitungen und Taylorformel

Regularitätsresultate für parabolische Gleichungen mit nichtlokalem Operator

3 Anwendungen der Differentialrechnung. (x 1, x 2,..., x n 1, x n ) f xn (x 1, x 2,..., x n 1, x n ), 1 i n 1. y + cos z

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Integralrechnung. Mathematik-Repetitorium

Iterative Verfahren, Splittingmethoden

Caputo fraktionale Differentialgleichungen. 1 Riemann Liouville fraktionale Differentialgleichungen

Maximiere Gesamtgewinn aus verschiedenen Produkten unter Restriktionen an Produktmenge (Lagermenge, Transportmenge)

17. Penalty- und Barriere-Methoden

Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen

Rückblick auf die letzte Vorlesung. Bemerkung

f(x) f(x 0 ) lokales Maximum x U : gilt, so heißt x 0 isoliertes lokales Minimum lokales Minimum Ferner nennen wir x 0 Extremum.

Charakteristikenmethode im Beispiel

Kapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen

2. Optimierungsprobleme 6

55 Lokale Extrema unter Nebenbedingungen

Übungsaufgaben zu Partielle Differentialgleichungen Blatt III vom

Musterlösung. TECHNISCHE UNIVERSITÄT MÜNCHEN Fakultät für Mathematik. Klausur Mathematik für Physiker 3 (Analysis 2) I... II...

Analysis I - Stetige Funktionen

2. Lagrange-Gleichungen

3.2 Lineare Optimierung (Entscheidungen unter Sicherheit)

(x, x + y 2, x y 2 + z 3. = e x sin y. sin y. Nach dem Umkehrsatz besitzt f dann genau auf der Menge

Einführung in die Volkswirtschaftslehre

Übungen zu Partielle Differentialgleichungen, WS 2016

Outline. 1 Funktionen von mehreren Veränderlichen. 2 Grenzwert und Stetigkeit. 3 Partielle Ableitungen. 4 Die verallgemeinerte Kettenregel

Trennung der Variablen, Aufgaben, Teil 1

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

f(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J}

Optimale Steuerung, Prof.Dr. L. Blank 1. II Linear-quadratische elliptische Steuerungsprobleme

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Teil II. Nichtlineare Optimierung

5 Potenzreihenansatz und spezielle Funktionen

Kapitel 5. Peter Becker (H-BRS) Operations Research I Sommersemester / 298

Folgerungen aus dem Auflösungsatz

Definition 1.1 (Wirkung) Wir wollen die Kurvenverläufe x(t) finden, die das Funktional

Mathematik II Frühlingsemester 2015 Kap. 9: Funktionen von mehreren Variablen 9.2 Partielle Differentiation

Optimalitätskriterien

Optimierung für Nichtmathematiker

Lineare (Un-)Gleichungen und lineare Optimierung

11 Untermannigfaltigkeiten des R n und lokale Extrema mit Nebenbedingungen

8 Extremwerte reellwertiger Funktionen

1. Übungsblatt Aufgaben mit Lösungen

Abbildung 5.1: stabile und instabile Ruhelagen

Inhaltsverzeichnis. 1 Einleitung 1 Struktur und Einsatz von Optimierungsmethoden 2 Einsatz der Optimierung in der Steuerungs- und Regelungstechnik 6

Sattelpunkt-Interpretation

ÜBUNGSBLATT 11 LÖSUNGEN MAT121/MAT131 ANALYSIS II FRÜHJAHRSSEMESTER 2011 PROF. DR. CAMILLO DE LELLIS

ν und λ ausgedrückt in Energie E und Impuls p

Analysis I. 4. Beispielklausur mit Lösungen

Konvexe Funktionen und Legendre-Transformation

4.7 Der Taylorsche Satz

Technische Universität München Zentrum Mathematik. Übungsblatt 5

Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2

Dieses Vielfach hängt ab von der Form der Nutzenfunktion. Man bezeichnet dies auch als Arrow-Pratt Koeffizient.

Optimale Steuerung 1

Gewöhnliche Dierentialgleichungen

4.1. Grundlegende Definitionen. Elemente der Analysis I Kapitel 4: Funktionen einer Variablen. 4.2 Graphen von Funktionen

Entwurf robuster Regelungen

Mathematik I. Vorlesung 7. Folgen in einem angeordneten Körper

Mathematik in der Biologie

Differentialgleichungen. Aufgaben mit Lösungen. Jörg Gayler, Lubov Vassilevskaya

Wellen und wandernde Wellen Ähnlichkeitslösungen. Crashkurs PDG anhand von Beispielen. Wellen

Kapitel 16 : Differentialrechnung

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme

Definition 3.1: Ein Differentialgleichungssystem 1. Ordnung

Reelle Zahlen, Gleichungen und Ungleichungen

4. ggt und kgv. Chr.Nelius: Zahlentheorie (SS 2007) 9

Kapitel 3. Konvergenz von Folgen und Reihen

5.10. Mehrdimensionale Extrema und Sattelpunkte

Diplomarbeit. Nadja Balzer. Betreuer: Prof. Dr. H. Maurer. Westfälische Wilhelms-Universität Münster

Mathematik 1 für Wirtschaftsinformatik

1 Lineare Optimierung, Simplex-Verfahren

11 Logarithmus und allgemeine Potenzen

2. VEKTORANALYSIS 2.1 Kurven Definition: Ein Weg ist eine stetige Abbildung aus einem Intervall I = [a; b] R in den R n : f : I R n

Studientag zur Algorithmischen Mathematik

48 Symplektische Geometrie und Klassische Mechanik

Optimieren unter Nebenbedingungen

1 Axiomatische Charakterisierung der reellen. 3 Die natürlichen, die ganzen und die rationalen. 4 Das Vollständigkeitsaxiom und irrationale

Lineare (Un-)Gleichungen und lineare Optimierung

Polynominterpolation

Topologische Begriffe

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Extrema mit Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen

Flüsse, Fixpunkte, Stabilität

Differenzengleichungen. und Polynome

Mathematik II Frühlingsemester 2015 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren

3. Zusammenhang. 22 Andreas Gathmann

2. Spezielle anwendungsrelevante Funktionen

Bestimmung einer ersten

Transkript:

H.J. Oberle Variationsrechnung u. Optimale Steuerung SoSe 2008 14. Das Minimumprinzip In diesem Abschnitt behandeln wir die Idee der dynamischen Programmierung, die auf Bellmann 31 (1957) zurückgeht und geben in diesem Zusammenhang eine heuristische Herleitung des Minimumprinzips an. Dazu betrachten wir (wie in Abschnitt 12) einen Spezialfall einer Optimalsteuerungsaufgabe, der dadurch gekennzeichnet ist, dass der Zustandsvektor im Anfangspunkt vollständig vorgegeben und im Endpunkt vollständig frei ist. Problemstellung (14.1) Zu minimieren sei das Funktional I(u) := g(x(t b )) + t b f 0 (t, x(t), u(t)) dt über (x, u) C 0,1 s ([, t b ], R n ) C s ([, t b ], R m ) unter den Nebenbedingungen x (t) = f(t, x, u), t t b, x( ) = x a, u(t) U R m. U sei wiederum ein konvexer und abgeschlossener Steuerbereich. Wir betrachten nun den (optimalen) Wert des Zielfunktionals in Abhängigkeit von den Anfangsdaten (t 0, x 0 ). Genauer definieren wir zu [, t b ] und ˆx R n V (, ˆx) := Îopt, (14.2) wobei Î opt erhalten wird durch Lösung eines Hilfsproblems, genauer durch Minimierung des Funktionals (Restwert) Î(u) := g(x(t b )) + t b f 0 (t, x(t), u(t)) dt (14.3) unter den Nebenbedingungen x (t) = f(t, x, u), t t b, x() = ˆx, u(t) U, t t b. V (, ˆx) heißt die Wertfunktion des Optimalsteuerungsproblems (14.1). 31 Richard Bellman (1920 1984); Princeton, RAND Corporation, University of Southern California 156

Annahme (14.4) Wir nehmen im Folgenden an, dass V für alle [, t b ] und ˆx x 0 () < ε definiert sei (wobei (x 0, u 0 ) eine Lösung des Problems (14.1) und ε > 0 sei) und dass V auf diesem Bereich eine C 2 Funktion sei. Aus der Definition der Wertfunktion folgt dann unmittelbar, dass V (t b, ˆx) = g(ˆx), für ˆx x 0 (t b ) < ε, und hieraus durch Differentiation nach ˆx: V x (t b, ˆx) = g(ˆx). (14.5) Zur Auswertung von V (, ˆx) ist eine optimale Steuerung für das Teilintervall [, t b ] bezogen auf den Anfangswert ˆx zu bestimmen. Wird nun speziell ˆx := x 0 () gewählt, so ist zu erwarten, dass dieses Optimierungsproblem gerade von der Restriktion der (globalen) optimalen Steuerung u 0 auf das Teilintervall [, t b ] gelöst wird. Dies ist der Inhalt des so genannten Bellmannschen Optimalitätsprinzips. Satz (14.6) (Bellmannsches Optimalitätsprinzip) Liegt der Anfangspunkt (, ˆx) auf der Lösung des Ausgangsproblems, d.h. gilt ˆx = x 0 (), so ist die optimale Steuerung für das Hilfsproblem (14.3) gegeben durch u 0 (t), t t b. Minderen Worten: Teilsteuerungen u 0 [, t b ] des Ausgangsproblems sind optimal für das Teilstück [, t b ] und den Anfangszustand x 0 (). Beweis: Gäbe es eine Steuerung ũ C s ([, t b ], U) mit Î(ũ) < Î(u 0), so setze man diese folgendermaßen fort û(t) := u0 (t), 0 t < ũ(t), t t b. û ist dann eine zulässige Steuerung für das Ausgangsproblem und liefert wegen ˆx = x 0 () den zugehörigen Zustandsvektor ˆx(t) := x0 (t), 0 t < x(t), t t b, wobei x der zu ũ zugehörige Zustand des Hilfsproblems ist. Damit folgt I(û) = < f 0 (t, x 0, u 0 ) dt + Î(ũ) f 0 (t, x 0, u 0 ) dt + Î(u 0) = I(u 0 ), 157

im Widerspruch zur vorausgesetzten Optimalität von u 0. Wir betrachten nun die folgende Konstruktion von Vergleichssteuerungen: Zu einem Punkt (, ˆx) [, t b [ R n in der Nähe der optimalen Zustandstrajektorie und hinreichend kleinem h > 0 werde die optimale Steuerung im Intervall [, + h[ ersetzt durch eine beliebige stetige Funktion u C([, + h], U). Der zugehörige Zustand x(t), t + h wird dann durch Lösung der Anfangswertaufgabe x (t) = f(t, x, u), x() = ˆx bestimmt. Der Rest der Vergleichstrajektorie (x(t), u(t)), t [ + h, t b ] wird wiederum optimal gewählt im Sinn des Hilfsproblems (6.70) zum Anfangspunkt ( + h, x( + h)). Damit folgt die Bellmannsche Rekursion: V (, ˆx) = min +h f 0 (t, x, u) dt + V ( + h, x( + h)) u C([, + h], U) (14.7) Wird ferner ˆx = x 0 () gewählt, so wird das Minimum in (14.7) gerade für u 0 (t), t + h angenommen. Wir bilden nun die Taylor Entwicklung der rechten Seite von (14.7) bezüglich der Größe h. Dabei sei nun u eine feste (von h unabhängige) stetige Funktion auf [, + h max ] in U. +h f 0 (t, x, u) dt = f 0 (, ˆx, u()) h + O(h 2 ) V ( + h, x( + h)) = V (, ˆx) + ( ) V t (, ˆx) + V x (, ˆx) T x () h + O(h 2 ). Setzt man dies in (14.7) ein, so folgt ( ) 0 = min f 0 (, ˆx, u()) + V t (, ˆx) + V x (, ˆx) T x () h + O(h 2 ) u() U und schließlich für h 0: 0 = min f 0 (, ˆx, u()) + V t (, ˆx) + V x (, ˆx) T f(, ˆx, u()) u() U (14.8) Wir geben noch eine etwas ausführlichere Begründung für (14.8): 1.) Zunächst folgt mit der Bellmann Rekursion (14.7) für alle hinreichend kleinen h > 0: +h f 0 (t, x, u) dt + V ( + h, x( + h)) V (, ˆx) 0. 158

Die linke Seite wird bzgl. h nach Taylor entwickelt um h = 0. Der führende Term muss dann auch nichtnegativ sein: f 0 (, ˆx, u()) + V t (, ˆx) + V x (, ˆx) T f(, ˆx, u()) 0. 2.) Wählt man u nun optimal im Sinne des Hilfsproblems (14.3), so gilt nach dem Bellmannschen Optimalitätsprinzip +h f 0 (t, x, u) dt + V ( + h, x( + h)) V (, ˆx) = 0. Hier muss nun auch der führende Term der Taylor Entwicklung verschwinden: f 0 (, ˆx, u()) + V t (, ˆx) + V x (, ˆx) T f(, ˆx, u()) = 0. Aus diesen beiden Relationen zusammen folgt die Beziehung (14.8). Darüber hinaus folgt: Im Fall ˆx = x 0 () wird das Minimum in (14.8) gerade für u() = u 0 () angenommen. Definieren wir nun λ(t) := V x (t, x 0 (t)) (adjungierte Variable), H(t, x, u.λ) := f 0 (t, x, u) + λ T f(t, x, u) (Hamilton Funktion). (14.9) so lautet (14.8) nun V t (, ˆx) = min H(, ˆx, û, V x (, ˆx)) û U, (14.10) wobei das Minimum im Fall ˆx = x 0 () gerade für û = u 0 () angenommen wird. (14.10) ist eine (i. Allg. nichtlineare) partielle Differentialgleichung erster Ordnung für die Wertfunktion. sie heißt Hamilton-Jocobi-Bellmann Gleichung. Zugleich folgt mit (14.10), dass die optimale Steuerung u 0 (t) die Hamilton Funktion längs der optimalen Trajektorie minimiert: H(, x 0 (), u 0 (), λ()) = min H(, x 0 (), u, λ()) u U. (14.11) Dies ist gerade der Inhalt des Minimumprinzips. Es bleibt nun noch zu zeigen, dass die in (14.9) definierten adjungierten Variablen λ mit den früher definierten übereinstimmen. Dazu genügt es, zu zeigen, dass λ den adjungierten Differentialgleichungen sowie den natürlichen Randbedingungen genügt. In vorliegenden Fall ist λ dann als Lösung der entsprechenden Anfangswertaufgabe eindeutig bestimmt. 159

Zu den adjungierten Differentialgleichungen. Wählt man ˆx := x 0 (), so wird das Minimum in (14.8) oder in (14.10) gerade für û = u 0 () angenommen. Für ˆx x 0 () wird u 0 () jedoch i. Allg. kein Minimum sein. Damit gilber neben (14.8): 0 = min V t (, ˆx) + H(, ˆx, u 0 (), V x (, ˆx)) ˆx U x (), wobei U x () eine geeignete Umgebung um x 0 () bezeichne. Das Minimum wird in x 0 () angenommen. Damit muss aber der Gradient der Funktion V t (, ˆx) + H(, ˆx, u 0 (), V x (, ˆx)) bezüglich ˆx in x 0 () verschwinden. In Koordinaten geschrieben lautet diese Beziehung (j = 1,..., n) V t xj (, x 0 ()) + H xj (, x 0, u 0, λ) + n H λi (, x 0, u 0, λ) T V xi x j (, x 0 ()) = 0. i=1 Nun folgt nach Definition der Hamilton Funktion H λi = f i (, x 0 (), u 0 ()). Damit lässt sich diese Relation auch folgendermaßen schreiben H xj (, x 0, u 0, λ) + d d V x j (, x 0 (), u 0 (), λ()) = 0 oder λ j() = H xj (, x 0, u 0, λ). Dies ist die bekannte adjungierte Differentialgleichung. Die natürlichen Randbedingungen folgen aus (14.5) λ(t b ) = V x (t b, x 0 (t b )) = g(x(t b )). Damit ist das Minimumprinzip für den betrachteten Spezialfall gezeigt. Der Beweis ist nicht streng, da die Existenz und C 2 Eigenschaft der Wertfunktion vorausgesetzt werden musste. Interpretation der adjungierten Variablen. Als Folgerung aus den obigen Überlegungen ergibt sich eine interessant und nützliche Interpretation der adjungierten Variablen λ(t). Dazu sei (x 0, u 0 ) eine Lösung des Ausgangsproblems und λ die zugehörige adjungierte Variable (gemäß der notwendigen Bedingungen). In [, t b [ werde nun der Zustandsvektor gestört: x 0 () x 0 () + δx(). Ab diesem Zeitpunkt werde dann wieder optimal (bezogen auf den neuen Zustandsvektor) gesteuert. Der Wert der Zielfunktion für diese gestörte Vergleichskurve hängt dann nur vom Störzeitpunkt und von der Störung selbsb: I = Î(, δx()) = f 0 (t, x 0, u 0 ) dt + V (, x 0 () + δx()). 160

Aufgrund der Definition (14.9) gilt nun λ() = Î (δx()), (14.12) d.h. λ() beschreibt die Sensitivität des Zielfunktionals in Anhängigkeit von Störungen der Zustandsgrößen zum Zeitpunkt. Insbesondere sind also die adjungierten Variablen auch für die unterschiedlichen Anwendungen interpretierbare (und zumeist auch vom Anwenderstandpunkt wichtige) Größen. Für Anwendung im Rahmen der Wirtschaftswissenschaften haben Feichtinger und Hartl die obige Interpretation sehr intuitiv folgendermaßen beschrieben: λ j (t) giblso an, wieviel es dem Entscheidungsträger wert ist, eine kleine Einheit der Zustandsvariablen x j (t) mehr zu besitzen, unter der Annahme, dass er sich für den Rest des Planungshorizonts optimal verhält. λ(t) heißt Schattenpreis, weil der Kapitalwert nicht den am Kapitalmarkt herrschenden Markpreis darstellt, sondern einen (firmen ) internen Verrechnungspreis, mit dem eine zusätzliche Kapitaleinheit bewertet wird. Minderen Worten misst der Schattenpreis nicht den direkten Verkaufswert, der am Markt für eine Kapitaleinheit erzielt werden kann, sondern den Preis, den ein sich rational verhaltender Entscheidungsträger bereit wäre, für eine zusätzliche Kapitaleinheit zu bezahlen. Version: 13.6.2008 161