Online-Optimierung: Markovsche Entscheidungsprobleme und Diskrete Stochastische Dynamische Programmierung. Jörg Rambau

Transkript

1 Online-Optimierung: Markovsche Entscheidungsprobleme und Diskrete Stochastische Dynamische Programmierung Jörg Rambau Version vom 7. Juli 2005

2

3 Inhaltsverzeichnis 1 Beispiele und das allgemeine Modell Lagerhaltung Maschinenaustausch Schachstrategie Das allgemeine Modell Dynamisches Programmieren Das Optimalitätsprinzip Der Algorithmus DP Beispiel: Lagerhaltung Beispiel: Linear-Quadratische Systeme Linear-Quadratische Systeme Über Matrizen Optimale Steuerung eines LQS Lagerhaltung Über konvexe Mengen und Funktionen Optimale Lagerhaltung Bemerkungen zu Verallgemeinerungen Imperfekte Zustandsinformation Über bedingte Erwartung Das allgemeine Modell unter imperfekter Zustandsinformation Dynamisches Programmieren für MDPI Beispiel: Linear-Quadratische MDPI (LQSI) MDPs mit unendlichem Horizont (MDP- ) Beispiele Klassifikation Der DP-Operator Vorschau: Die drei Stützpfeiler der Theorie

4 4 Inhaltsverzeichnis 7 Diskontierte Probleme I Hilfsmittel Monotonieeigenschaft des DP-Operators Konvergenz von DP Diskontierte Probleme II Die Bellmann-Gleichung Charakterisierung optimaler stationärer Politiken Beispiel: Maschinenaustausch Wertiteration Vektornotation für endliche Zustandsräume Fehlerschranken Algorithmische Umsetzung Politikiteration Politikverbesserung Algorithmische Umsetzung Beispiel: Maschinenaustausch Lineare Programmierung Die Optimalkostenfunktion als LP-Optimum Beispiel: Maschinenaustausch

5 Beispiele und das 1 allgemeine Modell In diesem Kapitel präsentieren wir Beispiele für kostenbehaftetes sequentielles Entscheiden bei ungewisser Zukunft, für die wir Modelle mit einer Reihe von Gemeinsamkeiten formulieren. Diese Gemeinsamkeiten werden dann durch den Begriff des Markovschen Entscheidungsproblems formalisiert. Die Vorlesung hält sich im Wesentlichen an die recht informelle Vorlage [Ber01]. Eine formellere Einführung findet sich in [Put05]. 1.1 Lagerhaltung Wir betrachten das folgende Lagerhaltungsproblem mit dem Ziel, Lagerkosten möglichst gut gegen Lieferverzugskosten auszubalancieren: Gegeben sind: Ein Produkt im Lager Nachfrage für verschiedene Tage stochastisch unabhängig (Störung) Nachbestellung von Ware über Nacht möglich (Steuerung) Kosten für gelagerte Ware, verspätete Lieferung und Nachbestellung Ziel: Minimiere die erwarteten Gesamtkosten auf einem Horizont von N Tagen. Modellierung: Für k = 0, 1,..., N 1 seien x k := Lagerbestand am Tag k vor dem Verkauf w k := Nachfrage am Tag k u k := Liefermenge am Tag k vor dem Verkauf (Zufallsvariable) (Zufallsvariable) (Deterministisch) Dann kann die sogenannte Systemdynamik wie folgt durch eine Gleichung von Zufallsvariablen beschrieben werden: x k+1 = x k + u k w k, k = 0, 1,..., N 1.

6 6 Beispiele und das allgemeine Modell Für x R seien r(x) die Kosten pro Tag für einen Lagerbestand von x. (Bei negativem x sind das Lieferverzugskosten.) Ferner sei c der Preis für eine Einheit des Lagerguts. Die Gesamtkosten am Tag k betragen dann: r(x k ) + cu k, k = 0, 1,..., N 1 Am Tag N hat man noch einen Lagerbestand von x N, was R(x N ) koste (Terminalkosten). Dann sind die erwarteten Gesamtkosten gegeben durch N 1 E wk :k=0,1,...,n 1[ R(xN ) + (r(x k ) + cu k ) ]. Das Ziel ist es also, diesen Ausdruck zu minimieren, wobei an jedem Tag vor dem Verkauf der tatsächliche Lagerbestand beobachtet werden kann: Die Nachfrage an den Vortagen hat sich realisiert. Das nennt man Closed Loop Steuerung. Im Gegensatz dazu muss man bei einer Open Loop Steuerung alle Steuerungen schon zu Beginn festlegen. Das bedeutet, wir suchen eine Funktion, die am Tag k einem beobachteten Lagerbestand x k genau eine Nachbestellung u k zuordnet. So eine Funktion heißt Politik oder Strategie. Wir hätten gern eine optimale Politik, also eine, die die erwarteten Kosten über N Tage minimiert. 1.2 Maschinenaustausch Wir möchten nun den besten Zeitpunkt finden, zu dem wir eine alternde Maschine gegen eine neue austauschen sollten. Gegeben sind: k=0 Eine Maschine mit n Zuständen, von 1 bis n immer >>schlechter<< werdend Wahrscheinlichkeiten für Zustandsübergänge, so dass Verbesserung ausgeschlossen (Störung) Vor jeder Benutzung Weiterbenutzen oder Austauschen möglich; Austauschen liefert sofort Maschine in Zustand 1 (Steuerung) Kosten für Betrieb (abhängig vom Zustand vor Benutzung) und Austausch

7 1.3. Schachstrategie 7 Ziel: Minimiere erwartete Gesamtkosten Die Modellierung der Systemdynamik geschieht hier am besten durch Wahrscheinlichkeiten für Zustandsübergänge: i := Zustand der Maschine u := Entscheidung: Austauschen oder Weiterbenutzen p ij := Wahrscheinlichkeit, dass Zustand von i nach j i wechselt Diese Größen seien hier stationär, hängen also nicht von k ab. Die Kosten bezeichnen wir mit g(i) := Betriebskosten, wenn Benutzung in Zustand i startet; monoton steigend R := Austauschkosten Die erwareteten Kosten für eine Benutzung der Maschine, wenn wir vorher in Zustand i uns für Steuerung u entschieden haben, betragen { R + g(1) falls u = Austauschen g(i, u) := g(i) sonst Die erwarteten Gesamtkosten sind also E [N 1 k=0 g(i k, u k ) ] i k :k=0,1,...,n 1. Diese sind wieder zu minimieren durch Wahl von u vor jeder Benutzung der Maschine, wobei der Zustand vor der Benutzung beobachtet werden kann (Closed Loop); der Zustand nach der Benutzung, der die Betriebskosten bestimmt, ist jedoch eine Zufallsvariable. Eine Politik ist hier eine Funktion, die vor jeder Bearbeitung für jeden Maschinenzustand festlegt, ob getauscht werden soll oder nicht. Wenn die erwarteten Kosten der Austauschpolitik minimal sind, so heißt die Politik wieder optimal. 1.3 Schachstrategie Wir modellieren die Aufgabe, in einem N-Partien-Schach-Match vor jeder Partie festzulegen, ob auf Sieg oder auf Remis gespielt werden soll. Die Gewinnwahrscheinlichkeit für das Gesamtmatch soll maximiert werden. Genauer sind gegeben:

8 8 Beispiele und das allgemeine Modell Schach-Match A gegen B auf N Partien, ggf. Entscheidungsmatch Strategie von B konstant A kann auf Sieg oder auf Remis spielen (Steuerung) Bei Spiel auf Sieg sind Sieg oder Niederlage mit bestimmten Wahrscheinlichkeiten möglich; bei Spiel auf Remis sind Remis oder Niederlage mit bestimmten Wahrscheinlichkeiten möglich (Störung). Ziel: Minimierung der Verlustwahrscheinlichkeit Modellierung: p w := Gewinnwahrscheinlichkeit bei Spiel auf Sieg p d := Remiswahrscheinlichkeit bei Spiel auf Remis u k := Strategiewahl W (Sieg) oder D (Remis) für Partie k x k := Punktestand für B nach k Partien w k (u k ) := Punktezuwachs für B durch die kte Partie Damit ist die Systemdynamik gegeben durch die folgende Gleichung von Zufallsvariablen: x k+1 = x k + w k (u k ) Dabei ist w k wie folgt verteilt: P [ w k (W) = 1 ] = 1 p w P [ w k (W) = 0 ] = p w P [ w k (D) = 1 ] = 1 p d P [ w k (D) = 1 ] = pd 2 (Alle anderen Wahrscheinlichkeiten sind Null.) Die Verlustwahrscheinlichkeit verstecken wir in den Terminalkosten: 1 falls x N > N 2 g N (x N ) := 1 p w falls x N = N 2 0 sonst

9 1.4. Das allgemeine Modell 9 Weiter definieren wir keine Kosten. Die erwarteten Gesamtkosten sind daher die erwarteten Terminalkosten: E [ g N (x N ) ] = P [ g N (x N ) = 1 ] 1 + P [ ] g N (x N ) = 1 p w (1 pw ) + P [ g N (x N ) = 0 ] 0 = P [ x N > N ] [ + P {xn = N 2 2 } {A verliert Entscheidungspartie}]. Dies ist gerade die Verlustwahrscheinlichkeit für A. (Wir haben dabei angenommen, dass A die Entscheidungspartie auf Sieg spielt, da die Remisstrategie keinen Sinn macht.) Auch hier kann A wieder eine Closed Loop Steuerung anwenden, da der Spielstand vor jeder Partie beobachtet werden kann. Eine Politik liefert also auch hier wieder vor jeder Partie für jeden Spielstand eine Anweisung, ob auf Sieg oder auf Remis gespielt werden soll. 1.4 Das allgemeine Modell Wir definieren nun die Hauptdarsteller dieser Vorlesung: Definition Ein Markovsches Entscheidungsproblem mit endlichem Horizont kurz: MDP (oder: Diskretes stochastisches dynamisches Programm, Diskretes Dynamisches System) ist ein Tupel (N, S, C, U, D, f, g, M) mit folgender Bedeutung: N N ist der Horizont, die Anzahl von Stufen (oder: Epochen), über die wir die Erwartung betrachten wollen S = N 1 k=0 S k ist ein Raum von möglichen Zuständen x k S k in Stufe k = 0, 1,..., N 1; zusätzlich ist der Raum S N der Terminalzustände definiert. C = N 1 k=0 C k ist ein Raum von möglichen Steuerungen u k U k in Stufe k = 0, 1,..., N 1 U ist eine Familie von Funktionen U k : S k 2 C k, die Steuerbeschränkungen. D = N 1 k=0 D k ist ein Raum von möglichen stochastischen Störungen w k D k, die von x k S und von u k C k abhängen können, die aber von den den w i mit i k unabhängig sein müssen

10 10 Beispiele und das allgemeine Modell f ist eine Folge von Abbildungen f k : S k C k D k S k+1 mit k = 0, 1,..., N 1, die Systemdynamik g ist eine Folge von Kostenfunktionen g k : S k C k D k R mit k = 0, 1,..., N 1, die Stufenkosten; zusätzlich ist eine Funktion g N : S N R definert, die Terminalkostenfunktion. M ist das Ziel des MDPs (in dieser Vorlesung i. d. R. die Minimierung der erwarteten Gesamtkosten) Eine (deterministische) Politik (oder: Kontrollgesetz, Strategie; engl.: policy, control law) ist eine Folge π = (µ 0, µ 1,..., µ N 1 ) von Funktionen µ k : { Sk C k x k µ k (x k ) Falls µ k (x k ) U k (x k ) für alle k = 0, 1,..., N 1, so heißt π zulässig. Falls π = (µ, µ,..., µ), so heißt π stationär. Die Kosten von π bei Anfangszustand x 0 sind definiert als J π (x 0 ) := E [ N 1 g N (x N ) + g(x k, µ k (x k ), w k ) ]. Eine Politik π heißt optimal, wenn k=0 J (x 0 ) := inf π J π(x 0 ) = J π (x 0 ). Die Funktion J heißt Optimalkostenfunktion (oder: Wertfunktion; engl.: value function). Für abzählbare, insbesondere endliche Zustandsräume ist es oft bequemer, die Systemdynamik mit Hilfe von Übergangswahrscheinlichkeiten darzustellen. Definition Für ein MDP (N, S, C, U, D, f, g) mit abzählbarem Zustandsraum S sind die Übergangswahrscheinlichkeiten die folgenden Funktionen für i S k und j S k+1 : { U [0, 1] p ij = (p k ) ij : u P [ x k+1 = j x k = i, u k = u ]

11 1.4. Das allgemeine Modell 11 Ob ein solches MDP durch stochastische Störungen oder durch Übergangswahrscheinlichkeiten gegeben ist, spielt keine Rolle: Beobachtung Seien für ein MDP mit abzählbarem Zustandsraum statt der Störungen w k und der Systemdynamik f k nur Übergangswahrscheinlichkeiten (p k ) ij gegeben. Dann kann man Störungen w k definieren als Zustände w k S k+1 mit Wahrscheinlichkeitsverteilungen wie folgt: P [ w k = j x k = i, u k = u ] := (p k ) ij (u) Die Systemdynamik f k ist dann gegeben durch: f k (x k, u k, w k ) := w k Ferner kann man aus der Wahrscheinlichkeitsverteilung der w k und der Systemdynamik f k die Übergangswahrscheinlichkeiten des MDPs wie folgt berechnen: p ij (u) := P [ {w : j = f k (i, u, w)} x k = i, u k = u ]

12

13 Dynamisches 2 Programmieren In diesem Kapitel werden wir einen Algorithmus bereitstellen, der im Prinzip die Optimalkostenfunktion jedes MDPs mit endlichem Zustandsraum löst: Dynamisches Programmieren ( DP). Über Diskretisierungsmethoden kann man damit auch die Optimalkostenfunktion vieler anderer MDPs approximieren, obwohl das nicht immer die beste Methode sein muss. Der Vorteil von DP liegt in der Tatsache begründet, dass er keinerlei spezielle Voraussetzungen an die Struktur des MDPs stellt. Damit wird er auch ein vielseitiges Werkzeug zum Beweis theoretischer Resultate. 2.1 Das Optimalitätsprinzip Gegeben sei ein MDP = (N, S, C, U, D, f, g) wie in Abschnitt 1.4. Aus diesem N-stufigen MDP können wir für alle i = 0, 1,..., N wie folgt ein (N i)- stufiges MDP generieren, das N i-stufige Teilproblem: wir ignorieren einfach die ersten i Stufen und starten in einem Zustand x i S i. Das folgende Prinzip verknüpft die (N i)-stufigen Teilprobleme mit dem N-stufigen Originalproblem und ist als Bellmannsches Optimalitätsprinzip berühmt. Beobachtung Ist π = (µ 0, µ 1,..., µ N 1 ) eine optimale Politik für ein N-stufiges MDP und sei x i ein Zustand, der durch π mit positiver Wahrscheinlichkeit erreicht wird, dann ist die abgeschnittene Politik π i := (µ i, µ i+1,..., µ N 1 ) für alle i = 0, 1,..., N eine optimale Politik für das (N i)-stufige Teilproblem des MDP mit Start in x i. Andernfalls könnte man π durch Ändern der Entscheidungsregeln in π i verbessern. Dieses einfache Prinzip ist nun der Schlüssel zur Berechnung der Optimalkostenfunktion durch DP.

14 14 Dynamisches Programmieren 2.2 Der Algorithmus DP Wir betrachten das allgemeine Modell aus Abschnitt 1.4. Zur Erinnerung ist hier diie Optimalkostenfunktion, deren Werte wir berechnen wollen: N 1 J (x 0 ) = inf E[ g N (x N ) + g k (x k, µ k (x k ), w k ) ] π w 0,...,w N 1 k=0 Idee: Betrachte zunächst Stufe N. Für das 0-stufige Teilproblem ist die Optimalkostenfunktion gleich der Terminalkostenfunktion. Dann betrachte Stufe N 1 und balanciere die Kosten für erwartete Zustandsübergänge mit den Optimalkosten auf dem erreichten Zustand; letztere gibt nach Definition die Kosten einer billigsten Steuerung an, die von diesem Zustand ausgeht. Zusammengesetzt erhält man die Optimalkostenfunktion für das 1-stufige Teilproblem. So arbeitet man weiter bis zum N-stufigen Teilproblem, dem Originalproblem. Etwas formeller, aber ohne maßtheoretische Spitzfindigkeiten, lautet das Resultat: Satz Sei (N, S, C, U, D, f, g) ein MDP mit Optimalkostenfunktion J. Dann lassen sich die Optimalkostenfunktionen J i der (N i)-stufigen Teilproblemefolgender mit folgender Rekursion berechnen (sofern alle Zufallsvariablen bzgl. geeigneter Wahrscheinlichkeitsräume messbar sind und sofern alle Erwartungswerte existieren und endlich sind, z. B. wenn S, C, D abzählbar sind): J N = g N (2.1) J i (x i ) = inf u i U(x i ) E[ g i (x i, u i, w i ) + J i+1(f i (x i, u i, w i )) ] i = 0, 1,..., N 1 (2.2) J = J 0 (2.3) Ferner gilt: Jede Politik (µ 0, µ 1,..., µ N 1 ) mit µ i (x i ) argmin ui U i E [ g i (x i, u i, w i ) + J i+1 (f i (x i, u i, w i )) ] (2.4) ist optimal. Insbesondere gilt: Wird für alle i = 0,..., N 1 das Infimum angenommen, so existiert eine optimale Politik.

15 2.2. Der Algorithmus DP 15 Definition Die Optimalkostenfunktion des (N i)-stufigen Teilproblems heißt Optimale Ausgangskostenfunktion in Stufe i (engl: cost-to-go function). Beweis von Satz Bemerkung am Start: Da im Satz keine Aussagen über die zugrundeliegenden Wahrscheinlichkeitsräume gemacht worden sind, ist die Aussage des Satzes mathematisch nicht präzise; diese Details tragen aber nicht zum Verständnis des Prinzips bei und werden daher hier nicht behandelt. In den für uns interessanten Anwendungsfällen treten keine maßtheoretischen Schwierigkeiten auf. Sei π = (µ 0, µ 1,..., µ N 1 ) eine zulässige Politik für das MDP (N, S, C, U, D, f, g) und π i := (µ i, µ i+1,..., µ N 1 ) die zugehörige in der iten Stufe abgeschnittene Strategie. Sei J i eine Familie von Funktionen, definiert durch die angegebene Rekursion. Wir zeigen durch Induktion nach (N i), dass J i (x i ) = J i (x i) für alle i = N, N 1,..., 0 und alle x i S i. Induktionsanfang: Für N i = 0 ist i = N und J N (x N) = g N (x N ) = J N (x N ) nach Definition der Kosten. Induktionsschluss: Sie nun N i > 0 und J (x i+1 ) = J i+1 (x i+1 ) schon

16 16 Dynamisches Programmieren gezeigt für alle x i+1 S i+1. Dann gilt: J (x i ) = inf E [ N 1 g N (x N ) + g k (x k, µ k (x k ), w k ) ] π i w i,w i+1,...,w N 1 k=i = inf E[ E [ N 1 g N (x N ) + g k (x k, µ k (x k ), w k ) ] ] (µ i,π i+1 ) w i+1,...,w N 1 k=i = inf E[ E [ g N (x N ) ] N 1 (µ i,π i+1 ) w i+1,...,w N 1 + E [ g k (x k, µ k (x k ), w k ) ] ] w i+1,...,w N 1 k=i = inf (µ i,π i+1 ) E[ E [ g N (x N ) ] w i+1,...,w N 1 + g i (x i, µ i (x i ), w i ) + = inf (µ i,π i+1 ) E[ g i (x i, µ i (x i ), w i ) + E [ g N (x N ) + = inf µ i E [ g i (x i, µ i (x i ), w i ) + inf π i+1 E [ g N (x N ) + = inf µ i E [ g i (x i, µ i (x i ), w i ) + J i+1(x i+1 ) ] w i N 1 k=i+1 N 1 k=i+1 = inf µ i E [ g i (x i, µ i (x i ), w i ) + J i+1(f i (x i, µ i (x i ), w i )) ] w i = inf µ i E [ g i (x i, µ i (x i ), w i ) + J i+1 (f k (x i, µ i (x i ), w i )) ] w i = inf u i U i (x i ) E[ g i (x i, u i, w i ) + J i+1 (f k (x i, u i, w i )) ] w i = J i (x i ). N 1 w i k=i+1 w i E [ g k (x k, µ k (x k ), g k (x k, µ k (x k ), w k ) ] w i+1,...,w N g k (x k, µ k (x k ), w k ) ] w i+1,...,w N Was bringt das für einen Vorteil? Anstelle einer Minimierung über alle N- Tupel von Funktionen µ k : S k C k müssen wir nun N-mal über alle möglichen Steuerungen in allen möglichen Zuständen minimieren. Nehmen wir ein Problem an mit endlichen Räumen S k = S, C k = C und D k = D für alle k = 0, 1,..., N 1 und einer Systemdynamik ohne nutzbare analytische Struktur, so müssten für das direkte Auffinden einer optimalen Politik durch Enumeration alle ( S C )N möglichen Politiken evaluiert werden durch Erwartungswertberechnung über die D N viele verschiedene Realisie-

17 2.3. Beispiel: Lagerhaltung 17 rungen des Zufallsvektors w 0, w 1,..., w N 1. Der Aufwand wäre dann proportional zu ( S C ) N D N. Die Tabellierung der N Ausgangskostenfunktionen benötigt bei Minimierung durch Enumeration hingegen nur N C S Einträge, und jede beteiligte Erwartungswertberechnung würde D viele Realisierungen berücksichtigen. Damit wäre der Aufwand proportional zu N C S D : Für viele praktische Anwendungen immer noch zuviel, da S i. d. R. astronomisch groß werden kann, trotzdem eine drastische Reduktion. Ferner liefert DP eine vorgezeichnete induktive Beweisstrategie für den Nachweis der Optimalität einer Politik. 2.3 Beispiel: Lagerhaltung Wir betrachten das Lagerhaltungsproblem aus Abschnitt 1.1. Um eine optimale Politik zu berechnen, müssen wir die DP-Rekursion ausführen. Das heißt: J N (x N ) := g N (x N ) = R(x N ) J i (x i ) := inf u i U i (x i ) E[ g i (x i, u i, w i ) + J i+1 (f i (x i, u i, w i )) ] w i = inf u i U i (x i ) E[ r(x i ) + cu i + J i+1 (x i + u i w i ) ] w i Wir werden diese Rekursion in einem späteren Kapitel analytisch lösen, indem wir zeigen, dass alle J i in dieser Rekursion konvex sind. 2.4 Beispiel: Linear-Quadratische Systeme Die folgende Systemdynamik liefert ein sogenanntes lineares System: x k+1 = A k x k + B k u k + w k, k = 0, 1,..., N 1 Zusammen mit den folgenden quadratischen Kosten erhalten wir ein linearquadratisches System (LQS): g N := x T NQ N x N g k (x k, u k, w k ) := x T kq k x k + u T kr k u k Wir nehmen dabei an, dass alle Zustandsräume und Kontrollräume reelle, endlichdimensionale Vektorräume sind, also S k = S = R n und C k = C =

18 18 Dynamisches Programmieren R m. Ferner sind die Störungen untereinander unabhängige n-dimensionale Zufallsvektoren mit Erwartungswert Null und endlicher Varianz. Die Kostenmatrizen Q k seien positiv semidefinit und symmetrisch, die Kostenmatrizen R k seien positiv definit und symmetrisch. Die DP-Rekursion liefert: J N (x N ) = x T NQ N J i (x i ) = inf E [ x T i Q i x i + u T i R i u i + J i+1 (A i x i + B i u i + w i ) ] u k Auch diese Rekursion werden wir später analytisch lösen, was auf die in der Kontrolltheorie berühmte diskrete Riccati-Gleichung führt.

19 Linear-Quadratische 3 Systeme Wir werden in diesem Kapitel die DP-Rekursion für Linear-Quadratische Systeme (LQS) aus Abschnitt 2.4 lösen. Dazu brauchen wir etwas Hintergrund über positiv (semi-)definite Matrizen. 3.1 Über Matrizen Definition A R n n heißt (i) symmetrisch : A = A T (ii) positiv semidefinit : x T Ax 0 x R n. Bezeichnung: A 0 (iii) positiv definit : x T Ax > 0 x R n \ {0}. Bezeichnung: A 0. Hilfssatz Für passende Matrizen gilt: (i) Wenn A 0 und B 0 so ist A + B 0. (ii) Wenn A 0 symmetrisch, dann ist A invertierbar und A 1 0 symmetrisch. (iii) Wenn A, B 0 [bzw. A, B 0] und λ, µ > 0, so ist λa + µb 0 [bzw. λa + µb 0]. (iv) Wenn A 0, so ist C T AC 0 für jede passende Matrix C (v) Wenn A 0, so ist C T AC 0 für jede passende vollrangige Matrix C. (vi) Wenn A 0, so hat A Darstellung als A = C T C für eine vollrangige passende Matrix C. (vii) Wenn A 0 vom Rang m, so hat A Darstellung als A = C T C für eine vollrangige passende Matrix C R n m. (viii) Wenn A symmetrisch, dann sind alle Eigenwerte von A reell und es existiert eine Orthonormalbasis des R n aus Eigenvektoren. (ix) Wenn A 0 [bzw. A 0] symmetrisch, dann sind die Eigenwerte von A positiv [bzw. nicht negativ].

20 20 Linear-Quadratische Systeme 3.2 Optimale Steuerung eines LQS Wir fassen nochmal die Daten eines LQS zusammen: N ist beliebig S = R n C = R m U k (x k ) = C (keine Steuerbeschränkungen) D ist ein Wahrscheinlichkeitsverteilung über R n mit Erwartungswert Null und endlicher Varianz. f k (x k, u k, w k ) = A k x k +B k u k +w k für passende Matrizen A k und B k. g k (x k, u k, w k ) = x T k Q kx k + u T k R ku k und g N (x N ) = x T N R Nx N für passende Q k 0 und R k 0. Die wesentliche Struktur wird durch folgende Proposition beschrieben: Proposition Die optimalen Ausgangskosten J i sind von der Form N 1 J i (x i ) = x T i K i x i + E [ ] w T i K i+1 w i, i = 0, 1,..., N 1 k=i mit geeigneten symmetrischen K k 0. Die Intuition ist wie folgt: Die optimalen Ausgangskosten sind in jeder Stufe eine positiv semidefinite quadratische Funktion des Zustandsvektors. Da die Stufenkosten positiv definit quadratisch sind bedeutet das qualitativ, dass in der DP-Rekursion in jeder Stufe das Infimum einer positiv definiten quadratischen Funktion ohne Beschränkungen gesucht wird. Daher wird das Infimum angenommen, und das Minimum lässt sich berechnen. So pflanzt sich die Eigenschaft Positiv semidefinite quadratische Ausgangskostenfunktion fort bis Stufe Null. Der folgende Beweis formalisiert diese Argumente. Beweis. Wir führen den Beweis wie üblich durch vollständige Induktion nach N i.

21 3.2. Optimale Steuerung eines LQS 21 Wenn N i = 0, dann ist J N (x N ) = x T N Q Nx N + 0, also wie gwünscht mit K N = Q N. Wenn N i > 0, dann folgt aus der DP-Rekursion mit der Bezeichung c i := N 1 k=i E[ w T i K ] i+1w i, i = 0, 1,..., N 1: J i (x i ) = inf E[ x T u i R m i Q i x i + u T i R i u i + J i+1 (x i+1 ) ] = inf u i R m E[ x T i Q i x i + u T i R i u i + x T i+1k i+1 x i+1 + c i+1 ] Wir berechnen zunächst E [ x T i+1 K i+1x i+1 ] : E [ x T i+1k i+1 x i+1 ] = E [ (Ai x i + B i u i + w i ) T K i+1 (A i x i + B i u i + w i ) ] = E [ x T i A T i K i+1 A i x i + x T i A T i K i+1 B i u i + u T i B T i K i+1 A i x i + u T i B T i K i+1 B i u i ] } {{ } deterministisch + E [ w T i K i+1 (A i x i + B i u i ) + (A i x i + B i u i ) T K i+1 w i ] } {{ } = 0, da E [ w i ] = 0 + E [ w T i K i+1 w i ] } {{ } <, da E [ w T i w i] < Damit gilt: J i (x i ) = x T i Q i x i { } + inf u T i R i u i + x T u i R m i A T i K i+1 A i x i + u T i B T i K i+1 A i x i + x T i A T i K i+1 B i u i + u T i B T i K i+1 B i u i } {{ } =:h(u i ) + E [ w T i K i+1 w i ] + ci+1 } {{ } =c i Da der in u i quadratische Term in h(u i ) die positiv definite Koeffizientenmatrix R i +B T i K i+1b i hat, existiert ein eindeutiges Minimum von h(u i ). Um das Minimum zu ermitteln, differenzieren wir h(u i ) nach u i, und somit gilt

22 22 Linear-Quadratische Systeme für das Minimum u i von h: ui h(u i ) = 2R i u i + 2B T i K i+1 A i x i + 2B T i K i+1 B i u i = 0 R m ( R i + B T i K i+1 B i )u i = B T i K T } {{ } i+1a i x i 0 und symmetrisch symmetrisch invertierbar u k = (R i + B T i K i+1 B i ) 1 B T i K i+1 A i } {{ } =:L i Dies bedeutet, dass eine optimale Politik durch eine Lineare Abbildung L i gegeben ist, ein Lineares Kontrollgesetz. Aus der Formel für J i (x i ) folgt: J i (x i ) = x T i Q i x i + (u i ) T R i u i + x T i A T i K i+1 A i x i + (u i ) T B T i K i+1 A i x i + x T i A T i K i+1 B i u i + (u i ) T B T i K i+1 B i u i + c i = x T i Q i x i + (u i ) T (R i u i ) + (u i ) T (B T i K i+1 B i u i ) + (u i ) T (B T i K i+1 A i x i ) + x T i A T i K i+1 A i x i + x T i A T i K i+1 B i u i + c i = x T i Q i x i + (u i ) T (R i u i + B T i K i+1 B i u i + B T i K i+1 A i x i ) } {{ } = 1 2 u i h(u i ) = 0 + x T i A T i K i+1 A i x i + x T i A T i K i+1 B i u i + c i = x T i Q i x i + x T i A T i K i+1 A i x i + x T i A T i K i+1 B i L i x i + c i = x T i (Q i + A T i K i+1 A i + A T i K i+1 B i L i } {{ } )x i + c i =:K i = x T i K i x i + c i x i

23 3.2. Optimale Steuerung eines LQS 23 für K i = Q i + A T i K i+1 A i + A T i K i+1 B i L i = Q i + A T i K i+1 A i A T i K i+1 B i (R i + B T i K i+1 B i ) 1 B T i K i+1 A i = A T i (K i+1 K i+1 B i (R i + B T i K i+1 B i ) 1 B T i K i+1 )A i + Q i Die Matrix K i ist offenbar symmetrisch. Aber warum ist K i 0? Das liegt an der Eigenschaft der optimalen Ausgangskosten: x T K i x = J i (x) c i { = min x T K i+1 x + u T R i+1 u + (A i x + B i u) T K i+1 (A i x + B i u) } u R m 0, da der Ausdruck im Minimum nicht negativ ist alle Matrizen dort sind positiv semidefinit und die Minimierung daran nichts ändert. Aus dieser Proposition und dem Beweis folgt nun das Hauptresultat dieses Kapitels: Satz Die Optimalkostenfunktion J für ein LQS ist gegeben durch mit N 1 J (x 0 ) = J 0 (x 0 ) = x T 0 K 0 x 0 + E [ ] w T kk k+1 w k k=0 K N = Q N K i = A T i (K i+1 K i+1 B i (R i + B T i K i+1 B i ) 1 B T i K i+1 )A i + Q i 0 Eine optimale Steuerung ist gegeben durch mit µ i (x i ) = L i x i L i = (R i + B T i K i+1 B i ) 1 B T i K i+1 A i

24 24 Linear-Quadratische Systeme Insbesondere hängt eine optimale Steuerung nur vom Zustand aber nicht von den stochastischen Störungen ab. Das heißt, man kann alle L i im Voraus berechnen. Die Auswertung im laufenden Betrieb ist dann sehr schnell. Die Rekursion für die Matrizen K i heißt auch Diskrete Riccati-Gleichung; die Formel für die optimale Politik heißt auch lineare Kontrollgesetz.

25 Lagerhaltung 4 In diesem Kapitel lösen wir die DP-Rekursion für ein einfaches Lagerhaltungsproblem. Wichtig ist, dass unsere Kaufkosten proportional zur Bestellmenge sind. Falls es einen Sockelbetrag für eine Nachbestellung gibt, ist die Lösung zwar immer noch möglich aber wesentlich komplizierter. Waren im vorigen Kapitel quadratische Funktionen und positiv semidefinite Matrizen das Hauptwerkzeug aus der Mathematik, so sind es hier konvexe Mengen und Funktionen. 4.1 Über konvexe Mengen und Funktionen Wir stellen einige Fakten über konvexe Mengen und Funktionen zusammen. Definition Eine Teilmenge C des R n heißt konvex, wenn für alle x, y C und alle 0 α 1 auch αx + (1 α)y C. Definition Eine Funktion f : C R heißt konvex über C, wenn für alle x, y C und alle 0 α 1 gilt, dass f(αx+(1 α)y) αf(x)+(1 α)f(y). Beispiel C = R, f(x) = e x ist konvex. (Eselsbrücke: konve x.) Hilfssatz Für konvexe Mengen und Funktionen gilt: (i) f konvex f stetig (ii) f : C R konvex Γ λ := {x x C, f(x) λ} konvex für alle λ R (iii) f i : C R konvex und α i 0 i α if i konvex (iv) f : R m R konvex, A R m n und b R m g : R n R, g(x) = f(ax + b) konvex (v) f : R n R konvex und w Zufallsvektor im R n mit E [ ] w i < g(x) := E [ f(x + w) ] konvex für alle x Rn w (vi) Das Maximum zweier konvexer Funktionen ist konvex.

26 26 Lagerhaltung 4.2 Optimale Lagerhaltung Wir wiederholen kurz die Daten des MDP für das Lagerhaltungsproblem, das wir hier betrachten wollen: N ist ein beliebiger Zeithorizont S = S k = R C = C k = R 0 U k (x k ) = C k (keine Steuerbeschränkungen) D = D k = R 0 mit voneinander unabhängigen Wahrscheinlichkeitsverteilungen f k (x k, u k, w k ) = x k + u k w k g k (x k, u k, w k ) = cu k + r(x k + u k w k ) mit r(x) := p max{0, x} + h max{0, x} für p, h 0; ferner g N (x N ) = 0. Wir nehmen an, dass p > c ist (sonst kaufen wir nie). Ferner nehmen wir an, dass c > 0 ist. Ziel dieses Kapitels ist es, den folgenden Satz zu beweisen: Satz Für alle k = 0, 1,..., N 1 existiert ein Lagerbestand y k R, so dass folgende Politik optimal ist in Stufe k für das obige Lagerhaltungsproblem: { µ y k k(x k ) := x k falls x k < y k 0 sonst So eine Politik heißr auch Schwellwertpolitik. Wenn man einmal weiß, dass eine solche Politik optimal ist, dann lassen sich die Schwellwerte im Voraus berechnen, wodurch optimale Lagerhaltung sehr einfach wird. Wir stellen nun die DP-Rekursion auf: J N (x N ) = 0 { J i (x i ) = inf cu i u i 0 + p E [ max{0, w i (x i + u i )} + h max{0, (x i + u i ) w i } ] } {{ } =:H i (x i +u i ) + h E [ J i+1 ((x i + u i ) w i ) ]}

27 4.2. Optimale Lagerhaltung 27 Offenbar hängen alle Terme nur von der Summe x i + u i ab, also dem Lagerbestand unmittelbar vor dem Verkauf. Daher setzen wir y i := y i + u i und erhalten: J N (x N ) = 0 J i (x i ) = { inf cyi + H i (y i ) + E [ J i+1 (y i w i ) ]} cx i (4.1) y i x i Die Eigenschaft, die sich in diesem Beweis während der DP-Rekursion fortpflanzen soll, ist die Konvexität von J i. Ein wesentlicher Baustein ist H i. Hilfssatz Für alle i = 0, 1,..., N 1 gilt: (i) H i ist konvex für alle x i R. (ii) lim y (cy + H i (y)) = + Beweis. Teil (i) folgt aus Hilfssatz 4.1.2: H i (y i ) = p E [ max{0, w i y i } } {{ } konvex (4.1.2(vi)) ] +h E [ ] max{0, y i w i } } {{ } konvex (4.1.2(vi)) } {{ } } {{ } } konvex (4.1.2(v)) {{ konvex (4.1.2(v)) } konvex Zum Beweis von Teil (ii) bemerken wir zunächst, dass für y + die Aussage wegen c > 0 und lim y H i (y) = korrekt ist. Für y haben wir wegen p > c: lim (cy + H i(y)) y ( [ ] lim E max{0, (c p )y + pw} y } {{ } = + <0 } {{ } + w } {{ } +h E [ ] max{0, y w} } {{ } 0 w } {{ } 0 } {{ } )

28 28 Lagerhaltung Bevor wir die Rekursion endgültig lösen, hier noch eine Beobachtung: Hilfssatz J i (x i ) 0 für alle x i R und alle i = 0, 1,..., N. Beweis. Alle Stufenkosten und Terminalkosten sind nicht-negativ, also gilt die Behauptung. Die Analyse für J i führen wir durch, indem wir die Operationen, durch die J i aus J i+1 entsteht, einzeln untersuchen. Genauer: wir werden folgende Aussagen durch Simultaninduktion beweisen: Proposition Für i = 0, 1,..., N 1 gilt: (i) J i+1 ist konvex (ii) G i (y) := cy + H i (y) + E [ J i+1 (y w) ] ist konvex w (iii) lim y G i (y) = + (iv) G i hat Minimum y i R (v) J i (x i ) = G i (y i ) cx i falls x i < y i und J i(x i ) = G i (x i ) cx i falls x i y i (vi) µ i (x i ) := y i x i falls x i < y i und µ i(x i ) := 0 falls x i y i optimal Politik in Stufe k ist eine Beweis. Wir verwenden Induktion nach (N i) für alle Aussagen gleichzeitig. (i) J i+1 (x i+1 ) ist konvex für N i = 1, da J N (x N ) = 0 konvex ist. Falls N i > 0 so ist J i+1 konvex, da J i+1 nach Induktion die in (v) angegebene Form hat. (ii) G i (y) = cy + H i y + J i+1 (y) ist konvex, da alle Summanden konvex sind (u. a. wegen (i)) (iii) Es gilt nach Hilfssatz 4.2.2: lim y G i(y) = lim y = + ( cy + Hi (y) } {{ } + E [ J i+1 (y w) ] w } {{ } 0 )

29 4.3. Bemerkungen zu Verallgemeinerungen 29 (iv) Folgt aus (ii) und (iii). (v) Nach Gleichung (4.1) ist J i (x i ) = min y i x i { Gi (y i ) } cx i Aus (iv) folgt, dass ein y i die Funktion G i auf R minimiert. Also ist y i genau dann ein Minimum von G i auf {y i x i }, wenn y i zulässig ist, d. h. wenn y i x i. Ansonsten ist x i ein Minimum, da wegen der Konvexität die Funktion G i auf y i y i monoton steigend ist. (vi) Nach Satz und (v) ist eine Entscheidung u i optimal in Stufe i, wenn sie die optimalen Ausgangskosten erreicht, d. h. in unserem Falle, wenn gilt: G i (y i = x i + u i ) cx i = J i (x i ) Mit der angegebenen Politik eingesetzt für u i und der Formel (v) für J i erhalten wir: { ( G i y J i (x i ) = i = x i + (y i x i) ) cx i falls x i < y i G i (x i = x i + 0) cx i falls x i y i Also ist die Optimalitätsbedingung für die angegebene Schwellwertpolitik erfüllt. Damit ist per Induktion der Beweis komplett. Satz folgt nun sofort aus Proposition 4.2.1(vi). 4.3 Bemerkungen zu Verallgemeinerungen Man kann die DP-Rekursion auch noch für allgemeinere Lagerhaltungsprobleme lösen. Zum Beispiel solche, in denen für jeden Kauf ein Sockelbetrag K entrichtet werden muss. In diesen Fällen muss man zeigen, dass alle Ausgangskostenfunktionen K- konvex sind, woraus man mit analogen Argumenten wie oben (nur kompizierter) zeigt, dass eine sogenannte (σ, Σ)-Politik optimal ist: Ist der Lagerbestand kleiner als σ, so fülle auf einen Bestand von Σ auf. Lagerhaltung ist eine der Erfolgsgeschichten dieser Methode und wird daher immer noch aktiv beforscht, da in diesem Bereich Kosten in relevanten Größenordnungen gespart werden können.

30

31 Imperfekte 5 Zustandsinformation Bislang sind wir immer davon ausgegangen, dass der Zustand des Systems korrekt beobachtet werden konnte. Das ist in der Praxis nicht immer der Fall. Zum Beispiel kann beim Maschinenaustauschproblem aus einer Inspektion der Maschine nicht immer genau auf den Zustand geschlossen werden. Die Idee ist nun, die Beobachtungen über den Zustand, d. h. die Information über den Zustand mit in das Modell zu integrieren. Zum Beispiel: angenommen, die Maschine kann in gutem oder in schechtem Zustand sein und eine Inspektion ergibt die Schätzung guter Zustand oder schlechter Zustand ; nehmen wir ferner an, dass die Inspektionsmethode für jeden Zustand Auskunft über die Wahrscheinlichkeit liefert, dass die Schätzung in diesem (tatsächlichen) Zustand guter Zustand bzw. schlechter Zustand liefert. Dann kann man z. B. die Wahrscheinlichkeit ermitteln, dass der tatsächliche Zustand gut ist unter der Bedingung, dass die Schätzung gut ist. Allgemein: Wir wollen in Stufe k die gesamte Historie von Zustandsschätzungen z 0, z 1,..., z k benutzen, um eine Wahrscheinlichkeitsverteilung für x k (unter den Bedingungen z 0, z 1,..., z k ) zu ermitteln. Auf Basis dieser Informationen kann eine Politik dann eine Steuerung wählen. Offenbar benötigen wir bedingte Erwartungen. Wir wiederholen die wesentlichen Fakten. 5.1 Über bedingte Erwartung Wir liefern die Begriffe nur für einen endlichen Raum Ω von Elementarereignissen und einen Wahrscheinlichkeitsraum (Ω, F, P). Definition Die Bedingte Wahrscheinlichkeit von B gegeben A für A, B F ist definiert als [ ] P [ B ] P A B [ ] falls P [ A ] > 0 A := P B 0 sonst Hilfssatz (Bayes Regel). Sei Ω = B 1 B 2 B n (disjunkt) und

32 32 Imperfekte Zustandsinformation P [ A ] > 0. Dann ist für alle k = 1,..., n P [ B k A ] = P [ B k ] P [ A Bk ] n i=1 P[ B i ] P [ A Bi ] Definition X sei eine Zufallsvariable auf (Ω, F, P) mit Werten in R n. Dann heißen E [ X ] : { F R n A ω Ω X(ω) P[ ω A ] E [ X ] : { R n R n Z ω Ω X(ω) P[ X 1 (Z) ] bedingte Erwartungen von X. 5.2 Das allgemeine Modell unter imperfekter Zustandsinformation Wir definieren nun ein erweitertes Modell, das imperfekte Information über Zustände abbildet: Definition Ein Markovsches Entscheidungsproblem mit endlichem Horizont und imperfekter Zustandsinformation kurz: MDPI ist ein Tupel (N, S, Z, C, U, D, V, f, g, h, M mit folgender Bedeutung: (N, S, C, U, D, f, g, M) ist ein MDP, für das die Steuerbeschränkungen U k von x k unabhängig sind und für das der Startzustand x 0 S 0 zufällig ist bzgl. einer von allen anderen Daten unabhängigen Verteilung Z = N k=0 Z k ist ein Raum von gestörten Zustandsbeobachtungen V = N k=0 V k ist ein Raum von Störungen v k für die Zustandsbeobachtungen, deren Verteilung durch bedingte Wahrscheinlichkeiten bzgl. der Systemhistorie (x k,..., x 0, u k 1,..., u 0, w k 1,..., w 0, v k 1,..., v 0 ) gegeben ist für k = 0, 1,..., N 1. h ist eine Familie von Funktionen h k mit h 0 : S 0 V 0 Z 0 und h k : S k C k 1 V k Z k für k = 1,..., N, die Beobachtungsfunktionen

33 5.3. Dynamisches Programmieren für MDPI 33 Die Vektoren I k := (z 0, u 0, z 1, u 1,..., z k 1, u k 1, z k ) für k = 0, 1,..., N heißen Informationsvektoren. Eine (deterministische) Politik ist eine Folge π = (µ 0, µ 1,..., µ N 1 ) von Funktionen µ k : Z 0 U 0... Z k 1 U k 1 Z } {{ k } C k I k I k µ k (I k ) Falls µ k (I k ) U k für alle k = 0, 1,..., N 1, so heißt π zulässig. Falls π = (µ, µ,..., µ), so heißt π stationär. Die Kosten von π bei Anfangszustand x 0 sind definiert als J π := E [ N 1 g N (x N ) + g(x k, µ k (I k ), w k ) ] x 0,w k,v k. k=0 Eine Politik π heißt optimal, wenn J := inf π J π = J π. Der Wert J heißt Optimalkostenwert. 5.3 Dynamisches Programmieren für MDPI Auch für imperfekte Zustandsinformation kann man eine DP-Rekursion angeben. Das liegt daran, dass jedes MDPI durch Zustandsraumaugmentierung wie folgt durch ein äquivalentes MDP beschrieben werden kann. Satz (N, S, Z, C, U, D, V, f, g, h) sei ein MDPI. Dann ist das folgende MDP (Ñ = N, S = I, C = C, Ũ = U, D = Z, f, g) äquivalent mit I k der Raum aller möglichen Informationsvektoren des MDPI in Stufe k ist der Zustandsraum in Stufe k P [ x k, ũ k ] := P [ zk+1 Ik, u k ] = P [ zk+1 Ik, u k, z 0, z 1,..., z k ] ist die Wahrscheinlichkeitsverteilung der Störungen in D k = Z k+1 (die damit wie für ein MDP nur vom momentanen Zustand und der momentanen Steuerung abhängen)

34 34 Imperfekte Zustandsinformation f(i k, u k, z k+1 ) := I k+1 := (I k, u k, z k+1 ) ist die Systemdynamik g(i k, u k, z k+1 ) := g k (I k, u k ) := E [ g k (x k, u k, w k ) Ik, u k ]x k,w k sind die Stufenkosten für k = 0,..., N 1 und g N (I N ) := E [ g N (x N ) ] IN x N sind die Terminalkosten. Wenn man für dieses induzierte MDP die normale DP-Rekursion wieder zurückübersetzt in die Daten des MDPI, so erhält man den DP-Algorithmus für allgemeine MDPIs: Korollar Die folgende DP-Rekursion berechnet die Optimalkosten J eines MDPI (N, S, Z, C, U, D, V, f, g, h) als J = E [ J 0 (z 0 ) ] z 0 : J N (I N ) = E [ g N (x N ) IN ] x N { J i (I i ) = min E [ E [ g i (x i, u i, w i ) ] Ii, u i u i U x i,w i + J i+1 (I i, u i, z i+1 ) ] } Ii, u i z i+1 i { = min E [ g i (x i, u i, w i ) + J i+1 (I i, u i, z i+1 ) ] } Ii, u i u i U x i,w i,z i+1 i Wegen der offensichtlichen Zustandsraumexplosion ist die vorliegende Rekursion weniger für direkte Implementierung als vielmehr als Grundlage analytischer Lösungen geeignet. Der folgende Abschnitt gibt ein Beispiel ohne Beweis. 5.4 Beispiel: Linear-Quadratische MDPI (LQSI) Wir berichten hier nur kurz über ein wichtiges Resultat zur Optimalsteuerung von LQSI, das man ähnlich wie die Ergebnisse in Kapitel 3 erhält, was wir hier aber nicht durchführen wollen. Satz Wir betrachten das folgende LQSI: N ist ein beliebiger Zeithorizont S = S k = R n Z = Z k = R s C = C k = R m

35 5.4. Beispiel: Linear-Quadratische MDPI (LQSI) 35 U k = C k D = D k = R n mit einer Wahrscheinlichkeitsverteilung mit E [ w k ] = 0 und endlicher Varianz V = V k = R s mit einer Wahrscheinlichkeitsverteilung mit E [ v k ] = 0 und endlicher Varianz, unabhängig von w k D k und x 0 f k (x k, u k, w k ) = A k x k + B k u k + w k (wie beim LQS) g k (x k, u k, w k ) = x T k Qx k + u T k R ku k und g N (x N ) = x T N Q Nx N (wie beim LQS) h k (x k, v k ) = M k x k + v k Z k für C k R s n Dann existieren Matrizen mit L i := (R i + B T i K i+1 B i ) 1 B T i K i+1 A i so dass K N = Q N K i = A T K i+1 A i + A T i K i+1 B i (R k + B T i K i+1 B i ) 1 B T i K i+1 A i + Q i eine optimale Politik ist. µ i (I i ) = L i E [ x i Ii ], i = 0, 1,..., N 1 Beweis. (Man muss u. a. zeigen, dass die Größe x k E [ x k Ik ] unabhängig von der gewählten Politik π ist; das erfordert etwas mehr Wahrscheinlichkeitstheorie, als wir an dieser Stelle im Detail besprechen wollen.) Besonders interessant am vorigen Ergebnis ist, dass man die Schätzung des Zustands und die Steuerung komplett voneinander trennen kann. Wir formulieren das etwas informell wie folgt: Satz (Separationssatz). Eine Optimalsteuerung für ein LQSI kann in (a) einen Schätzer, der E [ x k Ik ] berechnet und (b) einen Bediener, der u k = L k E [ x k Ik ] berechnet und anwendet

36 36 Imperfekte Zustandsinformation zerlegt werden. Der Bedienanteil ist wieder sehr einfach zu implementieren, der Schätzer jedoch nicht immer. In wichtigen Spezialfällen jedoch kann man das sehr effizient tun (Stichwort Kalman-Filter).

37 MDPs mit unendlichem 6 Horizont (MDP- ) Bislang haben wir stets einen festen Planungshorizont angegeben. Dies ist nicht immer sinnvoll: Manche Systeme laufen ununterbrochen bis zu einem unbekannten Zeitpunkt in der Zukunft. Zum Beispiel kann man sich nicht sicher sein, wie lange ein Auto noch fährt. Trotzdem möchte man größere Reparaturen (Maschinenaustausch) zu günstigen Zeitpunkten vornehmen lassen. In diesem Kapitel werden wir Modelle für einen unendlichen Planungshorizont betrachten. Wir erläutern dies zunächst an einigen Beispielen. 6.1 Beispiele Angenommen, wir wollen die erwarteten Kosten einer Lagerhaltung ohne Zeithorizont minimieren. Das erste Problem, das mit unserer Kostenfunktion aus Kapitel 4 für einen unendlichenhorizont auftritt, ist das folgende: Ersetzen wir in der erwarteten Summe aller Stufenkosten N durch, so erhalten wir i. A. unendliche Gesamtkosten für alle Politiken. Also müssen wir an den Kosten noch etwas ändern, um die Chance zu bekommen, dass wir Politiken nach diesem Kostenkriterium sinnvoll evaluieren können. Dazu gibt es mehrere Möglichkeiten: Diskontieren: Motivation ist hier die Zinsrechnung: Geld, das ich erst später für den Nachkauf des Produktes ausgeben muss, kann ich in der Zwischenzeit zu einem Zinssatz von α anlegen. Wir multiplizieren daher die Stufenkosten g k mit α k für ein α (0, 1). Dadurch wird im Falle beschränkter Stufenkosten die Summe aller Stufenkosten eine kovergente Reihe. Die Interpretation ist, dass Kosten, die in fernerer Zukunft entstehen, weniger zählen sollen. Zielvorgabe: Hier möchten wir eine Zielvorgabe erreichen, z. B. möglichst kostengünstiger Abverkauf unter Berücksichtigung des Verkaufsgewinns. Zur Modellierung der Zielvorgabe definieren wir einen Endzustand, in dem das System kostenfrei verbleibt, sobald er einmal erreicht worden ist. Die Minimierung der Gesamtkosten bis dahin bedeutet, die Zielvorgabe unter möglichst geringen Kosten zu erreichen.

38 38 MDPs mit unendlichem Horizont (MDP- ) Durchschnittskosten pro Stufe: Wir möchten die erwarteten Lagerkosten pro Tag minimieren. Wir hoffen hier, dass die Gesamtkosten für N Stufen geteilt durch N für N gegen unendlich gegen eine Zahl konvergieren. Dies sind dann die Durchschnittskosten pro Stufe, die wir minimieren wollen. Ähnliche Ziele kann man sich für Maschinenreparatur vorstellen: Für einen Austausch in ferner Zukunft kann ich noch sparen mit einer gewissen Rendite; daher macht das diskontierte Modell Sinn. Eventuell will ich aber auch nur eine bestimmte Aufgabe mit der Maschine erledigen, und die Geschwindigkeit der Erledigung hängt auch vom Maschinenzustand ab; hier wäre das Modell mit Zielvorgabe interessanter. Wenn ich die durchschnittlichen Maschinenkosten pro Produktionszyklus minimieren will, so ist das Durchschnittskostenmodell am passendsten. Wir präsentieren noch zwei neue Beispiele: Stochastisches Scheduling: Wir wollen an n Aktivitäten arbeiten, können aber immer nur eine Sache gleichzeitig. Am Tag k befinde sich Projekt i in Zustand x i k ; die Arbeit an einer Aktivität ändert ihren Zustand bis die Aufgabe schließlich erledigt ist. Für jeden Fortschritt bei einer Aktiivität erhalten wir einen Profit von α k R i (x i k ), wobei α (0, 1); für die endgültige Fertigstellung am Tag k nochmal einen Profit von α k M i. Die Maximierung des erwarteten Profits entspricht der Optimierung des diskontierten Modells. Tetris: Tetris ist ein Computerspiel, bei dem man herunterfallende, immer aus vier Teilen bestehende Bausteine so drehen muss, dass sie möglichst ohne Lücken eine Mauer bilden. Sobald eine Reihe von Steinen komplett ist, wird sie entfernt. Das Spiel endet, sobald sich die nicht abgebauten Bausteine bis zum oberen Spielfeldrand aufgetürmt haben. Je länger man diesen Zustand hinauszögern kann, desto mehr Punkte erhält man. Für jedes eingepasste Teil bekommt man Punkte. Nach einem recht neuen Resultat [Burgiel 1997] endet das Spiel für alle Strategien fast sicher. Damit ist auch die erwartete Anzahl der Punkte endlich. Somit kann man das Zielvorgabe-Modell benutzen, und eine optimale Politik entspricht einer optimalen Spielstrategie.

39 6.2. Klassifikation Klassifikation Wir präsentieren nun die im vorigen Abschnitt angesprochenen Modelle in der Sprache der Markovschen Entscheidungsprobleme. Wir nehmen ab jetzt an, dass MDP N := (N, S, C, U, D, f, g) für alle N 0 ein stationäres MDP ist, d. h. die Daten hängen nicht von der Stufe k = 0, 1,..., N 1 ab. Insbesondere sind die w k identisch verteilte unabhängige Zufallsvariablen. Dann betrachten wir drei Typen von möglichen Markovschen Entscheidungsproblemen mit unendlichem Horizont MDP-, die wir aus (MDP N ) N 0 generieren können: Stochastisches Kürzeste-Wege-Problem: Wir nehmen an, es gibt einen kostenfreien Terminalzustand t mit f(t, u, w) = t g(t, u, w) = 0 u U, w D u U, w D Ferner nehmen wir an, dass eine optimale Politik t fast sicher in endlicher Zeit erreicht. Das Ziel ist: Minimiere J π (x 0 ) = lim N E[N 1 g(x k, µ k (u k ), w k ) ] w 0,w 1,...,w N 1 k=0 Wir bezeichnen dieses MDP- mit (S, C, U, D, f, g, t). Diskontierte Probleme: Wir nehmen an, die Stufenkosten sind beschränkt für alle Politiken. Wir haben einen Diskontfaktor α (0, 1). Das Ziel ist: Minimiere J π (x 0 ) = lim N E[N 1 α k g(x k, µ k (u k ), w k ) ] w 0,w 1,...,w N 1 k=0 Wir bezeichnen dieses MDP- mit (S, C, U, D, f, g, α). Durchschnittskosten-Probleme: Das Ziel ist hier: Minimiere ( 1 lim E [N 1 α k g(x k, µ k (u k ), w k ) ] ) N N w 0,w 1,...,w N 1 k=0 Wir bezeichnen dieses MDP- mit (S, C, U, D, f, g, ). Wir werden uns in dieser Vorlesung mit diskontierten Problemen beschäftigen.

40 40 MDPs mit unendlichem Horizont (MDP- ) 6.3 Der DP-Operator Wir führen nun eine zur Untersuchung eines MDP- nützliche Struktur ein, den DP-Operator. Definition Gegeben sei ein stationäres, diskontiertes MDP- (S, C, U, D, f, g, α) mit einer Menge Π von zulässigen Politiken. Dann heißt J (x 0 ) := inf π Π J π(x 0 ) Optimalkostenfunktion. Für eine beliebige Funktion J : S R und eine Steuerfunktion µ : S C sei { } S R TJ : x (TJ)(x) := inf u U(x) E [ g(x, u, w) + αj ( f(x, u, w) )] T heißt DP-Operator. Ferner heißt { } S R T µ J : x (T µ J)(x) := E [ g(x, µ(x), w) + αj ( f(x, µ(x), w) )] DP-Operator von µ. Wir definieren ferner T k J := T(T k 1 J) T k µj := T(T k 1 µ J) Die Interpretation des DP-Operators ist wie folgt: (T J) ist die Optimalkostenfunktion des einstufigen MDPs mit g 0 = g und g N = αj. Analog liefert der DP-Operator von µ die Kostenfunktion der stationären Politik (µ, µ) für dasselbe einstufige MDP. 6.4 Vorschau: Die drei Stützpfeiler der Theorie In den folgenden Kapiteln wird es darum gehen, folgende Resultate für ein diskontiertes MDP- nachzuweisen: Die Konvergenz von DP: Wir hätten gern, dass iteriertes Anwenden des DP- Operators auf eine geeignete Funktion J 0 : S R gegen die tatsächliche Optimalkostenfunktion konvergiert, d. h. J (x) = lim k (T k J 0 )(x) x S

41 6.4. Vorschau: Die drei Stützpfeiler der Theorie 41 Die Bellmann-Gleichung: Die Optimalkostenfunktion soll (möglichst eindeutiger) Fixpunkt des DP-Operators sein, d. h. J = TJ Eine Charakterisierung optimaler Politiken: Eine stationäre Politik soll genau dann optimal sein, wenn sie Minimierer in TJ ist, d. h. (µ, µ,... ) optimal T µ J = TJ Eine wesentliche Aufgabe der Forschung in diesem Bereich ist es, unter welchen Bedingungen die obigen Beahuptungen gelten. Wir werden uns in dieser Vorlesung mit den diskontierten Problemen mit beschränkten Stufenkosten begnügen.

42

43 Diskontierte Probleme I 7 In diesem Kapitel werden wir die Kernresultate zu den Diskontierten Problemen vorstellen. Zur Wiederholung: Für das MDP- mit den Daten (S, C, U, D, f, g, α) seien die Stufenkosten beschränkt für alle Politiken, und α (0, 1) sei ein Diskontfaktor. Das Ziel ist: Minimiere J π (x 0 ) = lim N E[N 1 α k g(x k, µ k (u k ), w k ) ] w 0,w 1,...,w N 1 k=0 Zur vernünftigen Formulierung der Theorie beschaffen wir uns zunächst einige Hilfsmittel. 7.1 Hilfsmittel Zunächst fassen wir etwas genauer, was wir schon bei der Einführung des DP- Operators beobachtet haben: Für eine beliebige Funktion J : S R ist TJ die Optimalkostenfunktion des einstufigen MDP mit Terminalkosten αj und Stufenkosten g. Definition Für beliebiges N N und eine Funktion J : S R sei für k = 1, 2,..., N J N (x) := α N J(x) J N k (x) := min u U(x) E[ α N k g(x, u, w) + J N k+1 ( f(x, u, w) )]w V k (x) := J N k(x) α N k Die Funktion V k heisst Wertfunktion (engl.: value function) des MDP-. Beobachtung Für alle N N ist V k die Optimale Ausgangskostenfunktion der (N k)ten Stufe für das N-stufige MDP mit Stufenkosten g k = α k g und Terminalkosten g N = α N J. Infolgedessen liefert die Korrektheit des DP- Algorithmus: V N (x) = J 0 (x) = N 1 min E[ α N J(x N )+ α k g(x k, µ k (x k ), w k ) ] π=(µ 0,µ 1,... ) w 0,w 1,...,w N 1 k=0