Diskontierte Markovsche Entscheidungsprozesse

Transkript

1 Ausarbeitung zum Seminarvortrag Diskontierte Markovsche Entscheidungsprozesse aus der Seminarreihe Spieltheorie und Glücksspiele von Prof. Dr. Alfred Müller vorgelegt von Alexander Müller Sommersemester 2009

2

3 INHALTSVERZEICHNIS II Inhaltsverzeichnis 1 Einleitung 1 2 Voraussetzungen Der Wert einer Strategie Optimalitätskriterien Markov-Strategien Vektor-Notation für Markovsche Entscheidungsprozesse Diskontierte Markovsche Entscheidungsprozesse Strategie-Auswertung Die Optimalitätsgleichungen Eigenschaften von Lösungen der Optimalitätsgleichungen Lösungen der Optimalitätsgleichungen Existenz von optimalen Strategien Die Wertiteration 15 Literaturverzeichnis III

4 1 EINLEITUNG 1 1 Einleitung Diese Ausarbeitung behandelt die Theorie über diskontierte Markovsche Entscheidungsprozesse (MDP). Nachdem in Teil I der Seminarreihe bereits endlich-stufige MDP behandelt wurden geht es in Teil II um ein Modell mit unendlichem Planungshorizont und dem erwarteten diskontierten Gesamtgewinn-Optimalitätskriterium. Die Resultate dieses Modells bilden einen Standard für die Theorie über Modelle mit anderen Optimaltitätskriterien. Mit der Diskoniterung der zukünftigen Gewinne erhält man den heutigen Wert des MDP. Somit lassen sich verschiedene Strategien über ihren heutigen erwarteten Wert vergleichen und bewerten. Zum Nachweis der Existenz einer Lösung der Optimalitätsgleichung und der Konvergenz des Algorithmus zum Lösen der Gleichung (Wertiteration) wird die Theorie über normierte lineare Räume verwendet. Der Banachsche Fixpunktsatz spielt hier eine zentrale Rolle. Mit der Voraussetzung eines unendlichen Planungshorizonts werden 3 Annahmen getroffen: (1) Stationäre Gewinne und Übergangswahrscheinlichkeiten, d.h. r t (s, a) =r(s, a), p t (j s, a) =p(j s, a) t. (2) Beschränkte Gewinne: r(s, a) M< a A, s S. (3) Zukünftige Gewinne werden mit einem Diskontierungsfaktor auf den heutigen Zeitpunkt diskontiert, 0 < 1. Das heißt also die Gewinne, Übergangswahrscheinlichkeiten und die Aktionenräume D K (K {HR, HD, MR, MD}) ändern sich nicht im Zeitablauf.

5 2 VORAUSSETZUNGEN 2 2 Voraussetzungen 2.1 Der Wert einer Strategie In einem stationären Markovschen Entscheidungsprozess mit unendlichem Planungshorizont besitzt jede Strategie π = (d 1,d 2,...) einen bivariaten diskreten Gewinnprozess, {(X t,r(x t,y t )); t =1, 2,...}. X t beschreibt den Zustand des Systems zum Zeitpunkt t und r(x t,y t ) ist der Gewinn, der im Zustand X t bei der Wahl von Aktion Y t anfällt. Die Entscheidungsregel d t ermittelt die Aktion Y t wie folgt: Für deterministisches d t : Y t = d t (X t ) für d t D MD und Y t = d t (Z t ) für d t D HD, wobei die Zufallsvariable Z t die Vergangenheit bis zum Zeitpunkt t beschreibt. Für zufälliges d t : und P (Y t = a) =q dt(x t)(a) für d t D MR P (Y t = a) =q dt(z t)(a) für d t D HR. Für eine Markovsche Strategie π ist {(X t,r(x t,y t )); t =1, 2,...} ein Markovscher Gewinnprozess. Definition 2.1 Der erwartete diskontierte Gesamtgewinn von Strategie π Π HR ist definiert durch ( N ) v(s) π := lim N Eπ s t 1 r(x t,y t ) t=1 ( ) = Es π t 1 r(x t,y t ) (2.1) für 0 < 1. t=1 Der Grenzwert existiert, falls sup s S sup r(s, a) = M<, a A s dies ist aber gerade durch Annahme (2) vorausgesetzt.

6 2 VORAUSSETZUNGEN Optimalitätskriterien Definition 2.2 Eine Strategie π ist (diskontiert-) optimal für festes, 0 < 1, falls Der Wert des MDP ist definiert durch v π (s) v π (s) für alle s S, π Π HR. v (s) := sup π Π HR v π (s). Eine optimale Strategie π Π K (K = HR, HD, MR oder MD) existiert genau dann, wenn v π (s) =v(s) für alle s S. 2.3 Markov-Strategien In diesem Abschnitt wird gezeigt, dass zu jeder von der Vorgeschichte abhängigen Strategie und Ausgangszustand eine zufällige Markov-Strategie mit dem gleichen erwarteten diskontierten Gesamtgewinn existiert. Satz 2.3 Sei π =(d 1,d 2,...) Π HR. Dann existiert für alle s S eine Strategie π Π MR, für die gilt: P π (X t = j, Y t = a X 1 = s) =P π (X t = j, Y t = a X 1 = s), t =1, 2,.... (2.2) Beweis: Sei s S fest. Für alle j S und alle a A j sei die zufällige Markovsche Entscheidungsregel d t definiert durch q d t (j)(a) := P π (Y t = a X t = j, X 1 = s), t =1, 2,.... (2.3) Sei π =(d 1,d 2,...), so dass aus (2.3) folgt P π (Y t = a X t = j) =P π (Y t = a X t = j, X 1 = s) = P π (Y t = a X t = j, X 1 = s). Mittels Induktion wird gezeigt, dass (2.3) für d t (wie in (2.3) definiert) gilt. t =1: klar. Induktions-Annahme: (2.3) gilt für t =2, 3,..., n 1. Dann folgt P π (X n = j X 1 = s) = P π (X n 1 = k, Y n 1 = a X 1 = s) p(j k, a) k S a A k I.A. = k S a A k P π = P π (X n = j X 1 = s). (2.4) (X n 1 = k, Y n 1 = a X 1 = s) p(j k, a) (2.5)

7 2 VORAUSSETZUNGEN 4 P π (X n = j, Y n = a X 1 = s) =P π (Y n = a X n = j) P π (X n = j X 1 = s) = P π (Y n = a X n = j, X 1 = s) P π (Y n = a X n = j) (2.4), (2.5) = P π (X n = j, Y n = a X 1 = s). Satz 2.4 Sei π Π HR. Dann existiert für alle s S ein π Π MR mit v π (s) =v π (s) für 0 < 1. Beweis: Folgt sofort aus Satz 2.3. Als Konsequenz folgt, dass es genügt π Π MR Π HR zu betrachten, da für alle s S zu jedem π Π HR ein π Π MR mit identischem diskontiertem Gesamtgewinn existiert, so dass v(s) := sup v(s) π = sup v(s). π π Π HR π Π MR 2.4 Vektor-Notation für Markovsche Entscheidungsprozesse Für diskretes S wird folgende Notation verwendet: V := {v : S IR : v beschränkt}. V ist ein vollständiger, abgeschlossener Raum mit sup-norm v := sup s S v(s). e V : konstante Funktion mit e(s) = 1 für alle s S. H : Matrix-Norm mit H := sup s S H(j s), wobei H(j s) die (s, j)-te Komponente von der Matrix H darstellt. S : Anzahl der Elemente von S. j S Für d D MD definiere r d (s) und p d (j s) durch Für d D MR sei r d (s) := r(s, d(s)) und p d (j s) := p(j s, d(s)). r d (s) := a A s q d(s) (a) r(s, a), p d (j, s) := a A s q d(s) (a) p(j s, a). r d bezeichnet also einen Vektor mit S Komponenten (s-te Komponente: r d (s)), den Gewinn-Vektor, und P d eine S S -Matrix mit (s, j)-tem Eintrag gegeben durch p d (j s), die Übergangsmatrix (auch als Übergangsgesetz bezeichnet) entsprechend der Markovschen Entscheidungsregel d.

8 2 VORAUSSETZUNGEN 5 Lemma 2.5 S sei diskret, r(s, a) M für alle a A, s S, 0 < 1. Dann gilt r d + P d v V für alle v V, d D MR. Beweis: Aus r(s, a) M a A, s S folgt r d M d D MR, also r d V. Da P d Wahrscheinlichkeits-Matrix P d =1. P d v P d v = v. Somit gilt P d v V für alle v V, so dass insgesamt r d + P d v V gilt. Für π =(d 1,d 2,...) Π MR erfüllt die (s, j)-te Komponente der t-schritt Übergangswahrscheinlichkeiten-Matrix P t π P t π(j s) =[P dt P dt 1 P d1 ](j s) =P π (X t+1 = j X 1 = s). Der Erwartungswert mit Bezug zu der zur Strategie gehörenden Markov-Kette wird berechnet durch Es π (v(x t )) = Pπ t 1 v(s) = j S Pπ t 1 (j s) v(j) für v V und 1 t<. Mit dieser Darstellung und der Definition von v π folgt für 0 1 v π = t=1 t 1 P t 1 π r dt, (2.6) falls der Grenzwert existiert.

9 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 6 3 Diskontierte Markovsche Entscheidungsprozesse Die Optimaltitätsgleichung und ihre Lösung spielen eine zentrale Rolle in der Theorie von diskontierten Markovschen Entscheidungsprozessen. In diesem Abschnitt wird gezeigt: Die Optimalitätsgleichung hat genau eine Lösung in V. Der Wert des diskontierten MDP erfüllt die Optimalitätsgleichung. Die Optimalitätsgleichung charakterisiert stationäre optimale Strategien. Optimale Strategien existieren unter bestimmten Bedingungen für Zustände, Aktionen, Gewinne und Übergangswahrscheinlichkeiten. 3.1 Strategie-Auswertung Sei π =(d 1,d 2,...) Π MR. Mit der Definition des Erwartungswerts des diskontierten Gesamtgewinns in (2.1), Gleichung (2.6) und der Wahl von P 0 π := I erhält man v π = t=1 t 1 Pπ t 1 r dt = r d1 + P d1 r d2 + 2 P d1 P d2 r d = r d1 + P d1 ( rd2 + P d2 r d3 + 2 P d2 P d3 r d ), (3.1) so dass v π dargestellt werden kann als v π = r d1 + P d1 v π (3.2) mit π =(d 2,d 3,...). Dies verdeutlicht, dass der diskontierte Gewinn zu Strategie π gleich dem Gewinn eines Einperioden-Problems ist unter Verwendung von Entscheidungsregel d 1 plus den erwarteten diskontierten Gesamtgewinn aus Strategie π. Wählt man nun π als stationäre Strategie d π = π und damit wird aus (3.2) := (d, d,...) mit d D MR, so folgt v d = r d + P d v d. (3.3) Somit erfüllt v d das Gleichungssystem v = r d + P d v. Es wird gezeigt, dass dies die einzige Lösung ist für 0 < 1. Für v V sei die lineare Transformation L d definiert durch L d v := r d + P d v.

10 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 7 Angewendet auf (3.3) erhält man Man sieht, dass v d v d ein Fixpunkt von L d in V ist. = L d v d. (3.4) Satz 3.1 Sei 0 < 1. Dann ist für jede stationäre Strategie d := (d, d,...), d D MR, v d die einzige Lösung in V von v d kann dargestellt werden als v = r d + P d v. (3.5) v d =(I P d ) 1 r d. (3.6) Beweis: Folgt aus der vorangegangenen Herleitung und der Anwendung des Banachschen Fixpunktsatzes (siehe Satz 3.6). 3.2 Die Optimalitätsgleichungen Unter den oben genannten 3 Annahmen vereinfacht sich die Optimalitätsgleichung bei endlichem Planungshorizont { } u t (h t ) = sup a A st r t (s t,a)+ j S t =1,..., N 1 und h t =(h t 1,a t 1,s t ) H t, zu { v n (s) = sup a A s r(s, a)+ j S Betrachtet man den Grenzwert von (3.7), so erhält man: p t (j s t,a) u t+1 (h t, a, j) p(j s, a) v n+1 (j) },. (3.7) Definition 3.2 (Optimalitätsgleichungen, Bellman Gleichungen) Unter den Annahmen (1)-(3) sind die Bellman Gleichungen definiert als { } v(s) = sup a A s r(s, a)+ j S p(j s, a) v(j) Für v V sei der (nichtlineare) Operator L auf V definiert durch. (3.8) Lv := sup d D MD {r d + P d v}, (3.9) wobei das Supremum über A s für alle s S berechnet wird. Da S diskret und r d beschränkt ist, folgt aus Lemma 2.5, dass Lv V für alle v V gilt. Die Verwendung einer deterministischen Markovschen Entscheidungsregel in (3.9) wird durch die folgende Proposition gerechtfertigt.

11 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 8 Proposition 3.3 Für alle v V und 0 1 gilt sup {r d + P d v} = sup {r d + P d v}. d D MD d D MR Beweis: Da D MD D MR folgt trivialerweise sup {r d + P d v} sup {r d + P d v}. d D MD d D MR Es gilt: Sei w eine reellwertige Funktion auf einer beliebigen diskreten Menge W und sei q( ) eine Wahrscheinlichkeitsverteilung auf W. Dann gilt sup w(u) q(u) w(u). (3.10) u W u W [Setze w = sup u W w(u) w = u W q(u) w u W q(u) w(u)] Sei v V und δ D MR. Wendet man nun für alle s S mit W = A s,q( ) =q δ ( ) und w( ) =r(s, )+ p(j s, ) v(j) j S Gleichung (3.10) an, so erhält man { sup a A s r(s, a)+ j S Somit gilt für alle δ D MR p(j s, a) v(j) } a A s q δ (a) [ r(s, a)+ j S p(j s, a) v(j) ]. sup {r d + P d v} r δ + P δ v. d D MD sup {r d + P d v} sup {r d + P d v}. d D MD d D MR Die Optimalitätsgleichung (3.8) kann in Vektor-Notation dargestellt werden als v = sup d D MD {r d + P d v} = Lv. (3.11) 3.3 Eigenschaften von Lösungen der Optimalitätsgleichungen Der folgende Satz gibt Auskunft über untere und obere Schranken von v sowie eine Eindeutigkeitsaussage über die Lösung. Man beachte, dass Teil (c) keine Aussage über die Existenz einer Lösung zu Lv = v gibt. Der Beweis des Satzes beruht auf der Überlegung, dass für 0 < 1 der Tail der erwarteten diskontierten Gewinnfolge beliebig klein wird.

12 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 9 Satz 3.4 Es existiere ein v V, so dass (a) v Lv. Dann gilt v v ; (b) v Lv. Dann gilt v v ; (c) v = Lv. Dann ist v das einzige Element von V mit dieser Eigenschaft und es gilt v = v. Beweis: so dass Zu (a): Sei π =(d 1,d 2,...) Π MR. Mit Proposition 3.3 gilt v sup d D MD {r d + P d v} = sup d D MR {r d + P d v}, v r d1 + P d1 v r d1 + P d1 (r d2 + P d2 v)=r d1 + P d1 r d2 + 2 P d1 P d2 v. Induktiv folgt für n 1 v r d1 + P d1 r d n 1 P d1 P dn 1 r dn + n Pπ n v. v v π n Pπ n v k Pπ k r dk+1. (3.12) Sei ε> 0 beliebig. Mit n P n π v n v und 0 < 1 gilt für n groß genug k=n ε 2 e n P n π v ε 2 e. Weiterhin folgt mit Annahme (2), r(s, a) M < a A, s S, n Me 1 k Pπ k r dk+1. k=n Wählt man also n groß genug, so kann die Summe in (3.12) nach unten und oben mit (ε/2)e abgeschätzt werden. Also folgt insgesamt Da ε beliebig war folgt mit Satz 2.4 v(s) v π (s) ε s S, ε > 0. v(s) sup v(s) π = sup v(s) π =v(s), π Π MR π Π HR d.h. (a) gilt. Zu (b): Da v Lvexistiert zu jedem ε> 0 beliebig ein d D MD, so dass v r d + P d v. Man kann leicht zeigen, dass für v 1,v 2 V mit v 1 v 2 (I P d ) 1 v 1 (I P d ) 1 v 2 folgt (Positivität von (I P d ) 1 ausnutzen). v (I P d ) 1 (r d + εe) =v d + (1 ) 1 εe. Also gilt v sup π Π HR v π + (1 ) 1 εe, und da ε> 0 beliebig folgt (b). Zu (c): folgt als Kombination aus Teil (a) und (b).

13 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE Lösungen der Optimalitätsgleichungen In diesem Abschnitt folgt ein Existenzbeweis einer Lösung der Optimalitätsgleichungen durch Anwendung des Banachschen Fixpunktsatzes. Definition 3.5 Sei U ein Banachraum (vollständiger, normierter linearer Raum). Ein Operator T : U U heißt Kontraktion, wenn eine Zahl mit 0 < 1 existiert, so dass Tv Tu v u für alle u, v U gilt. Satz 3.6 (Banachscher Fixpunktsatz) Sei U ein Banachraum und T : U U eine Kontraktion. Dann gilt: (a) Es existiert genau ein v U, so dass Tv = v ; (b) Für beliebiges v 0 U konvergiert die Folge (v n ) definiert durch gegen v. v n+1 = Tv n = T n+1 v 0 (3.13) Beweis: Sei (v n ) definiert wie in (3.13). Dann gilt für alle m 1 v n+m v n m 1 k=0 m 1 v n+k+1 v n+k = T n+k v 1 T n+k v 0 k=0 m 1 n+k v 1 v 0 k=0 geom.summe = n (1 m ) 1 v 1 v 0. (3.14) Da 0 < 1 folgt, dass (v n ) eine Cauchyfolge ist. Aus der Vollständigkeit von U folgt, dass (v n ) einen Grenzwert v U besitzt. Bleibt zu zeigen: v ist ein Fixpunkt von T. Es gilt 0 Tv v Ungl. Tv v n + v n v = Tv Tv n 1 + v n v v v n 1 + v n v n 0.

14 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 11 Tv v =0. Zur Eindeutigkeit von v : Seien v, v Fixpunkte von T. v v = Tv Tv v v. Da < 1 folgt v v =0 v = v. Um den Satz auf das diskontierte Modell anzuwenden wird gezeigt, dass L eine Kontraktion in V ist. Proposition 3.7 Sei 0 < 1. Dann gilt: L ist Kontraktion in V. Beweis: Da S diskret folgt L : V V. Seien u, v V und es gelte Lv(s) Lu(s) für ein festes s S. Weiterhin sei { } a s arg max a A s r(s, a)+ j S p(j s, a) v(j). 0 Lv(s) Lu(s) r(s, a s)+ j S = j S j S = v u. p(j s, a s) v(j) r(s, a s) j S p(j s, a s)[v(j) u(j)] p(j s, a s) v u p(j s, a s) u(j) Wiederholt man dieses Argument für den Fall Lv(s) Lu(s), so erhält man Lv(s) Lu(s) v u (3.15) für alle s S. Nimmt man nun das Supremum über s in (3.15), so folgt die Behauptung. Es folgt die Hauptaussage aus der Theorie über diskontierte Markovsche Entscheidungsprozesse: Satz 3.8 Sei S endlich oder abzählbar, r(s, a) beschränkt und 0 < 1. (a) Dann existiert ein v V mit Lv = v (Lv = v ). Weiterhin gilt: v ist das einzige Element mit dieser Eigenschaft und v = v.

15 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 12 (b) Für alle d D MR existiert genau ein v V mit L d v = v. Es gilt v = v d. Beweis: Da V ein Banachraum ist folgt mit Prop. 3.7, dass L eine Kontraktionen ist und somit die Voraussetzungen von Satz 3.6 erfüllt sind. Daher existiert genau eine Lösung v zu Lv = v bzw. Lv = v. Mit Satz 3.4(c) folgt, dass v = v ist. Teil (b) folgt sofort aus (a) durch Wahl von D = {d}. 3.5 Existenz von optimalen Strategien Es wird gezeigt, dass die Existenz einer Entscheidungsregel, die das Supremum in (3.9) annimmt für v = v, die Existenz einer stationären optimalen Strategie impliziert. Satz 3.9 Eine Strategie π Π HR ist optimal genau dann, wenn v π Optimalitätsgleichung ist. eine Lösung der Beweis: Sei π optimal, dann ist v π = v. Aus Satz 3.8(a) folgt, dass v π die Gleichung Lv = v erfüllt. Dann folgt mit Satz 3.4(c) v π = v, also ist π optimal. Definition 3.10 Eine Entscheidungsregel d D MD wird konservierend genannt, falls L d v := r d + P d v = v, (3.16) oder alternativ, wenn d arg max d D MD {r d + P d v }. Der folgende Satz zeigt, dass gerade solche Entscheidungsregeln optimal sind. Er bietet also eine Methode zur Identifikation von stationären optimalen Strategien. Satz 3.11 Sei S diskret und das Supremum in (3.9) werde angenommen für alle v V. Dann gilt: (a) Es existiert eine konservierende Entscheidungsregel d D MD.

16 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 13 (b) Ist d konservierend, so ist die deterministische stationäre Strategie (d ) optimal. (c) v = sup v d. d D MD Beweis: Zu (a): folgt aus v V und der Annahme des Supremums in (3.9). Zu (b): Mit Satz 3.4(c) gilt, dass v die einzige Lösung von Lv = v ist. Somit folgt aus (3.16) v = Lv = r d + P d v = L d v, so dass mit Satz 3.1 v d = v. Zu (c): Folgerung von Teil (b). Man beachte, dass das Supremum des erwarteten diskontierten Gesamtgewinns in Teil (c) über die Menge der deterministischen stationären Strategien gleich dem Supremum über die Menge aller Strategien ist, also für alle s S. sup v d d D MD (s) = sup π Π HR v π (s) Im diskontierten Fall mit diskretem S folgt also aus der Annahme des Supremums in (3.9) die Existenz von konservierenden Entscheidungsregeln und somit die Existenz stationärer optimaler deterministischer Strategien. Es folgen weitere Bedingungen für die Existenz einer stationären optimalen Strategie. Satz 3.12 Es existiere (a) eine konservierende Entscheidungsregel, oder (b) eine optimale Strategie. Dann existiert eine optimale deterministische stationäre Strategie. Beweis: Zu (a): Satz 3.11(b) direkt anwendbar. Zu (b): Es existiere eine optimale Strategie π Π HR. Sei π =(d,π ), d D MR. Dann gilt v π = r d + P d v π r d + P d v π { } sup rd + P d v π d D MD = Lv π Satz 3.9 = v π.

17 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 14 Daher ist d konservierend und die Behauptung folgt aus (a). Der nächste Satz gibt hinreichende Bedingungen für die Annahme des Supremums an (und damit für die Existenz einer konservierenden Entscheidungsregel und einer stationären optimalen Strategie). Satz 3.13 Sei S diskret und es gelte entweder (a) A s ist endlich für alle s S oder (b) A s ist kompakt, r(s, a) ist stetig in a für alle s S, und für alle j S und s S ist p(j s, a) stetig in a oder (c) A s ist kompakt, r(s, a) ist rechtsseitig stetig in a für alle s S, und für alle j S und s S ist p(j s, a) linksseitig stetig in a. Dann existiert eine optimale deterministische stationäre Strategie. Beweis: Analog zum Beweis im endlich-stufigen Modell (vgl. Puterman: Markov Decision Processes, Prop ). Existieren keine optimalen Strategien, so sucht man ε-optimale Strategien. Definition 3.14 Man nennt eine Strategie π ε ε-optimal für ε> 0, falls für alle s S oder in Vektor-Notation v π ε (s) v (s) ε, v π ε v εe. Satz 3.15 Sei S endlich oder abzählbar, dann existiert für alle ε> 0 eine ε-optimale deterministische stationäre Strategie. Beweis: Mit folgt Aus Satz 3.8 folgt Lv = v. Sei ε> 0 und wähle d ε D MD, so dass also ist (d ε ) ε-optimal. r dε + P dε v sup d D MD {r d + P d v } (1 )εe = v (1 )εe. v (dε) (I P dε )v (dε) v (dε) v (dε) v εe, = r dε + P dε v (dε) = r dε =(I P dε ) 1 r dε

18 4 DIE WERTITERATION 15 4 Die Wertiteration Die Wertiteration ist ein Algorithmus zum Lösen von diskontierten Markovschen Entscheidungsprozessen, d.h. zum Lösen der Otimalitätsgleichung. Er ist auch bekannt unter den Namen sukzessive Approximation, pre-jacobi Iteration oder dynamische Programmierung. In diesem Kapitel wird vorausgesetzt, dass das Supremum in (3.9) für alle v V ein Maximum ist. Dies ist nicht notwendig für die Konvergenz des Algorithmus, vereinfacht aber die Darstellung. Somit ist folgendes Gleichungssystem zu lösen: { v(s) = max a A s r(s, a)+ j S p(j s, a) v(j) }. Der folgende Algorithmus findet eine stationäre ε-optimale Strategie, (d ε ), und gibt eine Fehlerabschätzung. Wertiteration Algorithmus 1. Wähle v 0 V, ε> 0 und setze n =0. 2. Für alle s S berechne v n+1 (s) durch { v n+1 (s) = max a A s r(s, a)+ j S p(j s, a) v n (j) }. (4.1) 3. Falls v n+1 v n (1 ) <ε 2, (4.2) dann gehe zu Schritt 4. Sonst setze n := n +1und gehe zurück zu Schritt Für alle s S wähle d ε (s) arg max a A s { r(s, a)+ j S p(j s, a) v n+1 (j) }. (4.3) Gleichung (4.1) kann in Vektor-Notation dargestellt werden durch v n+1 = Lv n, (4.4)

19 4 DIE WERTITERATION 16 und (4.3) kann dargestellt werden durch d ε arg max { rd + P d v n+1}. (4.5) d D MD Der folgende Satz sichert die Konvergenz des Algorithmus. Satz 4.1 Sei v 0 V, ε> 0 und (v n ) erfülle (4.4) für n 1. Dann gilt (a) lim n v n v =0, (b) N <, so dass (4.2) n N erfüllt ist, (c) die stationäre Strategie (d ε ) definiert in (4.3) ist ε-optimal und (d) v n+1 v < ε 2 falls (4.2) gilt. Beweis: Teil (a) und (b) folgen direkt aus Satz 3.6 (Banachscher Fixpunktsatz). Sei (4.2) erfüllt für ein n und d ε erfülle (4.3). Dann gilt v d ε v v d ε v n+1 + v n+1 v. (4.6) Da v d ε folgt ein Fixpunkt von L dε ist und als Konsequenz aus (4.3) L dε v n+1 = Lv n+1 gilt, v d ε v n+1 = L dε v d ε v n+1 L dε v d ε Lv n+1 + Lv n+1 v n+1 = L dε v d ε L dε v n+1 + Lv n+1 Lv n L,L dε Kontr. v d ε v n+1 + v n+1 v n. v d ε v n+1 1 vn+1 v n (4.2) < ε 2. Weiterhin gilt v n+1 v = v n+1 Lv v n+1 v Lv n Lv n+1 + Lv n+1 Lv v n v n+1 + v n+1 v. 1 vn v n+1 (4.2) < ε 2. Insgesamt folgt also v d ε v < ε.

20 4 DIE WERTITERATION 17 (c) und (d). Der Algorithmus findet also eine ε-optimale stationäre Strategie nach einer endlichen Anzahl von Iterationen. Es folgt eine Bedingung für Monotonie der Iterationen des Algorithmus (nützlich zum Vergleich von Konvergenzraten). Proposition 4.2 (a) Seien u, v V mit v u. Dann gilt Lv Lu. (b) Es existiere ein N > 0, so dass Lv N m 0. ( ) v N. ( ) N+m+1 v v N+m für alle Beweis: Zunächst wird gezeigt, dass L monoton ist. Sei δ arg max{r d + P d u}. d D MD Da P δ u P δ v gilt (a). Lu = r δ + P δ u r δ + P δ v max d D MD{r d + P d v} = Lv. Aus Teil (a) folgt sofort L m v L m u für alle m 1. Somit gilt v N+m+1 = L m Lv N L m v N = v N+m. Die Wertiteration konvergiert also monoton gegen v ( ), falls Lv0 v 0. Dies gilt immer im Fall von r(s, a) 0 oder r(s, a) 0 mit v 0 =0. Hier folgt mit Satz 3.4, dass v 0 untere (obere) Schranke von v ist. Der nächste Satz fasst die Konvergenzeigenschaften der Wertiteration zusammen: Satz 4.3 Sei v 0 V und (v n ) seien die Iterationen des Wertiterations-Algorithmus. Dann gelten folgende globale Konvergenzeigenschaften: (a) Konvergenz ist linear zur Rate, (b) die asymptotische durchschnittliche Konvergenzrate definiert durch ist gleich, lim sup n [ ] yn y 1/n y 0 y

21 4 DIE WERTITERATION 18 (c) v vn = O( n ), n, (d) für alle n 1 gilt die folgende Fehlerabschätzung: v n v (e) für alle d n arg max d D MD{r d + P d v n } gilt n 1 v1 v 0, v (dn) v 2n 1 v1 v 0. Beweis: Für beliebiges v 0 V erfüllen die Iterationen Sei v 0 = v + ke mit k IR\{0}. Somit gilt Gleichheit in (4.7), (a). v n+1 v = Lv n Lv v n v. (4.7) v 1 v = (v 0 v ). Iteriert man Gleichung (4.7) und teilt beide Seiten durch v 0 v, so erhält man durch Ziehen der n-ten Wurzel lim sup n [ v n v ] 1/n v 0 v. Hier gilt wiederum Gleichheit für v 0 = v + ke. (b). Teil (c) folgt erneut durch Iterieren von (4.7) und Dividieren durch n. Man erhält lim sup n v n v n v 0 v. Im Beweis zu Satz 4.1(c) wurde gezeigt, dass (d). v n+1 v 1 vn+1 v n v n v 1 vn v n 1 n 1 v1 v 0

22 4 DIE WERTITERATION 19 Zu (e): v (dn) v v (dn) v n + v n v =: A + B. Bleibt zu zeigen: A n 1 v1 v 0. Aus dem Beweis von Satz 4.1(c) folgt weiterhin: Daraus folgt die Behauptung. v d n v n+1 1 vn+1 v n v d n v n 1 vn v n 1 n 1 v1 v 0.

23 LITERATUR III Literatur [1] Martin L. Puterman: Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley & Sons, New Jersey, 2nd ed