Diskontierte Markovsche Entscheidungsprozesse
|
|
- Lena Mathilde Holtzer
- vor 5 Jahren
- Abrufe
Transkript
1 Ausarbeitung zum Seminarvortrag Diskontierte Markovsche Entscheidungsprozesse aus der Seminarreihe Spieltheorie und Glücksspiele von Prof. Dr. Alfred Müller vorgelegt von Alexander Müller Sommersemester 2009
2
3 INHALTSVERZEICHNIS II Inhaltsverzeichnis 1 Einleitung 1 2 Voraussetzungen Der Wert einer Strategie Optimalitätskriterien Markov-Strategien Vektor-Notation für Markovsche Entscheidungsprozesse Diskontierte Markovsche Entscheidungsprozesse Strategie-Auswertung Die Optimalitätsgleichungen Eigenschaften von Lösungen der Optimalitätsgleichungen Lösungen der Optimalitätsgleichungen Existenz von optimalen Strategien Die Wertiteration 15 Literaturverzeichnis III
4 1 EINLEITUNG 1 1 Einleitung Diese Ausarbeitung behandelt die Theorie über diskontierte Markovsche Entscheidungsprozesse (MDP). Nachdem in Teil I der Seminarreihe bereits endlich-stufige MDP behandelt wurden geht es in Teil II um ein Modell mit unendlichem Planungshorizont und dem erwarteten diskontierten Gesamtgewinn-Optimalitätskriterium. Die Resultate dieses Modells bilden einen Standard für die Theorie über Modelle mit anderen Optimaltitätskriterien. Mit der Diskoniterung der zukünftigen Gewinne erhält man den heutigen Wert des MDP. Somit lassen sich verschiedene Strategien über ihren heutigen erwarteten Wert vergleichen und bewerten. Zum Nachweis der Existenz einer Lösung der Optimalitätsgleichung und der Konvergenz des Algorithmus zum Lösen der Gleichung (Wertiteration) wird die Theorie über normierte lineare Räume verwendet. Der Banachsche Fixpunktsatz spielt hier eine zentrale Rolle. Mit der Voraussetzung eines unendlichen Planungshorizonts werden 3 Annahmen getroffen: (1) Stationäre Gewinne und Übergangswahrscheinlichkeiten, d.h. r t (s, a) =r(s, a), p t (j s, a) =p(j s, a) t. (2) Beschränkte Gewinne: r(s, a) M< a A, s S. (3) Zukünftige Gewinne werden mit einem Diskontierungsfaktor auf den heutigen Zeitpunkt diskontiert, 0 < 1. Das heißt also die Gewinne, Übergangswahrscheinlichkeiten und die Aktionenräume D K (K {HR, HD, MR, MD}) ändern sich nicht im Zeitablauf.
5 2 VORAUSSETZUNGEN 2 2 Voraussetzungen 2.1 Der Wert einer Strategie In einem stationären Markovschen Entscheidungsprozess mit unendlichem Planungshorizont besitzt jede Strategie π = (d 1,d 2,...) einen bivariaten diskreten Gewinnprozess, {(X t,r(x t,y t )); t =1, 2,...}. X t beschreibt den Zustand des Systems zum Zeitpunkt t und r(x t,y t ) ist der Gewinn, der im Zustand X t bei der Wahl von Aktion Y t anfällt. Die Entscheidungsregel d t ermittelt die Aktion Y t wie folgt: Für deterministisches d t : Y t = d t (X t ) für d t D MD und Y t = d t (Z t ) für d t D HD, wobei die Zufallsvariable Z t die Vergangenheit bis zum Zeitpunkt t beschreibt. Für zufälliges d t : und P (Y t = a) =q dt(x t)(a) für d t D MR P (Y t = a) =q dt(z t)(a) für d t D HR. Für eine Markovsche Strategie π ist {(X t,r(x t,y t )); t =1, 2,...} ein Markovscher Gewinnprozess. Definition 2.1 Der erwartete diskontierte Gesamtgewinn von Strategie π Π HR ist definiert durch ( N ) v(s) π := lim N Eπ s t 1 r(x t,y t ) t=1 ( ) = Es π t 1 r(x t,y t ) (2.1) für 0 < 1. t=1 Der Grenzwert existiert, falls sup s S sup r(s, a) = M<, a A s dies ist aber gerade durch Annahme (2) vorausgesetzt.
6 2 VORAUSSETZUNGEN Optimalitätskriterien Definition 2.2 Eine Strategie π ist (diskontiert-) optimal für festes, 0 < 1, falls Der Wert des MDP ist definiert durch v π (s) v π (s) für alle s S, π Π HR. v (s) := sup π Π HR v π (s). Eine optimale Strategie π Π K (K = HR, HD, MR oder MD) existiert genau dann, wenn v π (s) =v(s) für alle s S. 2.3 Markov-Strategien In diesem Abschnitt wird gezeigt, dass zu jeder von der Vorgeschichte abhängigen Strategie und Ausgangszustand eine zufällige Markov-Strategie mit dem gleichen erwarteten diskontierten Gesamtgewinn existiert. Satz 2.3 Sei π =(d 1,d 2,...) Π HR. Dann existiert für alle s S eine Strategie π Π MR, für die gilt: P π (X t = j, Y t = a X 1 = s) =P π (X t = j, Y t = a X 1 = s), t =1, 2,.... (2.2) Beweis: Sei s S fest. Für alle j S und alle a A j sei die zufällige Markovsche Entscheidungsregel d t definiert durch q d t (j)(a) := P π (Y t = a X t = j, X 1 = s), t =1, 2,.... (2.3) Sei π =(d 1,d 2,...), so dass aus (2.3) folgt P π (Y t = a X t = j) =P π (Y t = a X t = j, X 1 = s) = P π (Y t = a X t = j, X 1 = s). Mittels Induktion wird gezeigt, dass (2.3) für d t (wie in (2.3) definiert) gilt. t =1: klar. Induktions-Annahme: (2.3) gilt für t =2, 3,..., n 1. Dann folgt P π (X n = j X 1 = s) = P π (X n 1 = k, Y n 1 = a X 1 = s) p(j k, a) k S a A k I.A. = k S a A k P π = P π (X n = j X 1 = s). (2.4) (X n 1 = k, Y n 1 = a X 1 = s) p(j k, a) (2.5)
7 2 VORAUSSETZUNGEN 4 P π (X n = j, Y n = a X 1 = s) =P π (Y n = a X n = j) P π (X n = j X 1 = s) = P π (Y n = a X n = j, X 1 = s) P π (Y n = a X n = j) (2.4), (2.5) = P π (X n = j, Y n = a X 1 = s). Satz 2.4 Sei π Π HR. Dann existiert für alle s S ein π Π MR mit v π (s) =v π (s) für 0 < 1. Beweis: Folgt sofort aus Satz 2.3. Als Konsequenz folgt, dass es genügt π Π MR Π HR zu betrachten, da für alle s S zu jedem π Π HR ein π Π MR mit identischem diskontiertem Gesamtgewinn existiert, so dass v(s) := sup v(s) π = sup v(s). π π Π HR π Π MR 2.4 Vektor-Notation für Markovsche Entscheidungsprozesse Für diskretes S wird folgende Notation verwendet: V := {v : S IR : v beschränkt}. V ist ein vollständiger, abgeschlossener Raum mit sup-norm v := sup s S v(s). e V : konstante Funktion mit e(s) = 1 für alle s S. H : Matrix-Norm mit H := sup s S H(j s), wobei H(j s) die (s, j)-te Komponente von der Matrix H darstellt. S : Anzahl der Elemente von S. j S Für d D MD definiere r d (s) und p d (j s) durch Für d D MR sei r d (s) := r(s, d(s)) und p d (j s) := p(j s, d(s)). r d (s) := a A s q d(s) (a) r(s, a), p d (j, s) := a A s q d(s) (a) p(j s, a). r d bezeichnet also einen Vektor mit S Komponenten (s-te Komponente: r d (s)), den Gewinn-Vektor, und P d eine S S -Matrix mit (s, j)-tem Eintrag gegeben durch p d (j s), die Übergangsmatrix (auch als Übergangsgesetz bezeichnet) entsprechend der Markovschen Entscheidungsregel d.
8 2 VORAUSSETZUNGEN 5 Lemma 2.5 S sei diskret, r(s, a) M für alle a A, s S, 0 < 1. Dann gilt r d + P d v V für alle v V, d D MR. Beweis: Aus r(s, a) M a A, s S folgt r d M d D MR, also r d V. Da P d Wahrscheinlichkeits-Matrix P d =1. P d v P d v = v. Somit gilt P d v V für alle v V, so dass insgesamt r d + P d v V gilt. Für π =(d 1,d 2,...) Π MR erfüllt die (s, j)-te Komponente der t-schritt Übergangswahrscheinlichkeiten-Matrix P t π P t π(j s) =[P dt P dt 1 P d1 ](j s) =P π (X t+1 = j X 1 = s). Der Erwartungswert mit Bezug zu der zur Strategie gehörenden Markov-Kette wird berechnet durch Es π (v(x t )) = Pπ t 1 v(s) = j S Pπ t 1 (j s) v(j) für v V und 1 t<. Mit dieser Darstellung und der Definition von v π folgt für 0 1 v π = t=1 t 1 P t 1 π r dt, (2.6) falls der Grenzwert existiert.
9 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 6 3 Diskontierte Markovsche Entscheidungsprozesse Die Optimaltitätsgleichung und ihre Lösung spielen eine zentrale Rolle in der Theorie von diskontierten Markovschen Entscheidungsprozessen. In diesem Abschnitt wird gezeigt: Die Optimalitätsgleichung hat genau eine Lösung in V. Der Wert des diskontierten MDP erfüllt die Optimalitätsgleichung. Die Optimalitätsgleichung charakterisiert stationäre optimale Strategien. Optimale Strategien existieren unter bestimmten Bedingungen für Zustände, Aktionen, Gewinne und Übergangswahrscheinlichkeiten. 3.1 Strategie-Auswertung Sei π =(d 1,d 2,...) Π MR. Mit der Definition des Erwartungswerts des diskontierten Gesamtgewinns in (2.1), Gleichung (2.6) und der Wahl von P 0 π := I erhält man v π = t=1 t 1 Pπ t 1 r dt = r d1 + P d1 r d2 + 2 P d1 P d2 r d = r d1 + P d1 ( rd2 + P d2 r d3 + 2 P d2 P d3 r d ), (3.1) so dass v π dargestellt werden kann als v π = r d1 + P d1 v π (3.2) mit π =(d 2,d 3,...). Dies verdeutlicht, dass der diskontierte Gewinn zu Strategie π gleich dem Gewinn eines Einperioden-Problems ist unter Verwendung von Entscheidungsregel d 1 plus den erwarteten diskontierten Gesamtgewinn aus Strategie π. Wählt man nun π als stationäre Strategie d π = π und damit wird aus (3.2) := (d, d,...) mit d D MR, so folgt v d = r d + P d v d. (3.3) Somit erfüllt v d das Gleichungssystem v = r d + P d v. Es wird gezeigt, dass dies die einzige Lösung ist für 0 < 1. Für v V sei die lineare Transformation L d definiert durch L d v := r d + P d v.
10 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 7 Angewendet auf (3.3) erhält man Man sieht, dass v d v d ein Fixpunkt von L d in V ist. = L d v d. (3.4) Satz 3.1 Sei 0 < 1. Dann ist für jede stationäre Strategie d := (d, d,...), d D MR, v d die einzige Lösung in V von v d kann dargestellt werden als v = r d + P d v. (3.5) v d =(I P d ) 1 r d. (3.6) Beweis: Folgt aus der vorangegangenen Herleitung und der Anwendung des Banachschen Fixpunktsatzes (siehe Satz 3.6). 3.2 Die Optimalitätsgleichungen Unter den oben genannten 3 Annahmen vereinfacht sich die Optimalitätsgleichung bei endlichem Planungshorizont { } u t (h t ) = sup a A st r t (s t,a)+ j S t =1,..., N 1 und h t =(h t 1,a t 1,s t ) H t, zu { v n (s) = sup a A s r(s, a)+ j S Betrachtet man den Grenzwert von (3.7), so erhält man: p t (j s t,a) u t+1 (h t, a, j) p(j s, a) v n+1 (j) },. (3.7) Definition 3.2 (Optimalitätsgleichungen, Bellman Gleichungen) Unter den Annahmen (1)-(3) sind die Bellman Gleichungen definiert als { } v(s) = sup a A s r(s, a)+ j S p(j s, a) v(j) Für v V sei der (nichtlineare) Operator L auf V definiert durch. (3.8) Lv := sup d D MD {r d + P d v}, (3.9) wobei das Supremum über A s für alle s S berechnet wird. Da S diskret und r d beschränkt ist, folgt aus Lemma 2.5, dass Lv V für alle v V gilt. Die Verwendung einer deterministischen Markovschen Entscheidungsregel in (3.9) wird durch die folgende Proposition gerechtfertigt.
11 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 8 Proposition 3.3 Für alle v V und 0 1 gilt sup {r d + P d v} = sup {r d + P d v}. d D MD d D MR Beweis: Da D MD D MR folgt trivialerweise sup {r d + P d v} sup {r d + P d v}. d D MD d D MR Es gilt: Sei w eine reellwertige Funktion auf einer beliebigen diskreten Menge W und sei q( ) eine Wahrscheinlichkeitsverteilung auf W. Dann gilt sup w(u) q(u) w(u). (3.10) u W u W [Setze w = sup u W w(u) w = u W q(u) w u W q(u) w(u)] Sei v V und δ D MR. Wendet man nun für alle s S mit W = A s,q( ) =q δ ( ) und w( ) =r(s, )+ p(j s, ) v(j) j S Gleichung (3.10) an, so erhält man { sup a A s r(s, a)+ j S Somit gilt für alle δ D MR p(j s, a) v(j) } a A s q δ (a) [ r(s, a)+ j S p(j s, a) v(j) ]. sup {r d + P d v} r δ + P δ v. d D MD sup {r d + P d v} sup {r d + P d v}. d D MD d D MR Die Optimalitätsgleichung (3.8) kann in Vektor-Notation dargestellt werden als v = sup d D MD {r d + P d v} = Lv. (3.11) 3.3 Eigenschaften von Lösungen der Optimalitätsgleichungen Der folgende Satz gibt Auskunft über untere und obere Schranken von v sowie eine Eindeutigkeitsaussage über die Lösung. Man beachte, dass Teil (c) keine Aussage über die Existenz einer Lösung zu Lv = v gibt. Der Beweis des Satzes beruht auf der Überlegung, dass für 0 < 1 der Tail der erwarteten diskontierten Gewinnfolge beliebig klein wird.
12 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 9 Satz 3.4 Es existiere ein v V, so dass (a) v Lv. Dann gilt v v ; (b) v Lv. Dann gilt v v ; (c) v = Lv. Dann ist v das einzige Element von V mit dieser Eigenschaft und es gilt v = v. Beweis: so dass Zu (a): Sei π =(d 1,d 2,...) Π MR. Mit Proposition 3.3 gilt v sup d D MD {r d + P d v} = sup d D MR {r d + P d v}, v r d1 + P d1 v r d1 + P d1 (r d2 + P d2 v)=r d1 + P d1 r d2 + 2 P d1 P d2 v. Induktiv folgt für n 1 v r d1 + P d1 r d n 1 P d1 P dn 1 r dn + n Pπ n v. v v π n Pπ n v k Pπ k r dk+1. (3.12) Sei ε> 0 beliebig. Mit n P n π v n v und 0 < 1 gilt für n groß genug k=n ε 2 e n P n π v ε 2 e. Weiterhin folgt mit Annahme (2), r(s, a) M < a A, s S, n Me 1 k Pπ k r dk+1. k=n Wählt man also n groß genug, so kann die Summe in (3.12) nach unten und oben mit (ε/2)e abgeschätzt werden. Also folgt insgesamt Da ε beliebig war folgt mit Satz 2.4 v(s) v π (s) ε s S, ε > 0. v(s) sup v(s) π = sup v(s) π =v(s), π Π MR π Π HR d.h. (a) gilt. Zu (b): Da v Lvexistiert zu jedem ε> 0 beliebig ein d D MD, so dass v r d + P d v. Man kann leicht zeigen, dass für v 1,v 2 V mit v 1 v 2 (I P d ) 1 v 1 (I P d ) 1 v 2 folgt (Positivität von (I P d ) 1 ausnutzen). v (I P d ) 1 (r d + εe) =v d + (1 ) 1 εe. Also gilt v sup π Π HR v π + (1 ) 1 εe, und da ε> 0 beliebig folgt (b). Zu (c): folgt als Kombination aus Teil (a) und (b).
13 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE Lösungen der Optimalitätsgleichungen In diesem Abschnitt folgt ein Existenzbeweis einer Lösung der Optimalitätsgleichungen durch Anwendung des Banachschen Fixpunktsatzes. Definition 3.5 Sei U ein Banachraum (vollständiger, normierter linearer Raum). Ein Operator T : U U heißt Kontraktion, wenn eine Zahl mit 0 < 1 existiert, so dass Tv Tu v u für alle u, v U gilt. Satz 3.6 (Banachscher Fixpunktsatz) Sei U ein Banachraum und T : U U eine Kontraktion. Dann gilt: (a) Es existiert genau ein v U, so dass Tv = v ; (b) Für beliebiges v 0 U konvergiert die Folge (v n ) definiert durch gegen v. v n+1 = Tv n = T n+1 v 0 (3.13) Beweis: Sei (v n ) definiert wie in (3.13). Dann gilt für alle m 1 v n+m v n m 1 k=0 m 1 v n+k+1 v n+k = T n+k v 1 T n+k v 0 k=0 m 1 n+k v 1 v 0 k=0 geom.summe = n (1 m ) 1 v 1 v 0. (3.14) Da 0 < 1 folgt, dass (v n ) eine Cauchyfolge ist. Aus der Vollständigkeit von U folgt, dass (v n ) einen Grenzwert v U besitzt. Bleibt zu zeigen: v ist ein Fixpunkt von T. Es gilt 0 Tv v Ungl. Tv v n + v n v = Tv Tv n 1 + v n v v v n 1 + v n v n 0.
14 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 11 Tv v =0. Zur Eindeutigkeit von v : Seien v, v Fixpunkte von T. v v = Tv Tv v v. Da < 1 folgt v v =0 v = v. Um den Satz auf das diskontierte Modell anzuwenden wird gezeigt, dass L eine Kontraktion in V ist. Proposition 3.7 Sei 0 < 1. Dann gilt: L ist Kontraktion in V. Beweis: Da S diskret folgt L : V V. Seien u, v V und es gelte Lv(s) Lu(s) für ein festes s S. Weiterhin sei { } a s arg max a A s r(s, a)+ j S p(j s, a) v(j). 0 Lv(s) Lu(s) r(s, a s)+ j S = j S j S = v u. p(j s, a s) v(j) r(s, a s) j S p(j s, a s)[v(j) u(j)] p(j s, a s) v u p(j s, a s) u(j) Wiederholt man dieses Argument für den Fall Lv(s) Lu(s), so erhält man Lv(s) Lu(s) v u (3.15) für alle s S. Nimmt man nun das Supremum über s in (3.15), so folgt die Behauptung. Es folgt die Hauptaussage aus der Theorie über diskontierte Markovsche Entscheidungsprozesse: Satz 3.8 Sei S endlich oder abzählbar, r(s, a) beschränkt und 0 < 1. (a) Dann existiert ein v V mit Lv = v (Lv = v ). Weiterhin gilt: v ist das einzige Element mit dieser Eigenschaft und v = v.
15 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 12 (b) Für alle d D MR existiert genau ein v V mit L d v = v. Es gilt v = v d. Beweis: Da V ein Banachraum ist folgt mit Prop. 3.7, dass L eine Kontraktionen ist und somit die Voraussetzungen von Satz 3.6 erfüllt sind. Daher existiert genau eine Lösung v zu Lv = v bzw. Lv = v. Mit Satz 3.4(c) folgt, dass v = v ist. Teil (b) folgt sofort aus (a) durch Wahl von D = {d}. 3.5 Existenz von optimalen Strategien Es wird gezeigt, dass die Existenz einer Entscheidungsregel, die das Supremum in (3.9) annimmt für v = v, die Existenz einer stationären optimalen Strategie impliziert. Satz 3.9 Eine Strategie π Π HR ist optimal genau dann, wenn v π Optimalitätsgleichung ist. eine Lösung der Beweis: Sei π optimal, dann ist v π = v. Aus Satz 3.8(a) folgt, dass v π die Gleichung Lv = v erfüllt. Dann folgt mit Satz 3.4(c) v π = v, also ist π optimal. Definition 3.10 Eine Entscheidungsregel d D MD wird konservierend genannt, falls L d v := r d + P d v = v, (3.16) oder alternativ, wenn d arg max d D MD {r d + P d v }. Der folgende Satz zeigt, dass gerade solche Entscheidungsregeln optimal sind. Er bietet also eine Methode zur Identifikation von stationären optimalen Strategien. Satz 3.11 Sei S diskret und das Supremum in (3.9) werde angenommen für alle v V. Dann gilt: (a) Es existiert eine konservierende Entscheidungsregel d D MD.
16 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 13 (b) Ist d konservierend, so ist die deterministische stationäre Strategie (d ) optimal. (c) v = sup v d. d D MD Beweis: Zu (a): folgt aus v V und der Annahme des Supremums in (3.9). Zu (b): Mit Satz 3.4(c) gilt, dass v die einzige Lösung von Lv = v ist. Somit folgt aus (3.16) v = Lv = r d + P d v = L d v, so dass mit Satz 3.1 v d = v. Zu (c): Folgerung von Teil (b). Man beachte, dass das Supremum des erwarteten diskontierten Gesamtgewinns in Teil (c) über die Menge der deterministischen stationären Strategien gleich dem Supremum über die Menge aller Strategien ist, also für alle s S. sup v d d D MD (s) = sup π Π HR v π (s) Im diskontierten Fall mit diskretem S folgt also aus der Annahme des Supremums in (3.9) die Existenz von konservierenden Entscheidungsregeln und somit die Existenz stationärer optimaler deterministischer Strategien. Es folgen weitere Bedingungen für die Existenz einer stationären optimalen Strategie. Satz 3.12 Es existiere (a) eine konservierende Entscheidungsregel, oder (b) eine optimale Strategie. Dann existiert eine optimale deterministische stationäre Strategie. Beweis: Zu (a): Satz 3.11(b) direkt anwendbar. Zu (b): Es existiere eine optimale Strategie π Π HR. Sei π =(d,π ), d D MR. Dann gilt v π = r d + P d v π r d + P d v π { } sup rd + P d v π d D MD = Lv π Satz 3.9 = v π.
17 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 14 Daher ist d konservierend und die Behauptung folgt aus (a). Der nächste Satz gibt hinreichende Bedingungen für die Annahme des Supremums an (und damit für die Existenz einer konservierenden Entscheidungsregel und einer stationären optimalen Strategie). Satz 3.13 Sei S diskret und es gelte entweder (a) A s ist endlich für alle s S oder (b) A s ist kompakt, r(s, a) ist stetig in a für alle s S, und für alle j S und s S ist p(j s, a) stetig in a oder (c) A s ist kompakt, r(s, a) ist rechtsseitig stetig in a für alle s S, und für alle j S und s S ist p(j s, a) linksseitig stetig in a. Dann existiert eine optimale deterministische stationäre Strategie. Beweis: Analog zum Beweis im endlich-stufigen Modell (vgl. Puterman: Markov Decision Processes, Prop ). Existieren keine optimalen Strategien, so sucht man ε-optimale Strategien. Definition 3.14 Man nennt eine Strategie π ε ε-optimal für ε> 0, falls für alle s S oder in Vektor-Notation v π ε (s) v (s) ε, v π ε v εe. Satz 3.15 Sei S endlich oder abzählbar, dann existiert für alle ε> 0 eine ε-optimale deterministische stationäre Strategie. Beweis: Mit folgt Aus Satz 3.8 folgt Lv = v. Sei ε> 0 und wähle d ε D MD, so dass also ist (d ε ) ε-optimal. r dε + P dε v sup d D MD {r d + P d v } (1 )εe = v (1 )εe. v (dε) (I P dε )v (dε) v (dε) v (dε) v εe, = r dε + P dε v (dε) = r dε =(I P dε ) 1 r dε
18 4 DIE WERTITERATION 15 4 Die Wertiteration Die Wertiteration ist ein Algorithmus zum Lösen von diskontierten Markovschen Entscheidungsprozessen, d.h. zum Lösen der Otimalitätsgleichung. Er ist auch bekannt unter den Namen sukzessive Approximation, pre-jacobi Iteration oder dynamische Programmierung. In diesem Kapitel wird vorausgesetzt, dass das Supremum in (3.9) für alle v V ein Maximum ist. Dies ist nicht notwendig für die Konvergenz des Algorithmus, vereinfacht aber die Darstellung. Somit ist folgendes Gleichungssystem zu lösen: { v(s) = max a A s r(s, a)+ j S p(j s, a) v(j) }. Der folgende Algorithmus findet eine stationäre ε-optimale Strategie, (d ε ), und gibt eine Fehlerabschätzung. Wertiteration Algorithmus 1. Wähle v 0 V, ε> 0 und setze n =0. 2. Für alle s S berechne v n+1 (s) durch { v n+1 (s) = max a A s r(s, a)+ j S p(j s, a) v n (j) }. (4.1) 3. Falls v n+1 v n (1 ) <ε 2, (4.2) dann gehe zu Schritt 4. Sonst setze n := n +1und gehe zurück zu Schritt Für alle s S wähle d ε (s) arg max a A s { r(s, a)+ j S p(j s, a) v n+1 (j) }. (4.3) Gleichung (4.1) kann in Vektor-Notation dargestellt werden durch v n+1 = Lv n, (4.4)
19 4 DIE WERTITERATION 16 und (4.3) kann dargestellt werden durch d ε arg max { rd + P d v n+1}. (4.5) d D MD Der folgende Satz sichert die Konvergenz des Algorithmus. Satz 4.1 Sei v 0 V, ε> 0 und (v n ) erfülle (4.4) für n 1. Dann gilt (a) lim n v n v =0, (b) N <, so dass (4.2) n N erfüllt ist, (c) die stationäre Strategie (d ε ) definiert in (4.3) ist ε-optimal und (d) v n+1 v < ε 2 falls (4.2) gilt. Beweis: Teil (a) und (b) folgen direkt aus Satz 3.6 (Banachscher Fixpunktsatz). Sei (4.2) erfüllt für ein n und d ε erfülle (4.3). Dann gilt v d ε v v d ε v n+1 + v n+1 v. (4.6) Da v d ε folgt ein Fixpunkt von L dε ist und als Konsequenz aus (4.3) L dε v n+1 = Lv n+1 gilt, v d ε v n+1 = L dε v d ε v n+1 L dε v d ε Lv n+1 + Lv n+1 v n+1 = L dε v d ε L dε v n+1 + Lv n+1 Lv n L,L dε Kontr. v d ε v n+1 + v n+1 v n. v d ε v n+1 1 vn+1 v n (4.2) < ε 2. Weiterhin gilt v n+1 v = v n+1 Lv v n+1 v Lv n Lv n+1 + Lv n+1 Lv v n v n+1 + v n+1 v. 1 vn v n+1 (4.2) < ε 2. Insgesamt folgt also v d ε v < ε.
20 4 DIE WERTITERATION 17 (c) und (d). Der Algorithmus findet also eine ε-optimale stationäre Strategie nach einer endlichen Anzahl von Iterationen. Es folgt eine Bedingung für Monotonie der Iterationen des Algorithmus (nützlich zum Vergleich von Konvergenzraten). Proposition 4.2 (a) Seien u, v V mit v u. Dann gilt Lv Lu. (b) Es existiere ein N > 0, so dass Lv N m 0. ( ) v N. ( ) N+m+1 v v N+m für alle Beweis: Zunächst wird gezeigt, dass L monoton ist. Sei δ arg max{r d + P d u}. d D MD Da P δ u P δ v gilt (a). Lu = r δ + P δ u r δ + P δ v max d D MD{r d + P d v} = Lv. Aus Teil (a) folgt sofort L m v L m u für alle m 1. Somit gilt v N+m+1 = L m Lv N L m v N = v N+m. Die Wertiteration konvergiert also monoton gegen v ( ), falls Lv0 v 0. Dies gilt immer im Fall von r(s, a) 0 oder r(s, a) 0 mit v 0 =0. Hier folgt mit Satz 3.4, dass v 0 untere (obere) Schranke von v ist. Der nächste Satz fasst die Konvergenzeigenschaften der Wertiteration zusammen: Satz 4.3 Sei v 0 V und (v n ) seien die Iterationen des Wertiterations-Algorithmus. Dann gelten folgende globale Konvergenzeigenschaften: (a) Konvergenz ist linear zur Rate, (b) die asymptotische durchschnittliche Konvergenzrate definiert durch ist gleich, lim sup n [ ] yn y 1/n y 0 y
21 4 DIE WERTITERATION 18 (c) v vn = O( n ), n, (d) für alle n 1 gilt die folgende Fehlerabschätzung: v n v (e) für alle d n arg max d D MD{r d + P d v n } gilt n 1 v1 v 0, v (dn) v 2n 1 v1 v 0. Beweis: Für beliebiges v 0 V erfüllen die Iterationen Sei v 0 = v + ke mit k IR\{0}. Somit gilt Gleichheit in (4.7), (a). v n+1 v = Lv n Lv v n v. (4.7) v 1 v = (v 0 v ). Iteriert man Gleichung (4.7) und teilt beide Seiten durch v 0 v, so erhält man durch Ziehen der n-ten Wurzel lim sup n [ v n v ] 1/n v 0 v. Hier gilt wiederum Gleichheit für v 0 = v + ke. (b). Teil (c) folgt erneut durch Iterieren von (4.7) und Dividieren durch n. Man erhält lim sup n v n v n v 0 v. Im Beweis zu Satz 4.1(c) wurde gezeigt, dass (d). v n+1 v 1 vn+1 v n v n v 1 vn v n 1 n 1 v1 v 0
22 4 DIE WERTITERATION 19 Zu (e): v (dn) v v (dn) v n + v n v =: A + B. Bleibt zu zeigen: A n 1 v1 v 0. Aus dem Beweis von Satz 4.1(c) folgt weiterhin: Daraus folgt die Behauptung. v d n v n+1 1 vn+1 v n v d n v n 1 vn v n 1 n 1 v1 v 0.
23 LITERATUR III Literatur [1] Martin L. Puterman: Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley & Sons, New Jersey, 2nd ed
Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen
Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten
MehrCauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit
Vortrag zum Seminar zur Analysis, 10.05.2010 Michael Engeländer, Jonathan Fell Dieser Vortrag stellt als erstes einige Sätze zu Cauchy-Folgen auf allgemeinen metrischen Räumen vor. Speziell wird auch das
Mehr3.3. KONVERGENZKRITERIEN 67. n+1. a p und a n. beide nicht konvergent, so gilt die Aussage des Satzes 3.2.6
3.3. KONVERGENZKRITERIEN 67 und l n+1 wiederum als kleinsten Wert, so dass A 2n+2 = A 2n+1 + l n+1 k=l n < A. Alle diese Indizes existieren und damit ist eine Folge {A k } k N definiert. Diese Folge konvergiert
Mehrpiiq oder p 8, aq, p 8, as, pa, `8q, ra, `8q mit einer reellen Zahl a; piiiq oder p 8, `8q R. [6 Punkte] Achtung: Denken Sie auch an den Fall I!
Analysis I Wintersemester 2015/16 9. Übungsblatt, Lösungsbeispiele Jun. Prof. Dr. Christian Reiher, Pascal Gollin Alexander Block, Hendrik Niehaus, Jakob Kneip, Jakob Schnitzer Aufgabe 5 Es sei I Ď R eine
MehrStochastische dynamische Optimierung
Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,
MehrAnalysis I für Studierende der Ingenieurwissenschaften
Analysis I für Studierende der Ingenieurwissenschaften Ingenuin Gasser Department Mathematik Universität Hamburg Technische Universität Hamburg Harburg Wintersemester 2008/2009 1 Definition: Sei M R, alsom
MehrEinführung in die Theorie der Markov-Ketten. Jens Schomaker
Einführung in die Theorie der Markov-Ketten Jens Schomaker Markov-Ketten Zur Motivation der Einführung von Markov-Ketten betrachte folgendes Beispiel: 1.1 Beispiel Wir wollen die folgende Situation mathematisch
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Mehr22 KAPITEL 1. GRUNDLAGEN. Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion
KAPITEL 1. GRUNDLAGEN Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion 1 für 0 x < 1 g 0 (x) = 1 1 für < x 1. Natürlich gibt dies von
MehrLösung zur Serie 8. x + 2x 2 sin(1/x), falls x 0, f(x) := 0, falls x = 0. = lim
Lösung zur Serie 8 Aufgabe 40 Wir zeigen in dieser Aufgabe, dass die Voraussetzung dass die Funktion in einer kleinen Umgebung injektiv sein muss, beim Satz über die Umkehrfunktion notwendig ist. Hierzu
Mehr(alternierendes Vorzeichen) a n := ( 1)n n + 1 a n := 3n 2 7n a n := n(n 1)(n 2), n 3
ANALYSIS FÜR PHYSIK UND VERWANDTE FÄCHER I 43 2. Folgen und Reihen Folgen und Reihen werden in jedem Analysislehrbuch besprochen, siehe etwa [H, Kapitel III], [K, Kapitel 5], [J2, Kapitel 23] oder [M,
Mehrist ein n-dimensionaler, reeller Vektorraum (vgl. Lineare Algebra). Wir definieren auf diesem VR ein Skalarprodukt durch i y i i=1
24 14 Metrische Räume 14.1 R n als euklidischer Vektorraum Die Menge R n = {(x 1,..., x n ) x i R} versehen mit der Addition und der skalaren Multiplikation x + y = (x 1 + y 1,..., x n + y n ) λx = (λx
MehrAnalysis I für Studierende der Ingenieurwissenschaften
Analysis I für Studierende der Ingenieurwissenschaften Ingenuin Gasser Department Mathematik Universität Hamburg Technische Universität Hamburg Harburg Wintersemester 2008/2009 3.2 Konvergenzkriterien
MehrÜbungsaufgaben zu Analysis 1 Lösungen von Blatt VI vom
Prof. Dr. Moritz Kaßmann Fakultät für Mathematik Wintersemester 04/05 Universität Bielefeld Übungsaufgaben zu Analysis Lösungen von Blatt VI vom 0..4 Aufgabe VI. (6 Punkte) Gegeben sind die Folgen (a n)
MehrKapitel 5 KONVERGENZ
Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz
MehrZiel: Iterative Lösung der (nichtlinearen) Gleichung f(x) = 0.
6.4 Fixpunkt-Iteration Ziel: Iterative Lösung der (nichtlinearen) Gleichung f(x) = 0. Möglichkeiten: Bisektionsverfahren (Intervallhalbierung) Newton-Verfahren, x k+1 = x k f(x k) f (x k ) für k = 0, 1,
MehrInexakte Newton Verfahren
Kapitel 3 Inexakte Newton Verfahren 3.1 Idee inexakter Newton Verfahren Wir betrachten weiterhin das nichtlineare Gleichungssystem F (x) = mit einer zumindest stetig differenzierbaren Funktion F : R n
Mehr3.2 Konvergenzkriterien für reelle Folgen
3.2 Konvergenzkriterien für reelle Folgen Definition: Eine reelle Folge a n ) n N heißt monoton wachsend : n < m : a n a m streng monoton wachsend : n < m : a n < a m nach oben beschränkt : C R : n : a
Mehrfür die Wahrscheinlichkeit, dass die Markov-Kette in t Schritten von Zustand i in Zustand j übergeht. Es ist also P (t) = (P t ) ij.
8 Markov-Ketten 8.1 Grundlegendes zu Markov-Ketten Eine Markov-Kette ist ein stochastischer Prozess, der in diskreten Zeitschritten abläuft. Dabei wird jeweils von einem Zustand in einen nächsten übergegangen.
MehrÜbungsblatt 2 - Analysis 2, Prof. G. Hemion
Tutor: Martin Friesen, martin.friesen@gmx.de Übungsblatt 2 - Analysis 2, Prof. G. Hemion Um die hier gestellten Aufgaben zu lösen brauchen wir ein wenig Kentnisse über das Infimum bzw. Supremum einer Menge.
MehrKompaktheit und Überdeckungen. 1 Überdeckungskompaktheit
Vortrag zum Proseminar zur Analysis, 17.05.2010 Min Ge, Niklas Fischer In diesem Vortrag werden die Eigenschaften von kompakten, metrischen Räumen vertieft. Unser Ziel ist es Techniken zu erlernen, um
MehrPr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.
2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet
MehrStetigkeit. Definitionen. Beispiele
Stetigkeit Definitionen Stetigkeit Sei f : D mit D eine Funktion. f heißt stetig in a D, falls für jede Folge x n in D (d.h. x n D für alle n ) mit lim x n a gilt: lim f x n f a. Die Funktion f : D heißt
Mehra 0, a 1, a 2, a 3,... Dabei stehen die drei Pünktchen für unendlich oft so weiter.
7 Folgen 30 7 Folgen Wir betrachten nun (unendliche) Folgen von Zahlen a 0, a, a 2, a 3,.... Dabei stehen die drei Pünktchen für unendlich oft so weiter. Bezeichnung Wir bezeichnen mit N die Menge der
MehrInstitut für Analysis WS 2014/15 PD Dr. Peer Christian Kunstmann Dipl.-Math. Leonid Chaichenets
Institut für Analysis WS 4/5 PD Dr. Peer Christian Kunstmann 9..4 Dipl.-Math. Leonid Chaichenets Höhere Mathematik III für die Fachrichtung Physik Lösungsvorschläge zum 5. Übungsblatt Aufgabe : (a) Sei
Mehr2.3 Eigenschaften linearer Operatoren
2.3. LINEARE OPERATOREN 47 2.3 Eigenschaften linearer Operatoren Es seien V, W normierte Räume. Die Elemente von L(V ; W ) werden oft als lineare Operatoren bezeichnet. Wir hatten gesehen, dass die Stetigkeit
MehrInhaltsverzeichnis. 6 Topologische Grundlagen. 6.1 Normierte Räume
Inhaltsverzeichnis 6 Topologische Grundlagen 1 6.1 Normierte Räume................................ 1 6.2 Skalarprodukte................................. 2 6.3 Metrische Räume................................
Mehr5 Teilmengen von R und von R n
5 Teilmengen von R und von R n Der R n ist eine mathematische Verallgemeinerung: R n = {x = (x 1,...,x n ) : x i R} = R }... {{ R }. n mal Für x R ist x der Abstand zum Nullpunkt. Die entsprechende Verallgemeinerung
Mehr9 Metrische und normierte Räume
9 Metrische und normierte Räume Idee: Wir wollen Abstände zwischen Punkten messen. Der Abstand soll eine reelle Zahl 0 sein (ohne Dimensionsangabe wie Meter...). 9.1 Definition Sei X eine Menge. Eine Metrik
MehrMusterlösung zum Weihnahchtsübungsblatt. Teil 1 von Martin Fabricius. Aufgabe 1
Musterlösung zum Weihnahchtsübungsblatt Teil von Martin Fabricius Aufgabe a) Diese Aufgabe kann z. B. durch ausmultiplizieren gelöst werden: (433) 7 = 4 7 3 +3 7 + 7 +3 7 0 = 4 343+3 49+ 7+3 = 37+47+4+3
MehrProseminar Analysis Vollständigkeit der reellen Zahlen
Proseminar Analysis Vollständigkeit der reellen Zahlen Axel Wagner 18. Juli 2009 1 Voraussetzungen Zunächst wollen wir festhalten, was wir als bekannt voraussetzen: Es sei (Q, +, ) der Körper der rationalen
MehrDie Topologie von R, C und R n
Die Topologie von R, C und R n Für R haben wir bereits eine Reihe von Strukturen kennengelernt: eine algebraische Struktur (Körper), eine Ordnungsstruktur und eine metrische Struktur (Absolutbetrag, Abstand).
MehrGewöhnliche Differentialgleichungen Woche 6. Existenz nach Picard-Lindelöf
d Gewöhnliche Differentialgleichungen Woche 6 Existenz nach Picard-Lindelöf 6.1 Vorbereitung für den Existenzsatz 6.1.1 Stetigkeit und Lipschitz-Stetigkeit Definition 6.1 Seien (V 1, 1 und (V 2, 2 zwei
MehrAnalysis I. Guofang Wang Universität Freiburg
Universität Freiburg 22.11.2016 3. Mächtigkeit und die komplexe Zahlen Komplexe Zahlen Definition Die komplexe Zahlen sind definiert als C = R 2 = R R, mit (x 1, y 1 ) + (x 2, y 2 ) = (x 1 + x 2, y 1 +
MehrLösungen 4.Übungsblatt
Karlsruher Institut für Technology (KIT) WS 2011/2012 Institut für Analysis Priv.-Doz. Dr. Gerd Herzog Dipl.-Math.techn. Rainer Mandel Lösungen 4.Übungsblatt Aufgabe 13 (K) Bestimmen Sie sämtliche Häufungswerte
Mehrdie gewünschte Schranke gefunden, denn es gilt (trivialerweise) für n N
.5. VOLLSTÄNDIGKEIT VON R 37 Lemma.5. (Beschränktheit konvergenter Folgen) Konvergente Folgen in R sind beschränkt. Beweis. Angenommen die Folge a n n N konvergiert gegen A R. Zu ε > 0 existiert ein N
MehrVollständigkeit. 1 Konstruktion der reellen Zahlen
Vortrag im Rahmen des Proseminars zur Analysis, 17.03.2006 Albert Zeyer Ziel des Vortrags ist es, die Vollständigkeit auf Basis der Konstruktion von R über die CAUCHY-Folgen zu beweisen und äquivalente
Mehr8.1. DER RAUM R N ALS BANACHRAUM 17
8.1. DER RAUM R N ALS BANACHRAUM 17 Beweis. Natürlich ist d 0 und d(x, y) = 0 genau dann, wenn x = y. Wegen (N2) ist x = x und damit d(x, y) = d(y, x). Die letzte Eigenschaft einer Metrik schließt man
Mehr10 Der Satz über implizite Funktionen und Umkehrfunktionen
Vorlesung SS 9 Analsis Prof. Dr. Siegfried Echterhoff SATZ ÜBER IMPLIZITE FKT UND UMKEHRFKT Der Satz über implizite Funktionen und Umkehrfunktionen Motivation: Sei F : U R R eine differenzierbare Funktion
MehrKapitel 12: Markov-Ketten
Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse 21.01.2016 Kapitel 12: Markov-Ketten Ab jetzt betrachten wir stochastische Prozesse (X n ) n N0 mit 1. diskreter Zeit N 0 = {0,1,2,...},
Mehrn A n = A ist nun folgendermaßen:
Aufgabe 3. Sei (X, d) ein beschränkter metrischer Raum, d.h. es gibt ein c > 0 mit d(x, y) c für alle x, y X. Bezeichne T (X) die Menge aller abgeschlossenen nichtleeren Teilmengen von X. Für A, B T (X)
Mehr5 Stetigkeit und Differenzierbarkeit
5 Stetigkeit und Differenzierbarkeit 5.1 Stetigkeit und Grenzwerte von Funktionen f(x 0 ) x 0 Graph einer stetigen Funktion. Analysis I TUHH, Winter 2006/2007 Armin Iske 127 Häufungspunkt und Abschluss.
MehrTopologische Grundbegriffe II. Inhaltsverzeichnis
Vortrag zum Seminar zur Analysis, 03.05.2010 Dennis Joswig, Florian Goy Aufbauend auf den Resultaten des Vortrages Topologische Grundbegriffe I untersuchen wir weitere topologische Eigenschaften von metrischen
MehrWie in der reellen Analysis üblich notiert man Folgen f in der Form
2.1.3 Folgen und Konvergenz Viele aus der Analysisvorlesung bekannte Begriffe lassen sich in den Bereich der metrischen Räume verallgemeinern. Diese Verallgemeinerung hat sich als sehr nützliches mathematisches
MehrVollständigkeit. Andreas Schmitt. Ausarbeitung zum Proseminar zur Topologie im WS 2012/13
Vollständigkeit Andreas Schmitt Ausarbeitung zum Proseminar zur Topologie im WS 2012/13 1 Einleitung Bei der Konvergenz von Folgen im Raum der reellen Zahlen R trifft man schnell auf den Begriff der Cauchy-Folge.
Mehr(b) Man nennt die Menge M beschränkt, wenn sie nach oben und unten beschränkt ist.
8 Punktmengen Für die Menge M = { 1 n ; n N } ist 1 = max(m), denn 1 M und 1 n 1 für alle n N. Die Menge M besitzt aber kein Minimum, denn zu jeder Zahl x = 1 n M existiert ein y M mit y < x, etwa y =
MehrAnalysis 4. Lösungsvorschlag zum 12. Übungsblatt
Karlsruher Institut für Technologie Institut für Analysis Dr. Christoph Schmoeger Dipl.-Math. Andreas Geyer-Schulz SS 208. Juli 208 Analysis 4 Lösungsvorschlag zum 2. Übungsblatt Aufgabe 42 Wir untersuchen
Mehr3 Konstruktion einer f.s. konvergente Folge
1 Einleitung Wir wollen uns mit stochastischen Gleichungen der Form R d = Q + C i R i (1.1 beschäftigen, wobei,q,(r i i 1,(C, C i i 1 stochastisch unabhängige nichtnegative Zufallsgrößen seien, (C, C i
MehrDarstellungssatz von Riesz in vollständig regulären Räumen. Carina Pöll Wintersemester 2012
Darstellungssatz von Riesz in vollständig regulären Räumen Carina Pöll 0726726 Wintersemester 2012 Inhaltsverzeichnis 1 Einleitung 1 2 Definitionen und Resultate aus der Topologie 1 3 Der Darstellungssatz
MehrLösungen der Übungsaufgaben von Kapitel 3
Analysis I Ein Lernbuch für den sanften Wechsel von der Schule zur Uni 1 Lösungen der Übungsaufgaben von Kapitel 3 zu 3.1 3.1.1 Bestimmen Sie den Abschluss, den offenen Kern und den Rand folgender Teilmengen
Mehr30 Metriken und Normen
31 Metriken und Normen 153 30 Metriken und Normen Lernziele: Konzepte: Metriken, Normen, Skalarprodukte, Konvergenz von Folgen Frage: Versuchen Sie, möglichst viele verschiedene Konvergenzbegriffe für
MehrStetige Funktionen. Definition. Seien (X, d) und (Y, D) metrische Räume und f : X Y eine Abbildung. i) f heißt stetig in x 0 (x 0 D(f)), wenn
Stetige Funktionen Eine zentrale Rolle in der Analysis spielen Abbildungen f : X Y, wobei X und Y strukturierte Mengen sind (wie z.b. Vektorräume oder metrische Räume). Dabei sind i.a. nicht beliebige
MehrVorlesungen Analysis von B. Bank
Vorlesungen Analysis von B. Bank vom 23.4.2002 und 26.4.2002 Zunächst noch zur Stetigkeit von Funktionen f : D(f) C, wobei D(f) C. (Der Text schliesst unmittelbar an die Vorlesung vom 19.4.2002 an.) Auf
Mehr9 Konvergenz und absolute Konvergenz von Reihen
9 Konvergenz und absolute Konvergenz von Reihen 9.2 Konvergenz von Reihen 9.5 Monotoniekriterium für Reihen 9.6 Konvergenzkriterium von Cauchy für Reihen 9.9 Rechenregeln für konvergente Reihen 9.10 Absolute
Mehr5 Numerische Iterationsverfahren
In diesem Kapitel besprechen wir numerische Iterationsverfahren (insbesondere Fixpunktverfahren) als eine weitere Lösungsmethode zur Lösung von linearen Gleichungssystemen (Kapitel 4) sowie zur Lösung
MehrRechenoperationen mit Folgen. Rekursion und Iteration.
Rechenoperationen mit Folgen. Die Menge aller Folgen in V bildet einen Vektorraum, V N, für den die Addition und skalare Multiplikation wie folgt definiert sind. (a n ) n N + (b n ) n N := (a n + b n )
MehrNichtlineare Gleichungssysteme
Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung
MehrZusammenfassung Analysis 2
Zusammenfassung Analysis 2 1.2 Metrische Räume Die Grundlage metrischer Räume bildet der Begriff des Abstandes (Metrik). Definition 1.1 Ein metrischer Raum ist ein Paar (X, d), bestehend aus einer Menge
MehrStochastik I. Vorlesungsmitschrift
Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................
Mehr13 Auswahlaxiom und Zornsches Lemma
13 Auswahlaxiom und Zornsches Lemma Handout zur Funktionalanalysis I von H. Glöckner, 25.11.2008 Wichtige Teile der modernen Mathematik beruhen auf dem sogenannten Auswahlaxiom der Mengenlehre. Dieses
MehrMathematik für Naturwissenschaftler II SS 2010
Mathematik für Naturwissenschaftler II SS 2010 Lektion 19 8. Juli 2010 Kapitel 14. Gewöhnliche Differentialgleichungen zweiter Ordnung 14.1 Systeme gewöhnlicher linearer Differentialgleichungen erster
MehrDer Metropolis-Hastings Algorithmus
Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung
MehrÜbersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten
Markov-Chain Monte-Carlo Verfahren Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Übersicht 1 Einführung
MehrSeminar Gewöhnliche Differentialgleichungen
Seminar Gewöhnliche Differentialgleichungen Dynamische Systeme I 1 Einleitung 1.1 Nichtlineare Systeme In den vorigen Vorträgen haben wir uns mit linearen Differentialgleichungen beschäftigt. Nun werden
Mehr20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen
20 Gleichmäßige Konvergenz für Folgen und Reihen von Funktionen 20.1 Folgen und Reihen von Funktionen 20.3 Die Supremumsnorm 20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen 20.7 Das Cauchy-Kriterium
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrDefinition Eine Metrik d auf der Menge X ist eine Abbildung d : X X IR
0 Inhaltsverzeichnis 1 Metrik 1 1.1 Definition einer Metrik............................. 1 1.2 Abstand eines Punktes von einer Menge................... 1 1.3 Einbettung eines metrischen Raumes in einen
MehrDer Ergodensatz. Hendrik Hülsbusch
Der Ergodensatz Hendrik Hülsbusch 1..212 Inhaltsverzeichnis Einleitung 3 5 Stationäre Verteilungen 5 6 Reversible Markovketten 11 2 Einleitung In meinem Vortrag beschäftigen wir uns mit dem asymptotischen
Mehr9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83
9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x
Mehr3 Stationäre Lösungen
3 Stationäre Lösungen Wir betrachten jetzt ein dynamisches Modell ohne explizite Zeitabhängigkeit. Diese Eigenschaft ist entweder durch das Problem vorgegeben oder sie resultiert aus der Betrachtung einer
Mehr7. Nichtlineare Gleichngssysteme. Problem 7: Sei f : R n R n stetig. Löse f(x) = 0.
7. Nichtlineare Gleichngssysteme Problem 7: Sei f : R n R n stetig. Löse f(x) = 0. Das Gleichungssystem f(x) = 0 lässt sich in die Fixpunktgleichung x = φ(x) umschreiben, wobei φ : D R n R n. Beispielsweise
Mehrn=1 a n mit reellen Zahlen a n einen
4 Unendliche Reihen 4. Definition und Beispiele Ein altes Problem der Analysis ist es, einer Reihe mit reellen Zahlen einen Wert zuzuordnen. Ein typisches Beispiel ist die unendliche Reihe + +..., die
Mehreine Folge in R, für die man auch hätte schreiben können, wenn wir alle richtig raten, was auf dem Pünktchen stehen sollte.
Analysis, Woche 5 Folgen und Konvergenz A 5. Cauchy-Folgen und Konvergenz Eine Folge in R ist eine Abbildung von N nach R und wird meistens dargestellt durch {x n } n=0, {x n} n N oder {x 0, x, x 2,...
MehrDarstellungsformeln für die Lösung von parabolischen Differentialgleichungen
Kapitel 8 Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen Wir hatten im Beispiel 5. gesehen, dass die Wärmeleitungsgleichung t u u = f auf Ω (0, ) (8.1) eine parabolische Differentialgleichung
MehrRandomisierte Algorithmen
Randomisierte Algorithmen Randomisierte Algorithmen Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2018/2019 1 / 40 Überblick Überblick Grundlegendes zu Markov-Ketten
MehrLösungen Klausur. k k (n + 1) n. für alle n N. Lösung: IA: Für n = 1 ist 1. k k + (n + 1) n+1. k k = k=1. k=1 kk = 1 1 = 1 2 = 2 1.
Lösungen Klausur Aufgabe (3 Punkte) Zeigen Sie, dass n k k (n + ) n k für alle n N. IA: Für n ist k kk 2 2. IV: Es gilt n k kk (n + ) n für ein n N. IS: Wir haben n+ k k k n k k + (n + ) n+ k IV (n + )
MehrKapitel 2. Zahlenbereiche
Kapitel 2. Zahlenbereiche 2.3. Reelle Zahlen Erweiterung des Zahlenbereichs der natürlichen Zahlen Ganze Zahlen Z := {..., 3, 2, 1, 0, 1, 2, 3,... } = N {0} N. Rationale Zahlen Q := { m n m Z, n N }. Beachte:
Mehr12. Trennungssätze für konvexe Mengen 83
12. Trennungssätze für konvexe Mengen 83 C_1 C_2 a Abbildung 12.4. Trennung konvexer Mengen durch eine Hyperebene mit Normalenvektor a Dann ist int(c) nicht leer (warum?) und [als Minkowski-Summe von C
Mehrsign: R R, sign(x) := 0 falls x = 0 1 falls x < 0 Diese ist im Punkt x 0 = 0 nicht stetig, denn etwa zu ε = 1 finden wir kein δ > 0
ANALYSIS FÜR PHYSIK UND VERWANDTE FÄCHER I 81 3. Stetigkeit 3.1. Stetigkeit. Im Folgenden sei D R eine beliebige nichtleere Teilmenge. Typischerweise wird D ein allgemeines Intervall sein, siehe Abschnitt
MehrWahrscheinlichkeitstheorie und Statistik
Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter
MehrKapitel 3. Reihen und ihre Konvergenz
Kapitel 3 Reihen und ihre Konvergenz Abschnitt 3.1 Der Reihenbegri und erste Beispiele Denitionen zu Reihen, 1 Denition. Sei (a n ) n N0 eine Folge reeller Zahlen. Für n N 0 heiÿt dann die Zahl s n :=
MehrGRUNDLAGEN MATHEMATIK
Mathematik und Naturwissenschaften Fachrichtung Mathematik, Institut für Numerische Mathematik GRUNDLAGEN MATHEMATIK 2. Folgen Prof. Dr. Gunar Matthies Wintersemester 2015/16 G. Matthies Grundlagen Mathematik
MehrHäufungspunkte und Satz von Bolzano und Weierstraß.
Häufungspunkte und Satz von Bolzano und Weierstraß. Definition: Sei (a nk ) k N eine konvergente Teilfolge der Folge (a n ) n N.Dannwirdder Grenzwert der Teilfolge (a nk ) k N als Häufungspunkt der Folge
MehrLösung zur Übung für Analysis einer Variablen WS 2016/17
Blatt Nr. 3 Prof. F. Merkl Lösung zur Übung für Analysis einer Variablen WS 206/7 Aufgabe Das Guthaben G setzt sich zusammen aus der Summe aller bisherigen Einzahlungen multipliziert mit ( + p) k, wobei
Mehr12 Biholomorphe Abbildungen
12 Biholomorphe Abbildungen 2 Funktionenräume Wir erinnern zunächst an den Weierstraßschen Konvergenzsatz : 2.1 Satz. Sei G C ein Gebiet, (f n ) eine Folge holomorpher Funktionen auf G, die auf G kompakt
Mehr35 Stetige lineare Abbildungen
171 35 Stetige lineare Abbildungen Lernziele: Konzepte: Lineare Operatoren und ihre Normen Resultate: Abschätzungen für Matrizennormen Kompetenzen: Abschätzung von Operatornormen 35.1 Lineare Abbildungen.
Mehr4. Folgen. Folge in R 2 mit Grenzwert (1, 1 2 ).
8 4. Folgen Im Folgenden sei X = K n (oder ein K-Vektorraum) mit der Norm.(Eslangtvöllig,sichden Fall X = R 2 vorzustellen.) Auf R bzw. C verwenden wir als Norm stets den Betrag. 4.. Definition. Eine Folge
Mehrx, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω
5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,
MehrÜbungsaufgaben zu Partielle Differentialgleichungen Blatt III vom
Prof. Dr. M. Kaßmann Fakultät für Mathematik Wintersemester 2011/2012 Universität Bielefeld Übungsaufgaben zu Partielle Differentialgleichungen Blatt III vom 27.10.2011 Aufgabe III.1 (4 Punkte) Sei Ω R
MehrKapitel 3. Konvergenz von Folgen und Reihen
Kapitel 3. Konvergenz von Folgen und Reihen 3.1. Normierte Vektorräume Definition: Sei V ein Vektorraum (oder linearer Raum) über (dem Körper) R. Eine Abbildung : V [0, ) heißt Norm auf V, falls die folgenden
Mehr3.3 Konvergenzkriterien für reelle Folgen
3.3 Konvergenzkriterien für reelle Folgen Satz: Eine monoton wachsende, nach oben beschränkte reelle Folge a n ) n N ist konvergent mit Grenzwert lim a n = sup{a n n N} Beweis: Sei a n ) n N nach oben
MehrAnalysis I. Guofang Wang Universität Freiburg
Universität Freiburg 30.11.2016 5. Teilmengen von R und von R n Der R n ist eine mathematische Verallgemeinerung: R n = {x = (x 1,..., x n ) : x i R} = } R. {{.. R }. n mal Für x R ist x der Abstand zum
MehrReelle Zufallsvariablen
Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen
MehrKapitel 4: Nichtlineare Nullstellenprobleme
Vorlesung Höhere Mathematik: Numerik (für Ingenieure) Kapitel 4: Nichtlineare Nullstellenprobleme Jun.-Prof. Dr. Stephan Trenn AG Technomathematik, TU Kaiserslautern Sommersemester 2015 HM: Numerik (SS
MehrAufgaben und Lösungen Ausarbeitung der Übungsstunde zur Vorlesung Analysis I
Aufgaben und en Ausarbeitung der Übungsstunde zur Vorlesung Analysis I Wintersemester 2008/2009 Übung 6 Einleitung Eventuell auftretende Fragen zum Übungsblatt sollen beantwortet werden. Dazu ist es erforderlich,
MehrIterative Verfahren, Splittingmethoden
Iterative Verfahren, Splittingmethoden Theodor Müller 19. April 2005 Sei ein lineares Gleichungssystem der Form Ax = b b C n, A C n n ( ) gegeben. Es sind direkte Verfahren bekannt, die ein solches Gleichungssystem
MehrAnalysis I. 2. Übungsstunde. Steven Battilana. battilana.uk/teaching
Analysis I. Übungsstunde Steven Battilana stevenb@student.ethz.ch battilana.uk/teaching March 5, 07 Erinnerung (Euler Formel). e iϕ = cos ϕ + i sin ϕ. Die Polarform von z = x + iy C sei Euler Formel z
MehrAnalysis I - Einige Lösungen und Ergänzungen
Christian-Albrechts-Universität zu Kiel Mathematisch-Naturwissenschaftliche Fakultät Mathematisches Seminar Analysis I - Einige Lösungen und Ergänzungen von Dipl.-Math. Joscha Prochno Dipl.-Math. Dennis
MehrKommutativität. De Morgansche Regeln
1. Formale Logik Proposition 1.1. Die logischen Elementarverknüpfungen gehorchen folgenden Äquivalenzen: (1.1) (1.2) p p p p p p Idempotenz (1.3) (1.4) p q q p p q q p Kommutativität (1.5) (1.6) (p q)
Mehr