Diskontierte Markovsche Entscheidungsprozesse

Größe: px
Ab Seite anzeigen:

Download "Diskontierte Markovsche Entscheidungsprozesse"

Transkript

1 Ausarbeitung zum Seminarvortrag Diskontierte Markovsche Entscheidungsprozesse aus der Seminarreihe Spieltheorie und Glücksspiele von Prof. Dr. Alfred Müller vorgelegt von Alexander Müller Sommersemester 2009

2

3 INHALTSVERZEICHNIS II Inhaltsverzeichnis 1 Einleitung 1 2 Voraussetzungen Der Wert einer Strategie Optimalitätskriterien Markov-Strategien Vektor-Notation für Markovsche Entscheidungsprozesse Diskontierte Markovsche Entscheidungsprozesse Strategie-Auswertung Die Optimalitätsgleichungen Eigenschaften von Lösungen der Optimalitätsgleichungen Lösungen der Optimalitätsgleichungen Existenz von optimalen Strategien Die Wertiteration 15 Literaturverzeichnis III

4 1 EINLEITUNG 1 1 Einleitung Diese Ausarbeitung behandelt die Theorie über diskontierte Markovsche Entscheidungsprozesse (MDP). Nachdem in Teil I der Seminarreihe bereits endlich-stufige MDP behandelt wurden geht es in Teil II um ein Modell mit unendlichem Planungshorizont und dem erwarteten diskontierten Gesamtgewinn-Optimalitätskriterium. Die Resultate dieses Modells bilden einen Standard für die Theorie über Modelle mit anderen Optimaltitätskriterien. Mit der Diskoniterung der zukünftigen Gewinne erhält man den heutigen Wert des MDP. Somit lassen sich verschiedene Strategien über ihren heutigen erwarteten Wert vergleichen und bewerten. Zum Nachweis der Existenz einer Lösung der Optimalitätsgleichung und der Konvergenz des Algorithmus zum Lösen der Gleichung (Wertiteration) wird die Theorie über normierte lineare Räume verwendet. Der Banachsche Fixpunktsatz spielt hier eine zentrale Rolle. Mit der Voraussetzung eines unendlichen Planungshorizonts werden 3 Annahmen getroffen: (1) Stationäre Gewinne und Übergangswahrscheinlichkeiten, d.h. r t (s, a) =r(s, a), p t (j s, a) =p(j s, a) t. (2) Beschränkte Gewinne: r(s, a) M< a A, s S. (3) Zukünftige Gewinne werden mit einem Diskontierungsfaktor auf den heutigen Zeitpunkt diskontiert, 0 < 1. Das heißt also die Gewinne, Übergangswahrscheinlichkeiten und die Aktionenräume D K (K {HR, HD, MR, MD}) ändern sich nicht im Zeitablauf.

5 2 VORAUSSETZUNGEN 2 2 Voraussetzungen 2.1 Der Wert einer Strategie In einem stationären Markovschen Entscheidungsprozess mit unendlichem Planungshorizont besitzt jede Strategie π = (d 1,d 2,...) einen bivariaten diskreten Gewinnprozess, {(X t,r(x t,y t )); t =1, 2,...}. X t beschreibt den Zustand des Systems zum Zeitpunkt t und r(x t,y t ) ist der Gewinn, der im Zustand X t bei der Wahl von Aktion Y t anfällt. Die Entscheidungsregel d t ermittelt die Aktion Y t wie folgt: Für deterministisches d t : Y t = d t (X t ) für d t D MD und Y t = d t (Z t ) für d t D HD, wobei die Zufallsvariable Z t die Vergangenheit bis zum Zeitpunkt t beschreibt. Für zufälliges d t : und P (Y t = a) =q dt(x t)(a) für d t D MR P (Y t = a) =q dt(z t)(a) für d t D HR. Für eine Markovsche Strategie π ist {(X t,r(x t,y t )); t =1, 2,...} ein Markovscher Gewinnprozess. Definition 2.1 Der erwartete diskontierte Gesamtgewinn von Strategie π Π HR ist definiert durch ( N ) v(s) π := lim N Eπ s t 1 r(x t,y t ) t=1 ( ) = Es π t 1 r(x t,y t ) (2.1) für 0 < 1. t=1 Der Grenzwert existiert, falls sup s S sup r(s, a) = M<, a A s dies ist aber gerade durch Annahme (2) vorausgesetzt.

6 2 VORAUSSETZUNGEN Optimalitätskriterien Definition 2.2 Eine Strategie π ist (diskontiert-) optimal für festes, 0 < 1, falls Der Wert des MDP ist definiert durch v π (s) v π (s) für alle s S, π Π HR. v (s) := sup π Π HR v π (s). Eine optimale Strategie π Π K (K = HR, HD, MR oder MD) existiert genau dann, wenn v π (s) =v(s) für alle s S. 2.3 Markov-Strategien In diesem Abschnitt wird gezeigt, dass zu jeder von der Vorgeschichte abhängigen Strategie und Ausgangszustand eine zufällige Markov-Strategie mit dem gleichen erwarteten diskontierten Gesamtgewinn existiert. Satz 2.3 Sei π =(d 1,d 2,...) Π HR. Dann existiert für alle s S eine Strategie π Π MR, für die gilt: P π (X t = j, Y t = a X 1 = s) =P π (X t = j, Y t = a X 1 = s), t =1, 2,.... (2.2) Beweis: Sei s S fest. Für alle j S und alle a A j sei die zufällige Markovsche Entscheidungsregel d t definiert durch q d t (j)(a) := P π (Y t = a X t = j, X 1 = s), t =1, 2,.... (2.3) Sei π =(d 1,d 2,...), so dass aus (2.3) folgt P π (Y t = a X t = j) =P π (Y t = a X t = j, X 1 = s) = P π (Y t = a X t = j, X 1 = s). Mittels Induktion wird gezeigt, dass (2.3) für d t (wie in (2.3) definiert) gilt. t =1: klar. Induktions-Annahme: (2.3) gilt für t =2, 3,..., n 1. Dann folgt P π (X n = j X 1 = s) = P π (X n 1 = k, Y n 1 = a X 1 = s) p(j k, a) k S a A k I.A. = k S a A k P π = P π (X n = j X 1 = s). (2.4) (X n 1 = k, Y n 1 = a X 1 = s) p(j k, a) (2.5)

7 2 VORAUSSETZUNGEN 4 P π (X n = j, Y n = a X 1 = s) =P π (Y n = a X n = j) P π (X n = j X 1 = s) = P π (Y n = a X n = j, X 1 = s) P π (Y n = a X n = j) (2.4), (2.5) = P π (X n = j, Y n = a X 1 = s). Satz 2.4 Sei π Π HR. Dann existiert für alle s S ein π Π MR mit v π (s) =v π (s) für 0 < 1. Beweis: Folgt sofort aus Satz 2.3. Als Konsequenz folgt, dass es genügt π Π MR Π HR zu betrachten, da für alle s S zu jedem π Π HR ein π Π MR mit identischem diskontiertem Gesamtgewinn existiert, so dass v(s) := sup v(s) π = sup v(s). π π Π HR π Π MR 2.4 Vektor-Notation für Markovsche Entscheidungsprozesse Für diskretes S wird folgende Notation verwendet: V := {v : S IR : v beschränkt}. V ist ein vollständiger, abgeschlossener Raum mit sup-norm v := sup s S v(s). e V : konstante Funktion mit e(s) = 1 für alle s S. H : Matrix-Norm mit H := sup s S H(j s), wobei H(j s) die (s, j)-te Komponente von der Matrix H darstellt. S : Anzahl der Elemente von S. j S Für d D MD definiere r d (s) und p d (j s) durch Für d D MR sei r d (s) := r(s, d(s)) und p d (j s) := p(j s, d(s)). r d (s) := a A s q d(s) (a) r(s, a), p d (j, s) := a A s q d(s) (a) p(j s, a). r d bezeichnet also einen Vektor mit S Komponenten (s-te Komponente: r d (s)), den Gewinn-Vektor, und P d eine S S -Matrix mit (s, j)-tem Eintrag gegeben durch p d (j s), die Übergangsmatrix (auch als Übergangsgesetz bezeichnet) entsprechend der Markovschen Entscheidungsregel d.

8 2 VORAUSSETZUNGEN 5 Lemma 2.5 S sei diskret, r(s, a) M für alle a A, s S, 0 < 1. Dann gilt r d + P d v V für alle v V, d D MR. Beweis: Aus r(s, a) M a A, s S folgt r d M d D MR, also r d V. Da P d Wahrscheinlichkeits-Matrix P d =1. P d v P d v = v. Somit gilt P d v V für alle v V, so dass insgesamt r d + P d v V gilt. Für π =(d 1,d 2,...) Π MR erfüllt die (s, j)-te Komponente der t-schritt Übergangswahrscheinlichkeiten-Matrix P t π P t π(j s) =[P dt P dt 1 P d1 ](j s) =P π (X t+1 = j X 1 = s). Der Erwartungswert mit Bezug zu der zur Strategie gehörenden Markov-Kette wird berechnet durch Es π (v(x t )) = Pπ t 1 v(s) = j S Pπ t 1 (j s) v(j) für v V und 1 t<. Mit dieser Darstellung und der Definition von v π folgt für 0 1 v π = t=1 t 1 P t 1 π r dt, (2.6) falls der Grenzwert existiert.

9 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 6 3 Diskontierte Markovsche Entscheidungsprozesse Die Optimaltitätsgleichung und ihre Lösung spielen eine zentrale Rolle in der Theorie von diskontierten Markovschen Entscheidungsprozessen. In diesem Abschnitt wird gezeigt: Die Optimalitätsgleichung hat genau eine Lösung in V. Der Wert des diskontierten MDP erfüllt die Optimalitätsgleichung. Die Optimalitätsgleichung charakterisiert stationäre optimale Strategien. Optimale Strategien existieren unter bestimmten Bedingungen für Zustände, Aktionen, Gewinne und Übergangswahrscheinlichkeiten. 3.1 Strategie-Auswertung Sei π =(d 1,d 2,...) Π MR. Mit der Definition des Erwartungswerts des diskontierten Gesamtgewinns in (2.1), Gleichung (2.6) und der Wahl von P 0 π := I erhält man v π = t=1 t 1 Pπ t 1 r dt = r d1 + P d1 r d2 + 2 P d1 P d2 r d = r d1 + P d1 ( rd2 + P d2 r d3 + 2 P d2 P d3 r d ), (3.1) so dass v π dargestellt werden kann als v π = r d1 + P d1 v π (3.2) mit π =(d 2,d 3,...). Dies verdeutlicht, dass der diskontierte Gewinn zu Strategie π gleich dem Gewinn eines Einperioden-Problems ist unter Verwendung von Entscheidungsregel d 1 plus den erwarteten diskontierten Gesamtgewinn aus Strategie π. Wählt man nun π als stationäre Strategie d π = π und damit wird aus (3.2) := (d, d,...) mit d D MR, so folgt v d = r d + P d v d. (3.3) Somit erfüllt v d das Gleichungssystem v = r d + P d v. Es wird gezeigt, dass dies die einzige Lösung ist für 0 < 1. Für v V sei die lineare Transformation L d definiert durch L d v := r d + P d v.

10 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 7 Angewendet auf (3.3) erhält man Man sieht, dass v d v d ein Fixpunkt von L d in V ist. = L d v d. (3.4) Satz 3.1 Sei 0 < 1. Dann ist für jede stationäre Strategie d := (d, d,...), d D MR, v d die einzige Lösung in V von v d kann dargestellt werden als v = r d + P d v. (3.5) v d =(I P d ) 1 r d. (3.6) Beweis: Folgt aus der vorangegangenen Herleitung und der Anwendung des Banachschen Fixpunktsatzes (siehe Satz 3.6). 3.2 Die Optimalitätsgleichungen Unter den oben genannten 3 Annahmen vereinfacht sich die Optimalitätsgleichung bei endlichem Planungshorizont { } u t (h t ) = sup a A st r t (s t,a)+ j S t =1,..., N 1 und h t =(h t 1,a t 1,s t ) H t, zu { v n (s) = sup a A s r(s, a)+ j S Betrachtet man den Grenzwert von (3.7), so erhält man: p t (j s t,a) u t+1 (h t, a, j) p(j s, a) v n+1 (j) },. (3.7) Definition 3.2 (Optimalitätsgleichungen, Bellman Gleichungen) Unter den Annahmen (1)-(3) sind die Bellman Gleichungen definiert als { } v(s) = sup a A s r(s, a)+ j S p(j s, a) v(j) Für v V sei der (nichtlineare) Operator L auf V definiert durch. (3.8) Lv := sup d D MD {r d + P d v}, (3.9) wobei das Supremum über A s für alle s S berechnet wird. Da S diskret und r d beschränkt ist, folgt aus Lemma 2.5, dass Lv V für alle v V gilt. Die Verwendung einer deterministischen Markovschen Entscheidungsregel in (3.9) wird durch die folgende Proposition gerechtfertigt.

11 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 8 Proposition 3.3 Für alle v V und 0 1 gilt sup {r d + P d v} = sup {r d + P d v}. d D MD d D MR Beweis: Da D MD D MR folgt trivialerweise sup {r d + P d v} sup {r d + P d v}. d D MD d D MR Es gilt: Sei w eine reellwertige Funktion auf einer beliebigen diskreten Menge W und sei q( ) eine Wahrscheinlichkeitsverteilung auf W. Dann gilt sup w(u) q(u) w(u). (3.10) u W u W [Setze w = sup u W w(u) w = u W q(u) w u W q(u) w(u)] Sei v V und δ D MR. Wendet man nun für alle s S mit W = A s,q( ) =q δ ( ) und w( ) =r(s, )+ p(j s, ) v(j) j S Gleichung (3.10) an, so erhält man { sup a A s r(s, a)+ j S Somit gilt für alle δ D MR p(j s, a) v(j) } a A s q δ (a) [ r(s, a)+ j S p(j s, a) v(j) ]. sup {r d + P d v} r δ + P δ v. d D MD sup {r d + P d v} sup {r d + P d v}. d D MD d D MR Die Optimalitätsgleichung (3.8) kann in Vektor-Notation dargestellt werden als v = sup d D MD {r d + P d v} = Lv. (3.11) 3.3 Eigenschaften von Lösungen der Optimalitätsgleichungen Der folgende Satz gibt Auskunft über untere und obere Schranken von v sowie eine Eindeutigkeitsaussage über die Lösung. Man beachte, dass Teil (c) keine Aussage über die Existenz einer Lösung zu Lv = v gibt. Der Beweis des Satzes beruht auf der Überlegung, dass für 0 < 1 der Tail der erwarteten diskontierten Gewinnfolge beliebig klein wird.

12 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 9 Satz 3.4 Es existiere ein v V, so dass (a) v Lv. Dann gilt v v ; (b) v Lv. Dann gilt v v ; (c) v = Lv. Dann ist v das einzige Element von V mit dieser Eigenschaft und es gilt v = v. Beweis: so dass Zu (a): Sei π =(d 1,d 2,...) Π MR. Mit Proposition 3.3 gilt v sup d D MD {r d + P d v} = sup d D MR {r d + P d v}, v r d1 + P d1 v r d1 + P d1 (r d2 + P d2 v)=r d1 + P d1 r d2 + 2 P d1 P d2 v. Induktiv folgt für n 1 v r d1 + P d1 r d n 1 P d1 P dn 1 r dn + n Pπ n v. v v π n Pπ n v k Pπ k r dk+1. (3.12) Sei ε> 0 beliebig. Mit n P n π v n v und 0 < 1 gilt für n groß genug k=n ε 2 e n P n π v ε 2 e. Weiterhin folgt mit Annahme (2), r(s, a) M < a A, s S, n Me 1 k Pπ k r dk+1. k=n Wählt man also n groß genug, so kann die Summe in (3.12) nach unten und oben mit (ε/2)e abgeschätzt werden. Also folgt insgesamt Da ε beliebig war folgt mit Satz 2.4 v(s) v π (s) ε s S, ε > 0. v(s) sup v(s) π = sup v(s) π =v(s), π Π MR π Π HR d.h. (a) gilt. Zu (b): Da v Lvexistiert zu jedem ε> 0 beliebig ein d D MD, so dass v r d + P d v. Man kann leicht zeigen, dass für v 1,v 2 V mit v 1 v 2 (I P d ) 1 v 1 (I P d ) 1 v 2 folgt (Positivität von (I P d ) 1 ausnutzen). v (I P d ) 1 (r d + εe) =v d + (1 ) 1 εe. Also gilt v sup π Π HR v π + (1 ) 1 εe, und da ε> 0 beliebig folgt (b). Zu (c): folgt als Kombination aus Teil (a) und (b).

13 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE Lösungen der Optimalitätsgleichungen In diesem Abschnitt folgt ein Existenzbeweis einer Lösung der Optimalitätsgleichungen durch Anwendung des Banachschen Fixpunktsatzes. Definition 3.5 Sei U ein Banachraum (vollständiger, normierter linearer Raum). Ein Operator T : U U heißt Kontraktion, wenn eine Zahl mit 0 < 1 existiert, so dass Tv Tu v u für alle u, v U gilt. Satz 3.6 (Banachscher Fixpunktsatz) Sei U ein Banachraum und T : U U eine Kontraktion. Dann gilt: (a) Es existiert genau ein v U, so dass Tv = v ; (b) Für beliebiges v 0 U konvergiert die Folge (v n ) definiert durch gegen v. v n+1 = Tv n = T n+1 v 0 (3.13) Beweis: Sei (v n ) definiert wie in (3.13). Dann gilt für alle m 1 v n+m v n m 1 k=0 m 1 v n+k+1 v n+k = T n+k v 1 T n+k v 0 k=0 m 1 n+k v 1 v 0 k=0 geom.summe = n (1 m ) 1 v 1 v 0. (3.14) Da 0 < 1 folgt, dass (v n ) eine Cauchyfolge ist. Aus der Vollständigkeit von U folgt, dass (v n ) einen Grenzwert v U besitzt. Bleibt zu zeigen: v ist ein Fixpunkt von T. Es gilt 0 Tv v Ungl. Tv v n + v n v = Tv Tv n 1 + v n v v v n 1 + v n v n 0.

14 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 11 Tv v =0. Zur Eindeutigkeit von v : Seien v, v Fixpunkte von T. v v = Tv Tv v v. Da < 1 folgt v v =0 v = v. Um den Satz auf das diskontierte Modell anzuwenden wird gezeigt, dass L eine Kontraktion in V ist. Proposition 3.7 Sei 0 < 1. Dann gilt: L ist Kontraktion in V. Beweis: Da S diskret folgt L : V V. Seien u, v V und es gelte Lv(s) Lu(s) für ein festes s S. Weiterhin sei { } a s arg max a A s r(s, a)+ j S p(j s, a) v(j). 0 Lv(s) Lu(s) r(s, a s)+ j S = j S j S = v u. p(j s, a s) v(j) r(s, a s) j S p(j s, a s)[v(j) u(j)] p(j s, a s) v u p(j s, a s) u(j) Wiederholt man dieses Argument für den Fall Lv(s) Lu(s), so erhält man Lv(s) Lu(s) v u (3.15) für alle s S. Nimmt man nun das Supremum über s in (3.15), so folgt die Behauptung. Es folgt die Hauptaussage aus der Theorie über diskontierte Markovsche Entscheidungsprozesse: Satz 3.8 Sei S endlich oder abzählbar, r(s, a) beschränkt und 0 < 1. (a) Dann existiert ein v V mit Lv = v (Lv = v ). Weiterhin gilt: v ist das einzige Element mit dieser Eigenschaft und v = v.

15 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 12 (b) Für alle d D MR existiert genau ein v V mit L d v = v. Es gilt v = v d. Beweis: Da V ein Banachraum ist folgt mit Prop. 3.7, dass L eine Kontraktionen ist und somit die Voraussetzungen von Satz 3.6 erfüllt sind. Daher existiert genau eine Lösung v zu Lv = v bzw. Lv = v. Mit Satz 3.4(c) folgt, dass v = v ist. Teil (b) folgt sofort aus (a) durch Wahl von D = {d}. 3.5 Existenz von optimalen Strategien Es wird gezeigt, dass die Existenz einer Entscheidungsregel, die das Supremum in (3.9) annimmt für v = v, die Existenz einer stationären optimalen Strategie impliziert. Satz 3.9 Eine Strategie π Π HR ist optimal genau dann, wenn v π Optimalitätsgleichung ist. eine Lösung der Beweis: Sei π optimal, dann ist v π = v. Aus Satz 3.8(a) folgt, dass v π die Gleichung Lv = v erfüllt. Dann folgt mit Satz 3.4(c) v π = v, also ist π optimal. Definition 3.10 Eine Entscheidungsregel d D MD wird konservierend genannt, falls L d v := r d + P d v = v, (3.16) oder alternativ, wenn d arg max d D MD {r d + P d v }. Der folgende Satz zeigt, dass gerade solche Entscheidungsregeln optimal sind. Er bietet also eine Methode zur Identifikation von stationären optimalen Strategien. Satz 3.11 Sei S diskret und das Supremum in (3.9) werde angenommen für alle v V. Dann gilt: (a) Es existiert eine konservierende Entscheidungsregel d D MD.

16 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 13 (b) Ist d konservierend, so ist die deterministische stationäre Strategie (d ) optimal. (c) v = sup v d. d D MD Beweis: Zu (a): folgt aus v V und der Annahme des Supremums in (3.9). Zu (b): Mit Satz 3.4(c) gilt, dass v die einzige Lösung von Lv = v ist. Somit folgt aus (3.16) v = Lv = r d + P d v = L d v, so dass mit Satz 3.1 v d = v. Zu (c): Folgerung von Teil (b). Man beachte, dass das Supremum des erwarteten diskontierten Gesamtgewinns in Teil (c) über die Menge der deterministischen stationären Strategien gleich dem Supremum über die Menge aller Strategien ist, also für alle s S. sup v d d D MD (s) = sup π Π HR v π (s) Im diskontierten Fall mit diskretem S folgt also aus der Annahme des Supremums in (3.9) die Existenz von konservierenden Entscheidungsregeln und somit die Existenz stationärer optimaler deterministischer Strategien. Es folgen weitere Bedingungen für die Existenz einer stationären optimalen Strategie. Satz 3.12 Es existiere (a) eine konservierende Entscheidungsregel, oder (b) eine optimale Strategie. Dann existiert eine optimale deterministische stationäre Strategie. Beweis: Zu (a): Satz 3.11(b) direkt anwendbar. Zu (b): Es existiere eine optimale Strategie π Π HR. Sei π =(d,π ), d D MR. Dann gilt v π = r d + P d v π r d + P d v π { } sup rd + P d v π d D MD = Lv π Satz 3.9 = v π.

17 3 DISKONTIERTE MARKOVSCHE ENTSCHEIDUNGSPROZESSE 14 Daher ist d konservierend und die Behauptung folgt aus (a). Der nächste Satz gibt hinreichende Bedingungen für die Annahme des Supremums an (und damit für die Existenz einer konservierenden Entscheidungsregel und einer stationären optimalen Strategie). Satz 3.13 Sei S diskret und es gelte entweder (a) A s ist endlich für alle s S oder (b) A s ist kompakt, r(s, a) ist stetig in a für alle s S, und für alle j S und s S ist p(j s, a) stetig in a oder (c) A s ist kompakt, r(s, a) ist rechtsseitig stetig in a für alle s S, und für alle j S und s S ist p(j s, a) linksseitig stetig in a. Dann existiert eine optimale deterministische stationäre Strategie. Beweis: Analog zum Beweis im endlich-stufigen Modell (vgl. Puterman: Markov Decision Processes, Prop ). Existieren keine optimalen Strategien, so sucht man ε-optimale Strategien. Definition 3.14 Man nennt eine Strategie π ε ε-optimal für ε> 0, falls für alle s S oder in Vektor-Notation v π ε (s) v (s) ε, v π ε v εe. Satz 3.15 Sei S endlich oder abzählbar, dann existiert für alle ε> 0 eine ε-optimale deterministische stationäre Strategie. Beweis: Mit folgt Aus Satz 3.8 folgt Lv = v. Sei ε> 0 und wähle d ε D MD, so dass also ist (d ε ) ε-optimal. r dε + P dε v sup d D MD {r d + P d v } (1 )εe = v (1 )εe. v (dε) (I P dε )v (dε) v (dε) v (dε) v εe, = r dε + P dε v (dε) = r dε =(I P dε ) 1 r dε

18 4 DIE WERTITERATION 15 4 Die Wertiteration Die Wertiteration ist ein Algorithmus zum Lösen von diskontierten Markovschen Entscheidungsprozessen, d.h. zum Lösen der Otimalitätsgleichung. Er ist auch bekannt unter den Namen sukzessive Approximation, pre-jacobi Iteration oder dynamische Programmierung. In diesem Kapitel wird vorausgesetzt, dass das Supremum in (3.9) für alle v V ein Maximum ist. Dies ist nicht notwendig für die Konvergenz des Algorithmus, vereinfacht aber die Darstellung. Somit ist folgendes Gleichungssystem zu lösen: { v(s) = max a A s r(s, a)+ j S p(j s, a) v(j) }. Der folgende Algorithmus findet eine stationäre ε-optimale Strategie, (d ε ), und gibt eine Fehlerabschätzung. Wertiteration Algorithmus 1. Wähle v 0 V, ε> 0 und setze n =0. 2. Für alle s S berechne v n+1 (s) durch { v n+1 (s) = max a A s r(s, a)+ j S p(j s, a) v n (j) }. (4.1) 3. Falls v n+1 v n (1 ) <ε 2, (4.2) dann gehe zu Schritt 4. Sonst setze n := n +1und gehe zurück zu Schritt Für alle s S wähle d ε (s) arg max a A s { r(s, a)+ j S p(j s, a) v n+1 (j) }. (4.3) Gleichung (4.1) kann in Vektor-Notation dargestellt werden durch v n+1 = Lv n, (4.4)

19 4 DIE WERTITERATION 16 und (4.3) kann dargestellt werden durch d ε arg max { rd + P d v n+1}. (4.5) d D MD Der folgende Satz sichert die Konvergenz des Algorithmus. Satz 4.1 Sei v 0 V, ε> 0 und (v n ) erfülle (4.4) für n 1. Dann gilt (a) lim n v n v =0, (b) N <, so dass (4.2) n N erfüllt ist, (c) die stationäre Strategie (d ε ) definiert in (4.3) ist ε-optimal und (d) v n+1 v < ε 2 falls (4.2) gilt. Beweis: Teil (a) und (b) folgen direkt aus Satz 3.6 (Banachscher Fixpunktsatz). Sei (4.2) erfüllt für ein n und d ε erfülle (4.3). Dann gilt v d ε v v d ε v n+1 + v n+1 v. (4.6) Da v d ε folgt ein Fixpunkt von L dε ist und als Konsequenz aus (4.3) L dε v n+1 = Lv n+1 gilt, v d ε v n+1 = L dε v d ε v n+1 L dε v d ε Lv n+1 + Lv n+1 v n+1 = L dε v d ε L dε v n+1 + Lv n+1 Lv n L,L dε Kontr. v d ε v n+1 + v n+1 v n. v d ε v n+1 1 vn+1 v n (4.2) < ε 2. Weiterhin gilt v n+1 v = v n+1 Lv v n+1 v Lv n Lv n+1 + Lv n+1 Lv v n v n+1 + v n+1 v. 1 vn v n+1 (4.2) < ε 2. Insgesamt folgt also v d ε v < ε.

20 4 DIE WERTITERATION 17 (c) und (d). Der Algorithmus findet also eine ε-optimale stationäre Strategie nach einer endlichen Anzahl von Iterationen. Es folgt eine Bedingung für Monotonie der Iterationen des Algorithmus (nützlich zum Vergleich von Konvergenzraten). Proposition 4.2 (a) Seien u, v V mit v u. Dann gilt Lv Lu. (b) Es existiere ein N > 0, so dass Lv N m 0. ( ) v N. ( ) N+m+1 v v N+m für alle Beweis: Zunächst wird gezeigt, dass L monoton ist. Sei δ arg max{r d + P d u}. d D MD Da P δ u P δ v gilt (a). Lu = r δ + P δ u r δ + P δ v max d D MD{r d + P d v} = Lv. Aus Teil (a) folgt sofort L m v L m u für alle m 1. Somit gilt v N+m+1 = L m Lv N L m v N = v N+m. Die Wertiteration konvergiert also monoton gegen v ( ), falls Lv0 v 0. Dies gilt immer im Fall von r(s, a) 0 oder r(s, a) 0 mit v 0 =0. Hier folgt mit Satz 3.4, dass v 0 untere (obere) Schranke von v ist. Der nächste Satz fasst die Konvergenzeigenschaften der Wertiteration zusammen: Satz 4.3 Sei v 0 V und (v n ) seien die Iterationen des Wertiterations-Algorithmus. Dann gelten folgende globale Konvergenzeigenschaften: (a) Konvergenz ist linear zur Rate, (b) die asymptotische durchschnittliche Konvergenzrate definiert durch ist gleich, lim sup n [ ] yn y 1/n y 0 y

21 4 DIE WERTITERATION 18 (c) v vn = O( n ), n, (d) für alle n 1 gilt die folgende Fehlerabschätzung: v n v (e) für alle d n arg max d D MD{r d + P d v n } gilt n 1 v1 v 0, v (dn) v 2n 1 v1 v 0. Beweis: Für beliebiges v 0 V erfüllen die Iterationen Sei v 0 = v + ke mit k IR\{0}. Somit gilt Gleichheit in (4.7), (a). v n+1 v = Lv n Lv v n v. (4.7) v 1 v = (v 0 v ). Iteriert man Gleichung (4.7) und teilt beide Seiten durch v 0 v, so erhält man durch Ziehen der n-ten Wurzel lim sup n [ v n v ] 1/n v 0 v. Hier gilt wiederum Gleichheit für v 0 = v + ke. (b). Teil (c) folgt erneut durch Iterieren von (4.7) und Dividieren durch n. Man erhält lim sup n v n v n v 0 v. Im Beweis zu Satz 4.1(c) wurde gezeigt, dass (d). v n+1 v 1 vn+1 v n v n v 1 vn v n 1 n 1 v1 v 0

22 4 DIE WERTITERATION 19 Zu (e): v (dn) v v (dn) v n + v n v =: A + B. Bleibt zu zeigen: A n 1 v1 v 0. Aus dem Beweis von Satz 4.1(c) folgt weiterhin: Daraus folgt die Behauptung. v d n v n+1 1 vn+1 v n v d n v n 1 vn v n 1 n 1 v1 v 0.

23 LITERATUR III Literatur [1] Martin L. Puterman: Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley & Sons, New Jersey, 2nd ed

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten

Mehr

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit Vortrag zum Seminar zur Analysis, 10.05.2010 Michael Engeländer, Jonathan Fell Dieser Vortrag stellt als erstes einige Sätze zu Cauchy-Folgen auf allgemeinen metrischen Räumen vor. Speziell wird auch das

Mehr

3.3. KONVERGENZKRITERIEN 67. n+1. a p und a n. beide nicht konvergent, so gilt die Aussage des Satzes 3.2.6

3.3. KONVERGENZKRITERIEN 67. n+1. a p und a n. beide nicht konvergent, so gilt die Aussage des Satzes 3.2.6 3.3. KONVERGENZKRITERIEN 67 und l n+1 wiederum als kleinsten Wert, so dass A 2n+2 = A 2n+1 + l n+1 k=l n < A. Alle diese Indizes existieren und damit ist eine Folge {A k } k N definiert. Diese Folge konvergiert

Mehr

piiq oder p 8, aq, p 8, as, pa, `8q, ra, `8q mit einer reellen Zahl a; piiiq oder p 8, `8q R. [6 Punkte] Achtung: Denken Sie auch an den Fall I!

piiq oder p 8, aq, p 8, as, pa, `8q, ra, `8q mit einer reellen Zahl a; piiiq oder p 8, `8q R. [6 Punkte] Achtung: Denken Sie auch an den Fall I! Analysis I Wintersemester 2015/16 9. Übungsblatt, Lösungsbeispiele Jun. Prof. Dr. Christian Reiher, Pascal Gollin Alexander Block, Hendrik Niehaus, Jakob Kneip, Jakob Schnitzer Aufgabe 5 Es sei I Ď R eine

Mehr

Stochastische dynamische Optimierung

Stochastische dynamische Optimierung Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,

Mehr

Analysis I für Studierende der Ingenieurwissenschaften

Analysis I für Studierende der Ingenieurwissenschaften Analysis I für Studierende der Ingenieurwissenschaften Ingenuin Gasser Department Mathematik Universität Hamburg Technische Universität Hamburg Harburg Wintersemester 2008/2009 1 Definition: Sei M R, alsom

Mehr

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

Einführung in die Theorie der Markov-Ketten. Jens Schomaker Einführung in die Theorie der Markov-Ketten Jens Schomaker Markov-Ketten Zur Motivation der Einführung von Markov-Ketten betrachte folgendes Beispiel: 1.1 Beispiel Wir wollen die folgende Situation mathematisch

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

22 KAPITEL 1. GRUNDLAGEN. Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion

22 KAPITEL 1. GRUNDLAGEN. Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion KAPITEL 1. GRUNDLAGEN Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion 1 für 0 x < 1 g 0 (x) = 1 1 für < x 1. Natürlich gibt dies von

Mehr

Lösung zur Serie 8. x + 2x 2 sin(1/x), falls x 0, f(x) := 0, falls x = 0. = lim

Lösung zur Serie 8. x + 2x 2 sin(1/x), falls x 0, f(x) := 0, falls x = 0. = lim Lösung zur Serie 8 Aufgabe 40 Wir zeigen in dieser Aufgabe, dass die Voraussetzung dass die Funktion in einer kleinen Umgebung injektiv sein muss, beim Satz über die Umkehrfunktion notwendig ist. Hierzu

Mehr

(alternierendes Vorzeichen) a n := ( 1)n n + 1 a n := 3n 2 7n a n := n(n 1)(n 2), n 3

(alternierendes Vorzeichen) a n := ( 1)n n + 1 a n := 3n 2 7n a n := n(n 1)(n 2), n 3 ANALYSIS FÜR PHYSIK UND VERWANDTE FÄCHER I 43 2. Folgen und Reihen Folgen und Reihen werden in jedem Analysislehrbuch besprochen, siehe etwa [H, Kapitel III], [K, Kapitel 5], [J2, Kapitel 23] oder [M,

Mehr

ist ein n-dimensionaler, reeller Vektorraum (vgl. Lineare Algebra). Wir definieren auf diesem VR ein Skalarprodukt durch i y i i=1

ist ein n-dimensionaler, reeller Vektorraum (vgl. Lineare Algebra). Wir definieren auf diesem VR ein Skalarprodukt durch i y i i=1 24 14 Metrische Räume 14.1 R n als euklidischer Vektorraum Die Menge R n = {(x 1,..., x n ) x i R} versehen mit der Addition und der skalaren Multiplikation x + y = (x 1 + y 1,..., x n + y n ) λx = (λx

Mehr

Analysis I für Studierende der Ingenieurwissenschaften

Analysis I für Studierende der Ingenieurwissenschaften Analysis I für Studierende der Ingenieurwissenschaften Ingenuin Gasser Department Mathematik Universität Hamburg Technische Universität Hamburg Harburg Wintersemester 2008/2009 3.2 Konvergenzkriterien

Mehr

Übungsaufgaben zu Analysis 1 Lösungen von Blatt VI vom

Übungsaufgaben zu Analysis 1 Lösungen von Blatt VI vom Prof. Dr. Moritz Kaßmann Fakultät für Mathematik Wintersemester 04/05 Universität Bielefeld Übungsaufgaben zu Analysis Lösungen von Blatt VI vom 0..4 Aufgabe VI. (6 Punkte) Gegeben sind die Folgen (a n)

Mehr

Kapitel 5 KONVERGENZ

Kapitel 5 KONVERGENZ Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz

Mehr

Ziel: Iterative Lösung der (nichtlinearen) Gleichung f(x) = 0.

Ziel: Iterative Lösung der (nichtlinearen) Gleichung f(x) = 0. 6.4 Fixpunkt-Iteration Ziel: Iterative Lösung der (nichtlinearen) Gleichung f(x) = 0. Möglichkeiten: Bisektionsverfahren (Intervallhalbierung) Newton-Verfahren, x k+1 = x k f(x k) f (x k ) für k = 0, 1,

Mehr

Inexakte Newton Verfahren

Inexakte Newton Verfahren Kapitel 3 Inexakte Newton Verfahren 3.1 Idee inexakter Newton Verfahren Wir betrachten weiterhin das nichtlineare Gleichungssystem F (x) = mit einer zumindest stetig differenzierbaren Funktion F : R n

Mehr

3.2 Konvergenzkriterien für reelle Folgen

3.2 Konvergenzkriterien für reelle Folgen 3.2 Konvergenzkriterien für reelle Folgen Definition: Eine reelle Folge a n ) n N heißt monoton wachsend : n < m : a n a m streng monoton wachsend : n < m : a n < a m nach oben beschränkt : C R : n : a

Mehr

für die Wahrscheinlichkeit, dass die Markov-Kette in t Schritten von Zustand i in Zustand j übergeht. Es ist also P (t) = (P t ) ij.

für die Wahrscheinlichkeit, dass die Markov-Kette in t Schritten von Zustand i in Zustand j übergeht. Es ist also P (t) = (P t ) ij. 8 Markov-Ketten 8.1 Grundlegendes zu Markov-Ketten Eine Markov-Kette ist ein stochastischer Prozess, der in diskreten Zeitschritten abläuft. Dabei wird jeweils von einem Zustand in einen nächsten übergegangen.

Mehr

Übungsblatt 2 - Analysis 2, Prof. G. Hemion

Übungsblatt 2 - Analysis 2, Prof. G. Hemion Tutor: Martin Friesen, martin.friesen@gmx.de Übungsblatt 2 - Analysis 2, Prof. G. Hemion Um die hier gestellten Aufgaben zu lösen brauchen wir ein wenig Kentnisse über das Infimum bzw. Supremum einer Menge.

Mehr

Kompaktheit und Überdeckungen. 1 Überdeckungskompaktheit

Kompaktheit und Überdeckungen. 1 Überdeckungskompaktheit Vortrag zum Proseminar zur Analysis, 17.05.2010 Min Ge, Niklas Fischer In diesem Vortrag werden die Eigenschaften von kompakten, metrischen Räumen vertieft. Unser Ziel ist es Techniken zu erlernen, um

Mehr

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P. 2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet

Mehr

Stetigkeit. Definitionen. Beispiele

Stetigkeit. Definitionen. Beispiele Stetigkeit Definitionen Stetigkeit Sei f : D mit D eine Funktion. f heißt stetig in a D, falls für jede Folge x n in D (d.h. x n D für alle n ) mit lim x n a gilt: lim f x n f a. Die Funktion f : D heißt

Mehr

a 0, a 1, a 2, a 3,... Dabei stehen die drei Pünktchen für unendlich oft so weiter.

a 0, a 1, a 2, a 3,... Dabei stehen die drei Pünktchen für unendlich oft so weiter. 7 Folgen 30 7 Folgen Wir betrachten nun (unendliche) Folgen von Zahlen a 0, a, a 2, a 3,.... Dabei stehen die drei Pünktchen für unendlich oft so weiter. Bezeichnung Wir bezeichnen mit N die Menge der

Mehr

Institut für Analysis WS 2014/15 PD Dr. Peer Christian Kunstmann Dipl.-Math. Leonid Chaichenets

Institut für Analysis WS 2014/15 PD Dr. Peer Christian Kunstmann Dipl.-Math. Leonid Chaichenets Institut für Analysis WS 4/5 PD Dr. Peer Christian Kunstmann 9..4 Dipl.-Math. Leonid Chaichenets Höhere Mathematik III für die Fachrichtung Physik Lösungsvorschläge zum 5. Übungsblatt Aufgabe : (a) Sei

Mehr

2.3 Eigenschaften linearer Operatoren

2.3 Eigenschaften linearer Operatoren 2.3. LINEARE OPERATOREN 47 2.3 Eigenschaften linearer Operatoren Es seien V, W normierte Räume. Die Elemente von L(V ; W ) werden oft als lineare Operatoren bezeichnet. Wir hatten gesehen, dass die Stetigkeit

Mehr

Inhaltsverzeichnis. 6 Topologische Grundlagen. 6.1 Normierte Räume

Inhaltsverzeichnis. 6 Topologische Grundlagen. 6.1 Normierte Räume Inhaltsverzeichnis 6 Topologische Grundlagen 1 6.1 Normierte Räume................................ 1 6.2 Skalarprodukte................................. 2 6.3 Metrische Räume................................

Mehr

5 Teilmengen von R und von R n

5 Teilmengen von R und von R n 5 Teilmengen von R und von R n Der R n ist eine mathematische Verallgemeinerung: R n = {x = (x 1,...,x n ) : x i R} = R }... {{ R }. n mal Für x R ist x der Abstand zum Nullpunkt. Die entsprechende Verallgemeinerung

Mehr

9 Metrische und normierte Räume

9 Metrische und normierte Räume 9 Metrische und normierte Räume Idee: Wir wollen Abstände zwischen Punkten messen. Der Abstand soll eine reelle Zahl 0 sein (ohne Dimensionsangabe wie Meter...). 9.1 Definition Sei X eine Menge. Eine Metrik

Mehr

Musterlösung zum Weihnahchtsübungsblatt. Teil 1 von Martin Fabricius. Aufgabe 1

Musterlösung zum Weihnahchtsübungsblatt. Teil 1 von Martin Fabricius. Aufgabe 1 Musterlösung zum Weihnahchtsübungsblatt Teil von Martin Fabricius Aufgabe a) Diese Aufgabe kann z. B. durch ausmultiplizieren gelöst werden: (433) 7 = 4 7 3 +3 7 + 7 +3 7 0 = 4 343+3 49+ 7+3 = 37+47+4+3

Mehr

Proseminar Analysis Vollständigkeit der reellen Zahlen

Proseminar Analysis Vollständigkeit der reellen Zahlen Proseminar Analysis Vollständigkeit der reellen Zahlen Axel Wagner 18. Juli 2009 1 Voraussetzungen Zunächst wollen wir festhalten, was wir als bekannt voraussetzen: Es sei (Q, +, ) der Körper der rationalen

Mehr

Die Topologie von R, C und R n

Die Topologie von R, C und R n Die Topologie von R, C und R n Für R haben wir bereits eine Reihe von Strukturen kennengelernt: eine algebraische Struktur (Körper), eine Ordnungsstruktur und eine metrische Struktur (Absolutbetrag, Abstand).

Mehr

Gewöhnliche Differentialgleichungen Woche 6. Existenz nach Picard-Lindelöf

Gewöhnliche Differentialgleichungen Woche 6. Existenz nach Picard-Lindelöf d Gewöhnliche Differentialgleichungen Woche 6 Existenz nach Picard-Lindelöf 6.1 Vorbereitung für den Existenzsatz 6.1.1 Stetigkeit und Lipschitz-Stetigkeit Definition 6.1 Seien (V 1, 1 und (V 2, 2 zwei

Mehr

Analysis I. Guofang Wang Universität Freiburg

Analysis I. Guofang Wang Universität Freiburg Universität Freiburg 22.11.2016 3. Mächtigkeit und die komplexe Zahlen Komplexe Zahlen Definition Die komplexe Zahlen sind definiert als C = R 2 = R R, mit (x 1, y 1 ) + (x 2, y 2 ) = (x 1 + x 2, y 1 +

Mehr

Lösungen 4.Übungsblatt

Lösungen 4.Übungsblatt Karlsruher Institut für Technology (KIT) WS 2011/2012 Institut für Analysis Priv.-Doz. Dr. Gerd Herzog Dipl.-Math.techn. Rainer Mandel Lösungen 4.Übungsblatt Aufgabe 13 (K) Bestimmen Sie sämtliche Häufungswerte

Mehr

die gewünschte Schranke gefunden, denn es gilt (trivialerweise) für n N

die gewünschte Schranke gefunden, denn es gilt (trivialerweise) für n N .5. VOLLSTÄNDIGKEIT VON R 37 Lemma.5. (Beschränktheit konvergenter Folgen) Konvergente Folgen in R sind beschränkt. Beweis. Angenommen die Folge a n n N konvergiert gegen A R. Zu ε > 0 existiert ein N

Mehr

Vollständigkeit. 1 Konstruktion der reellen Zahlen

Vollständigkeit. 1 Konstruktion der reellen Zahlen Vortrag im Rahmen des Proseminars zur Analysis, 17.03.2006 Albert Zeyer Ziel des Vortrags ist es, die Vollständigkeit auf Basis der Konstruktion von R über die CAUCHY-Folgen zu beweisen und äquivalente

Mehr

8.1. DER RAUM R N ALS BANACHRAUM 17

8.1. DER RAUM R N ALS BANACHRAUM 17 8.1. DER RAUM R N ALS BANACHRAUM 17 Beweis. Natürlich ist d 0 und d(x, y) = 0 genau dann, wenn x = y. Wegen (N2) ist x = x und damit d(x, y) = d(y, x). Die letzte Eigenschaft einer Metrik schließt man

Mehr

10 Der Satz über implizite Funktionen und Umkehrfunktionen

10 Der Satz über implizite Funktionen und Umkehrfunktionen Vorlesung SS 9 Analsis Prof. Dr. Siegfried Echterhoff SATZ ÜBER IMPLIZITE FKT UND UMKEHRFKT Der Satz über implizite Funktionen und Umkehrfunktionen Motivation: Sei F : U R R eine differenzierbare Funktion

Mehr

Kapitel 12: Markov-Ketten

Kapitel 12: Markov-Ketten Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse 21.01.2016 Kapitel 12: Markov-Ketten Ab jetzt betrachten wir stochastische Prozesse (X n ) n N0 mit 1. diskreter Zeit N 0 = {0,1,2,...},

Mehr

n A n = A ist nun folgendermaßen:

n A n = A ist nun folgendermaßen: Aufgabe 3. Sei (X, d) ein beschränkter metrischer Raum, d.h. es gibt ein c > 0 mit d(x, y) c für alle x, y X. Bezeichne T (X) die Menge aller abgeschlossenen nichtleeren Teilmengen von X. Für A, B T (X)

Mehr

5 Stetigkeit und Differenzierbarkeit

5 Stetigkeit und Differenzierbarkeit 5 Stetigkeit und Differenzierbarkeit 5.1 Stetigkeit und Grenzwerte von Funktionen f(x 0 ) x 0 Graph einer stetigen Funktion. Analysis I TUHH, Winter 2006/2007 Armin Iske 127 Häufungspunkt und Abschluss.

Mehr

Topologische Grundbegriffe II. Inhaltsverzeichnis

Topologische Grundbegriffe II. Inhaltsverzeichnis Vortrag zum Seminar zur Analysis, 03.05.2010 Dennis Joswig, Florian Goy Aufbauend auf den Resultaten des Vortrages Topologische Grundbegriffe I untersuchen wir weitere topologische Eigenschaften von metrischen

Mehr

Wie in der reellen Analysis üblich notiert man Folgen f in der Form

Wie in der reellen Analysis üblich notiert man Folgen f in der Form 2.1.3 Folgen und Konvergenz Viele aus der Analysisvorlesung bekannte Begriffe lassen sich in den Bereich der metrischen Räume verallgemeinern. Diese Verallgemeinerung hat sich als sehr nützliches mathematisches

Mehr

Vollständigkeit. Andreas Schmitt. Ausarbeitung zum Proseminar zur Topologie im WS 2012/13

Vollständigkeit. Andreas Schmitt. Ausarbeitung zum Proseminar zur Topologie im WS 2012/13 Vollständigkeit Andreas Schmitt Ausarbeitung zum Proseminar zur Topologie im WS 2012/13 1 Einleitung Bei der Konvergenz von Folgen im Raum der reellen Zahlen R trifft man schnell auf den Begriff der Cauchy-Folge.

Mehr

(b) Man nennt die Menge M beschränkt, wenn sie nach oben und unten beschränkt ist.

(b) Man nennt die Menge M beschränkt, wenn sie nach oben und unten beschränkt ist. 8 Punktmengen Für die Menge M = { 1 n ; n N } ist 1 = max(m), denn 1 M und 1 n 1 für alle n N. Die Menge M besitzt aber kein Minimum, denn zu jeder Zahl x = 1 n M existiert ein y M mit y < x, etwa y =

Mehr

Analysis 4. Lösungsvorschlag zum 12. Übungsblatt

Analysis 4. Lösungsvorschlag zum 12. Übungsblatt Karlsruher Institut für Technologie Institut für Analysis Dr. Christoph Schmoeger Dipl.-Math. Andreas Geyer-Schulz SS 208. Juli 208 Analysis 4 Lösungsvorschlag zum 2. Übungsblatt Aufgabe 42 Wir untersuchen

Mehr

3 Konstruktion einer f.s. konvergente Folge

3 Konstruktion einer f.s. konvergente Folge 1 Einleitung Wir wollen uns mit stochastischen Gleichungen der Form R d = Q + C i R i (1.1 beschäftigen, wobei,q,(r i i 1,(C, C i i 1 stochastisch unabhängige nichtnegative Zufallsgrößen seien, (C, C i

Mehr

Darstellungssatz von Riesz in vollständig regulären Räumen. Carina Pöll Wintersemester 2012

Darstellungssatz von Riesz in vollständig regulären Räumen. Carina Pöll Wintersemester 2012 Darstellungssatz von Riesz in vollständig regulären Räumen Carina Pöll 0726726 Wintersemester 2012 Inhaltsverzeichnis 1 Einleitung 1 2 Definitionen und Resultate aus der Topologie 1 3 Der Darstellungssatz

Mehr

Lösungen der Übungsaufgaben von Kapitel 3

Lösungen der Übungsaufgaben von Kapitel 3 Analysis I Ein Lernbuch für den sanften Wechsel von der Schule zur Uni 1 Lösungen der Übungsaufgaben von Kapitel 3 zu 3.1 3.1.1 Bestimmen Sie den Abschluss, den offenen Kern und den Rand folgender Teilmengen

Mehr

30 Metriken und Normen

30 Metriken und Normen 31 Metriken und Normen 153 30 Metriken und Normen Lernziele: Konzepte: Metriken, Normen, Skalarprodukte, Konvergenz von Folgen Frage: Versuchen Sie, möglichst viele verschiedene Konvergenzbegriffe für

Mehr

Stetige Funktionen. Definition. Seien (X, d) und (Y, D) metrische Räume und f : X Y eine Abbildung. i) f heißt stetig in x 0 (x 0 D(f)), wenn

Stetige Funktionen. Definition. Seien (X, d) und (Y, D) metrische Räume und f : X Y eine Abbildung. i) f heißt stetig in x 0 (x 0 D(f)), wenn Stetige Funktionen Eine zentrale Rolle in der Analysis spielen Abbildungen f : X Y, wobei X und Y strukturierte Mengen sind (wie z.b. Vektorräume oder metrische Räume). Dabei sind i.a. nicht beliebige

Mehr

Vorlesungen Analysis von B. Bank

Vorlesungen Analysis von B. Bank Vorlesungen Analysis von B. Bank vom 23.4.2002 und 26.4.2002 Zunächst noch zur Stetigkeit von Funktionen f : D(f) C, wobei D(f) C. (Der Text schliesst unmittelbar an die Vorlesung vom 19.4.2002 an.) Auf

Mehr

9 Konvergenz und absolute Konvergenz von Reihen

9 Konvergenz und absolute Konvergenz von Reihen 9 Konvergenz und absolute Konvergenz von Reihen 9.2 Konvergenz von Reihen 9.5 Monotoniekriterium für Reihen 9.6 Konvergenzkriterium von Cauchy für Reihen 9.9 Rechenregeln für konvergente Reihen 9.10 Absolute

Mehr

5 Numerische Iterationsverfahren

5 Numerische Iterationsverfahren In diesem Kapitel besprechen wir numerische Iterationsverfahren (insbesondere Fixpunktverfahren) als eine weitere Lösungsmethode zur Lösung von linearen Gleichungssystemen (Kapitel 4) sowie zur Lösung

Mehr

Rechenoperationen mit Folgen. Rekursion und Iteration.

Rechenoperationen mit Folgen. Rekursion und Iteration. Rechenoperationen mit Folgen. Die Menge aller Folgen in V bildet einen Vektorraum, V N, für den die Addition und skalare Multiplikation wie folgt definiert sind. (a n ) n N + (b n ) n N := (a n + b n )

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

Zusammenfassung Analysis 2

Zusammenfassung Analysis 2 Zusammenfassung Analysis 2 1.2 Metrische Räume Die Grundlage metrischer Räume bildet der Begriff des Abstandes (Metrik). Definition 1.1 Ein metrischer Raum ist ein Paar (X, d), bestehend aus einer Menge

Mehr

Stochastik I. Vorlesungsmitschrift

Stochastik I. Vorlesungsmitschrift Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................

Mehr

13 Auswahlaxiom und Zornsches Lemma

13 Auswahlaxiom und Zornsches Lemma 13 Auswahlaxiom und Zornsches Lemma Handout zur Funktionalanalysis I von H. Glöckner, 25.11.2008 Wichtige Teile der modernen Mathematik beruhen auf dem sogenannten Auswahlaxiom der Mengenlehre. Dieses

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 19 8. Juli 2010 Kapitel 14. Gewöhnliche Differentialgleichungen zweiter Ordnung 14.1 Systeme gewöhnlicher linearer Differentialgleichungen erster

Mehr

Der Metropolis-Hastings Algorithmus

Der Metropolis-Hastings Algorithmus Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung

Mehr

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten Markov-Chain Monte-Carlo Verfahren Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Übersicht 1 Einführung

Mehr

Seminar Gewöhnliche Differentialgleichungen

Seminar Gewöhnliche Differentialgleichungen Seminar Gewöhnliche Differentialgleichungen Dynamische Systeme I 1 Einleitung 1.1 Nichtlineare Systeme In den vorigen Vorträgen haben wir uns mit linearen Differentialgleichungen beschäftigt. Nun werden

Mehr

20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen

20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen 20 Gleichmäßige Konvergenz für Folgen und Reihen von Funktionen 20.1 Folgen und Reihen von Funktionen 20.3 Die Supremumsnorm 20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen 20.7 Das Cauchy-Kriterium

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Definition Eine Metrik d auf der Menge X ist eine Abbildung d : X X IR

Definition Eine Metrik d auf der Menge X ist eine Abbildung d : X X IR 0 Inhaltsverzeichnis 1 Metrik 1 1.1 Definition einer Metrik............................. 1 1.2 Abstand eines Punktes von einer Menge................... 1 1.3 Einbettung eines metrischen Raumes in einen

Mehr

Der Ergodensatz. Hendrik Hülsbusch

Der Ergodensatz. Hendrik Hülsbusch Der Ergodensatz Hendrik Hülsbusch 1..212 Inhaltsverzeichnis Einleitung 3 5 Stationäre Verteilungen 5 6 Reversible Markovketten 11 2 Einleitung In meinem Vortrag beschäftigen wir uns mit dem asymptotischen

Mehr

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x

Mehr

3 Stationäre Lösungen

3 Stationäre Lösungen 3 Stationäre Lösungen Wir betrachten jetzt ein dynamisches Modell ohne explizite Zeitabhängigkeit. Diese Eigenschaft ist entweder durch das Problem vorgegeben oder sie resultiert aus der Betrachtung einer

Mehr

7. Nichtlineare Gleichngssysteme. Problem 7: Sei f : R n R n stetig. Löse f(x) = 0.

7. Nichtlineare Gleichngssysteme. Problem 7: Sei f : R n R n stetig. Löse f(x) = 0. 7. Nichtlineare Gleichngssysteme Problem 7: Sei f : R n R n stetig. Löse f(x) = 0. Das Gleichungssystem f(x) = 0 lässt sich in die Fixpunktgleichung x = φ(x) umschreiben, wobei φ : D R n R n. Beispielsweise

Mehr

n=1 a n mit reellen Zahlen a n einen

n=1 a n mit reellen Zahlen a n einen 4 Unendliche Reihen 4. Definition und Beispiele Ein altes Problem der Analysis ist es, einer Reihe mit reellen Zahlen einen Wert zuzuordnen. Ein typisches Beispiel ist die unendliche Reihe + +..., die

Mehr

eine Folge in R, für die man auch hätte schreiben können, wenn wir alle richtig raten, was auf dem Pünktchen stehen sollte.

eine Folge in R, für die man auch hätte schreiben können, wenn wir alle richtig raten, was auf dem Pünktchen stehen sollte. Analysis, Woche 5 Folgen und Konvergenz A 5. Cauchy-Folgen und Konvergenz Eine Folge in R ist eine Abbildung von N nach R und wird meistens dargestellt durch {x n } n=0, {x n} n N oder {x 0, x, x 2,...

Mehr

Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen

Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen Kapitel 8 Darstellungsformeln für die Lösung von parabolischen Differentialgleichungen Wir hatten im Beispiel 5. gesehen, dass die Wärmeleitungsgleichung t u u = f auf Ω (0, ) (8.1) eine parabolische Differentialgleichung

Mehr

Randomisierte Algorithmen

Randomisierte Algorithmen Randomisierte Algorithmen Randomisierte Algorithmen Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2018/2019 1 / 40 Überblick Überblick Grundlegendes zu Markov-Ketten

Mehr

Lösungen Klausur. k k (n + 1) n. für alle n N. Lösung: IA: Für n = 1 ist 1. k k + (n + 1) n+1. k k = k=1. k=1 kk = 1 1 = 1 2 = 2 1.

Lösungen Klausur. k k (n + 1) n. für alle n N. Lösung: IA: Für n = 1 ist 1. k k + (n + 1) n+1. k k = k=1. k=1 kk = 1 1 = 1 2 = 2 1. Lösungen Klausur Aufgabe (3 Punkte) Zeigen Sie, dass n k k (n + ) n k für alle n N. IA: Für n ist k kk 2 2. IV: Es gilt n k kk (n + ) n für ein n N. IS: Wir haben n+ k k k n k k + (n + ) n+ k IV (n + )

Mehr

Kapitel 2. Zahlenbereiche

Kapitel 2. Zahlenbereiche Kapitel 2. Zahlenbereiche 2.3. Reelle Zahlen Erweiterung des Zahlenbereichs der natürlichen Zahlen Ganze Zahlen Z := {..., 3, 2, 1, 0, 1, 2, 3,... } = N {0} N. Rationale Zahlen Q := { m n m Z, n N }. Beachte:

Mehr

12. Trennungssätze für konvexe Mengen 83

12. Trennungssätze für konvexe Mengen 83 12. Trennungssätze für konvexe Mengen 83 C_1 C_2 a Abbildung 12.4. Trennung konvexer Mengen durch eine Hyperebene mit Normalenvektor a Dann ist int(c) nicht leer (warum?) und [als Minkowski-Summe von C

Mehr

sign: R R, sign(x) := 0 falls x = 0 1 falls x < 0 Diese ist im Punkt x 0 = 0 nicht stetig, denn etwa zu ε = 1 finden wir kein δ > 0

sign: R R, sign(x) := 0 falls x = 0 1 falls x < 0 Diese ist im Punkt x 0 = 0 nicht stetig, denn etwa zu ε = 1 finden wir kein δ > 0 ANALYSIS FÜR PHYSIK UND VERWANDTE FÄCHER I 81 3. Stetigkeit 3.1. Stetigkeit. Im Folgenden sei D R eine beliebige nichtleere Teilmenge. Typischerweise wird D ein allgemeines Intervall sein, siehe Abschnitt

Mehr

Wahrscheinlichkeitstheorie und Statistik

Wahrscheinlichkeitstheorie und Statistik Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter

Mehr

Kapitel 3. Reihen und ihre Konvergenz

Kapitel 3. Reihen und ihre Konvergenz Kapitel 3 Reihen und ihre Konvergenz Abschnitt 3.1 Der Reihenbegri und erste Beispiele Denitionen zu Reihen, 1 Denition. Sei (a n ) n N0 eine Folge reeller Zahlen. Für n N 0 heiÿt dann die Zahl s n :=

Mehr

GRUNDLAGEN MATHEMATIK

GRUNDLAGEN MATHEMATIK Mathematik und Naturwissenschaften Fachrichtung Mathematik, Institut für Numerische Mathematik GRUNDLAGEN MATHEMATIK 2. Folgen Prof. Dr. Gunar Matthies Wintersemester 2015/16 G. Matthies Grundlagen Mathematik

Mehr

Häufungspunkte und Satz von Bolzano und Weierstraß.

Häufungspunkte und Satz von Bolzano und Weierstraß. Häufungspunkte und Satz von Bolzano und Weierstraß. Definition: Sei (a nk ) k N eine konvergente Teilfolge der Folge (a n ) n N.Dannwirdder Grenzwert der Teilfolge (a nk ) k N als Häufungspunkt der Folge

Mehr

Lösung zur Übung für Analysis einer Variablen WS 2016/17

Lösung zur Übung für Analysis einer Variablen WS 2016/17 Blatt Nr. 3 Prof. F. Merkl Lösung zur Übung für Analysis einer Variablen WS 206/7 Aufgabe Das Guthaben G setzt sich zusammen aus der Summe aller bisherigen Einzahlungen multipliziert mit ( + p) k, wobei

Mehr

12 Biholomorphe Abbildungen

12 Biholomorphe Abbildungen 12 Biholomorphe Abbildungen 2 Funktionenräume Wir erinnern zunächst an den Weierstraßschen Konvergenzsatz : 2.1 Satz. Sei G C ein Gebiet, (f n ) eine Folge holomorpher Funktionen auf G, die auf G kompakt

Mehr

35 Stetige lineare Abbildungen

35 Stetige lineare Abbildungen 171 35 Stetige lineare Abbildungen Lernziele: Konzepte: Lineare Operatoren und ihre Normen Resultate: Abschätzungen für Matrizennormen Kompetenzen: Abschätzung von Operatornormen 35.1 Lineare Abbildungen.

Mehr

4. Folgen. Folge in R 2 mit Grenzwert (1, 1 2 ).

4. Folgen. Folge in R 2 mit Grenzwert (1, 1 2 ). 8 4. Folgen Im Folgenden sei X = K n (oder ein K-Vektorraum) mit der Norm.(Eslangtvöllig,sichden Fall X = R 2 vorzustellen.) Auf R bzw. C verwenden wir als Norm stets den Betrag. 4.. Definition. Eine Folge

Mehr

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω 5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,

Mehr

Übungsaufgaben zu Partielle Differentialgleichungen Blatt III vom

Übungsaufgaben zu Partielle Differentialgleichungen Blatt III vom Prof. Dr. M. Kaßmann Fakultät für Mathematik Wintersemester 2011/2012 Universität Bielefeld Übungsaufgaben zu Partielle Differentialgleichungen Blatt III vom 27.10.2011 Aufgabe III.1 (4 Punkte) Sei Ω R

Mehr

Kapitel 3. Konvergenz von Folgen und Reihen

Kapitel 3. Konvergenz von Folgen und Reihen Kapitel 3. Konvergenz von Folgen und Reihen 3.1. Normierte Vektorräume Definition: Sei V ein Vektorraum (oder linearer Raum) über (dem Körper) R. Eine Abbildung : V [0, ) heißt Norm auf V, falls die folgenden

Mehr

3.3 Konvergenzkriterien für reelle Folgen

3.3 Konvergenzkriterien für reelle Folgen 3.3 Konvergenzkriterien für reelle Folgen Satz: Eine monoton wachsende, nach oben beschränkte reelle Folge a n ) n N ist konvergent mit Grenzwert lim a n = sup{a n n N} Beweis: Sei a n ) n N nach oben

Mehr

Analysis I. Guofang Wang Universität Freiburg

Analysis I. Guofang Wang Universität Freiburg Universität Freiburg 30.11.2016 5. Teilmengen von R und von R n Der R n ist eine mathematische Verallgemeinerung: R n = {x = (x 1,..., x n ) : x i R} = } R. {{.. R }. n mal Für x R ist x der Abstand zum

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Kapitel 4: Nichtlineare Nullstellenprobleme

Kapitel 4: Nichtlineare Nullstellenprobleme Vorlesung Höhere Mathematik: Numerik (für Ingenieure) Kapitel 4: Nichtlineare Nullstellenprobleme Jun.-Prof. Dr. Stephan Trenn AG Technomathematik, TU Kaiserslautern Sommersemester 2015 HM: Numerik (SS

Mehr

Aufgaben und Lösungen Ausarbeitung der Übungsstunde zur Vorlesung Analysis I

Aufgaben und Lösungen Ausarbeitung der Übungsstunde zur Vorlesung Analysis I Aufgaben und en Ausarbeitung der Übungsstunde zur Vorlesung Analysis I Wintersemester 2008/2009 Übung 6 Einleitung Eventuell auftretende Fragen zum Übungsblatt sollen beantwortet werden. Dazu ist es erforderlich,

Mehr

Iterative Verfahren, Splittingmethoden

Iterative Verfahren, Splittingmethoden Iterative Verfahren, Splittingmethoden Theodor Müller 19. April 2005 Sei ein lineares Gleichungssystem der Form Ax = b b C n, A C n n ( ) gegeben. Es sind direkte Verfahren bekannt, die ein solches Gleichungssystem

Mehr

Analysis I. 2. Übungsstunde. Steven Battilana. battilana.uk/teaching

Analysis I. 2. Übungsstunde. Steven Battilana. battilana.uk/teaching Analysis I. Übungsstunde Steven Battilana stevenb@student.ethz.ch battilana.uk/teaching March 5, 07 Erinnerung (Euler Formel). e iϕ = cos ϕ + i sin ϕ. Die Polarform von z = x + iy C sei Euler Formel z

Mehr

Analysis I - Einige Lösungen und Ergänzungen

Analysis I - Einige Lösungen und Ergänzungen Christian-Albrechts-Universität zu Kiel Mathematisch-Naturwissenschaftliche Fakultät Mathematisches Seminar Analysis I - Einige Lösungen und Ergänzungen von Dipl.-Math. Joscha Prochno Dipl.-Math. Dennis

Mehr

Kommutativität. De Morgansche Regeln

Kommutativität. De Morgansche Regeln 1. Formale Logik Proposition 1.1. Die logischen Elementarverknüpfungen gehorchen folgenden Äquivalenzen: (1.1) (1.2) p p p p p p Idempotenz (1.3) (1.4) p q q p p q q p Kommutativität (1.5) (1.6) (p q)

Mehr