Online-Optimierung: Markovsche Entscheidungsprobleme und Diskrete Stochastische Dynamische Programmierung. Jörg Rambau
|
|
- Dagmar Bruhn
- vor 8 Jahren
- Abrufe
Transkript
1 Online-Optimierung: Markovsche Entscheidungsprobleme und Diskrete Stochastische Dynamische Programmierung Jörg Rambau Version vom 7. Juli 2005
2
3 Inhaltsverzeichnis 1 Beispiele und das allgemeine Modell Lagerhaltung Maschinenaustausch Schachstrategie Das allgemeine Modell Dynamisches Programmieren Das Optimalitätsprinzip Der Algorithmus DP Beispiel: Lagerhaltung Beispiel: Linear-Quadratische Systeme Linear-Quadratische Systeme Über Matrizen Optimale Steuerung eines LQS Lagerhaltung Über konvexe Mengen und Funktionen Optimale Lagerhaltung Bemerkungen zu Verallgemeinerungen Imperfekte Zustandsinformation Über bedingte Erwartung Das allgemeine Modell unter imperfekter Zustandsinformation Dynamisches Programmieren für MDPI Beispiel: Linear-Quadratische MDPI (LQSI) MDPs mit unendlichem Horizont (MDP- ) Beispiele Klassifikation Der DP-Operator Vorschau: Die drei Stützpfeiler der Theorie
4 4 Inhaltsverzeichnis 7 Diskontierte Probleme I Hilfsmittel Monotonieeigenschaft des DP-Operators Konvergenz von DP Diskontierte Probleme II Die Bellmann-Gleichung Charakterisierung optimaler stationärer Politiken Beispiel: Maschinenaustausch Wertiteration Vektornotation für endliche Zustandsräume Fehlerschranken Algorithmische Umsetzung Politikiteration Politikverbesserung Algorithmische Umsetzung Beispiel: Maschinenaustausch Lineare Programmierung Die Optimalkostenfunktion als LP-Optimum Beispiel: Maschinenaustausch
5 Beispiele und das 1 allgemeine Modell In diesem Kapitel präsentieren wir Beispiele für kostenbehaftetes sequentielles Entscheiden bei ungewisser Zukunft, für die wir Modelle mit einer Reihe von Gemeinsamkeiten formulieren. Diese Gemeinsamkeiten werden dann durch den Begriff des Markovschen Entscheidungsproblems formalisiert. Die Vorlesung hält sich im Wesentlichen an die recht informelle Vorlage [Ber01]. Eine formellere Einführung findet sich in [Put05]. 1.1 Lagerhaltung Wir betrachten das folgende Lagerhaltungsproblem mit dem Ziel, Lagerkosten möglichst gut gegen Lieferverzugskosten auszubalancieren: Gegeben sind: Ein Produkt im Lager Nachfrage für verschiedene Tage stochastisch unabhängig (Störung) Nachbestellung von Ware über Nacht möglich (Steuerung) Kosten für gelagerte Ware, verspätete Lieferung und Nachbestellung Ziel: Minimiere die erwarteten Gesamtkosten auf einem Horizont von N Tagen. Modellierung: Für k = 0, 1,..., N 1 seien x k := Lagerbestand am Tag k vor dem Verkauf w k := Nachfrage am Tag k u k := Liefermenge am Tag k vor dem Verkauf (Zufallsvariable) (Zufallsvariable) (Deterministisch) Dann kann die sogenannte Systemdynamik wie folgt durch eine Gleichung von Zufallsvariablen beschrieben werden: x k+1 = x k + u k w k, k = 0, 1,..., N 1.
6 6 Beispiele und das allgemeine Modell Für x R seien r(x) die Kosten pro Tag für einen Lagerbestand von x. (Bei negativem x sind das Lieferverzugskosten.) Ferner sei c der Preis für eine Einheit des Lagerguts. Die Gesamtkosten am Tag k betragen dann: r(x k ) + cu k, k = 0, 1,..., N 1 Am Tag N hat man noch einen Lagerbestand von x N, was R(x N ) koste (Terminalkosten). Dann sind die erwarteten Gesamtkosten gegeben durch N 1 E wk :k=0,1,...,n 1[ R(xN ) + (r(x k ) + cu k ) ]. Das Ziel ist es also, diesen Ausdruck zu minimieren, wobei an jedem Tag vor dem Verkauf der tatsächliche Lagerbestand beobachtet werden kann: Die Nachfrage an den Vortagen hat sich realisiert. Das nennt man Closed Loop Steuerung. Im Gegensatz dazu muss man bei einer Open Loop Steuerung alle Steuerungen schon zu Beginn festlegen. Das bedeutet, wir suchen eine Funktion, die am Tag k einem beobachteten Lagerbestand x k genau eine Nachbestellung u k zuordnet. So eine Funktion heißt Politik oder Strategie. Wir hätten gern eine optimale Politik, also eine, die die erwarteten Kosten über N Tage minimiert. 1.2 Maschinenaustausch Wir möchten nun den besten Zeitpunkt finden, zu dem wir eine alternde Maschine gegen eine neue austauschen sollten. Gegeben sind: k=0 Eine Maschine mit n Zuständen, von 1 bis n immer >>schlechter<< werdend Wahrscheinlichkeiten für Zustandsübergänge, so dass Verbesserung ausgeschlossen (Störung) Vor jeder Benutzung Weiterbenutzen oder Austauschen möglich; Austauschen liefert sofort Maschine in Zustand 1 (Steuerung) Kosten für Betrieb (abhängig vom Zustand vor Benutzung) und Austausch
7 1.3. Schachstrategie 7 Ziel: Minimiere erwartete Gesamtkosten Die Modellierung der Systemdynamik geschieht hier am besten durch Wahrscheinlichkeiten für Zustandsübergänge: i := Zustand der Maschine u := Entscheidung: Austauschen oder Weiterbenutzen p ij := Wahrscheinlichkeit, dass Zustand von i nach j i wechselt Diese Größen seien hier stationär, hängen also nicht von k ab. Die Kosten bezeichnen wir mit g(i) := Betriebskosten, wenn Benutzung in Zustand i startet; monoton steigend R := Austauschkosten Die erwareteten Kosten für eine Benutzung der Maschine, wenn wir vorher in Zustand i uns für Steuerung u entschieden haben, betragen { R + g(1) falls u = Austauschen g(i, u) := g(i) sonst Die erwarteten Gesamtkosten sind also E [N 1 k=0 g(i k, u k ) ] i k :k=0,1,...,n 1. Diese sind wieder zu minimieren durch Wahl von u vor jeder Benutzung der Maschine, wobei der Zustand vor der Benutzung beobachtet werden kann (Closed Loop); der Zustand nach der Benutzung, der die Betriebskosten bestimmt, ist jedoch eine Zufallsvariable. Eine Politik ist hier eine Funktion, die vor jeder Bearbeitung für jeden Maschinenzustand festlegt, ob getauscht werden soll oder nicht. Wenn die erwarteten Kosten der Austauschpolitik minimal sind, so heißt die Politik wieder optimal. 1.3 Schachstrategie Wir modellieren die Aufgabe, in einem N-Partien-Schach-Match vor jeder Partie festzulegen, ob auf Sieg oder auf Remis gespielt werden soll. Die Gewinnwahrscheinlichkeit für das Gesamtmatch soll maximiert werden. Genauer sind gegeben:
8 8 Beispiele und das allgemeine Modell Schach-Match A gegen B auf N Partien, ggf. Entscheidungsmatch Strategie von B konstant A kann auf Sieg oder auf Remis spielen (Steuerung) Bei Spiel auf Sieg sind Sieg oder Niederlage mit bestimmten Wahrscheinlichkeiten möglich; bei Spiel auf Remis sind Remis oder Niederlage mit bestimmten Wahrscheinlichkeiten möglich (Störung). Ziel: Minimierung der Verlustwahrscheinlichkeit Modellierung: p w := Gewinnwahrscheinlichkeit bei Spiel auf Sieg p d := Remiswahrscheinlichkeit bei Spiel auf Remis u k := Strategiewahl W (Sieg) oder D (Remis) für Partie k x k := Punktestand für B nach k Partien w k (u k ) := Punktezuwachs für B durch die kte Partie Damit ist die Systemdynamik gegeben durch die folgende Gleichung von Zufallsvariablen: x k+1 = x k + w k (u k ) Dabei ist w k wie folgt verteilt: P [ w k (W) = 1 ] = 1 p w P [ w k (W) = 0 ] = p w P [ w k (D) = 1 ] = 1 p d P [ w k (D) = 1 ] = pd 2 (Alle anderen Wahrscheinlichkeiten sind Null.) Die Verlustwahrscheinlichkeit verstecken wir in den Terminalkosten: 1 falls x N > N 2 g N (x N ) := 1 p w falls x N = N 2 0 sonst
9 1.4. Das allgemeine Modell 9 Weiter definieren wir keine Kosten. Die erwarteten Gesamtkosten sind daher die erwarteten Terminalkosten: E [ g N (x N ) ] = P [ g N (x N ) = 1 ] 1 + P [ ] g N (x N ) = 1 p w (1 pw ) + P [ g N (x N ) = 0 ] 0 = P [ x N > N ] [ + P {xn = N 2 2 } {A verliert Entscheidungspartie}]. Dies ist gerade die Verlustwahrscheinlichkeit für A. (Wir haben dabei angenommen, dass A die Entscheidungspartie auf Sieg spielt, da die Remisstrategie keinen Sinn macht.) Auch hier kann A wieder eine Closed Loop Steuerung anwenden, da der Spielstand vor jeder Partie beobachtet werden kann. Eine Politik liefert also auch hier wieder vor jeder Partie für jeden Spielstand eine Anweisung, ob auf Sieg oder auf Remis gespielt werden soll. 1.4 Das allgemeine Modell Wir definieren nun die Hauptdarsteller dieser Vorlesung: Definition Ein Markovsches Entscheidungsproblem mit endlichem Horizont kurz: MDP (oder: Diskretes stochastisches dynamisches Programm, Diskretes Dynamisches System) ist ein Tupel (N, S, C, U, D, f, g, M) mit folgender Bedeutung: N N ist der Horizont, die Anzahl von Stufen (oder: Epochen), über die wir die Erwartung betrachten wollen S = N 1 k=0 S k ist ein Raum von möglichen Zuständen x k S k in Stufe k = 0, 1,..., N 1; zusätzlich ist der Raum S N der Terminalzustände definiert. C = N 1 k=0 C k ist ein Raum von möglichen Steuerungen u k U k in Stufe k = 0, 1,..., N 1 U ist eine Familie von Funktionen U k : S k 2 C k, die Steuerbeschränkungen. D = N 1 k=0 D k ist ein Raum von möglichen stochastischen Störungen w k D k, die von x k S und von u k C k abhängen können, die aber von den den w i mit i k unabhängig sein müssen
10 10 Beispiele und das allgemeine Modell f ist eine Folge von Abbildungen f k : S k C k D k S k+1 mit k = 0, 1,..., N 1, die Systemdynamik g ist eine Folge von Kostenfunktionen g k : S k C k D k R mit k = 0, 1,..., N 1, die Stufenkosten; zusätzlich ist eine Funktion g N : S N R definert, die Terminalkostenfunktion. M ist das Ziel des MDPs (in dieser Vorlesung i. d. R. die Minimierung der erwarteten Gesamtkosten) Eine (deterministische) Politik (oder: Kontrollgesetz, Strategie; engl.: policy, control law) ist eine Folge π = (µ 0, µ 1,..., µ N 1 ) von Funktionen µ k : { Sk C k x k µ k (x k ) Falls µ k (x k ) U k (x k ) für alle k = 0, 1,..., N 1, so heißt π zulässig. Falls π = (µ, µ,..., µ), so heißt π stationär. Die Kosten von π bei Anfangszustand x 0 sind definiert als J π (x 0 ) := E [ N 1 g N (x N ) + g(x k, µ k (x k ), w k ) ]. Eine Politik π heißt optimal, wenn k=0 J (x 0 ) := inf π J π(x 0 ) = J π (x 0 ). Die Funktion J heißt Optimalkostenfunktion (oder: Wertfunktion; engl.: value function). Für abzählbare, insbesondere endliche Zustandsräume ist es oft bequemer, die Systemdynamik mit Hilfe von Übergangswahrscheinlichkeiten darzustellen. Definition Für ein MDP (N, S, C, U, D, f, g) mit abzählbarem Zustandsraum S sind die Übergangswahrscheinlichkeiten die folgenden Funktionen für i S k und j S k+1 : { U [0, 1] p ij = (p k ) ij : u P [ x k+1 = j x k = i, u k = u ]
11 1.4. Das allgemeine Modell 11 Ob ein solches MDP durch stochastische Störungen oder durch Übergangswahrscheinlichkeiten gegeben ist, spielt keine Rolle: Beobachtung Seien für ein MDP mit abzählbarem Zustandsraum statt der Störungen w k und der Systemdynamik f k nur Übergangswahrscheinlichkeiten (p k ) ij gegeben. Dann kann man Störungen w k definieren als Zustände w k S k+1 mit Wahrscheinlichkeitsverteilungen wie folgt: P [ w k = j x k = i, u k = u ] := (p k ) ij (u) Die Systemdynamik f k ist dann gegeben durch: f k (x k, u k, w k ) := w k Ferner kann man aus der Wahrscheinlichkeitsverteilung der w k und der Systemdynamik f k die Übergangswahrscheinlichkeiten des MDPs wie folgt berechnen: p ij (u) := P [ {w : j = f k (i, u, w)} x k = i, u k = u ]
12
13 Dynamisches 2 Programmieren In diesem Kapitel werden wir einen Algorithmus bereitstellen, der im Prinzip die Optimalkostenfunktion jedes MDPs mit endlichem Zustandsraum löst: Dynamisches Programmieren ( DP). Über Diskretisierungsmethoden kann man damit auch die Optimalkostenfunktion vieler anderer MDPs approximieren, obwohl das nicht immer die beste Methode sein muss. Der Vorteil von DP liegt in der Tatsache begründet, dass er keinerlei spezielle Voraussetzungen an die Struktur des MDPs stellt. Damit wird er auch ein vielseitiges Werkzeug zum Beweis theoretischer Resultate. 2.1 Das Optimalitätsprinzip Gegeben sei ein MDP = (N, S, C, U, D, f, g) wie in Abschnitt 1.4. Aus diesem N-stufigen MDP können wir für alle i = 0, 1,..., N wie folgt ein (N i)- stufiges MDP generieren, das N i-stufige Teilproblem: wir ignorieren einfach die ersten i Stufen und starten in einem Zustand x i S i. Das folgende Prinzip verknüpft die (N i)-stufigen Teilprobleme mit dem N-stufigen Originalproblem und ist als Bellmannsches Optimalitätsprinzip berühmt. Beobachtung Ist π = (µ 0, µ 1,..., µ N 1 ) eine optimale Politik für ein N-stufiges MDP und sei x i ein Zustand, der durch π mit positiver Wahrscheinlichkeit erreicht wird, dann ist die abgeschnittene Politik π i := (µ i, µ i+1,..., µ N 1 ) für alle i = 0, 1,..., N eine optimale Politik für das (N i)-stufige Teilproblem des MDP mit Start in x i. Andernfalls könnte man π durch Ändern der Entscheidungsregeln in π i verbessern. Dieses einfache Prinzip ist nun der Schlüssel zur Berechnung der Optimalkostenfunktion durch DP.
14 14 Dynamisches Programmieren 2.2 Der Algorithmus DP Wir betrachten das allgemeine Modell aus Abschnitt 1.4. Zur Erinnerung ist hier diie Optimalkostenfunktion, deren Werte wir berechnen wollen: N 1 J (x 0 ) = inf E[ g N (x N ) + g k (x k, µ k (x k ), w k ) ] π w 0,...,w N 1 k=0 Idee: Betrachte zunächst Stufe N. Für das 0-stufige Teilproblem ist die Optimalkostenfunktion gleich der Terminalkostenfunktion. Dann betrachte Stufe N 1 und balanciere die Kosten für erwartete Zustandsübergänge mit den Optimalkosten auf dem erreichten Zustand; letztere gibt nach Definition die Kosten einer billigsten Steuerung an, die von diesem Zustand ausgeht. Zusammengesetzt erhält man die Optimalkostenfunktion für das 1-stufige Teilproblem. So arbeitet man weiter bis zum N-stufigen Teilproblem, dem Originalproblem. Etwas formeller, aber ohne maßtheoretische Spitzfindigkeiten, lautet das Resultat: Satz Sei (N, S, C, U, D, f, g) ein MDP mit Optimalkostenfunktion J. Dann lassen sich die Optimalkostenfunktionen J i der (N i)-stufigen Teilproblemefolgender mit folgender Rekursion berechnen (sofern alle Zufallsvariablen bzgl. geeigneter Wahrscheinlichkeitsräume messbar sind und sofern alle Erwartungswerte existieren und endlich sind, z. B. wenn S, C, D abzählbar sind): J N = g N (2.1) J i (x i ) = inf u i U(x i ) E[ g i (x i, u i, w i ) + J i+1(f i (x i, u i, w i )) ] i = 0, 1,..., N 1 (2.2) J = J 0 (2.3) Ferner gilt: Jede Politik (µ 0, µ 1,..., µ N 1 ) mit µ i (x i ) argmin ui U i E [ g i (x i, u i, w i ) + J i+1 (f i (x i, u i, w i )) ] (2.4) ist optimal. Insbesondere gilt: Wird für alle i = 0,..., N 1 das Infimum angenommen, so existiert eine optimale Politik.
15 2.2. Der Algorithmus DP 15 Definition Die Optimalkostenfunktion des (N i)-stufigen Teilproblems heißt Optimale Ausgangskostenfunktion in Stufe i (engl: cost-to-go function). Beweis von Satz Bemerkung am Start: Da im Satz keine Aussagen über die zugrundeliegenden Wahrscheinlichkeitsräume gemacht worden sind, ist die Aussage des Satzes mathematisch nicht präzise; diese Details tragen aber nicht zum Verständnis des Prinzips bei und werden daher hier nicht behandelt. In den für uns interessanten Anwendungsfällen treten keine maßtheoretischen Schwierigkeiten auf. Sei π = (µ 0, µ 1,..., µ N 1 ) eine zulässige Politik für das MDP (N, S, C, U, D, f, g) und π i := (µ i, µ i+1,..., µ N 1 ) die zugehörige in der iten Stufe abgeschnittene Strategie. Sei J i eine Familie von Funktionen, definiert durch die angegebene Rekursion. Wir zeigen durch Induktion nach (N i), dass J i (x i ) = J i (x i) für alle i = N, N 1,..., 0 und alle x i S i. Induktionsanfang: Für N i = 0 ist i = N und J N (x N) = g N (x N ) = J N (x N ) nach Definition der Kosten. Induktionsschluss: Sie nun N i > 0 und J (x i+1 ) = J i+1 (x i+1 ) schon
16 16 Dynamisches Programmieren gezeigt für alle x i+1 S i+1. Dann gilt: J (x i ) = inf E [ N 1 g N (x N ) + g k (x k, µ k (x k ), w k ) ] π i w i,w i+1,...,w N 1 k=i = inf E[ E [ N 1 g N (x N ) + g k (x k, µ k (x k ), w k ) ] ] (µ i,π i+1 ) w i+1,...,w N 1 k=i = inf E[ E [ g N (x N ) ] N 1 (µ i,π i+1 ) w i+1,...,w N 1 + E [ g k (x k, µ k (x k ), w k ) ] ] w i+1,...,w N 1 k=i = inf (µ i,π i+1 ) E[ E [ g N (x N ) ] w i+1,...,w N 1 + g i (x i, µ i (x i ), w i ) + = inf (µ i,π i+1 ) E[ g i (x i, µ i (x i ), w i ) + E [ g N (x N ) + = inf µ i E [ g i (x i, µ i (x i ), w i ) + inf π i+1 E [ g N (x N ) + = inf µ i E [ g i (x i, µ i (x i ), w i ) + J i+1(x i+1 ) ] w i N 1 k=i+1 N 1 k=i+1 = inf µ i E [ g i (x i, µ i (x i ), w i ) + J i+1(f i (x i, µ i (x i ), w i )) ] w i = inf µ i E [ g i (x i, µ i (x i ), w i ) + J i+1 (f k (x i, µ i (x i ), w i )) ] w i = inf u i U i (x i ) E[ g i (x i, u i, w i ) + J i+1 (f k (x i, u i, w i )) ] w i = J i (x i ). N 1 w i k=i+1 w i E [ g k (x k, µ k (x k ), g k (x k, µ k (x k ), w k ) ] w i+1,...,w N g k (x k, µ k (x k ), w k ) ] w i+1,...,w N Was bringt das für einen Vorteil? Anstelle einer Minimierung über alle N- Tupel von Funktionen µ k : S k C k müssen wir nun N-mal über alle möglichen Steuerungen in allen möglichen Zuständen minimieren. Nehmen wir ein Problem an mit endlichen Räumen S k = S, C k = C und D k = D für alle k = 0, 1,..., N 1 und einer Systemdynamik ohne nutzbare analytische Struktur, so müssten für das direkte Auffinden einer optimalen Politik durch Enumeration alle ( S C )N möglichen Politiken evaluiert werden durch Erwartungswertberechnung über die D N viele verschiedene Realisie-
17 2.3. Beispiel: Lagerhaltung 17 rungen des Zufallsvektors w 0, w 1,..., w N 1. Der Aufwand wäre dann proportional zu ( S C ) N D N. Die Tabellierung der N Ausgangskostenfunktionen benötigt bei Minimierung durch Enumeration hingegen nur N C S Einträge, und jede beteiligte Erwartungswertberechnung würde D viele Realisierungen berücksichtigen. Damit wäre der Aufwand proportional zu N C S D : Für viele praktische Anwendungen immer noch zuviel, da S i. d. R. astronomisch groß werden kann, trotzdem eine drastische Reduktion. Ferner liefert DP eine vorgezeichnete induktive Beweisstrategie für den Nachweis der Optimalität einer Politik. 2.3 Beispiel: Lagerhaltung Wir betrachten das Lagerhaltungsproblem aus Abschnitt 1.1. Um eine optimale Politik zu berechnen, müssen wir die DP-Rekursion ausführen. Das heißt: J N (x N ) := g N (x N ) = R(x N ) J i (x i ) := inf u i U i (x i ) E[ g i (x i, u i, w i ) + J i+1 (f i (x i, u i, w i )) ] w i = inf u i U i (x i ) E[ r(x i ) + cu i + J i+1 (x i + u i w i ) ] w i Wir werden diese Rekursion in einem späteren Kapitel analytisch lösen, indem wir zeigen, dass alle J i in dieser Rekursion konvex sind. 2.4 Beispiel: Linear-Quadratische Systeme Die folgende Systemdynamik liefert ein sogenanntes lineares System: x k+1 = A k x k + B k u k + w k, k = 0, 1,..., N 1 Zusammen mit den folgenden quadratischen Kosten erhalten wir ein linearquadratisches System (LQS): g N := x T NQ N x N g k (x k, u k, w k ) := x T kq k x k + u T kr k u k Wir nehmen dabei an, dass alle Zustandsräume und Kontrollräume reelle, endlichdimensionale Vektorräume sind, also S k = S = R n und C k = C =
18 18 Dynamisches Programmieren R m. Ferner sind die Störungen untereinander unabhängige n-dimensionale Zufallsvektoren mit Erwartungswert Null und endlicher Varianz. Die Kostenmatrizen Q k seien positiv semidefinit und symmetrisch, die Kostenmatrizen R k seien positiv definit und symmetrisch. Die DP-Rekursion liefert: J N (x N ) = x T NQ N J i (x i ) = inf E [ x T i Q i x i + u T i R i u i + J i+1 (A i x i + B i u i + w i ) ] u k Auch diese Rekursion werden wir später analytisch lösen, was auf die in der Kontrolltheorie berühmte diskrete Riccati-Gleichung führt.
19 Linear-Quadratische 3 Systeme Wir werden in diesem Kapitel die DP-Rekursion für Linear-Quadratische Systeme (LQS) aus Abschnitt 2.4 lösen. Dazu brauchen wir etwas Hintergrund über positiv (semi-)definite Matrizen. 3.1 Über Matrizen Definition A R n n heißt (i) symmetrisch : A = A T (ii) positiv semidefinit : x T Ax 0 x R n. Bezeichnung: A 0 (iii) positiv definit : x T Ax > 0 x R n \ {0}. Bezeichnung: A 0. Hilfssatz Für passende Matrizen gilt: (i) Wenn A 0 und B 0 so ist A + B 0. (ii) Wenn A 0 symmetrisch, dann ist A invertierbar und A 1 0 symmetrisch. (iii) Wenn A, B 0 [bzw. A, B 0] und λ, µ > 0, so ist λa + µb 0 [bzw. λa + µb 0]. (iv) Wenn A 0, so ist C T AC 0 für jede passende Matrix C (v) Wenn A 0, so ist C T AC 0 für jede passende vollrangige Matrix C. (vi) Wenn A 0, so hat A Darstellung als A = C T C für eine vollrangige passende Matrix C. (vii) Wenn A 0 vom Rang m, so hat A Darstellung als A = C T C für eine vollrangige passende Matrix C R n m. (viii) Wenn A symmetrisch, dann sind alle Eigenwerte von A reell und es existiert eine Orthonormalbasis des R n aus Eigenvektoren. (ix) Wenn A 0 [bzw. A 0] symmetrisch, dann sind die Eigenwerte von A positiv [bzw. nicht negativ].
20 20 Linear-Quadratische Systeme 3.2 Optimale Steuerung eines LQS Wir fassen nochmal die Daten eines LQS zusammen: N ist beliebig S = R n C = R m U k (x k ) = C (keine Steuerbeschränkungen) D ist ein Wahrscheinlichkeitsverteilung über R n mit Erwartungswert Null und endlicher Varianz. f k (x k, u k, w k ) = A k x k +B k u k +w k für passende Matrizen A k und B k. g k (x k, u k, w k ) = x T k Q kx k + u T k R ku k und g N (x N ) = x T N R Nx N für passende Q k 0 und R k 0. Die wesentliche Struktur wird durch folgende Proposition beschrieben: Proposition Die optimalen Ausgangskosten J i sind von der Form N 1 J i (x i ) = x T i K i x i + E [ ] w T i K i+1 w i, i = 0, 1,..., N 1 k=i mit geeigneten symmetrischen K k 0. Die Intuition ist wie folgt: Die optimalen Ausgangskosten sind in jeder Stufe eine positiv semidefinite quadratische Funktion des Zustandsvektors. Da die Stufenkosten positiv definit quadratisch sind bedeutet das qualitativ, dass in der DP-Rekursion in jeder Stufe das Infimum einer positiv definiten quadratischen Funktion ohne Beschränkungen gesucht wird. Daher wird das Infimum angenommen, und das Minimum lässt sich berechnen. So pflanzt sich die Eigenschaft Positiv semidefinite quadratische Ausgangskostenfunktion fort bis Stufe Null. Der folgende Beweis formalisiert diese Argumente. Beweis. Wir führen den Beweis wie üblich durch vollständige Induktion nach N i.
21 3.2. Optimale Steuerung eines LQS 21 Wenn N i = 0, dann ist J N (x N ) = x T N Q Nx N + 0, also wie gwünscht mit K N = Q N. Wenn N i > 0, dann folgt aus der DP-Rekursion mit der Bezeichung c i := N 1 k=i E[ w T i K ] i+1w i, i = 0, 1,..., N 1: J i (x i ) = inf E[ x T u i R m i Q i x i + u T i R i u i + J i+1 (x i+1 ) ] = inf u i R m E[ x T i Q i x i + u T i R i u i + x T i+1k i+1 x i+1 + c i+1 ] Wir berechnen zunächst E [ x T i+1 K i+1x i+1 ] : E [ x T i+1k i+1 x i+1 ] = E [ (Ai x i + B i u i + w i ) T K i+1 (A i x i + B i u i + w i ) ] = E [ x T i A T i K i+1 A i x i + x T i A T i K i+1 B i u i + u T i B T i K i+1 A i x i + u T i B T i K i+1 B i u i ] } {{ } deterministisch + E [ w T i K i+1 (A i x i + B i u i ) + (A i x i + B i u i ) T K i+1 w i ] } {{ } = 0, da E [ w i ] = 0 + E [ w T i K i+1 w i ] } {{ } <, da E [ w T i w i] < Damit gilt: J i (x i ) = x T i Q i x i { } + inf u T i R i u i + x T u i R m i A T i K i+1 A i x i + u T i B T i K i+1 A i x i + x T i A T i K i+1 B i u i + u T i B T i K i+1 B i u i } {{ } =:h(u i ) + E [ w T i K i+1 w i ] + ci+1 } {{ } =c i Da der in u i quadratische Term in h(u i ) die positiv definite Koeffizientenmatrix R i +B T i K i+1b i hat, existiert ein eindeutiges Minimum von h(u i ). Um das Minimum zu ermitteln, differenzieren wir h(u i ) nach u i, und somit gilt
22 22 Linear-Quadratische Systeme für das Minimum u i von h: ui h(u i ) = 2R i u i + 2B T i K i+1 A i x i + 2B T i K i+1 B i u i = 0 R m ( R i + B T i K i+1 B i )u i = B T i K T } {{ } i+1a i x i 0 und symmetrisch symmetrisch invertierbar u k = (R i + B T i K i+1 B i ) 1 B T i K i+1 A i } {{ } =:L i Dies bedeutet, dass eine optimale Politik durch eine Lineare Abbildung L i gegeben ist, ein Lineares Kontrollgesetz. Aus der Formel für J i (x i ) folgt: J i (x i ) = x T i Q i x i + (u i ) T R i u i + x T i A T i K i+1 A i x i + (u i ) T B T i K i+1 A i x i + x T i A T i K i+1 B i u i + (u i ) T B T i K i+1 B i u i + c i = x T i Q i x i + (u i ) T (R i u i ) + (u i ) T (B T i K i+1 B i u i ) + (u i ) T (B T i K i+1 A i x i ) + x T i A T i K i+1 A i x i + x T i A T i K i+1 B i u i + c i = x T i Q i x i + (u i ) T (R i u i + B T i K i+1 B i u i + B T i K i+1 A i x i ) } {{ } = 1 2 u i h(u i ) = 0 + x T i A T i K i+1 A i x i + x T i A T i K i+1 B i u i + c i = x T i Q i x i + x T i A T i K i+1 A i x i + x T i A T i K i+1 B i L i x i + c i = x T i (Q i + A T i K i+1 A i + A T i K i+1 B i L i } {{ } )x i + c i =:K i = x T i K i x i + c i x i
23 3.2. Optimale Steuerung eines LQS 23 für K i = Q i + A T i K i+1 A i + A T i K i+1 B i L i = Q i + A T i K i+1 A i A T i K i+1 B i (R i + B T i K i+1 B i ) 1 B T i K i+1 A i = A T i (K i+1 K i+1 B i (R i + B T i K i+1 B i ) 1 B T i K i+1 )A i + Q i Die Matrix K i ist offenbar symmetrisch. Aber warum ist K i 0? Das liegt an der Eigenschaft der optimalen Ausgangskosten: x T K i x = J i (x) c i { = min x T K i+1 x + u T R i+1 u + (A i x + B i u) T K i+1 (A i x + B i u) } u R m 0, da der Ausdruck im Minimum nicht negativ ist alle Matrizen dort sind positiv semidefinit und die Minimierung daran nichts ändert. Aus dieser Proposition und dem Beweis folgt nun das Hauptresultat dieses Kapitels: Satz Die Optimalkostenfunktion J für ein LQS ist gegeben durch mit N 1 J (x 0 ) = J 0 (x 0 ) = x T 0 K 0 x 0 + E [ ] w T kk k+1 w k k=0 K N = Q N K i = A T i (K i+1 K i+1 B i (R i + B T i K i+1 B i ) 1 B T i K i+1 )A i + Q i 0 Eine optimale Steuerung ist gegeben durch mit µ i (x i ) = L i x i L i = (R i + B T i K i+1 B i ) 1 B T i K i+1 A i
24 24 Linear-Quadratische Systeme Insbesondere hängt eine optimale Steuerung nur vom Zustand aber nicht von den stochastischen Störungen ab. Das heißt, man kann alle L i im Voraus berechnen. Die Auswertung im laufenden Betrieb ist dann sehr schnell. Die Rekursion für die Matrizen K i heißt auch Diskrete Riccati-Gleichung; die Formel für die optimale Politik heißt auch lineare Kontrollgesetz.
25 Lagerhaltung 4 In diesem Kapitel lösen wir die DP-Rekursion für ein einfaches Lagerhaltungsproblem. Wichtig ist, dass unsere Kaufkosten proportional zur Bestellmenge sind. Falls es einen Sockelbetrag für eine Nachbestellung gibt, ist die Lösung zwar immer noch möglich aber wesentlich komplizierter. Waren im vorigen Kapitel quadratische Funktionen und positiv semidefinite Matrizen das Hauptwerkzeug aus der Mathematik, so sind es hier konvexe Mengen und Funktionen. 4.1 Über konvexe Mengen und Funktionen Wir stellen einige Fakten über konvexe Mengen und Funktionen zusammen. Definition Eine Teilmenge C des R n heißt konvex, wenn für alle x, y C und alle 0 α 1 auch αx + (1 α)y C. Definition Eine Funktion f : C R heißt konvex über C, wenn für alle x, y C und alle 0 α 1 gilt, dass f(αx+(1 α)y) αf(x)+(1 α)f(y). Beispiel C = R, f(x) = e x ist konvex. (Eselsbrücke: konve x.) Hilfssatz Für konvexe Mengen und Funktionen gilt: (i) f konvex f stetig (ii) f : C R konvex Γ λ := {x x C, f(x) λ} konvex für alle λ R (iii) f i : C R konvex und α i 0 i α if i konvex (iv) f : R m R konvex, A R m n und b R m g : R n R, g(x) = f(ax + b) konvex (v) f : R n R konvex und w Zufallsvektor im R n mit E [ ] w i < g(x) := E [ f(x + w) ] konvex für alle x Rn w (vi) Das Maximum zweier konvexer Funktionen ist konvex.
26 26 Lagerhaltung 4.2 Optimale Lagerhaltung Wir wiederholen kurz die Daten des MDP für das Lagerhaltungsproblem, das wir hier betrachten wollen: N ist ein beliebiger Zeithorizont S = S k = R C = C k = R 0 U k (x k ) = C k (keine Steuerbeschränkungen) D = D k = R 0 mit voneinander unabhängigen Wahrscheinlichkeitsverteilungen f k (x k, u k, w k ) = x k + u k w k g k (x k, u k, w k ) = cu k + r(x k + u k w k ) mit r(x) := p max{0, x} + h max{0, x} für p, h 0; ferner g N (x N ) = 0. Wir nehmen an, dass p > c ist (sonst kaufen wir nie). Ferner nehmen wir an, dass c > 0 ist. Ziel dieses Kapitels ist es, den folgenden Satz zu beweisen: Satz Für alle k = 0, 1,..., N 1 existiert ein Lagerbestand y k R, so dass folgende Politik optimal ist in Stufe k für das obige Lagerhaltungsproblem: { µ y k k(x k ) := x k falls x k < y k 0 sonst So eine Politik heißr auch Schwellwertpolitik. Wenn man einmal weiß, dass eine solche Politik optimal ist, dann lassen sich die Schwellwerte im Voraus berechnen, wodurch optimale Lagerhaltung sehr einfach wird. Wir stellen nun die DP-Rekursion auf: J N (x N ) = 0 { J i (x i ) = inf cu i u i 0 + p E [ max{0, w i (x i + u i )} + h max{0, (x i + u i ) w i } ] } {{ } =:H i (x i +u i ) + h E [ J i+1 ((x i + u i ) w i ) ]}
27 4.2. Optimale Lagerhaltung 27 Offenbar hängen alle Terme nur von der Summe x i + u i ab, also dem Lagerbestand unmittelbar vor dem Verkauf. Daher setzen wir y i := y i + u i und erhalten: J N (x N ) = 0 J i (x i ) = { inf cyi + H i (y i ) + E [ J i+1 (y i w i ) ]} cx i (4.1) y i x i Die Eigenschaft, die sich in diesem Beweis während der DP-Rekursion fortpflanzen soll, ist die Konvexität von J i. Ein wesentlicher Baustein ist H i. Hilfssatz Für alle i = 0, 1,..., N 1 gilt: (i) H i ist konvex für alle x i R. (ii) lim y (cy + H i (y)) = + Beweis. Teil (i) folgt aus Hilfssatz 4.1.2: H i (y i ) = p E [ max{0, w i y i } } {{ } konvex (4.1.2(vi)) ] +h E [ ] max{0, y i w i } } {{ } konvex (4.1.2(vi)) } {{ } } {{ } } konvex (4.1.2(v)) {{ konvex (4.1.2(v)) } konvex Zum Beweis von Teil (ii) bemerken wir zunächst, dass für y + die Aussage wegen c > 0 und lim y H i (y) = korrekt ist. Für y haben wir wegen p > c: lim (cy + H i(y)) y ( [ ] lim E max{0, (c p )y + pw} y } {{ } = + <0 } {{ } + w } {{ } +h E [ ] max{0, y w} } {{ } 0 w } {{ } 0 } {{ } )
28 28 Lagerhaltung Bevor wir die Rekursion endgültig lösen, hier noch eine Beobachtung: Hilfssatz J i (x i ) 0 für alle x i R und alle i = 0, 1,..., N. Beweis. Alle Stufenkosten und Terminalkosten sind nicht-negativ, also gilt die Behauptung. Die Analyse für J i führen wir durch, indem wir die Operationen, durch die J i aus J i+1 entsteht, einzeln untersuchen. Genauer: wir werden folgende Aussagen durch Simultaninduktion beweisen: Proposition Für i = 0, 1,..., N 1 gilt: (i) J i+1 ist konvex (ii) G i (y) := cy + H i (y) + E [ J i+1 (y w) ] ist konvex w (iii) lim y G i (y) = + (iv) G i hat Minimum y i R (v) J i (x i ) = G i (y i ) cx i falls x i < y i und J i(x i ) = G i (x i ) cx i falls x i y i (vi) µ i (x i ) := y i x i falls x i < y i und µ i(x i ) := 0 falls x i y i optimal Politik in Stufe k ist eine Beweis. Wir verwenden Induktion nach (N i) für alle Aussagen gleichzeitig. (i) J i+1 (x i+1 ) ist konvex für N i = 1, da J N (x N ) = 0 konvex ist. Falls N i > 0 so ist J i+1 konvex, da J i+1 nach Induktion die in (v) angegebene Form hat. (ii) G i (y) = cy + H i y + J i+1 (y) ist konvex, da alle Summanden konvex sind (u. a. wegen (i)) (iii) Es gilt nach Hilfssatz 4.2.2: lim y G i(y) = lim y = + ( cy + Hi (y) } {{ } + E [ J i+1 (y w) ] w } {{ } 0 )
29 4.3. Bemerkungen zu Verallgemeinerungen 29 (iv) Folgt aus (ii) und (iii). (v) Nach Gleichung (4.1) ist J i (x i ) = min y i x i { Gi (y i ) } cx i Aus (iv) folgt, dass ein y i die Funktion G i auf R minimiert. Also ist y i genau dann ein Minimum von G i auf {y i x i }, wenn y i zulässig ist, d. h. wenn y i x i. Ansonsten ist x i ein Minimum, da wegen der Konvexität die Funktion G i auf y i y i monoton steigend ist. (vi) Nach Satz und (v) ist eine Entscheidung u i optimal in Stufe i, wenn sie die optimalen Ausgangskosten erreicht, d. h. in unserem Falle, wenn gilt: G i (y i = x i + u i ) cx i = J i (x i ) Mit der angegebenen Politik eingesetzt für u i und der Formel (v) für J i erhalten wir: { ( G i y J i (x i ) = i = x i + (y i x i) ) cx i falls x i < y i G i (x i = x i + 0) cx i falls x i y i Also ist die Optimalitätsbedingung für die angegebene Schwellwertpolitik erfüllt. Damit ist per Induktion der Beweis komplett. Satz folgt nun sofort aus Proposition 4.2.1(vi). 4.3 Bemerkungen zu Verallgemeinerungen Man kann die DP-Rekursion auch noch für allgemeinere Lagerhaltungsprobleme lösen. Zum Beispiel solche, in denen für jeden Kauf ein Sockelbetrag K entrichtet werden muss. In diesen Fällen muss man zeigen, dass alle Ausgangskostenfunktionen K- konvex sind, woraus man mit analogen Argumenten wie oben (nur kompizierter) zeigt, dass eine sogenannte (σ, Σ)-Politik optimal ist: Ist der Lagerbestand kleiner als σ, so fülle auf einen Bestand von Σ auf. Lagerhaltung ist eine der Erfolgsgeschichten dieser Methode und wird daher immer noch aktiv beforscht, da in diesem Bereich Kosten in relevanten Größenordnungen gespart werden können.
30
31 Imperfekte 5 Zustandsinformation Bislang sind wir immer davon ausgegangen, dass der Zustand des Systems korrekt beobachtet werden konnte. Das ist in der Praxis nicht immer der Fall. Zum Beispiel kann beim Maschinenaustauschproblem aus einer Inspektion der Maschine nicht immer genau auf den Zustand geschlossen werden. Die Idee ist nun, die Beobachtungen über den Zustand, d. h. die Information über den Zustand mit in das Modell zu integrieren. Zum Beispiel: angenommen, die Maschine kann in gutem oder in schechtem Zustand sein und eine Inspektion ergibt die Schätzung guter Zustand oder schlechter Zustand ; nehmen wir ferner an, dass die Inspektionsmethode für jeden Zustand Auskunft über die Wahrscheinlichkeit liefert, dass die Schätzung in diesem (tatsächlichen) Zustand guter Zustand bzw. schlechter Zustand liefert. Dann kann man z. B. die Wahrscheinlichkeit ermitteln, dass der tatsächliche Zustand gut ist unter der Bedingung, dass die Schätzung gut ist. Allgemein: Wir wollen in Stufe k die gesamte Historie von Zustandsschätzungen z 0, z 1,..., z k benutzen, um eine Wahrscheinlichkeitsverteilung für x k (unter den Bedingungen z 0, z 1,..., z k ) zu ermitteln. Auf Basis dieser Informationen kann eine Politik dann eine Steuerung wählen. Offenbar benötigen wir bedingte Erwartungen. Wir wiederholen die wesentlichen Fakten. 5.1 Über bedingte Erwartung Wir liefern die Begriffe nur für einen endlichen Raum Ω von Elementarereignissen und einen Wahrscheinlichkeitsraum (Ω, F, P). Definition Die Bedingte Wahrscheinlichkeit von B gegeben A für A, B F ist definiert als [ ] P [ B ] P A B [ ] falls P [ A ] > 0 A := P B 0 sonst Hilfssatz (Bayes Regel). Sei Ω = B 1 B 2 B n (disjunkt) und
32 32 Imperfekte Zustandsinformation P [ A ] > 0. Dann ist für alle k = 1,..., n P [ B k A ] = P [ B k ] P [ A Bk ] n i=1 P[ B i ] P [ A Bi ] Definition X sei eine Zufallsvariable auf (Ω, F, P) mit Werten in R n. Dann heißen E [ X ] : { F R n A ω Ω X(ω) P[ ω A ] E [ X ] : { R n R n Z ω Ω X(ω) P[ X 1 (Z) ] bedingte Erwartungen von X. 5.2 Das allgemeine Modell unter imperfekter Zustandsinformation Wir definieren nun ein erweitertes Modell, das imperfekte Information über Zustände abbildet: Definition Ein Markovsches Entscheidungsproblem mit endlichem Horizont und imperfekter Zustandsinformation kurz: MDPI ist ein Tupel (N, S, Z, C, U, D, V, f, g, h, M mit folgender Bedeutung: (N, S, C, U, D, f, g, M) ist ein MDP, für das die Steuerbeschränkungen U k von x k unabhängig sind und für das der Startzustand x 0 S 0 zufällig ist bzgl. einer von allen anderen Daten unabhängigen Verteilung Z = N k=0 Z k ist ein Raum von gestörten Zustandsbeobachtungen V = N k=0 V k ist ein Raum von Störungen v k für die Zustandsbeobachtungen, deren Verteilung durch bedingte Wahrscheinlichkeiten bzgl. der Systemhistorie (x k,..., x 0, u k 1,..., u 0, w k 1,..., w 0, v k 1,..., v 0 ) gegeben ist für k = 0, 1,..., N 1. h ist eine Familie von Funktionen h k mit h 0 : S 0 V 0 Z 0 und h k : S k C k 1 V k Z k für k = 1,..., N, die Beobachtungsfunktionen
33 5.3. Dynamisches Programmieren für MDPI 33 Die Vektoren I k := (z 0, u 0, z 1, u 1,..., z k 1, u k 1, z k ) für k = 0, 1,..., N heißen Informationsvektoren. Eine (deterministische) Politik ist eine Folge π = (µ 0, µ 1,..., µ N 1 ) von Funktionen µ k : Z 0 U 0... Z k 1 U k 1 Z } {{ k } C k I k I k µ k (I k ) Falls µ k (I k ) U k für alle k = 0, 1,..., N 1, so heißt π zulässig. Falls π = (µ, µ,..., µ), so heißt π stationär. Die Kosten von π bei Anfangszustand x 0 sind definiert als J π := E [ N 1 g N (x N ) + g(x k, µ k (I k ), w k ) ] x 0,w k,v k. k=0 Eine Politik π heißt optimal, wenn J := inf π J π = J π. Der Wert J heißt Optimalkostenwert. 5.3 Dynamisches Programmieren für MDPI Auch für imperfekte Zustandsinformation kann man eine DP-Rekursion angeben. Das liegt daran, dass jedes MDPI durch Zustandsraumaugmentierung wie folgt durch ein äquivalentes MDP beschrieben werden kann. Satz (N, S, Z, C, U, D, V, f, g, h) sei ein MDPI. Dann ist das folgende MDP (Ñ = N, S = I, C = C, Ũ = U, D = Z, f, g) äquivalent mit I k der Raum aller möglichen Informationsvektoren des MDPI in Stufe k ist der Zustandsraum in Stufe k P [ x k, ũ k ] := P [ zk+1 Ik, u k ] = P [ zk+1 Ik, u k, z 0, z 1,..., z k ] ist die Wahrscheinlichkeitsverteilung der Störungen in D k = Z k+1 (die damit wie für ein MDP nur vom momentanen Zustand und der momentanen Steuerung abhängen)
34 34 Imperfekte Zustandsinformation f(i k, u k, z k+1 ) := I k+1 := (I k, u k, z k+1 ) ist die Systemdynamik g(i k, u k, z k+1 ) := g k (I k, u k ) := E [ g k (x k, u k, w k ) Ik, u k ]x k,w k sind die Stufenkosten für k = 0,..., N 1 und g N (I N ) := E [ g N (x N ) ] IN x N sind die Terminalkosten. Wenn man für dieses induzierte MDP die normale DP-Rekursion wieder zurückübersetzt in die Daten des MDPI, so erhält man den DP-Algorithmus für allgemeine MDPIs: Korollar Die folgende DP-Rekursion berechnet die Optimalkosten J eines MDPI (N, S, Z, C, U, D, V, f, g, h) als J = E [ J 0 (z 0 ) ] z 0 : J N (I N ) = E [ g N (x N ) IN ] x N { J i (I i ) = min E [ E [ g i (x i, u i, w i ) ] Ii, u i u i U x i,w i + J i+1 (I i, u i, z i+1 ) ] } Ii, u i z i+1 i { = min E [ g i (x i, u i, w i ) + J i+1 (I i, u i, z i+1 ) ] } Ii, u i u i U x i,w i,z i+1 i Wegen der offensichtlichen Zustandsraumexplosion ist die vorliegende Rekursion weniger für direkte Implementierung als vielmehr als Grundlage analytischer Lösungen geeignet. Der folgende Abschnitt gibt ein Beispiel ohne Beweis. 5.4 Beispiel: Linear-Quadratische MDPI (LQSI) Wir berichten hier nur kurz über ein wichtiges Resultat zur Optimalsteuerung von LQSI, das man ähnlich wie die Ergebnisse in Kapitel 3 erhält, was wir hier aber nicht durchführen wollen. Satz Wir betrachten das folgende LQSI: N ist ein beliebiger Zeithorizont S = S k = R n Z = Z k = R s C = C k = R m
35 5.4. Beispiel: Linear-Quadratische MDPI (LQSI) 35 U k = C k D = D k = R n mit einer Wahrscheinlichkeitsverteilung mit E [ w k ] = 0 und endlicher Varianz V = V k = R s mit einer Wahrscheinlichkeitsverteilung mit E [ v k ] = 0 und endlicher Varianz, unabhängig von w k D k und x 0 f k (x k, u k, w k ) = A k x k + B k u k + w k (wie beim LQS) g k (x k, u k, w k ) = x T k Qx k + u T k R ku k und g N (x N ) = x T N Q Nx N (wie beim LQS) h k (x k, v k ) = M k x k + v k Z k für C k R s n Dann existieren Matrizen mit L i := (R i + B T i K i+1 B i ) 1 B T i K i+1 A i so dass K N = Q N K i = A T K i+1 A i + A T i K i+1 B i (R k + B T i K i+1 B i ) 1 B T i K i+1 A i + Q i eine optimale Politik ist. µ i (I i ) = L i E [ x i Ii ], i = 0, 1,..., N 1 Beweis. (Man muss u. a. zeigen, dass die Größe x k E [ x k Ik ] unabhängig von der gewählten Politik π ist; das erfordert etwas mehr Wahrscheinlichkeitstheorie, als wir an dieser Stelle im Detail besprechen wollen.) Besonders interessant am vorigen Ergebnis ist, dass man die Schätzung des Zustands und die Steuerung komplett voneinander trennen kann. Wir formulieren das etwas informell wie folgt: Satz (Separationssatz). Eine Optimalsteuerung für ein LQSI kann in (a) einen Schätzer, der E [ x k Ik ] berechnet und (b) einen Bediener, der u k = L k E [ x k Ik ] berechnet und anwendet
36 36 Imperfekte Zustandsinformation zerlegt werden. Der Bedienanteil ist wieder sehr einfach zu implementieren, der Schätzer jedoch nicht immer. In wichtigen Spezialfällen jedoch kann man das sehr effizient tun (Stichwort Kalman-Filter).
37 MDPs mit unendlichem 6 Horizont (MDP- ) Bislang haben wir stets einen festen Planungshorizont angegeben. Dies ist nicht immer sinnvoll: Manche Systeme laufen ununterbrochen bis zu einem unbekannten Zeitpunkt in der Zukunft. Zum Beispiel kann man sich nicht sicher sein, wie lange ein Auto noch fährt. Trotzdem möchte man größere Reparaturen (Maschinenaustausch) zu günstigen Zeitpunkten vornehmen lassen. In diesem Kapitel werden wir Modelle für einen unendlichen Planungshorizont betrachten. Wir erläutern dies zunächst an einigen Beispielen. 6.1 Beispiele Angenommen, wir wollen die erwarteten Kosten einer Lagerhaltung ohne Zeithorizont minimieren. Das erste Problem, das mit unserer Kostenfunktion aus Kapitel 4 für einen unendlichenhorizont auftritt, ist das folgende: Ersetzen wir in der erwarteten Summe aller Stufenkosten N durch, so erhalten wir i. A. unendliche Gesamtkosten für alle Politiken. Also müssen wir an den Kosten noch etwas ändern, um die Chance zu bekommen, dass wir Politiken nach diesem Kostenkriterium sinnvoll evaluieren können. Dazu gibt es mehrere Möglichkeiten: Diskontieren: Motivation ist hier die Zinsrechnung: Geld, das ich erst später für den Nachkauf des Produktes ausgeben muss, kann ich in der Zwischenzeit zu einem Zinssatz von α anlegen. Wir multiplizieren daher die Stufenkosten g k mit α k für ein α (0, 1). Dadurch wird im Falle beschränkter Stufenkosten die Summe aller Stufenkosten eine kovergente Reihe. Die Interpretation ist, dass Kosten, die in fernerer Zukunft entstehen, weniger zählen sollen. Zielvorgabe: Hier möchten wir eine Zielvorgabe erreichen, z. B. möglichst kostengünstiger Abverkauf unter Berücksichtigung des Verkaufsgewinns. Zur Modellierung der Zielvorgabe definieren wir einen Endzustand, in dem das System kostenfrei verbleibt, sobald er einmal erreicht worden ist. Die Minimierung der Gesamtkosten bis dahin bedeutet, die Zielvorgabe unter möglichst geringen Kosten zu erreichen.
38 38 MDPs mit unendlichem Horizont (MDP- ) Durchschnittskosten pro Stufe: Wir möchten die erwarteten Lagerkosten pro Tag minimieren. Wir hoffen hier, dass die Gesamtkosten für N Stufen geteilt durch N für N gegen unendlich gegen eine Zahl konvergieren. Dies sind dann die Durchschnittskosten pro Stufe, die wir minimieren wollen. Ähnliche Ziele kann man sich für Maschinenreparatur vorstellen: Für einen Austausch in ferner Zukunft kann ich noch sparen mit einer gewissen Rendite; daher macht das diskontierte Modell Sinn. Eventuell will ich aber auch nur eine bestimmte Aufgabe mit der Maschine erledigen, und die Geschwindigkeit der Erledigung hängt auch vom Maschinenzustand ab; hier wäre das Modell mit Zielvorgabe interessanter. Wenn ich die durchschnittlichen Maschinenkosten pro Produktionszyklus minimieren will, so ist das Durchschnittskostenmodell am passendsten. Wir präsentieren noch zwei neue Beispiele: Stochastisches Scheduling: Wir wollen an n Aktivitäten arbeiten, können aber immer nur eine Sache gleichzeitig. Am Tag k befinde sich Projekt i in Zustand x i k ; die Arbeit an einer Aktivität ändert ihren Zustand bis die Aufgabe schließlich erledigt ist. Für jeden Fortschritt bei einer Aktiivität erhalten wir einen Profit von α k R i (x i k ), wobei α (0, 1); für die endgültige Fertigstellung am Tag k nochmal einen Profit von α k M i. Die Maximierung des erwarteten Profits entspricht der Optimierung des diskontierten Modells. Tetris: Tetris ist ein Computerspiel, bei dem man herunterfallende, immer aus vier Teilen bestehende Bausteine so drehen muss, dass sie möglichst ohne Lücken eine Mauer bilden. Sobald eine Reihe von Steinen komplett ist, wird sie entfernt. Das Spiel endet, sobald sich die nicht abgebauten Bausteine bis zum oberen Spielfeldrand aufgetürmt haben. Je länger man diesen Zustand hinauszögern kann, desto mehr Punkte erhält man. Für jedes eingepasste Teil bekommt man Punkte. Nach einem recht neuen Resultat [Burgiel 1997] endet das Spiel für alle Strategien fast sicher. Damit ist auch die erwartete Anzahl der Punkte endlich. Somit kann man das Zielvorgabe-Modell benutzen, und eine optimale Politik entspricht einer optimalen Spielstrategie.
39 6.2. Klassifikation Klassifikation Wir präsentieren nun die im vorigen Abschnitt angesprochenen Modelle in der Sprache der Markovschen Entscheidungsprobleme. Wir nehmen ab jetzt an, dass MDP N := (N, S, C, U, D, f, g) für alle N 0 ein stationäres MDP ist, d. h. die Daten hängen nicht von der Stufe k = 0, 1,..., N 1 ab. Insbesondere sind die w k identisch verteilte unabhängige Zufallsvariablen. Dann betrachten wir drei Typen von möglichen Markovschen Entscheidungsproblemen mit unendlichem Horizont MDP-, die wir aus (MDP N ) N 0 generieren können: Stochastisches Kürzeste-Wege-Problem: Wir nehmen an, es gibt einen kostenfreien Terminalzustand t mit f(t, u, w) = t g(t, u, w) = 0 u U, w D u U, w D Ferner nehmen wir an, dass eine optimale Politik t fast sicher in endlicher Zeit erreicht. Das Ziel ist: Minimiere J π (x 0 ) = lim N E[N 1 g(x k, µ k (u k ), w k ) ] w 0,w 1,...,w N 1 k=0 Wir bezeichnen dieses MDP- mit (S, C, U, D, f, g, t). Diskontierte Probleme: Wir nehmen an, die Stufenkosten sind beschränkt für alle Politiken. Wir haben einen Diskontfaktor α (0, 1). Das Ziel ist: Minimiere J π (x 0 ) = lim N E[N 1 α k g(x k, µ k (u k ), w k ) ] w 0,w 1,...,w N 1 k=0 Wir bezeichnen dieses MDP- mit (S, C, U, D, f, g, α). Durchschnittskosten-Probleme: Das Ziel ist hier: Minimiere ( 1 lim E [N 1 α k g(x k, µ k (u k ), w k ) ] ) N N w 0,w 1,...,w N 1 k=0 Wir bezeichnen dieses MDP- mit (S, C, U, D, f, g, ). Wir werden uns in dieser Vorlesung mit diskontierten Problemen beschäftigen.
40 40 MDPs mit unendlichem Horizont (MDP- ) 6.3 Der DP-Operator Wir führen nun eine zur Untersuchung eines MDP- nützliche Struktur ein, den DP-Operator. Definition Gegeben sei ein stationäres, diskontiertes MDP- (S, C, U, D, f, g, α) mit einer Menge Π von zulässigen Politiken. Dann heißt J (x 0 ) := inf π Π J π(x 0 ) Optimalkostenfunktion. Für eine beliebige Funktion J : S R und eine Steuerfunktion µ : S C sei { } S R TJ : x (TJ)(x) := inf u U(x) E [ g(x, u, w) + αj ( f(x, u, w) )] T heißt DP-Operator. Ferner heißt { } S R T µ J : x (T µ J)(x) := E [ g(x, µ(x), w) + αj ( f(x, µ(x), w) )] DP-Operator von µ. Wir definieren ferner T k J := T(T k 1 J) T k µj := T(T k 1 µ J) Die Interpretation des DP-Operators ist wie folgt: (T J) ist die Optimalkostenfunktion des einstufigen MDPs mit g 0 = g und g N = αj. Analog liefert der DP-Operator von µ die Kostenfunktion der stationären Politik (µ, µ) für dasselbe einstufige MDP. 6.4 Vorschau: Die drei Stützpfeiler der Theorie In den folgenden Kapiteln wird es darum gehen, folgende Resultate für ein diskontiertes MDP- nachzuweisen: Die Konvergenz von DP: Wir hätten gern, dass iteriertes Anwenden des DP- Operators auf eine geeignete Funktion J 0 : S R gegen die tatsächliche Optimalkostenfunktion konvergiert, d. h. J (x) = lim k (T k J 0 )(x) x S
41 6.4. Vorschau: Die drei Stützpfeiler der Theorie 41 Die Bellmann-Gleichung: Die Optimalkostenfunktion soll (möglichst eindeutiger) Fixpunkt des DP-Operators sein, d. h. J = TJ Eine Charakterisierung optimaler Politiken: Eine stationäre Politik soll genau dann optimal sein, wenn sie Minimierer in TJ ist, d. h. (µ, µ,... ) optimal T µ J = TJ Eine wesentliche Aufgabe der Forschung in diesem Bereich ist es, unter welchen Bedingungen die obigen Beahuptungen gelten. Wir werden uns in dieser Vorlesung mit den diskontierten Problemen mit beschränkten Stufenkosten begnügen.
42
43 Diskontierte Probleme I 7 In diesem Kapitel werden wir die Kernresultate zu den Diskontierten Problemen vorstellen. Zur Wiederholung: Für das MDP- mit den Daten (S, C, U, D, f, g, α) seien die Stufenkosten beschränkt für alle Politiken, und α (0, 1) sei ein Diskontfaktor. Das Ziel ist: Minimiere J π (x 0 ) = lim N E[N 1 α k g(x k, µ k (u k ), w k ) ] w 0,w 1,...,w N 1 k=0 Zur vernünftigen Formulierung der Theorie beschaffen wir uns zunächst einige Hilfsmittel. 7.1 Hilfsmittel Zunächst fassen wir etwas genauer, was wir schon bei der Einführung des DP- Operators beobachtet haben: Für eine beliebige Funktion J : S R ist TJ die Optimalkostenfunktion des einstufigen MDP mit Terminalkosten αj und Stufenkosten g. Definition Für beliebiges N N und eine Funktion J : S R sei für k = 1, 2,..., N J N (x) := α N J(x) J N k (x) := min u U(x) E[ α N k g(x, u, w) + J N k+1 ( f(x, u, w) )]w V k (x) := J N k(x) α N k Die Funktion V k heisst Wertfunktion (engl.: value function) des MDP-. Beobachtung Für alle N N ist V k die Optimale Ausgangskostenfunktion der (N k)ten Stufe für das N-stufige MDP mit Stufenkosten g k = α k g und Terminalkosten g N = α N J. Infolgedessen liefert die Korrektheit des DP- Algorithmus: V N (x) = J 0 (x) = N 1 min E[ α N J(x N )+ α k g(x k, µ k (x k ), w k ) ] π=(µ 0,µ 1,... ) w 0,w 1,...,w N 1 k=0
Primzahlen und RSA-Verschlüsselung
Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also
MehrEinführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)
Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff
Mehr9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83
9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x
MehrAustausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen
Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:
Mehr4. Dynamische Optimierung
4. Dynamische Optimierung Allgemeine Form dynamischer Optimierungsprobleme 4. Dynamische Optimierung Die dynamische Optimierung (DO) betrachtet Entscheidungsprobleme als eine Folge voneinander abhängiger
MehrAbsolute Stetigkeit von Maßen
Absolute Stetigkeit von Maßen Definition. Seien µ und ν Maße auf (X, Ω). Dann heißt ν absolut stetig bezüglich µ (kurz ν µ ), wenn für alle A Ω mit µ(a) = 0 auch gilt dass ν(a) = 0. Lemma. Sei ν ein endliches
Mehr1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:
Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:
MehrInformationsblatt Induktionsbeweis
Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln
MehrDivision Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema
Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema 2x 4 + x 3 + x + 3 div x 2 + x 1 = 2x 2 x + 3 (2x 4 + 2x 3 2x 2 ) x 3 + 2x 2 + x + 3 ( x
Mehr7 Rechnen mit Polynomen
7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn
Mehr3.3 Eigenwerte und Eigenräume, Diagonalisierung
3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.
Mehr50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
MehrLineare Gleichungssysteme
Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der
Mehrx 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt
- 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +
MehrBasis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.
Basis und Dimension Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren. Definition. Sei V ein K-Vektorraum und (v i ) i I eine Familie von Vektoren
Mehrgeben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde
MehrRekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt
Methoden und Techniken an Beispielen erklärt Georg Anegg 5. November 009 Beispiel. Die Folge {a n } sei wie folgt definiert (a, d, q R, q ): a 0 a, a n+ a n q + d (n 0) Man bestimme eine explizite Darstellung
MehrLineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
MehrBeispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen
4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.
MehrData Mining: Einige Grundlagen aus der Stochastik
Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener
MehrERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN
ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN CHRISTIAN HARTFELDT. Zweiter Mittelwertsatz Der Mittelwertsatz Satz VI.3.4) lässt sich verallgemeinern zu Satz.. Seien f, g : [a, b] R auf [a,
MehrMengensysteme, Wahrscheinlichkeitsmaße
Kapitel 1 Mengensysteme, Wahrscheinlichkeitsmaße Der Großteil der folgenden fundamentalen Begriffe sind schon aus der Vorlesung Stochastische Modellbildung bekannt: Definition 1.1 Eine Familie A von Teilmengen
MehrMatrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist.
Matrizennorm Es seien r,s N Mit M r,s (R bezeichnen wir die Menge der reellen r s- Matrizen (also der linearen Abbildungen R s R r, und setze M s (R := M s,s (R (also die Menge der linearen Abbildungen
Mehra n + 2 1 auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:
Beispiel: Wir untersuchen die rekursiv definierte Folge a 0 + auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert: ( ) (,, 7, 5,...) Wir können also vermuten, dass die Folge monoton fallend
MehrEigenwerte und Eigenvektoren von Matrizen
Eigenwerte und Eigenvektoren von Matrizen Das Eigenwertproblem Sei A eine quadratische Matrix vom Typ m,m. Die Aufgabe, eine Zahl λ und einen dazugehörigen Vektor x zu finden, damit Ax = λx ist, nennt
MehrFachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester 2015. gehalten von Harald Baum
Fachschaft Mathematik und Informatik (FIM) LA I VORKURS Herbstsemester 2015 gehalten von Harald Baum 2. September 2015 Inhaltsverzeichnis 1. Stichpunkte zur Linearen Algebra I 2. Körper 3. Vektorräume
MehrExtrema von Funktionen in zwei Variablen
Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen in zwei Variablen Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,
Mehr1 Mathematische Grundlagen
Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.
MehrVorlesung Diskrete Strukturen Graphen: Wieviele Bäume?
Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Bernhard Ganter Institut für Algebra TU Dresden D-01062 Dresden bernhard.ganter@tu-dresden.de WS 2013/14 Isomorphie Zwei Graphen (V 1, E 1 ) und (V
MehrGleichungen Lösen. Ein graphischer Blick auf Gleichungen
Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term
MehrIm Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b
Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrBONUS MALUS SYSTEME UND MARKOV KETTEN
Fakultät Mathematik und Naturwissenschaften, Fachrichtung Mathematik, Institut für Mathematische Stochastik BONUS MALUS SYSTEME UND MARKOV KETTEN Klaus D. Schmidt Ringvorlesung TU Dresden Fakultät MN,
MehrRekursionen (Teschl/Teschl 8.1-8.2)
Rekursionen (Teschl/Teschl 8.1-8.2) Eine Rekursion kter Ordnung für k N ist eine Folge x 1, x 2, x 3,... deniert durch eine Rekursionsvorschrift x n = f n (x n 1,..., x n k ) für n > k, d. h. jedes Folgenglied
MehrCodierungstheorie Rudolf Scharlau, SoSe 2006 9
Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets
MehrDie Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.
Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,
MehrEinführung in die Algebra
Prof. Dr. H. Brenner Osnabrück SS 2009 Einführung in die Algebra Vorlesung 13 Einheiten Definition 13.1. Ein Element u in einem Ring R heißt Einheit, wenn es ein Element v R gibt mit uv = vu = 1. DasElementv
MehrGrundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen
Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen 1. Quadratische Gleichungen Quadratische Gleichungen lassen sich immer auf die sog. normierte Form x 2 + px + = 0 bringen, in
MehrName:... Matrikel-Nr.:... 3 Aufgabe Handyklingeln in der Vorlesung (9 Punkte) Angenommen, ein Student führt ein Handy mit sich, das mit einer Wahrscheinlichkeit von p während einer Vorlesung zumindest
MehrStatistische Thermodynamik I Lösungen zur Serie 1
Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen
MehrStellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster
Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.
MehrLineare Gleichungssysteme
Lineare Gleichungssysteme Eines der am häufigsten auftretenden Standardprobleme der angewandten Mathematik ist das Lösen linearer Gleichungssysteme, etwa zur Netzwerkberechnung in der Elektrotechnik oder
MehrKapitel 15. Lösung linearer Gleichungssysteme
Kapitel 15. Lösung linearer Gleichungssysteme Lineare Gleichungssysteme Wir befassen uns nun mit der Lösung im allgemeinen nichthomogener linearer Gleichungssysteme in zweifacher Hinsicht. Wir studieren
Mehr3. Zusammenhang. 22 Andreas Gathmann
22 Andreas Gathmann 3. Zusammenhang Eine der anschaulichsten Eigenschaften eines topologischen Raumes ist wahrscheinlich, ob er zusammenhängend ist oder aus mehreren Teilen besteht. Wir wollen dieses Konzept
MehrLösungshinweise zur Einsendearbeit 2 SS 2011
Lösungshinweise zur Einsendearbeit 2 zum Kurs 41500, Finanzwirtschaft: Grundlagen, SS2011 1 Lösungshinweise zur Einsendearbeit 2 SS 2011 Finanzwirtschaft: Grundlagen, Kurs 41500 Aufgabe Finanzierungsbeziehungen
MehrMathematischer Vorbereitungskurs für Ökonomen
Mathematischer Vorbereitungskurs für Ökonomen Dr. Thomas Zehrt Wirtschaftswissenschaftliches Zentrum Universität Basel Gleichungen Inhalt: 1. Grundlegendes 2. Lineare Gleichungen 3. Gleichungen mit Brüchen
MehrZeichen bei Zahlen entschlüsseln
Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren
MehrProfessionelle Seminare im Bereich MS-Office
Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion
Mehr3. Grundlagen der Linearen Programmierung
3. Grundlagen der linearen Programmierung Inhalt 3. Grundlagen der Linearen Programmierung Lineares Programm Grafische Lösung linearer Programme Normalform Geometrie linearer Programme Basislösungen Operations
MehrMathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011
Mathematik für Informatiker II Christoph Eisinger Sommersemester 211 Beispiellösungen zur Probeklausur Aufgabe 1 Gegeben sind die Polynome f, g, h K[x]. Zu zeigen: Es gibt genau dann Polynome h 1 und h
MehrLineare Gleichungssysteme
Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen
MehrKorrigenda Handbuch der Bewertung
Korrigenda Handbuch der Bewertung Kapitel 3 Abschnitt 3.5 Seite(n) 104-109 Titel Der Terminvertrag: Ein Beispiel für den Einsatz von Future Values Änderungen In den Beispielen 21 und 22 ist der Halbjahressatz
MehrAnhand des bereits hergeleiteten Models erstellen wir nun mit der Formel
Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung
MehrÜbungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.
Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Gert Zöller Übungsklausur Hilfsmittel: Taschenrechner, Formblatt mit Formeln. Lösungswege sind stets anzugeben. Die alleinige Angabe eines
Mehr8. Quadratische Reste. Reziprozitätsgesetz
O Forster: Prizahlen 8 Quadratische Reste Rezirozitätsgesetz 81 Definition Sei eine natürliche Zahl 2 Eine ganze Zahl a heißt uadratischer Rest odulo (Abkürzung QR, falls die Kongruenz x 2 a od eine Lösung
MehrWürfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
MehrGrundlagen der Theoretischen Informatik, SoSe 2008
1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)
MehrKorrelation (II) Korrelation und Kausalität
Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen
MehrNichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
MehrKapitel 4 Die Datenbank Kuchenbestellung Seite 1
Kapitel 4 Die Datenbank Kuchenbestellung Seite 1 4 Die Datenbank Kuchenbestellung In diesem Kapitel werde ich die Theorie aus Kapitel 2 Die Datenbank Buchausleihe an Hand einer weiteren Datenbank Kuchenbestellung
MehrEine Logikschaltung zur Addition zweier Zahlen
Eine Logikschaltung zur Addition zweier Zahlen Grundlegender Ansatz für die Umsetzung arithmetischer Operationen als elektronische Schaltung ist die Darstellung von Zahlen im Binärsystem. Eine Logikschaltung
Mehr7 Die Determinante einer Matrix
7 Die Determinante einer Matrix ( ) a11 a Die Determinante einer 2 2 Matrix A = 12 ist erklärt als a 21 a 22 det A := a 11 a 22 a 12 a 21 Es ist S 2 = { id, τ}, τ = (1, 2) und sign (id) = 1, sign (τ) =
MehrW-Rechnung und Statistik für Ingenieure Übung 11
W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik
Mehr2 3 x3 17. x k dx = x k x k+1 k +1. Mit jeder weiteren partiellen Integration reduziert sich der Grad des Faktors x n, induktiv erhalten wir also
Universität Konstanz Fachbereich Mathematik und Statistik Repetitorium Analysis 0 Dr DK Huynh Blatt 8 Aufgabe 6 Bestimmen Sie (a) (x + x 7x+)dx (c) (f) x n exp(x)dx (n N fest) sin (x)dx (g) (b) (d) ln(x)dx
MehrAusarbeitung des Seminarvortrags zum Thema
Ausarbeitung des Seminarvortrags zum Thema Anlagepreisbewegung zum Seminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn von Imke Meyer im W9/10 Anlagepreisbewegung
Mehr(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu
Herleitung der oppenecker-formel (Wiederholung) Für ein System ẋ Ax + Bu (B habe Höchstrang) wird eine Zustandsregelung u x angesetzt. Der geschlossene egelkreis gehorcht der Zustands-Dgl. ẋ (A B)x. Die
MehrEinführung in die Vektor- und Matrizenrechnung. Matrizen
Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:
MehrGüte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über
Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion
MehrDas große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten
Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während
Mehr13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.
13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen. Sie heißt linear, wenn sie die Form y (n) + a n 1 y (n 1)
MehrDie reellen Lösungen der kubischen Gleichung
Die reellen Lösungen der kubischen Gleichung Klaus-R. Löffler Inhaltsverzeichnis 1 Einfach zu behandelnde Sonderfälle 1 2 Die ganzrationale Funktion dritten Grades 2 2.1 Reduktion...........................................
MehrWS 2008/09. Diskrete Strukturen
WS 2008/09 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0809
MehrDas RSA-Verschlüsselungsverfahren 1 Christian Vollmer
Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Allgemein: Das RSA-Verschlüsselungsverfahren ist ein häufig benutztes Verschlüsselungsverfahren, weil es sehr sicher ist. Es gehört zu der Klasse der
MehrONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele
ONLINE-AKADEMIE Ziele Wenn man von Menschen hört, die etwas Großartiges in ihrem Leben geleistet haben, erfahren wir oft, dass diese ihr Ziel über Jahre verfolgt haben oder diesen Wunsch schon bereits
MehrOptimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen
Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Dr. Nico Düvelmeyer Freitag, 1. Juli 2011 1: 1 [1,1] Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel
MehrLineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3
Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen
MehrKevin Caldwell. 18.April 2012
im Rahmen des Proseminars Numerische Lineare Algebra von Prof.Dr.Sven Beuchler 18.April 2012 Gliederung 1 2 3 Mathematische Beschreibung von naturwissenschaftlich-technischen Problemstellungen führt häufig
Mehr4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.
Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel
Mehr2 Terme 2.1 Einführung
2 Terme 2.1 Einführung In der Fahrschule lernt man zur Berechnung des Bremsweges (in m) folgende Faustregel: Dividiere die Geschwindigkeit (in km h ) durch 10 und multipliziere das Ergebnis mit sich selbst.
MehrWahrscheinlichkeitstheorie. Zapper und
Diskrete Wahrscheinlichkeitsräume Slide 1 Wahrscheinlichkeitstheorie die Wissenschaft der Zapper und Zocker Diskrete Wahrscheinlichkeitsräume Slide 2 Münzwürfe, Zufallsbits Elementarereignisse mit Wahrscheinlichkeiten
MehrBestimmung einer ersten
Kapitel 6 Bestimmung einer ersten zulässigen Basislösung Ein Problem, was man für die Durchführung der Simplexmethode lösen muss, ist die Bestimmung einer ersten zulässigen Basislösung. Wie gut das geht,
MehrGrundbegriffe der Informatik
Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen
MehrV 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,
Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen
MehrApproximation durch Taylorpolynome
TU Berlin Fakultät II - Mathematik und Naturwissenschaften Sekretariat MA 4-1 Straße des 17. Juni 10623 Berlin Hochschultag Approximation durch Taylorpolynome Im Rahmen der Schülerinnen- und Schüler-Uni
MehrFinanzwirtschaft Teil III: Budgetierung des Kapitals
Finanzmärkte 1 Finanzwirtschaft Teil III: Budgetierung des Kapitals Kapitalwertmethode Agenda Finanzmärkte 2 Kapitalwertmethode Anwendungen Revolvierende Investitionsprojekte Zusammenfassung Kapitalwertmethode
MehrMusterlösungen zur Linearen Algebra II Blatt 5
Musterlösungen zur Linearen Algebra II Blatt 5 Aufgabe. Man betrachte die Matrix A := über dem Körper R und über dem Körper F und bestimme jeweils die Jordan- Normalform. Beweis. Das charakteristische
MehrEva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit
Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit Frau Dr. Eva Douma ist Organisations-Beraterin in Frankfurt am Main Das ist eine Zusammen-Fassung des Vortrages: Busines
MehrAlso kann nur A ist roter Südler und B ist grüner Nordler gelten.
Aufgabe 1.1: (4 Punkte) Der Planet Og wird von zwei verschiedenen Rassen bewohnt - dem grünen und dem roten Volk. Desweiteren sind die Leute, die auf der nördlichen Halbkugel geboren wurden von denen auf
MehrErinnerung/Zusammenfassung zu Abbildungsmatrizen
Erinnerung/Zusammenfassung zu Abbildungsmatrizen Thomas Coutandin (cthomas@student.ethz.ch) 7. November 2 Abbildungsmatrizen Im Folgenden betrachten wir stets endlich dimensionale K-Vektorräume (K irgend
MehrMathematik-Klausur vom 4.2.2004
Mathematik-Klausur vom 4.2.2004 Aufgabe 1 Ein Klein-Sparer verfügt über 2 000, die er möglichst hoch verzinst anlegen möchte. a) Eine Anlage-Alternative besteht im Kauf von Bundesschatzbriefen vom Typ
MehrKapitalerhöhung - Verbuchung
Kapitalerhöhung - Verbuchung Beschreibung Eine Kapitalerhöhung ist eine Erhöhung des Aktienkapitals einer Aktiengesellschaft durch Emission von en Aktien. Es gibt unterschiedliche Formen von Kapitalerhöhung.
MehrModul Diskrete Mathematik WiSe 2011/12
1 Modul Diskrete Mathematik WiSe 2011/12 Ergänzungsskript zum Kapitel 4.2. Hinweis: Dieses Manuskript ist nur verständlich und von Nutzen für Personen, die regelmäßig und aktiv die zugehörige Vorlesung
MehrDynamische Optimierung. Kapitel 4. Dynamische Optimierung. Peter Becker (H-BRS) Operations Research II Wintersemester 2014/15 160 / 206
Kapitel 4 Dynamische Optimierung Peter Becker (H-BRS) Operations Research II Wintersemester 2014/15 160 / 206 Inhalt Inhalt 4 Dynamische Optimierung Allgemeiner Ansatz und Beispiele Stochastische dynamische
MehrKugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten
Kugel-Fächer-Modell n Kugeln (Rosinen) sollen auf m Fächer (Brötchen) verteilt werden, zunächst 3 Kugeln auf 3 Fächer. 1fach 3fach Für die Einzelkugel gibt es 3 Möglichkeiten } 6fach 3! Möglichkeiten Es
MehrStatistik I für Betriebswirte Vorlesung 5
Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition
Mehr4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140
4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}
MehrBerechnungen in Access Teil I
in Access Teil I Viele Daten müssen in eine Datenbank nicht eingetragen werden, weil sie sich aus anderen Daten berechnen lassen. Zum Beispiel lässt sich die Mehrwertsteuer oder der Bruttopreis in einer
MehrAndreas Rühl. Investmentfonds. verstehen und richtig nutzen. Strategien für die optimale Vermögensstruktur. FinanzBuch Verlag
Andreas Rühl Investmentfonds verstehen und richtig nutzen Strategien für die optimale Vermögensstruktur FinanzBuch Verlag 1. Kapitel Wollen Sie Millionär werden? Kennen Sie die Formel zur ersten Million?
MehrOptimierung. Optimierung. Vorlesung 7 Lineare Programmierung II. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 7 Lineare Programmierung II 1 Lineare Programme Lineares Programm: Lineare Zielfunktion Lineare Nebenbedingungen (Gleichungen oder Ungleichungen) Spezialfall der konvexen Optimierung
Mehr