STOCHASTISCHE MODELLE. Vorlesungsskript

Transkript

1 STOCHASTISCHE MODELLE Michael Scheutzow Vorlesungsskript Technische Universität Berlin Wintersemester 2010/11 vorläufige Version Februar 2011

2

3 Inhaltsverzeichnis 1 Grundlagen Einleitung Warteschlangenmodelle Stochastische Prozesse und ihre Verteilung Endlich-dimensionale Verteilungen Simulation von Zufallsvariablen Markovketten mit diskreter Zeit Einleitung Simulation einer Markovkette und Beispiele Definition und einfache Eigenschaften Rekurrenz und Transienz von Markovketten Klassifikation der Zustände Grenzwertsätze und invariante Verteilungen Beispiele Kartenmischen Mischzeiten Reversible Markovketten Perfekte Simulation: der Propp Wilson Algorithmus Markovketten mit stetiger Zeit Einleitung und Beispiele Definitionen und erste Ergebnisse Vorwärts- und Rückwärtsgleichungen Langzeitverhalten und invariante Maße Beispiele: Warteschlangen Warteschlangen Warteschlangennetze Gaußsche Prozesse und Zeitreihenanalyse Einleitung Vorhersage stochastischer Prozesse i

4 ii INHALTSVERZEICHNIS 4.3 Rekursive lineare Vorhersage Filterprobleme, der Kalmanfilter Schwach stationäre Prozesse Schätzung von Erwartungswert und Kovarianzfunktion Der nichtparametrische Ansatz; Spektraldichtenschätzung Datentransformation, Trendbereinigung, Saisonbereinigung Zusammenfassung Literatur 107

5 Kapitel 1 Grundlagen 1.1 Einleitung In diesem Kapitel wollen wir den Begriff des Stochastischen Prozesses anschaulich und formal einführen. Den Abschluss bildet ein Abschnitt über die Simulation von Zufallsvariablen mit vorgegebener Verteilung. Ein stochastischer Prozess ist ein mathematisches Modell für einen realen Vorgang, der zufällig ist und von einem Parameter (meist der Zeit) abhängt. Beispiele für zufällige reale Vorgänge, auf die die Theorie der stochastischen Prozesse mit Erfolg angewendet wird, sind: Warteschlangen (auch Netze von Warteschlangen), Lagerhaltung, Ausbreitung von Epidemien, Ausbreitung von Genen, Populationsentwicklung, Wasserstand in einem Staudamm, Aktienkurse, Kapital eines Versicherungsunternehmens, Belastung eines Bauteils eines Fahrzeugs während der Fahrt, Temperaturverteilung auf der Erdoberfläche. Alle diese Beispiele sind zeitabhängig und in der Regel nicht mit Sicherheit vorhersagbar, weswegen sich eine stochastische Modellierung anbietet. Zu stochastischen Prozessen werden diese Beispiele erst dann, wenn man festlegt, mit welchen Wahrscheinlichkeiten die einzelnen Realisierungen auftreten. Man kann einen stochastischen Prozess auffassen als eine Zufallsvariable mit Werten nicht in R, sondern in einem geeigneten Raum von (Zeit-)funktionen. Ein stochastischer Prozess ist also eine zufällige Funktion (mit festem Definitions- und Wertebereich). 1

6 2 Stochastische Modelle Zu einem stochastischen Prozess gehört immer ein Zustandsraum E und eine Parametermenge I. Der Zustandsraum ist der Wertebereich (oder eine Obermenge davon), die Parametermenge der Definitionsbereich der zufälligen Funktionen. Zustandsraum E und Parametermenge I können im Prinzip beliebige nichtleere Mengen sein; für E werden wir aber gleich eine zusätzliche Struktur fordern. Wichtig sind aber folgende Spezialfälle. E I endlich, abzählbar unendlich, R, R n, Funktionenraum, { diskret (endlich, N, N0, Z), kontinuierlich (R, R +, R n, Kugeloberfläche,...). I ist in den meisten Anwendungsfällen eine Menge von Zeitpunkten. Es gibt aber auch interessante Beispiele, für die I nicht als Zeit, sondern als Ort zu interpretieren ist. Interessiert man sich etwa für die Temperaturverteilung auf der gesamten Erdoberfläche zu einem festen Zeitpunkt, dann ist der Definitionsbereich I (z. B.) die Kugeloberfläche. Bei der Beschreibung realer Phänomene ist die Trennung von I und E nicht immer eindeutig. Betrachtet man zum Beispiel die Temperaturverteilung auf der Erdoberfläche als Funktion der Zeit, so hat man unter anderen die folgenden Möglichkeiten: I = R = Zeit und E = {f : Kugeloberfläche R + }, I = R Kugeloberfläche = Zeit Ort und E = R + = Temperatur. Der Übergang von einem realen Prozess zu dem mathematischen Modell eines stochastischen Prozesses beinhaltet in der Regel gewisse Hypothesen oder Annahmen (auch Vereinfachungen) über den realen Prozess sowie gegebenenfalls statistische Verfahren, z. B. zum Schätzen von Parametern, die bei der Modellierung zunächst nicht festgelegt wurden. Statistische Verfahren im Zusammenhang mit stochastischen Prozessen werden oft als Zeitreihenanalyse bezeichnet. Wir werden uns damit erst im letzten Kapitel beschäftigen. Gelegentlich kann oder muss man auf statistische Verfahren verzichten, etwa dann, wenn das Modell so plausibel ist, dass es keiner statistischen Absicherung bedarf (z. B., dass bei einem fair aussehenden Würfel alle Seiten gleich wahrscheinlich und aufeinander folgende Würfe unabhängig sind) oder dann, wenn die Modellierung als stochastischer Prozess vorgenommen wird, bevor Realisierungen beobachtbar sind (etwa bei Zuverlässigkeitsuntersuchungen von erst in Betrieb zu nehmenden industriellen Anlagen). Wenn man ein mathematisches Modell, d. h. einen stochastischen Prozess, festgelegt hat, dann kann man je nach Anwendung an verschiedenen Fragen interessiert sein. Zum Beispiel an der Berechnung gewisser Wahrscheinlichkeiten (analytisch oder numerisch), der Berechnung von (optimalen) Steuerungen, qualitativen Aussagen (z. B. Konvergenz gegen Gleichgewicht), der Simulation des Prozesses auf dem Rechner.

7 Version Februar Unter Umständen erkennt man bei diesen Schritten, dass das Modell den realen Prozess doch nicht hinreichend gut beschreibt. Dann bietet es sich an, eine andere Modellierung zu versuchen und zu testen (etwa durch Simulation). Aber auch dann, wenn man hinreichendes Vertrauen zu der Modellierung hat, sind Berechnungen und Simulationen interessant, um gegebenenfalls entsprechend zu reagieren (z.b. Aktien verkaufen, Versicherungsprämien erhöhen, Kapazitätsausweitung). 1.2 Warteschlangenmodelle Warteschlangensituationen sind in den Anwendungen sehr wichtig (Rechnernetze, Kunden in Geschäften, Bearbeitung von Anträgen) und gleichzeitig oft recht gut und einfach durch stochastische Prozesse modellierbar. In einer Reihe von interessanten Spezialfällen kann man analytische Resultate gewinnen. Selbst wenn dies nicht gelingt, kann man Warteschlangenmodelle meist ohne großen Aufwand auf dem Rechner simulieren. Wir werden an verschiedenen Stellen der Vorlesung auf Warteschlangenmodelle eingehen. Hier werden wir zunächst nur eine grobe Beschreibung einer Teilklasse von Warteschlangenmodellen angeben, die in der Literatur besonders ausführlich behandelt wird. Diese Modelle werden durch vier durch Schrägstriche getrennte Symbole gekennzeichnet: mit den Bedeutungen: V A Verteilung der Zwischenankunftszeiten, V B Verteilung der Bedienungszeiten, A B Anzahl der Bediener, K max maximale Kapazität. Hierbei sind die folgenden Annahmen üblich: Die Kunden kommen einzeln an, V A /V B /A B /K max, (1.2.1) die Zeitdauern zwischen zwei aufeinanderfolgenden Ankünften sind unabhängig und identisch verteilt, ebenso die Bedienungszeiten. In den ersten beiden Positionen (also V A und V B ) werden die Verteilungen der Zwischenankunftszeiten und der Bedienungszeiten eingetragen. Entweder kann dort explizit die Verteilung notiert werden oder (was üblicher ist) durch folgende Symbole Klassen von Verteilungen (d. h. die genaue Verteilung wird offengelassen): G = general (d. h. beliebig) D = deterministisch M = Markovsch, d. h. Exponentialverteilung

8 4 Stochastische Modelle E k = Erlangverteilung mit Formparameter k, d. h. Verteilung der Summe von k unabhängigen exponentialverteilten Zufallsvariablen mit demselben Parameter (k N). In der dritten Position (also A B ) steht eine natürliche Zahl, die die Zahl der Bediener angibt, unter Umständen auch. In der vierten Position (also K max ) steht eine natürliche Zahl, die die maximale Zahl von Kunden im System angibt. Es wird angenommen, dass Ankünfte bei vollem System abgewiesen werden (und nicht warten). Gibt es keine Kapazitätsbeschränkung, so läßt man die vierte Position meist leer, anstatt einzutragen. Weitere Angaben über ein Warteschlangenmodell, die aus der obigen Notation nicht hervorgehen, werden bei Bedarf extra spezifiziert. Neben einer Festlegung von Parametern ist dies z. B. die Regelung, in welcher Reihenfolge die Kunden bedient werden. Gängige Regeln hierfür sind FIFO ( first in first out ), seltener LIFO ( last in first out, Beispiel: Stapel auf Schreibtisch), zufällige Auswahl und Reihenfolge nach Prioritäten eventuell in Verbindung mit anderen Regeln bei gleicher Priorität. Dabei ist festzulegen, ob Bedienungen auch unterbrochen werden, wenn eine Anforderung mit höherer Priorität eintrifft. Wir betonen noch einmal, dass häufig in der Realität Modelle, die mit der obigen Notation beschreibbar sind, zu primitiv sind. Das heisst nicht, dass kompliziertere Modelle einer mathematischen Beschreibung unzugänglich wären. In der Tat werden in der Literatur der letzten 20 Jahre vielfach recht komplizierte Warteschlangenmodelle, die z. B. Abhängigkeiten oder periodische Schwankungen berücksichtigen, untersucht. Fragestellungen im Zusammenhang mit Warteschlangenmodellen sind zum Beispiel: Konvergiert die Verteilung der Anzahl der Kunden im System gegen eine Grenzverteilung, oder explodiert die Verteilung? Verteilung der Wartezeit eines Kunden? Verteilung der Zeit, bis das System wieder leer ist? Wie ändern sich diese Größen, wenn die Zahl der Bediener um 1 erhöht wird? (oder wenn sich durch bessere Schulung oder besseren Leistungsanreiz die Bedienungszeitverteilung verringert). 1.3 Stochastische Prozesse und ihre Verteilung Wir wollen nun formal den Begriff eines stochastischen Prozesses definieren. Definition Ein stochastischer Prozess ist eine Familie (X t ) t I von reellwertigen Zufallsvariablen X t, t I, die auf demselben Wahrscheinlichkeitsraum (Ω, F, P) definiert sind. Dabei ist I eine beliebige (nichtleere) Indexmenge. Bemerkung Meist ist I eine Teilmenge von R und wird als Zeit interpretiert. Oft erlaubt man auch allgemeinere Zustandsräume E. Um von der Verteilung einer E- wertigen Zufallsvariablen reden zu können, muss auf E eine σ-algebra E definiert werden. Das Paar (E, E) nennt man einen Messraum. Wir erinnern daran, dass eine σ-algebra E über einer nichtleeren Menge E eine Teilmenge der Potenzmenge 2 E ist, die die leere Menge enthält und abgeschlossen gegen Komplement- und abzählbarer Vereinigungsbildung ist. σ-algebren sind die natürlichen Definitionsbereiche für Wahrscheinlichkeitsmaße.

9 Version Februar Definition Sei (E, E) ein Messraum. Ein stochastischer Prozess mit Zustandsraum (E, E) ist eine Familie (X t ) t I von messbaren Abbildungen X t, t I, von demselben Wahrscheinlichkeitsraum (Ω, F, P) nach (E, E). Für festes ω Ω heisst die Abbildung X(ω): I E Pfad, Trajektorie oder Realisierung des stochastischen Prozesses. Falls I = N 0 oder I = [0, ), so heißt die Verteilung von X 0 die Startverteilung des Prozesses. (Falls E diskret ist, so spricht man auch vom Startvektor.) Wir erinnern daran, dass eine Abbildung X : (E 1, E 1 ) (E 2, E 2 ) zwischen zwei Messräumen messbar heisst, wenn alle Urbilder unter X von Elementen in E 2 in E 1 liegen, also B E 2 = {ω E 1 : X(ω) B} E 1. (1.3.1) Man mache sich die Analogie zum Begriff der Stetigkeit einer Abbildung zwischen topologischen Räumen klar! Für Zufallsvariable ist der Begriff der Verteilung sehr wichtig. Fast immer sind die Größen, die einen an einer Zufallsvariablen interessieren, eine Funktion der Verteilung der Zufallsvariablen, zum Beispiel Erwartungswert, Varianz und die Überschreitungswahrscheinlichkeit einer Grenze. Für stochastische Prozesse gilt Ähnliches. Daher ist es unser nächstes Ziel, die Verteilung eines stochastischen Prozesses zu definieren. Wir erinnern an die Definition der Verteilung einer reellwertigen Zufallsvariable, d. h. des Falls I = 1, (E, E) = (R, B), wobei B die Borel-σ-Algebra über R ist, nämlich die von den Intervallen erzeugte. Eine Zufallsvariable X ist nun eine messbare Abbildung X : (Ω, F, P) (R, B), (1.3.2) und die Verteilung P von X ist das Bildmaß auf (R, B) von P unter X d. h. P(B) := P(X 1 (B)) := P({ω Ω: X(ω) B}), B B. (1.3.3) Man sieht hier, dass die Messbarkeit von X wichtig ist! Sie garantiert nämlich, dass X 1 (B) in F liegt und somit P(X 1 (B)) überhaupt definiert ist. In der allgemeinen Situation hat man statt R Funktionen von I nach E, also Elemente aus E I, d. h. zufällige Funktionen statt zufälliger Zahlen. Um wie im reellwertigen Fall wie oben eine Verteilung P definieren zu können, braucht man auf E I eine σ-algebra. Die am meisten verwendete und üblichste ist die Produkt-σ-Algebra 1 E I : Definition E I ist die kleinste σ-algebra über E I, die alle endlich-dimensionalen Rechtecke enthält, d. h. Mengen der Form {f E I : f(i 1 ) E 1,...,f(i k ) E k }, mit k N, i 1,...,i k I, E 1,...,E k E. (1.3.4) Übungsaufgabe: In Definition und schon vorher bei der Definition der Borel-σ-Algebra brauchten wir das folgende Resultat: Sei E eine nichtleere Menge und C eine Familie von Teilmengen der Potenzmenge 2 E. Dann gibt es eine kleinste σ-algebra E über E, die C enthält. Lemma Sei (X t ) t I ein stochastischer Prozess mit Zustandsraum (E, E). Definiere eine Abbildung X : (Ω, F, P) (E I, E I ) durch Dann ist X messbar, d.h. X 1 (B) F für alle B E I. (X(ω))(t) := X t (ω), ω Ω, t I. (1.3.5) 1 Wir erinnern daran, dass E I nicht die Menge aller Abbildungen I E bezeichnet, sondern die von dieser Menge erzeugte σ-algebra.

10 6 Stochastische Modelle Beweis. Übung. Nach diesen Vorbereitungen können wir die Verteilung eines stochastischen Prozesses ganz analog zur Verteilung einer Zufallsvariablen definieren. Definition Die Verteilung P eines stochastischen Prozesses (X t ) t I auf (Ω, F, P) mit Zustandsraum (E, E) ist das Bildmaß von P unter der in (1.3.5) definierten Abbildung X; in Formeln: P(B) := P(X 1 (B)) = P({ω: X(ω) B}), B E I. (1.3.6) Bemerkung Aus der Verteilung P eines Prozesses (X t ) t I ist im Allgemeinen nicht erkennbar, ob zum Beispiel im Fall I = R, E = R alle Pfade stetige Funktionen sind (vgl. Übungsaufgabe). Die frühere Bemerkung, dass für Zufallsvariablen nahezu alle interessanten Fragen nur durch die Kenntnis der Verteilung beantwortet werden können, ist daher nur mit Einschränkungen auf stochastische Prozesse übertragbar. Meist versucht man, zu gegebenem P einen stochastischen Prozess mit Verteilung P so zu konstruieren, dass die Pfade so glatt oder regulär wie möglich sind, zumindest rechtsseitig stetig mit linksseitigen Grenzwerten. Wir werden darauf in dieser Vorlesung aber nicht im Detail eingehen. 1.4 Endlich-dimensionale Verteilungen Die Verteilung eines stochastischen Prozesses ist oft ein recht kompliziertes Objekt und ist meist nicht oder nur mit großer Mühe explizit angebbar. Es stellt sich daher die Frage, ob man Verteilungen implizit charakterisieren kann, etwa dadurch, dass man lediglich die gemeinsamen Verteilungen zu endlich vielen Zeitpunkten angibt. Die Frage ist dann, ob dadurch die Verteilung eindeutig festgelegt wird. Dies ist eine Frage nach der eindeutigen Fortsetzbarkeit zu einem Wahrscheinlichkeitsmaß, dessen Werte nur auf einer Teilmenge von F gegeben sind. Wir schreiben J I, falls J eine endliche nichtleere Teilmenge von I ist. Definition Sei (X t ) t I ein stochastischer Prozess. Die Familie ( P J ) J I aller (gemeinsamen) Verteilungen P J von (X t ) t J für alle J I heisst Familie der endlich-dimensionalen Verteilungen von (X t ) t I, bzw. von P, wenn dies die Verteilung von (X t ) t I ist. Die endlich dimensionale Verteilung P J ist ein Wahrscheinlichkeitsmaß auf (E J, E J ). Offenbar ist P J durch P eindeutig bestimmt. Man kann P J als das Bildmaß von P unter der Projektion π J : (E I, E I ) (E J, E J ) interpretieren, die f E I auf (π J f)(j) := f(j) für j J abbildet (diese Abbildung π J ist messbar!). Der folgende Satz wird nicht nur die Eindeutigkeit einer Fortsetzung in vielen Fällen positiv beantworten, sondern auch notwendige und hinreichende Bedingungen an Familien von Wahrscheinlichkeitsmaßen P J mit J I bereitstellen dafür, dass die P J gerade die endlichdimensionalen Verteilungen einer Verteilung P sind. Dazu müssen die P J offensichtlich gewisse Konsistenzbedingungen erfüllen. Definition Sei I eine nichtleere Indexmenge, (E, E) ein Messraum, und für jedes J I sei ein Wahrscheinlichkeitsmaß P J auf (E J, E J ) vorgegeben. Die Familie (P J ) J I heisst konsistent, wenn für alle J 1 I und J 2 I mit J 1 J 2 jeweils gilt, dass P J1 gleich der Einschränkung (oder Projektion) von P J2 auf J 1 ist.

11 Version Februar Ein polnischer Raum ist ein vollständiger metrischer Raum mit abzählbarer Basis der Topologie. Falls nicht anders vermerkt, versehen wir einen polnischen Raum immer mit der σ-algebra der Borelmengen, d. h. der kleinsten σ-algebra, die alle offenen Mengen enthält. Polnische Räume haben sich als sehr natürliche Zustandsräume von stochastischen Prozessen erwiesen; siehe auch Bemerkung Der folgende (theoretisch sehr wichtige) Satz stellt klar, dass zu konsistenten Familien von Wahrscheinlichkeitsmaßen in natürlicher Weise ein stochastischer Prozess gehört. Satz (Existenzsatz von Kolmogorov). Wenn E ein polnischer Raum ist und I eine Indexmenge und (P J ) J I eine konsistente Familie von Wahrscheinlichkeitsmaßen ist, dann existiert genau ein Wahrscheinlichkeitsmaß P auf (E I, E I ), so dass die P J die endlich dimensionalen Verteilungen von P sind. Weiter existiert ein Wahrscheinlichkeitsraum und darauf ein stochastischer Prozess (X t ) t I mit Zustandsraum (E, E) und Verteilung P. Beweis. Der Beweis ist zu aufwendig, um ihn hier zu präsentieren. Der interessierte Leser sei auf [Ba68, S. 288 ff] verwiesen. Eine Konsequenz von Satz ist, dass, um einen Prozess (X n ) n N0 mit Werten in einem polnischen Raum zu definieren, es ausreicht, für jedes n N 0 nur die Verteilung des Vektors (X 0,...,X n ) anzugeben unter der Voraussetzung, dass die Folge der so definierten Verteilungen konsistent ist. Bemerkung Die meisten interessanten Zustandsräume (E, E) sind polnisch, z.b. R, R n, C n, R N, C([0, 1], R n ). Ohne die Voraussetzung polnisch ist Satz falsch. Der letzte Teil der Aussage von Satz ist recht leicht zu sehen. Man kann als Wahrscheinlichkeitsraum immer (E I, E I, P) wählen und X i (f) := f(i) für i I und f E I wählen. Dann ist die in Lemma definierte Abbildung X gerade die Identität und somit die Verteilung von X gleich P. 1.5 Simulation von Zufallsvariablen Gegeben sei eine Zufallsvariable U mit einer Gleichverteilung auf [0, 1], d. h. die Verteilungsfunktion F U von U ist gegeben durch 0, falls x 0, F U (x) = P(U x) = x, falls 0 x 1 (1.5.1) 1, falls x 1. Weiter sei F : R [0, 1] eine vorgegebene Verteilungsfunktion. Man finde eine Funktion g: [0, 1] R, so dass die Zufallsvariable X := g(u) die vorgegebene Verteilungsfunktion F hat. Da die meisten Rechner (Pseudo-)Zufallsgeneratoren besitzen, die Realisierungen von unabhängigen, auf [0, 1] gleichverteilten Zufallsvariablen (näherungsweise) erzeugen, braucht man den ersten Wert dieser Folge lediglich in g einzusetzen und erhält damit eine Zufallsvariable mit Verteilungsfunktion F. Entsprechend kann man Folgen von unabhängigen Zufallsvariablen (auch mit verschiedenen Verteilungen) simulieren. Lemma Man kann wählen (inf = ). g(u) := inf{y R: F(y) u}, u [0, 1] (1.5.2)

12 8 Stochastische Modelle Bemerkung Wenn F stetig und streng monoton wachsend ist, dann ist g(u) = F 1 (u) für alle u R. Graphisch kann man sich g auch für allgemeines F wie folgt veranschaulichen: SKIZZE Man trägt die Realisierung u (die der Rechner liefert) auf der Ordinate ab und läuft von nach rechts, bis man auf den Graph von F stößt. Der zugehörige Abszissenwert ist g(u). Beweis von Lemma Es gilt für u [0, 1] u F(x) g(u) x, (1.5.3) denn u F(x) g(u) g(f(x)) x und g(u) x u F(g(u)) F(x). (Die Äquivalenz in (1.5.3) gilt nicht, wenn auf beiden Seiten durch < ersetzt wird!) Daraus folgt wegen P(U (0, 1)) = 1 P(X x) = P(g(U) x) = P(U F(x)) = F(x), x R. (1.5.4) Das heißt, dass X = g(u) wirklich die vorgegebene Verteilungsfunktion besitzt. Bemerkung Die in (1.5.1) angegebene Funktion g ist nicht die einzige, so dass g(u) die vorgegebene Verteilung hat. Beispiel Wie simuliert man eine exponentialverteilte Zufallsvariable? Sei also X Exp(λ) für λ > 0, dann hat X die Verteilungsfunktion { 0, falls x 0, F(x) = 1 e λx, falls x 0. (1.5.5) Wir halten ein u (0, 1) fest. Für die in (1.5.1) definierte Funktion g gilt g(u) = F 1 (u) =: x, also u = F(x) = 1 e λx. Löst man diese Gleichung nach x auf, dann erhält man x = g(u) = 1/λ log(1 u). Also ist X := 1/λ log(1 U) Exp(λ)-verteilt. Bemerkung Zur Simulation von normalverteilten Zufallsvariablen ist das obige Verfahren nicht sehr gut geeignet, da die Umkehrfunktion der Verteilungsfunktion F sich nicht einfach darstellen läßt. Ohne Beweis nennen wir eine wesentlich bessere Möglichkeit: Seien U 1 und U 2 unabhängige, auf [0, 1] gleichverteilte Zufallsvariablen und X 1 := ( 2 log U 1 ) 1/2 cos(2πu 2 ), X 2 := ( 2 log U 1 ) 1/2 sin(2πu 2 ) Dann sind X 1 und X 2 unabhängig und beide N(0, 1)-verteilt. Will man nur eine N(0, 1) verteilte Zufallsvariable, so ignoriert man X 2.

13 Kapitel 2 Markovketten mit diskreter Zeit 2.1 Einleitung Markovketten modellieren zufällige Vorgänge mit endlich oder abzählbar unendlich vielen Zuständen mit diskreter Zeit (I = N 0 ), bei denen Übergänge zwischen den Zuständen mit vorgegebenen Wahrscheinlichkeiten unabhängig von der Vorgeschichte d. h. auf welchem Pfad man in den gegenwärtigen Zustand kam stattfinden. Den Zustandsraum bezeichnen wir wieder mit E. Man kann o.b.d.a. immer E = {1,...,n} für ein n N oder E = N wählen. Als σ-algebra E auf E nehmen wir wie bei abzählbaren Mengen üblich immer die Potenzmenge von E. Anschaulich kann man sich eine Markovkette als gerichteten Graphen vorstellen, wobei die Ecken die Elemente von E darstellen und gerichtete Kanten solche Übergänge, die positive Wahrscheinlichkeit haben. Jede Kante beschriftet man mit der zugehörigen Übergangswahrscheinlichkeit, zum Beispiel Abbildung 2.1.1: Graphische Darstellung einer Markovkette Eine Markovkette ist charakterisiert durch eine Funktion P : E E [0, 1], wobei wir P = (p ij ) i,j E schreiben und p ij die Übergangswahrscheinlichkeit nach j angibt, wenn man sich gerade in i befindet. P lässt sich als (eventuell unendliche) Matrix interpretieren, wobei jedem Zustand eine Zeile und eine Spalte entspricht. Definition Eine Matrix P = (p ij ) i,j E heißt Übergangsmatrix oder stochastische Matrix, 9

14 10 Stochastische Modelle falls gelten: (i) p ij 0 für alle i, j E, (ii) j E p ij = 1 für alle i E. Bemerkung Wir setzen immer voraus, dass die Übergangsmatrix sich zeitlich nicht ändert (zeitliche Homogenität) und machen dies zu einem Bestandteil der Definition einer Markovkette. Manche Autoren lassen eine zeitliche Inhomogenität bei der Definition einer Markovkette zu (d. h. P hängt noch von der Zeit n ab), behandeln dann aber meistens doch nur den zeitlich homogenen Fall ausführlicher. Bislang haben wir den Begriff einer Markovkette noch nicht mit dem eines stochastischen Prozesses in Verbindung gebracht. Da wir unter einer Markovkette nur den Übergangsmechanismus, der durch P gegeben ist, verstehen wollen, ist eine Markovkette nicht apriori ein stochastischer Prozess. Durch P wird nicht einmal die Verteilung eines stochastischen Prozesses eindeutig festgelegt, da P nichts darüber aussagt, mit welcher Verteilung auf E der Prozess starten soll. Erst eine Startverteilung und eine Übergangsmatrix P zusammen legen eindeutig eine Verteilung auf E I fest. Wir werden später darauf genauer eingehen. 2.2 Simulation einer Markovkette und Beispiele Es sei ein höchstens abzählbarer Zustandsraum E, eine stochastische Matrix P und ein Wahrscheinlichkeitsvektor a gegeben. Weiter stehe eine Folge U 1, U 2,... von unabhängigen, auf [0, 1] gleichverteilten Zufallsvariablen zur Verfügung. Man simuliere damit eine Markovkette mit Startverteilung a und Übergangsmatrix P. Wir nehmen hier (o.b.d.a.) an, dass E = {1,...,n} oder E = N ist. Zunächst simuliert man die Startposition, d. h. eine E-wertige Zufallsvariable X 0 mit der Startverteilung a. Wir haben schon gesehen, wie man dies macht. Um die Lesbarkeit zu verbessern, schreiben wir einige Schleifen explizit aus. 1. Simulation des Startwertes X 0 k = 0. j = 1. Wenn U 1 a 1, setze X 0 = j, gehe nach 2. j = 2. Wenn U 1 a 1 + a 2, setze X 0 = j, gehe nach Simulation von X k+1 k = k + 1. j = 1. Wenn U k+1 p i1, setze X k = j, gehe nach 2. j = 2. Wenn U k+1 p i1 + p i2, setze X k = j, gehe nach 2..

15 Version Februar Als Abbruchkriterium wird man meist die Überschreitung einer gewissen Grenze von k wählen. Alternativ könnte man so lange simulieren, bis ein bestimmter Zustand eine definierte Anzahl von Besuchen erfahren hat. Bevor wir die Theorie der Markovketten weiter behandeln, betrachten wir zunächst einige Beispiele. Beispiel (Symmetrische Irrfahrt auf Z). Hier ist E = Z und p ij = { 1 2, falls i j = 1, 0 sonst. (2.2.1) Diese Markovkette beschreibt ein Teilchen, das pro Zeiteinheit auf Z um eins nach rechts oder links springt, und zwar immer mit Wahrscheinlichkeit 1/2. Die Übergangsmatrix P = (p ij ) i,j Z ist dann eine unendlich große Dreibandmatrix, die auf der Hauptdiagonalen ausschliesslich Nullen hat und auf den beiden Nebendiagonalen immer den Wert 1/2. Das Anfangsstück eines Pfades der symmetrischen Irrfahrt (mit Start in Null) kann zum Beispiel so aussehen (linear interpoliert): Abbildung 2.2.1: Realisierung einer symmetrischen Irrfahrt Beispiel (Symmetrische Irrfahrt auf Z d, d N). Hier ist E = Z d und p ij = { 1 2d, falls i j = 1, 0 sonst. (2.2.2) (Mit meinen wir die Summe der Beträge der Koeffizienten.) Man sieht leicht, dass j E p ij = 1 für alle i ist, denn jeder Punkt im d-dimensionalen Gitter Z d hat 2d Nachbarn (d.h. Elemente mit euklidischem Abstand 1). Zu diesen (und vielen anderen) Beispielen kann man die folgenden Fragen stellen: Was ist die Verteilung von X n (d. h. des Ortes nach n Schritten) bei bekannter Startverteilung?

16 12 Stochastische Modelle Wie groß ist die Wahrscheinlichkeit, jemals zum Ausgangspunkt zurückzukehren? Wie groß ist die Wahrscheinlichkeit, unendlich oft zum Ausgangspunkt zurückzukehren? Wie groß ist die erwartete Anzahl von Besuchen des Ausgangspunktes (wenn der Prozess unendlich lange läuft)? Beispiel (uiv Folgen). Folgen von unabhängigen, identisch verteilten Zufallsgrößen sind insbesondere Markovketten: Sei X 0, X 1, X 2,... eine Folge von u.i.v. Zufallsvariable mit abzählbarem Zustandsraum E. Sei b i = P(X 0 = i) für alle i E. Dann gilt i E b i = 1. Offenbar ist (X 0, X 1, X 2,...) eine Markovkette mit Startverteilung b = (b i ) i E und Übergangsmatrix P = (b j ) i,j E. Insbesondere sind alle Spalten P konstant, da die Zufallsvariablen X 0, X 1, X 2,... unabhängig sind. Beispiel (Irrfahrten). Sei X 1, X 2,... eine Folge von u.i.v. Zufallsvariablen mit Zustandsraum Z und Verteilung gegeben durch b i = P(X 1 = i). Wir setzen S 0 := 0 und S n = n k=1 X k. Dann ist (S n ) n N0 eine Markovkette mit Startverteilung a i = δ i0 (d. h. a 0 = 1 und a i = 0 für alle i 0). Die Übergangsmatrix ist P = (b j i ) i,j Z. Die Markovkette (S n ) n N0 heißt Irrfahrt (random walk) auf Z. Für b 1 = b 1 = 1/2 und b i = 0 für i 1 erhält man als Spezialfall die symmetrische Irrfahrt. Beispiel (Asymmetrische Irrfahrt mit absorbierenden Rändern). Zwei Spieler A und B haben zusammen N Euro. In jeder Spielrunde verliert A mit Wahrscheinlichkeit p (0, 1) einen Euro an B und gewinnt von B mit Wahrscheinlichkeit q = 1 p einen Euro. Ist einer der Spieler pleite, so endet das Spiel. Betrachtet man das Vermögen von A nach n Runden, so wird dies durch eine Markovkette mit Zustandsraum E = {0,...,N} und Übergangsmatrix P = p 0 q p 0 q p 0 q 0 0 p 0 q beschrieben. Nun sind folgende Fragen von Interesse: (2.2.3) Wenn das Startkapital von A i Euro ist, wie groß ist seine Chance (irgendwann) alles zu gewinnen? Wie lange dauert das Spiel? (Verteilung, Erwartungswert). Beispiel (Asymmetrische Irrfahrt mit reflektierenden Rändern). Die Spielregeln sind wie im Beispiel mit der einzigen Ausnahme, dass ein Spieler dann, wenn er pleite ist, in der nächsten Runde auf jeden Fall 1 Euro vom anderen Spieler erhält. Die entsprechende

17 Version Februar Markovkette hat als Übergangsmatrix P = p 0 q p 0 q p 0 q 0 0 p 0 q (2.2.4) Fragen: Wie oft ist A bis zur Zeit n pleite gewesen, d. h. wie oft wurde der Zustand 0 besucht? (Verteilung, Erwartungswert, Asymptotik für große n). Existiert der Grenzwert #Pleiten von A bis n lim n #Pleiten von B bis n fast sicher? Wenn ja, ist der Grenzwert deterministisch? Wie lässt er sich gegebenenfalls berechnen? Beispiel ((s, S)-Lagerhaltungsmodell). Die tägliche Nachfrage nach Waren in einem Lager sei gegeben durch u.i.v. Zufallsvariable X 1, X 2, X 3,... mit b i = P(X 1 = i) für i N 0 und i N 0 b i = 1. Seien natürliche Zahlen s, S N 0 mit 0 s < S vorgegeben. Am Abend von Tag n wird eine Bestellung aufgegeben, wenn im Lager weniger als s Einheiten vorhanden sind. Die Bestellung trifft bis zum nächsten Morgen ein. Bestellt wird soviel, dass am nächsten Morgen S Einheiten im Lager sind. Wir definieren den Lagerinhalt am Abend als die Differenz vom Lagerinhalt am Morgen und der Nachfrage am Tag, auch wenn diese Zahl negativ ist, weil die Nachfrage nicht befriedigt wurde. Man kann wahlweise annehmen, dass nicht befriedigte Nachfrage endgültig verloren ist, oder aber, dass über Nacht entsprechend mehr bestellt und den Kunden nachgeliefert wird. Man bezeichnet diese von den zwei Parametern s und S abhängige Bestellstrategie als (s, S)-Lagerhaltungspolitik. Seien Y n bzw. Z n der Lagerinhalt am Morgen bzw. am Abend von Tag n. Dann gilt { Y n X n, wenn Y n X n s, Y n+1 = (2.2.5) S, wenn Y n X n < s. Offenbar ist (Y n ) n N0 eine Markovkette mit Zustandsraum {s,...,s}. Die zugehörige Übergangsmatrix ist P Y = b i=1 b i b 1 b i=2 b i b 2 b 1 b i=3 b i... b S s 1 b S s 2... b 0 i=s s b i b S s b S s 1... b 1 b 0 + i=s s+1 b i (2.2.6)

18 14 Stochastische Modelle Für den Lagerinhalt am Abend gilt { Z n X n+1, wenn Z n s, Z n+1 = S X n+1, wenn Z n < s. (2.2.7) Auch (Z n ) n N0 ist eine Markovkette. Der Zustandsraum ist {S, S 1, S 2,... }. (Wenn die Nachfrage durch eine Konstante beschränkt ist, dann kann man auch einen endlichen Zustandsraum wählen.) Die Übergangsmatrix P Z = (p ij ) i,j S ist gegeben durch: b i j, falls s i S und i j, p ij = 0, falls s i S und i < j, b S j, falls i < s. (2.2.8) Eine wichtige Frage ist die nach den Kosten der (s, S)-Bestellpolitik mit dem Ziel der Optimierung der Parameter s und S. Wir machen hierzu folgende Annahmen: Pro Bestellung fallen Fixkosten K B an. Für die Lagerhaltung fallen am Tag n die Kosten f 1 (Y n ) an, wobei f 1 eine nichtnegative monoton wachsende Funktion ist (Energiekosten, Versicherungsprämien, Zinsen). f 1 wird man meist als linear oder jedenfalls konkav ansetzen. Kosten für nicht sofort befriedigte Nachfrage: Wenn Z n < 0 ist, dann fallen Kosten in Höhe von f 2 (Zn ) an, wobei { Zn Z n, falls Z n < 0, = (2.2.9) 0 sonst, und f 2 : N 0 R monoton wachsend ist (z. B. linear). Diese Kosten fallen entweder wirklich an dadurch, dass die Ware z. B. als Ausgleich für die nicht sofortige Verfügbarkeit direkt dem Kunden zugeleitet wird oder fiktiv dadurch, dass Kunden verärgert sind und später nicht mehr als Nachfrager auftreten. Nur von S abhängige Lagerinvestitions- oder Mietkosten pro Tag. Diese seien durch eine monotone Funktion f 3 : N R gegeben. Die Durchschnittsgesamtkosten der ersten n Tage sind daher K (n) = 1 n n ( ) K B 1l {s 1,s 2,... } (Z k ) + f 1 (Y k ) + f 2 (Z k ) + f 3(S). k=1 Die variablen Bestellkosten pro Einheit haben wir hier nicht berücksichtigt. Im Hinblick auf eine Optimierung von s und S ist dies dann zulässig, wenn erstens diese Kosten pro Einheit nicht von der Bestellmenge abhängen (es also keinen Mengenrabatt gibt) und zweitens die Nachfrage nicht von der Bestellstrategie abhängt. Letzteres wollen wir hier annehmen. Damit dies realistisch ist, können wir annehmen, dass Kunden als Ausgleich für nicht sofort lieferbare Ware (die am nächsten Morgen nachgeliefert wird) soviel pro Einheit erhalten, dass dies keinen Einfluss auf die künftige Nachfrage hat. Diese Ausgleichszahlungen werden unter f 2 berücksichtigt.

19 Version Februar Selbstverständlich kann man auch andere Annahmen machen, ohne dass die Markoveigenschaft zerstört wird. Interessant ist die Frage der Konvergenz der Zufallsvariablen K (n) (die eigentlich erst durch die Festlegung einer Startverteilung zu Zufallsvariablen werden) für n. Wir werden in Beispiel zeigen, dass die K (n) nicht nur mit Wahrscheinlichkeit 1 konvergieren, sondern dass dieser Grenzwert sogar deterministisch ist. Wir werden auch sehen, wie man ihn berechnet. Diesen Grenzwert, der noch von s und S abhängt, kann man dann optimieren, indem man s und S so wählt, dass er ein globales Minimum annimmt. Beispiel (Verbreitung von Gerüchten). In einem von N Dörfern (N 2) sei ein Gerücht entstanden. Aus den N Dörfern werden zu jeder Zeiteinheit n = 1, 2,... zwei verschiedene zufällig ausgewählt, die telefonisch Kontakt aufnehmen. Ist einem der beiden Dörfer das Gerücht bekannt, so teilt es dies dem anderen mit. Kennen beide Dörfer das Gerücht, dann ist der Anrufer enttäuscht über den Misserfolg und erzählt es fortan nie mehr. (Wir nehmen wohl nicht ganz unrealistisch an, dass innerhalb eines Dorfes das Gerücht sofort allen bekannt ist, wenn einer es kennt. Statt Dörfer könnte man auch Personen wählen.) Sei X n = (S n, I n, R n ), wobei S n I n R n = Anzahl der Orte zur Zeit n, die das Gerücht nicht kennen, = Anzahl der Orte zur Zeit n, die das Gerücht kennen und noch weitererzählen, = Anzahl der Orte zur Zeit n, die das Gerücht kennen, aber nicht mehr erzählen. Das Modell und die Bezeichnungen (S = susceptible, I = infected, R = removed) sind an Infektionsmodelle angelehnt. I sind dabei die Infizierten, die in S können noch angesteckt werden, die in R sind immun (oder gestorben). Während Ansteckungen mit dem obigen Modell halbwegs realistisch modelliert werden können, ist es weniger plausibel, dass beim Zusammentreffen von zwei Infizierten einer immun wird. Bei Infektionsmodellen werden an dieser Stelle deswegen andere Modellannahmen gemacht. Da S n + I n + R n = N für alle n gilt, enthält X n redundante Information. Wir betrachten daher Y n = (S n, I n ). Die Folge (Y n ) n N0 ist offenbar eine Markovkette mit Zustandsraum E = { (m 1, m 2 ) N 2 0: m 1 + m 2 N }. Die Übergangswahrscheinlichkeiten sind (wir setzen r := N s i): s(s 1) + 2sr + r(r 1), falls s = s und ĩ = i, p (s,i),(es, ei) = 1 N(N 1) 2si, falls s = s 1 und ĩ = i + 1, i(i 1) + 2ir, falls s = s und ĩ = i 1, 0 sonst. (2.2.10) Interessant ist die Frage nach der Verteilung der Anzahl der Dörfer, die niemals das Gerücht erfahren, wie diese Verteilung von N abhängt, und ob sie (bei geeigneter Skalierung) für N konvergiert und gegebenenfalls wogegen. Das Modell geht übrigens auf Daley und Kendall zurück. Eine interessante Arbeit dazu (mit zahlreichen Literaturhinweisen) ist [Pi90]. 2.3 Definition und einfache Eigenschaften Wir kehren nun zur Theorie der Markovketten zurück. Zunächst definieren wir formal, was eine Markovkette zu einer Übergangsmatrix P und Startverteilung a ist. Dann untersuchen wir, wie

20 16 Stochastische Modelle man die endlich dimensionalen Verteilungen berechnet. Definition Sei E eine nichtleere endliche oder abzählbar unendliche Menge, P : E E [0, 1] eine stochastische Matrix und a: E [0, 1] ein Wahrscheinlichkeitsvektor. Ein stochastischer Prozess (X n ) n N0 auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in E heißt Markovkette mit Übergangsmatrix P und Startverteilung a, wenn P ( X n+1 = i n+1 X 0 = i 0,...,X n = i n ) = pini n+1 (2.3.1) für alle n N 0 und i 0,...,i n+1 E mit P(X 0 = i 0,...,X n = i n ) > 0 ist und gilt. P(X 0 = i 0 ) = a i0 für alle i 0 E (2.3.2) Die Frage, ob dann auch P(X n+1 = i n+1 X n = i n ) = p ini n+1 im Fall P(X n = i n ) > 0 gilt, wird in Proposition positiv beantwortet. Wir brauchen zunächst eine technische Vorbereitung. Lemma Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, I nichtleer und höchstens abzählbar, (B i ) i I F eine Familie disjunkter Ereignisse mit P(B i ) > 0, und sei B F mit i I B i B und P(B \ i I B i) = 0. Wenn A F und α [0, 1] existieren, so dass P(A B i ) = α für alle i I gilt, dann folgt P(A B) = α. Beweis. P(A B) = P(A B) P(B) = i I P(A B i) i I = P(A B i)p(b i ) = α P(B) P(B) P(B) P(B) = α. Um Lemma nutzbringend anzuwenden, definieren wir für n N 0 die σ-algebra F n auf Ω als die Menge der Teilmengen von Ω, die sich als (notwendigerweise abzählbare) Vereinigung von Mengen der Form {ω: X 0 (ω) = i 0,...,X n (ω) = i n } mit i 0,...,i n E schreiben lassen. Es ist klar, dass F n eine σ-algebra ist und in F enthalten ist. Weiter gilt F m F n für m < n. Anschaulich beschreibt F n die Information, die ein Beobachter der Markovkette bis zur Zeit n hat. Proposition Für eine Markovkette mit Übergangsmatrix P und Startverteilung a gilt P ( X n+1 = i n+1 {X n = i n } F ) = p ini n+1 n N 0, i n, i n+1 E, F F n sofern P({X n = i n } F) > 0. Bemerkung Der Fall F = Ω ist besonders wichtig. F = ist wegen der letzten Bedingung dagegen verboten. Beweis von Proposition Wende Lemma an auf A = {X n+1 = i n+1 }, B = {X n = i n } F, I = {(i 0,...,i n 1 ): P({X 0 = i 0,...,X n = i n } F) > 0}, B i = {X 0 = i 0,...,X n 1 = i n 1, X n = i n } F, i = (i 0,...,i n 1 ) I.

21 Version Februar Nach Definition sind die Voraussetzungen von Lemma erfüllt mit α = p ini n+1, also folgt die Behauptung. Als nächstes fragen wir uns, wie man für eine Markovkette die endlich dimensionalen Verteilungen berechnet. Dazu genügt es, Wahrscheinlichkeiten der Form P(X 0 = i 0,...,X k = i k ) berechnen zu können, da man damit alle Wahrscheinlichkeiten von Ereignissen, die nur von endlich vielen X j abhängen durch Summation bestimmen kann. Sei also (X k ) k N0 eine Markovkette mit Zustandsraum E, Übergangsmatrix P und Startverteilung a. Wir bestimmen induktiv nach k die Wahrscheinlichkeiten P(X 0 = i 0,...,X k = i k ). Für k = 0 gilt nach Definition P(X 0 = i 0 ) = a i0. Für k = 1 haben wir P(X 0 = i 0, X 1 = i 1 ) = { P(X 1 = i 1 X 0 = i 0 )P(X 0 = i 0 ) = a i0 p i0 i 1, falls a i0 > 0, 0 sonst, (2.3.3) letzteres, weil P(X 0 = i 0, X 1 = i 1 ) P(X 0 = i 0 ) = a i0 = 0. Also gilt in jedem Fall P(X 0 = i 0, X 1 = i 1 ) = p i0 i 1 a i0. Für k 2 haben wir im Fall P(X 0 = i 0,...,X k 1 = i k 1 ) > 0 P(X 0 = i 0,...,X k = i k ) = P(X k = i k X 0 = i 0,...,X k 1 = i k 1 )P(X 0 = i 0,...,X k 1 = i k 1 ) = p ik 1 i k a i0 p i0 i 1...p ik 2 i k 1 nach Definition und Induktionsannahme. Im Fall P(X 0 = i 0,...,X k 1 = i k 1 ) = 0 ist P(X 0 = i 0,...,X k = i k ) auch Null und (nach Induktionsvoraussetzung) 0 = P(X 0 = i 0,...,X k 1 = i k 1 ) = a i0 p i0 i 1...p ik 2 i k 1, d. h. (2.3.3) gilt auch in diesem Fall. Wir sehen aus diesem Beweis insbesondere, dass die endlich-dimensionalen Verteilungen einer Markovkette durch die Vorgabe von P und a festgelegt sind. Dagegen haben wir bislang nicht gezeigt, dass zu jedem P und a auch eine Markovkette existiert (obwohl dies anschaulich sicher klar ist immerhin haben wir ja ein Simulationsverfahren angegeben). Die Existenz folgt aber aus dem folgenden Satz. Satz (Existenz von Markovketten). Zu jeder stochastischen Matrix P : E E [0, 1] und jedem Wahrscheinlichkeitsvektor a: E [0, 1] existiert ein bzgl. Verteilung eindeutiger stochastischer Prozess (X k ) k N0 mit Werten in E und P(X 0 = i 0,...,X k = i k ) = a i0 p i0 i 1...p ik 1 i k, k N 0, i 0,...,i k E. (2.3.4) Dieser Prozess ist eine Markovkette auf E mit Übergangsmatrix P und Startvektor a. Umgekehrt erfüllt jede Markovkette zu P und a die Bedingung (2.3.4). Beweis. Die letzte Aussage haben wir bereits gezeigt. Die Existenzaussage folgt mit dem Satz von Kolmogorov (Satz 1.4.3), indem man zeigt, dass die durch (2.3.4) festgelegten endlich dimensionalen Verteilungen konsistent sind (wir beweisen dies aber nicht).

22 18 Stochastische Modelle Es bleibt zu zeigen, dass jeder Prozess mit Eigenschaft (2.3.4) eine Markovkette zu P und a ist: Sei P(X 0 = i 0,...,X k 1 = i k 1 ) > 0. Dann gilt P(X k = i k X 0 = i 0,...,X k 1 = i k 1 ) = P(X 0 = i 0,...,X k = i k ) P(X 0 = i 0...,X k 1 = i k 1 ) = a i 0 p i0 i 1...p ik 1 i k a i0 p i0 i 1...p ik 2 i k 1 = p ik 1 i k. Man beachte, dass man wegen Satz Bedingung (2.3.4) auch als Definition einer Markovkette hätte wählen können. Der folgende Satz zeigt, wie man die Verteilung von X k erhält. Satz Für eine Markovkette mit Übergangsmatrix P und Startvektor a gilt P(X k = j) = a i0 p i0 i 1...p ik 1 j = (ap k ) j, i 0,i 1,...,i k 1 E wenn man a als Zeilenvektor schreibt und den letzten Ausdruck im Sinne der Multiplikation von Matrizen auffasst. Beweis. leicht. Bemerkung Man sieht leicht, dass mit zwei stochastischen Matrizen über derselben Menge E auch deren Produkt eine stochastische Matrix ist. Insbesondere gilt dies für P k. Im Folgenden bezeichnen wir die Koeffizienten der k-ten Potenz von P mit p (k) ij, also insbesondere p (0) ij = δ ij und p (1) ij = p ij. Satz Sei P(X 0 = i) > 0. Dann ist für jedes j E und jedes k N 0 p (k) ij = P(X k = j X 0 = i) die Wahrscheinlichkeit, in k Schritten von i nach j zu kommen. Beweis. Dies ist ein Spezialfall von Satz mit a i = 1 und a m = 0 für m i. Bemerkung Für große k ist es nicht sinnvoll, P k explizit durch Matrixmultiplikation zu berechnen, sondern z. B. im Fall E < über die Jordanzerlegung P = AJA 1. Dann ist P k = AJ k A 1, wobei J k wesentlich einfacher zu berechnen ist als P k. Da der Aufwand zur Berechnung von A unabhängig von k ist, lohnt er sich für große k. Satz (Chapman-Kolmogorov-Gleichungen). Für jede stochastische Matrix P = (p ij ) i,j E gilt p (n+m) ij = p (n) il p (m) lj, i, j E, m, n N 0. (2.3.5) l E Beweis. Dies folgt aus der Beziehung P n+m = P n P m durch Ausschreiben der Koeffizienten.

23 Version Februar Satz Sei (X n ) n N0 eine Markovkette in E mit Übergangsmatrix P = (p ij ) i,j E. Dann gilt für alle n, k N 0, i 0,...,i k E und F F n mit P({X n = i 0 } F) > 0 P ( X n+k = i k,...,x n+1 = i 1 {X n = i 0 } F ) = P ( ) X n+k = i k,...,x n+1 = i 1 Xn = i 0 (2.3.6) = p i0 i 1... p ik 1 i k. Beweis. Zunächst gilt im Fall P(X n = i 0, X n 1 = i 1,...,X 0 = i n ) > 0 nach Definition der bedingten Wahrscheinlichkeit und (2.3.4) in Satz 2.3.5: P ( X n+k = i k,...,x n+1 = i 1 X n = i 0, X n 1 = i 1,...,X 0 = i n ) = pi0 i 1...p ik 1 i k. (2.3.7) Sodann folgt die Aussage aus Lemma völlig analog zum Beweis von Proposition Bemerkung Satz besagt, dass die durch X n = i n,...,x 0 = i 0 bedingten endlich dimensionalen Verteilungen (und damit nach Satz die Verteilung) des Prozesses ab Zeit n nur von i n, nicht aber von n oder i 0 bis i n 1 abhängen. Für die folgenden Betrachtungen ist das sogenannte Borel-Cantelli-Lemma nützlich. In der Formulierung verwenden wir die folgende Schreibweise: Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A 1, A 2, F. Dann sei {A n u. o.} : = {ω Ω: ω A n für unendlich viele n N} = m=1 n=m =: lim sup n A n A n. (2.3.8) Die Bezeichnung lim sup kommt daher, dass für eine reelle Zahlenfolge (a n ) n N gilt: ( ) (, lim sup a n lim sup(, a n ) lim sup(, a n ], lim supa n ]. (2.3.9) n n n n Die Bezeichnung werden wir nicht benötigen. lim inf n A n := {ω: ω A n für alle bis auf endlich viele n} (2.3.10) Satz (Borel-Cantelli-Lemmata). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, und seien A 1, A 2, F. (i) Wenn n=1 P(A n) <, dann gilt P({A n u.o.}) = 0. (ii) Wenn die A n unabhängig sind und n=1 P(A n) = gilt, dann gilt P({A n u.o.}) = 1. Beweis. (i) ( P({A n u. o.}) = P m=1 n=m ) ( A n = lim P ) A n lim m n=m m n=m P(A n ) = 0. (2.3.11)

24 20 Stochastische Modelle (ii) Es genügt zu zeigen, dass (( P n=m A n ) c ) = 0 (2.3.12) für alle m N gilt, denn dann ist P( n=m A n) = 1 für alle m N, und somit haben wir P( m=1 n=m A n) = 1. Nun gilt (( ) c ) ( ) P A n = P = P(A c n) = [1 P(A n )] n=m n=m A c n exp { P(A n ) } { = exp n=m n=m n=m } P(A n ) = 0, n=m wobei die Unabhängigkeit beim zweiten Gleichheitszeichen benutzt wurde. (2.3.13) Bemerkung Wir werden im folgenden nur den (einfachen) Teil (i) von Satz benutzen. Man beachte, dass Satz besagt, dass für unabhängige Ereignisse ein Null-Eins- Gesetz der folgenden Art gilt: P({A n u. o.}) ist entweder Null oder Eins andere Werte sind nicht möglich. 2.4 Rekurrenz und Transienz von Markovketten Wir werden nun Rekurrenz(=Wiederkehr-)eigenschaften von Markovketten studieren. Wie zuvor sei P die Übergangsmatrix einer Markovkette mit Zustandsraum E. Für j E sei (Ω, F, P j ) ein Wahrscheinlichkeitsraum und X 0, X 1,... eine darauf definierte Markovkette mit Zustandsraum E, Übergangsmatrix P und Startvektor a = δ j, wobei δ j (j) = 1 und δ j (i) = 0 für i j. Mit anderen Worten, P j (X 0 = j) = 1, d. h., die Kette startet unter P j im Zustand j. Weiter sei f ji = P j ( n=1 ) {X n = i} (2.4.1) die Wahrscheinlichkeit, dass bei Start in j der Zustand i mindestens einmal irgendwann besucht wird. Satz (Rekurrenz und Transienz). (i) Wenn f jj = 1, dann gelten P j ({X n = j u.o.}) = 1 In diesem Fall heißt j rekurrent. und n=1 p (n) jj =. (2.4.2) (ii) Wenn f jj < 1, dann gelten P j ({X n = j u.o.}) = 0 In diesem Fall heißt j transient. und n=1 p (n) jj <. (2.4.3)

25 Version Februar Bemerkung Die Zahl n=1 p(n) jj ist die erwartete Anzahl von Besuchen in j nach dem Start, denn E j 1l{X n = j} = E j 1l{X n = j} = p (n) jj, (2.4.4) n=1 n=1 wobei E j den Erwartungswert bezüglich P j bezeichnet. Beweis von Satz Sei F n := {X n = j, X n+k j für alle k N} für n N, und sei F 0 := {X k j für alle k N}. F n ist also das Ereignis, dass zur Zeit n der Zustand j zum letzten Mal besucht wird. Es gilt {X n = j u. o.} c = n=0 F n, also 1 P j ({X n = j u. o.}) = n=1 P j (F n ), (2.4.5) n=0 da die F n disjunkt sind. Weiter gilt wegen der Markoveigenschaft P j (F n ) = P j (X n+k j für alle k 1 X n = j)p j (X n = j) = P j (F 0 )p (n) jj, (2.4.6) und P j (F 0 ) = 1 f jj. (2.4.7) (i) Für f jj = 1 folgt aus (2.4.7) P j (F 0 ) = 0 und damit aus (2.4.6) P j (F n ) = 0 für alle n N. Aus (2.4.5) folgt nun P j ({X n = j u. o.}) = 1. Weiter gilt n=1 p(n) jj =, denn anderenfalls folgte aus Satz (i), dass P j ({X n = j u. o.}) = 0. (ii) Für f jj < 1 folgt aus (2.4.7) P j (F 0 ) > 0, und mit (2.4.5) und (2.4.6) folgt 1 P j ({X n = j u. o.}) = n=0 ( P j (F n ) = P j (F 0 ) 1 + Da die linke Seite durch Eins beschränkt ist und P j (F 0 ) > 0 gilt, muss Satz (i) folgt dann P j ({X n = j u. o.}) = 0. n=1 ) p (n) jj. n=1 p(n) jj < sein. Aus Bemerkung Aus dem Beweis von Teil (ii) sieht man, dass im Fall f jj < 1 die Formel ( 1 = (1 f jj ) 1 + n=1 ) p (n) jj (2.4.8) gilt. Die erwartete Anzahl von Besuchen in j ab dem Startzeitpunkt ist daher 1 + n=1 p (n) jj = 1 1 f jj. (2.4.9) Bemerkung Man könnte die Resultate von Satz anschaulich auch wie folgt begründen. Wenn f jj = 1 ist, dann kehrt man sicher nach j zurück. Sobald man nach j zurückgekehrt ist, hat man wieder dieselbe Situation wie am Anfang, d. h. man wird j auch ein drittes Mal sicher besuchen usw. Also wird man j sogar unendlich oft besuchen. Die erwartete Anzahl von Besuchen in j ist natürlich erst recht unendlich. Somit hat man (i) gezeigt.

26 22 Stochastische Modelle Ist andererseits f jj < 1, so hat man bei jedem Besuch eine gewisse Chance nämlich 1 f jj niemals mehr nach j zurückzukehren. Da man beliebig viele Versuche hat, wird dies sicher irgendwann passieren. Daher gilt P j ({X n = j u. o.}) = 0. Es ist klar, dass die Anzahl der Besuche in j geometrisch verteilt ist: P j (k = Anzahl der Besuche ohne Start in j) = f k jj(1 f jj ), k N 0. Da der Erwartungswert einer solchen geometrischen Verteilung gleich f jj (1 f jj ) 1 ist, ist die erwartete Anzahl von Besuchen in j (mit Start) 1+f jj (1 f jj ) 1 = (1 f jj ) 1, also insbesondere endlich, womit (ii) und die Formel (2.4.9) gezeigt ist. Diese Argumente sind durchaus richtig, aber an einer Stelle lückenhaft, nämlich dort, wo argumentiert wird, dass nach der ersten Rückkehr in j der Prozess so weiterläuft als würde er (unabhängig) neu gestartet. Die Markoveigenschaft alleine sagt nicht, dass dies stimmt, denn sie ist nur für feste und nicht für zufällige Zeiten formuliert. Die erste Rückkehrzeit ist aber zufällig. Wir wollen nun zeigen, dass die Markoveigenschaft auch für gewisse solcher zufälligen Zeiten ( Stoppzeiten ) gilt. Diese Eigenschaft wird als starke Markoveigenschaft bezeichnet. Wir betonen, dass die starke Markoveigenschaft zwar für Markovketten gilt, nicht aber für beliebige Markovprozesse. Wir definieren zunächst den Begriff der Stoppzeit. Definition Sei (X n ) n N0 eine Markovkette mit Startverteilung a auf einem Wahrscheinlichkeitsraum (Ω, F, P). Eine Abbildung τ : Ω N 0 { } heißt Stoppzeit (bezüglich (X n ) n N0 ) wenn gilt: {τ = n} σ(x 0,...,X n ), n N 0. (2.4.10) Wir erinnern daran, dass die σ-algebra σ(x 0,...,X n ) weiter oben unter dem Namen F n eingeführt worden ist. Die Eigenschaft in (2.4.10) bedeutet also, dass sich das Ereignis {τ = n} als Vereinigung über Ereignisse der Form {X 0 = i 0,...,X n = i n } darstellen lässt oder anschaulich dass die Tatsache, ob τ = n gilt, d. h. zur Zeit n gestoppt wird, nur von den Realisierungen von X 0,...,X n (und nicht von zukünftigen X n+1, X n+2,...) abhängt. Stoppzeiten (oder Stoppregeln) sind also solche, für deren Anwendung man keiner hellseherischen Fähigkeiten bedarf. Beispiele für Stoppzeiten sind (mit einem Zustand i E) τ = Zeitpunkt des ersten Besuchs in i τ = Zeitpunkt des fünften Besuchs in i. Abgesehen von Spezialfällen ist aber τ = Zeitpunkt des letzten Besuchs in i keine Stoppzeit, da man ohne hellseherische Fähigkeiten nicht sicher sein kann, dass man nicht doch noch einmal nach i zurückkehrt (es sei denn, f ii wäre Null). Offensichtlich sind Stoppzeiten eine Verallgemeinerung fester (deterministischer) Zeiten, d. h. die konstante Abbildung τ := n N 0 ist eine Stoppzeit. Zur Formulierung der starken Markoveigenschaft ist es nützlich, die σ-algebra F τ die sogenannte τ-vergangenheit als natürliche Verallgemeinerung von F n im Spezialfall τ = n zu definieren. Dabei soll ein Ereignis F in F τ liegen genau dann, wenn das Eintreffen oder Nichteintreffen von F aufgrund der Beobachtung X 0,...,X τ erkennbar ist. Wir definieren F τ als die Menge der Teilmengen von Ω, die sich als (notwendigerweise abzählbare) Vereinigung von Mengen der Form {ω: τ(ω) = n, X 0 (ω) = i 0,...,X n (ω) = i n }

27 Version Februar für n N 0, i 0,...,i n E und einer Teilmenge von {ω: τ(ω) = } in F schreiben lassen. Man beachte, dass insbesondere {ω: τ(ω) = n} F τ für alle n N 0 gilt. Man rechnet leicht nach, dass F τ eine σ-algebra ist. Satz (Starke Markoveigenschaft). Sei (X n ) n N0 eine Markovkette mit Übergangsmatrix P und Startverteilung a. Weiter sei τ eine Stoppzeit für (X n ) n N0. Dann gilt die starke Markoveigenschaft, d.h. P ( X τ+1 = i 1,...,X τ+k = i k {X τ = i 0 } F {τ < } ) = p i0 i 1...p ik 1 i k (2.4.11) für alle F F τ, k N, i 0,...,i k E, für die P({X τ = i 0 } F {τ < }) > 0. Beweis. Sei zunächst F n F n mit den Eigenschaften F n {τ = n} für ein n N 0 und P({X τ = i 0 } F n ) > 0. Dann folgt aus Satz P(X τ+1 = i 1,...,X τ+k = i k {X τ = i 0 } F n ) = P(X n+1 = i 1,...,X n+k = i k {X n = i 0 } F n ) = p i0 i 1 p i1 i 2... p ik 1 i k. (2.4.12) Für beliebiges F F τ schreibe man F = ( ) ( ) {τ = n} F {τ = } F. (2.4.13) n=0 Dann gilt {τ = n} F F n nach Definition von F τ. Mit Lemma folgt die Behauptung, indem man setzt. B i = {τ = i} F {X i = i 0 } und I = {i N 0 : P(B i ) > 0} (2.4.14) Bemerkung Satz besagt, dass die beiden bedingten endlich dimensionalen Verteilungen der Prozesse (X τ+k ) k N0 gegeben τ = n, X 0 = i 0,...,X n = i n und gegeben X τ = i n gleich sind. Mit Satz sind dann auch ihre Verteilungen gleich. Beispiel Wir wollen untersuchen, ob die symmetrische Irrfahrt auf Z d rekurrent ist, genauer, ob die Null ein rekurrenter Zustand ist. Zunächst behandeln wir den Fall d = 1; wir betrachten allgemeiner die asymmetrische Irrfahrt auf Z, d. h., mit einem Parameter p (0, 1) und q = 1 p ist die Übergangsmatrix P = (p ij ) i,j Z gegeben durch p, falls j = i + 1, p ij = q, falls j = i 1, (2.4.15) 0 sonst. Es gilt für alle n N P 0 (X 2n = 0) = ( ) 2n p n q n und P 0 (X 2n+1 = 0) = 0, (2.4.16) n

28 24 Stochastische Modelle also k=1 p (k) 00 = ( ) 2n p n q n = n n=1 n=1 (2n)! n! 2 pn q n. (2.4.17) Wir wollen untersuchen, ob die Reihe konvergiert oder divergiert, um mit Satz zu entscheiden, ob 0 rekurrent oder transient ist. Hierzu benutzen wir die bekannte Stirlingformel (Beweis z.b. in [Fe68] oder [No97]) n! ( n ) n, 2πn (2.4.18) e wobei bedeutet, dass der Quotient beider Seiten mit n gegen 1 konvergiert. Somit gilt (2n)! 2π2n(2n) n! 2 pn q n 2n e 2n p n q n 2πn 2n+1 e 2n = (4pq)n πn. (2.4.19) Setzt man dies in die Reihe in (2.4.17) ein, so sieht man, dass sie genau dann divergiert, wenn 4pq = 1 ist, d. h. wenn p = q = 1/2 ist. (Man mache sich klar, dass das Ersetzen von asymptotisch gleichen Ausdrücken an der Konvergenz oder Divergenz der Reihe nichts ändert!) Somit haben wir gesehen: Die eindimensionale symmetrische Irrfahrt ist rekurrent. Die eindimensionale asymmetrische Irrfahrt (d. h. mit p 1/2) ist transient. Genau genommen müssten wir sagen: Der Zustand 0 ist rekurrent bzw. transient. Es ist aber offensichtlich, dass wegen der räumlichen Homogenität diese Eigenschaft allen Zuständen zukommt, was die obige Sprechweise rechtfertigt. Im Fall d 2 zeigt eine ähnliche, aber aufwändigere Rechnung: Die symmetrische Irrfahrt ist rekurrent für d = 2, transient für d 3. (vgl. [Fe68, S. 360 f] oder [KT75, S. 67 ff]). 2.5 Klassifikation der Zustände Wir kehren nun wieder zu allgemeinen Fragen über Markovketten zurück. Ist bei einer Markovkette ein Zustand rekurrent, dann ist immer noch die Frage nach der Verteilung der ersten Rückkehrzeit interessant und dabei speziell die Frage, ob diese Zeit einen endlichen oder unendlichen Erwartungswert hat. Da das Nachprüfen von Kriterien für Rekurrenz oder auch für die Endlichkeit des Erwartungswertes der Rückkehrzeit mit einem gewissen Aufwand verbunden ist, stellt sich die Frage, ob man wirklich für jeden Zustand einer Markovkette diese Kriterien getrennt abprüfen muss. Glücklicherweise ist dies nicht so. Man kann nämlich die Zustände einer Markovkette recht einfach so in Klassen einteilen, dass alle Zustände einer Klasse dieselben Rekurrenzeigenschaften haben. Wir werden dies im Folgenden präzisieren und beweisen. Im gesamten Rest dieses Kapitels sei E eine endliche oder höchstens abzählbar unendliche Menge, und P = (p ij ) i,j E sei eine stochastische Matrix auf E. Mit X = (X k ) k N0 bezeichnen

29 Version Februar wir eine Markovkette auf E mit Übergangsmatrix P. Die Kette sei auf einem Wahrscheinlichkeitsraum (Ω, F, P) definiert. Falls die Markovkette im Zustand i E startet, schreiben wir P i statt P. Für einen rekurrenten Zustand j E sei R (j) k der (zufällige) Zeitpunkt der k-ten Rückkehr in den Zustand j, wobei wir R (j) 0 = 0 setzen. Ferner sei T (j) k = R (j) k R (j) k 1 für k N die Zeitdauer zwischen dem (k 1)-ten und k-ten Besuch in j. Wegen der Rekurrenz von j sind die R (j) k alle fast sicher endlich und damit die T (j) k wohldefiniert. Es ist plausibel, dass bei Start in j (d. h. unter P j ) die Variablen T (j) 1, T (j) 2,... u.i.v. sind, denn nach der ersten Rückkehr nach j verhält sich der Prozess bezüglich seiner Verteilung ja genauso wie am Anfang bei Start in j, und was nach R (j) 1 passiert, ist unabhängig von dem, was vor R (j) 1 passierte. Dies beweisen wir nun formal. Satz Wenn j rekurrent ist, dann ist (T (j) k ) k N eine Folge von u.i.v. Zufallsvariablen auf (Ω, F, P j ). Beweis. Zunächst zeigen wir, dass R (j) aus der starken Markoveigenschaft. Nun gilt 1, R(j) 2,... Stoppzeiten sind. Dann folgt die Behauptung {R (j) 1 = n} = {X 1 j,...,x n 1 j, X n = j}, {R (j) 2 = n} = { X n = j, es gibt genau ein k {1,...,n 1} mit X k = j }, (2.5.1) und so weiter. Diese Ereignisse liegen offensichtlich in σ(x 1,...,X n ), denn ihr Eintreten oder Nichteintreten kann man aufgrund der Realisierung von X 0 bis X n erkennen. Daher sind R (j) 1, R(j) 2,... Stoppzeiten. Mit E j bezeichnen wir den Erwartungswert bezüglich P j, d. h. bei Start in j. Definition Seien i, j E. a) Sei j rekurrent. Dann heißt j positiv rekurrent, wenn E j T (j) 1 < und nullrekurrent, wenn E j T (j) 1 =. (Die Begriffe positiv und null beziehen sich auf den Kehrwert von E j T (j) 1.) b) Der Zustand j heißt erreichbar von i, und wir schreiben i j, wenn ein n N existiert mit p (n) ij > 0. c) Wenn i j und j i, dann sagt man, dass i und j kommunizieren, und wir schreiben i j. d) Der Zustand j heißt absorbierend, wenn aus j i folgt, dass i = j. Dies ist äquivalent zu p jj = 1 und zu p (n) jj = 1 für alle n N. e) Eine nichtleere Menge M E heißt kommunizierende Klasse, wenn (i) i j für alle i, j M, (ii) wenn i M, j E und i j, dann folgt j M. f) Ist j Element einer kommunizierenden Klasse, dann heißt j wesentlich, sonst unwesentlich.

30 26 Stochastische Modelle g) Ist E selbst eine kommunizierende Klasse, dann heißt die Markovkette irreduzibel. Bemerkung Jeder Zustand j liegt in höchstens einer kommunizierenden Klasse. Der einzige Kandidat ist offenbar M = {i E : j i}. Man sieht leicht, dass eine Markovkette (oder ihre Übergangsmatrix P) genau dann irreduzibel ist, falls für jedes Paar i, j E ein n N existiert mit p (n) ij > 0. Satz ist eine Äquivalenzrelation auf der Menge der wesentlichen Zustände. Die zugehörigen Äquivalenzklassen sind die kommunizierenden Klassen. Beweis. ist offensichtlich reflexiv und symmetrisch auf der Menge der wesentlichen Zustände. Wir zeigen, dass auch transitiv ist: Es gelte i j und j k. Dann existieren n 1, n 2 N mit p (n 1) ij > 0 und p (n 2) jk > 0. Daher gilt p (n 1+n 2 ) ik = l E p (n 1) il p (n 2) lk p (n 1) ij p (n 2) jk > 0, (2.5.2) d. h. i k. Ebenso folgt k i. Die zweite Aussage des Satzes ist klar. Bemerkung Für unwesentliche Zustände gilt nicht immer i i, z. B. dann nicht, wenn p ji = 0 für alle j E gilt. Gelegentlich wird auch auf der Menge aller Zustände eine Äquivalenzrelation eingeführt. Um die Reflexivität i i auch für unwesentliche Zustände i zu garantieren, definiert man dann i j, wenn p (n) ij > 0 für ein n N 0 (statt nur n N) ist. Abbildung 2.5.1: Beispiel einer Markovkette Beispiel {C}, {G, H}, {D, E, F } sind kommunizierende Klassen. A und B sind unwesentlich, aber A B. C ist absorbierend.

31 Version Februar Wir zeigen im weiteren, dass Rekurrenz, Transienz, positive Rekurrenz und die noch zu definierende Periode von Zuständen Klasseneigenschaften sind, d. h., wenn i und j in derselben (kommunizierenden) Klasse sind, dann sind beide rekurrent oder beide transient usw. Satz Sei i E rekurrent und i j, dann gilt j i und j ist rekurrent. Beweis. Um j i zu zeigen, führen wir einen Widerspruchsbeweis. Angenommen, es gilt nicht j i, d. h. p (n) ji = 0 für alle n N. Wähle n 0 N mit p (n 0) ij > 0. Dann gilt 0 = P i ({X n = i nur endlich oft }) P i (X n0 = j, X n0 +1 i, X n0 +2 i,...) p (n 0) ij P j (X 1 i, X 2 i,...) = p (n 0) ij > 0, was ein Widerspruch ist. Also gilt j i. Nun zeigen wir die Rekurrenz von j. Seien r und s N gewählt mit p (r) ji > 0 und p (s) Dann gilt p (r+n+s) jj d. h. j ist rekurrent. p (r) ji p(n) ii p (s) ij für jedes n N. Also folgt n=1 p (r+n+s) jj p (r) ji p(s) ij n=1 (2.5.3) ij > 0. p (n) ii =, (2.5.4) Korollar Unwesentliche Zustände sind transient. Äquivalent: rekurrente Zustände sind wesentlich. Beweis. Sei i rekurrent, und setze C i = {j E : i j}. Nach Satz ist C i eine kommunizierende Klasse, d. h. i ist wesentlich. Korollar Rekurrenz und Transienz sind Klasseneigenschaften. Beweis. Folgt sofort aus Satz Bemerkung Es gibt Markovketten ohne wesentliche Zustände, z. B.: E = N, p i,i+1 = 1 für i N, p ij = 0 sonst. Definition Sei j E mit f jj > 0, und sei d die größte natürliche Zahl, so dass k=1 P j (T (j) 1 = kd) + P j (T (j) 1 = ) = 1. (2.5.5) Dann heißt d Periode von j. j heißt periodisch, wenn d > 1 und aperiodisch, wenn d = 1 ist. Beispiel Bei der eindimensionalen symmetrischen Irrfahrt haben alle Zustände Periode 2. Satz Wenn i j, dann sind i und j beide transient oder beide rekurrent und i und j haben dieselbe Periode. Insbesondere sind Rekurrenz, Transienz und die Periode Klasseneigenschaften.

32 28 Stochastische Modelle Beweis. Die erste Aussage folgt aus Satz Wir zeigen die zweite Aussage: Sei i j. Dann gilt f ii > 0 und f jj > 0, und die Perioden d i bzw. d j von i bzw. j sind daher definiert. Seien n 1 und n 2 N gewählt mit p (n 1) ij > 0 und p (n 2) ji > 0. Nun ist n 1 + n 2 offenbar ein ganzzahliges Vielfaches von d i und p (n 1+n+n 2 ) ii p (n 1) ij p (n) jj p(n 2) ji, (2.5.6) d. h. p (n) jj = 0, wenn n kein Vielfaches von d i ist. Somit gilt d i d j. Entsprechend folgt d i d j und somit d i = d j. Bemerkung Die Tatsache, dass auch die positive Rekurrenz eine Klasseneigenschaft ist, formulieren wir in Satz Grenzwertsätze und invariante Verteilungen Wir betrachten zwei Arten von Grenzwertsätzen für Markovketten: solche für die n-schrittigen Übergangswahrscheinlichkeiten und solche für die Aufenthaltshäufigkeiten N n (j) im Zustand j bis zur Zeit n, jeweils für n. Zunächst erledigen wir die erste Frage für transiente Zustände. Satz Ist j E transient, dann gilt lim n p (n) ij = 0 für alle i E. Beweis. Wenn j E transient ist, gilt n=1 p(n) jj < nach Satz und daher insbesondere lim n p (n) jj = 0. Sei i E und f (k) ij = P i (X 1 j,...,x k 1 j, X k = j) (2.6.1) die Wahrscheinlichkeit, j von i aus nach k Schritten erstmalig zu besuchen. Es gilt f ij 1, vergleiche (2.4.1). Sei i j. Dann gilt n=1 p (n) ij = n n=1 k=1 Somit gilt lim n p (n) ij = 0. f (k) ij p(n k) jj = k=1 f (k) ij n=k p (n k) jj = f ij n=0 k=1 f(k) ij = p (n) jj <. (2.6.2) Lemma Sei C eine aperiodische Klasse, und seien i, j C. Dann existiert ein n 0 = n 0 (i, j) N, so dass p (n) ij > 0 für alle n n 0 gilt. Beweis. Sei j C und A := {n N: p (n) jj > 0}. Da j wesentlich ist, folgt A. Wegen der Aperiodizität von j folgt die Existenz von r N und a 1,...,a r A, so dass ggt (a 1,...,a r ) = 1. Mit dem euklidischen Algorithmus lassen sich c 1,...,c r Z bestimmen, so dass c 1 a c r a r = 1. Sei s := r k=1 a k und n = sx + y mit n N, x N 0, und 0 y < s. Dann gilt n = r k=1 (x + yc k)a k. Sei x 0 := (s 1)max{ c 1,..., c r }. Für alle n ñ 0 := sx 0 gilt dann s k := x + yc k 0 für alle k und p (n) jj = p (P r jj k=1 s ka k ) r k=1 p (s ka k ) jj r ( (a p k )) sk > 0, (2.6.3) k=1 jj

33 da a 1,...,a r A. Ist i C, dann existiert m N, so dass p (m) ij p (m+n) ij für alle n ñ 0, also p (n) ij > 0 für alle n n 0 := m + ñ 0. Satz Sei C eine rekurrente Klasse, i, k C und Version Februar > 0 und somit p (m) ij p (n) jj > 0 (2.6.4) π (i) k = E i ( n=1 ) 1l{X n = k, X n 1 i,...,x 1 i} (2.6.5) die erwartete Zahl von Besuchen in k vor der Rückkehr nach i bei Start in i. Dann gelten 0 < π (i) k < und π(i) k = j C π (i) j p jk. (2.6.6) Bemerkung Schreibt man π (i) = (π (i) j ) j C als Zeilenvektor und setzt π (i) j j E \ C, so lautet (2.6.6) in Matrixform: π (i) = π (i) P. := 0 für Beweis von Satz Wir zeigen zuerst die zweite Behauptung in (2.6.6). Man beachte, dass π (i) i = 1 gilt und definiere 0 = 0. Es gilt j C π (i) j p jk = = n=1 j C\{i} P i (X n = j, X n 1 i,...,x 1 i)p jk + p ik P i (X n+1 = k, X n i,...,x 1 i) + P i (X 1 = k) n=1 = π (i) k, (2.6.7) wobei wir beim vorletzten Gleichheitszeichen die Markov-Eigenschaft benutzt haben. Nun zeigen wir 0 < π (i) k < für k i. Wegen der Rekurrenz existiert ein n N mit p (n) ki > 0. Nach dem eben Gezeigten gilt π (i) = π (i) P, also auch π (i) = π (i) P n für alle n N. Insbesondere gilt 1 = π (i) i = j C π (i) j p(n) ji, (2.6.8) also folgt π (i) k <, da alle Summanden 0 sind. Weiter gibt es ein m N mit p (m) ik π (i) k = j C > 0 und somit π (i) j p(m) jk π (i) i p (m) ik = p (m) ik > 0. (2.6.9) Bemerkung Satz dient uns hauptsächlich als Hilfssatz zum Beweis von Grenzwertsätzen, ist aber auch für sich genommen interessant. Um die π (i) k zu berechnen, muss man

34 30 Stochastische Modelle das lineare Gleichungssystem in (2.6.6) mit der Normierungsbedingung π (i) i = 1 und Nebenbedingungen 0 < π (i) k < für k C lösen. Wir werden in Satz sehen, dass die Lösung eindeutig ist. Man beachte, dass sich (2.6.6) auch durch Simulation (approximativ) lösen lässt: Man simuliere eine Markovkette mit Start in i bis zur ersten Rückkehr nach i und merke sich die Zahl der Besuche in allen anderen Zuständen. Dies wiederhole man oft (z. B Mal) mit unabhängigen Zufallszahlen. Die Mittelwerte der Zahl der Besuche in k C über die Simulationsläufe ist eine Näherung für π (i) k. Man beachte weiterhin, dass k C π (i) k = E it (i) 1 (2.6.10) gilt, insbesondere also i positiv rekurrent ist genau dann, wenn k C π(i) k <. Definition Eine Lösung π von π = πp, π = (π i ) i E [0, ] E, (2.6.11) heißt invariantes Maß von P (oder der Markovkette). Gilt zusätzlich i E π i = 1, dann heißt π invariantes Wahrscheinlichkeitsmaß oder invariante Verteilung von P. (i) Ein invariantes Maß π 0 ist ein Linkseigenvektor von P zum Ei- Bemerkung genwert 1. (ii) Der Vektor (π (i) k ) k E aus Satz ist für jedes i C ein invariantes Maß von P, wenn man π (i) k = 0 für k / C definiert. (iii) Ist π ein invariantes Wahrscheinlichkeitsmaß, dann gilt für die speziell gewählte Startverteilung a = π P(X n = j) = (πp n ) j = π j, j E, n N 0. (2.6.12) Von dieser Eigenschaft her kommt die Bezeichnung invariant. Man zeigt leicht, dass dann automatisch sogar P(X 0 = i 0,...,X n = i n ) = P(X 1 = i 0,...,X n+1 = i n ), n N 0, i 0,...,i n E, (2.6.13) gilt. Man sagt, (X n ) n N0 ist ein stationärer Prozess. Satz Ist C eine rekurrente Klasse, dann existiert bis auf konstante Vielfache ( [0, ]) genau ein invariantes Maß π auf C, genauer: es existiert ein π [0, ) E mit π k = j C π jp jk für alle k C und π k = 0 für alle k E \ C und π k > 0 für alle k C und für jedes invariante Maß π mit π k = 0 für alle k E \ C existiert ein c [0, ], so dass π k = cπ k für alle k E gilt (mit der üblichen Konvention 0 = 0). Beweis. Die Existenz von π folgt aus Satz Zu zeigen bleibt die Eindeutigkeit. Sei also π invariant auf C. Wenn π auf C gilt, so ist π ein konstantes (nämlich unendliches) Vielfaches jedes π (i), also können wir annehmen, dass ein i C existiert mit π i <. Dann gilt für alle k C π k = π j p jk = π i p ik + π j p jk = π i p ik + (π i p ij + ) π j1 p j1 j p jk j C j C\{i} j C\{i} j 1 C\{i} = π i p ik + π i p ij p jk + (2.6.14) π j1 p j1 jp jk =.... j C\{i} j C\{i} j 1 C\{i}

35 Version Februar Also gilt und somit π k π i m=1 π i = k C P i (X 1 i, X 2 i,...,x m 1 i, X m = k) = π i π (i) k, (2.6.15) π k p (n) ki π i π (i) k p(n) ki = π i π (i) i = π i, n N. (2.6.16) k C Da zu jedem k C ein n k N existiert mit p (n k) ki > 0 und da π i < ist, gilt also in (2.6.15) Gleichheit für alle k C, also ist π k = π i π (i) k, k C, (2.6.17) und somit ist π konstantes Vielfaches (nämlich π i -faches) von π (i). Bemerkung Aus Satz folgt insbesondere, dass sich die invarianten Maße π (i) aus Satz für verschiedene i nur um konstante Vielfache unterscheiden. Satz Wenn es eine invariante Verteilung π gibt, dann sind alle j E mit π j > 0 rekurrent. Beweis. = π j = n=0 n=0 k E ( ) π k p (n) jj = k E n=0 π k p (n) kj = n=0 k E\{j} π k f kj n=0 p (n) jj + π j n=0 p (n) jj p (n) jj. (2.6.18) Also ist j rekurrent nach Satz Korollar Auf einer transienten Klasse C gibt es keine invariante Verteilung. Bemerkung Es kann aber auf einer transienten Klasse C durchaus invariante Maße geben, wie das Beispiel der asymmetrischen Irrfahrt auf Z zeigt. Hier ist π i = 1, i Z ein invariantes Maß, aber auch π i = (p/q) i, i Z, d. h. auf transienten Klassen sind nicht notwendigerweise alle invarianten Maße proportional. Satz Sei π eine invariante Verteilung auf einer (notwendigerweise rekurrenten) Klasse C. Dann gilt π i = 1 E i T (i) (0, 1], i C. (2.6.19) 1 Beweis. Wegen Satz ist π eindeutig, und wegen Satz gilt π k = απ (i) k mit einem festen i C und einem α > 0. Da k C π(i) k α = (E i T (i) 1 ) 1, und damit die Behauptung. für alle k C = E i T (i) 1 und k C π k = 1, folgt Nach diesen Vorbereitungen erhalten wir die folgenden wichtigen Aussagen bis Satz Sei C eine rekurrente Klasse. Dann sind äquivalent:

36 32 Stochastische Modelle (i) Es existiert ein i C, das positiv rekurrent ist. (ii) Es gibt auf C eine invariante Verteilung. (iii) Alle i C sind positiv rekurrent. Insbesondere ist positive Rekurrenz eine Klasseneigenschaft. Beweis. (iii) (i) Das ist trivial, da C. (i) (ii) Nach (i) gilt k C π(i) k = E i T (i) 1 <. Nach Satz definiert π k := (E i T (i) k C und π k = 0 für k E \ C eine invariante Verteilung π. 1 ) 1 π (i) k für (ii) (iii) Dies folgt unmittelbar aus Satz Satz Die Markovkette mit Übergangsmatrix P sei irreduzibel, aperiodisch und positiv rekurrent mit (nach Satz existierender) invarianter Verteilung π. Dann gilt lim n p(n) ij = π j, i, j E. (2.6.20) Beweis. Diese Aussage wurde früher (z. B. [Fe68]) rein analytisch bewiesen. Sie besagt insbesondere, dass unter den Voraussetzungen des Satzes die Verteilung von X n im Grenzwert n nicht vom Startpunkt X 0 = i abhängt, die Verteilung der Markovkette also unabhängig vom Start gegen die Gleichgewichtsverteilung π konvergiert. Heute bevorzugt man den folgenden stochastischen Beweis, der zwar kaum kürzer, aber anschaulicher ist. Die darin verwendete Kopplungstechnik (coupling technique) findet auch bei anderen Beweisen nutzbringend Anwendung. Gekoppelt werden dabei zwei Markovketten mit unterschiedlichem Startpunkt. Sei W = (W k ) k N0 = (X k, Y k ) k N0 eine Markovkette mit Zustandsraum E E und Übergangswahrscheinlichkeiten p (i,j),(k,l) = p ik p jl für alle i, j, k, l E. Mit anderen Worten: Die Komponenten X = (X k ) k und Y = (Y k ) k sind unabhängige Markovketten mit derselben Übergangsmatrix P. Wir betrachten einige Eigenschaften von W = (W k ) k. (i) Für jedes Quadrupel i, j, k, l existiert nach Lemma ein n 0 = n 0 (i, j, k, l), so dass p (n) (i,j),(k,l) = p(n) ik p(n) jl > 0, n n 0, (2.6.21) da P aperiodisch ist. Also ist auch die Markovkette W irreduzibel und aperiodisch. (ii) Man prüft leicht nach, dass π (i,j) := π i π j, i, j E eine invariante Verteilung π von W definiert. Also ist nach Satz die Markovkette (W k ) k rekurrent und nach Satz sogar positiv rekurrent. Sei nun i 0 E beliebig. Dann gilt wegen (ii) für i, j E P (i,j) (W n = (i 0, i 0 ) u. o.) = 1. (Warum?) (2.6.22)

37 Version Februar Sei τ der erste Zeitpunkt, an dem die Markovkette W den Zustand (i 0, i 0 ) erreicht. Dann gilt (undefinierte bedingte Wahrscheinlichkeiten setze man Null): p (n) ik p(n) jk = P (i,j) (X n = k, τ n) + P (i,j) (X n = k τ > n)p (i,j) (τ > n) P (i,j) (Y n = k, τ n) P (i,j) (Y n = k τ > n)p (i,j) (τ > n) P (i,j) (X n = k, τ n) P (i,j) (Y n = k, τ n) + P (i,j) (τ > n). (2.6.23) Für n geht P (i,j) (τ > n) gegen Null, da P (i,j) (τ < ) = 1. Der letzte Ausdruck in den Betragsstrichen ist für alle i, j, k, n identisch Null, wie wir gleich formal zeigen werden. Anschaulich ist dies klar, denn wenn τ n ist, X und Y sich also schon in i 0 getroffen haben, dann haben sie danach dieselbe Verteilung. Nun folgt der formale Beweis. P (i,j) (X n = k, τ n) = = = = n P (i,j) (X n = k, τ = m) m=0 n ( P (i,j) Xn = k τ = m, W m = (i 0, i 0 ) ) P (i,j) (τ = m) m=0 n m=0 p (n m) i 0 k P (i,j) (τ = m) n ( P (i,j) Yn = k τ = m, W m = (i 0, i 0 ) ) P (i,j) (τ = m) m=0 = P (i,j) (Y n = k, τ n), (2.6.24) wobei wir bei der dritten und vierten Identität die starke Markoveigenschaft (Satz 2.4.6) verwendet haben. Wenn wir (2.6.24) in (2.6.23) einsetzen, erhalten wir lim n p(n) ik p(n) jk = 0. (2.6.25) Sei nun ε > 0 beliebig und E 0 E endlich, so dass k E\E 0 π k < ε. Dann folgt also mit (2.6.25) π j p (n) ij = ( (n) π k p kj ) p(n) ij π k p (n) k E k E 0 lim sup n Da ε > 0 beliebig war, folgt die Behauptung. kj p(n) ij + ε, (2.6.26) π j p (n) ij ε. (2.6.27) Wir wollen nun das Analogon von Satz im nullrekurrenten Fall zeigen. Satz Die Markovkette mit Übergangsmatrix P sei irreduzibel, aperiodisch und nullrekurrent. Dann gilt lim n p(n) ij = 0, i, j E. (2.6.28)

38 34 Stochastische Modelle Beweis. Wie im Beweis von Satz definieren wir die Markovkette W, die wie in Satz irreduzibel und aperiodisch ist. Wir unterscheiden zwei Fälle je nachdem ob W transient oder rekurrent ist (beides ist möglich): Falls W transient ist, gilt für i, j E nach Satz 2.6.1: (p (n) ij )2 = p (n) 0 für n, (i,i),(j,j) also folgt die Behauptung. Falls W rekurrent ist, dann definieren wir τ wie im Beweis von Satz , woraus (2.6.25) folgt. Angenommen, es gäbe ein Paar (i, j) E E, so dass α := lim sup n p (n) ij existiert eine Teilfolge (n m ) m, so dass lim m p (nm) ij eine endliche Menge M E mit k M π(i) k > 2 α π(i) = α. Wegen k E π(i) k j. Wähle m 0 so groß, dass p (nm) für alle m m 0 und k M (benutze (2.6.25)). Dann gilt für m m 0 was unmöglich ist. π (i) j = k E π (i) k p(nm) kj k M > 0. Dann = E it 1 = existiert kj α < α/2 π (i) α k 2 > π(i) j, (2.6.29) Bemerkung Natürlich kann man die Sätze und auch für nicht irreduzible Markovketten formulieren, wenn man annimmt, dass i, j in einer aperiodischen positiv bzw. nullrekurrenten Klasse liegen. Wir wollen nun noch sehen, was man im periodischen Fall sagen kann und gleichzeitig die wichtigsten Resultate der Sätze bis zusammenfassen. Satz a) Ist j E aperiodisch und positiv rekurrent, so gilt lim n p(n) ij = f ij E j T (j) 1 = f ij π j, i E, (2.6.30) wobei π die auf der Klasse von j konzentrierte invariante Verteilung ist. b) Ist j E nullrekurrent, so gilt lim n p (n) ij = 0 für alle i E. c) Ist j E positiv rekurrent mit Periode d > 1, dann gilt lim n p(nd) jj = d E j T (j) 1 = π j d, (2.6.31) wobei π die auf der Klasse von j konzentrierte invariante Verteilung ist. d) Ist j E transient, so gilt lim n p (n) ij = 0 für alle i E. e) (Verallgemeinerung von c)). Ist j E positiv rekurrent mit Periode d > 1, dann gilt Beweis. wobei r {1,...,d} und f,r ij lim n p(nd+r) ij = d E j T (j) := m=0 f(md+r) ij. 1 f,r ij = π j d f,r ij, (2.6.32)

39 Version Februar a) Ist i in derselben Klasse wie j, so ist f ij = 1, und die Behauptung folgt aus Satz und Satz Anderenfalls gilt (mit f (k) ij aus Satz 2.6.1): p (n) ij = n k=1 f (k) ij p(n k) jj. (2.6.33) Wegen 1 p (n k) jj (E j T (j) 1 ) 1 = π j und k=1 f(k) ij = f ij folgt die Behauptung allgemein. (Man beachte, dass hier die Vertauschung von lim und unendlicher Summation zulässig ist.) b) Wir zeigen zunächst lim n p (n) jj = 0. Im aperiodischen Fall folgt dies aus Satz Im periodischen Fall mit Periode d ist die Markovkette (X dn ) n aperiodisch und j ebenfalls nullrekurrent, also lim n p (nd) jj p (m) jj = 0, also ist lim n p (n) jj π j = (E j T (j) 1 ) 1 = 0). = 0. Wenn m kein ganzzahliges Vielfaches von d ist, gilt = 0. Für i j folgt die Behauptung dann wie in a) (mit c) Folgt analog zum periodischen Fall in b). Dabei beachte man, dass (X dn ) n ebenfalls die invariante Verteilung π hat und die erwartete Rückkehrzeit von (X dn ) n nach i gleich 1/d mal derjenigen von (X n ) n ist. d) Dies ist Satz e) Einfache Verallgemeinerung von c). Wir formulieren noch zwei einfache Folgerungen. Korollar a) Jede Markovkette auf einem endlichen Zustandsraum E hat mindestens einen positiv rekurrenten Zustand. b) Jede endliche Klasse C ist positiv rekurrent. Beweis. a) Wäre dies nicht so, dann gälte lim n p (n) ij = 0 für alle i, j E nach Satz b) und d), was aber wegen 1 = j E p(n) ij 0 unmöglich ist. b) folgt ebenso (ersetze oben E durch C). Die folgende Aussage folgt unschwer aus Satz Satz a) Es existiert eine eindeutige invariante Verteilung genau dann, wenn es genau eine positiv rekurrente Klasse gibt. b) Es existiert ein π [0, ) E mit i E π i = 1 und lim n p (n) ij = π j für alle i, j E genau dann, wenn es genau eine aperiodische positiv rekurrente Klasse C gibt und f ij = 1 für alle i E, j C gilt.

40 36 Stochastische Modelle Beweis. Übungsaufgabe. Ohne Beweis präsentieren wir noch zwei sogenannte starke Grenzwertsätze, die fast sichere Aussagen über das Verhalten für n machen. Wir erinnern daran, dass N n (j) = n k=0 1l{X k = j} die Zahl der Besuche im Zustand j bis zum Zeitpunkt n bezeichnet. Satz Sei C eine rekurrente Klasse, π (i) k für i, k C wie in Satz und N n (j) die Anzahl der Besuche der Markovkette (X k ) k=1,...,n in j. Dann gilt Beweis. [Br68, S. 143 f]. ( P i lim n N n (j) N n (k) = π (i) j π (i) k ) = 1 i, j, k C. (2.6.34) Satz Sei C eine positiv rekurrente Klasse und π [0, ) E die zugehörige invariante Verteilung, d.h. die eindeutige Lösung von π = πp, π i = 1, π j = 0, j E \ C. (2.6.35) Weiter gelte für ein f : E R: Dann gilt ( P i lim n 1 n n i C f(j) π j <. (2.6.36) j C k=1 f(x k ) = j E f(j)π j ) = 1, i C. (2.6.37) Beweis. Dies ist ein Spezialfall des Ergodensatzes für stationäre Prozesse (siehe z. B. [Br68, S. 118 ff]). Bemerkung Wählt man speziell f(k) = δ jk für ein j C, dann folgt 2.7 Beispiele ( P i lim n N n (j) n = π j ) = 1, i C. (2.6.38) Beispiel Ist die symmetrische Irrfahrt auf Z (siehe Beispiel 2.2.1) positiv rekurrent? Es gilt p (2n) 00 (πn) 1/2 nach Satz Da p (2n 1) 00 = 0 für alle n N ist, gilt also lim n p (n) 00 = 0. Da 0 ein rekurrenter Zustand ist, folgt nach Satz c), dass 0 nullrekurrent sein muss. Da die symmetrische Irrfahrt irreduzibel ist, ist sie (oder Z) nullrekurrent. Alternativ folgt die Nullrekurrenz aus Satz und der Tatsache, dass π definiert als π i = 1 für alle i Z ein unendliches invariantes Maß der Kette ist. Beispiel ((s, S)-Lagerhaltungsmodell, Fortsetzung von Beispiel 2.2.7). Betrachte zunächst Y n := Lagerinhalt am Morgen des Tages n. (2.7.1)

41 Version Februar Wir nehmen an, dass P(X 1 > 0) > 0 gilt. Die Menge C := {j {s,...,s}: S j} ist eine kommunizierende Klasse, die den Zustand S enthält. Sie ist endlich und daher nach Korollar positiv rekurrent. Alle anderen Zustände (sofern vorhanden) sind unwesentlich und damit transient. C kann periodisch oder aperiodisch sein; dies hängt von der Verteilung von X ab. Es gilt offensichtlich f ij = 1 für alle i {s,...,s}, j C. Die Markovkette (Z n ) n mit Z n := Lagerinhalt am Abend des Tages n (2.7.2) besteht ebenfalls aus einer positiv rekurrenten Klasse C und eventuell weiteren unwesentlichen Zuständen. Man kann zeigen, dass auch hier f ij = 1 für alle j C und alle i {S, S 1,... } gilt. Wir betrachten nun die durchschnittlichen Kosten pro Tag, K (n) := 1 n n k=1 Kosten am Tag k, (2.7.3) und stellen die Frage, ob K (n) konvergiert, und wenn ja, wogegen. Wie in Beispiel erläutert wurde, kann man die Kosten aufspalten wie folgt: K (n) = 1 n n ( KB 1l {s 1,s 2,... } (Z k ) + f 1 (Y k ) + f 2 (Z k ) + f 3(S) ), (2.7.4) k=1 wobei die vier Summanden die Bestellkosten, die Lagerhaltungskosten, die Kosten für nichtbefristete Nachfrage und die Lagerinvestitions- und Mietkosten modellieren. Seien π (Z) bzw. π (Y ) die (eindeutigen) invarianten Verteilungen der Markovketten (Z k ) k bzw. (Y k ) k. Nach Satz gelten die drei Grenzwertaussagen 1 n n k=1 s 1 K B 1l {s 1,s 2,... } (Z k ) K B 1 n 1 n n f 1 (Y k ) k=1 n f 2 (Z k ) k=1 S j=s 1 j= j= π (Z) j, (2.7.5) f 1 (j)π (Y ) j, (2.7.6) f 2 ( j)π (Z) j (2.7.7) jeweils mit Wahrscheinlichkeit 1, wobei wir bei der letzten Konvergenz annehmen, dass die rechte Seite endlich ist (ansonsten würden bei nichtnegativem f 2 die durchschnittlichen Kosten gegen unendlich konvergieren). Genaugenommen gelten die Grenzwertaussagen zunächst nur unter der Voraussetzung, dass man in den positiv rekurrenten Klassen von (Y n ) n und (Z n ) n startet. Man kann aber leicht einsehen, dass diese Zusatzvoraussetzung nicht nötig ist. Somit haben wir gezeigt, dass die durchschnittlichen Kosten pro Tag für n einen deterministischen Grenzwert haben. Dieser lässt sich durch zwei invariante Verteilungen ausdrücken, die sich wiederum als Lösung von zwei linearen Gleichungssystemen berechnen lassen. Dieser Grenzwert der Kosten hängt noch (auf im allgemeinen komplizierte Weise) von s und S ab. In vielen Fällen ist es interessant, diese Funktion bezüglich s und S zu minimieren. Wir gehen auf dieses Problem nicht näher ein.

42 38 Stochastische Modelle In vielen Fällen dürfte die (auf einem Rechner in der Regel schnelle) Auswertung der Grenzfunktion an z. B. 100 Wertepaaren (s, S) bereits einen guten Überblick über vernünftige Wahlen von s und S liefern. Beispiel (M/G/1-Warteschlange). Sei X(t) die Anzahl der Kunden im System zur Zeit t 0 bei einer M/G/1-Warteschlange. Der stochastische Prozess (X(t)) t 0 hat in der Regel nicht die Markoveigenschaft (nur dann, wenn auch die Bedienungszeiten exponentialverteilt und damit gedächtnislos sind). Wenn aber τ 1 < τ 2 <... die (zufälligen) Zeitpunkte sind, an denen die Bedienungszeit eines Kunden endet, dann definiert Y n := X(τ n +), n N, eine Markovkette (Y n ) n, da die Zwischenankunftszeiten gedächtnislos sind. Dabei definieren wir X(τ n +) = lim s τn X(s). Man bezeichnet (Y n ) n als eine in (X(t)) t 0 eingebettete Markovkette. Sei G die Verteilungsfunktion der Bedienungszeit. Wir nehmen an, dass G(0) = 0 ist und der Erwartungswert ν der Bedienungszeit endlich ist. Den Parameter der (exponentialverteilten) Zwischenankunftszeiten nennen wir λ. Der Zustandsraum von (Y n ) n ist offenbar N 0. Wir berechnen zunächst die Übergangsmatrix P von (Y n ) n. Danach beschäftigen wir uns mit der Frage, ob die Markovkette positiv rekurrent ist. Diese Eigenschaft ist sicher wünschenswert, da nach Satz ansonsten die Warteschlange explodiert in dem Sinn, dass z. B. lim n P(Y n ) = 0 gilt. Wir bestimmen nun p ij für i, j N 0. Sei Y 0 die Zahl der Kunden, die am Ende einer Bedienungszeit noch im System sind. Den nächsten Kunden, der bedient wird, bezeichnen wir mit der Nummer 1 usw. Sei zunächst i 1 und K die Zahl der Kunden, die während der Bedienungszeit B des ersten Kunden eintreffen. Dann gilt p ij = P(Y 1 = j Y 0 = i) = P(K = j i + 1 Y 0 = i) { = 0 P i (K = j i + 1 B = x)dg(x), falls j i + 1 0, 0 sonst. (2.7.8) Wir berechnen nun den Integranden: Im Fall j i gilt P i (K = j i + 1 B = x) = P i (K j i + 1 B = x) P i (K j i + 2 B = x). (2.7.9) Die Wahrscheinlichkeit, dass innerhalb der Zeit x mindestens k Kunden eintreffen, ist gleich der Wahrscheinlichkeit, dass die Summe von k unabhängigen Exp(λ)-verteilten Zufallsvariablen einen Wert kleiner oder gleich x annimmt. Diese ist gegeben durch P(K k B = x) = x 0 λ k y k 1 (k 1)! e λy dy, k N. (2.7.10) Setzt man dies mit k = j i + 1 bzw. k = j i + 2 in (2.7.9) ein, so ergibt sich P(K = j i + 1 B = x) = x 0 λ j i+1 y j i e λy dy (j i)! x 0 λ j i+2 y j i+1 (j i + 1)! e λy dy. (2.7.11) Indem man das erste Integral partiell integriert, sieht man, dass die rechte Seite von (2.7.11) gleich (λx) j i+1 e λx /(j i + 1)! ist. Die Zahl der im Zeitraum x ankommenden Kunden ist daher Poisson-verteilt mit Parameter λx. Somit gilt für i 1 und j i + 1 0: p ij = 0 (λx) j i+1 (j i + 1)! e λx dg(x). (2.7.12)

43 Version Februar Weiter gilt (wie man leicht einsieht) p 0j = P(K = j) = p 1j. Mit der Abkürzung folgt c r = P(K = r) = P = (p ij ) i,j N0 = 0 (λx) r e λx dg(x), r N 0, (2.7.13) r! c 0 c 1 c 2 c 3 c 4... c 0 c 1 c 2 c 3 c c 0 c 1 c 2 c c 0 c 1 c c 0 c (2.7.14) Offenbar sind alle c r positiv. Daher ist die Markovkette irreduzibel und aperiodisch. Für die positive Rekurrenz der Markovkette ist nach Satz notwendig und hinreichend, dass eine invariante Verteilung existiert (die dann nach Satz automatisch eindeutig ist). Zur Abkürzung definieren wir c i = c j = P(K i + 1), i N 0. (2.7.15) Dann gilt und EK = ic i = i=0 i=0 i 0 j=i+1 c i = i=0 (λx) i e λx dg(x) = i! 0 λx dg(x) = λν =: ρ. (2.7.16) P(K i + 1) = EK = ρ. (2.7.17) i=0 Alternativ kann man EK auch durch die Formel d EK = lim z 1 dzĉ(z) mit ĉ(z) = c i z i (2.7.18) (vgl. WT I) berechnen. Die Zahl ρ heißt Verkehrsdichte der Warteschlange. Wegen ν < ist sie endlich. Große Werte von ρ entstehen durch große λ, d. h. durch kurze mittlere Kundenabstände 1/λ oder durch langsame Bedienung (große ν). Es ist daher zu erwarten, dass große ρ zu langen Warteschlangen führen. Wir werden gleich sehen, dass der Wert ρ = 1 kritisch ist in dem Sinne, dass für kleinere Werte die Markovkette positiv rekurrent ist und für größere nicht. Dies ist nicht verwunderlich, denn ρ = 1 bedeutet gerade, dass die erwartete Bedienungszeit ν gleich der erwarteten Zwischenankunftszeit λ 1 ist. Um dies alles zu zeigen, lösen wir das lineare Gleichungssystem π = πp. Schreibt man die einzelnen Gleichungen untereinander und addiert die ersten k für alle k N, dann erhält man das äquivalente Gleichungssystem i=0 π 1 c 0 = π 0 c 0 π 2 c 0 = π 0 c 1 + π 1 c 1 (2.7.19) π 3 c 0 = π 0 c 2 + π 1 c 2 + π 2 c 1..

44 40 Stochastische Modelle Wenn nun i=0 π i = 1 ist, dann kann man alle Gleichungen addieren und erhält (1 π 0 )c 0 = π 0 ρ + π i c j = π 0 ρ + (1 π 0 )(ρ c 0 ). (2.7.20) i=1 j=1 Auflösen nach π 0 ergibt π 0 = c 0 ρ + c 0 = 1 ρ. Durch sukzessives Einsetzen in (2.7.19) erhält man rekursiv alle π i für i N. Offenbar muss ρ < 1 sein, damit eine invariante Verteilung existiert, denn sonst wäre π 0 0. Also ist die Markovkette im Fall ρ 1 nicht positiv rekurrent. Sei umgekehrt 0 < ρ < 1. Setzt man π 0 = 1 ρ und berechnet die π i aus (2.7.19) rekursiv, dann sind offenbar alle π i positiv. Da (2.7.19) äquivalent zu π = πp ist, bleibt nur zu zeigen, dass i=0 π i = 1 ist. Setzt man s k = k i=1 π i und addiert die ersten k Gleichungen von (2.7.19), dann erhält man k 1 k 1 k i s k c 0 = (1 ρ) c j + π i Hieraus folgt j=0 i=1 (1 ρ)ρ + s k 1 (ρ c 0 ) j=1 c j = (1 ρ)ρ + s k 1 (c 0 (1 ρ)). (2.7.21) 0 < π k = s k s k 1 1 ρ (ρ s k 1 ), (2.7.22) c 0 woraus s k 1 ρ für alle k und somit die Endlichkeit von i=0 π i folgt. Falls i=0 π i 1 ist, normiert man die π i so, dass die Summe 1 ist, und sieht wie vorher, dass das normierte π 0 gleich 1 ρ ist. D. h. es gilt i=0 π i = 1 (man musste also gar nicht normieren!). Dies zeigt, dass die Markovkette im Fall ρ < 1 positiv rekurrent ist. Wir werden nun noch eine Formel für die erzeugende Funktion von π im Fall ρ < 1 herleiten und damit den Erwartungswert der Verteilung π berechnen. Seien π(z) = π i z i, ĉ(z) = c i z i, für z C. (2.7.23) i=0 Beide Reihen konvergieren für alle z < 1 absolut. Multipliziert man die i-te Gleichung von π = πp mit z i und summiert über i N 0, so erhält man für 0 < z < 1 die Beziehung i=0 π(z) = ĉ(z)(π 0 + π 1 + π 2 z + π 3 z ) = ĉ(z) z (π 0z π 0 + π(z)). (2.7.24) Löst man die Gleichung nach π(z) auf, dann erhält man π(z) = ĉ(z)π 0(z 1) z ĉ(z) = (1 ρ)(z 1)ĉ(z). (2.7.25) z ĉ(z) Diese Gleichung gilt für alle z C mit 0 z < 1, denn aus ρ < 1 folgt z ĉ(z) für 0 < z < 1 aus (2.7.24) und für z = 0 folgt die Gleichung, da beide Seiten stetig in z = 0 sind. Die Formel in (2.7.25) ist als Pollaczek-Khintchin-Formel bekannt. Aus ihr lassen sich durch mehrfache Differentiation nach z und Auswerten für z = 0 die π i (etwas mühsam) berechnen. Einfacher ist die Berechnung des Erwartungswertes L von π (die mittlere Warteschlangenlänge am Ende einer Bedienungszeit): L = i=0 d iπ i = lim z 1 dz i=0 π i z i d = lim π(z). (2.7.26) z 1 dz

45 Version Februar Nun ist für 0 < z < 1 d dz π(z) = (1 ρ)(z ĉ(z))(ĉ(z) + (z 1)ĉ (z)) (z 1)ĉ(z)(1 ĉ (z)) (z ĉ(z)) 2, (2.7.27) wobei ĉ d (z) als dzĉ(z) zu verstehen ist. Nun konvergieren Zähler und Nenner für z 1 gegen Null. Wendet man zweimal die Regel von De l Hôpital an, so erhält man ( d L = lim z 1 dz π(z) = ρ + ĉ (1) 2(1 ρ) = ρ + ρ2 σ 2 /ν ), (2.7.28) 2(1 ρ) wobei σ 2 = die Varianz der Bedienungszeit ist, denn also ĉ (z) = c i i(i 1)z i = i=2 i=2 0 0 i(i 1) (λxz)i i! t 2 dg(t) ν 2 (2.7.29) e λx dg(x) = z 2 (λx) 2 e λx e λxz dg(x) 0 (2.7.30) ĉ (1) = λ 2 x 2 dg(x) = λ 2 EB 2 = λ 2 (ν 2 + σ 2 ). (2.7.31) 0 Im Fall σ 2 = (aber ν < und ρ < 1) existiert zwar eine invariante Verteilung π, ihr Erwartungswert ist aber unendlich. Bemerkung Mit denselben Methoden kann man auch die mittlere Wartezeit eines Kunden berechnen. Es erscheint plausibel (und ist richtig), dass die mittlere Zeit W, die ein Kunde (wartend oder bedient werdend) im System verbringt, gleich L/λ ist, denn wenn Kunden im durchschnittlichen Abstand 1/λ eintreffen und die Durchschnittszeit L/λ bleiben, dann sind im Mittel gerade L Kunden im System. Für weitere Diskussionen hierzu verweisen wir auf die Literatur, z. B. [HS82, S. 251] oder [KT81, S. 502 ff]. Beispiel (Verzweigungsprozesse). Wir nehmen an, dass zur Zeit n = 0 ein Individuum existiert, das mit Wahrscheinlichkeiten p k genau k N 0 Nachkommen produziert. Jeder der Nachkommen produziert wieder unabhängig voneinander Nachkommen mit derselben Verteilung usw. Anwendungsbeispiele sind Zellteilungsvorgänge, die Ausbreitung von Familiennamen usw. Sei S n die Zahl der Individuen in der n-ten Generation. Offenbar ist (S n ) n N0 eine Markovkette mit Zustandsraum N 0 und Startwert 1. Ein solcher Prozess heißt Galton-Watson-Prozess. Wir interessieren uns zunächst für die Wahrscheinlichkeit, dass die Population irgendwann ausstirbt. Wir setzen für n N 0 d n := P(S n = 0) und Ĝ n (z) := z k P(S n = k) = Ez Sn. (2.7.32) Wir nummerieren die Individuen der ersten Generation mit i = 1 bis S 1 durch und bezeichnen die Zahl der Nachkommen des i-ten Individuums der ersten Generation in der n-ten Generation mit S (i) n 1. Das Baugesetz des Verzweigungsprozesses kann mit der Formel i=1 k=0 S 1 S n = S (i) n 1 (2.7.33)

46 42 Stochastische Modelle beschrieben werden. Im Folgenden schreiben wir kurz G statt Ĝ1. Nun folgt (vgl. WT I) Ĝ n (z) = Ez Sn = Ez P S 1 i=1 S(i) = = ( k E k=0 i=1 z S(i) n 1 ( Ez S n 1 ) kpk k=0 = G ( Ĝ n 1 (z) ), n 1 = S 1 = k k=0 ) p k E (z P k i=1 S(i) n 1 ) S 1 = k p k (2.7.34) wobei beim fünften Gleichheitszeichen die Unabhängigkeit der Nachkommensanzahlen verschiedener Individuen verwendet wurde. Nun ist d n = Ĝn(0) = G ( Ĝ n 1 (0) ) = G(d n 1 ), n N, und d 0 = 0. (2.7.35) Mit anderen Worten, die Folge (d n ) n entsteht durch Iteration der Funktion G mit Startwert Null. Im Fall p 0 = 0 folgt d n = 0 für alle n N 0, d. h., die Population kann nicht aussterben. Im Fall p 0 = 1 gilt dagegen d n = 1 für alle n N. Betrachten wir nun den interessanten Fall 0 < p 0 < 1. Offenbar ist die Folge (d n ) n N monoton nicht fallend und durch 1 beschränkt. Der Grenzwert d ist die Wahrscheinlichkeit, dass die Population irgendwann ausstirbt. Da G stetig auf [0, 1] ist, folgt d = G(d), d. h. d ist ein Fixpunkt von G. Nun ist die Funktion G = Ĝ1 offensichtlich konvex im Fall p 0 + p 1 < 1 sogar strikt konvex und monoton nichtfallend auf [0, 1], und es gelten 0 < p 0 = G(0) und G(1) = 1. Daher hat G außer dem Wert 1 höchstens einen weiteren Fixpunkt in [0, 1]. Dies ist genau dann der Fall, wenn ν = G (1) > 1 ist (eventuell auch ), d.h., wenn die erwartete Zahl n von Nachkommen größer als 1 ist. Abbildung 2.7.1: Erzeugende Funktion der Nachkommenverteilung Ist also ν 1, dann folgt d = 1, d. h. die Population stirbt mit Sicherheit irgendwann aus. Im Fall ν > 1 bleibt zu untersuchen, ob d = 1 ist oder ob d die eindeutige Lösung von G(x) = x

47 Version Februar mit x < 1 ist. Wir zeigen, dass Letzteres der Fall ist. Aus dem linken Bild erkennt man dies leicht: Offenbar gilt d n < 1 für alle n N (Induktion). Wenn lim n d n = 1 wäre, dann gäbe es ein n mit x < d n < 1 für alle genügend großen n und somit d n+1 = G(d n ) < d n, was falsch ist. Also muss die Folge (d n ) n gegen die Lösung x [0, 1) von G(x) = x mit konvergieren. Damit haben wir den folgenden Satz gezeigt. Satz Sei ν = j=0 jp j [0, ] die erwartete Anzahl von Nachkommen. Wenn 0 < p 0 1 und ν 1, dann gilt d = 1. Wenn 0 < p 0 1 und ν > 1, dann ist d die eindeutige Lösung x (0, 1) von G(x) = x. Wenn p 0 = 0, dann ist d = 0. Es ist interessant, die Verteilung der Größe C der gesamten Nachkommenschaft zu bestimmen. Sei C n := 1+S 1 + +S n für n N 0 die Zahl aller Individuen bis zur n-ten Generation und C (i) n 1 die Größe der gesamten Nachkommenschaft des i-ten Individuums der ersten Generation (es selbst eingeschlossen) bis zur n-ten Generation. Weiter sei Ĥ n (z) = z k P(C n = k) (2.7.36) k=0 die erzeugende Funktion von C n. Dann gilt für 0 z < 1 Ĥ n (z) = Ez Cn = Ez 1+P S 1 i=1 C(i) = z n 1 = k=0 p k (Ĥn 1 (z) ) k = zg (Ĥn 1 (z) ). k=0 Es gilt für 0 z < 1 und n N 0 E (z 1+P k i=1 C(i) n 1 ) S 1 = k p k (2.7.37) Ĥ n+1 (z) = Ez C n+1 Ez Cn = Ĥn(z) (2.7.38) Da für 0 z < 1 die Folge (Ĥn(z)) n fallend und durch Null nach unten beschränkt ist, besitzt sie einen Grenzwert Ĥ(z). Aus der Stetigkeit von G folgt Ĥ(z) = zg(ĥ(z)). (2.7.39) Diese Fixpunktgleichung hat für alle 0 z < 1 eine eindeutige Lösung in [0, 1] (auch z.b. im Fall p 1 = 1). Wir zeigen, dass (wie zu erwarten) Ĥ(z) = P(C = k)z k (2.7.40) k=0 gilt, wenn C = lim n C n ist. (Dieser Grenzwert existiert wegen der Monotonie der Folge (C k ) k, ist aber eventuell.) Es gilt für k N 0, (aber nicht unbedingt für k =!) lim P(C n = k) = P(C = k) (2.7.41) n (man zeige dies!). Aus dem Konvergenzsatz für erzeugende Funktionen (WT I) folgt (2.7.40). Wir können Ĥ(z) durch (2.7.40) auch für z = 1 definieren. Dann ist Ĥ(1) = P(C < ) = d. Man beachte, dass im Fall d < 1 zwar lim n Ĥ n (1) = 1 existiert, aber ungleich Ĥ(1) ist. Wir fassen noch einmal zusammen:

48 44 Stochastische Modelle Satz Ĥ(z) ist für 0 z < 1 die eindeutige Lösung von x = zg(x). Weiter gilt d = Ĥ(1) = P(C < ). Korollar Wenn ν 1, dann gilt wobei die rechte Seite im Fall ν = 1 als zu lesen ist. EC = 1 1 ν, (2.7.42) Beweis. Im Fall p 0 = 0 ist C und ν = 1 und damit die Behauptung klar. Sei also p 0 > 0. Dann folgt P(C < ) = 1, und für 0 z < 1 gilt Auflösen nach d H b dz (z) liefert dĥ dz (z) = d ( zg( Ĥ(z)) ) = dz G(Ĥ(z)) + zg (Ĥ(z))dĤ (z). (2.7.43) dz EC = lim dz z 1 dĥ (z) = lim z 1 G(Ĥ(z)) 1 zg (Ĥ(z)) = 1 1 ν. (2.7.44) Bemerkung Alternativ kann man Korollar wie folgt zeigen: differenziert man die linke und rechte Seite von Gleichung (2.7.34) nach z und bildet beidseitig den Grenzwert z 1, so folgt ES n = νes n 1 und wegen ES 0 = 1 per vollständiger Induktion ES n = ν n für alle n N 0. Im Fall ν 1 folgt also EC = ES n = n=0 n=0 ν n = 1 1 ν (2.7.45) Beispiel (M/G/1- Warteschlange als Verzweigungsprozess). Wenn ein Kunde bei einer M/G/1-Warteschlange das leere System betritt, so wird er als Stammvater eines Verzweigungsprozesses angesehen. Die Nachkommen eines Kunden sind die Kunden, die während seiner Bedienungszeit eintreffen. Die Gedächtnislosigkeit der Zwischenankunftszeiten garantiert, dass die Nachkommenzahlen unabhängig sind. Die erwartete Zahl von Nachkommen ist die Verkehrsdichte ρ. Also stirbt der Prozess für ρ 1 mit Wahrscheinlichkeit 1 aus, für ρ > 1 dagegen mit geringerer Wahrscheinlichkeit. Dies bedeutet, dass die in Satz betrachtete Markovkette (Y n ) n N0 im Fall ρ 1 rekurrent und im Fall ρ > 1 transient ist. Zusammen mit dem Ergebnis aus Satz sehen wir, dass die Markovkette positiv rekurrent bzw. nullrekurrent bzw. transient ist, je nachdem, ob ρ < 1, ρ = 1 oder ρ > 1 ist. Im Fall ρ 1 ist (1 ρ) 1 die erwartete Zahl der in einer Bedienungsperiode (busy period) bedienten Kunden. Bemerkung Mit ähnlichen Methoden kann man auch die Verteilung der Länge der Bedienungsperiode berechnen [HS82, S. 198 ff]. Wir erwähnen noch ein Paradoxon der Warteschlangentheorie.

49 Version Februar Beispiel (Ein Paradoxon). Es seien ρ < 1, L die erwartete Warteschlangenlänge (nachdem ein Kunde bedient wurde), K = (1 ρ) 1 die erwartete Zahl der in einer Bedienungsperiode bedienten Kunden und 0 < σ 2 die Varianz der Bedienungszeit. Dann gilt L <, K <, falls σ 2 <, L =, K <, falls σ 2 =. (2.7.46) Dies scheint im Widerspruch zu der folgenden Überlegung zu stehen: Seien ρ < 1 und σ 2 =. Dann gilt offenbar im Gleichgewicht EY n = L =, aber Y n Anzahl der in der zugehörigen Bedienungsperiode bedienten Kunden. (2.7.47) Bildet man beidseitig Erwartungswerte, so steht aber links L = und rechts K <, was offenbar nicht sein kann. Wo liegt der Fehlschluss? 2.8 Kartenmischen In diesem Abschnitt beschäftigt uns die folgende Frage: gegeben sei ein perfekt geordneter Kartenstapel mit N Spielkarten (nummeriert von 1 bis N). Nun wird das Blatt mit einem noch festzulegenden Verfahren n Mischungsschritten unterworfen. Wie groß muss n im Vergleich zu N gewählt werden, damit das Blatt am Ende gut gemischt ist? Zunächst präzisieren wir, was wir unter gut gemischt verstehen wollen. Vor und nach jedem Mischungsschritt ist die Reihenfolge der Karten durch eine Permutation von N Elementen beschrieben, also einem Element der Permutationsgruppe S N. Da die Mischungsschritte zufällig sind, haben wir also bei spezifiziertem Mischverfahren nach n Schritten eine Wahrscheinlichkeitsverteilung µ n auf S N gegeben. Vor dem ersten Mischungsschritt ist die Verteilung ein Punktmaß auf der Identität e von S N. Perfekt gemischt ist das Blatt dann, wenn µ n die Gleichverteilung π auf S N ist. Da wir kaum darauf hoffen können, dass das Blatt nach einer festen Anzahl von Schritten perfekt gemischt ist, begnügen wir uns damit, dass die Wahrscheinlichkeitsmaße µ n und π nah beieinander liegen. Dazu brauchen wir einen Abstandsbegriff für Wahrscheinlichkeitsmaße auf einer endlichen Menge. Ein geeigneter Abstandsbegriff ist die Totalvariation. Definition Seien µ und ν Wahrscheinlichkeitsmaße auf der endlichen Menge E (ausgestattet mit der Potenzmenge als σ Algebra). Dann heißt Totalvariationsabstand von µ und ν. µ ν := sup µ(a) ν(a) A E Es ist sehr leicht zu sehen, dass 0 µ ν 1 gilt, sowie µ ν = 1 2 j E µ j ν j. Wir betrachten nun wieder einen Kartenstapel mit N Karten und analysieren das Mischverfahren Top to Random. Dabei wird in jedem Mischungsschritt die oberste Karte des Stapels abgehoben und rein zufällig an eine der N möglichen Positionen in das restliche Kartenblatt geschoben (dabei ist auch zugelassen, dass die Karte wieder oben auf den Stapel gelegt wird). Danach wird das Verfahren wiederholt, wobei die gewählten Positionen, in die die abgehobenen Karten gesteckt werden, unabhängig voneinander sind. Die einzelnen Mischungsschritte sind also unabhängige und identisch verteilte Zufallsvariable X i, i = 1, 2,... und Y n := X n... X 1 ist die Kartenreihenfolge nach n Schritten. Dabei ist die Hintereinanderausführung von Elementen

50 46 Stochastische Modelle der Permutationsgruppe S N. Y 1, Y 2,... ist eine Irrfahrt auf der Gruppe S N und daher insbesondere eine Markovkette mit Zustandsraum S N. Diese ist offensichtlich irreduzibel und aperiodisch. Die eindeutige invariante Verteilung ist die Gleichverteilung π auf S N und nach Satz gilt lim n p (n) ej = π j = 1/N! für alle j S N. Hieraus folgt insbesondere lim n µ n π = 0, wobei µ n (j) := p (n) ej, j S N. Damit wollen wir uns aber nicht begnügen, sondern herausfinden, wie n als Funktion von N wachsen muss, damit z.b. µ n π 1/100 gilt. Zunächst stellen wir uns die Frage, ob es eine Stoppzeit T gibt, so dass nach T Mischungsschritten Top to Random das Blatt perfekt gemischt ist, also jede Kartenreihenfolge mit genau derselben Wahrscheinlichkeit eintritt. Sei T der erste Zeitpunkt, zu dem die Karte Nummer N, die zu Beginn ganz unten im Stapel liegt, erstmalig die Position 1 im Stapel erreicht. Man mache sich klar, dass T := T + 1 wirklich eine Stoppzeit ist und überlege sich, dass das Blatt nach T Schritten perfekt gemischt ist. Tatsächlich gilt sogar P e {Y T = j T = k} = 1/N! für alle j S N und alle k N, für die die Bedingung positive Wahrscheinlichkeit hat. Man sagt in diesem Fall, dass T eine stark gleichverteilte Stoppregel ist. Es ist leicht einzusehen, dass man statt T auch die erste Zeit wählen kann, nachdem die Karte Nummer N die Position 2 erreicht hat (statt Position 1). Wir werden nun die Asymptotik sowohl von ET als auch der Varianz von T bestimmen und dann zeigen, dass für (deterministische) n, die deutlich unterhalb von ET liegen, das Blatt nach n Schritten schlecht gemischt ist, während es für n, die deutlich oberhalb von ET liegen, sehr gut gemischt ist. In der Vorlesung zeigen wir, dass ET = N ( N ) = N log N + γn + o(n) gilt, wobei γ (laut Wikipedia) die Euler-Mascheroni Konstante ist, und var(t) = N 2 N j=1 1 N j 2 N 1 j cn2, wobei c := j=1 j=1 1 j 2 = π2 6. Nun wollen wir zeigen, dass für jedes vorgegebene ε > 0, das Blatt nach n (1 ε)n log N Schritten für große N sehr schlecht gemischt ist, für n (1 ε)n log N dagegen sehr gut (wobei n deterministisch ist). Die erste Aussage ist ziemlich offensichtlich, da nach (1 ε)n log N Schritten mit sehr großer Wahrscheinlichkeit zum Beispiel die Karte Nummer N 10 noch nicht die Spitze des Stapels erreicht hat und daher die letzten 10 Karten des Stapels immer noch in der ursprünglichen Reihenfolge sind, was zur Folge hat, dass der Totalvariationsabstand µ n π noch fast 1 und damit das Blatt sehr schlecht gemischt ist. Umgekehrt gilt mit der Tschebychevungleichung P{T (1 + ε)n log N} = P{T ET (1 + ε)n log N ET } = P{T ET εn log N + O(N)} vart (εn log N + O(N)) 2 c ε 2 (log N) 2 0.

51 Version Februar Es ist also für große N sehr wahrscheinlich, dass die Stoppzeit T nach (1 + ε)n Mischschritten bereits eingetreten ist und daher sollte das Blatt zur Zeit n sehr gut gemischt sein. Wir wollen nun zuerst P{T > m} noch genauer nach oben abschätzen und dann eine präzise obere Abschätzung für den Totalvariationsabstand µ k π herleiten. Dafür ist es nützlich, das zum Mischverfahren Top to Random analoge Gutscheinsammelproblem oder Coupon Collector s Problem zu betrachten: in jeder Schokoladenpackung befindet sich eines von N verschiedenen Bildern und zwar jedes mit derselben Wahrscheinlichkeit. Wieviele Schokoladenpackungen muss man kaufen, bis man von jedem Bild mindestens ein Exemplar besitzt? Ist S diese Anzahl, so überzeugt man sich sofort davon, dass S dieselbe Verteilung wie T hat. Sei nun N N, β 0, m := N log N +βn und A i das Ereignis, dass sich das Bild Nummer i nicht in einer der ersten m Schokoladenpackungen befindet, so gilt P{T > m} = P{S > m} = P ( N i=1 A i ) N ( 1 1 N ) m Ne (log N+β) = e β. (2.8.1) Um rigoros zeigen zu können, dass das Blatt nach n (1+ε)N log N Schritten sehr gut gemischt ist, brauchen wir folgendes Lemma: Lemma Sei Y k, k 0 wie oben definiert (mit Startwert Y 0 = e) und S eine stark gleichverteilte Stoppregel, d.h. S ist eine Stoppzeit mit P{Y k A S = j} = π(a) für alle 0 j k und A S N sofern die Bedingung strikt positive Wahrscheinlichkeit hat, wobei π die Gleichverteilung auf S N ist. Weiter sei wie oben µ k die Verteilung von Y k. Dann gilt µ k π P{S > k}. Beweis. Sei A S N. Dann gilt µ k (A) = P{Y k A} = k P{Y k A, S = j} + P{Y k A, S > k} j=0 = π(a) k P{S = j} + P{Y k A, S > k} j=0 = π(a) + P{S > k} ( P{Y k A S > k} π(a) ) π(a) + P{S > k}. Da A S N beliebig war, folgt die Behauptung. Wendet man das Lemma auf die stark gleichverteilte Stoppregel T an, so folgt unter Verwendung von Gleichung (2.8.1) die folgende Aussage. Korollar Für β > 0 und k := N log N + βn gilt µ k π e β. Das Korollar besagt, dass das Blatt schon nach N log N + 10N Mischschritten sehr gut gemischt ist. Nachdem wir das einfache aber kaum praxisrelevante Mischverfahren Top to Random mathematisch analysiert haben, stellt sich die Frage, ob dies auch für realitätsnähere Mischverfahren möglich ist. Ein solches Verfahren ist Riffle Shuffle, bei dem der Kartenstapel zufällig in zwei

52 48 Stochastische Modelle Teile aufgespaltet wird (das heißt abgehoben wird) und dann der eine Teil zufällig in den anderen geschoben wird. Wir werden dieses Verfahren in der Vorlesung näher kennenlernen und analysieren. Es wird sich dabei zeigen, dass die erforderliche Anzahl von Mischungsschritten von der Ordnung log N (statt N log N bei Top to Random) ist. Eine gut lesbare Literaturquelle zu diesen Mischverfahren findet sich in der Monographie von Aigner und Ziegler, [Ai04], Seite 177ff. 2.9 Mischzeiten Wir abstrahieren nun von der speziellen Situation im letzten Abschnitt und wollen allgemeiner für eine irreduzible und aperiodische Markovkette mit endlichem Zustandsraum E die Konvergenzgeschwindigkeit der Übergangswahrscheinlichkeiten gegen die invariante Verteilung π untersuchen. Eine gute Literaturquelle für diesen Abschnitt ist die Monographie von Levin, Peres und Wilmer [Le09]. Zunächst definieren wir, was wir unter einem Coupling verstehen wollen. Definition Seien µ und ν Wahrscheinlichkeitsmaße auf E (immer mit der Potenzmenge als σ Algebra). Ein Wahrscheinlichkeitsmaß ξ auf E E heißt Coupling von µ und ν, wenn µ bzw. ν das Bildmaß von ξ unter der Projektionsabbildung von E E auf die erste bzw. zweite Komponente ist, d.h. µ i = ξ{(i, j) : j E} für i E und analog für ν. Gelegentlich nennt man auch ein Paar von E wertigen Zufallsgrößen (X, Y ) ein Coupling von µ und ν, wenn die gemeinsame Verteilung ξ von (X, Y ) ein Coupling von µ und ν ist. Ein wichtiges Resultat ist das folgende: Proposition Seien µ und ν Wahrscheinlichkeitsmaße auf der endlichen Menge E und := {(i, i) : i E} die Diagonale in E E. Dann gilt µ ν = inf{ξ( c )}, wobei das Infimum über alle Couplings ξ von µ und ν gebildet wird. Weiterhin existiert ein Coupling ξ, für welches das Infimum angenommen wird. Dieses heißt optimales Coupling. Beweis. Sei ξ ein Coupling von µ und ν und (X, Y ) ein Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Verteilung ξ. Dann gilt für die Menge A E: µ(a) ν(a) = P{X A} P{Y A} P{X A, Y / A} P{X Y } = ξ( c ) und daher folgt µ ν inf{ξ( c )}. Es bleibt zu zeigen, dass ein Coupling ξ existiert, so dass µ ν = ξ( c ) gilt. Die Konstruktion dieses Couplings findet man in Kapitel 4 der Monographie [Le09]. Sei nun bis zum Ende dieses Abschnitts P eine irreduzible stochastische Matrix auf dem endlichen Raum E mit (eindeutiger) invarianter Verteilung π und sei P n x die Verteilung der zugehörigen Markovkette nach n Schritten bei Start in x. Wir definieren Definition Die Größen d(n) := max x E P n x π, d(n) := max x,y E P n x P n y. heißen Mischzeiten der Kette. t mix (ε) := min{n N 0 : d(n) ε}, ε > 0 und t mix := t mix (1/4)

53 Version Februar Der spezielle Wert 1/4 ist etwas willkürlich aber für einige Anwendungen bequem. Wir benötigen folgendes einfache Resultat. Proposition d(n) d(n) 2d(n). Beweis. Die zweite Ungleichung folgt aus der Dreiecksungleichung für die Totalvariation. Wir zeigen nun die erste Ungleichung: woraus sofort die Behauptung folgt. Px n π = max P x n (A) π(a) A E = max ( π y P n x (A) Py n (A) ) A E y E max π y Px n (A) Py n (A) A E y E y E π y max A E P n x (A) P n y (A) = y E π y P n x P n y max y E P n x P n y, Wir wollen nun Proposition auf Markovketten anwenden. Dazu seien (X n ) und (Y n ) Markovketten mit derselben Übergangsmatrix P auf demselben Wahrscheinlichkeitsraum. Die gemeinsame Verteilung (auf E N E N ) der Ketten ist also ein Coupling der Markovketten mit (im allgemeinen) verschiedenen Startwerten. Wir nehmen an, dass dabei aus X n = Y n folgt, dass auch X k = Y k für alle k n gilt. Theorem Sei (X n, Y n ) ein Coupling mit X 0 = x und Y 0 = y und dann folgt τ c := inf{n : X n = Y n }, P n x P n y P x,y {τ c > n} und d(n) max x,y E P x,y{τ c > n}. Beweis. Die erste Aussage folgt aus 2.9.2, die zweite aus der ersten zusammen mit Proposition In der Vorlesung werden wir mehrere Beispiele kennenlernen, für die wir die Asymptotik der Mischzeiten abschätzen, unter anderen die Irrfahrt auf einem Zykel Reversible Markovketten Eine gute Referenz für diesen Abschnitt ist die Monographie von Olle Häggström [Ha02] (außer dem Abschnitt über die Spektrallücke, den man besser in [Le09] findet). Eine wichtige Klasse von Markovketten sind die reversiblen Markovketten. Definition Sei P : E E [0, 1] eine stochastische Matrix. π [0, ) E heißt reversibles Maß von P, falls π i p ij = π j p ji für alle i, j E gilt. Man sagt dann, dass (P, π) eine reversible Markovkette ist.

54 50 Stochastische Modelle Ein reversibles Maß π ist immer ein invariantes Maß, denn für j E gilt i E π i p ij = i E π j p ji = π j p ji = π j. Umgekehrt ist aber keineswegs jedes invariante Maß reversibel (Beispiel in Vorlesung). Wir zeigen zuerst eine Anwendung reversibler Markovketten auf Irrfahrten auf Graphen. Sei (V, E) ein zusammenhängender ungerichteter endlicher Graph ohne Mehrfachkanten und ohne Schleifen. Mit d i bezeichnen wir den Grad von i V, d.h. die Zahl der mit i inzidenten Kanten. Wir definieren eine Übergangsmatrix auf V durch { 1/d i falls (i, j) E, p ij = 0 sonst. Die durch P beschriebene Markovkette heißt (symmetrische) Irrfahrt auf (V, E). Wir zeigen, dass π j := d j, j V ein reversibles Maß für P ist. Im Fall (i, j) / E gilt π i p ij = 0 = π j p ji, 1 1 während im Fall (i, j) E gilt: π i p ij = d i d i = 1 = d j d j = π j p ji. Also ist π ein reversibles Maß von P. Weiterhin ist π i := d i ( j d j) 1 das eindeutige invariante Wahrscheinlichkeitsmaß von P (die Eindeutigkeit folgt aus der Irreduziblität und diese aus der Annahme, dass der Graph zusammenhängend ist). Spektrallücke und Relaxationszeit Zunächst sei P die Übergangsmatrix einer Markovkette mit endlichem Zustandsraum E und n := E. Lemma (i) λ = 1 ist ein Eigenwert von P. (ii) Für jeden (reellen oder komplexen) Eigenwert λ von P gilt λ 1. (iii) Ist P irreduzibel, dann hat der Eigenwert λ = 1 algebraische Vielfachheit 1. (iv) Ist P irreduzibel und aperiodisch, dann ist λ = 1 der einzige Eigenwert mit λ = 1. Beweis. (i) f = (1,...,1) T ist ein Eigenvektor zum Eigenwert 1, da P stochastisch ist. (ii) Sei Pf = λf für ein f C n \{0} und sei i {1,..., n} so gewählt, dass f i 0. Dann folgt für jedes N N zunächst P N f = λ N f und daraus i E λ N f i = (Pf) i max 1 j n f j, woraus (man betrachte N ) λ 1 folgt. (iii) Übungsaufgabe (Tipp: Jordanzerlegung von P).

55 Version Februar (iv) Sei λ ein Eigenwert von P mit λ = 1 und f C n \{0} ein zugehöriger Eigenvektor. Nach dem Hauptsatz folgt λ N f = P N f Πf, für eine gewisse Matrix Π, also muss auch die linke Seite für N konvergieren, was aber nur im Fall λ = 1 möglich ist. Wir nehmen nun (bis zum Ende des Beweises von Theorem ) an, dass (P, π) eine irreduzible reversible Markovkette mit endlichem Zustandsraum E mit E = n ist und dabei π sogar ein Wahrscheinlichkeitsmaß ist. Dann definiert f, g π := i E f i g i π i ein Skalarprodukt auf R E (man beachte, dass π i > 0 für alle i E gilt!). Wir definieren die Matrix A = (a ij ) durch a ij := π 1/2 i π 1/2 j p ij. Dann ist A eine (reelle) symmetrische Matrix, zu der daher eine Orthonormalbasis ϕ j, j = 1,..., n aus reellen Eigenvektoren mit zugehörigen reellen Eigenwerten λ j existiert. Offenbar ist ϕ := π (komponentenweise) ein Eigenvektor von A zum Eigenwert 1 und wir nehmen ohne Einschränkung an, dass ϕ 1 = ϕ gilt. Sei nun D π die Diagonalmatrix, bei der an der Stelle i, i der Wert π i steht. Dann gilt wie man leicht sieht A = Dπ 1/2 P Dπ 1/2 und f j := Dπ 1/2 ϕ j, j = 1,..., n bilden eine Orthonormalbasis von P mit den Eigenwerten λ j, j = 1,..., n bezüglich des Skalarprodukts.,. π. Man beachte, dass f 1 = (1,...,1) T gilt. Wir nehmen ohne Einschränkung an, dass die Eigenwerte absteigend der Größe nach geordnet sind, also 1 = λ 1 > λ 2... λ n 1 gilt. Definition Sei λ := max{ λ 2, λ n }. Dann heißt die Zahl γ := 1 λ absolute Spektrallücke und γ := 1 λ 2 Spektrallücke von P. Weiter heißt Relaxationszeit der Kette (oder von P). t rel := 1 γ Man beachte, dass t rel = gilt genau dann wenn die Kette periodisch ist genau dann wenn die Kette Periode 2 hat genau dann wenn λ n = 1 ist. Wir formulieren nun Abschätzungen zwischen der Relaxationszeit und der Mischzeit einer reversiblen Markovkette. Die Beweise beider Aussagen finden sich in der Monographie [Le09]. Theorem Sei π min := min i E π i. Dann gilt für alle ε > 0 Theorem Für alle ε > 0 gilt ( 1 ) t mix (ε) log t rel. επ min ( 1 t mix (ε) (t rel 1)log. 2ε)

56 52 Stochastische Modelle Wir betrachten nun die Anwendung reversibler Markovketten auf das Hardcore Modell. Das Hardcore Modell Sei G = (V, E) ein ungerichteter Graph ohne Schleifen mit V = k <. Ein Element von {0, 1} V heißt Konfiguration. Ein Element ξ {0, 1} V heißt zulässige (Hardcore)konfiguration, wenn aus ξ i = 1 folgt, dass ξ j = 0 gilt für alle Nachbarn j von i, d.h. für alle j mit (i, j) E. Wir interpretieren dies wie folgt: ξ i = 1 bedeutet, dass an dem Knoten i ein Teilchen sitzt und ξ i = 0 bedeutet, dass sich an dem Knoten i kein Teilchen befindet. Die Konfiguration ξ ist also zulässig genau dann wenn keine zwei benachbarten Positionen von Teilchen belegt sind. Eine interessante Aufgabe ist die, bei gegebenem G = (V, E) zufällig eine zulässige Konfiguration zu simulieren. Selbst für moderat große Graphen erweist sich dies als keineswegs trivial, da man nicht einmal mit vernünftigem Aufwand berechnen kann, wieviele zulässige Konfigurationen es überhaupt gibt. Sei π die Gleichverteilung auf der (endlichen) Menge M aller zulässigen Konfigurationen. Eine Idee ist die, zu dem Graphen eine irreduzible und aperiodische Markovkette X zu basteln, die als Zustandsraum die Menge aller zulässigen Konfigurationen hat und die als invariante Verteilung π hat. Man kann dann die Kette ausgehend von einer beliebigen zulässigen Konfiguration (zum Beispiel alles Null) sehr lange simulieren und weiß dann, dass die Verteilung gegen π konvergiert. Wenn man Glück hat und wie beim Kartenmischen eine Stoppzeit T findet, so dass die Verteilung von X T genau π ist, dann ist das natürlich noch besser. Wir konstruieren nun eine solche Markovkette. Man beachte, dass wir bei der Konstruktion nicht wissen müssen, wie groß ihr Zustandsraum ist. Konstruktion einer Markovkette mit invarianter Verteilung π 1. Starte mit X 0 0, n = Wähle zufällig ein v V. 3. Wirf eine faire Münze. 4. Wenn die Münze 1 zeigt und alle Nachbarn von v in X n Null sind, dann setze X n+1 (v) = 1, ansonsten setze X n+1 (v) = 0. Setze X n+1 (w) = X n (w) für alle w v. 5. Erhöhe n um Gehe nach 2. Die durch diesen Algorithmus bechriebene Markovkette mit Übergangsmatrix P ist offensichtlich irreduzibel und aperiodisch. Wir zeigen, dass die Gleichverteilung π nicht nur eine invariante, sondern sogar eine reversible Verteilung der Markovkette ist, das heißt, dass π ξ p ξζ = π ζ p ζξ (2.10.1) für alle ξ, ζ M ist. Um dies zu zeigen, definieren wir d := d(ξ, ζ) als die Anzahl der Knoten, an denen sich ξ und ζ unterscheiden. 1. Fall: d = 0: dann ist ξ = ζ und damit (2.10.1) trivialerweise richtig. 2. Fall: d 2: dann ist p ζξ = p ξζ = 0 und damit gilt (2.10.1).

57 Version Februar Fall: d = 1: in diesem Fall unterscheiden sich ξ und ζ an genau einer Position v. Daher sind alle Nachbarn von v Null und es gilt: Damit ist die Behauptung gezeigt. π ξ p ξζ = M k 2 = π ζp ζξ. Unbefriedigend bleibt dabei, dass man nicht weiß, wie lange man simulieren muss, um eine gute Approximation von π zu erhalten. Der Gibbssampler Obiges Verfahren ist ein Spezialfall des Gibbssamplers, den wir jetzt beschreiben. Seien S und V endliche Mengen und π ein Wahrscheinlichkeitsmaß auf S V. Die im folgenden Algorithmus beschriebene Markovkette mit Zustandsraum E := {i S V : π i > 0} nennt man den Gibbssampler für π. 1. Starte in irgendeinem Zustand i E: X 0 = i, n = Wähle zufällig ein v V. 3. Wähle X n+1 (v) gemäß der bedingten Verteilung (bezüglich π) von v gegeben alle anderen Werte von X n. 4. Setze X n+1 (w) = X n (w) für alle w v. 5. Erhöhe n um Gehe nach 2. Man zeigt wieder, dass π ein reversibles Maß für die Kette ist. Wenn diese Markovkette irreduzibel und aperiodisch ist (was nicht immer der Fall ist), dann konvergiert die Verteilung der Kette gegen π Perfekte Simulation: der Propp Wilson Algorithmus In diesem Abschnitt behandeln wir die folgende Frage: Sei π ein Wahrscheinlichkeitsmaß auf der endlichen Menge E := {s 1,..., s k } (mit typischerweise sehr großem k), zum Beispiel die Gleichverteilung auf der Menge aller zulässigen Konfigurationen im Hardcoremodell. Man finde eine perfekte Simulation von π, d.h. man bestimme eine Zufallsvariable Y mit Verteilung π und ein praktikables exaktes Simulationsverfahren für Y. Eine Möglichkeit ist die folgende: man wählt sich zunächst eine E-wertige irreduzible und aperiodische Markovkette mit Übergangsmatrix P, deren invariante Verteilung π ist (das ist immer möglich). Der im folgenden angegebene Propp Wilson Algorithmus (1996) ergibt als Output eine Zufallsvariable Y mit Verteilung π. Zunächst konstruiert man sich eine zulässige Update-Funktion für die Übergangsmatrix P, das heißt eine Abbildung φ : E [0, 1] E mit der Eigenschaft, dass für jede U[0, 1] verteilte Zufallsvariable U gilt: P{φ(i, U) = j} = p ij für alle i, j E.

58 54 Stochastische Modelle Eine solche Funktion existiert immer, ist aber keineswegs eindeutig. Die Funktion φ definiert eine Kopplung zwischen den Übergängen aus verschiedenen Zuständen. Propp Wilson Algorithmus Sei N 0 := 0, N 1, N 2,... eine streng wachsende Folge in N 0 (z.b. 0, 1, 2, 4, 8,...). 1. m := 1 2. Simuliere unabhängige U[0, 1] verteilte Zufallsvariable U Nm,..., U Nm 1 1 und bestimme die (zufällige) Menge M m := φ(u 1,.)... φ(u Nm,.)(E). 3. Wenn M m = {s} einelementig ist, dann setze Y := s und der Algorithmus endet, sonst gehe nach Erhöhe m um 1. Gehe nach 2. Satz Die Wahrscheinlichkeit, dass der Propp Wilson Algorithmus terminiert, ist entweder 0 oder 1. Wenn er terminiert, dann gilt P{Y = i} = π i für alle i E. Beweis. Angenommen, der Algorithmus terminiert mit Wahrscheinlichkeit p > 0, dann existiert ein m 0 N, so dass die Wahrscheinlichkeit, dass er spätestens nach m 0 Schritten terminiert, mindestens p/2 ist. Nun hat man aber für m beliebig viele unabhängige Versuche, so dass die Wahrscheinlichkeit, dass der Algorithmus (nach endlich vielen Schritten) terminiert, 1 ist. Wir nehmen nun an, dass der Algorithmus terminiert. Sei i E und ε > 0. Wir werden zeigen, dass P{Y = i} π i ε. Da der Algorithmus mit Wahrscheinlichkeit 1 terminiert, existiert ein m 0 N, so dass P{ Algor. bricht spätestens bei m = m 0 ab} 1 ε. Nun konstruieren wir uns eine Zufallsvariable Ỹ wie folgt: sei Z unabhängig von allen U k mit Verteilung π und Ỹ := φ(u 1,.)... φ(u Nm0,.)(Z). Da π eine invariante Verteilung der Markovkette ist, ist die Verteilung von Ỹ gerade π. Weiter gilt Ỹ = Y falls der Algorithmus spätestens bei m = m 0 abbricht, also P{Y Ỹ } ε. Es folgt P{Y = i} π i = P{Y = i} P{Ỹ = i} P{Y = i,ỹ i}+p{y i,ỹ = i} P{Y Ỹ } ε. Damit ist die Aussage gezeigt. Es ist sehr wichtig, die folgenden zwei Warnungen zu beherzigen. Warnung Man könnte vermuten, dass man Y auch durch eine Vorwärtsiteration wie folgt generieren kann: Für eine Updatefunktion φ und unabhängige U[0, 1]-verteilte Zufallsgrößen U 1, U 2,... definiert man die Stoppzeit T durch T := inf{n N φ(., U n )... φ(., U 1 )(E) = 1}, d.h. T ist der erste Zeitpunkt, zu dem die Kardinalität des Bildes von E unter Vorwärtsiterationen der Updatefunktion einelementig ist. Wenn T fast sicher endlich ist und wir das eine Element mit Ŷ bezeichnen, dann folgt im allgemeinen NICHT, dass π die Verteilung von Ŷ ist.

59 Version Februar Dazu betrachten wir folgendes Beispiel. E = {1, 2}, P = ( ), (2.11.1) Dann gilt Ŷ = 1 fast sicher, aber π 1 = 2/3! 1 falls i = 2, φ(i, x) = 1 falls i = 1, x < 1/2, 2 falls i = 1, x 1/2. Warnung Es ist wichtig, dass man im zweiten Schritt des Propp Wilson Algorithmus die schon vorher generierten Zufallsgrößen U 0,..., U Nm 1 wieder recyclet und nicht neu generiert (auch wenn das Speicherplatz kostet und eine Neugenerierung billiger wäre). Wir zeigen dafür in der Vorlesung ein Beispiel (man kann das Beispiel in der vorherigen Warnung nehmen mit N m := m für alle m N 0 ). Ein ernsthaftes Problem bei der praktischen Anwendung des Propp Wilson Algorithmus ist der oft enorme Speicherplatzbedarf und Rechenaufwand. Im folgenden interessanten Spezialfall ist dieser allerdings recht gering. Wenn man auf der Menge E eine partielle Ordnung definieren kann, die ein maximales Element M und ein minimales Element M besitzt das heißt für alle i E gilt M i M und die Markovkette so gebaut ist, dass eine zugehörige monotone Updatefunktion existiert, das heißt, dass aus i > j folgt, dass φ(i, u) φ(j, u) für alle u [0, 1] gilt, dann genügt es, im zweiten Schritt des Propp Wilson Algorithmus lediglich zu testen, ob φ(u 1,.)... φ(u Nm,.)(M) = φ(u 1,.)... φ(u Nm,.)(M) gilt, da in diesem Fall wegen der Monotonie der Updatefunktion dann automatisch φ(u 1,.)... φ(u Nm,.)(E) einelementig ist.

60

61 Kapitel 3 Markovketten mit stetiger Zeit 3.1 Einleitung und Beispiele Markovketten mit stetiger Zeit (MKSZ) sind Prozesse mit höchstens abzählbarem Zustandsraum E, die im Gegensatz zu Markovketten mit diskreter Zeit (MKDZ), die wir im vorigen Kapitel ausgiebig studiert haben, mit t [0, ) indiziert sind und die sich ebenfalls der Markoveigenschaft erfreuen (die wir weiter unten formulieren werden). Für die Modellierung zeitkontinuierlicher Systeme sind sie oft praktikabler als die Approximation durch MKDZ. 1 Anwendungen finden sich in vielen Bereichen. Wir betonen wieder die Anwendung auf Warteschlangen unter Einschluss von Netzen von Warteschlangen; siehe Abschnitt 3.5. Zunächst wollen wir anschaulich verstehen, was eine MKSZ ist und durch welche Größen sie charakterisiert ist. Wie im diskreten Fall wollen wir unter einer MKSZ nur den Übergangsmechanismus verstehen. Einen stochastischen Prozess oder genauer: die Verteilung eines solchen erhält man erst, wenn man noch eine Startverteilung auf E festlegt. In diesem Fall soll die Markoveigenschaft gelten, d. h., für jedes n N und jede t 1 t 2 t n t sowie jede i 1, i 2,...,i n, i E gilt P ( X(t) = i ) X(t 1 ) = i 1,...,X(t n ) = i n = P ( X(t) = i ) X(t n ) = i n (3.1.1) = P in (X(t t n ) = i), wobei der Index i n von P bedeutet, dass der Prozess im Zustand i n gestartet wird. Um diese Eigenschaft zu garantieren, müssen die Aufenthaltszeiten in einem Zustand bis zum nächsten Sprung gedächtnislos, d. h. exponentialverteilt sein (siehe Übungsaufgabe) und die Wahrscheinlichkeit, dann in einen bestimmten anderen Zustand zu springen, muss unabhängig von allem Vorherigen sein. Wenn die Aufenthaltsdauer in i E Exp(c i )-verteilt ist und die stochastische Matrix P = (p ij ) i,j E die Übergangswahrscheinlichkeiten nach einem Sprung beschreibt, wobei p ii = 0 für alle i E ist (man muss in einen anderen Zustand springen), so ist durch die Parameter c i und die Matrix P offenbar der Übergangsmechanismus vollständig beschrieben. Zusammen mit einer Startverteilung a auf E ist damit ein stochastischer Prozess beschrieben. Wir erlauben den Fall c i = 0 für ein i E. In diesem Fall ist i absorbierend. Dagegen ignorieren wir zunächst den möglichen Fall c i =, in welchem man sofort springt. Wir zeigen, wie man den Prozess simuliert: 1. Man simuliere die Startverteilung a auf E (wie bei MKDZ). Sei X(0) = i 0, n = 0. 1 In diesem Kapitel werden wir Markovketten im Sinne der Definition immer mit MKDZ bezeichnen. 57

62 58 Stochastische Modelle 2. Man simuliere die Aufenthaltszeit T n in i n. Sie ist Exp(c in )-verteilt. 3. Man simuliere den nächsten Zustand i n+1 E gemäß der Verteilung p ini n Setze n = n Gehe nach 2. Bei jeder Simulation verwende man eine neue (von den vorherigen unabhängige) auf [0, 1] gleichverteilte Zufallsvariable und transformiere sie entsprechend. Es bietet sich an, jeweils nach der Simulation in 2. den Plot der Realisierung zu aktualisieren. Nach Belieben baue man ein Abbruchkriterium ein (entweder als Funktion von n oder der Zeitdauer des Prozesses). Man kann dabei bei gewissen c = (c i ) i E und P in die Situation kommen, dass selbst für n der Prozess steckenbleibt, d. h. n=0 T n < mit positiver Wahrscheinlichkeit passiert. Dieses Verhalten entspricht einer Explosion in endlicher Zeit. Hier stellt sich die Frage, ob man den Prozess auch noch nach der Zeit n=0 T n definieren kann oder will. Offen bleibt bei der obigen Konstruktion, ob die Pfade rechtsstetig oder linksstetig sind. Die Verteilung einer MKSZ legt dies nicht fest. Es hat sich aber gezeigt, dass es günstig ist, alle Pfade rechtsstetig zu wählen. Oft definiert man q ij = { c i p ij falls i j, c i falls i = j, (3.1.2) und bezeichnet Q = (q ij ) i,j E als die Q-Matrix der MKSZ. Offenbar kann man aus Q die c i und jene Zeilen von P, für die c i 0 ist, zurückgewinnen (die anderen Zeilen von P sind ohnehin bedeutungslos). Bei der oben beschriebenen Simulation genügt es offensichtlich, a und die Matrix Q zu kennen. Q muss lediglich die Bedingungen q ij 0 für alle i, j E mit i j und j E q ij = 0 erfüllen. a und Q legen dann die Verteilung des Prozesses eindeutig fest jedenfalls bis zur Explosion, sofern diese in endlicher Zeit passiert. Um bereits in Kürze konkrete Beispiele für MKSZ behandeln zu können, erwähnen wir (Beweis später; siehe Satz 3.2.7), dass P i (X(t) = j) q ij = lim, i, j E, i j, (3.1.3) t 0 t gilt. Die q ij heißen daher auch Übergangsraten. Graphisch kann man eine MKSZ ähnlich wie im Fall einer MKDZ darstellen: man malt einen Pfeil von i nach j, wenn q ij > 0 ist und beschriftet ihn mit q ij. Die bisherigen Betrachtungen sind recht oberflächlich und dienen lediglich dazu, eine intuitive Vorstellung von MKSZ zu vermitteln. Präzise Definitionen, Annahmen, Aussagen und Beweise folgen im Abschnitt 3.2. Beispiel (Geburts- und Todesprozesse). Geburts- und Todesprozesse nennt man solche MKSZ, deren Zustandsraum E = N 0 ist und für die die Q-Matrix die Form λ i, falls j = i + 1, q ij = µ i, falls j = i 1, i 1, (3.1.4) 0 sonst, wenn i j, besitzt. Die λ i werden als Geburtsraten, die µ i als Sterberaten bezeichnet. Sind alle µ i = 0 (bzw. alle λ i = 0), dann heisst die MKSZ (reiner) Geburtsprozess (bzw. (reiner) Todesprozess).

63 Version Februar Geburts- und Todesprozesse werden zum Beispiel als (sehr einfache) Modelle zur Beschreibung der zeitlichen Evolution der Größe einer Population verwendet. Sie treten aber auch bei bestimmten Warteschlangenmodellen auf, wie wir im nächsten Beispiel sehen werden. Ein wichtiger Spezialfall ist der Poissonprozess, der als reiner Geburtsprozess mit λ i = λ für alle i N 0 definiert ist, wobei λ > 0 ein Parameter ist. Wir werden den Poissonprozess noch näher studieren. Beispiel (M/M/c-Warteschlange). Die Zahl der Kunden in einer M/M/c-Warteschlange ist offenbar wegen der Gedächtnislosigkeit der Exponentialverteilung eine MKSZ. Seien λ bzw. µ die Parameter der Exponentialverteilungen der Zwischenankunfts- bzw. Bedienungszeiten (für jeden der c Bediener). Da Sprünge immer nur zu benachbarten Zuständen möglich sind, ist die Zahl der Kunden sogar ein Geburts- und Todesprozess. Die Geburts- und Sterberaten sind gegeben durch { iµ falls 0 i c, λ i = λ für alle i N 0, µ i = (3.1.5) cµ falls i c. Man beachte, dass die Sterberate proportional zur Zahl der Kunden ist, die gerade bedient werden. Beispiel (M/E 2 /1-Warteschlange). Die Zahl der Kunden in einer M/E 2 /1-Warteschlange ist keine MKSZ, da die E 2 -Verteilung nicht gedächtnislos ist. Es lässt sich aber eine MKSZ mit größerem Zustandsraum so definieren, dass die Zahl der Kunden in einer M/E 2 /1-Warteschlange eine Funktion jener MKSZ ist. Wenn man für diese MKSZ alle Übergangswahrscheinlichkeiten (oder auch die invariante Wahrscheinlichkeitsverteilung sofern sie existiert) berechnet, so kennt man damit automatisch auch die (invariante) Verteilung der Zahl der Kunden in der M/E 2 /1- Schlange. Der Trick besteht darin, dass man die E 2 -verteilte Bedienungszeit (mit Erwartungswert µ 1 ) künstlich in zwei Phasen zerlegt, die jeweils Exp(2µ)-verteilt und unabhängig sind. Merkt man sich nun zusätzlich zur Zahl der Kunden noch, in welcher Phase der Bedienung das System sich befindet, so hat man eine MKSZ vorliegen, da die Zeitdauern der einzelnen Phasen gedächtnislos sind. Der Zustandsraum dieser MKSZ ist E = {0} { (n, i): n N, i {1, 2} } = {0} N {1, 2}, (3.1.6) wobei 0 bedeutet, dass kein Kunde im System ist, und (n, i), dass n N Kunden im System sind und der Kunde, der gerade bedient wird, sich in der Bedienungsphase i {1, 2} befindet. Es spielt dabei keine Rolle, ob sich solche Bedienungsphasen real beobachten lassen, oder ob sie nur künstlich eingeführt wurden. Die Q-Matrix ist aus der folgenden Abbildung ablesbar. Übergänge von Phase 1 zur Phase 2 finden immer mit Rate 2µ statt, da die Phase 1 Exp(2µ)- verteilt ist. Mit derselben Rate 2µ endet die Bedienungszeit eines Kunden, wenn er sich in Phase 2 befindet, worauf sich die Zahl der Kunden um Eins verringert und der nächste Kunde in Phase 1 bedient wird. Die Ankunftsrate ist immer λ. Beispiel (M/H 2 /1-Warteschlange). Eine Mischung aus k N Exponentialverteilungen wird gelegentlich als Hyper-Exponentialverteilung bezeichnet und mit H k abgekürzt. Eine Zufallsvariable ist also genau dann H k -verteilt, wenn ihre Verteilungsfunktion F die Gestalt { 0, falls x 0, F(x) = k i=1 q i(1 e rix (3.1.7) ), falls x 0

64 60 Stochastische Modelle λ λ λ 0 (1,1) (2,1) (3,1) 2µ 2µ 2µ 2µ 2µ 2µ (1,2) (2,2) (3,2) λ λ Abbildung 3.1.1: M/E 2 /1-Warteschlange hat, wobei r 1,...,r k > 0, q 1,...,q k > 0 und k i=1 q i = 1 gilt. H k -Verteilungen (oder allgemeinere Mischungsverteilungen) können zum Beispiel auftreten, wenn Waren aus verschiedenen Produktionen gemischt werden. Die q i sind dann die Anteile der Waren aus Produktion i. H 2 - Verteilungen bei Bedienungszeiten können dadurch entstehen, dass die Kunden eine von zwei Serviceleistungen in Anspruch nehmen, die jeweils exponentialverteilt mit verschiedenen Parametern sind. Wie bei der M/E 2 /1-Schlange ist die Zahl der Kunden auch bei der M/H 2 /1-Schlange keine MKSZ, kann aber als Funktion einer MKSZ geschrieben werden. Bei dieser MKSZ merkt man sich neben der Zahl der Kunden noch den Typ der Bedienung (1 oder 2). In der Regel lässt sich ein solcher Typ (wie die Phase bei M/E 2 /1) nicht real beobachten. Als Zustandsraum kann man wiederum die Menge E in (3.1.6) wählen, wobei 0 bedeutet, dass kein Kunde im System ist und (n, i), dass n Kunden im System sind und der Kunde, der gerade bedient wird, vom Typ i {1, 2} ist. Die Q-Matrix ist aus dem folgenden Graph ablesbar, wobei q 1, q 2 = 1 q 1, sowie r 1 und r 2 die Parameter der H 2 -Verteilung seien. Bemerkung Mit ähnlichen Methoden (nur etwas komplizierter) kann man solche Warteschlangen behandeln, für die sowohl die Zwischenankunftszeiten als auch die Bedienungszeiten jeweils (endliche) Mischungen von Erlangverteilungen (mit verschiedenen Parametern) sind. Dabei kann die Zahl der Bediener auch größer als 1 sein und eine Kapazitätsbeschränkung vorliegen. In einem bestimmten Sinn läßt sich damit jede G/G/c/K und G/G/c-Warteschlange approximieren. Der Zustandsraum ist für die MKSZ so zu wählen, da er für jeden der c Bediener und für die Zwischenankunftszeit die volle Information über den Typ (d. h. die Komponente der Mischung) und die Phase enthält. 3.2 Definitionen und erste Ergebnisse Nun zurück zur Theorie. Gegeben sei als Zustandsraum eine abzählbare (nichtleere) Menge E. Gelegentlich will man die Möglichkeit einer Explosion in endlicher Zeit nicht a priori ausschließen. Im Falle einer Explosion gibt es vielfältige Möglichkeiten, den Prozess als MKSZ weiterlaufen

65 λ q 1 λ Version Februar λ 0 r (1,1) (2,1) (3,1) q r q 2 r 1 q r q 2 r 1 r 2 λ q 2 q1 r2 q1 r2 λ λ (1,2) (2,2) (3,2) q 2 r 2 q 2 r 2 Abbildung 3.1.2: M/H 2 /1-Warteschlange zu lassen, z. B. durch unmittelbares Springen in einen bestimmten Zustand mit Neustart der Kette. Oft will man aber auch den Fall betrachten, dass der Prozess im Zustand der Explosion verharrt. Dies erreicht man dadurch, dass man einen zusätzlichen Zustand (Grab, Sarg) zu E hinzufügt und vereinbart, dass sich der Prozess nach der Explosion für immer in befindet. Dies hat zur Folge, dass j E P i(x(t) = j) kleiner als 1 sein kann. Wir werden nun ähnlich wie im Fall von MKDZ vorgehen und das Analogon der Übergangsmatrix P definieren. Während im diskreten Fall durch eine Startverteilung a und die stochastische Matrix P die Verteilung der MKDZ zu a und P festgelegt ist, ist nicht klar, ob dies im stetigen Fall mit a und der Matrix P(1) := (P i (X(1) = j)) i,j E auch so ist, denn aus P(1) kann man zwar P(n) für n N durch P(n) = P(1) n berechnen, aber wie berechnet man z. B. P(1/2) aus P(1)? Um diese Probleme zu umgehen, definieren wir, was eine (sub-)markovsche Halbgruppe (P(t)) t 0 ist. Wir sehen dann in Satz 3.2.4, dass zu einer Startverteilung und einer submarkovschen Halbgruppe eine (bezüglich Verteilung eindeutige) MKSZ existiert. In Satz zeigen wir die schon in (3.1.3) behauptete Existenz der Grenzwerte q ij = lim t 0 t 1 P ij (t). Danach folgen Aussagen (zum Teil ohne Beweis), die zeigen, dass die vorher beschriebene Simulation wirklich die zu a und (P(t)) t 0 gehörige MKSZ simuliert. Wie im zeitdiskreten Fall werden wir uns dann mit der Existenz und Berechnung der Grenzwerte von P ij (t) für t beschäftigen. Definition Sei E eine abzählbare, nichtleere Menge. Eine Familie (P(t)) t>0 von Matrizen (P ij (t)) i,j E heißt submarkovsche Halbgruppe auf E, wenn für alle i, j E und alle t, s > 0 gilt: (i) P ij (t) 0, (ii) k E P ik(t) 1, (iii) P ij (t + s) = k E P ik(t)p kj (s) (Chapman-Kolmogorov-Gleichung) Die Familie (P(t)) t>0 heißt markovsch, wenn zusätzlich in (ii) das Gleichheitszeichen für alle i E gilt, und sie heißt standard, wenn zusätzlich zu (i) - (iii) gilt:

66 62 Stochastische Modelle (iv) lim t 0 P ij (t) = δ ij (=: P ij (0)) für alle i, j E. Definition Sei (P(t)) t>0 eine submarkovsche Halbgruppe auf E. Weiter sei / E und a eine Wahrscheinlichkeitsverteilung auf E { }. Dann heißt ein E { }-wertiger stochastischer Prozess (X(t)) t 0 eine Markovkette in stetiger Zeit (MKSZ) zu a und (P(t)) t>0, wenn für alle n N, und alle 0 t 1 < t 2 < < t n < t und alle i 1,...,i n, i E gelten: (i) P ( X(t) = i X(t 1 ) = i 1,...,X(t n ) = i n ) = Pini(t t n ), sofern die linke Seite definiert ist, (ii) P ( X(0) = i ) = a i für alle i E { }, (iii) P ( X(t) = X(t 1 ) = i 1,...,X(t n 1 ) = i n 1, X(t n ) = ) = 1. Proposition Eine submarkovsche Halbgruppe auf E läßt sich zu einer markovschen auf E { } fortsetzen durch die Definition { 1 falls i = und t > 0, P i (t) = 1 j E P (3.2.1) ij(t) falls i E und t > 0. In diesem Fall gilt die Bedingung (i) aus Definition automatisch auch für i 1,...,i n, i E { } (Übungsaufgabe). Die Fortsetzung ist die einzig mögliche genau dann, wenn die Halbgruppe nicht markovsch auf E ist (Übungsaufgabe). Satz Sei a eine Startverteilung auf E { }, und sei (P(t)) t>0 submarkovsch. Dann existiert eine MKSZ X = (X(t)) t 0 zu a und (P(t)) t>0 im Sinne von Definition Für diese MKSZ gilt für alle n N 0, alle 0 = t 0 < t 1 < < t n und alle i 0,...,i n E: P ( X(t 0 ) = i 0, X(t 1 ) = i 1,...,X(t n ) = i n ) = ai0 P i0 i 1 (t 1 t 0 ) P in 1 i n (t n t n 1 ). (3.2.2) Insbesondere ist die Verteilung von X eindeutig durch a und (P(t)) t>0 bestimmt. Beweis. Dies folgt wie im Fall von MKDZ mit Hilfe des Satzes von Kolmogorov Wir verzichten auf eine genauere Begründung. Bemerkung Wie im Fall einer MKDZ kann man (3.2.2) auch als Definition einer MKSZ zu a und (P(t)) t>0 wählen. Die bisherigen Aussagen lassen vermuten, dass sich MKSZ im wesentlichen wie MKDZ behandeln lassen. Dies ist insofern richtig, als zum Beispiel X(0), X(s), X(2s), X(3s),... für festes s > 0 eine MKDZ zu a und der Matrix P(s) ist, wenn (X(t)) t 0 eine MKSZ zu a und (P(t)) t>0 ist. Deutliche Unterschiede gibt es immer dort, wo man überabzählbar viele Zeitindizes gleichzeitig betrachtet, z. B. bei sup s [0,1] X(s), wenn E = N ist. Wir werden später darauf zurückkommen. Ein weiterer Unterschied besteht offenbar darin, dass wir das einfache Objekt P im diskreten Fall durch ein kompliziertes nämlich (P(t)) t>0 ersetzen müssen. Während man P sofort ansieht, ob es eine Übergangsmatrix ist, ist dies für (sub-)markovsche Halbgruppen viel schwieriger. In den Beispielen sahen wir bereits, dass die Beschreibung von MKSZ durch die Q-Matrix viel günstiger ist. Q beschreibt das Verhalten von P ij (t) für infinitesimal kleine t > 0. Da man die komplette Halbgruppe aus der Kenntnis von (P ij (t)) 0<t t0 für alle i, j E und festes t 0 > 0 rekonstruieren kann, ist es plausibel, dass dies auch aus der Kenntnis von lim t 0 t 1 P ij (t) = q ij

67 Version Februar möglich ist. Inwieweit dies stimmt, werden wir später sehen. Zunächst beweisen wir die Existenz der Grenzwerte q ij. Dazu und im folgenden fast immer setzen wir voraus, dass (P(t)) t>0 standard ist. Dies gilt nicht automatisch, aber in Anwendungsbeispielen praktisch immer. Wer an Aussagen über den Nichtstandardfall interessiert ist, dem sei das Buch von Chung ([Ch67]) empfohlen. Dort kann man auch solche Beweise nachlesen, die wir nicht bringen. Die Voraussetzung standard (die übrigens bereits folgt, wenn man die Bedingung (iv) in Definition nur für alle i = j E fordert) besagt, dass man nach einer kurzen Zeit mit großer Wahrscheinlichkeit im Startzustand liegt (sie besagt nicht, dass man innerhalb kurzer Zeiten den Startzustand nicht verlässt). Wir zeigen zunächst, dass im Standardfall P ij (t) als Funktion von t gleichmäßig stetig (für feste i, j E) ist. Ohne die Voraussetzung standard braucht t P ij (t) nicht einmal messbar zu sein (siehe [Ch67]). Es ist klar, dass (P(t)) t>0 standard auf E ist genau dann, wenn die in Proposition definierte Fortsetzung auf E { } standard ist. Lemma Sei (P(t)) t 0 standard. Dann gilt für i E limsup P ij (t + h) P ij (t) = 0. (3.2.3) h 0 t 0 j E Insbesondere ist für i, j E die Abbildung t P ij (t) gleichmäßig stetig auf [0, ). Beweis. Sei h > 0. Wir schätzen ab: P ij (t + h) P ij (t) = P ik (h)p kj (t) δ ik P kj (t) j E j E k E P ik (h) δ ik P kj (t) = P ik (h) δ ik P kj (t) j E k E k E j E P ik (h) δ ik = 1 P ii (h) + P ik (h) 2(1 P ii (h)). k E k E\{i} (3.2.4) Nun folgt die Aussage, da der Term am Ende der Ungleichungskette nicht von t abhängt und für h 0 gegen Null konvergiert. Satz Sei (P(t)) t 0 standard. Dann existiert für alle i, j E der Grenzwert P ij (h) δ ij q ij = lim. (3.2.5) h 0 h Im Fall i j gilt 0 q ij <, im Fall i = j gilt 0 q ii. Ferner gilt für alle i E: q ij q ii =: q i. (3.2.6) j E: j i Beweis. 2 (Siehe z.b. [KT81] oder [GS75]). 1. Teil: i = j. Definiere q i 1 P ii (h) := sup [0, ]. h>0 h 2 Der Beweis wird bei Prüfungen nicht abgefragt.

68 64 Stochastische Modelle Wir werden zeigen, dass q i = q ii = lim h 0 h 1 (1 P ii (h)) gilt. Seien c < q i und 0 < t 0 < so gewählt, dass 1 P ii (t 0 ) t 0 > c, und seien 0 < τ < t 0 und n N so gewählt, dass [ t0 τ n + 1, t ) 0. n Dann gilt c < 1 t 0 (1 P ii (t 0 )) 1 t 0 ( 1 (Pii (τ)) n P ii (t 0 nτ) ) 1 (P ii(τ)) n t P ii(t 0 nτ) t 0 n(1 P ii(τ)) nτ + 1 P ii(t 0 nτ) t 0, wobei wir beim zweiten Ungleichheitszeichen die Chapman-Kolmogorov-Gleichung, beim dritten die allgemeine Ungleichung (1 ab) 2 a b, falls a, b [0, 1] mit a = (P ii (τ)) n und b = P ii (t 0 nτ) und beim vierten die Beziehung (1 a n ) = (1 a)(1+a+a 2 + +a n 1 ) n(1 a) für a = P ii (τ) verwendet haben. Bei festem t 0 lassen wir nun τ gegen Null und damit n gehen, und somit konvergiert der letzte Summand wegen der standard Eigenschaft gegen Null. Es folgt c < lim inf τ 0 1 P ii (τ) τ q i. Da c < q i beliebig war, haben wir sogar q i 1 P ii (τ) = lim, τ 0 τ wie behauptet. 2. Teil: i j. Sei X = (X(t)) t 0 eine MKSZ mit submarkovscher (standard) Halbgruppe (P(t)) t 0 und Start in i. Definiere für i, j E, n N und h > 0 jp (n) ii (h) = P ( X nh = i, X rh j für alle r = 1,...,n 1 ) f (n) ij (h) = P(X nh = j, X rh j für alle r = 1,...,n 1 ). Sei ε (0, 1/3) vorgegeben. Da (P(t)) t 0 standard ist, existiert ein t 0 = t 0 (ε) > 0, so dass für alle t [0, t 0 ] gilt: 1 P ii (t) < ε, 1 P jj (t) < ε und P ij (t) < ε. Seien n N und h > 0 gegeben mit nh t 0, und sei u [nh, t 0 ]. Dann haben wir ε > P ij (u) n r=1 Außerdem haben wir f (r) ij (h)p jj(u rh) (1 ε) n r=1 f (r) ij (h), also gilt n r=1 f (r) ij (h) ε 1 ε. (3.2.7) P ii (rh) = j P (r) r 1 ii (h) + m=1 f (m) ij (h)p ji ((r m)h), r = 1,...,n. (3.2.8)

69 Version Februar Also folgt mit (3.2.7): Daher haben wir jp (r) r 1 ii (h) P ii (rh) P ij (u) n 1 r=0 m=1 f (m) ij (h) 1 ε ε 1 ε 1 3ε 1 ε. (3.2.9) jp (r) ii (h)p ij (h)p jj (u (r + 1)h) n(1 3ε)P ij (h), (3.2.10) wobei wir j P (0) ii (h) = 1 setzten und bei der letzten Ungleichung (3.2.9) verwendeten. Für festes u (0, t 0 ] wähle nun h > 0 und n N mit n 2, so dass u [nh, (n + 1)h]. Dann folgt n (u h)/h und aus (3.2.10): Wir lassen für festes u > 0 beidseitig h 0 gehen und erhalten Nun geht u 0: P ij (u) u h (1 3ε)P ij(h). (3.2.11) h > 1 P ij (u) lim sup 1 3ε u h 0 1 P ij (u) lim inf lim sup 1 3ε u 0 u h 0 Mit ε 0 folgt, dass q ij = lim h 0 P ij (h)/h existiert und endlich ist. P ij (h). (3.2.12) h P ij (h). (3.2.13) h 3. Teil: Sei M E endlich. Dann gilt 1 P ii (h) h j E\{i} P ij (h) h j M\{i} P ij (h). (3.2.14) h Die linke Seite geht für h 0 gegen q i = q ii, die rechte gegen j M\{i} q ij. Da M beliebig war, folgt q ii j E\{i} q ij. Bemerkung Der Fall q ii > j E\{i} q ij kann wirklich auftreten (siehe [Ch67, S. 275 f]). Das am Anfang präsentierte Simulationsverfahren funktioniert in diesem Fall nicht, da man in einem solchen Fall mit positiver Wahrscheinlichkeit unendlich viele Sprünge in endlicher Zeit vollführt. Auch der Fall q ii = ist möglich ([Ch67, S. 278ff]). Dies widerspricht nicht der Standardeigenschaft von (P(t)) t 0, obwohl wie wir gleich sehen werden in diesem Fall der Zustand i sofort verlassen wird. Bei praktischen Anwendungen sind solche eher pathologischen Fälle allerdings von geringer Bedeutung. Wir wollen nun im Standardfall für i E die Verteilung des Zeitpunkts des ersten Sprunges, τ = inf{s > 0: X(s) X(0)} (3.2.15) bei Start in i bestimmen. Wie zu Beginn des Kapitels vereinbart, bezeichet P i die Wahrscheinlichkeit bei Start in i.

70 66 Stochastische Modelle Wir hatten uns anschaulich bereits überlegt, dass bei Start in i die Zeit τ Exp(q i )-verteilt sein müsste. Dies ist allerdings ohne weitere Voraussetzungen nicht richtig. Man braucht eine Bedingung an die Trajektorien, die sichert, dass diese (auf Lebesguenullmengen) nicht zu wild aussehen. Die Tatsache, dass (P(t)) t 0 standard ist, garantiert dies nicht! Allerdings kann man im Standardfall eine E { }-wertige MKSZ X = (X(t) t 0 so definieren, dass sie separabel im folgenden Sinn ist: Für jede abzählbare dichte Menge M [0, ) existiert ein N F mit P(N) = 0, so dass für alle ω / N, t 0 und ε > 0 die Zahl X(t, ω) im Abschluss der Menge {X(s, ω): s [t ε, t + ε] M} liegt, wobei wir eine Teilmenge von E { } als abgeschlossen bezeichnen, wenn sie endlich ist oder enthält (siehe [Ch67], S. 143 f. und S. 145 unten). Proposition Sei (P(t)) t 0 standard und X eine zugehörige separable MKSZ. Dann gilt für die in (3.2.15) definierte Zeit τ P i (τ t) = e q it für alle t 0, (3.2.16) (wobei wir die Konvention 0 = 0 benutzten). Beweis. Für t = 0 ist die Behauptung klar. Sei t > 0 und zunächst q i <. Dann gilt ( ) P i (τ t) = P i X(s) = i für alle s [0, t) ( = P i X(k2 n t) = i für alle n N und alle k = 0,...,2 n 1 ) = lim P ( i X(k2 n t) = i für alle k = 0,...,2 n 1 ) n ( = lim Pii (t2 n ) ) 2 n 1 ( = lim 1 qi t2 n + o(t2 n ) ) 2 n = e qit, n n (3.2.17) wobei wir beim zweiten Gleichheitszeichen die Separabilität, beim dritten die Stetigkeit von P und beim vierten die Markoveigenschaft benutzt haben. Der Fall q i = ergibt sich leicht mit Hilfe eines Grenzübergangs. Wir würden nun gerne um das Simulationsverfahren zu rechtfertigen zeigen, dass bei Start in i die Zufallsgrößen τ und X(τ) unabhängig sind und P(X(τ) = j) = q ij /q i gilt, sofern q i > 0. Unter der Voraussetzung standard ist dies selbst für separable MKSZ nicht unbedingt richtig. Bevor wir zeigen, in welchem Sinne und unter welchen Voraussetzungen die Aussage richtig ist, definieren wir, was eine konservative Q-Matrix ist. Definition Eine Abbildung Q: E E R heißt eine konservative Q-Matrix, wenn gelten (i) q ij 0 für alle i, j E mit i j, (ii) q i := q ii = j E\{i} q ij < für alle i E. Bemerkung Nicht jede Matrix Q = (q ij ) i,j E, die sich aus einer Standardhalbgruppe (P(t)) t 0 wie in Satz ergibt, ist konservativ. Andererseits ist Konservativität eine notwendige Voraussetzung dafür, dass das beschriebene Simulationsverfahren funktioniert. Wir werden später sehen, dass es zu jeder konservativen Q-Matrix mindestens eine Standardhalbgruppe (P(t)) t 0 gibt mit der Eigenschaft, dass q ij gleich den Grenzwerten in Satz ist. Satz Sei (P(t)) t 0 standard und (X(t)) t 0 eine zugehörige separable MKSZ mit Start in i E. Seien j E \ {i}, q i (0, ), q j < und τ wie in (3.2.15). Dann gilt für alle u 0: P i ( τ u, und es existiert s = s(ω) > 0: X(t) = j für alle t (τ, τ + s] ) = e q i u q ij q i. (3.2.18)

71 Version Februar Ist Q konservativ, so existiert lim h 0 X(τ + h) = J(ω) fast sicher, ist unabhängig von τ und hat die Verteilung P i (J = j) = q ij /q i, j E \ {i}. Beweis. Wir definieren die Ereignisse B γ = { ω: τ u, X(t) = j für alle t (τ, τ + γ) }, γ > 0, (3.2.19) B = { ω: τ u, es existiert s = s(ω) > 0: X(t) = j für alle t (τ, τ + s] }. (3.2.20) Dann gilt B γ B für γ 0. Wir werden zeigen, dass P i (B γ ) = e q iu q ij q i e q jγ (3.2.21) gilt, woraus dann aufgrund der Stetigkeit von P i folgt, dass P i (B) = e q iu q ij /q i gilt (beachte, dass q j < ). Fixiere u 0. Sei für n N, m N und γ := 2 m B n,γ : = { ω: es existiert s u, so dass X(k2 n ) = i für alle k2 n < s, und X(k2 n ) = j für alle s k2 n < s + γ }. (3.2.22) Dann existiert eine Menge B γ mit B n,γ B γ für n, und wegen der Separabilität von X gilt P i (B γ) = P i (B γ ). Also genügt es zu zeigen, dass lim n P i (B n,γ ) = e q iu q ij q i e qjγ gilt. Für n m folgt: P i (B n,γ ) = k= u2 n ( Pii (2 n ) ) k Pij (2 n ) ( P jj (2 n ) ) 2 n m 1 = P ij (2 n )P jj (2 n ) 2n m 1 P ii (2 n ) u2n 1 1 P ii (2 n ), (3.2.23) wobei x die größte ganze Zahl echt kleiner als x sei (wegen P ii (2 n ) < 1 für n hinreichend groß konvergiert die Reihe). Die vier Faktoren sind für n in obiger Reihenfolge asymptotisch gleich q ij 2 n, e qjγ, e qiu 1, q i 2 n. Also ist die erste Behauptung, (3.2.21), bewiesen. Ist Q konservativ, dann folgt die Existenz des Grenzwerts J(ω) und die Formel für die Verteilung, indem man in (3.2.18) u = 0 setzt und über alle j E \ {i} summiert. Die Unabhängigkeit ist klar, da P i (J = j τ u) = q ij q i nicht von u abhängt. 3.3 Vorwärts- und Rückwärtsgleichungen Mit Satz ist das Simulationsverfahren leider immer noch nicht vollständig gerechtfertigt, auch nicht im konservativen Fall. Dazu müßte man wissen, dass z.b. auch der zweite Sprung gegeben den zweiten Zustand unabhängig von der Zeit ist, die man im ersten und zweiten

72 68 Stochastische Modelle Zustand verbracht hat. Diese Tatsache ist richtig und läßt sich entweder durch eine Erweiterung von Satz zeigen (indem man die gemeinsame Verteilung der ersten k Sprünge und der Sprungzeiten berechnet, was möglich, aber mühsam ist) oder aus der starken Markoveigenschaft, die wir aber weder formulieren noch beweisen wollen (siehe z. B. [Ch67]). Wir betonen, dass die (ähnlich wie im diskreten Fall definierte) starke Markoveigenschaft ohne Separabilität im allgemeinen nicht gilt und selbst im separablen Fall nicht gelten muss; z. B. dann nicht, wenn man als Stoppzeit τ = inf{s 0: X(s) = } wählt und ein Rücksprung nach E möglich ist. Die Rücksprungverteilung kann nämlich explizit von dem Verhalten von X kurz vor τ abhängen, ohne dass dies die Markoveigenschaft zerstört! Die starke Markoveigenschaft kann dadurch zerstört werden, dass die Kompaktifizierung E { } von E zu grob ist. Die Theorie der Ray-Knight- Kompaktifizierung zeigt, wie man, abhängig von der Standardhalbgruppe (P(t)) t 0, die Menge E so kompaktifiziert, dass eine MKSZ X mit Werten in der Kompaktifizierung existiert mit den geforderten endlich-dimensionalen Verteilungen (zu (P(t)) t 0 ), rechtsstetige Pfade hat und die starke Markoveigenschaft erfüllt. Der interessierte Leser sei auf [Wi79] verwiesen. Als nächstes stellen wir uns die Frage, ob und gegebenenfalls wie man aus einer konservativen Q-Matrix die Standardhalbgruppe (P(t)) t 0 berechnen kann. Satz (Rückwärtsgleichung). Sei (P(t)) t 0 standard mit konservativer Q-Matrix Q. Dann ist t P ij (t) auf [0, ) stetig differenzierbar für alle i, j E, und es gelten P (t) = QP(t), t 0, und P(0) = I, (3.3.1) wobei I die Identität auf E ist (d.h. I ij = δ ij ) und die Ableitung komponentenweise zu verstehen ist. Beweis. Für h > 0 und s 0 gilt: P ij (h + s) P ij (s) h = 1 [ ] P ik (h)p kj (s) P ij (s) h k E = 1 [ (Pii (h) 1 ) P ij (s) + h k E\{i} ] P ik (h)p kj (s). (3.3.2) Falls die eventuell unendliche Summe mit dem Grenzwert h 0 vertauscht werden darf, so erhalten wir aus (3.3.2) leicht: P ij (h + s) P ij (s) lim = q ii P ij (s) + ik P kj (s) = h 0 h k E\{i}q q ik P kj (s). (3.3.3) k E Wir rechtfertigen nun die Vertauschung. Seien ε > 0 und J E mit i J und J <, so dass k E\J q ik < ε/2 (hier benutzen wir, dass Q konservativ ist). Dann gilt k E\J ( Pik (h) q ik )P kj (s) h < k E\J P ik (h) h 1 P ii(h) h h 0 q ii k J\{i} + k E\J k J\{i} q ik P ik (h) h + ε 2 q ik + ε 2 = k E\J q ik + ε 2 < ε, (3.3.4)

73 Version Februar wobei wir beim letzten Gleichheitszeichen die Konservativität von Q benutzten. Damit ist die Konvergenz in (3.3.3) gerechtfertigt, und es folgt P (s) = QP(s), (3.3.5) wobei allerdings der Strich zunächst nur als rechtsseitige Ableitung zu verstehen ist, da h > 0 war. Aus Lemma wissen wir, dass P ij ( ) gleichmäßig stetig ist. Wegen der Konservativität von Q und Beschränktheit der P ij ( ) durch 1 konvergiert k E q ikp kj (s) gleichmäßig für alle s [0, ). Da gleichmäßige Grenzwerte stetiger Funktionen stetig sind, folgt, dass P ij ( ) stetig ist. Nun gilt aber allgemein, dass eine stetige Funktion mit existierender und stetiger rechtsseitiger Ableitung sogar stetig differenzierbar ist (da dies nicht ganz so trivial ist, wie man meinen könnte, zeigen wir dies in Lemma 3.3.2). Da P(0) = I im Standardfall immer gilt, folgt die Behauptung. Lemma Sei f : [0, t 0 ] R stetig und auf [0, t 0 ) rechtsseitig differenzierbar mit stetiger Ableitung f +. Dann ist f auf (0, t 0 ) stetig differenzierbar mit Ableitung f +. Beweis (nach M. Schäl). Setze F(t) := f(0) + t 0 f+ (s)ds für t [0, t 0 ]. Da nach dem Hauptsatz der Differential- und Integralrechnung F stetig differenzierbar mit Ableitung f + ist, genügt es zu zeigen, dass F = f ist. Sei ϕ(t) := F(t) f(t) für t [0, t 0 ]. Dann ist ϕ stetig, ϕ(0) = 0 und ϕ + (t) = 0 für t [0, t 0 ). Zu zeigen ist ϕ = 0. Wäre dem nicht so, dann gälte max t [0,t0 ] ϕ(t) > 0 oder min t [0,t0 ] ϕ(t) < 0. Es genügt, den ersten Fall zu betrachten. Wegen der Stetigkeit von ϕ existiert ein t (0, t 0 ] mit ϕ(t ) = max t [0,t0 ] ϕ(t). Sei γ(s) := ϕ(s) s t ϕ(t ) für s [0, t ]. Dann gelten γ + (s) = ϕ(t ) t < 0 für s [0, t ) und ϕ(0) = 0 = ϕ(t ). (3.3.6) Sei s [0, t ) so gewählt, dass γ(s ) = min s [0,t ] γ(s). Dann folgt im Widerspruch zu (3.3.6). γ + (s γ(s + h) γ(s ) ) = lim 0 (3.3.7) h 0 h Satz (Vorwärtsgleichung). Sei (P(t)) t 0 standard mit konservativer Q-Matrix Q. Weiter sei c := sup q i <. (3.3.8) i E Dann gelten Beweis. Sei h > 0. Es gilt P (t) = P(t)Q, t 0, und P(0) = I. (3.3.9) P kj(h) δ kj h 1 P kk(h) q k ; (3.3.10) h letzteres wurde im 1. Teil des Beweises von Satz gezeigt. Somit gilt P ij (t + h) P ij (t) h = k E P ik (t) P kj(h) δ kj h h 0 k E P ik (t)q kj, (3.3.11)

74 70 Stochastische Modelle denn wegen der Voraussetzung gilt für endliches J E mit j J und k E\J P ik(t) < ε/c: k E\J ( Pkj (h) δ kj P ik (t) h ) ε q kj c = ε. (3.3.12) c Nach Satz wissen wir, dass P ij ( ) stetig differenzierbar ist, also folgt die Behauptung. Beispiel Sei Q die (konservative) Q-Matrix des Poissonprozesses. Bislang wissen wir noch nicht, ob die zum Poissonprozess gehörige Halbgruppe wirklich standard ist, dennoch versuchen wir, die Rückwärts- und Vorwärtsgleichung zu Q zu lösen. Die Rückwärtsgleichung lautet ausgeschrieben: P ij(t) = k E q ik P kj (t) = λp i+1,j (t) λp ij (t), t > 0, i, j N 0, (3.3.13) P ij (0) = δ ij, i, j N 0. (3.3.14) Wir werden später sehen, dass dieses System eine eindeutige Lösung hat, aber man sieht bereits jetzt, dass sich hier die Rückwärtsgleichung nicht besonders zur Berechnung von P(t) eignet (zur Berechnung von P 0j (t) muss man bereits P 1j (t) kennen usw.). Die Vorwärtsgleichung lautet ausgeschrieben: P ij(t) = k E P ik (t)q kj = { λp i,j 1 (t) λp ij (t) falls j 1, λp i0 (t), falls j = 0, (3.3.15) P ij (0) = δ ij, i, j N 0. (3.3.16) Hier kann man für festes i N 0 das System rekursiv für j = 0, 1, 2,... lösen. Für j = 0 erhält man: { 0 falls i 1, P i0 (t) = e λt (3.3.17), falls i = 0. Dies setzt man in die Gleichung für j = 1 ein. Mit dieser Methode zeigt man leicht, dass { 0 falls i > j, P ij (t) = e λt (λt) j i (j i)!, falls i j (3.3.18) gilt. Die Anzahl der Sprünge des Poissonprozesses in einem Zeitintervall der Länge t ist also Poisson-verteilt mit Parameter λt. Man kann nun explizit nachrechnen, dass diese (einzige) Lösung der Vorwärtsgleichung wirklich eine markovsche Standardhalbgruppe ist. Dies wird sich allerdings gleich als unnötig herausstellen (siehe Satz 3.3.6). Bislang wissen wir nicht, ob zu einer (konservativen) Q-Matrix immer eine Standardhalbgruppe gehört und wann diese eindeutig ist. Die Existenz wird im folgenden Satz sichergestellt. Dabei können wir die Konservativität von Q etwas abschwächen. Definition Q: E E R heißt schwach konservativ, wenn gelten: (i) q ij 0 für alle i, j E mit i j, (ii) q ii > für alle i E,

75 Version Februar (iii) j E q ij 0 für alle i E. Wieder definieren wir q i := q ii für alle i E. Unser Ziel besteht darin, zu einer gegebenen schwach konservativen Matrix Q eine Standardhalbgruppe (P(t)) t 0 zu finden, die die Vorwärts- und Rückwärtsgleichung löst, für die also insbesondere (Rückwärtsgleichung für t = 0) P (0) = Q ist, d.h. Q ist die Q-Matrix von (P(t)) t 0. Wir wissen dann insbesondere, dass, wenn Q schwach konservativ ist und die VWG (oder RWG) eine eindeutige Lösung hat, diese automatisch eine Standardhalbgruppe sein muss (vgl. Bemerkung am Ende von Beispiel 3.3.4). Satz Sei Q eine schwach konservative Matrix. Dann existiert eine Standardhalbgruppe (P(t)) t 0, die die VWG und RWG löst und für die gilt P ij (t) Z ij (t), t 0, i, j E, (3.3.19) für jede Standardhalbgruppe (Z(t)) t 0 mit Q-Matrix Q. Diese Standardhalbgruppe (P(t)) t 0 heißt Minimallösung. Beweisansatz. Wir zeigen nur die Konstruktion der Standardhalbgruppe (P(t)) t 0 (die uns beim Beweis von Satz nützlich sein wird), ohne aber zu beweisen, dass sie wirklich die geforderten Eigenschaften hat. Für den vollständigen Beweis siehe [Ch67, S. 251 ff]. Definiere für i, j E, t 0 und für n N 0 induktiv P n+1 ij (t) := P 0 ij(t) := δ ij e q it k E\{j} Induktiv zeigt man, dass Pij n ( ) stetig differenzierbar ist und ist. Schließlich definiert man für t 0 H N ij (t) := t 0 N n=0 (3.3.20) P n ik (s)q kje q j(t s) ds. (3.3.21) P n ij(t) 1 (3.3.22) P ij (t) := lim N H N ij (t) (3.3.23) (der Grenzwert existiert und ist 1). Es bleibt zu zeigen, dass (P(t)) t 0 standard ist und die VWG und RWG löst, sowie die Minimalitätseigenschaft. Der Beweis der Gültigkeit der VWG ist mit der obigen Rekursion relativ leicht, für den Nachweis der RWG zeigt man zunächst, dass die oben definierten Pij n auch der Rekursion P n+1 ij (t) = k E\{i} t 0 e qi(t s) q ik Pkj n (s)ds (3.3.24) genügen. Die letzte Gleichung läßt sich anschaulich wie folgt interpretieren: P n ij (t) ist die Wahrscheinlichkeit, bei Start in i mit genau n Sprüngen zur Zeit t in j zu landen. P ij (t) ist dann die Wahrscheinlichkeit, bei Start in i mit endlich vielen Sprüngen zur Zeit t in j zu landen.

76 72 Stochastische Modelle Bemerkung Die Minimallösung (P(t)) t 0 ist die Halbgruppe derjenigen MKSZ X zu Q, die nach der ersten Explosion d. h. dem ersten Zeitpunkt zu dem X entweder in den Zustand springt, oder dem Infimum der Zeitpunkte, an denen X unendlich viele Zustände besucht hat für immer in bleibt. Jede MKSZ X zu einer anderen Standardlösung Z verhält sich bis zur Explosion genauso wie X, springt dann aber von aus auf irgendeine Weise zurück nach E, weswegen P ij (t) Z ij (t) gilt. Korollar Sei Q schwach konservativ. Wenn die Minimallösung (P(t)) t 0 markovsch ist, dann ist sie die einzige Standardhalbgruppe mit Q-Matrix Q. Beweis. Sei (Z(t)) t 0 auch eine Standardhalbgruppe zu Q, dann folgt aus Satz 3.3.6, dass Z ij (t) P ij (t) für alle i, j E und t 0, also 1 j E Z ij (t) j E P ij (t) = 1, i E, t 0, (3.3.25) also folgt Z ij (t) = P ij (t) für alle i, j E und t 0. Proposition Sei Q konservativ und c := sup i E q i <. Dann ist die Minimallösung (P(t)) t 0 markovsch. Beweis. Unser Ziel besteht darin, zu zeigen, dass d dt j E P ij(t) = 0 für alle t 0 gilt, woraus wegen j E P ij(0) = 1 folgt, dass (P(t)) t 0 markovsch ist. Sei J E endlich. Da (P(t)) t 0 die VWG erfüllt, gilt d P ij (t) = P dt ij(t) = j J j J j J k E\{j}P ik (t)q kj j J P ij (t)q j. (3.3.26) Nun ist j J k E\{j} P ik( )q kj stetig, denn J <, und k E\{j} P ik(t)q kj = P ij(t) + P ij (t)q j ist stetig in t nach Satz Weiter konvergiert mit J E j J k E\{j} P ik ( )q kj monoton j E k E\{j}P ik ( )q kj = k E P ik ( )q k, (3.3.27) da Q konservativ ist, und j J P ij (t)q j monoton j E P ij (t)q j. (3.3.28) Wir zeigen, dass t j E P ij(t)q j stetig ist: ( P ij (t + h) P ij (t) ) q j c P ij (t + h) P ij (t) h 0 0 (3.3.29) j E j E gleichmäßig für alle t [0, ) nach Lemma Nun besagt der Satz von Dini, dass, wenn eine Folge stetiger Funktionen auf einem kompakten Intervall monoton gegen eine stetige Funktion punktweise konvergiert, die Konvergenz sogar gleichmäßig ist (Übungsaufgabe: man zeige dies!,

77 Version Februar vgl. [He86, S. 578]). Somit konvergiert die rechte Seite von (3.3.26) gleichmäßig auf kompakten Intervallen gegen P ij (t)q j = 0. (3.3.30) k E P ik (t)q k j E Aus dem aus Analysisvorlesungen bekannten Satz, dass eine Folge stetig differenzierbarer Funktionen f n : [0, t 0 ] R mit f n (0) a R, deren Ableitungen gleichmäßig konvergieren, gleichmäßig auf [0, t 0 ] gegen eine Funktion f konvergiert, die stetig differenzierbar ist und deren Ableitung gleich dem Grenzwert der Ableitungen der f n ist, folgt d dt P ij (t) = 0. (3.3.31) j E Bemerkung Aus den bisherigen Resultaten folgt: Ist Q schwach konservativ, und hat die VWG eine eindeutige Lösung (P(t)) t 0 und erfüllt diese j E P ij(t) = 1 für alle i E, dann ist (P(t)) t 0 standard und die einzige Standardhalbgruppe mit Q-Matrix Q. 3.4 Langzeitverhalten und invariante Maße Wir studieren nun die Existenz von Grenzwerten von P ij (t) für t. Interessanterweise ist dies weniger kompliziert als im diskreten Fall, da das Problem der Periodizität bei MKSZ nicht auftaucht. Satz Sei (P(t)) t 0 standard. Dann existiert für alle i, j E und es gilt π ij := lim t P ij (t), (3.4.1) π ij 1. (3.4.2) j E Beweis. Setze zunächst (P(t)) t 0 wie in Proposition zu einer Standard-Markovhalbgruppe auf E { } fort, falls (P(t)) t 0 nicht markovsch ist. Also können wir obda annehmen, dass (P(t)) t 0 standard und markovsch ist. Für j E existiert (da (P(t)) t 0 standard ist) ein h 0 > 0, so dass P jj (h) > 0 für alle 0 h h 0. Mit der Chapman-Kolmogorov-Gleichung folgt somit für t > 0, indem man t = nh mit n N und h h 0 setzt: P jj (t) (P jj (h)) n > 0. (3.4.3) Für beliebiges h > 0 betrachte nun die MKDZ (X(0), X(h), X(2h),... ) mit Übergangsmatrix P(h). Diese ist wegen P jj (h) > 0 für alle j E aperiodisch, also existiert nach Satz der Grenzwert π ij (h) := lim P ij(nh). (3.4.4) n Sei ε > 0 vorgegeben und i, j E fest. Da P ij ( ) nach Lemma gleichmäßig stetig ist, existiert ein h, so dass P ij (t + s) P ij (t) < ε/4 für alle t 0 und alle s h. Wähle nun n 0 = n 0 (h), so dass P ij (nh) π ij (h) < ε 4, n n 0. (3.4.5)

78 74 Stochastische Modelle Dann gilt für t, t n 0 h mit kh t (k + 1)h und mh t (m + 1)h P ij (t) P ij (t ) P ij (t) P ij (kh) + P ij (kh) π ij (h) + π ij (h) P ij (mh) + P ij (mh) P ij (t ) < 4 ε 4 = ε. (3.4.6) Also existiert lim t P ij (t), und es ist π ij := lim t P ij (t) = lim t P ij (nh) = π ij (h). Insbesondere hängt π ij (h) gar nicht von h ab. Sei nun J E endlich. Dann gilt also folgt j E π ij 1. j J π ij = j J lim P ij(t) = lim t t j J P ij (t) 1, (3.4.7) Wie im diskreten Fall wollen wir die Beziehung zwischen den Grenzwerten π ij und invarianten Maßen näher studieren. Definition Sei (P(t)) t 0 submarkovsch und X eine zugehörige MKSZ. Eine Abbildung π: E [0, ] heißt ein invariantes Maß für (P(t)) t>0 (oder für X), wenn πp(t) = π für alle t 0. Gilt zusätzlich i E π i = 1, dann heißt π invariantes Wahrscheinlichkeitsmaß (oder invariante Verteilung) von (P(t)) t>0. Proposition Ist (P(t)) t 0 standard und i E, dann ist (π ij ) j E (wie in Satz definiert) ein invariantes Maß. Beweis. Setze wie in Proposition (P(t)) t 0 zu einer Markovhalbgruppe auf E { } fort. Dann gilt für s, t 0 und k E { } j E { } P ij (s)p jk (t) = P ik (t + s). (3.4.8) Lässt man s gehen, so folgt (mit der üblichen Abschneidetechnik ) j E { } π ij P jk (t) π ik. (3.4.9) Summiert man über alle k E { }, so folgt j E { } π ij k E { } π ik, also da die Summe endlich ist die Gleichheit in (3.4.9) für alle k E { }. Für k E ist P k (t) = 0 für alle t 0, also ist (π ij ) j E ein invariantes Maß. Satz Sei Q konservativ und die Minimallösung (P(t)) t 0 markovsch. Dann ist π: E R ein invariantes Wahrscheinlichkeitsmaß von (P(t)) t 0 genau dann, wenn es (i) πq = 0, (ii) π i 0, i E, (iii) i E π i = 1 (3.4.10) löst.

79 Version Februar Beweis. (nach [Mi63]): 1. Schritt: Sei π ein invariantes Wahrscheinlichkeitsmaß, also π i 0 für alle i E, i E π i = 1 und πp(t) = π für alle t 0. Dann gilt π j (1 P jj (t)) = i E\{j} Dividiert man beidseitig durch t > 0 und läßt t 0 gehen, so folgt > π j q j i E\{j} π i P ij (t). (3.4.11) π i q ij 0 (3.4.12) (um das mittlere zu erhalten, summiere man zunächst über endliche Mengen). Sei J E endlich. Dann folgt mit der VWG (die ja von der Minimallösung erfüllt wird) d dt π i P ij (t) = d π i dt P ij(t) = q j π i P ij (t) + i J i J i J i J π i k E\{j} P ik (t)q kj. (3.4.13) Wie im Beweis von Satz folgt die Stetigkeit der letzten Summe. Die beiden Terme auf der rechten Seite von (3.4.13) konvergieren mit J E jeweils monoton gegen q j i E π ip ij (t) = q j π j bzw. i E π i k E\{j} P ik (t)q kj = k E\{j} q kj π i P ik (t) = i E k E\{j} q kj π k, da π invariant ist. Der Grenzwert ist jeweils konstant und endlich nach (3.4.12), insbesondere also stetig. Wie im Beweis von Satz folgt mit dem Satz von Dini und dem Satz über die Vertauschbarkeit von Grenzwert und Ableitung 0 = d dt π j = d π i P ij (t) = q j π j + kj π k = dt i E k E\{j}q π k q kj. (3.4.14) k E Also gilt (i) (die Aussagen (ii) und (iii) sind ohnehin klar). 2. Schritt: π erfülle (i), (ii) und (iii). Definiere P n ij (t) und HN ij (t) für n, N N 0, und i, j E und t 0 wie im Beweis von Satz Wir zeigen per Induktion nach N N 0, dass gilt: π i Hij N (t) π j für alle j E, t 0. (3.4.15) i E Für N = 0 gilt i E π i H 0 ij(t) = i E π i δ ij e q jt = π j e q jt π j. (3.4.16)

80 76 Stochastische Modelle Gelte also (3.4.15) für ein N N 0. Dann folgt i E π i H N+1 ij (t) = π j e q jt + π j e q jt + t k E\{j} 0 i E t k E\{j} 0 π i Hik N (s)q kje qj(t s) ds π k q kj e q j(t s) ds t = π j e qjt + π j q j e qj(t s) ds = π j, 0 (3.4.17) wobei in die Induktionsvoraussetzung einging und beim vorletzten Gleichheitszeichen die Eigenschaft (i). Da P ij (t) = P ij (t) = lim N Hij N (t), folgt aus (3.4.15) π i P ij (t) π j für alle j E, t 0. (3.4.18) i E Summiert man über alle j E, so sieht man, dass in (3.4.18) in Wirklichkeit Gleichheit gilt, d. h. π ist ein invariantes Wahrscheinlichkeitsmaß. Bemerkung Satz zeigt, dass man unter den angegebenen Voraussetzungen alle invarianten Wahrscheinlichkeitsmaße durch Lösen von πq = 0 mit den Nebenbedingungen (ii), (iii) in erhält. Dies ist für die Berechnung von π sehr bedeutsam, da die Matrizen P(t) für t 0 im Gegensatz zu Q meist nicht explizit gegeben sind. Man beachte aber die Voraussetzungen von Satz 3.4.4! Miller gibt in der zitierten Arbeit ein Beispiel, bei dem für ein konservatives Q (i) - (iii) eine eindeutige Lösung hat, ohne dass π ein invariantes Wahrscheinlichkeitsmaß ist (die Minimallösung ist in seinem Beispiel nicht markovsch). Definition (Irreduzibilität). Eine Standardhalbgruppe (P(t)) t 0 mit schwach konservativer Q-Matrix Q (oder Q selbst) heißt irreduzibel, wenn für alle i, j E mit i j ein n N 0 und i = i 0, i 1,...,i n = j aus E existieren mit n 1 m=0 q i m,i m+1 > 0. Korollar Sei Q konservativ und irreduzibel und die Minimallösung markovsch. Wenn (3.4.10) in Satz eine Lösung π hat, dann ist diese eindeutig, und es gilt lim t P ij (t) = π j für alle i, j E. Beweis. Nach Satz ist die Lösung π invariant unter (P(t)) t 0, also ist π auch invariantes Wahrscheinlichkeitsmaß der MKDZ (X(0), X(1), X(2),... ) mit Übergangsmatrix P(1). Diese MKDZ ist irreduzibel: Im Beweis von Satz sahen wir, dass P ii (t) > 0 für alle t 0. Für i j seien i 0,...,i n wie bei der Definition gegeben. Es genügt zu zeigen, dass i i 1 für die MKDZ (X(0), X(1),... ) gilt. Wegen P i,i 1 (t) = q i,i1 t + o(t) und q i,i1 > 0 existiert ein h 0 > 0, so dass P i,i1 (t) > 0 für alle t (0, h 0 ] gilt. Weiter gilt für t > h 0, dass P i,i1 (t) P ii (t h 0 )P i,i1 (h 0 ) > 0, womit insbesondere die Irreduzibilität von P(1) gezeigt ist. Wegen P ii (1) > 0 ist die Aperiodizität klar. Also folgt nach Satz für j E, dass π j = lim n P ij (n), und wegen Satz gilt sogar π j = lim t P ij (t). Dies zeigt auch die Eindeutigkeit der Lösung π von (i) - (iii) in Satz Korollar Sei Q konservativ und die Minimallösung markovsch. Wenn (3.4.10) in Satz keine Lösung hat, dann folgt lim P ij(t) = 0 für alle i, j E. (3.4.19) t

81 Version Februar Beweis. Nach Satz existiert π ik = lim t P ik (t) und es gilt k E π ik 1. Angenommen, es existieren i, j E mit lim t P ij (t) = π ij > 0, dann definiere π ik := π ik r E π. (3.4.20) ir Nach Satz ist (π ik ) k E ein invariantes Wahrscheinlichkeitsmaß und erfüllt (3.4.10) im Widerspruch zur Voraussetzung. Also gilt π ij = 0 für alle i, j E. Beispiel Für Geburts- und Todesprozesse lassen sich die invarianten Wahrscheinlichkeitsverteilungen (wenn sie existieren) explizit berechnen. Wir nehmen an, dass die Geburtsund Sterberaten alle strikt positiv sind. Definiert man b 0 = 1 und so kann man zeigen, dass genau im Fall b j = λ 0...λ j 1 µ 1...µ j, j N, (3.4.21) ( (λi ) 1 i ) b i b j = (3.4.22) i=0 der Prozess nicht explodiert (d. h. die Minimallösung markovsch ist). Wir setzen dies im Folgenden voraus. Solche expliziten notwendige und hinreichende Nichtexplosionskriterien sind übrigens für allgemeine MKSZ nicht bekannt. Der Geburts- und Todesprozess ist wegen der Voraussetzung der Positivität der λ i und µ i offenbar irreduzibel. Anstatt das Gleichungssystem in Satz direkt zu lösen, führt auch die folgende Überlegung zu einer Lösung: Wenn ein invariantes Wahrscheinlichkeitsmass π existiert, dann muss (da der Prozess im Gleichgewicht ist), für jedes i N 0 genausoviel Masse pro Zeit von i nach i + 1 fließen wie umgekehrt, d. h. es muss gelten: j=0 π i λ i = π i+1 µ i+1 für alle i N 0. (3.4.23) Man zeigt leicht, dass (3.4.23) äquivalent zu (i) in Satz ist. Die Aussage in (3.4.23) erhält man, indem man die ersten i + 1 Gleichungen von πq = 0 addiert. Aus (3.4.23) folgt für k N π k = π k 1 λ k 1 µ k = π k 2 λ k 2 λ k 1 µ k 1 µ k = = π 0 b k. (3.4.24) Wenn k=0 π k = 1 ist, so muss 1 = π 0 k=0 b k gelten. Wäre k=0 b k =, so müßte π 0 = 0 sein und nach (3.4.24) π k = 0 für alle k N gelten, was k=0 π k = 1 widerspricht. Ist also k=0 b k =, dann existiert kein invariantes Wahrscheinlichkeitsmaß. Ist dagegen k=0 b k <, so definiert 1 π j = k=0 b b j, j N 0, (3.4.25) k eine Lösung von (3.4.23) und damit ein invariantes Wahrscheinlichkeitsmaß. Also ist k=0 b k < eine notwendige und hinreichende Bedingung für die Existenz eines invarianten Wahrscheinlichkeitsmaßes eines irreduziblen Geburts- und Todesprozesses. Aus Korollar folgt dann sogar π j = lim t P ij (t) für alle i, j N 0.

82 78 Stochastische Modelle 3.5 Beispiele: Warteschlangen Warteschlangen Wir benutzen das eben gewonnene Resultat, um zu entscheiden, ob die Zahl der Kunden in einer M/M/c-Schlange eine invariante Verteilung hat und um gegebenenfalls die invariante Wahrscheinlichkeitsverteilung zu berechnen. Beispiel (M/M/c-Warteschlange). Mit den Bezeichnungen aus Beispiel gilt : b j = j=0 c 1 j=0 λ j j!µ j + j=c λ j c!c j c µ j. (3.5.1) Die erste Summe ist immer endlich, die zweite ist endlich genau dann, wenn λ < cµ ist. Definiert man die Verkehrsdichte ρ als λ/(cµ), so gilt also wiederum (vgl. Satz 2.7.3), dass eine invariante Verteilung genau dann existiert, wenn ρ < 1 ist. Ist ρ < 1, so folgt b j = j=0 c 1 j=0 λ j j!µ j + woraus sich π j = b j ( k=0 b k) 1 explizit berechnen läßt: cc ρ c c!(1 ρ), (3.5.2) π j = π 0 ( λ µ ) j { 1 j! falls j c, 1 c!c j c falls j c. (3.5.3) Im Spezialfall c = 1 erhält man π j = (1 ρ)ρ j für alle j = 0, 1, 2,..., also eine geometrische Verteilung Warteschlangennetze In den letzten 20 Jahren sind Warteschlangennetze vor allem mit Anwendung auf Rechnersysteme, aber auch auf Produktionsabläufe untersucht worden. Man modelliert solche Netze dadurch, dass man jeden der Bediener (o.ä.) als Eckpunkt eines (endlichen) Graphen auffasst. Man verbindet i mit j durch einen gerichteten Pfeil und beschriftet ihn mit π ij, wenn π ij > 0 die Wahrscheinlichkeit ist, dass ein Kunde, nachdem er bei i bedient wurde, sich bei j anstellt. Zusätzlich kann man eine Ecke des Graphen einführen, die die Außenwelt darstellt. Ein Kunde, der das ganze System verläßt, geht also in jene Ecke. Außerdem legt man fest, mit welcher Verteilung Kunden von außen in den einzelnen Ecken eintreffen, und beschriftet die Ecken mit der zugehörigen Bedienungszeitverteilung. Nimmt man an, dass alle Bedienungszeiten, Sprünge und Zwischenankunftszeiten unabhängig sind, und legt man eine geeignete Startbedingung fest, so ist damit die Dynamik des Prozesses festgelegt. Interessant sind die gemeinsame Verteilung der Warteschlangenlängen in allen Ecken (außer der Außenwelt ), insbesondere für t, aber auch die Verweildauerverteilung eines Kunden im System. Wenn alle Bedienungs- und Zwischenankunftsverteilungen endliche Mischungen von E k -Verteilungen sind, so kann man mit der in Beispiel vorgestellten Methode den Vektor der Zahl der Kunden in jeder Ecke zu einer MKSZ aufblähen. Dies wird auch häufig gemacht, um damit invariante Wahrscheinlichkeitsmaße (numerisch) für obigen Vektor zu berechnen.

83 Version Februar Ein Spezialfall, für den die Grenzverteilungen eine besonders einfache Gestalt haben, sind Jackson networks (vgl. [HS82, S. 456 ff]). Jackson-Netzwerke. Wir machen die folgenden Annahmen: 1. Es gibt N N Knoten durchnummeriert von 1 bis N. 2. Im Knoten i befinden sich c i Bediener. Die Bedienungszeiten seien Exp(µ i )-verteilt. 3. Kunden, die von außen (und nicht von einem anderen Knoten) bei Knoten i eintreffen, haben unabhängige Exp(λ i )-verteilte Zwischenankunftszeiten. 4. Gegeben ist eine substochastische N N-Matrix P, wobei p ij die Wahrscheinlichkeit sei, dass ein Kunde nach der Bedienung im Knoten i sich (sofort!) am Knoten j anstellt. p i0 := 1 N j=1 p ij sei die Wahrscheinlichkeit, dass der Kunde nach Bedienung am Knoten i das System verlässt. 5. Es gelte überall FIFO ( first in first out ). Notwendig und hinreichend für die Existenz einer Gleichgewichtsverteilung ist offenbar, dass alle N Knoten so schnell arbeiten, dass langfristig genausoviel herein- wie herausfließt. Wir leiten zunächst heuristisch eine Verkehrsgleichung her, die wir dann (mathematisch exakt) analysieren, womit wir (im folgenden Satz) ein notwendiges und hinreichendes Kriterium für die Existenz einer invarianten Verteilung sowie eine Formel dafür erhalten. Wenn α i 0 die Rate ist, mit der Kunden im stationären Zustand den Knoten i verlassen, dann gilt anschaulich: N α i = λ i + α j p ji, i = 1,...,N, (3.5.4) j=1 denn was abfließt (α i ) muss auch reinfließen (rechte Seite). Wir nehmen nun zusätzlich an, dass gilt P n n 0 komponentenweise, (3.5.5) was besagt, dass Kunden von jedem Knoten aus irgendwann das System verlassen sicher keine allzu starke und eine leicht überprüfbare Voraussetzung an P. Behauptung: Unter obigen Annahmen hat (3.5.4) genau eine Lösung α, und zwar α T = λ T (I P) 1 = λ T P k. (3.5.6) Beweis. (3.5.4) kann man in der Form α T = λ T + α T P, also α T (I P) = λ T schreiben. Nun gilt I P n = (I P)(I + P + P P n 1 ). (3.5.7) Wegen unserer Voraussetzung (3.5.5) ist I P n für hinreichend große n invertierbar und daher det(i P n ) 0. Also ist nach (3.5.7) auch det(i P) 0, d. h., I P ist invertierbar, woraus das erste Gleichheitszeichen der Behauptung folgt. Weiter folgt aus (3.5.7) nach Grenzübergang n die Gleichung (I P) 1 = k=0 P k. k=0

84 80 Stochastische Modelle Wir machen nun noch die weitere Annahme α i = N ( λ j P k) > 0 für alle i, (3.5.8) ji j=1 k=0 was zum Beispiel aus der stärkeren Forderung λ j > 0 für alle j folgt. Nun wählen wir naheliegenderweise als Zustandsraum des Netzwerks E = N N 0, wobei X(t) = (n 1,...,n N ) bedeuten soll, dass sich zur Zeit t genau n i N 0 Kunden am Knoten i befinden für alle i = 1,...,N. Offenbar ist (X(t)) t 0 eine MKSZ, deren Q-Matrix wir im Beweis des folgenden Satzes explizit angeben werden. Satz (Jackson). Unter den obigen Annahmen hat die MKSZ (X(t)) t 0 genau dann ein invariantes Wahrscheinlichkeitsmaß π, wenn für alle i = 1,...,N gilt: α i < c i µ i. In diesem Fall ist π eindeutig, und es gilt π n1,...,n N = Ψ 1 (n 1 ) Ψ N (n N ), (3.5.9) wobei Ψ i ( ) das invariante Wahrscheinlichkeitsmaß einer M/M/c i -Schlange mit Ankunftsrate α i und Bedienungsrate µ i ist, also ( αi ) n 1 n! Ψ i (n) = Ψ i (0), falls n c i, 1 1 (3.5.10) µ i, falls n c i. Bemerkung Man beachte, dass trotz der Abhängigkeiten, die zwischen den Knoten bestehen, die Anzahl der Kunden an den einzelnen Knoten im stationären Zustand zu einem festen Zeitpunkt unabhängige Zufallsgrößen sind! Beweis von Satz Offenbar hat die Q-Matrix folgende Gestalt (mit e i bezeichen wir das Element aus N N 0 mit einer Eins an der i-ten Stelle und Nullen sonst). Für alle n E = NN 0 gilt c i! c n c i i q n,n+ei = λ i, q n,n ei = (n i c i )µ i p i0, q n,n ei +e j = (n i c i )µ i p ij, (3.5.11) alle anderen q ij mit i j sind Null. Weiter ist Q irreduzibel. Wir setzen nun voraus, dass α i < c i µ i für alle i (den Beweis im umgekehrten Fall ersparen wir uns). Definiere π durch (3.5.9). Nach Satz ist zu zeigen, dass πq = 0 (die Eindeutigkeit von π folgt dann aus Korollar 3.4.7). Wir zeigen sogar, dass für jedes n = (n 1,...,n N ) gilt N π n ei q n ei,n + i=1 N π n+ej q n+ej,n j=1 N π n ei +e j q n ei +e j,n i,j=1 i j N = π n q n,n+ej, (3.5.12) j=1 N N = π n q n,n ei + π n q n,n ei +e j, (3.5.13) i=1 i,j=1 i j (3.5.14) woraus sofort πq = 0 folgt.

85 Version Februar Wir zeigen nur (3.5.12), da (3.5.13) analog bewiesen wird. Die linke Seite von (3.5.12) ist N ( N ) Ψ i (n i ) Ψ j (n j + 1)((n j + 1) c j )µ j p j0 j=1 i=1 i j N N = Ψ i (n i ) i=1 i=1 j=1 j=1 Ψ j (n j + 1) ( ) (nj + 1) c j µj p j0 Ψ j (n j ) N N N N = Ψ i (n i ) α j p j0 = Ψ i (n i ) α j (1 N N = Ψ i (n i ) λ j, i=1 j=1 i=1 j=1 N ) p jk k=1 (3.5.15) was gleich der rechten Seite von (3.5.12) ist, wobei wir beim letzten Gleichheitszeichen die Verkehrsgleichung (3.5.4) und beim vorletzten die explizite Formel für Ψ j (n j +1)/Ψ j (n j ) benutzten.

86

87 Kapitel 4 Gaußsche Prozesse und Zeitreihenanalyse 4.1 Einleitung In diesem Kapitel behandeln wir die wichtige Klasse der Gaußprozesse und einige Fragestellungen aus der Zeitreihenanalyse wenn auch sehr oberflächlich. Definition Ein reellwertiger stochastischer Prozess X(t), t I heißt Gaußprozess, wenn alle (endlichen) Linearkombinationen Y (t 1,,t k ) k (α 1,,α k ) = α i X(t i ) k N, t 1,...,t k I, α 1,...,α k R, normalverteilt sind. Im Fall I < heißt X(t), t I auch Gaußvektor. i=1 Bemerkung Wir bezeichnen eine Zufallsgröße auch dann als normalverteilt, wenn sie fast sicher konstant ist! - Da (X 1,...,X n ) genau dann (gemeinsam) Gaußverteilt (oder normalverteilt) ist, wenn alle Linearkombinationen (eindimensional) normalverteilt sind, ist X(t), t I ein Gaußprozess genau dann, wenn alle endlich-dimensionalen Verteilungen Normalverteilungen sind. Definition Sei X(t), t I ein stochastischer Prozess mit EX 2 (t) < für alle t I. Sei µ(t) := EX(t). Dann heißt die Funktion definiert durch Kovarianzfunktion von X(t), t I. r : I I R r(s, t) := E((X(s) µ(s))(x(t) µ(t))), s, t I 83

88 84 Stochastische Modelle Satz Sei r die Kovarianzfunktion des Prozesses X(t), t I. Dann ist r positiv semidefinit, d.h. k z i r(t i, t j )z j i,j=1 ist reell und nicht negativ für alle k N, z = (z 1,...,z k ) C k, t 1,...,t k I. Beweis. k k ( ) z i r(t i, t j )z j = z i E (X(t i ) µ(t i ))(X(t j )) µ(t j )) i,j=1 i,j=1 (( k )( k )) = E z i (X(t i ) µ(t i )) z j (X(t j ) µ(t j )) = E i=1 k z i (X(t i ) µ(t i )) i=1 2 0 j=1 z j Bemerkung Den Querstrich über X(t j ) µ(t j ) im zweiten Ausdruck des Beweises kann man natürlich auch weglassen, da X(t j ) µ(t j ) reell ist. Man sieht aber, dass auch im Falle C- wertiger Prozesse r positiv semidefinit ist, wenn man r(t i, t j ) als E((X(t i ) µ(t i ))(X(t j ) µ(t j ))) definiert. Bemerkung Wir werden später sehen, dass auch umgekehrt jede reelle positiv semidefinite Funktion Kovarianzfunktion eines (reellwertigen) stochastischen Prozesses ist (sogar eines Gaußprozesses). Satz t I. a) Ein Gaußprozess hat endliche zweite Momente, d.h. EX 2 (t) < für alle b) Wenn X(t), t I ein Gaußprozess ist, t 1, t 2,...t k I, µ(t) := EX(t), t I, X µ := (X(t 1 ) µ(t 1 ),...,X(t k ) µ(t k )) T und Γ := cov(x(t 1 ),...,X(t k )) := E((X µ)(x µ) T ) invertierbar ist, dann hat die Verteilung von (X(t 1 ),..., X(t k )) eine Dichte, die gegeben ist durch ( f t1,...,t k (x) = (2π) k/2 (det Γ) 1/2 exp 1 2 (x µ)t Γ 1 (x µ) ), wobei x = (x 1,...,x k ) T, µ = (µ(t 1 ),...,µ(t k )) T.

89 Version Februar c) Die Verteilung eines Gaußprozesses ist durch seine Erwartungswertfunktion EX(t) = µ(t) und Kovarianzfunktion eindeutig festgelegt. Beweis. a) Nach Definition ist X(t) = Y (t) (1) eindimensional normalverteilt und hat daher ein zweites (und sogar beliebiges n-tes für n N) Moment. b) und c) sind aus der Vorlesung WT I bekannt. Bei c) beachte man, dass die endlichdimensionalen Verteilungen die Verteilung festlegen. Der folgende Satz zeigt, wie man mehrdimensional-normalverteilte Zufallsvariablen aus unabhängig N(0, 1)-verteilten erhält. Satz Sei m N, µ R m und Σ R m m positiv semidefinit. Sei rg(σ) = k und n max(k,1). Dann existiert ein A R m n, so dass Σ = AA T. Sind Y 1,...,Y n unabhängig N(0, 1)-verteilte ZVn, dann ist N(µ, Σ)-verteilt. X := AY + µ Beweis. Die erste Behauptung ist ein bekanntes Resultat aus der linearen Algebra. (i) X ist ein Gaußvektor, da alle Linearkombinationen der Komponenten von X gleichzeitig Linearkombinationen der Komponenten von Y plus einer Konstanten und damit normalverteilt sind. (ii) EX = E(AY + µ) = AEY + µ = µ. (iii) cov X = E((X µ)(x µ) T ) = E((AY (AY ) T ) = E(AY Y T A T ) = AE(Y Y T )A T = AA T = Σ. Bemerkung Satz lässt sich zur Simulation von Gaußvektoren anwenden. Will man X N(µ,Σ) simulieren, so finde man für n rg(σ) 1 ein A mit Σ = AA T. Man kann z.b. n = m wählen und A mit dem Choleskyverfahren berechnen. Die unabhängigen N(0, 1)- verteilten Y 1, Y 2,... simuliert man aus unabhängig, auf [0, 1] gleichverteilten Zufallsvariablen U 1, U 2,... am einfachsten paarweise durch usw. (vgl. letzte Bemerkung in Kapitel 1). Y 1 := ( 2 log U 1 ) 1/2 cos(2πu 2 ) Y 2 := ( 2 log U 1 ) 1/2 sin(2πu 2 ) Satz Sei I eine nichtleere Menge, µ : I R beliebig und r : I I R positiv semidefinit. Dann existiert (bzgl. Verteilung) genau ein Gaußprozess mit Erwartungswertfunktion µ und Kovarianzfunktion r.

90 86 Stochastische Modelle Beweis. Definiere die Verteilungen µ(t 1 ) P t1...t k := N., r(t i, t j ) i,j=1,...,k µ(t k ) für k N, t 1,...,t k I. Man kann leicht zeigen, dass die Familie dieser Maße konsistent im Sinne von Definition ist. Daher existiert nach Satz eine eindeutige Verteilung P auf (R I, B I ) mit obigen endlich dimensionalen Verteilungen. P ist offensichtlich die eindeutige Verteilung eines Gaußprozesses mit den vorgeschriebenen Erwartungswerten und Kovarianzen. Satz Sei X(t), t I ein Gaußprozess. Dann sind äquivalent: (i) X(t), t I sind unabhängig (d.h. {X(t 1 ),...,X(t k )} sind unabhängig für alle k N, t 1, t 2,...,t k I paarweise verschieden). (ii) X(t), t I sind paarweise orthogonal, d.h. E((X(t) µ(t))(x(u) µ(u))) = 0 für alle t, u I, t u. Beweis. (i) (ii): Gilt allgemein für Prozesse mit endlichen zweiten Momenten. (ii) (i): Seien t 1,...,t k I paarweise verschieden. Wenn X(t 1 ),...,X(t k ) paarweise unkorreliert sind, gilt X(t 1 ). X(t k ) N µ(t 1 ). µ(t k ), σ 2 (t 1 ) σ 2 (t k ), wobei σ 2 (t i ) = var (X(t i )). Nach Satz gilt, dass für unabhängige N(0, 1)-verteilte Y 1,...,Y k X(t 1 ) µ(t 1 ) σ(t 1 ) 0 Y 1. = X(t k ) µ(t k ) 0 σ(t k ) dieselbe Verteilung wie (X(t 1 ),...,X(t k )) T hat, also ( X(t 1 ),, X(t k )) paarweise unkorreliert sind. Da aber X(t i ) = µ(t i ) + σ(t i )Y i für i = 1,...,k als Funktionen unabhängiger Zufallsvariabler ebenfalls unabhängig sind, gilt dasselbe auch für X(t 1 ),..., X(t k ). Y k 4.2 Vorhersage stochastischer Prozesse Wir studieren nun das für Anwendungen wichtige Vorhersageproblem für stochastische Prozesse:

91 Version Februar Problem: Gegeben sei ein reellwertiger stochastischer Prozess X(t), t I auf (Ω, F, P) (mit bekannter Verteilung ˆP). Wir nehmen an, dass für Ĩ I die Realisierung X(t), t Ĩ beobachtet wurde. Sei t 0 I \ Ĩ. Man finde eine gute (optimale) Vorhersage für X(t 0) aufgrund der Beobachtungen und der bekannten Verteilung. Offenbar besteht die Aufgabe darin, eine (von ˆP abhängige) Funktion f : RĨ R zu finden, so dass ˆX(t 0 ) = f(x(t), t Ĩ) eine gute Schätzung für X(t 0 ) darstellt. Da sowohl X(t 0 ) also auch ˆX(t 0 ) Zufallsvariablen sind, bietet es sich an, z.b. eine Metrik d auf R zu definieren und ˆX(t 0 ) (oder f) als optimal zu bezeichnen, wenn E d(x(t 0 ), ˆX(t 0 )) minimal ist, wobei das Minimum über alle (messbaren) Funktionen f : RĨ R gebildet wird. Aus Gründen der mathematischen Einfachheit wählt man meist das Quadrat des euklidischen Abstands d(x, y) = (x y) 2, was zwar keine Metrik ist, aber zumindest symmetrisch ist und d(x, y) = 0 genau dann, wenn x = y erfüllt. Diese Wahl von d ist aber keineswegs zwingend, die Berechnung des optimalen f wird aber durch andere Wahlen von d unter Umständen beträchtlich aufwendiger. Die Verwendung von d(x, y) = (x y) 2 setzt natürlich voraus, dass X(t), t I endliche zweite Momente hat (sonst wäre typischerweise Ed(X(t 0 ), ˆX(t 0 )) unendlich für jedes f). Zur Lösung des Problems im Fall d(x, y) = (x y) 2 definieren wir den Raum H = L 2 (Ω, F, P) als den Hilbertraum aller über (Ω, F, P) definierten (reellwertigen) quadratintegrierbaren Funktionen (Zufallsvariablen) mit dem Skalarprodukt Y, Z = E(Y Z). Sei K = L 2 Ĩ (Ω, F, P) der von den X(t), t Ĩ erzeugte abgeschlossene Teilraum von L2 (Ω, F, P). Er enthält zum Beispiel X(t)X(u) 1/2, falls t, u Ĩ. Alle Elemente von L2 (Ω, F, P) sind Funktionen der (beobachteten) Zufallsvariablen X(t), t Ĩ. Die beste Approximation (im obigen Ĩ Sinn) einer Zufallsvariablen X(t 0 ), die im allgemeinen nicht in L 2 (Ω, F, P) liegt, ist gerade die Ĩ orthogonale Projektion ˆX(t 0 ) von X(t 0 ) auf L 2 (Ω, F, P). Aus der Vorlesung WTII ist bekannt, Ĩ dass ˆX(t 0 ) = E(X(t 0 ) X(t), t Ĩ). Es gilt also: E(X(t 0 ) ˆX(t 0 )) 2 = min E(X(t 0 ) Y ) 2. (4.2.1) Y L 2(Ω,F,P) Ĩ Im Fall Ĩ = enthält L2 (Ω, F, P) übrigens nur die Konstanten, ist also eindimensional. In Ĩ diesem Fall ist ˆX(t 0 ) = EX(t 0 ), also die bedingte Erwartung gleich dem (unbedingten) Erwartungswert. Unser Problem ist bislang aber nur theoretisch gelöst. Die entscheidende Frage ist, wie man die orthogonale Projektion ˆX(t 0 ) als Funktion f von X(t), t Ĩ explizit ausdrückt. Das Problem ist deswegen oft sehr schwer zu lösen, weil auch im Fall Ĩ < der Raum K = L2 (Ω, F, P) Ĩ typischerweise unendlich-dimensional ist selbst im Fall Ĩ = 1.

92 88 Stochastische Modelle Um wenigstens im Fall Ĩ < auf ein endlichdimensionales Approximationsproblem zu kommen, vereinfacht man oft die Fragestellung dadurch, dass man, anstatt in (4.2.1) das Minimum über alle Y L 2 (Ω, F, P) zu bilden, nur über die Y minimiert, die sich als Linearkombination der X(t), t Ĩ und der Konstanten schreiben lassen. Damit die zugelassenen Y einen Ĩ abgeschlossenen Teilraum von L 2 (Ω, F, P) bilden, vervollständigt man noch bezüglich der Norm von L 2 (Ω, F, P) (im Fall Ĩ = ). Wir bezeichnen diese Vervollständigung mit L 2 (Ω, F, P). Ist Ĩ = k <, dann ist dieser Ĩ,lin Raum maximal k+1-dimensional. Im Fall linearer Abhängigkeiten zwischen den X(t), t Ĩ und den Konstanten ist die Dimension kleiner als k + 1, sonst gleich k + 1. Das optimale Y in dieser Klasse bezeichnen wir mit X(t 0 ). X(t0 ) ist also die orthogonale Projektion von X(t 0 ) auf den Raum L 2 (Ω, F, P). Da Ĩ,lin L2 (Ω, F, P) Ĩ,lin L2(Ω, F, P), ist E(X(t Ĩ 0) X(t 0 )) 2 im allgemeinen größer als E(X(t 0 ) ˆX(t 0 )) 2. Also ist X(t 0 ) ein schlechterer Prädiktor für X(t 0 ) als ˆX(t 0 ), ist dafür aber meist leichter berechenbar. Wir zeigen nun, wie man X(t 0 ) im Fall X < als Lösung eines linearen Gleichungssystems berechnen kann. Satz Sei X(t), t I ein reellwertiger stochastischer Prozess, Ĩ = {t 1,...,t m } I und t 0 I\Ĩ. Weiter sei EX2 (t) < für t Ĩ {t 0} und µ(t) := EX(t) R(t, u) := EX(t)X(u), t, u Ĩ {t 0}. Sei X(t0 ) die orthogonale Projektion von X(t 0 ) auf den von den Linearkombinationen von X(t), t Ĩ und den Konstanten erzeugten Teilraum L2 Ĩ,lin (Ω, F, P) von L2 (Ω, F, P). Dann gilt m X(t 0 ) = a i X(t i ) + a, wobei a, a 1,...,a m irgendeine Lösung von m a j R(t i, t j ) + aµ(t i ) = R(t 0, t i ), i = 1,, m j=1 ist. i=1 m a j µ(t j ) + a = µ(t 0 ) j=1 (4.2.2) Beweis. Die orthogonale Projektion X(t 0 ) von X(t 0 ) auf den Spann von X(t 1 ),..., X(t m ), 1l (1l = Konstante 1) ist charakterisiert durch E((X(t 0 ) X(t 0 ))X(t i )) = 0, E(X(t 0 ) X(t 0 ))1l) = 0 i = 1,...,m (4.2.3) und die Bedingung, dass X(t 0 ) in diesem Spann liegt, also eine Darstellung m X(t 0 ) = a i X(t i ) + a i=1

93 Version Februar hat. Setzt man letztere Formel in (4.2.3) ein, so ist das dadurch entstehende lineare Gleichungssystem identisch mit (4.2.2). Bemerkungen. Man sieht aus (4.2.2), dass man zur Berechnung der optimalen linearen Vorhersage nur µ und r braucht. Dies hat eine große praktische Bedeutung, da man bei unbekannter Verteilung nur µ und r und nicht die komplette Verteilung schätzen muss, um die optimale lineare Vorhersage zu berechnen. Auch der sogenannte Vorhersagefehler E(X(t 0 ) X(t 0 )) 2 hängt nur von µ und r (oder µ und R) ab. 4.3 Rekursive lineare Vorhersage Der Aufwand zur Lösung von (4.2.2) mit Standardmethoden ist von der Größenordnung m 3. Kommt eine neue Beobachtung hinzu, so muss man ein neues Gleichungssystem mit m + 1 Unbekannten lösen. Es stellt sich die Frage, ob man sich dabei Arbeit sparen kann indem man (Zwischen)ergebnisse früherer Berechnungen mitverwendet. Konkret betrachten wir den Fall, dass sukzessive X 1, X 2, X 3,... beobachtet werden und man jeweils die beste lineare Vorhersage der nächsten Zufallsvariable berechnen will. Wir nehmen der Einfachheit halber an, dass EX i = 0 für alle i N gilt und setzen wieder r(i, j) = R(i, j) = cov (X i, X j ) = E(X i X j ) für i, j N. Weiter sei H n = sp{x 1,...,X n } der (lineare) Spann von X 1 bis X n und X n+1 die orthogonale Projektion (= beste lineare Vorhersage) von X n+1 auf H n. Weiter sei v n = X n+1 X n+1 2 = E((X n+1 X n+1 ) 2 ) der Vorhersagefehler bei der optimalen linearen Vorhersage von X n+1 aufgrund von X 1 bis X n. Offenbar gilt: H n = sp{x n X n,...,x 1 X 1 } (man beachte, dass X 1 = 0 ist). Da X n+1 H n für jedes n N gilt, existiert eine Darstellung n X n+1 = θ nj (X n+1 j X n+1 j ), j=1 die sogenannte Innovationsdarstellung. Man beachte, dass die Innovationen X n X n für n N orthogonal sind (wobei es möglich ist, dass X n X n = 0 für gewisse n N ist). Bei der Innovationsdarstellung wird die (neue) Vorhersage im n-ten Schritt durch die früheren Beobachtungen X n+1 j und die früheren Vorhersagen X n+1 j ausgedrückt. Die Aufgabe besteht nun darin, die zunächst unbekannten Koeffizienten θ nj zu berechnen und zwar möglichst so, dass sie ohne großen Aufwand aus den θ kj für 1 k < n berechenbar sind. Der folgende Satz (der sich auch in [BD87], S. 165 findet) zeigt, wie dies funktioniert: Satz Sei X 1, X 2,... eine Folge von quadratintegrierbaren Zufallsvariablen mit EX i = 0, i N. Weiter sei für alle n die Matrix (r(i, j)) i,j=1,...,n invertierbar. Mit den obigen Bezeichnungen gilt dann: 0 n = 0 X n+1 = n θ nj (X n+1 j X n+1 j ) n 1 (4.3.1) j=1

94 90 Stochastische Modelle und θ n,n k v 0 = r(1, 1) = v 1 k (r(n + 1, k + 1) k 1 j=0 θ k,k jθ n,n j v j ) k = 0,...,n 1 v n = r(n + 1, n + 1) n 1 j=0 θ2 n,n j v j n N. (4.3.2) Bemerkung (4.3.2) erlaubt eine rekursive Berechnung der θ nj und v j in der Reihenfolge v 0 ; θ 11, v 1 ; θ 22, θ 21, v 2 ; θ 33, θ 32, θ 31, v 3 usw. Der Zusatzaufwand zur Berechnung von θ nn bis θ n1 ist von der Größenordnung n 2 anstatt n 3 bei einem nichtrekursiven Verfahren. Für große n ist der Speicheraufwand allerdings nicht unerheblich, da man sich alle früheren θ nj und v j aufheben muss. Beweis von Satz Bildet man in (4.3.1) beidseitig das Skalarprodukt mit X k+1 X k+1 für 0 k < n, so erhält man (wegen der Orthogonalität der Innovationen) X n+1, X k+1 X k+1 = θ n,n k v k und somit (unter erneuter Verwendung der Orthogonalität) θ n,n k = v 1 k X n+1, X k+1 X k+1. Die Tatsache, dass v k 0 ist, folgt aus der Invertierbarkeit der Kovarianzmatrizen. Nun setzen wir (4.3.1) mit k statt n ein und erhalten: k 1 θ n,n k = v 1 k (r(n + 1, k + 1) θ k,k j X n+1, X j+1 X j+1 ). j=0 Ersetzt man X n+1, X j+1 X j+1 durch θ n,n j v j (siehe oben), so erhält man, wie behauptet, k 1 θ n,n k = v 1 k (r(n + 1, k + 1) θ k,k j θ n,n j v j ). Weiter gilt mit dem (verallgemeinerten) Satz von Pythagoras: v n = X n+1 X n+1 2 = X n+1 2 X n 1 n+1 2 = r(n + 1, n + 1) θn,n jv 2 j. Wir präsentieren (nach der folgenden Bemerkung) zwei Beispiele, die zeigen, dass optimale lineare Vorhersagen gelegentlich deutlich schlechter sind als optimale (nichtlineare) Vorhersagen. j=0 j=0 Bemerkung Satz bleibt richtig, wenn man die Invertierbarkeit von r nicht voraussetzt und θ n,n k im Fall v k = 0 beliebig (z.b. Null) wählt. Beispiel Wir wählen I = {1, 2} und X 1 = Größe und X 2 = Gewicht einer zufällig gewählten Person. Sicher sind X 1 und X 2 nicht unabhängig. Ein Scatterplot vieler Messungen könnte (etwas übertrieben) so aussehen:

95 Version Februar Hier kommt in der Vorlesung ein Bild hin! Die beste lineare Vorhersage des Gewichts gegeben die Größe ist die eingezeichnete Regressionsgerade (jedenfalls im Grenzfall unendlich vieler Beobachtungen). Man sieht, dass vor allem in den Bereichen extremer Größen, aber auch im Zentralbereich die Vorhersage schlecht ist. Eine geeignete kubische statt einer linearen Funktion führt dagegen zu wesentlich besseren Vorhersagen. Beispiel Sei I = {1, 2}, X 1 N(0, 1) und X 2 = X 2 1. Offenbar ist E(X 2 X 1 ) = X 2 1 = X 2, d.h. X 2 lässt sich aus X 1 perfekt vorhersagen. Wir berechnen nun die beste lineare Vorhersage X 2 = a 1 X 1 + a. Das Gleichungssystem (4.2.2) in Satz lautet: a 1 R(1, 1) + a µ(1) = R(1, 2) a 1 µ(1) + a = µ(2). Hier ist R(1, 1) = EX 2 1 = 1, R(1, 2) = E(X 1X 2 ) = E X 3 1 = 0, µ(1) = 0 und µ(2) = EX2 1 = 1. Die Lösung des Systems lautet daher a 1 = 0 a = 1. Also ist die beste lineare Schätzung von X1 2 aufgrund von X 1 die Konstante 1. Diese Vorhersage ist also viel schlechter als die beste nichtlineare Vorhersage X1 2. Letztere erfordert in diesem Fall sogar geringeren Rechenaufwand. Während im allgemeinen die beste lineare Vorhersage schlechter als die beste (nichtlineare) Vorhersage ist, sind im Fall von Gaußprozessen beide gleich, wie der folgende Satz zeigt. Satz Für Gaußprozesse X(t), t I ist die beste Vorhersage linear. Beweis. Die Aussage gilt für beliebige Ĩ I, wir zeigen sie aber nur für Ĩ <. Sei Ĩ = {t 1,...,t m }, t 0 I\Ĩ und m X(t0) = a i X(t i ) + a die beste lineare Vorhersage von X(t 0 ) gegeben X(t 1 ),...,X(t m ). Also gilt (X(t 0 ) i=1 m a i X(t i ) a) 1l, X(t 1 ),...,X(t m ). i=1 Nun orthogonalisieren wir 1l, X(t 1 ),..., X(t m ): das Resultat sei 1l, X 1,...,X r. Nun ist (X(t 0 ) m a i X(t i ) a,1l, X 1,...,X r ) ein Gaußvektor mit paarweise unkorrelierten Komponenten. Nach i=1 Satz sind die Komponenten sogar unabhängig. Insbesondere sind die beiden Zufallsvariablen m X(t 0 ) a i X(t i ) a und f(1l, X 1,...,X r ) = g(1l, X(t 1 ),...,X(t m )) i=1 unabhängig für jedes messbare f (oder g) und damit gilt E((X(t 0 ) m a i X(t i ) a)g(1l, X(t 1 ),...,X(t m ))) = 0, i=1

96 92 Stochastische Modelle für jedes messbare g : R m+1 R mit Eg 2 (1l, X(t 1 ),..., X(t m )) <. Daraus folgt ˆX(t 0 ) = E(X(t 0 ) 1l, X(t 1 ),...,X(t m )) = X(t 0 ). Bemerkung Man kann Satz wie folgt interpretieren: Unter allen Prozessen mit vorgegebener Erwartungswertfunktion und vorgegebener Kovarianzfunktion ist der Gaußprozess am schlechtesten (nichtlinear) vorhersagbar. Die Güte der linearen Vorhersage ist nämlich für all diese Prozesse identisch. Für die meisten dieser Prozesse ist aber die beste nichtlineare Vorhersage strikt besser als die beste lineare. Zu den Ausnahmen gehört aber nach dem letzten Satz der (einzige) Gaußprozess in der Klasse. Bemerkung Zwischen der besten linearen Vorhersage und der bedingten Erwartung (= beste (nichtlineare) Vorhersage) gibt es die besten polynomialen Vorhersagen mit vorgegebenem Grad. So ist im Fall Ĩ < die beste quadratische Vorhersage für X(t 0) von der Form ˇX(t 0 ) = a + m a i X(t i ) + i=1 m a ij X(t i )X(t j ). (4.3.3) i,j=1 in Die Koeffizienten bestimmen sich wieder aus einem linearen Gleichungssystem, wenn man E((X(t 0 ) ˇX(t 0 ))X(t i ) ) = 0 E(X(t 0 ) ˇX(t 0 )) = 0 i = 1,...,m E((X(t 0 ) ˇX(t 0 ))X(t i )X(t j ) ) = 0 i, j = 1,...,m Formel (4.3.3) einsetzt. Damit dieser Ansatz funktioniert, müssen alle Momente bis zur vierten Ordnung endlich und bekannt sein. Die bessere Qualität der quadratischen gegenüber der linearen Vorhersage wird also dadurch erkauft, dass man mehr Informationen über den Prozess benötigt, was vor allem dann problematisch sein kann, wenn alle diese Parameter aus Realdaten geschätzt werden müssen. 4.4 Filterprobleme, der Kalmanfilter Spezialfälle der Betrachtungen im letzten Abschnitt sind neben Vorhersageproblemen (im engeren Sinne) auch Interpolations- und Filterprobleme. Ein Beispiel für ein Interpolationsproblem ist: bei einem reellen Prozess X t, t N 0 liegen Messwerte für t = 0, 1, 2, 4 vor, der für t = 3 fehle. Er läßt sich optimal (im Sinne minimalen quadratischen Fehlers) interpolieren durch ˆX 3 = E(X 3 X 0, X 1, X 2, X 4 ) oder optimal linear interpolieren durch X 3 wie zuvor ( linear heißt hier natürlich nicht, dass X 3 notwendig der Mittelwert von X 2 und X 4 ist). Bei Filterproblemen hat man es immer mit einem höherdimensionalen Prozess zu tun, bei dem gewisse Komponenten den interessierenden Zustand eines Systems beschreiben und andere Komponenten typischerweise verrauschte Beobachtungen (von Funktionen) der Zustandskomponenten. Der Zustand kann z.b. die Position und Geschwindigkeit einer Rakete sein. Das

97 Version Februar Filterproblem besteht darin, bei gegebenem Modell und Beobachtung nur einiger Komponenten bis zur Zeit n die anderen Komponenten zur Zeit n (oder n + m für ein m Z) optimal zu schätzen. Dies kann man wie vorher für jede zu schätzende Komponente getrennt durch orthogonale Projektion lösen. Besonders berühmt ist der Spezialfall des Kalmanfilters, den wir etwas näher untersuchen wollen. Wir folgen dabei der Darstellung von Jazwinski: Stochastic Processes and Filtering Theory, Academic Press, Sei X 0, X 1, X 2,... ein R d -wertiger Prozess, der durch folgende Rekursion gegeben ist: X n+1 = F n X n + V n+1, n N 0, wobei F n für jedes n N 0 eine vorgegebene (deterministische) d d-matrix ist. Der R k -wertige Beobachtungsprozess Y 0, Y 1,... sei gegeben durch Y n = G n X n + W n, n N 0 mit bekannten k d-matrizen G n. Wir nehmen an, dass alle Komponenten von X 0, V n+1 und W n, n N 0 ein endliches zweites Moment und Erwartungswert Null haben und je zwei Komponenten verschiedener Elemente von {X 0, V n+1, W n, n N 0 } unkorreliert sind. Sei Q n = cov(v n ) und R n = cov(w n ). Sei H = L 2 (Ω, F, P), H n der Teilraum der Linearkombinationen der Komponenten von Y 0,..., Y n, n N 0 und H 1 := {0}. π n bezeichne die orthogonale Projektion von H auf H n. Weiter sei X 1 := 0, V 0 := X 0, F 1 := 0 (womit X 0 = F 1 X 1 + V 0 ) und ˆX m n := π m (X n ) (komponentenweise) für m, n + 1 N 0. Unser Ziel besteht darin, für festes m N 0 eine Rekursionsformel für ˆX n n+m zu finden. Eine solche Formel geben wir im folgenden Satz an. Dazu brauchen wir noch die Matrizen die die Vorhersagefehler beschreiben. P m n := cov(x n ˆX m n ), m, n + 1 N 0, Satz Sei R n invertierbar für jedes n N 0, dann gilt für n N 0 : (i) ˆX n n+1 = F n ˆX n n, (ii) P n n+1 = F np n n F T n + Q n+1, (iii) ˆX n n = ˆX n 1 n + K n (Y n G n ˆXn 1 n ), (iv) P n n = P n 1 n wobei (v) K n := P n 1 n K n G n P n 1 n, G T n(g n Pn n 1 G T n + R n ) 1 der Kalmanzuwachs ist. Weiter gelten die Anfangsbedingungen (vi) ˆX 1 0 = 0, P 1 0 = cov(x 0 ) =: Q 0.

98 94 Stochastische Modelle Bemerkung Die Formeln erlauben startend mit 0 und P0 1 eine rekursive Berechnung von ˆX n, n ˆX n+1 n, P n n und Pn+1 n, wobei die Ps deterministisch sind. Man sieht, dass die Rekursion für die P s nicht von den Beobachtungen abhängt und sich daher off-line im voraus berechnen lässt, während in die ˆX (wie zu erwarten) die Beobachtungen (linear) einfließen. Die Berechnung der Ps ist auch notwendig, wenn man an ihnen kein Interesse hat, da sie via K n in die Rekursion der ˆX eingehen. Ist man nur an ˆX n n+1 und nicht an ˆX n n interessiert, so kann man die dritte in die erste Gleichung einsetzen und entsprechend, wenn man nur an ˆX n n interessiert ist, die erste in die dritte (mit verschobenem n) einsetzen. Interessiert man sich (auch) für ˆX n+m n für m 2, so kann man die Formel n ˆX n+m n = F k ˆXn n verwenden, denn k=n+m 1 ˆX 1 ˆX n+m n = π n (X n+m ) = π n (F n+m 1 X n+m 1 + V n+m ) n = F n+m 1 π n (X n+m 1 ) =... = F k π n (X n ) per Induktion, wobei wir π n (V n+k ) = 0 für k N benutzten. k=n+m 1 Beweis von Satz (i) haben wir gerade eben gezeigt (setze m = 1). Auch (vi) ist offensichtlich. (ii) P n n+1 = E((X n+1 ˆX n n+1)(x n+1 ˆX n n+1) T ) = E((F n X n + V n+1 F n ˆXn n )(F n X n + V n+1 F n ˆXn n ) T ) = E(F n (X n ˆX n n)(x n ˆX n n) T F T n ) + Q n+1 = F n P n n F T n + Q n+1 für n N 0, wobei wir (i) benutzten, sowie die Unkorreliertheit der Komponenten von V n+1 mit den Komponenten von X n und ˆX n n. (iii) Wir berechnen zunächst π n 1 (Y n ) für n N 0 : π n 1 (Y n ) = π n 1 (G n X n + W n ) = G n π n 1 (X n ) + π n 1 (W n ) = G n ˆXn 1 n + 0. Nach Definition von H n erzeugen die Komponenten von Y n π n 1 (Y n ) das orthogonale Komplement von H n 1 in H n, somit existiert eine d d-matrix K n mit also π n (X n ) = π n 1 (X n ) + K n (Y n π n 1 (Y n )), ˆX n n = ˆX n 1 n + K n (Y n G n ˆXn 1 n ). (4.4.1)

99 Version Februar (v) Zu zeigen ist, dass K n die in (v) angegebene Gestalt hat. Für n N 0 gilt sowie mit (iii), (i) Y n = G n X n + W n = G n F n 1 X n 1 + G n V n + W n, X n ˆX n n = F n 1 X n 1 + V n = F n 1 (X n 1 ˆX n 1 n K n (Y n G n ˆXn 1 n ) ˆX n 1 n 1 ) + V n K n G n F n 1 (X n 1 K n (G n V n + W n ). ˆX n 1 n 1 ) Nun gilt X n ˆX n n Y n (für je 2 Komponenten), also unter Benutzung von [ 0 = E (X n ˆX n)y n n T Y n = G n F n 1 (X n 1 ] = F n 1 P n 1 n 1 F T n 1 GT n + Q n G T n n 1 n 1 ˆX n 1 + ˆX n 1 ) + G nv n + W n : K n (G n F n 1 P n 1 n 1 F T n 1G T n + G n Q n G T n + R n ), woraus mit (ii) die Formel (v) folgt (da R n und damit G n Pn n 1 G T n + R n invertierbar ist). (iv) Aus (4.4.1) folgt (mit I = d-dim. Einheitsmatrix) P n n = cov(x n ˆX n 1 n = (I K n G n )P n 1 n = (I K n G n )P n 1 n = (I K n G n )P n 1 n = (I K n G n )P n 1 n K n G n (X n ˆX n 1 n ) K n W n ) (I K n G n ) T + K n R n Kn T + (K n G n I)Pn n 1 G T nkn T + K n R n Kn T + K n (G n P n 1 n G T n + R n )K T n P n 1 n G T nk T n nach (v). 4.5 Schwach stationäre Prozesse Wir beschäftigen uns nun mit der Frage, wie man Datenreihen vorhersagt, für die a-priori keine Information über die Verteilung des Prozesses, als deren Realisierung sie interpretiert werden, vorliegt. Man wird in diesem Fall versuchen, entweder die komplette Verteilung aus den Daten zu schätzen und dann die jeweils für die besten (nichtlineare) Vorhersage benötigten bedingten Erwartungen zu berechnen (wobei die Frage nach einem Berechnungsverfahren zunächst offen bleibt), oder lediglich die Mittelwerte und Kovarianzen zu schätzen und dann nach Satz oder die besten linearen Vorhersagen explizit berechnen. Natürlich könnte man analog auch gemäß Bemerkung die besten quadratischen Vorhersagen usw. berechnen. Wir behandeln im weiteren nur den Fall der optimalen linearen Vorhersage. Wir stellen uns vor, dass Y 1, Y 2,... zeitlich äquidistante Messungen sind. Liegen die Beobachtungen y 1,...,y n vor, so sieht man aus Satz 4.3.1, dass man zur Vorhersage von X n+1 := Y n+1 EY n+1 den Mittelwert µ(n + 1) und die Kovarianzen r(n + 1, k + 1) benötigt. Da bislang keine Beobachtung von Y n+1 vorliegt, hat man zunächst keinerlei Grundlage für eine Schätzung dieser Größen.

100 96 Stochastische Modelle Man behilft sich dadurch, dass man darauf vertraut, dass Y n+1 sich im Vergleich zu den bisherigen Daten y 1,...,y n nicht völlig anders verhält. Man wird also versuchen, Muster oder Strukturen in den Beobachtungen y 1,...,y n zu erkennen und auf y n+1 zu extrapolieren. Hierfür gibt es prinzipiell sehr viele Möglichkeiten. Die folgende hat sich in vielen Fällen aber als besonders geeignet erwiesen. Sie beruht darauf, dass viele Datenreihen Trends und/oder saisonale Komponenten aufweisen und ansonsten d.h. nach Trend- und Saisonbereinigung stationär aussehen. Damit ist ein konkreter Weg bereits angedeutet: Man schätzt zunächst Trend und saisonale Komponenten, zieht diese ab und schätzt dann für den als stationär angenommenen Prozess den (konstanten) Mittelwert und die Kovarianzen, die dann nur noch von der Zeitdifferenz abhängen. Man geht also von der Annahme aus, dass nach Trend- und Saisonbereinigung die statistische Kopplung von Y n+1 an Y n,...,y n k dieselbe ist wie die von Y n an Y n 1,...,Y n k 1 und Y n 1 an Y n 2,...,Y n k 2 usw. Wir werden nun diese etwas vagen Äußerungen präzisieren, indem wir zunächst sehr allgemein definieren, was ein stationärer und schwach stationärer Prozess ist und dann andeuten, wie man Trend- und Saisonbereinigung durchführen kann und wie man Mittelwert und Kovarianzen eines schwach stationären Prozesses schätzen kann. Definition Sei (I, +) eine Halbgruppe und X(t), t I ein reellwertiger stochastischer Prozess. Dieser heißt (strikt) stationär, wenn P({ω : (X(t 1 ),...,X(t k )) B}) = P({ω : (X(t 1 + h),..., X(t k + h)) B}) für alle k N, B B n und t 1,...,t k, h I gilt. Bemerkung Nach Satz bleiben nicht nur die endlich-dimensionalen Verteilungen unter einem Zeitshift invariant, sondern sogar die Verteilung selbst. Definition Sei (I, +) eine Halbgruppe und X(t), t I ein stochastischer Prozess. Dieser heißt schwach stationär (oder stationär von zweiter Ordnung), wenn EX 2 (t) < für alle t I und für alle t 1, t 2, h I gilt. EX(t 1 ) = EX(t 1 + h) E(X(t 1 )X(t 2 )) = E(X(t 1 + h)x(t 2 + h)) Bemerkung Fordert man E X(t) m < für alle t I und E(X(t 1 )X(t 2 )...X(t k )) = E(X(t 1 +h)...x(t k +h)) für alle k m N und t 1,...,t k, h I, dann nennt man den Prozess stationär von m-ter Ordnung. Wir werden solche Prozesse aber nicht speziell betrachten. Bemerkung Wenn ein Prozess endliche zweite Momente hat, dann folgt im Falle seiner (strikten) Stationarität die schwache Stationarität. Die Umkehrung gilt dagegen nicht (siehe Beispiel 4.5.7). Wie wir im folgenden Satz sehen, ist die Umkehrung allerdings unter der Zusatzvoraussetzung richtig, dass der Prozess Gaußsch ist.

101 Version Februar Satz Ein schwach stationärer Gaußprozess ist stationär. Beweis. Sei X(t), t (I,+) Gaußsch und schwach stationär. Dann gilt für µ(t) := EX(t), r(t, u) = cov(x(t), X(u)) nach Definition µ(t) = µ(t + h), r(t, u) = r(t + h, u + h), t, u, h I. (4.5.1) Die Verteilungen von (X(t 1 )...X(t k )) und (X(t 1 + h)...x(t k + h)) sind dann N((µ(t 1 ),...,µ(t k )) T, r(t i, t j ) i,j=1,...,k ) bzw. N((µ(t 1 +h),...,µ(t k +h)) T, r(t i +h, t j +h) i,j=1,...,k ) und stimmen daher nach (4.5.1) überein, d.h. X(t), t I ist stationär. Beispiel Das folgende Beispiel zeigt, dass ein schwach stationärer Prozess nicht immer stationär ist. Sei I = Z und X i, i Z unabhängig mit X i N(0, 1) für i 0 und P({X 0 = 1}) = P({X 0 = 1}) = 1/2. Dann gilt µ(i) = 0, r(i, j) = δ ij für i, j Z, d.h. der Prozess ist schwach stationär. Andererseits gilt aber z.b. 0 = P({X 0 > 2}) P({X 1 > 2}) > 0, d.h. nicht einmal die eindimensionalen Verteilungen sind invariant unter Zeitshifts. Wir diskutieren zuerst, wie man für eine als schwach stationär angenommene Datenreihe x 1,...,x n den (konstanten) Erwartungswert und die Kovarianzfunktion schätzt. Danach gehen wir kurz auf die Frage der Trend- und Saisonbereinigung von Datenreihen ein. 4.6 Schätzung von Erwartungswert und Kovarianzfunktion Ein naheliegender und in sehr vielen Fällen sinnvoller Schätzer für den Erwartungswert µ eines schwach stationären Prozesses ist der (empirische) Mittelwert der Zeitreihe ˆµ n = 1 n n x i. i=1 Satz a) ˆµ n, n N ist eine Folge von erwartungstreuen Schätzern für µ = EX(i), i N, d.h. Eˆµ n = µ für alle n N b) Wenn lim k r(k) = 0 für r(k) := cov(x(1), X(k + 1)) gilt, dann ist die Folge ˆµ n, n N eine L 2 -konsistente Folge von Schätzern für µ, d.h. E((µ ˆµ n ) 2 ) n 0. Bemerkung Die Bedingung für r in b) läßt sich nicht ersatzlos streichen. So ist zum Beispiel für X 1 = X 2 =... N(µ,1) ˆµ n = X 1 für alle n N und daher nicht L 2 -konsistent (aber erwartungstreu). Man beachte, dass L 2 -Konsistenz (schwache) Konsistenz impliziert, d.h. Beweis. a) Eˆµ n = E ( 1 n ) n X i = 1 n i=1 n EX i = µ. i=1 P( µ ˆµ n > ε) n 0.

102 98 Stochastische Modelle b) E ( (ˆµ n µ) 2) = E( ( 1 n = 1 n 2 n i=1 j=1 = 1 n 1 n k= (n 1) 1 n 1 n k= (n 1) n i=1 n r(i j) = 1 n 2 ( 1 k n ) ) 2 (X i µ) ) r(k) r(k) n 0. n 1 k= (n 1) = 1 n 2 n n i=1 j=1 (n k )r(k) ( ) E (X i µ)(x j µ) Als Schätzer für die Kovarianzen r(k) = cov (X(1), X(k + 1)), k N 0 sind üblich: ˆr n(k) := ˆr n (k) := 1 n k n k i=1 (x i ˆµ n )(x i+k ˆµ n ) k = 0,...,n 1 0 sonst. 1 n k n i=1 (x i ˆµ n )(x i+k ˆµ n ) k = 0,...,n 1 0 sonst. 1 Beide unterscheiden sich nur durch den Vorfaktor n k bzw. 1 n. Der erste Schätzer erscheint zunächst vernünftiger, da man durch die Anzahl der Summanden dividiert. Dennoch wird meist der zweite verwendet. Ein Grund dafür ist der, dass ˆr n (k) als Funktion von k immer eine positiv semidefinite Funktion ist (das werden wir in Satz sehen), ˆr n(k) dagegen im allgemeinen nicht (Beispiel: N = 3, x 1 = 1, x 2 = 0, x 3 = 1). Darüberhinaus hat ˆr n in vielen Fällen asymptotisch günstigere Eigenschaften. Für Eigenschaften wie (asymptotische) Erwartungstreue, Konsistenz, asymptotische Normalität usw. der Schätzungen ˆr n und ˆr n verweisen wir auf die Literatur ([Pr81], [BD87]). Neben der eben erwähnten Methode sind zwei weitere Zugänge zur Schätzung der Kovarianzfunktion eines Prozesses üblich eine parametrische im Zeitbereich und eine nichtparametrische im Frequenzbereich. Bei dem parametrischen Zugang im Zeitbereich versucht man, aus einer durch eine endliche Zahl von Parametern beschriebenen Klasse von stationären Prozessen einen Prozess auszuwählen, der am besten zu den beobachteten Daten passt. Besonders beliebt ist die Klasse der (stationären) ARMA-Prozesse. Dies sind stationäre Prozesse (auf einem geeigneten Wahrscheinlichkeitsraum), die eine Darstellung der Form X n + p a i X n i = i=1 q b j ε n j (4.6.1) haben mit p, q N 0, a 1,...,a p, b 0,...,b q R und ε n, n Z weißes Rauschen, d.h. Eε n = 0, n Z und Eε m ε n = δ mn. Gibt es eine Darstellung mit p = 0, so heißt der Prozess MA ( Moving j=0

103 Version Februar Average )-Prozess, gibt es eine solche mit q = 0, dann heißt der Prozess AR (autoregressiver)- Prozess. Macht man eine spezielle Verteilungsannahme für die ε n, n Z, z.b. uiv N(0, 1), dann kann man die Parameter mit der Maximum-Likelihood-Methode (ML) schätzen. Es stellt sich dabei als wenig sinnvoll heraus, auch p und q so zu schätzen. Vielmehr wird man zunächst p und q mit anderen Methoden (möglichst klein) schätzen und dann die verbliebenen a 1,...,a p, b 0,...,b q nach ML schätzen. In vielen Fällen ist diese Berechnung mühsam und man verwendet daher Näherungsverfahren. Bei der Schätzung der a i und b j ist übrigens darauf zu achten, dass es auch wirklich einen stationären Prozess X n, n Z gibt mit einer Darstellung der Form (4.6.1). Für Details verweisen wir auf die Literatur ([Pr81], [BD87]). Man beachte die Ähnlichkeit von (4.6.1) zu den beim Kalmanfilter betrachteten Zustandsprozessen. Der nichtparametrische Zugang über den Frequenzbereich benutzt die Tatsache, dass die positiv-semidefinite Kovarianzfunktion r n,n Z eines schwach stationären Prozesses, definiert als r n = E((X 0 µ)(x n µ)), eine Darstellung der Form r n = 1/2 1/2 e 2πiλn dm(λ), n Z (4.6.2) hat, wobei m ein endliches, symmetrisches Maß auf [ 1/2, 1/2] ist, d.h. m([ 1/2, 1/2]) < und m(a) = m( A). Es gilt auch die Umkehrung, dass jedes solche Maß mit (4.6.2) eine positiv-semidefinite Funktion erzeugt. m nennt man Spektralmaß des Prozesses. Es ist eindeutig durch die Funktion r n, n Z festgelegt (Satz von Herglotz, in allgemeiner Form: Satz von Bochner). Anstatt r direkt zu schätzen, kann man auch m schätzen und erhält dann mittels (4.6.2) eine Schätzung für r n für alle n Z. Vor allem in dem wichtigen Spezialfall, dass m eine Dichte hat (die Spektraldichte ), gibt es umfangreiche Literatur zur Frage des Schätzens von m (oder der Dichte von m). Unter numerischen Gesichtspunkten erweist sich der Zugang über das Spektralmaß als sinnvoll, da man für die direkte Berechnung von ˆr n (k) für alle k O(n 2 ) Multiplikationen ausführen muss, beim Zugang über den Frequenzbereich dagegen nur O(n log n), da man mit der schnellen Fouriertransformation (FFT) arbeiten kann. Wenn n größer als 1000 ist, merkt man den Unterschied sehr deutlich. Im nächsten Abschnitt gehen wir darauf etwas genauer ein. 4.7 Der nichtparametrische Ansatz; Spektraldichtenschätzung Satz Sei m ein endliches symmetrisches Maß auf [ 1/2, 1/2] (symmetrisch heißt: m(a) = m( A) für jede Borelmenge A [ 1/2, 1/2]). Dann ist die Funktion r : Z R definiert durch r(n) := 1/2 e 2πinλ dm(λ), n Z positiv semidefinit d.h. (z 1,...,z n ) C n. n j,k=1 1/2 z j r(t j t k )z k ist reell und 0 für alle n N, t 1,...t n Z und Beweis. r(n) ist reellwertig, da wegen der Symmetrie von m gilt:

104 100 Stochastische Modelle r(n) = 1/2 cos(2πnλ) dm(λ) + i 1/2 sin(2πnλ) dm(λ) = 1/2 cos(2πnλ) dm(λ). 1/2 1/2 1/2 Sei n N, t 1...,t n Z und (z 1,...,z n ) C n. Dann gilt n z j r(t j t k )z k = j,k=1 = n j,k=1 1/2 1/2 z j 1/2 1/2 e 2πi(t j t k )λ dm(λ)z k n z j e 2πitjλ 2 dm(λ) 0. j=1 Satz (Herglotz): Zu jeder positiv semidefiniten Funktion r : Z R existiert genau ein symmetrisches endliches Maß m auf [ 1/2, 1/2] mit r(n) = 1/2 e 2πinλ dm(λ), n Z. 1/2 Beweis. Wir beweisen die Aussage nur unter der Zusatzbedingung r(k) <. Wir definie- k Z ren in diesem Fall f(λ) := k Z r(k)e 2πikλ, 1/2 λ 1/2. Die Reihe konvergiert und ihr Wert ist reell. Weiter gilt f(λ) = f( λ). Da r positiv semidefinit ist, folgt 0 1 N N e 2πikλ r(k l)e 2πilλ = k,l=1 N 1 k= N+1 (1 k N )r(k)e 2πikλ f(λ), d.h. f(λ) 0. N gilt Die Funktion λ f(λ) ist stetig als gleichmäßiger Grenzwert stetiger Funktionen und es 1/2 f(λ)e 2πinλ dλ = k Z r(k) 1/2 e 2πikλ e 2πinλ dλ = r(n), n N. 1/2 1/2 Setzt man m(a) := f(λ)dλ für jede Borelmenge A [ 1 2, 1 1/2 2 ], dann folgt r(n) = e 2πinλ dm(λ). A 1/2 Die Eindeutigkeit zeigen wir nicht.

105 Version Februar Definition Ist r : Z R die Kovarianzfunktion eines schwach stationären Prozesses, dann heißt das nach Satz existierende Maß m Spektralmaß des Prozesses (oder Spektralmaß von r) und f(λ) := dm dλ (λ) die Spektraldichte (sofern sie existiert; sie existiert und ist stetig falls r(k) < ). Wir zeigen nun, wie man die Spektraldichte schätzen kann. Gegeben seien Beobachtungen X 0,...,X N 1 eines schwach stationären Prozesses mit stetiger Spektraldichte f. Wir wollen f schätzen. Z N (λ) := N 1 k=0 X k e 2πikλ, λ R heißt diskrete Fouriertransformation (DFT) von X 0,...,X N 1. Proposition a) Z N ist periodisch mit Periode 1. b) Z N ( λ) = Z N (λ). c) X k = 1 N N 1 l=0 Z N ( l kl N )e2πi Beweis. a) und b) sind klar N 1 c) 1 N l=0 = N 1 m=0 Z N ( l kl N )e2πi N = 1 N X m 1 N Weiter gilt: N 1 l=0 1/2 N = 1/2 N 1 ( N 1 l=0 m=0 k m 2πil e N = X k. 1/2 1/2 e 2πikλ Z N (λ)dλ = e 2πikλ Z N (λ)dλ, k = 0,...,N 1 ml kl 2πi 2πi X m e N )e N = 1/2 N 1 m=0 1/2 N 1 m=0 X m X m e 2πimλ e 2πikλ dλ 1/2 1/2 e 2πi(k m)λ dλ = X k. Bemerkung Proposition c) zeigt, dass die Funktion Z N (λ) durch die Werte an den Stellen λ = l N, l = 0,...,N 1 bereits festgelegt ist. Oft bezeichnet man auch die Zahlen Z N ( l N ), l = 0,...,N 1 als diskrete Fouriertransformierte. Mit der sogenannten FFT (fast Fourier transform) lässt sich Z N ( l N ), l = 0,...,N 1 in O(N log N) Schritten schnell berechnen. Definition Die Funktion I N (λ) := 1 N Z N(λ) 2, λ [ 1/2, 1/2] heißt Periodogramm der Daten X 0,...,X N 1. Weiter definieren wir ĨN(λ) := 1 N Z N (λ) 2, λ [ 1/2, 1/2], wobei Z N die DFT der zentrierten Daten X l 1 N 1 N X j, l = 0,...,N 1 ist. j=0

106 102 Stochastische Modelle Proposition I N (λ) = I N ( λ); I N hat Periode 1. ĨN(λ) = ĨN( λ); Ĩ N hat Periode 1; ĨN(0) = 0. Beweis. Klar. Satz ĨN(λ) = ˆr N (k)e 2πikλ, λ R. k Z Beweis. Ĩ N (λ) = = 1 N = 1 N = 1 N 1 N (X k ˆµ N )e 2πikλ 2 k=0 N 1 N 1 m=0 l=0 N 1 k= N+1 N 1 (X m ˆµ N )(X l ˆµ N )e 2πi(l m)λ N k 1 l=0 k= N+1 ˆr N (k)e 2πikλ = k Z (X l ˆµ N )(X l+ k ˆµ N )e 2πikλ ˆr N (k)e 2πikλ. Satz Es gilt ˆr N (k) = 1/2 Ĩ N (λ)e 2πikλ dλ, k Z. 1/2 Insbesondere ist ˆr N (k), k Z positiv semidefinit (nach Satz 4.7.1). Beweis. Es gilt 1/2 1/2 Ĩ N (λ)e 2πikλ dλ = 1/2 1/2 m Z ˆr N (m)e 2πimλ e 2πikλ dλ = m Z ˆr N (m)δ k,m = ˆr N (k). Da ˆr N (k) ein sinnvoller Schätzer für r(k) zu sein scheint, sollte man erwarten, dass ĨN(λ) ein sinnvoller Schätzer für die Spektraldichte f(λ) ist (denn der Zusammenhang zwischen r und f ist derselbe wie der zwischen ˆr N und ĨN). Zwar kann man relativ leicht unter schwachen Annahmen zeigen, dass ĨN(λ) ein asymptotisch erwartungstreuer Schätzer für f(λ) ist, der allerdings in der Regel nicht konsistent ist (nicht einmal schwach konsistent). Dies hängt damit zusammen, dass λ ĨN(λ) für große N sehr kräftig oszilliert. Man behilft sich dadurch, dass man die Funktion λ ĨN(λ) mit einem Fenster w N ( window ) glättet. Dabei sei w N für jedes N N eine Funktion von R nach R mit

107 Version Februar (i) w N ist stetig (ii) w N hat Periode 1 (iii) w N ist gerade (d.h. w N (λ) = w N ( λ)) (iv) 1/2 1/2 w N (λ)dλ = 1 (v) Für jedes ε > 0, ε < 1/2 gilt lim N 1/2 ε w N (λ) dλ = 0. Insbesondere konvergiert w N eingeschränkt auf [ 1/2, 1/2] schwach gegen ein Punktmaß mit Masse 1 in der Null. Unter geeigneten Voraussetzungen an w N und den zugrunde liegenden Prozess konvergiert dann f N (λ) := 1/2 1/2 w N (λ µ)ĩn(µ)dµ gleichmäßig für N gegen die Spektraldichte f(λ) (fast sicher oder in L 2 oder in Wahrscheinlichkeit). Zu jedem Fenster w N korrespondiert eine Schätzung der Kovarianzfunktion r: r N (k) := 1/2 f N (λ)e 2πikλ dλ = 1/2 Ĩ N (µ)e 2πikµ 1/2 w N (λ µ)e 2πik(λ µ) dλdµ 1/2 1/2 1/2 = ˆr N (k) 1/2 w N (λ)e 2πikλ dλ, k Z 1/2 wobei das letzte Integral höchstens 1 ist. Zusammenfassung des nichtparametrischen Zugangs Gegeben seien reelle Zahlen x 0,...,x N 1, die als Realisierung eines schwach stationären Prozesses mit stetiger Spektraldichte gedeutet werden. Gesucht (zu berechnen) sind ˆr N (k), k {0,...,N 1} oder r N (k), k {0,...,N 1} oder f N (λ), 1/2 λ 1/2. 1. Ziehe von den Daten den Mittelwert ˆµ N ab y 0,...,y N 1 2. Füge an die Daten N 1 Nullen hinten an ( zero padding ) 3. Berechne Z l 2N 1 ( 2N 1 )(= Z N ( 4. Berechne ĨN( l 2N 1 ) = 1 N Z 2N 1 ( l 2N 1 )), l = 0,...,2N 1 via FFT l 2N 1 ) 2 5. Berechne ˆr N (k), N + 1 k N 1 durch FFT aus ĨN( l 2N 1 ), l = 0,...,2N 2

108 104 Stochastische Modelle 6. Berechne (ggf) r N (k), N + 1 k N 1 wie oben 7. Berechne (ggf) f l N ( 2N 1 ), l = 0,...,N 1 mit FFT aus r(k), k = N + 1,...,N 1 Bemerkung Wenn N groß ist, dann ist obige Berechnung selbst dann sinnvoll, wenn man nur an der Funktion ˆr N (k), k Z interessiert ist, da man dann nur O(N log N) Operationen benötigt statt O(N 2 ) bei Berechnung der ˆr N (k), k Z nach der Definition. 4.8 Datentransformation, Trendbereinigung, Saisonbereinigung Der erste Schritt bei der Analyse einer Zeitreihe x 1,...,x n ist in der Regel der, dass man eine Funktion f : R R findet, so dass die Reihe y i = f(x i ), i = 1,...,n sich als Teil einer Realisierung eines Prozesses der Form Y i = m i + s i + Z i, i Z (4.8.1) auffassen lässt, wobei m i den Trend darstellt, s i periodisch ist (oder jedenfalls s i = s(i) für eine periodische Funktion s : R R gilt) und Z i,i Z schwach stationär ist. Wir wollen nicht genau definieren, was ein Trend ist. Die Vorstellung ist aber die, dass m i eine Funktion einfacher Gestalt ist, die sich nicht zu schnell ändert (jedenfalls nicht oszilliert - was auch immer dies genau bedeutet). m i könnte zum Beispiel eine Exponentialfunktion oder ein Polynom niedrigen Grades sein. In manchen Fällen braucht man nicht zu transformieren, d.h. f kann als die Identität gewählt werden. Eine Transformation empfiehlt sich aber immer dann, wenn die Stärke der lokalen Fluktuation vom Niveau der x-werte abhängt - zum Beispiel monoton wachsend. In diesem Fall sollte f so gewählt werden, dass f (x) ungefähr umgekehrt proportional zur Fluktuationsintensität beim Niveau x ist. Wachsen die Fluktuationen (im Mittel) zum Beispiel proportional zu x (dies ist bei Preisen oder Aktienkursen plausibel), dann ist f(x) = log x eine angemessene Transformation, die zudem den Wertebereich von ]0, [ auf R transformiert. Man kann sich fragen, warum man überhaupt nach der Elimination des Trends noch den saisonalen Anteil abtrennt, denn die Summe eine stationären Prozesses und einer periodischen Funktion (mit gleichverteilt zufälliger vom Prozess unabhängiger Phase) ist ebenfalls stationär. Der Grund ist der, dass man gerne mit solchen (schwach) stationären Prozessen arbeitet, deren Kovarianzfunktionen (möglichst schnell) gegen Null konvergieren (wir sahen die Bedeutung dieser Eigenschaft in Satz und periodische stationäre Prozesse haben periodische Kovarianzfunktionen (die deswegen nicht konvergieren). Nach diesen allgemeinen Bemerkungen gehen wir nun auf die Frage der Trend- und Saisonschätzung bzw. -elimination etwas genauer ein. Dazu nehmen wir an, dass erstens die Periode d der Funktion s i,i Z ganzzahlig und bekannt sei (zu der Frage, wie man d aus der Zeitreihe schätzen kann, verweisen wir auf die genannte Literatur) und dass (obda) EZ i = 0, i Z und d s i = 0 gelte. Die letzten Voraussetzungen sind deswegen keine Einschränkungen, weil man i=1 anderenfalls die additiven Konstanten immer dem Trend m i, i Z zuschlagen kann.

109 Version Februar Für die Trendeinschätzung hat man die Wahl zwischen parametrischen und nichtparametrischen Ansätzen. Bei parametrischen Ansätzen versucht man für eine durch endlich viele Parameter beschriebene Funktionsklasse die Parameter so zu bestimmen, dass die beobachtete (evtl. transformierte) Datenreihe y 1,...,y n gut passt (z.b. im Sinne kleinster Quadrate). Bei nichtparametrischen Schätzungen stellt man zunächst keine Voraussetzungen an die Klasse der Schätzungen ˆm i, i Z. Gängige nichtparametrische Schätzungen sind Moving-average-Filter der Form ˆm i = j Z α j y i j, (4.8.2) wobei α j = 1 gilt. Typischerweise wird man α j = α j und α 0 α 1... und nicht zu j Z viele α j 0 wählen. Probleme treten an den Rändern des Beobachtungsintervalls auf, da dort (4.8.2) wegen nichtvorliegender Daten nicht ausgewertet werden kann. Bei gleichzeitigem Vorliegen einer saisonalen Komponente sollte man die α j so wählen, dass ˆm i die Periodizität möglichst nicht spürt z.b. dadurch, dass man in (4.8.2) über ein ganzzahliges Vielfaches der Periode die y i mittelt. Eine andere übliche Methode ist das Differenzieren der Datenreihe, womit sich polynomiale Trends vollständig beseitigen lassen. Gilt nämlich k Y i = γ j i j + s i + Z i, j=0 i Z und bildet man k mal die Differenzen jeweils aufeinanderfolgender Werte, so erhält man ( k Y ) i = k!γ k + ( k s) i + ( k Z) i, einen schwach stationären Prozess mit saisonaler Komponente ohne Trend (bis auf die Konstante k!γ k, die man - so sie stört - durch eine weitere Differenzbildung auch noch eliminieren kann). Man beachte, dass die Saisonkomponente von k Y durch k s gegeben ist. Oft verwendet man das Differenzieren nur dazu, den Grad des Trendpolynoms zu schätzen und schätzt dann die Koeffizienten des Polynoms auf andere Weise (z.b. mit der Methode der kleinsten Quadrate). Die Saisonkomponente s i schätzt man immer, nachdem man den Trend eliminiert hat. Wir nehmen daher an, dass Y i von der Form Y i = s i +Z i ist (m i also Null ist). Eine übliche Schätzung ŝ i für s i ist ŝ i = 1 n i d + 1 n i d k=0 Y i+kd, i = 1,...,d, (4.8.3) wobei x die größte ganze Zahl x ist. Für i > d setzt man ŝ i periodisch mit Periode d fort. Hat man den Trend geschätzt (parametrisch oder nichtparametrisch) und anschließend die Saisonkomponente (z.b. nach (4.8.3)), so wird man für die trend- und saisonbereinigte Zeitreihe z i die Kovarianzfunktion (z.b. so wie früher vorgeschlagen) schätzen und mit Satz oder vorhersagen. Eine Vorhersage für den nächsten Wert y n+1 der ursprünglichen Daten y 1,...,y n

110 106 Stochastische Modelle erhält man, indem man zur Vorhersage ẑ n+1 den Trend ˆm n+1 und die Saisonkomponente ŝ n+1 addiert. Wir fassen noch einmal zusammen, wie man beobachtete Zeitreihen vorhersagen kann. 4.9 Zusammenfassung Man transformiere die Daten so, dass sie als Realisierung eines schwach stationären Prozesses plus Trend plus saisonaler Komponente interpretierbar sind. Man schätze und eliminiere den Trend. Man schätze und eliminiere den saisonalen Anteil. Für den verbliebenen schwach stationären Anteil schätze man Erwartungswert und die Kovarianzfunktion (vgl. Satz 4.6.1, die Formel für ˆr n (k) im Anschluss daran, sowie Abschnitt 4.7). Mit diesen Größen gehe man in Satz oder und berechne die nächste Vorhersage. Man transformiere diese zurück auf die ursprüngliche Zeitreihe. Wir betonen, dass dies keineswegs die beste oder gar die einzige Methode der Vorhersage ist. Die Literatur zur Zeitreihenanalyse ist voll mit Verbesserungsvorschlägen für die einzelnen Punkte. Wir erwähnten schon den (vermeidbaren) numerischen Aufwand bei der direkten Berechnung von ˆr n. Dieses Kapitel sollte lediglich einige Fragestellungen in der Zeitreihenanalyse und erste Lösungsansätze nahebringen. Auf neuere Zugänge, wie Bootstrap methoden konnte aus Zeitgründen überhaupt nicht eingegangen werden. Es ist zu erwarten, dass mit solchen (und ähnlichen) Methoden ganz neue Vorhersagemethoden in der Zukunft entwickelt werden, die sich völlig von dem Konzept der besten linearen Vorhersage lösen und gleichzeitig algorithmisch einfacher allerdings rechenzeitintensiver sein werden.

111 Bibliographie [Ai04] M. Aigner und G. Ziegler, Das BUCH der Beweise, 2. Auflage, Springer, Berlin, [Ba68] H. Bauer, Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie, de Gruyter, Berlin, [Br68] L. Breiman, Probability, Addison-Wesley, Reading, [BD87] P. Brockwell und R. Davis, Time Series: Theory and Methods, Springer, Berlin, [Ch67] K. L. Chung, Markov Chains with Stationary Transition Probabilities, Springer, Berlin, [Ci75] E. Cinlar, Introduction to Stochastic Processes, Prentice-Hall, Englewood, [Fe68] W. Feller, An Introduction to Probability Theory and its Applications, Vol. I, Wiley, New York, [GS75] I. I. Gikhman und A. V. Skorohod, The Theory of Stochastic Processes II, Springer, Berlin, [Ha02] O. Häggström, Finite Markov Chains and Algorithmic Applications, Cambridge University Press, Cambridge, [He86] H. Heuser, Analysis 1, Teubner, Stuttgart, [HS82] D. Heyman und M. Sobel, Stochastic Models in Operations Research, Vol. I, McGraw Hill, New York, [KT75] S. Karlin und H. M. Taylor, A First Course in Stochastic Processes, Academic Press, New York, [KT81] S. Karlin und H. M. Taylor, A Second Course in Stochastic Processes, Academic Press, New York, [Le09] D. Levin, Y. Peres und E. Wilmer, Markov Chains and Mixing Times, AMS, Providence, [Mi63] R. Miller, Stationary equations in continuous time Markov chains, Trans. Amer. Math. Soc. 109, 35-44, [No97] J. Norris, Markov Chains, Cambridge Univ. Press, Cambridge, [Pi90] B. Pittel, On a Daley-Kendall model of random rumours, Journal of Applied Probability 27,

112 108 Stochastische Modelle [Pr81] M. Priestley, Spectral Analysis and Time Series, Wiley, New York, [Sh84] A.N. Shiryayev, Probability, Springer, Berlin, [Ti94] H. Tijms, Stochastic Models, Wiley, Chichester, [Wi79] D. Williams, Diffusions, Markov Processes and Martingales, Wiley, 1979.