Ausarbeitung zum Seminar: Grundlagen der Simulation und Statistik von dynamischen Systemen (SS 2012)

Ausarbeitung zum Seminar: Grundlagen der Simulation und Statistik von dynamischen Systemen (SS 2012) Maximum-Likelihood-Schätzung für den Ornstein-Uhlenbeck-Prozess Daniel Horn 15. Juni 2012 Dozentin: Prof. Dr. Christine Müller Fakultät für Statistik Technische Universität Dortmund

Inhaltsverzeichnis 1 Einleitung 2 2 Motivation 3 3 Maximum-Likelihood-Schätzung 4 4 ML-Schätzung bei stochastischen DGLs 5 4.1 Das stetige Modell............................... 5 4.2 Zeitdiskrete Beobachtungen.......................... 6 5 Exakte Schätzungen 7 5.1 Voraussetzungen für gute Schätzungen.................... 7 5.2 Exkurs: Der BFGS-Algorithmus........................ 9 5.3 Simulation: Der Vasicek Prozess........................ 11 6 Zusammenfassung 15 Literaturverzeichnis 17 A Anhang 18 A.1 Graphiken.................................... 18 A.2 R-Code..................................... 19 1

1 Einleitung Im Rahmen des Seminars Grundlagen der Simulation und Statistik von dynamischen Systemen wird in dieser Arbeit eine Einführung in die Parameterschätzung dynamischer Systeme gegeben. Dabei wird vorgestellt, wie sich die Parameter einer stochastischen Differentialgleichung mit Hilfe des Maximum-Likelihood-Prinzips schätzen lassen. Als Grundlage dieser Arbeit dient dabei das Buch Simulation and Inference for Stochastic Differential Equations: With R Examples von Stefano M. Iacus (Iacus (2008)). Dazu wird zunächst in einer Motivation der Vasicek Prozess als eine Klasse von stochastischen Differentialgleichungen eingeführt. Dieser Prozess und dessen Simulation wurden bereits in einer vorherigen Ausarbeitung ausführlich dargestellt und werden hier als Beispiel verwendet. Als nächstes wird das Maximum-Likelihood-Verfahren zur Parameterschätzung nach Fahrmeir et al. (2007) vorgestellt. Mit diesem Verfahren werden im Weiteren Parameterschätzer für allgemeine, stochastische Differentialgleichungen berechnet. Dazu wird als erstes der kontinuierliche Fall betrachtet, hier kann im allgemeinen Fall ein Konstruktionsprinzip für die Parameterschätzer angegeben werden. Als zweites wird der diskrete Fall betrachtet, auch hier kann ein allgemeines Verfahren zur Konstruktion der Parameterschätzer angegeben werden. Jedoch ist es nicht in allen Fällen möglich, diese Schätzer exakt zu berechnen. Im Weiteren wird sich diese Arbeit nur noch mit dem diskreten Fall beschäftigen, in dem die Parameterschätzer exakt ausgerechnet werden können. Dazu werden zunächst einige Bedingungen angegeben, die die Konsistenz und die approximative Normalverteilung der Parameterschätzer sicherstellen. Damit können nun die Parameterschätzer für den Vasicek Prozess angegeben werden. Um diese berechnen zu können, wird ein Exkurs in die Praktische Optimierung vorgenommen und der BFGS-Algorithmus vorgestellt. Zum Abschluss werden mehrere Simulationen vorgestellt, in denen verschiedene Verläufe eines Vasixek Prozess generiert und die Parameterschätzer für den jeweiligen Verlauf berechnet werden. Es wird sich dabei zeigen, dass die Parameterschätzung in einigen Fällen sehr gut funktioniert, die Verletzung einer der notwendigen Bedingungen jedoch dramatische Auswirkungen hat. Zur Simulation wird dabei das statistische Softwarepakt R (R Development Core Team (2010)) verwendet. 2

2 Motivation Der Vasicek Prozess ist gegeben als Lösung der stochastischen Differentialgleichung dx t = (θ 1 θ 2 X t )dt + θ 3 W t, X 0 = x 0, (1) mit θ 1, θ 2 R und θ 3 R + und wird zur Modellierung von physikalischen Prozessen und Zinsraten verwendet. Eine weitere Parametrisierung des Prozesses ist gegeben durch dx t = θ(µ X t )dt + σw t, X 0 = x 0. Diese Darstellung hat den Vorteil, dass die Parameter besser interpretiert werden können. Dabei beschreibt µ den mean reversion level des Prozesses, um welchen der Prozess auf Dauer schwanken wird, θ, die mean reversion rate, gibt an, wie schnell sich der Prozess in Richtung µ bewegt und σ ist die Volatilität. Ein Verlauf dieses Prozesses kann mit den in einer vorherigen Ausarbeitung vorgestellten Methoden simuliert werden. Zur Verfügung gestellt werden diese Methoden in der Funktion sde.sim aus dem R-Paket sde. So ist in Abbildung 2.1 der Verlauf eines Ornstein- Uhlenbeck-Prozesses mit den Parametervektor θ = (θ 1, θ 2, θ 3 ) T = (3, 1, 2) T dargestellt. Dabei wurden n = 1000 Beobachtungen realisiert, mit dem konstanten zeitlichen Abstand = 1. Folglich ist der Prozess über insgesamt T = n = 1000 Zeiteinheiten dargestellt. Dabei ist in Abbildung 1(a) der vollständige Verlauf zu sehen, während in Abbildung 1(b) nur die letzten 200 Zeiteinheiten abgebildet sind. Falls ein solcher Prozess tatsächlich beobachtet wird, ist der wahre Parametervektor θ zumeist unbekannt. Viele Analysemethoden setzen jedoch Kenntnisse über θ voraus. Darum muss in den meisten Verfahren zunächst θ aus den vorliegenden Beobachtungen geschätzt werden. Dabei werden zum einen Punktschätzer für θ gesucht, bei denen ein einzelner Punkt ˆθ angegeben wird, der dem wahren Wert θ möglichst nahe kommen soll. Zum anderen werden Intervallschätzer gesucht, bei denen ein Intervall angegeben wird, welches den wahren Parameter zu einer gegebenen Überdeckungswahrscheinlichkeit β enthält. Eine der am weitesten verbreiteten Methoden zur Punktschätzung, die Maximum-Likelihood- Methode, wird hier vorgestellt und verwendet, zur Intervallschätzung wird auf die in Fahrmeir et al. (2007) vorgestellten Verfahren verwiesen. 3

X 2 0 2 4 6 8 X 2 0 2 4 6 8 0 200 400 600 800 1000 Time 800 850 900 950 1000 Time (a) (b) Abbildung 2.1: (a) Beispielhafter Verlauf eines Ornstein-Uhlenbeck Prozesses mit Parametervektor (3, 1, 2) T im Zeitintervall [0,1000] mit 1000 Beobachtungen. (b) Vergrößerte Darstellung des Zeitintervalls [800,1000]. 3 Maximum-Likelihood-Schätzung Es liegen jetzt Beobachtungen (x 1,..., x n ) =: x von Zufallsvariablen (X 1,..., X n ) =: X vor, wobei letztere aus einer Verteilung P X θ stammen, die von dem unbekannten Parametervektor θ abhängt, des Weiteren wird die Dichtefunktion von X mit f (X) θ bezeichnet. Laut dem Maximum-Likelihood-Pinzip nach Fahrmeir et al. (2007) ist ein Parameterschätzer ˆθ für θ gegeben durch ˆθ = arg max θ L x (θ) = arg max θ f (X) θ (x). Damit bezeichnet ˆθ den Wert, der die Likelihood-Funktion L x (θ) zu gegebenen Beobachtungen x maximiert, es wird also der Parameter gesucht, für den die Realisierungen x am plausibelsten sind. Zur Maximum-Likelihood-Schätzung genügt es demnach, die gemeinsame Dichtefunktion f (X) θ zu berechnen, daraus die Likelihoodfunktion L x (θ) zu bestimmen und diese zu maximieren. Häufig ist es dabei einfacher, nicht L x (θ), sondern die log-likelihoodfunktion l x (θ) = log(l x (θ)) zu maximieren. Da der Logarithmus eine streng monotone Transformation ist liefern beide Maximierungen den selben Wert für ˆθ. 4

4 ML-Schätzung bei stochastischen DGLs 4.1 Das stetige Modell In diesem Kapitel wird die allgemeine stochastische Differentialgleichung dx t = b(x t, θ)dt + σ(x t, θ)dw t (2) betrachtet. Dabei ist θ Θ R p der unbekannte, p-dimensionale Parametervektor. Die beiden Funktionen b : R Θ R und σ : R Θ (0, ) seien bekannt und so gewählt, dass (2) eine Lösung besitzt. Der Zustandsraum dieses Prozesses wird mit I = (l, r) bezeichnet, wobei < l < r < + eine offene Menge ist für alle θ Θ. Weiterhin soll gelten, dass für jedes θ Θ und jede Zufallsvariable ξ auf I die Gleichung (2) eine Lösung besitzt für X 0 = ξ. In diesem Fall wurde bereits in einer vorherigen Ausarbeitung gezeigt, dass unter Annahme von gewissen Bedingungen die stationäre Verteilung π θ existiert und mit X 0 = ξ π θ und für ein x 0 I gegeben ist durch π θ = 1 M(θ)σ 2 (x, θ), s(x, θ) mit ( x ) b(y, θ) s(x, θ) = exp 2 x 0 σ 2 (y, θ) dy. Die Verteilung von X mit X 0 π θ wird mit P θ bezeichnet, die Übergangswahrscheinlchkeit von X t gegeben X 0 = x mit p θ (t, x). Da X zeithomogen ist, entspricht p θ (t, x) gerade der Dichte von X t+s gegeben X s = x für alle t 0. Zur Schätzung von θ werden zwei verschiedene Ansätze verwendet, mit denen θ direkt geschätzt und sogar berechnet werden kann. Der erste der beiden Ansätze verwendet die quadratische Variation des Prozesses, um den Teil von θ, der σ beeinflusst, zu berechnen. Wie bereits in einer vorherigen Ausarbeitung gesehen gilt für alle t 0 X, X t = lim n 2 n k=1 (X t k/2 n X t (k 1)/2 n) 2 = t 0 σ 2 (X s, θ)ds. (3) Da eine vollständige Beobachtung von X zu jedem Zeitpunkte t 0 vorliegt, kann die quadratische Variation für beliebige, ausreichend große Werte n bestimmt werden und über die Gleichheit (3) kann der entsprechende Teil von θ bestimmt werden. Der zweite Ansatz ist es, θ mit Hilfe der Maximum-Likelihood-Methode zu bestimmen. Insbesondere wird dieses Verfahren verwendet, um die Parameter zu schätzen, die durch 5

das erste Verfahren nicht bestimmt werden konnten. Sobald der Diffusionskoeffizient bekannt ist, also σ(x, θ) = σ(x) ist, ist die Likelihood-Funktion von X gegeben durch ( T L T (θ) = exp 0 b(x t, θ) σ 2 (X t ) dw t 1 T 2 0 ) b 2 (X s, θ) σ 2 (X s ) ds. Dies entspricht gerade der Radon-Nikodym-Ableitung, die bereits in einer vorherigen Ausarbeitung bestimmt wurde. ˆθ kann nun durch Maximierung von L T (θ) bestimmt werden. 4.2 Zeitdiskrete Beobachtungen In den meisten Fällen ist es in der Praxis jedoch unmöglich den vollständigen, kontinuierlichen Prozess zu beobachten, statt dessen liegen zumeist nur Beobachtungen zu endlich vielen, diskreten Zeitpunkten t i = i i, i =, 1,..., n und T = n n vor. Falls dabei gilt, dass T gilt, können asymptotische Überlegungen in Betracht gezogen werden. Im Folgenden wird die i.te Beobachtung zum Zeitpunkt t i mit X i bezeichnet. Die Dichtefunktion von X i an der Stelle x i entspricht dabei gerade der Wahrscheinlichkeit, dass X i = x i ist, gegeben die Ausprägungen zeitlich früheren Variablen X i 1,..., X 0. Auf Grund der Markov-Eigenschaft von X hat tatsächlich nur die Beobachtung X i 1 einen Einfluss auf X i und die gemeinsame Dichtefunktion von X 0,..., X n, und somit auch die Likelihood-Funktion, ist gegeben durch L n (θ) = n p θ (, X i x i 1,..., x 0 )p θ (X 0 ) = i=1 n p θ (, X i x i 1 )p θ (X 0 ). i=1 Aus L n (θ) lässt sich die log-likelihood-funktionen bestimmen als l n (θ) = log L n (θ) = n l i (θ) + log(p θ (X 0 )) = i=1 n log p θ (, X i x i 1 ) + log(p θ (X 0 )). i=1 Normalerweise ist dabei die Verteilung von X 0 unbekannt oder zumindest schwierig zu bestimmen. Da bei großen Beobachtungszahlen n der Einfluss von p θ (X 0 ) offensichtlich sehr gering ist, kann im Weiteren angenommen werden, dass p θ (X 0 ) = 1 gegeben ist. Zur Schätzung von ˆθ muss im nächsten Schritt l n (θ) maximiert werden. Dazu müssen zunächst die partiellen Ableitungen nach θ 1,..., θ p und ihre Nullstellen bestimmt werden. Die partiellen Ableitungen sind dabei gegeben durch n n θ1 l i (θ) l n (θ) = l i (θ) =.. (4) i=1 i=1 θp l i (θ) 6

Da die Übergangswahrscheinlichkeiten im Allgemeinen nicht explizit bekannt sind, können auch L n (θ) und l n (θ) sowie die partiellen Ableitungen θj l i (θ) häufig nicht explizit bestimmt werden. In Iacus (2008) werden verschiedene Möglichkeiten vorgestellt, wie die Maximum-Likelihood-Schätzer dennoch bestimmt werden. Diese Ausarbeitung wird sich im Folgenden mit dem Fall befassen, dass die Übergangswahrscheinlichkeiten bekannt sind und der Maximum-Likelihood-Schätzer somit explizit berechnet werden kann. 5 Exakte Schätzungen Auch wenn der Maximum-Likelihood-Schätzer ˆθ exakt bestimmt werden kann, so muss er nicht in jedem Fall ein guter Schätzer für den wahren Parameter θ sein. Zur Bewertung der Güte des Schätzers können dabei übliche Gütekriterien aus der Parameterschätzung, wie in Fahrmeir et al. (2007) vorgestellt, verwendet werden. Insbesondere sind dabei die Erwartungstreue, die Konsistenz und die asymptotische Verteilung des Schätzer von Interesse. In diesem Kapitel werden einige Bedingungen angegeben, unter denen zumindest die Konsistenz und die asymptotische Normalverteilung von ˆθ sichergestellt werden kann. Die analytische Bestimmung des Maximum-Likelihood-Schätzers ist oftmals schwierig, daher ist es in den meisten Fällen praktikabler eine numerische Näherung des Optimierungsproblems max L x (θ) zu bestimmen. Ein weit verbreiteter Algorithmus dazu ist der θ BFGS-Algorithmus aus der Klasse der quasi-newton-verfahren. Dieses Verfahren wird zum Beispiel von der R-Funktion mle aus dem Paket stats4 zur Verfügung gestellt und wird in diesem Kapitel vorgestellt. 5.1 Voraussetzungen für gute Schätzungen Um die Konsistenz und asymptotische Normalverteilung des Maximum-Likelihood-Schätzer sicherzustellen können verschiedene Mengen von Bedingungen angegeben werden. Eine mögliche Menge von Bedingungen ist nach Iacus (2008) durch die folgenden fünf Voraussetzungen gegeben: Bedingung 1 (Lineares Wachstum) Es existiert ein konstantes, von θ unabhängiges K, sodass für alle x gilt: b(x, θ) + σ(x, θ) K(1 + x ) 7

Bedingung 2 (Globale Lipschitzstetigkeit) Es existiert ein konstantes, von θ unabhängiges K, sodass: b(x, θ) b(y, θ) + σ(x, θ) σ(y, θ) K x y Bedingung 3 (Positiver Diffusionskoeffizient) inf x σ(x, θ) > 0 Bedingung 4 (Existenz der Momente) Für alle k > 0 existiert das k.-te Moment des Diffusionsprozesses und es gilt sup t = E X t k < Bedingung 5 (Glätte der Koeffizienten) Die beiden Koeffizienten b und σ und ihre ersten drei Ableitungen sind glatt in x und wachsen polynomiell in x. Zusätzlich zu diesen fünf Bedingungen müssen noch einige weitere, technische Bedingungen erfüllt sein, um die zugehörige Konvergenzrate und die Existenz der Fisher- Information sicherzustellen. Normalerweise beträgt dabei die Konverganzrate für die Parameter des Diffusionsprozesses n und unter der Voraussetzung, dass lim n 3 n 0 gilt, konvergieren die Parameter im Drift mit einer Rate von n n. Mit Hilfe dieser Bedingungen kann gezeigt werden, dass der Maximum-Likelihood-Schätzer für die Parameter des in (1) definierten Ornstein-Uhlenbeck-Prozesses konsistent und asymptotisch normalverteilt ist. So gilt für die ersten drei Bedingungen: Bedingung 1 Lineares Wachstum: b(x, θ) + σ(x, θ) = θ 1 θ 2 x + θ 3 θ 1 + θ 2 x + θ 3 1. Fall: θ 2 > θ 1 + θ 3 und sei K 1 > θ 2 ( ) θ1 + θ 3 θ 1 + θ 2 x + θ 3 = θ 2 + x θ 2 (1 + x ) K 1 (1 + x ) θ 2 2. Fall: θ 2 θ 1 + θ 3 und sei K 2 > θ 1 + θ 3 ( θ 1 + θ 2 x + θ 3 = ( θ 1 + θ 3 ) 1 + θ ) 2 x ( θ 1 + θ 3 )(1 + x ) K 2 (1 + x ) θ 1 + θ 3 Mit K = max(k 1, K 2 ) folgt die Aussage. 8

Bedingung 2 Globale Lipschitzstetigkeit: b(x, θ) b(y, θ) + σ(x, θ) σ(y, θ) = θ 1 θ 2 x θ 1 + θ 2 y + θ 3 θ 3 = θ 2 y x = θ 2 x y K x y mit K θ 2 Bedingung 3 Positiver Diffusionskoeffizient: inf x σ(x, θ) = inf θ 3 > 0, da θ 3 R + x 5.2 Exkurs: Der BFGS-Algorithmus Ein Minimierungsproblem ist nach Fletcher (1987) gegeben durch min x f(x), wobei f : R u R eine beliebige Funktion ist. Im Allgemeinen genügt es dabei zur Optimierung von f(x) das Minimierungsproblem zu betrachten, da das Maximierungsprobem durch die Minimierung von f(x) gelöst werden kann. Üblicherweise wählt man zur Lösung dieses Problems einen iterativen Ansatz, der in zwei Schritten abläuft: 1. Wähle eine Startlösung Z 0 2. So lange die Lösung Z k noch nicht gut genug ist, wähle eine neue Lösung Z k+1 Ein beispielhafter Verlauf für eine Optimierung ist in Abbildung 5.1 abgebildet. Dabei wurde ein beliebiger Startwert Z 0 gewählt und in jedem Schritt durch eine bessere Lösung f(θ) = θ 1 2 θ 1 + 2θ 2 2 + θ 2 2θ 1 θ 2 120 110 100 90 70 80 60 50 40 30 20 θ 2 4 2 0 2 4 20 10 30 40 Z 4Z 5 0 50 60 Z 3 Z 1 70 80 Z 2 Z 0 90 100 4 2 0 2 4 θ 1 Abbildung 5.1: Beispielhafter Optimierungverlauf. 9

ersetzt. Nach sechs Iterationen wurde abgebrochen, da sich Z 5 nahe genug am hier bekannten globalem Optimum befindet. In einem Optimierungsalgorithmus muss also zum einen angegeben werden, wann eine Lösung als gut genug befunden wird und der Algorithmus abbrechen kann, zum anderen wird eine Berechnungsvorschrift für die neuen Punkte Z k+1 benötigt. Eines der weit verbreitetsten Verfahren ist der Newton-Algorithmus. Wenn zu f auch noch der Gradientenvektor f(x) und die Hesse-Matrix 2 f(x) existieren, so gilt nach der Taylor-Entwicklung mit δ k = Z Z k f(z) f(z) = f(z k ) + ( f(z k )) T δ k + 1 2 δt k 2 f(z k )δ k Als neue Lösung Z k+1 wird jetzt die Lösung gewählt, die f minimiert. Diese ist gegeben als Nullstelle der 1. Ableitung von f, dazu muss das Gleichungssystem 2 f(z k )δ k = f(z k ) gelöst werden. Zum Newton-Verfahren existieren eine Vielzahl verschiedener Abbruchkriterium, üblich ist es dabei zum Beispiel abzubrechen, sobald f(z k ) < ɛ ist für ein ausreichend kleines ɛ, oder aber sobald N Lösungen berechnet wurden für ein hinreichend großes N. In der Klasse der zwei mal stetig differenzierbaren Funktionen kann unter weiteren Voraussetzungen gezeigt werden, dass das Newton-Verfahren gegen das globale Optimum konvergiert, falls Z 0 nahe genug am Optimum liegt. Die Schwachstelle des Newton-Algorithmus ist es, dass der Gradientenvektor und die Hesse-Matrix bekannt sein müssen. Dies ist jedoch in den meisten Fällen nicht der Fall. Zwar können beide in jedem Fall lokal approximiert werden, jedoch hat auch dies nach Fletcher (1987) mehrere gewichtige Nachteile. Eine andere Klasse von Verfahren, die auf dem Newton-Verfahren aufbauen, sind die quasi-newton-verfahren, die lediglich Kenntnis über den Gradientenvektor voraussetzen. Hier wird die Konstruktion der neuen Lösung in drei Schritten vorgenommen: 1. Bestimme die neue Suchrichtung s k = H k f(z k ). 2. Bestimme den optimalen Funktionswert in Suchrichtung Z k+1 = Z k + α k s k. 3. Berechne eine neue Matrix H k+1 gegeben H k. Zur Bestimmung des optimalen Funktionswertes in Suchrichtung existieren in der Literatur eine Vielzahl sogenannter linesearch-algorithmen, hier wird auf eine nähere Beschreibung dieser verzichtet und auf die entsprechende Literatur verwiesen. Auch zur Bestimmung der neuen Matrix H k+1 existieren verschiedene Formeln, eine der gebräuchlichsten 10

wurde getrennt von Broyden, Fletcher und von Goldfarb, Shanno im Jahr 1970 vorgeschlagen. Das nach ihnen benannte BFGS-Verfahren ist definiert durch ( H k+1 = H k + 1 + γt k H ) ( kγ k δk δk T δk γk T δk T γ k δk T γ H k + H k γ k δk T k δk T γ k dabei ist δ k = Z k+1 Z k und γ k = f(z k+1 ) f(z k ). Als Abbruchkriterien können hier dieselben verwendet werden, die bereits für das Newton-Verfahren angegeben wurden. Weiterhin ist es auch hier möglich, den Gradienvektor durch eine Approximation zu ersetzen, falls dieser unbekannt ist. In der Praxis hat sich dabei nach Fletcher (1987) erwiesen, dass das BFGS-Verfahren sehr gut funktioniert. ), 5.3 Simulation: Der Vasicek Prozess Betrachte hier erneut den durch (1) definierte Vasicek Prozess. In vorherigen Ausarbeitungen wurde bereits gezeigt, dass bei konstantem i = die Übergangswahrscheinlichkeit p θ (t, x 0 ) der Dichte einer Normalverteilung mit Erwartungswert m(t, x 0 ) und Varianz v(t, x 0 ) entspricht, wobei diese gegeben sind durch m(t, x 0 ) = E θ (X t X 0 = x 0 ) = θ 1 θ 2 + v(t, x 0 ) = V ar θ (X t X 0 = x 0 ) = θ2 3 ( x 0 θ 1 θ 2 ) e 2θ 2t und ( 1 e 2θ 2 t ) 2θ 2. Damit kann die in (4) definierte Ableitung der log-likelihood-funktion explizit angegeben werden und der Maximum-Likelihood-Schätzer für (θ 1, θ 2, θ 3 ) kann explizit angegeben werden. Betrachte dazu erneut den in Abbildung 2.1 simulierten Verlauf des Prozesses mit dem wahren Parametervektor (3, 1, 2) T. Mit dem A.2 angegebenen Programmcode kann der Wert der log-likelihood-funktion für jeden beliebigen Parametervektor θ ausgewertet werden. Dabei wird zur numerischen Optimierung der Likelihood-Funktion die Funktion mle verwendet. Damit ergeben sich die in Tabelle 5.1 angegebenen Maximum-Likelihood- Schätzer, ebenso ihre Standardabweichungen und 95% Konfidenzintervalle. Dabei ist zu sehen, dass die geschätzten Parameterwerte relativ nah an den wahren Werten liegen, und die Konfidenzintervalle jeweils den wahren Parameter überdecken. Dies kann bei nur einem einzigen simulierten Verlauf des Prozesses ein zufällig gutes Ergebnis sein. Daher wird in zweiter Simulation mit 1000 Wiederholungen untersucht, ob der Maximum-Likelihood-Schätzer tatsächlich ein ausreichend guter Schätzer ist. Dafür 11

Schätzwert Standardabweichung Konfidenzintervall θ 1 3.2570 0.2716 [2.7628, 3.8384] θ 2 1.0628 0.0858 [0.9072, 1.2472] θ 3 2.0641 0.0752 [1.9277, 2.2246] Tabelle 5.1: Parameterschätzer 1. Simulation wird die Erwartungstreue und die approximative Normalverteilung überprüft, indem das arithmetische Mittel und ein Kerndichteschätzer für die Parameterschätzer bestimmt wird. Weiterhin wird überprüft, ob das konstruierte Konfidenzintervall die geforderte Überdeckungswahrscheinlichkeit von 95% einhält. Die arithmetischen Mittelwerte und die Überdeckungswahrscheinlichkeiten für die drei Parameter sind in Tabelle 5.2 zu finden. Es zeigt sich im Rahmen der Simulationsgenauigkeit, dass sowohl die Erwartungstreue erfüllt ist, als auch, dass die Überdeckungswahrscheinlichkeiten eingehalten werden. Die Kerndichteschätzer sind in Abbildung 5.2 abgebildet und werden dabei jeweils mit einer angepassten Normalverteilung verglichen. Auch hier zeigt sich, dass die Unterschiede zwischen den geschätzten und den angepassten Dichtefunktionen nur minimal sind, und die Normalverteiungsannahme für die Schätzer hier gerechtfertigt scheint. Parameter θ 1 θ 2 θ 3 Mittelwert des Schätzers 3.0247 1.0085 2.0032 Überdeckungswahrscheinlichkeit 0.942 0.952 0.953 Tabelle 5.2: Güte der Maximum-Likelihood-Schätzung in der ersten Simulation. In einer weiteren Simulation wird der gleiche Vasicek Prozess betrachtet, nur wird der Prozess diesmal an n = 1000 Punkten mit Abstand = 10 3 ausgewertet, es gilt demnach T = n n = 1. Ein beispielhafter Verlauf dieses Prozesses ist in Abbildung A.1(a) zu sehen. In dieser Situation können die Maximum-Likelihood-Schätzer auf die gleiche Art berechnet werden, die Schätzer sind in Tabelle 5.3 abgedruckt. Hier zeigt sich, dass die Parameterschätzer für θ 1 und θ 2 einen größeren Abstand zu den wahren Parametern aufweisen als in der vorherigen Simulation, auch die Standardabweichung dieser beiden Schätzer ist wesentlich größer als zuvor. Der Parameterschätzer für θ 3 ist jedoch auch in dieser Simulation nahe am wahren Wert und die Standardabweichung ist sogar kleiner als in der ersten Simulation. Die drei Konfidenzintervallen überdecken jeweils den wahren Parameter jedoch liegt dies bei den ersten beiden Parametern daran, dass die Konfidenz- 12

intervalle wesentich größer als in der ersten Simulation sind. Das dritte Konfidenzintervall hingegen ist sogar kleiner ist als in der ersten Simulation. Der Maximum-Likelihood- Schätzer scheint also für die ersten beiden Parameter schlecht zu sein, für den dritten scheint er jedoch seine guten Eigenschaften zu behalten. Schätzwert Standardabweichung Konfidenzintervall θ 1 2.8098 2.9620 [-2.9891, 8.6330] θ 2 4.3420 2.9280 [-1.3945, 10.1105] θ 3 2.0393 0.0457 [1.9530, 2.1323] Tabelle 5.3: Parameterschätzer 2. Simulation Auch hier könnte das schlechte Ergebnis der Maximum-Likelihood-Schätzung ein zufällig schlechtes Ergebnis sein, daher wird auch diese Simulation weitere 1000 Mal wiederholt und die jeweiligen Maximum-Likelihood-Schätzer betrachtet. Es ergeben sich die ebenfalls in Abbildung 5.2 abgebildeten Kerndichteschätzer, die arithmetischen Mittel für die drei Parameter ergeben sich als 10.8, 5.7 und 2.0. Offensichtlich ist der Maximum- Likehood-Schätzer in diesem Fall nicht erwartungstreu für θ 1 und θ 2, wohl aber für θ 3. Die Überdeckungswahrscheinlichkeiten der Konfidenzintervalls betragen 0.8, 0.78 und 0.95. Auch hier wird für die ersten beiden Parameter die Überdeckungswahrscheinlichkeit nicht eingehalten, für den dritten jedoch schon. Auch die Kerndichteschätzer zeigen, dass die asymptotische Normalverteilung für θ 1 und θ 2 nicht gegeben ist, für θ 3 gilt sie jedoch. Die Maximum-Likelihood-Methode scheitert in dieser Simulation teilweise, da die Annahme lim T offensichtlich mit T = 1 nicht erfüllt ist und die Approximation somit nicht n greift. In einigen Spezialfällen kann der Maximum-Likelihood-Schätzer für den Ornstein-Uhlenbeck- Pozess auch analytisch bestimmt werden. So sind zum Beispiel in dem Fall, dass θ 1 = 0 bekannt ist, die Schätzer für θ 2 und θ 3 gegeben durch ˆθ 2,n = 1 ( n log i=1 X ) i 1X i n i=1 X2 i 1 und ˆθ 2 3,n = 2ˆθ 2,n ) n (1 e 2 ˆθ 2,n n i=1 ( X i X i 1 e ˆθ 2,n ) 2. In einer dritten Simulation werden jetzt die analytisch bestimmten und die numerisch berechneten Schätzer miteinander verglichen. Dazu ist in Abbildung A.1(b) der Verlauf eines Ornstein-Uhlenbeck-Prozesses mit dem Parametervektor (0,3,2) abgebildet, in Tabelle 5.4 13

Kerndichteschätzung zu θ 1 mit T = 1000 Kerndichteschätzung zu θ 1 mit T = 1 Density 0.0 0.5 1.0 1.5 Kerndichteschätzung Normalverteilung Density 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Kerndichteschätzung Normalverteilung 2.5 3.0 3.5 4.0 4.5 10 0 10 20 30 40 50 N = 1000 Bandwidth = 0.0548 N = 1000 Bandwidth = 1.697 (a) (b) Kerndichteschätzung zu θ 2 mit T = 1000 Kerndichteschätzung zu θ 2 mit T = 1 Density 0 1 2 3 4 5 Kerndichteschätzung Normalverteilung Density 0.00 0.02 0.04 0.06 0.08 0.10 Kerndichteschätzung Normalverteilung 0.8 1.0 1.2 1.4 5 0 5 10 15 20 25 30 N = 1000 Bandwidth = 0.01726 N = 1000 Bandwidth = 0.8703 (c) (d) Kerndichteschätzung zu θ 3 mit T = 1000 Kerndichteschätzung zu θ 3 mit T = 1 Density 0 1 2 3 4 5 Kerndichteschätzung Normalverteilung Density 0 2 4 6 8 Kerndichteschätzung Normalverteilung 1.7 1.8 1.9 2.0 2.1 2.2 1.9 2.0 2.1 2.2 N = 1000 Bandwidth = 0.01604 N = 1000 Bandwidth = 0.01016 (e) (f) Abbildung 5.2: Vergleich der Kerndichteschätzer der ersten beiden Simulationen 14

sind die analytisch und numerisch berechneten Werte der Maximum-Likelihood-Schätzer aufgeführt. analytischer numerischer numerische Schätzer Schätzer Standardabweichung θ 2 2.8225 2.8226 0.5308 θ 3 1.9607 1.9608 0.1860 Tabelle 5.4: Analytische und numerische Schätzer eines Ornstein-Uhlenbeck-Prozesses mit Parametern (0,3,2). Es zeigt sich, dass die beiden Schätzer nahezu identisch sind. Jedoch hat die numerische Berechnung den Vorteil, dass auch eine Approximation der Standardabweichung berechnet werden kann, dies ist für die analytische Berechnung nicht so leicht möglich. Da auch hier wieder eine einzelne Simulation nur wenig Aussagekraft hat, betrachte erneut 1000 Wiederholungen dieser Simulation, dabei sind diesmal das arithmetische Mittel und die Verteilung des analytischen und des numerischen Schätzers von Interesse. Für den analytischen Schätzer ergeben sich für (ˆθ 2, ˆθ 3 ) die arithmetischen Mitten (3.16, 2.04), für den numerischen Schätzer betragen diese (3.56, 2.12). Der analytische Schätzer ist also wie erwartet im Mittelwert näher am wahren Wert als der numerische Schätzer. Die Betrachtung der Kerndichteschätzer in Abbildung A.2 zeigt sich, dass die Dichten in weiten Teilen nahezu identisch sind, jedoch lässt die numerische Berechnung auch häufig Ausreisser zu. In diesen Fällen scheint der BFGS-Algorithmus nicht das globale Maximum der Likelihood-Funktion zu finden, sondern lediglich ein lokales Maximum. Da sich dieses schlechte Verhalten leicht durch ein mehrfaches Ausführen des BFGS-Algorithmus mit verschiedenen Startwerten beheben lässt, wird hier empfohlen, stets die numerische Variante zu verwenden. Wenn sie das globale Maximum findet, unterscheidet sich der Schätzwert nur wenig von der analytischen Berechnung, die approximative Berechnung der Standardabweichung liefert jedoch eine wertvolle, weitere Information. 6 Zusammenfassung In dieser Arbeit konnte eine Einführung in die Parameterschätzung bei stochastischen Differentialgleichungen gegeben werden. Dazu wurden zunächst das Maximum-Likelihood- Verfahren zur Parameterschätzung eingeführt und die zugehörigen Maximum-Likelihood- 15

Schätzer für allgemeine stochastische Differentialgleichungen wurden sowohl für den kontinuierlichen als auch für den diskreten Fall angegeben. Weiterhin wurde einige Voraussetzungen angegeben, unter denen der Maximum-Likelihood-Schätzer konsistent und asymptotisch normalverteilt ist. Jedoch musste erkannt werden, dass sich die Maximum- Likelihood-Schätzer häufig nicht explizit ausrechnen lassen, da die dazu benötigten Verteilungen meistens nicht explizit bekannt sind. Anschließend wurde mit dem Ornstein-Uhlenbeck-Prozess eine spezielle Klasse stochastischer Differentialgleichungen betrachtet, für die die benötigten Verteilungen explizit bekannt sind. In diesem Fall konnte gezeigt werden, dass die benötigten Voraussetzungen erfüllt sind und der Maximum-Likelihood-Schätzer konsistent und asymptotisch normalverteilt ist. In einer Simulation des Ornstein-Uhlenbeck-Prozesses konnten die zugehören Maximum- Likelihood-Schätzer bestimmt werden. Als Hilfsmittel wurde dazu der BFGS-Algorithmus vorgestellt und verwendet. In der Simulation konnte gezeigt werden, dass für große Beobachtungszeiträume T die asymptotischen Eigenschaften des Maximum-Likelihood-Schätzer gelten, für kleine Beobachtungszeiträume T die Verwendung des Maximum-Likelihood- Schätzers nicht mehr zu empfehlen ist, da das Ergebnis des Schätzers nicht mehr erwartungstreu ist und auch die Varianz des Schätzer stark angestiegen ist. 16

Literatur Fahrmeir, L., Kuenstler, R., Pigeot, I., and Tutz, G. (2007). Statistik Der Weg zu Datenanalyse Sechste, ueberarbeitete Auflage. Springer. Fletcher, R. (1987). Practical Methods of Optimization. Wiley. Iacus, S. (2008). Simulation and Inference for Stochastic Differential Equations. With R Examples. Springer, New York. R Development Core Team (2010). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. 17

A Anhang A.1 Graphiken X 1.0 0.5 0.0 0.5 1.0 1.5 2.0 X 3 2 1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 Time 0 200 400 600 800 1000 Time (a) (b) Abbildung A.1: (a) Beispielhafter Verlauf eines Vasicek Prozesses mit Parametern (3, 1, 2) T im Zeitintervall [0,1] mit 1000 Beobachtungen. (b) Beispielhafter Verlauf eines Ornstein-Uhlenbeck Prozesses mit Parametern (0, 3, 2) T im Zeitintervall [0,1000] mit 1000 Beobachtungen. Kerndichteschätzung zu θ 2 mit T = 1000 Kerndichteschätzung zu θ 3 mit T = 1000 Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Numerisch Analytisch Density 0.0 0.5 1.0 1.5 2.0 Numerisch Analytisch 2 4 6 8 10 12 14 16 1.5 2.0 2.5 3.0 3.5 4.0 4.5 N = 1000 Bandwidth = 0.1559 N = 1000 Bandwidth = 0.05182 (a) (b) Abbildung A.2: Vergleich des analytischen und des numerischen ML-Schätzers für θ 2 und θ 3. 18

A.2 R-Code require(stats4) require(sde) ## 1. Simulation. dcou = function(x,t,x0, theta, log=false){ Ex = theta[1] / theta[2] + (x0 - theta[1] / theta[2]) * exp(-theta[2]*t) Vx = theta[3]^2 * (1-exp(-2*theta[2]*t)) / (2 *theta[2]) dnorm(x, mean=ex, sd=sqrt(vx), log=log) } OU.lik = function(theta1,theta2,theta3){ n = length(x) dt = deltat(x) -sum( dcou(x[2:n], dt, X[1:(n-1)], c(theta1,theta2,theta3), log=true ) ) } set.seed(1273) X = sde.sim(model="ou", theta = c(3,1,2),n = 1000, delta = 1) fit = mle(ou.lik, start = list(theta1=1,theta2=0.5,theta3=1), method = L-BFGS-B,lower = c(-inf,0,0)) summary(fit) vcov(fit) confint(fit) ## Und jetzt 1000 Iterationen set.seed(123) erg = array(dim = c(3,3,1000)) for (i in 1:1000){ X = sde.sim(model="ou", theta = c(3,1,2),n = 1000, delta = 1) fit = mle(ou.lik, start = list(theta1=1,theta2=0.5,theta3=1), method = L-BFGS-B )#lower = c(-inf,0,0)) 19

est = coef(fit) int = confint(fit) erg[,,i] = cbind(est,int) print(i) } plot(density(erg[1,1,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[1] * " mit T = 1000"),lty= dotted ) curve(dnorm(x,mean(erg[1,1,]),sd(erg[1,1,])), col= red, add=t,lwd=4, lty = dotted ) legend( topright, c( Kerndichteschätzung, Normalverteilung ), fill = c( black, red )) plot(density(erg[2,1,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[2] * " mit T = 1000"),lty= dotted ) curve(dnorm(x,mean(erg[2,1,]),sd(erg[2,1,])), col= red, add=t,lwd=4, lty = dotted ) legend( topright, c( Kerndichteschätzung, Normalverteilung ), fill = c( black, red )) plot(density(erg[3,1,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[3] * " mit T = 1000"),lty= dotted ) curve(dnorm(x,mean(erg[3,1,]),sd(erg[3,1,])), col= red, add=t,lwd=4, lty = dotted ) legend( topright, c( Kerndichteschätzung, Normalverteilung ), fill = c( black, red )) conf = erg[,2,] < c(3,1,2) & rowmeans(conf) erg[,3,] > c(3,1,2) c(mean(erg[1,1,]), mean(erg[2,1,]), mean(erg[3,1,]) ) ## 2. Simulation. set.seed(1274) 20

X = sde.sim(model="ou", theta = c(3,1,2),n = 1000, delta = 1e-3) plot(x) fit = mle(ou.lik, start = list(theta1=1,theta2=0.5,theta3=1), method = BFGS ) summary(fit) confint(fit) set.seed(124) erg2 = array(dim = c(3,1000)) for (i in 1:1000){ X = sde.sim(model="ou", theta = c(3,1,2),n = 1000, delta = 1e-3) fit = mle(ou.lik, start = list(theta1=1,theta2=0.5,theta3=1), method = BFGS )#lower = c(-inf,0,0)) est = coef(fit) erg3[,i] = est } plot(density(erg2[1,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[1] * " mit T = 1"),lty= dotted ) curve(dnorm(x,mean(erg2[1,]),sd(erg2[1,])), col= red, add=t,lwd=4, lty = dotted ) legend( topright, c( Kerndichteschätzung, Normalverteilung ), fill = c( black, red )) plot(density(erg2[2,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[2] * " mit T = 1"),lty= dotted ) curve(dnorm(x,mean(erg2[2,]),sd(erg2[2,])), col= red, add=t,lwd=4, lty = dotted ) legend( topright, c( Kerndichteschätzung, Normalverteilung ), fill = c( black, red )) plot(density(erg2[3,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[3] * " mit T = 1"),lty= dotted ) curve(dnorm(x,mean(erg2[3,]),sd(erg2[3,])), col= red, add=t,lwd=4, 21

lty = dotted ) legend( topright, c( Kerndichteschätzung, Normalverteilung ), fill = c( black, red )) ## 3. Simulation. set.seed(654) X = sde.sim(model="ou", theta = c(0,3,2),n = 1000, delta = 1) plot(x) fit = mle(ou.lik, start = list(theta2=1.5,theta3=1), fixed = list(theta1=0), method = L-BFGS-B,lower = c(0,0)) summary(fit) n = length(x) tmp.sum = sum(x[1:(n-1)]*x[2:n]) dt = deltat(x) theta2.hat = -log (tmp.sum / sum(x[1:(n-1)]^2) ) /dt theta3sq.hat = 2*theta2.hat / ((n-1) * (1 - exp (-2*dt * theta2.hat) ) ) * sum ( (X[2:n]-X[1:(n-1)]* exp(-dt*theta2.hat) )^2) c(theta2.hat, sqrt(theta3sq.hat)) # Und auch hier 1000 Wiederholungen: set.seed(655) erg3 = array(dim = c(4,1000)) for (i in 1:1000){ X = sde.sim(model="ou", theta = c(0,3,2),n = 1000, delta = 1) fit = mle(ou.lik, start = list(theta2=1.5,theta3=1), fixed = list(theta1=0), method = L-BFGS-B,lower = c(0,0)) est = coef(fit)[2:3] erg3[1:2,i] = est n = length(x) tmp.sum = sum(x[1:(n-1)]*x[2:n]) dt = deltat(x) theta2.hat = -log (tmp.sum / sum(x[1:(n-1)]^2) ) /dt 22

theta3sq.hat = 2*theta2.hat / ((n-1) * (1 - exp (-2*dt * theta2.hat) ) ) * sum ( (X[2:n]-X[1:(n-1)]* exp(-dt*theta2.hat) )^2) erg3[3:4,i]=c(theta2.hat, sqrt(theta3sq.hat)) } rowmeans(erg3, na.rm = T) plot(density(erg3[1,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[2] * lines(density(erg3[3,],na.rm=t),lwd=4,lty= dashed, col = red ) legend( topright, c( Numerisch, Analytisch ), fill = c( black, red )) plot(density(erg3[2,]),lwd=4, main = expression("kerndichteschätzung zu " * theta[3] * lines(density(erg3[4,],na.rm=t),lwd=4,lty= dashed, col = red ) legend( topright, c( Numerisch, Analytisch ), fill = c( black, red )) 23