Spezialvorlesung Zeitreihenanalyse

Transkript

1 Spezialvorlesung Zeitreihenanalyse Mit Beispielen in Mathematica Institut für Stochastik, Johannes Kepler Universität Linz 2006

2 Spezialvorlesung Zeitreihenanalyse Mit Beispielen in Mathematica Institut für Stochastik, Johannes Kepler Universität Linz. Oktober 2006, Linz Copyright c 2006 Dmitry Efrosinin.

3 Vorwort Wir wollen mit dieser Vorlesung eine elementare und anwendungsorientierte Einführung in das Gebiet der Zeitreihenanalyse geben. Zeitreihen, d.h. zeitlich geordnete Folgen von Beobachtungen treten in jeder wissenschaftlichen Disziplin auf, sobald die Dynamik und zeitliche Entwicklung realer Systeme empirisch untersucht wird. Die graphische Darstellung - der Plot - der Zeitreihe ist in der Regel der erste Schritt bei der Analyse von Zeitreihen. Aus dem Plot lassen sich häufig die ersten Charakteristika ersehen. Ein klassisches Beispiel ist der Reihe WOLF oder WÖLFE (Student von Wolf). Es handelt sich um die Anzahl der Sonnenflecken, die jährlich beobachtet wurden, im Intervall Sonnenflecke Jahr Plot 1: Sonnenflecke Nächste Abbildung zeigt die Entwicklung der Konkurse von Unternehmen in den USA von 1867 bis Die Reihe ist die prozentualen An-

4 iv teile der in Konkurs gegangenen Unternehmen an den Unternehmen insgesamt. Konkurse Plot 2: Konkursein den USA Jahr Noch ein klassisches Beispiel ist die Reihe Luchs. Es handelt sich um die Anzahl der Luchse, die jährlich in einem bestimmten Gebiet Kanadas gefangen wurden (in 1000) Luchs Plot 3: Anzahl gefangener Luchse Jahr In dieser Vorlesung werden wir in Mathematica integrierte Zusatzpacket Time Series verwenden. Das Packet kann mit folgendem Befehl Needs[ TimeSeries TimeSeries ]

5 v aktualisiert werden. Die koplette Documentation ist online verfügbar und integriert sich bei der Installation in den Help-Browser und ist damit ebenfalls vollständig in Mathematica enthalten.

6 vi

7 Inhaltsverzeichnis 1 Elemetare Analyseverfahren bei Zeitreihen Empirische Momente Das klassische Komponentenmodell Trendbestimmung Transformation von Zeitreihen durch Filter Modelle von den Zeitreihen Definition und Beschreibung stochastischer Prozesse Lineare Filter und stochastische Prozesse Moving-Average und Autoregressive Prozesse Statistische analyse im Zeitbereich: Anpassung linearer Prozesse Spezifikation von ARMA-Modellen: Box Jenkins Ansatz Prognose Zustandsraummodelle

8 viii Inhaltsverzeichnis

9 Elemetare Analyseverfahren bei Zeitreihen Kapitel 1 In vielen Gebieten der Statistik geht man von Stichproben aus, d.h. von Beobachtungen einer Größe, die unter identischen Bedingungen gewonnen wurden. Ein Beispiel ist etwa die wiederholte Messung einer physikalischen Größe wie der Lichtgeschwindigkeit. Die Reihenfolge, in der die einzelnen Werte aufgetreten sind, spielt dann keine Rolle für die anschließende statistische Analyse. Hier betrachten wir dagegen ein Gebiet der Statistik, bei dem die Anordnung, in der die Beobachtungen gewonnen wurden, von gröster Bedeutung ist. Eine (zeitlich) geordnete Folge Y t, t T von Beobachtungen einer Größe wird als Zeitreihe bezeichnet. Für jeden Zeitpunkt t einer Menge T von Beobachtungszeitpunkten liegt dabei genau eine Beobachtung vor. Zeitreihen treten in allen Bereichen der Wissenschaft auf - wir werden u.a. folgende Beispiele betrachten: Astronomie: Messung der Lichtstärke eines pulsierenden Stern in 600 aufeinanderfolgenden Nächten. Chemie: Untersuchung des Zeitverhaltens eines chemischen Analyseautomatens (an Hand von Messungen im Dauerlauf des Automatens). Ökonomie: Aktienkurse an aufeinanderfolgenden Börsentagen.

10 2 Elemetare Analyseverfahren bei Zeitreihen Ingenieurwissenschaften: Jahreshöchstlasten stromproduzierender Unternehmen. Soziologie: Bevölkerungsentwicklung der USA (Jahreswerte von ). In vielen Zeitreihen ist die sogenannte Parametermenge T eine endliche, diskrete Menge von gleichabständigen Zeitpunkten. Man numeriert dann in der Regel die Zeitpunkte durch und setzt T = {1, 2,..., N}. Zahlreiche der im folgenden dargestellten Verfahren sind jedoch auch auf den Fall übertragbar, dass die Beobachtungen zu unregelmäßigen Zeitpunkten erhoben wurden. Liegen kontinuierliche Messungen vor (etwa die Zeitfunktion Y t der Spannung in einem elektrischen Bauteil für ein Zeitintervall a t b), so wird für die Analyse i.a. eine Diskretisierung vorgenomen. Daher sind die hier dargestellten Methoden auch für solche Situationen relevant. Für theoretische Betrachtungen ist es von Nutzen, auch unendliche Zeitreihen zuzulassen. Dann steht T für die Menge N der natürlichen oder für die Menge Z der ganzen Zahlen. 1.1 Empirische Momente Nach dem Plot der Zeitreihe bietet sich als zweiter Schritt bei der Analyse an, geeignete statistische Kenngrößen zu berechnen. Die wesentlichen Kenngrößen sind die Momente erster und zweiter Ordnung. Sie bilden die Grundlage für die statistische Analyse von Zeitreihen, sind aber im Rahmen der Beschreibung von Interesse. Sinnvoll ist die Berechnung dieser Größen nur für sogenannte stationäre Reihen. Als stationär bezeichnen wir dabei vorerst eine Reihe, die - grob gesprochen - keine systematischen Veränderungen im Gesamtbild aufweist. Stationarität beinhaltet, dass Kennziffern, die aus verschiedenen Teilreihen berechnet werden, nicht zu stark voneinander abweichen. Es ist in der Zeitreihenanalyse häufig anzuraten, die beobachtete Reihe in nicht zu kurze Segmente zu zerlegen,

11 1.1 Empirische Momente 3 für die dann die jeweiligen Analyseschritte einzeln durchgeführt werden. Dies ermöglicht die praktische Überprüfung der Stationaritätsannahme. Die theoretische Bedeutung der Stationarität kann jedoch erst im zweiten Kapitel aufgezeigt werden. Die zentrale Lage der Werte einer Zeitreihe y 1, y 2,...,y n wird durch arithmetische Mittel ȳ = 1 n y t n beschrieben. Also ȳ ist der mittlere Wert, um den die Beobachtungen schwanken. Die Stärke der Schwankungen wird gemessen durch die empirische Varianz s 2 y = 1 n (y t ȳ) 2, n t=1 oder durch die Standardabweichung s = s 2, die dieselbe Maßeinheit hat wie das arithmetische Mittel. Eine zentrale Stelle bei der Untersuchung von Zeitreihen nimmt die Frage nach den Abhängigkeiten zwischen verschiedenen Zeitpunkten ein. Unter den verschiedenen Abhängigkeitsformen hat die lineare Abhängigkeit bei der Zeitreihenanalyse die weitaus größte Bedeutung erlangt. Für n Beobachtungspaare (x i, y i ) ist die empirische Kovarianz c = 1 n (x i x)(y i ȳ) n t=1 ein Maß für die Stärke des linearen Zusammenhanges zwischen den x- und den y- Werten. Durch die Normierung mit dem Produkt der einzelnen Standardabweichungen erhält man den empirischen Korrelationskoeffizient r = c s 2 x s 2 y = t=1 n t=1 (x i x)(y i ȳ) n t=1 (x i x) 2 n t=1 (y i ȳ) 2 Wendet man die Cauchy-Schwarz Ungleichung ( a i b i ) 2 ( a 2 i)( b 2 i)

12 4 Elemetare Analyseverfahren bei Zeitreihen auf die Abweichungen x i x und y i ȳ an, so erkennt man, dass 1 r 1 gilt, d.h., dass der Korrelatioskoeffizient betragsmäßig höchstens gleich 1 sein kann. Bei r = ±1 gilt für alle Wertpaare (x i, y i ) der lineare Zusammenhang y i = αx i + β; bei r = 0 existiert kein linearer Zusammenhang. Um die Stärke des linearen Zusammenhanges aufeinanderfolgender Beobachtungen bei Zeitreihen zu messen, brauchen wir c und r nur leicht zu modifizieren. Aus den n Beobachtungen y 1, y 2,...,y n werden wir n 1 Paare dierekt aufeinanderfolgender Beobachtungen gebildet (y 1, y 2 ), (y 3, y 4 ),...,(y n 1, y n ). Diese werden als Beobachtungspaare aufgefaßt; deren Kovarianz ist gleich c = 1 n 1 (y t ȳ (1) )(y t+1 ȳ (2) ). n 1 t=1 Dabei sind ȳ (1), ȳ (2) die arithmetischen Mittel aus den jeweiligen ersten bzw. zweiten Komponenten. Entsprechend können die Kovarianzen und Korrelationskoeffizienten für weiter auseinanderliegende Beobachtungen berechnet werden. Da sich die verschiedenen arithmetischen Mittel und Standardabweichungen wegen der Stationaritätsannahme i.a. wenig unterscheiden, setzt man generell das allgemeine Mittel ȳ und die Standardabweichung s ein. Damit ergeben sich die Kovarianzen wobei c(k) := 1 n k (y t+k ȳ)(y t ȳ), n t=1 c(0) = s 2. Die Division durch n anstelle von n k hat statistische Vorteile, wie wir in einem Beispiel später erkennen werden. Man beachte, dass mit wachsendem k die Zahle der Beobachtungspaare, die in die Berechnung von c(k) eingehen, immer kleiner wird, wodurch die Aussagekraft zunehmend eingeschränkt wird.

13 1.1 Empirische Momente 5 Die theoretische Kovarianz bezeichnen wir mit Cov(Y t+k, Y t ) = E[(Y t+k E[Y t+k ])(Y t E[Y t ])]. Wegen der Stationaritätsannahme hängt die Kovarianz von der Zeit t nicht ab, also γ(k) := Cov(Y k+1, Y 1 ) = Cov(Y k+2, Y 2 ) =.... Da die Beobachtungspaare mit dem Zeitabstand k auch in der Form (y t, y t k ), t = k + 1,...,n angegeben werden können, ist es sinnvoll, c(k) für negative Werte von k durch c(k) := c( k) zu definieren. Für die Korrelationskoeffizienten findet man analog r(k) := n k t=1 (y t+ k ȳ)(y t ȳ) n t=1 (y t ȳ) 2 = c(k) c(0). Auch für den so definierten Korrelationskoeffizienten gilt r(k) 1 = r(0). wie man sich leicht mit Hilfe der Cauchy-Schwarz Ungleichung klarmacht. Die theoretische Analogie der Korrelationsfunktion bezeichnet man mit ρ(k) := E[(Y t+k E[Y t+k ])(Y t E[Y t ])] E[(Y t E[Y t ]) 2 ] = γ(k), k = 0, 1,.... γ(0) Für die Funktion γ gilt γ(0) 0 und mit Hilfe der Caushy-Schwarz Ungleichung Daraus erhält man γ(k) = E[(Y t+k E[Y t+k ])(Y t E[Y t ])] E[ Y t+k E[Y t+k ] Y t E[Y t ] ] V[Y t+k ] 1/2 V[Y t ] 1/2 = γ(0) for k 0. ρ(k) 1 = ρ(0). Beispiel (empirische momente.nb) Wir illustrieren die Berechnung von c(k) und r(k) an einem überschaubaren Zahlenbeispiel. Sei eine hypothetische Zeitreihe Data mit n = 10 Beobachtungen gegeben.

14 6 Elemetare Analyseverfahren bei Zeitreihen Plot 1.1.1a: Hypothetische Zeitreihe Data. Um etwa c 2 zu berechnen, wird die Reihe der Abweichungen (y t ȳ) um zwei Zeitpunkte verschoben und die Summe der Produkte untereinanderstehender Werte berechnet t y t ȳ y t+2 ȳ (y t ȳ)(y t+2 ȳ) Man erhält c(2) = 42/10 = 4.2. Berechnen wir die anndere c(k) und r(k), k = 0,...,n 1 k c(k) r(k) Um lineare abhängigkeiten von Werten zwischen den Zeitpunkten innerhalb einer Zeitreihe von den linearen Beziehungen zwischen verschiedenen Zeitreihen sprachlich zu differenzieren, verwendet man die Bezeichnungen Autokovarrianzen und -korrelationen bzw. Kreuzkovarianzen und -korrelationen.

15 1.1 Empirische Momente 7 em- Definition Die Autokovarianzfunktion γ(k) bzw. pirische Autokovarianzfunktion c(k) sind durch γ(k) := Cov(Y t+k, Y t ) = E[(Y t+k E[Y t+k ])(Y t E[Y t ])] c(k) := 1 n k (y t+k ȳ)(y t ȳ) mit ȳ = 1 n y t n n t=1 definierte Funktione des Zeitabstandes oder Lags gegeben. t=1 k = (n 1),..., 1, 0, 1,...,(n 1) Definition Die Autokorrelationsfunktion ρ(k) bzw. empirische Autokorrelationsfunktion r(k) sind durch gegeben. ρ(k) := γ(k) γ(0) r(k) := c(k) c(0) Definition Der Graph der Autokorrelationsfunktion r(t) heißt Korrelogramm. Das Korrelogramm ist von erheblicher Bedeutung, da es die wesentlichen Informationen über zeitliche Abhängigkeiten in der beobachteten Reihen enthält. Es wird daher im allgemeinen als zweites nach der Zeitreihe gezeichnet. Da sich r(k) und c(k) nur um den konstanten Faktor c(0) unterscheiden, genügt es, eine der beiden Funktionen zu zeichnen. Die beiden folgenden Beispiele illustrieren diese Funktione. Beispiel (Bankruptcy Data. empirische momente.nb) Das Korrelogramm der Reihe Bankruptcy (Konkurse) läßt vermuten, dass besonders ausgeprägte Abhängigkeiten im Rhytmus von etwa 4 bis 5 Jahren auftreten. Denn in diesem Abstand nimmt die Autokorrelationsfunktion (absolut gesehen) besonders große Werte an.

16 8 Elemetare Analyseverfahren bei Zeitreihen r k k -0.2 Plot 1.1.2a: Autokorrelationsfunktion der Reihe Bankruptcy. Beispiel (Sunspot Data. empirische momente.nb) Die Autokorrelationsfunktion der Reihe Sunspot zeigt starke positive Abhängigkeiten für Lags um k = 11, 23, 35, 47,... an. Da die Zeiträume zwischen guten und schlechten Fangerträgen jeweils etwa 12 Jahre auseinanderliegen, ist die Aurokorrelation negativ für Lags um k = 5, 17, 29,....

17 1.1 Empirische Momente 9 Plot 1.1.3a: Autokorrelationsfunktion der Reihe Sunspot Data. Beispiel (Luchs Data. empirische momente.nb) Die Autokorrelationsfunktion der Reihe Luchs zeigt starke positive Abhängigkeiten für Lags um k = 10, 20,... an. Da die Zeiträume zwischen guten und schlechten Fangerträgen jeweils etwa 5 Jahre auseinanderliegen, ist die Aurokorrelation negativ für Lags um k = 5, 15,....

18 10 Elemetare Analyseverfahren bei Zeitreihen r k k Plot 1.1.4a: Autokorrelationsfunktion der Reihe Luchs Data. Anschließend sei vor der unkritischen Verwendung der angegebenen Maßzahlen gewarnt. In Größen ȳ, s 2, c(k) und r(k) geht ein einzelner Beobachtungswert y t mit großem Gewicht ein, wenn er weit vom Durchschnitt der anderen Beobachtungen abweicht. Diese Maßzahlen sind daher recht anfällig ( nichtrobust ) gegenüber dem Auftreten von Ausreißern oder untypischen Werten in der Zeitreihe. In der Praxis werden verschidene heuristische Vorgehensweise zur Ausreißerbeseitigung angewendet: Ersetzen eines Ausreißers durch das arithmetische Mittel aller oder der beiden benachbarten Werte bzw. Heranschieben des Ausreißers an die übrigen Werte ( Winsorisieren ). Dadurch kann die Analyse einer Zeitreihe jedoch wesentlich und in unkontrollierbarer Weise beeinflußt werden. Darüber hinaus wird die Interpretation speziell des Korreligramms dadurch erschwert, dass die Größen r(k) nicht unabhängig voneinander sind, da jeweils die gleichen Beobachtungen in die Berechnung eingehen. 1.2 Das klassische Komponentenmodell In vorigen Abschnitt wurde unterstellt, dass die betrachteten Zeitreihen stationär sind. Diese Forderung ist häufig nicht erfüllt. Vor

19 1.2 Das klassische Komponentenmodell 11 allem bei ökonomischen Reihen findet man langfristige Veränderungen oder eine sich jährliche wiederholende Saisonfigur. So ist die Zahl der Arbeitslosen regelmäsig im Winter größer als im Sommer, ebenso hängt etwa der Stromverbrauch von der Jahreszeit ab. Für ökonomische Zeitreihen wurden demgemäß Modelle vorgeschlagen, die diesen Gegebenheiten Rechnung tragen. Sie gehen von folgenden vier Komponenten aus: dem Trend T t, das ist eine langfristige systematische Veränderung des mittleren Niveaus der Zeitreihe; einer Konjunkturkomponente K t, die eine mehrjährige, nicht notwendig regelmäßige Schwankung darstellt; der Saison S t, das ist eine jahreszeitlich bedingte Schwankungskomponente, die sich relativ unverändert jedes Jahr wiederholt; der Restkomponente R t, die die nicht zu erklärenden Einflüsse oder Störungen zusammenfaßt. Die erste beiden Komponenten werden bisweilen zu einer einzigen, der sogenannten glatten Komponente zusammengefaßt. Alternativ faßt man manchmal die zweite und dritte Komponenten zur sogenannten zyklischen Komponente zusammen. Häufig wird unterstellt, dass sich die Komponenten additiv überlagern. Dann erhält man die folgende formale Beschreibung des additiven Modells: Reihe = Y t = { zyklische Komponente }} { Trend + Konjunktur + Saison + Rest } {{ } glatte Komponente Z { }} t { T t + K t + S t } {{ } G t + R t, t = 1,...,n. (1.1) Hier G t = T t + K t, (1.2)

20 12 Elemetare Analyseverfahren bei Zeitreihen ist die glatte Komponente, Y t = T t + K t + S t ist non-stochastic Modell. Es wird angenommen, dass der Erwartungswert der Zufallsvariable R t existiert und gleich Null ist, d.h. gilt. E[R t ] = 0 Beispiel (Arbeitslosen, Unemployed1 Data. unemployed1 math.nb). Die Monatswerte y t, t = 1,..., 51 der Arbeitslosen in Deutschland vom Juli 1975 bis September 1979 weisen sowohl einen Trend auf auch den deutlichen Einfluß der Jahreszeit in Form der Saison. Offensichtlich ist hier die Trennung der Trendkomponente und der Konjunkturkomponente schon problematisch. Dies zeigt sich noch deutlicher, wenn die Arbeitslosigkeit über einen längeren Zeitraum hinweg betrachtet wird. Aussagen über die Restkomponente sind erst möglich, wenn die Bestimmung der glatten und Saisonkomponente erfolgt ist. Arbeitslosen Plot 1.2.1a: Unemployed1 Data. Monat

21 1.2 Das klassische Komponentenmodell 13 Man findet in empirischen Reihen nicht selten, dass mit der glatten Komponente auch die Streuung der Werte um die glatte Komponente ansteigt. Bei solchen Reihen wird oft ein multiplikatives Modell unterstellt: Y t = G t S t R t. Dieses kann durch die Bildung von Logarithmen auf ein additives zurückgeführt werden: log(y t ) = log(g t S t R t ) = log(g t ) + log(s t ) + log(r t ). Beispiel (Strom, Electricity Data. electricity math1.nb). Die Zeitreihe Strom des monatlich vom 1955 bis 1979 (t=1,...,300) in Deutschland produzierten Stromes zeigt neben einem deutlichen Trend auch das Vorhandensein eine Saisonkomponente. Zum einen spielt hier die Jahreszeit eine wesentliche Rolle. Im Winterhalbjahr wird mehr Strom verbrauch und dementsprechend produziert. Jedoch trägt auch die unterschiedliche Länge der Kalendermonate zu dem Bild der Saisonfigur bei. Im Februar wird stets weniger Strom produziert als in den beiden Nachbarmonaten. Schließlich zeigt der Plot der Reihe, dass hier ein multiplikatives Modell angebracht ist.

22 14 Elemetare Analyseverfahren bei Zeitreihen Strom Monat Plot 1.2.2a: Produzierte Strom in Deutschland (Mio kwh). 1.3 Trendbestimmung Verschiedene Fragestellungen führen auf das Problem der Trendbestimmung. Bei der Analyse von zeitlichen Verlaufen ökonomischer Größen oder bei Prognosen sucht man mit dem Trend die langfristige Entwicklung wiederzugeben. Weiter ist z.b. für die Untersuchung der Abhängigkeit zwischen den Zeitpunkten einer Zeitreihe gegebenenfalls die Trendkomponente zu eliminieren, oder wie man sagt, eine Trendbereinigung vorzunehmen. Bei Zeitreihen, die einen Trend aufweisen, ist die Autokorrelationsfunktion nicht geeignet, die Abhängigkeit zwischen den Zeitpunkten zu beschreiben. Bei der Herleitung wurde ja wesentlich benutzt, daß die Mittel aus den ersten bzw. letzten Daten in etwa dem Gesamtmittel entsprechen. Für den hier zu diskutierenden Ansatz unterstellen wir, dass die Zeitreihe sich im wesentlichen durch eine Funktion T t der Zeit beschreiben läßt und dass die Beobachtung Y t nur durch Zufallseinflüsse oder Meßfehler R t von T t abweichen. Dabei wird angenommen, dass T t sich additiv aus T t und R t zusammensetzt: Y t = T t + R t.

23 1.3 Trendbestimmung 15 Unter der Annahme, dass E[R t ] = 0 erhält man E[Y t ] = T t =: f(t). Es kann angenommen werden, dass die Funktion f von den unbekannten Parametern β 1,...,β p abhängig ist, d.h. f(t) = f(t; β 1,...,β p ). (1.3) Die Struktur der Funktion f ist nicht bekannt. Will man die geeignete Trendfunktion für eine gegebene Zeitreihe auswählen, so benötigt man ein Auswahlkriterium. Dazu bietet sich das Kleinst-Quadrate- Kriterium an. Dieses Kriterium besteht darin, die unbekannten Parameter β 1,...,β p so zu schätzen mit ˆβ 1,..., ˆβ p, dass die Summe der quadrierten Differenzen ( y t f(t; ˆβ 1,..., ˆβ 2 ( 2, p )) = min y t f(t; β 1,...,β p )) (1.4) β 1,...,β p t zu einem Minimum wird. Die Wert ŷ t := f(t; ˆβ 1,..., ˆβ p ) kann als Prognose (Vorhersagewerte, siehe Kapitel 3) für y t betrachtet werden. Die Differenz (Residuals) u t := y t ŷ t berechnet die Fehler und enthält die Information wie gut ist Fitting zu unserem Modell. t Modelle mit Linearen Trends (Klassische Regressionsmodelle) Die Beispielen für die Trendfunktion: T t = f(t; β 1, β 2 ) = β 1 + β 2 t linearer Trend T t = f(t; β 1, β 2, β 3 ) = β 1 + β 2 t + β 3 t 2 quadratischer Trend

24 16 Elemetare Analyseverfahren bei Zeitreihen T t = f(t; β 1,...,β p ) = β 1 + β 2 t + + β p t p 1 Trend Im Fall der einfachste Trendfunktion (Gerade) wird (y t β 1 β 2 t)) 2 t polynomialer zur Bestimmung der Schätzungen ˆβ 1 und ˆβ 2 für die Parameter β 1 und β 2 als Funktion in β 1 und β 2 aufgefaßt. Durch Ausführen der Differentiation und Nullsetzen der Ableitungen erhalten wir die Normalgleichungen (y t ˆβ 1 ˆβ 2 t) = 0 t t(y t ˆβ 1 ˆβ 2 t) = 0 t Die Auflösung der Gleichungen ergibt ˆβ 2 = n n t=1 ty t n t=1 t n t=1 y t n n t=1 t2 ( n, ˆβ1 = 1 ( n y t t=1 t)2 n ˆβ 2 Wenn die Schätzer bekannt sind, kann man die Einschrittprognose und Mehrschrittprognose bestimmen. t=1 E[Y t+1 Y t ] = β 1 + (t + 1)β 2 E[Y t+s Y t ] = β 1 + (t + s)β 2 n t=1 ) t (1.5) Beispiel (Strom, Electrical Energy Data. electrical energy math.nb). Die Zeitreihe Gesamtwasserkraft des halbmonatich vom 2003 bis 2004 (t=1,...,26) in Österreich bei Wasserkraftwerken produzierten Stromes zeigt einen Trend. Mit Mathematica bestimmen wir die Schätzwerte für die unbekannten Parameter β 1 und β 2. Also die geschätzte Trendgerade: T t = t.

25 1.3 Trendbestimmung 17 Gesamtwasserkraft Plot 1.3.1a: Electrical Energy Data. t Scatterplot[matrix] die in der Matrix matrix der Form {{xname, yname}, {x 1, y 1 },...,{x n, y n }} angegebenen Elemente {x i, y i } werden als Koordinaten von Punkten in der xy-ebene bedeutet. Diese Punkte werden zusammen mit der durch diese Punkte gehenden Regressionsgeraden gezeichnet. Es handelt sich dabei um jene Gerade, für welche die Summe der Quadrate der (in y-richtung gemessenen) Abstände der Punkte von dieser Geraden minimal ist. Die x-achse wird dabei mit xname, die y- Achse mit Namen yname bezeichnet. Außerdem kann mit der Option PlotLabel dem Scatterplot ein Name gegeben werden. Die eben beschriebene Kleinstquadratemethode zur Anpassung einer Trendgeraden kann ohne Mühe auf weit allgemeinere Trendmodelle übertragen werden. Das sogenannte lineare Regressionsmodell geht p bekannten Funktionen f 1 (t), f 2 (t),...,f p (t) der Zeit aus und unterstellt als Trendmodell eine Lineare kombination f(t) = β 1 f 1 (t) + β 2 f 2 (t) + + β p f p (t) (1.6)

26 18 Elemetare Analyseverfahren bei Zeitreihen dieser Funktionen, wobei die Koeffizienten β 1, β 2,...,β p so gewählt werden sollen, dass sich eine möglichst gute Anpassung an die beobachtete Reihe ergibt, ( y t ˆβ 1 f 1 (t) ˆβ 2 f 2 (t) ˆβ 2 p f p (t)) (1.7) t ( 2. = min y t β 1 f 1 (t) β 2 f 2 (t) β p f p (t)) β 1,...,β p t Bildet man wieder die partiellen Ableitungen von ( y t β 1 f 1 (t) β 2 f 2 (t) β p f p (t) t nach den Koeffizienten β 1, β 2,...,β p und setzt diese Null, so entsteht ein lineares Gleichungssystem mit k Gleichungen, den Normalgleichungen, in den gesuchten Schätzwerten ˆβ 1, ˆβ 2,..., ˆβ p mit c 11 ˆβ1 + c 12 ˆβ2 + + c 1p ˆβp = c 21 ˆβ1 + c 22 ˆβ2 + + c 2p ˆβp =. c p1 ˆβ1 + c p2 ˆβ2 + + c pp ˆβp = c ij = n f i (t)f j (t). t=1 ) 2 n y t f 1 (t) t=1 n y t f 2 (t) t=1 n y t f p (t) Sofern die f i (t) linear unabhängig sind, hat das Gleichungssystem eine eindeutige Lösung ˆβ 1, ˆβ 2,..., ˆβ k und diese Lösung liefert in der Tat ein Minimum von ( 2. y t β 1 f 1 (t) β 2 f 2 (t) β p f p (t)) t t=1

27 1.3 Trendbestimmung 19 Aus dem allgemeinen Modell entsteht z.b. das Modell eines linearen Trends durch setzen von f 1 (t) = 1, f 2 (t) = t. Falls kein einfacher linearer Trend unterstellt werden kann, bieten sich als nächsteinfache Funktion Polynome an, da sich genügend glatte Funktionen in einem endlichen Zeitintervall gut durch Polynome approximieren lassen. Ein polynomialer Trend (p 1)-ter Ordnung f(t) = β 1 + β 2 t + β 3 t β p t p 1 entsteht aus dem linearen Regressionsmodell durch die Wahl f 1 (t) = 1, f 2 (t) = t,..., f p (t) = t p 1. Während ein solches Trendmodell oft gut zur Beschreibung der beobachteten Reihe geeignet ist, muss erfahrungsgemäß jedoch vor einer Trendextrapolation (Prognose) mittels polynomialer Funktionen gewarnt werden, da Polynome außerhalb des Anpassungsbereichs rasch nach ± gehen. Zur Schätzung der Parameter benutzen wir wieder das Kleinstquadratekriterium, d.h. wir suchen ˆβ 1,..., ˆβ p so, dass ( y t ˆβ 1 ˆβ 2 t ˆβ ) 2 ( ) 2. p t p 1 = min y t β 1 β 2 t β p t p 1 β 1,...,β p t Bildet man die partielle Ableitungen von der Summe der quadrierten Abweichungen nach den Koeffizienten β 1, β 2,...,β p und setzt diese Null, so entsteht ein lineares Gleichungssystem mit p Gleichungen. Das Gleichungssystem hat offenbar eine eindeutige Lösung ˆβ 1,..., ˆβ p. Beispiel (Strom, Electricity Data. electricity math2.nb). Wir illustrieren die Anpassung eines Polynoms an die Reihe Strom. Da die Schwankungen der Reihe im Zeitablauf steigen, gehen wir zu den Logarithmen über und passen ein Polynom 3. Grades an die Reihe Y t = log{strom} an. Mathematica Program ergibt die Schätzwerte ˆβ 1 = ˆβ 2 = ˆβ 3 = ˆβ 4 = t

28 20 Elemetare Analyseverfahren bei Zeitreihen Für die Originalreihe Strom entspricht das eben angepaßte Polynom einem exponentiellen Modell der Form e f(t) Monat Strom Plot 1.3.2a: log{strom} und lineare sowie kubische Trendkurve. Ein Maß für die Güte der Anpassung eines linearen Trendmodells ist offenbar der quadrierte Abstand der Reihe vom geschätzten Trend ŷ t Q = t (y t ŷ t ) 2. Um den Grad des Trendpolynoms zu bestimmen, bietet sich die folgende Vorgehensweise an. Es werden sukzessive Polynome 0 ten, 1 ten, 2 ten,... Grades angepaßt und das Verhalten der Werte Q beobachtet. Idealerweise sollte Q mit wachsendem Polynomgrad zunächst stärke und dann wesentlich langsamer abnehmen. Dann ist der geeignete Grad des Polynoms derjenige, von dem ab keine wesentliche Verringerung von Q mehr erreicht wird. Residuen-Analyse Unter bestimmten Annahmen über die Störungen U t haben die geschätzten Koeffizienten ˆβ j Optimalitätseigenschaft. Sofern die U t unabhängig

29 1.3 Trendbestimmung 21 normalverteilt mit E[U t ] = 0 und V[U t ] = σ 2 sind, handelt es sich bei Schätzern, die mit dem Kleintsquadrateprinzip gewonnen wurden, um wirksame erwartungstreu Schätzer. Werden diese Annahme allerdings verletzt, so besitzen die Kleinstquadratschätzer keine oder nur noch unrealistisch eingeschränkte Optimalitätseigenschaften. Es ist daher wichtig, die Gültigkeit der Annahmen jeweils kritisch zu überprüfen. Grundlegend dabei sind sogenannten Residuen, d.h. die Abweichungen von Daten Y t und geschätztem Trend ˆT t Û t = Y t ˆT t. Unter Normalverteilungsannahmen sollte das Histogramm der Residuen näherungsweise einer Normalverteilung folgen - insbesondere sollten keine Ausreißer auftreten. Kleinstquadrateschätzer werden von untypischen Werten sehr stark beeinflußt. In eine quadratische Zielfunktion geht z.b. eine Abweichung der Größe 10 ebenso stark ein wie 100 Abweichungen der Größe 1. Gegebenenfalls ist es notwendig, vor der Schätzung von T t etwaige Ausreißer zu beseitigen Ut t Plot 1.3.3: Residuen der Originalreihe Strom gegen die angepaßte Werte eines kubischen Polynoms.

30 22 Elemetare Analyseverfahren bei Zeitreihen Ut t Plot 1.3.4: Residuen der log{strom} gegen die angepaßte Werte eines kubischen Polynoms. Der Erwartungswert alle U t sollte gleich 0 sein - dies drückt inhaltlich aus, daß keine systematischen Effekte im Modell für f(t) vernachlässigt wurden. Übeprüft werden kann diese Annahme dadurch, dass die Residuen Ût gegen andere relevanten Variablen, z.b. Zeit t auftragen werden, um systematische Zusammenhänge zu entdecken. In Reihen mit Saisonschwankungen ist die Annahme E[U t ] = 0 bei einer Trendbestimmung im allgemeinen nicht erfüllt, da die Residuen Û t = Y t ˆT t systematisch mit der Saison variieren. Es werden sich daher im Regelfall andere Trendschätzungen ergeben, wenn man von vornherein ein gemeinsames Modell für Trend und Saison unterstellt. Man achte bei einer Zeichnung der Ût gegen t insbesondere auf sogenannte Strukturbrüche, d.h. tiefgreifende Veränderungen des Gesamtbildes. Die Annahme konstante Varianz kann sehr gut in der Zeichnung der Residuen Ût gegen die Schätzung ˆT t überprüft werden. Wenn die Varianz mit steigendem Trendwert zunimmt, so entsteht eine typische keilförmige Struktur (electricity math2.nb, siehe Abb und Abb ). Es sollte dann z.b. zu logarithmierten Werten übergegangen werden, wie es im Beispiel geschehen ist. Weitere Transformationen behandeln wir im Abschnitt Varianzstabilisierende Transformation. Die Unabhängigkeitsannahme impliziert insbesondere, dass die Störungen U t nicht autokorreliert sind. Graphisch erkennt man Autokorrelation zum Lag 1 aus einer Zeichnung der û t gegen die Zeit.

31 1.3 Trendbestimmung 23 Die Residuen sollen zufällig um 0 schwanken. Allzu langsame Schwankungen deuten auf positive, allzu schnelle und regelmäßige Schwankungen auf negative Autokorrelation hin. Im Beispiel (data residuen.nb, siehe Abb und Abb.1.3.6) mit einer hypothetischen Reihe ist etwa positive Autokorrelation zu beobachten. Y t t Plot 1.3.5: Hypothetische Zeitreihe sowie quadratische Trendkurve. Residuen t -2-4 Plot 1.3.6: Residuen der hypothetischen Zeitreihe (Trendbereinigung). Eine andere Möglichkeit, Autokorrelationen zu erkennen, bieten Scatterdiagramme, in denen û t+k gegen û t eingezeichnet wird.

32 24 Elemetare Analyseverfahren bei Zeitreihen u t u t Plot 1.3.7: Zweidimensionale Punktschwarm (û t+1, û t ) zusammen mit 2-Σ-Bereich Scatterdiagramme und Regressionsgerade der hypothetischen Zeitreihe. Ein Test auf Autokorrelation zum Lag 1 ist der Durbin-Watson- Test. Die Teststatistik ist d = n t=2 (û t û t 1 ) 2 n t=1 û2 t Die asymptotische Verteilung von d unter der Nullhypthese unkorrelierter Störungen ist bei Kendall [1973] angegeben. Werte von d, die nähe bei 2 liegen, deuten auf Unkorreliertheit hin E[d] E[U2 t ] + E[U 2 t 1] E[U 2 t ] = 2σ2 u σ 2 u = 2, solche nahe bei 0 auf positive und Werte nahe 4 auf negative Korrelation. Nichtlineare Trendmodelle Wir haben bisher ausschließlich lineare Trendmodelle betrachtet, d.h. solche Modelle, bei denen die Parameter β j linear mit den bekannten Zeitfunktionen f j (t) verknüpft sind. Gelegentlich lassen sich auch nichtlineare Modelle durch Transformation der beobachteten

33 1.3 Trendbestimmung 25 Reihen auf ein lineares Regressionsmodell zurückführen. Typische Beispiele sind Exponentialmodelle Y t = e β 1f 1 (t)+β 2 f 2 (t)+ +β p f p (t)+r t oder Potenzmodelle Y t = f 1 (t) α1 f 2 (t) α2 f p (t) αp R t, bei denen der Übergang zu den Logarithmen log Y t ein lineares Modell ergibt. Wir beschreiben einige typische Modelle, die in der Praxis der Zeitreihenanalyse relevant sind. Die logistische Funktion Es ist oft unrealistisch, für Wachstumprozesse eine unbeschränkte Expansionsfähigkeit zu unterstellen. Vielmehr ist häufig eine obere Grenze für das Wachstum einer Erscheinung anzunehmen. So werden z.b. biologische oder ökologische Restriktionen verhindern, dass ein Organismus oder eine Population über alle Grenzen wächst. Ein typisches Modell für derartige Wachstumsvorgänge ist die sogenannte logistische Funktion f log (t) := f log (t; β 1, β 2, β 3 ) := β 3, t R, (1.8) 1 + β 2 exp( β 1 t) wobei β 1, β 2, β 3 R \ {0}.

34 26 Elemetare Analyseverfahren bei Zeitreihen Plot 1.3.8a: Die logistische Funktion f log für verschiedenen β 1, β 2, β 3, siehe logistic function.nb Also ist die Funktion f log (t) durch 3 Parameter gekennzeichnet. Für β 1 > 0 ergibt sich die S-förmige Wachstumskurve; ist aber β 1 < 0, so ergibt sich das Spiegelbild dieser Wachstumskurve. Es ist offenbar, dass lim f log(t) = β 3, t wenn β 1 > 0. D.h. die Funktion f log (t) einer Sättigungsgrenze β 3 zustrebt. Auf halber Sättigungsgrenze f log (t) = β 3 2 findet sich der Wendepunkt dieser Kurve. Will man eine empirisch gegebene Folge von Merkmalswerten durch die logistische Funktion darstellen, müssen die genannten 3 Parameter bestimmt werden.

35 1.3 Trendbestimmung 27 Methode 1. Wie man zeigen kann, 1 f log (t) = 1 + β 2 exp( β 1 t) β 3 = 1 exp( β 1) + exp( β 1 ) 1 + β 2 exp( β 1 (t 1)) β 3 β 3 = 1 exp( β 1) 1 + exp( β 1 ) β 3 f log (t 1) = a + b f log (t 1). (1.9) D.h. es gibt die lineare Beziehung in bezug auf die Funktion 1 f log (t), das kann für die Schätzung der Parameter β 1, β 2, β 3 verwendet werden. Setzen wir in dem logistischen Modell (1.8) z t := 1/y t 1/E(Y t ) = 1/f log (t), t = 1,...,n. Dann erhält man lineare Regressionsmodell z t = a+bz t 1 +ε t, wobei ε t die Fehler ist. Die gesuchte von uns Werte sind ˆβ 1, ˆβ 2, ˆβ 3. Berechnen wir durch das Kleinst-Quadrate-Kriterium die Schätzer â,ˆb für a, b, dazu braucht man den Ausdruck (z t a bz t 1 ) 2 t zu minimieren. Durch Ausführung der Differentiation nach a und b, und Nullsetzen der Ableitungen erhalten wir die Normalgleichungen n (z t a bz t 1 ) 2 = 0 t=1 n z t 1 (z t a bz t 1 ) = 0. t=1

36 28 Elemetare Analyseverfahren bei Zeitreihen Die Auflösung der Gleichungen egibt Dann gilt 1 n ˆb = n t=1 z tz t 1 1 n n t=1 z t 1 n n t=1 z t 1 1 n n t=1 z2 t 1 ( 1 n n t=1 z t 1) 2 â = 1 n z t n ˆb 1 n z t 1. n t=1 t=1 ˆβ 1 := log(ˆb) ˆβ 3 := (1 exp( ˆβ 1 ))/â. Für die Schatzer ˆβ 3 erhält man die folgende Beziehung ˆβ 2 e ˆβ 1 t = ˆβ 3 y t 1 log(ˆβ 2 ) = ˆβ 1 t + log( ˆβ 3 y t 1). Für die einzelnen Abszissenwerte t ergeben sich bestimmte Werte von log(ˆβ 2 ). Leider aber werden diese Werte nicht alle gleich groß sein. Aus diesem Grund muß angenähert mit dem Erwartungswert von log(ˆβ 2 ), d.h. dem arithmetischen Mittel aus allen Werten von log(ˆβ 2 ) vorlieb genommen werden. Daraus ergibt sich log(ˆβ 2 ) = n ˆβ n und schließlich ( n + 1 ˆβ 2 := exp ˆβ n n t=1 n t=1 ( ) ˆβ3 log 1, y t ( )) ˆβ3 log 1. y t Der Schätzer ˆβ 2 zeigt, dass alle Werte y t streng kleiner ˆβ 3 sein müssen. Dieser Schätzer kann umgeschrieben werden, ˆβ 3 y t n t=1 y β 2 = t exp( ˆβ 1 t) n t=1 exp( 2ˆβ. 1 t)

37 1.3 Trendbestimmung 29 Methode 2. Bestimmen wir zuerst die erste Ableitung nach t der logistische Funktion df log (t) = β 3 (1 + β 2 e β1t ) 2 β 1 β 2 e β1t. dt β 3 df log (t) Aus der logistischen Funktion folgt, dass der Nenner hier durch ersetzt werden kann, woraus sich weiter der folgende Ausdruck ableiten läßt ( ) β 1 β 2 e β1t = ˆβ β3 1 df log (t) 1. Setzt man diesen Ausdruck in die erste Ableitung ein, folgt unmittelbar ( df log (t) = f log (t) β 1 β ) 1 f log (t) dt β 3 oder weiter 1 df log (t) f log (t) dt = β 1 ( β1 β 3 β 3 ) f log (t). Geht man für praktische Zwecke vom Differential- zum Differenzenquotienten über, so läßt sich schreiben ( ) 1 f log (t) β1 = β 1 f log (t). f log (t) t Setzt man weiter t = 1, so ergibt sich D t = f log(t) f log (t) = β 1 ( β1 β 3 ) f log (t) d.h. eine lineare Funktion. Nunmehr kann man die Parameter β 1 und β 1 β 3 nach der Methode der kleisten Quadraten berechnen. Dadurch erhält man für gegebene Folge von Merkmalswerten y 1, y 2,...,y n die beiden Parameter ˆβ 1 und ˆβ 3 ; 1 n ˆβ 1 n t=1 = D ty t 1 n n t=1 D t 1 n n t=1 y t 1 β n 3 n t=1 y2 t ( 1 n n t=1 y t) 2 ˆβ 1 = 1 n D t ˆβ 1 1 n y t. n β 3 n t=1 t=1

38 30 Elemetare Analyseverfahren bei Zeitreihen wie oben, muss der dritte Parameter β 2 gesondert bestimmt werden. Zu diesem Zweck übernimmt man das Ergebnis ˆβ 2 e ˆβ 1 t = ˆβ 3 y t 1 = ˆβ 3 y t y t. Daraus läßt sich der gesuchte Parameter berechnen ˆβ 2 = ˆβ 3 y t y t eˆβ 1 t. Für die einzelnen Abszissenwerte t ergeben die bestimmte Werte von ˆβ 2. So muss man angenähert mit dem Erwartungswert von ˆβ 2 ( n + 1 ˆβ 2 := exp ˆβ n n t=1 ( )) ˆβ3 log 1. y t Wir wollen das logistische Modell (1.8) an die Reihe Bevölkerung des Landes Nordrhine-Westphalia (NRW) anpassen. Beispiel (Population1 Data. population1 math.nb). Die Bevölkerung y t (Mio) des Landes Nordrhine-Westphalia von 1935 bis 1980 sowie mit der Kleinstquadrate-Methode prognostizierte Werte ŷ t sind in folgender Tabelle dargestellt Die Prognose der Bevölkerung zur Zeit t schaut in unserem Fall so aus ˆβ 3 ŷ t := 1 + ˆβ 2 exp( ˆβ 1 t) = exp( t) mit geschätzte Sättigungsgrenze ˆβ 3 = Die folgende Abbildung zeigt die Reihe Bevölkerung sowie die entsprechende logistische Funktion.

39 1.3 Trendbestimmung 31 Jahre t Bevölkerung y t Prognose ŷ t (Mio) (Mio) Tabelle 1.3.1: Population1 Data Plot 1.3.9a: NRW Bevölkerung und logistische Funktion.

40 32 Elemetare Analyseverfahren bei Zeitreihen Die Mitscherlich Funktion Die Mitscherlich Funktion ist gut geeignet zur Beschreibung des dauernden Wachstums f M (t) := f M (t; β 1, β 2, β 3 ) := β 1 + β 2 exp(β 3 t), t 0, (1.10) wobei β 1, β 2 R und β 3 < 0. Da β 3 negativ ist, es gilt lim t f M (t) = β 1 und daraus folgt, dass der Parameter β 1 die Sättigungsgrenze gibt. Der Anfangswert der Funktion ist zum Zeitpunkt t = 0 f M (0) = β 1 + β 2. Die Gompertz Funktion Die Gompertz Funktion stellt eine Weiterentwicklung der logistischen Funktion dar. f G (t) := f G (t; β 1, β 2, β 3 ) := exp(β 1 + β 2 β t 3), t 0, (1.11) wobei β 1, β 2 R und β 3 (0, 1). Diese Funktion ist gut geeignet zur Beschreibung des Wachstums und Fallens des Systems.

41 1.3 Trendbestimmung 33 Plot a: Gompertz Funktion für verschiedene Parameter. Daher gilt die Beziehung log(f G (t)) = β 1 + β 2 β t 3 = β 1 + β 2 exp(log(β 3 )t), d.h. log(f G ) ist die Mitscherlich Function mit den Parametern β 1, β 2, log(β 3 ). Die Sättigungsgrenze ist offenbar exp(β 1 ) gleich. Die Allometric Funktion Die allometric Funktion f a (t) := f a (t; β 1, β 2 ) = β 2 t β 1, t 0, (1.12) mit β 1 R, β 2 > 0, ist ein typisches Modell von Zeitlichen Verläufen biometric und ökonomischer Größen. Die allometric Funktion kann als speziall Fall der Cobb-Douglas-Produktionsfunktion betrachtet werden, die in Produktionswirtschaft populäres Modell ist. Da log(f a (t)) = log(β 2 ) + β 1 log(t), t > 0,

42 34 Elemetare Analyseverfahren bei Zeitreihen eine lineare Funktion von log(t) mit der Neigung β 1 und Verschiebung log(β 2 ) ist, können wir ein Regressionsmodell für logarithmische Daten log(y t ) bilden hier ε t ist die Fehler. log(y t ) = log(β 2 ) + β 1 log(t) + ε t, t 1, Beispiel (Income Data. income math.nb) In folgender Tabelle sind die akkumulierte Zuwächse der mittleren Jahresbruttoeinnahmen und Jahresnettoerträge (Thausende DM - deutsche Mark) von Deutschland seit Jahre 1960 dargestellt. Jahr t brutto x t netto y t Tabelle 1.3.2: Income Data. Nehmen wir an, dass sich das netto Einkommen als eine allometrische Funktion von der Zeit t verhaltet, daher erhält man also log(y t ) = log(β 2 ) + β 1 log(t) + ε t. (1.13) Die Kleinstquadratekriteriumschätze von β 1 und log(β 2 ) haben wir schon bestimmt (1.5), nämlich ˆβ 1 = 10 t=1 (log(t) log(t))(log(y t) log(y)) 10 t=1 (log(t) = 1.019, log(t))2

43 1.3 Trendbestimmung 35 wobei log(t) := t=1 log(t) = , log(y) := t=1 log(y t) = , und daher log(β 2 ) = log(y) ˆβ 1 log(t) = Daraus folgt für den Parameter β 2 der Schätzer ˆβ 2 = exp( ) = Der prognostizierte Wert ŷ t bezüglich t ist ŷ t = 0.47t (1.14) In der Tabelle sind die Residuals y t ŷ t für das Modell (1.14) dargestellt. t y t ŷ t Tabelle 1.3.3: Residuals of Income Data. Ein populäres Maß für die Güte der Anpassung einer Funktion ist der Wert R 2 (R squared), der mißt den Anteil der Variabilität der Ergebnisgröße y, welcher durch eine Linearkombination der Einflußgrößen f 1, f 2,...,f p erklärt werden kann. n R 2 t=1 : = (ŷ t ȳ t ) 2 n t=1 (ŷ t ȳ t ) 2 + n t=1 (y (1.15) t ŷ t ) 2 n t=1 = 1 (y t ŷ t ) 2 n n t=1 (y t ȳ) = t=1 (ŷ t ȳ) 2 2 n t=1 (y t ȳ) 2,

44 36 Elemetare Analyseverfahren bei Zeitreihen hier ȳ := n 1 n t=1 y t ist der Mittelwert von den Beobachtungen y t. Ist R 2 = 0, so besteht überhaupt kein derartige Zusammenhang. Ist R 2 = 1 (in diesem Fall muss n t=1 (y t ŷ t ) 2 = 0 gelten, so besteht zwischen der Ergebnisgröße y und den Einflußgrößen f 1, f 2,...,f p ein perfekter linearer Zusammenhang. Eine sinnvolle Regressionsanalyse erfodert R 2 1/2. Das Modell (1.13) hat R 2 = , aber das Modell (1.14) - R 2 = Muss man aufpassen, dass das originale Modell (1.12) nichtlineare ist, deswegen ist ˆβ 2 keinesfalls Kleinstquadrateschätzer und R 2 kann im Prinzip grösser 1 sein. Also in diesem Fall kann R 2 nur grobe Information für die Güte der Anpassung erteilen. Die mittlere Jahresbruttoeinnahmen bzw Jahresnettoerträge Deutschlands waren im Jahre tausend DM bzw tausend DM. Daher erhält man, dass die aktuelle mittlere Bruttoeinnahmen und Nettoerträge die folgenden Ausdrücken x t := x t , ỹ t := y t betrugen, wobei für die geschätzten Werte ˆỹ t = ŷ t = 0.47t Man beachtet, dass die Konstante 5.178, die wir zu y t ergänzt haben, hat keinen Einfluß auf die Residuals ỹ t ˆỹ t = y t ŷ t. Das gegebene Modell darf uns die Situation mit Steuerzahlern von 1960 bis 1970 schätzen und ihre Entwicklung in der Zukunft prognostizieren. Die Tabelle zeigt, dass die Anpassung des Modells für die Jahresnettoerträge y t mit t zwischen 1 und 9 gut ist. Aber y 10 (im Jahre 1970) ist zu gross. Ausgehend von der Tatsache, wurde die deutsche Regierung im Jahre 1969 abgelöst und der im Jahre 1970 dauernde Streik hat zu wesentlichem Einkommenwachstum der Staatsbeamte geführt. 1.4 Transformation von Zeitreihen durch Filter Neben der Bestimmung des globalen Trends ist oft eine Glättung der Zeitreihe von Interesse. Glättung bedeutet Ausschaltung von ir-

45 1.4 Transformation von Zeitreihen durch Filter 37 regulären Schwankungen durch lokale Approximationen. Der Vorteil liegt darin, dass man mit Polynomen niedrigen Grades auskommen. Im klassischen Komponentenmodell entspricht dies der näherungsweisen Bestimmung der glatten Komponente. Betrachten wir das additive Modell Y t = T t + S t + R t, t = 1, 2,... (1.16) ohne Konjukturkomponente. Es wird angennomen, dass E[R t ] = 0. Das Ziel dieses Abschnittes besteht darin, für gegebene Stichprobe y t, t = 1, 2,...,n der Zeitreihe Y t die Schätzer für ˆT t bzw. Ŝ t der nicht zufälligen Funktionen T t bzw. S t zu bestimmen und ihre Einfluß auf die Reihe durch Einsetzen y t ˆT t und y t Ŝt zu eleminieren (Trendbereinigung und Saisonbereinigung). Es ist naheliegend, im ersten Ansatz zum Glätten einer Zeitreihe die Beobachtung Y t durch ein lokales arithmetisches Mittel Yt zu ersetzen Y t = 1 2s + 1 u=s u= s Y t u, t = s + 1,...,n s. Dies ist ein Beispiel für eine lineare Transformation einer Zeitreihe Y t in eine andere Yt. Da lineare Transformationen von großer Bedeutung sind, sollen die einzelnen Transformationen unter dem Blickwinkel eines allgemeinen Konzepts besprochen werden. Definition Eine lineare Transformation L einer Zeitreihe Y t in eine andere Y t gemäß Y t = LY t = s u= r a u Y t u, t = s + 1,...,n r wird als lineare Filter L bezeichnet. Anstatt durch das formale Symbol L wird der Filter auch durch seine Gewichte a u in der Form (a r,...,a s ) bzw. (a u ) angeben. Die Anwendung eines Filters auf eine Zeitreihe Y t wird als Filtration der Reihe bezeichnet. Y t heißt auch der Input und die gefilterte Reihe Yt der Output des Filters.

46 38 Elemetare Analyseverfahren bei Zeitreihen Bei der Filtration einer Zeitreihe Y t ist zu beachten, dass die gefilterte Reihe Yt i.a. kürzer ist als die Input-Reihe. Im Fall s > 0 wird der Anfang, im Fall r > 0 das Ende gekappt. Relevante Beispiele für lineare Filter werden in den folgenden Unterabschnitten besprochen. Gleitende Durchschnitte Das am Beginn des Abschnittes erwähnte Verfahren zur Glättung von Zeitreihen wird als einfacher gleitender Durchschnitt bezeichnet. Der entsprechende Filter hat die Gewichte a u = 1 2s + 1 mit s u= s a u = 1. Wir lassen nun beliebige gewichtete Durchschnitte zu, verlangen jedoch s u= r a u = 1 Definition Ein linearer Filter (a u ) mit s u= r a u = 1 heißt ein gleitender Durchschnitt (moving average). Im Fall a u = 1 2s+1, u = s,...,s, spricht man von einem einfachen gleitenden Durchschnitt (simple moving average). Für die Bestimmung der gefilterte bei einfachen gleitenden Durchschnitt Reihe verwendet man die folgende offensichtliche Formel Y t+1 = Y t + 1 2s + 1 (Y t+s+1 Y t s ). Dieser Filter (spezial Fall des low-pass Filters) verwendet man, wenn die langsam geänderte Komponente des Trends geblieben werden müssen und die häufige Schwankungen eliminiert werden müssen. Wenn wir annehmen, dass die Zeitreihe Y t = T t + R t keine zyklische Komponente enthält, der einfache gleitende Durchschnitt führt zu Y t = 1 2s + 1 s u= s Y t u = 1 2s + 1 s u= s wobei mit dem Satz der grossen Zahlen T t u + 1 2s + 1 R t E[R t ] = 0, s u= s R t u =: T t +R t,

47 1.4 Transformation von Zeitreihen durch Filter 39 wenn s gross ist. Aber, wenn s gross ist, kann T t in diesem Fall nicht gut der Funktion T t anpassen. Wenn s klein ist, dann R t gegen den Erwartungswert E[R t ] nicht gut konvergiert. Beispiel (Unemployed1 Data. unemployed1 filter math.nb). Die folgende Abbildung zeigt die Reihe Unemployed1 sowie 3 einfache gleitende Durchschnitte, bei denen je 3 bzw. je 7 bzw. je 9 bzw. je 13 Werte einbezogen wurden. Formalmäßig ergeben sich also Y t = 1 3 (Y t 1 + Y t + Y t+1 ), s = 1 Y t = 1 7 (Y t 3 + Y t 2 + Y t 1 + Y t + Y t+1 + Y t+2 + Y t+3 ), s = 3 Yt = 1 4 Y t u, s = 4 9 Y t = 1 13 u= 4 6 u= 6 Y t u, s = 6. Arbeitslosen Reihe Länge 3 Länge 7 Länge 9 Länge t Plot 1.4.1a: Die Reihe Unemployed1 mit gleitenden Durchschnitten der Länge 3 sowie 7, 9, 13.

48 40 Elemetare Analyseverfahren bei Zeitreihen Beispiel (Bankruptcy Data. bankruptcy filter math.nb) Die folgende Abbildung zeigt die Reihe Bankruptcy sowie 2 einfache gleitende Durchschnitte, bei denen je 3 bzw. je 5 Werte einbezogen wurden. Konkurse Reihe Länge Länge Jahr Plot 1.4.2a: Die Reihe Bankruptcy mit gleitenden Durchschnitten der Länge 3 sowie der Länge 5. Einfache gleitende Durchschnitt können auch für gerade Anzahlen von Werten bestimmt werden. Der Output ist dann aber jeweils der Mitte zwischen 2 Zeitpunkten zugeordnet, so etwa 1 4 (Y 1 + Y 2 + Y 3 + Y 4 ) dem Zeitpunkt 2.5. Man kann diesen ungewünschten Effekt dadurch vermeiden, dass man jeweils über zwei aufeinanderfolgende Werte des Outputs mittelt. Im Beispiel berechnet man also Y 2.5 = 1 4 (Y 1 + Y 2 + Y 3 + Y 4 )

49 1.4 Transformation von Zeitreihen durch Filter 41 und als Mittelwert entsteht Y 3.5 = 1 4 (Y 2 + Y 3 + Y 4 + Y 5 ) Y 3 = 1 2 Y Y 3.5 = = 1 8 Y Y Y Y Y 5. Arbeitslosen Reihe Länge t Plot 1.4.3a: Die Reihe Unemployed1 mit gleitenden Durchschnitten der Länge 12. Bei einer Filtration durch einen Filter der Länge 2s + 1 gehen an beiden Rängern der Zeitreihe jewiels s Werte verloren. Dies ist insbesondere für den aktuellen Rand der Zeitreihe oft nicht akzeptabel. Es existieren daher eine Reihe von Verfahren der Randergänzung. Eine generelle Technik ist die Anwendung eines Prognoseverfahrens, um die Reihe s Werte in die Zukunft hinein zu verlängern. Auf diese erweiterte Reihe kann dann ein Filter der Länge 2s + 1 angesetzt werden.

50 42 Elemetare Analyseverfahren bei Zeitreihen Im Fall der lokalen Approximation durch Polynome liegt es andererseits nahe, bei der Polynomanpassung an die letzten Reihenwerte die Koeffizienten des Polynoms zu Schätzen und daraus angepaßte Werte für die Daten des aktuellen Rands zu berechnen. Definition Ein lineare Filter (a r,...,a s ) heißt symmetrisch, wenn r = s und a u = a u für u = 1,...,r. Sonst heißt er asymmetrisch. Saisonbereinigung Vor allem in ökonomischen Zeitreihen findet man häufig ausgeprägte Saisonfiguren, d.h. relativ regelmäßige zyklische Schwankungen mit Jahresperiode. Saisonbereinigungsverfahren können auch bei nichtökonomischen Zeitreihen eingesetzt werden, wenn aus substanzwissenschaftlichen Gründen die Existenz einer zumindest annähernd periodischen Komponente mit bekannter Periode p N vermutet wird. Liegt etwa ein Jahreszyklus vor, so ist für Monatsdaten p = 12 und für Quartalzahlen p = 4. Wir gehen im folgenden von Monatswerten und jährlichen Saisonfiguren aus (p = 12). Der einfache gleitende Durchschnitt der Zeitreihe Y t = T t +S t +R t ist Y t = T t + S t + R t, wobei S t der gleitende Durchschnitt der Saisonkomponente bezeichnet. Es wird angenommen, dass S t eine periodische Funktion mit bekannter Periode p ist, d.h. S t = S t+p, t = 1,...,n p. Nehmen wir z.b. die durchschnittliche monatliche temperatur Y t, die eine Saisonkomponente S t mit der Periode p = 12 Monate enthält. Der einfache gleitende Durchschnitt führt wegen S t = S t+p zu der Konstante St = 1 ( S t 6 + S t u + 1 ) 2 S t+6 = u=1 S u = S, u= 5 t = p, p + 1,...,n p

51 1.4 Transformation von Zeitreihen durch Filter 43 Setzen wir jetzt T t := T t + S, wobei T t der Trend ist, können wir annehmen, dass S = 0 ist. Damit folgt für die Differenzen D t := Y t Y t = T t T t + S t S t + R t R t S t + R t und für den Erwartungswert D t ergibt sich D t := 1 n t 1 n t j=0 D t+jp = 1 n t 1 (S t+jp + R t+jp ) S t, t = 1,...,p, n t j=0 D t := D t p für t > p, wobei n t die Anzahl der verfügbare Periode für die Berechnung des Wertes D t ist. Dann ist Ŝ t := D t 1 p D j S t 1 p S j = S t (1.17) p p j=1 j=1 ein Schätzer für S t = S t+p = S t+2p =..., wobei 1 p p 1 Ŝ t+j = 0 = 1 p 1 S t+j. p j=0 j=0 Die Differenzen Y t Ŝt heißt seasonbereinigte Reihe. Beispiel (Unemployed1 Data. unemployed1 filter math2.nb) Aus der Reihe Unemployed1 nehmen wir an, dass die Periode p = 12 Monate. Der einfache gleitende Durchschnitt der Länge 12 Y t = 1 12( 1 2 Y t u= 5 Y t u + 1 ) 2 Y t+6, t = 7,...,45, hat eine konstante Saisonkomponente. Wie wir schon besproschen haben, können wir dieser Konstante zu dem Trend hinzufügen, dann die Konstante kann gleich Null gesetzt werden. In Tabelle stellen die Zahlen der Variablen D t, Dt und der Schätzer Ŝt von S t.