Diplomarbeit zur Erlangung des Diplomgrades Diplom-Informatiker (FH) in der Fachrichtung Allgemeine Informatik



Ähnliche Dokumente
Kapitel 11 Produktion, Sparen und der Aufbau von Kapital

Phillips Kurve (Blanchard Ch.8) JKU Linz Riese, Kurs Einkommen, Inflation und Arbeitslosigkeit SS 2008

15. Netzgeräte. 1. Transformator 2. Gleichrichter 3. Spannungsglättung 4. Spannungsstabilisierung. Blockschaltbild:

4.7. Prüfungsaufgaben zum beschränkten Wachstum

Schriftliche Abiturprüfung Technik/Datenverarbeitungstechnik - Leistungskurs - Hauptprüfung. Pflichtteil

Thema : Rendite und Renditemessung

Praktikum Grundlagen der Elektrotechnik Versuch 5. Matrikelnummer:

Motivation. Finanzmathematik in diskreter Zeit

1. Mathematische Grundlagen und Grundkenntnisse

Analog-Elektronik Protokoll - Transitorgrundschaltungen. Janko Lötzsch Versuch: 07. Januar 2002 Protokoll: 25. Januar 2002

Die Sensitivität ist eine spezielle Form der Zinselastizität: Aufgabe 1

Thema 6: Kapitalwert bei nicht-flacher Zinsstruktur:

Kondensator und Spule im Gleichstromkreis

Grundlagen zeitveränderlicher Signale, Analyse von Systemen der Audio- und Videotechnik

3.2 Festlegung der relevanten Brandszenarien

Grundlagen der Informatik III Wintersemester 2010/2011

Aufbau von faserbasierten Interferometern für die Quantenkryptografie

Versuch 1 Schaltungen der Messtechnik

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Wechselspannung. Zeitlich veränderliche Spannung mit periodischer Wiederholung

Masterplan Mobilität Osnabrück Ergebnisse der Verkehrsmodellrechnung

Kosten der Verzögerung einer Reform der Sozialen Pflegeversicherung. Forschungszentrum Generationenverträge Albert-Ludwigs-Universität Freiburg

Unternehmensbewertung


5. Flipflops. 5.1 Nicht-taktgesteuerte Flipflops NOR-Flipflop. Schaltung: zur Erinnerung: E 1 A 1 A 2 E 2.

Fachrichtung Mess- und Regelungstechniker

REX und REXP. - Kurzinformation -

Hamburg Kernfach Mathematik Zentralabitur 2013 Erhöhtes Anforderungsniveau Analysis 2

Berücksichtigung naturwissenschaftlicher und technischer Gesetzmäßigkeiten. Industriemeister Metall / Neu

Die Halbleiterdiode. Demonstration der Halbleiterdiode als Ventil.

Zeichen bei Zahlen entschlüsseln

Preisniveau und Staatsverschuldung

11. Flipflops NOR-Flipflop. Schaltung: zur Erinnerung: E 1 A 1 A 2 E 2. Funktionstabelle: Fall E 1 E 2 A 1 A

Johann Wolfgang Goethe-Universität


INPUT-EVALUATION DER ZHW: PHYSIK SEITE 1. Serie 1

P. v. d. Lippe Häufige Fehler bei Klausuren in "Einführung in die ökonometrische Datenanalyse" Duisburg

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Zahlungsverkehr und Kontoinformationen

b) Man erwärmt auf einer Herdplatte mit einer Leistung von 2,0 kw zehn Minuten lang zwei Liter Wasser von 20 C.

GRUNDLAGENLABOR CLASSIC RC-GLIED

SERVICE NEWSLETTER. Einführung in die Mechanik Teil 2: Kinematik (2)

Musterbeispiele zur Zinsrechnung

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Zwei Rechenbeispiele für die einfache lineare Regression

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Abiturprüfung Baden-Württemberg 1986

Grundschaltung, Diagramm

Prof. Dr. W. Zucchini 06 Wiederholung Kap. 1-4 Zeitreihenanalyse Sommer 2003

Kapitalerhöhung - Verbuchung

Zinsstruktur und Barwertberechnung

Bericht zur Prüfung im Oktober 2009 über Grundprinzipien der Versicherungs- und Finanzmathematik (Grundwissen)

Seminararbeitspräsentation Risiko und Steuern. On the Effects of Redistribution on Growth and Entrepreneurial Risk-taking

Dokumentation von Bildungsaktivitäten

Institut für Industriebetriebslehre und Industrielle Produktion (IIP) - Abteilung Arbeitswissenschaft- REFA. Eine Zeitstudie Kapitel 10, S.

Untersuchung von Gleitentladungen und deren Modellierung durch Funkengesetze im Vergleich zu Gasentladungen

Aufgabenblatt 1. Lösungen. A1: Was sollte ein Arbitrageur tun?

Saisonbereinigung ökonomischer Zeitreihen: Das Beispiel BIP

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Informationsblatt Induktionsbeweis

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Dow Jones am im 1-min Chat

Kreativ visualisieren

1. Richtig oder falsch? R F

Lineare Gleichungssysteme

Simulation LIF5000. Abbildung 1

Latente Wärme und Wärmeleitfähigkeit

Mathematik III DGL der Technik

Bericht zur Prüfung im Oktober 2007 über Finanzmathematik und Investmentmanagement

Embedded & Software Engineering

9. EXPONENTIALFUNKTION, LOGARITHMUSFUNKTION

Was meinen die Leute eigentlich mit: Grexit?

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

5.5 Transaktionsverwaltung/Fehlerbehandlung. Transaktionsbegriff - Was ist eine Transaktion - Wozu braucht man Transaktionen - ACID-Eigenschaften

Signal- und Systemtheorie for Dummies

INSTITUT FÜR ANGEWANDTE PHYSIK Physikalisches Praktikum für Studierende der Ingenieurswissenschaften Universität Hamburg, Jungiusstraße 11

Leibnizschule Hannover

Regionale Bildungskonferenz des Landkreises Osterholz. Schlüsselqualifikation und Berufsfähigkeit - Welche Anforderungen stellt die Praxis?

Repetitionsaufgaben Wurzelgleichungen

Mathematische Methoden der klassischen Physik Zusammenfassung Differentialgleichungen

Tabellenband Onlinebefragung Sicherheit im Leben - Thema Urlaub -

So prüfen Sie die Verjährung von Ansprüchen nach altem Recht

DSS1. Digitaler Sprachspeicher Einschub mit RAM- und Flash- Speicherbänken. Abb. DSS1 (L- Nr ) 16 Speicheradressen für Sprachaufzeichnung:

Bericht zur Prüfung im Oktober 2006 über Finanzmathematik und Investmentmanagement

Guide DynDNS und Portforwarding

Fallstudie zu Projektbezogenes Controlling :

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Kapitalerhöhung - Verbuchung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Kapitel : Exponentielles Wachstum

Professionelle Seminare im Bereich MS-Office

Stochastischer Prozess S(t) z.b. Rauschspannung

Unterschied 2: kurzfristige vs langfristige Zinssätze. Arbitrage impliziert: r = i e i = r + e (1) (2)

Kulturelle Evolution 12

Willkommen zur Vorlesung Statistik

Kapitel : Exponentiell-beschränktes Wachstum

Dow Jones Future am im 1-min Chart. Mein Handelsereignis lautet: 3 tiefere Hoch s über dem 50-er GD

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Aufgaben zur Zeitreihenanalyse (Kap. 5)

Herzlich willkommen zur Demo der mathepower.de Aufgabensammlung

Transkript:

Fachhochschule Köln - Campus Gummersbach Fakulä für Informaik und Ingenieurwissenschafen Universiy of Applied Sciences Cologne Faculy of Compuer and Engineering Science Sudiengang Allgemeine Informaik Diplomarbei zur Erlangung des Diplomgrades Diplom-Informaiker (FH) in der Fachrichung Allgemeine Informaik Enwicklung einer Mehodologie für ein hybrides neuronales Prognosesysem und Tes an Anwendungsbeispielen Von: Serha Cinar Mar.-Nr.: 11030409 Ersprüfer: Prof. Dr. Harmu Wesenberger Zweiprüfer: Prof. Dr. Wolfgang Konen vorgeleg: 22. Juli 2005

Korrekurbla zur Diplomarbei Enwicklung einer Mehodologie für ein hybrides neuronales Prognosesysem und Tes an Anwendungsbeispielen von Serha Cinar AI 11030409 Auf Seie 62 wurde der Theilsche Ungleichheiskoeffizien falsch definier. Die korreke Formel laue: U= 1 N 1 N N = 1 2 [( x f ) ] N 2 [( x x 1 ) ] 1 Die durchgeführen Berechnungen des Theilschen Koeffizienen wurden ensprechend ebenfalls falsch durchgeführ. Hier die korreken Were: Versuch Prognose SromBRD Modell Theil U Trainingsmenge Theil U Validierungsmenge SDIF MLR ohne PCA 0.5020265324 0.5209473352 SDIF KNN 21x7x1 ohne PCA 0.4047708910 0.5139529405 SDIF KNN 7x10x1 (mi 6% PCA) 0.3311129951 0.5135571777 Hybrid (mi 6% PCA) KNN 7x15x1 0.4824079693 0.4877386061 Versuch Prognose DAX Modell Theil U Trainingsmenge Theil U Tesmenge Lag 1 MLR 0.9797244224 0.9795564530 DIF Lags 1, 2, 3, 6, 12 MLR 0.9784204086 0.9508961425 DIF Lags 1, 2, 3, 6, 12 KNN 15x13x1 1.1374637150 0.9973190589 DIF Lags 1, 2, 3, 6, 12 PCA KNN 10x7x1 1.2983784770 0.9064465654 Hybrid 1, 2, 3, 6, 12 PCA KNN 10x11x1 0.4095976642 0.8577944079

2/91 Vorwor Diese Arbei ensand im Anschluss auf die zwei semesrige Vorlesung Künsliche Neuronale Neze von Prof. Dr. H. Wesenberger, in dem ich die Grundlagen und weierführenden Themen im Bereich der Anwendung von künslichen neuronalen Nezen lerne. Hier fasse ich auch meinen Enschluss meine Diplomarbei im Bereich der künslichen neuronalen Neze zu schreiben. Prof. Dr. Wesenberger schlug mir verschiedene Themen vor, daruner das vorliegende Thema. Prof. Dr. Wesenberger hae sich bereis in einigen Projeken mi mulivariaer Prognose durch künsliche neuronale Neze auseinander gesez und schlug mir vor, klassische lineare Ansäze mi künslichen neuronalen Nezen zu kombinieren. Die Zeireihenprognose durch Kombinaion verschiedener Verfahren is nich neu, doch gib es wenig Lieraur, die eine konkree Mehodologie für Kombinaionen von künslichen neuronalen Nezen und klassischen Prognosemodellen aufzeig. Eine solche Mehodologie und ihre Anwendung soll die vorliegende Arbei aufzeigen. Mein Dank gil Prof. Dr. Wesenberger, der mir mi vielen Raschlägen bei der Ersellung dieser Arbei geholfen ha. Schließlich gil mein besonderer Dank an meine Elern, die mir das Sudium ers ermöglichen und mich während meines Sudiums unersüzen, sowie meinen Freunden, die mir geisige Unersüzung gaben. Außerdem danke ich allen freien Quellen im Inerne, welche mir schnell eine umfangreiche Sich auf das Thema aus mehreren Blickwinkeln gewähren. Ensprechend möche ich diese Arbei frei zugänglich machen für alle Wissensdursigen, frei nach dem 14. Dalai Lama: Teile Dein Wissen, so erlangs Du Unserblichkei. Absrac Timeseries forecasing is an imporan ool for conroling in many areas. Several auhors have combined radiional univariae and linear forecasing mehods like ARIMA wih nonlinear forecasing mehods like arificial neural nes o improve forecasing performance. This hesis poins a mehodology ou for dealing wih imeseries and using a hybrid mehodology by combining he muliple linear regression and arificial neural nes for mulivariae imeseries forecasing. Wih some sample imeseries i is shown, how he performance of he hybrid mehod can improve he forecasing performance in comparison o plain arificial neural nes and plain muliple linear regression mehods.

3/91 Inhalsverzeichnis Vorwor...2 Absrac...2 Inhalsverzeichnis...3 Abbildungsverzeichnis...5 Tabellenverzeichnis...7 Abkürzungen und Symbole...8 1 Einleiung...10 1.1 Moivaion...10 1.2 Aufgabensellung und Zielsezung...11 1.3 Gliederung...12 2 Zeireihenanalyse und prognose...13 2.1 Definiion einer Zeireihe...13 2.2 Univariae und mulivariae Zeireihen...13 2.3 Charakerisische Merkmale von Zeireihen...14 2.4 Saionäre und Nich-Saionäre Zeireihen...16 3 Mehodologie der Zeireihenprognose...18 3.1 Daensichung und Darsellung...19 3.2 Vorverarbeiung der Daen...20 3.2.1 Gleichmäßiges Zeiraser schaffen...20 3.2.2 Ausreißer Idenifikaion und Behandlung...21 3.3 Klassisches Komponenenmodell für Zeireihen...26 3.3.1 Globaler Trend...27 3.3.2 Zyklischer Trend (Saisonaliä)...28 3.4 Trendbereinigung...31 3.4.1 Transformaionen...32 3.4.2 Regression...33 3.4.3 Phasendurchschnisverfahren...38 3.4.4 Gleiender Durchschni (moving average)...41 3.4.5 Differenzfiler...42 3.4.6 Haupkomponenenanalyse (PCA)...45 3.5 Prognose...46 3.5.1 Muliple lineare Regression...46 3.5.2 Auoregression...47 3.5.3 Prognose mi gleienden Durchschnien...49 3.5.4 Exponenielle Gläung (exponenial smoohing)...50 3.5.5 ARMA...52 4 Künsliche Neuronale Neze...54 4.1 Grundlagen der künslichen neuronalen Neze...54 4.2 Lernverfahren Backpropagaion...55 4.3 KNN als muliple nichlineare Regressoren...56 4.4 Modellparameer für KNN...57 5 Qualiäs- und Fehlermaße zum Vergleich verschiedener Prognosen...61 6 Hybride Modelle...63 6.1 MLR...64 6.2 Vergleich MLR und KNN...65 6.3 Hybrides MLR und KNN Modell...66 6.4 Hybride Mehodologie...68 6.5 Verifizierung an einem weieren Beispiel...69 6.6 Diskussion der Ergebnisse...72 7 Zusammenfassung und Ausblick...74

4/91 7.1 Zusammenfassung...74 7.2 Ausblick...74 7.2.1 Weiere hybride Modelle...74 7.2.2 Alernaive Kodierungen...74 7.2.3 SOM...74 7.2.4 Komiees von KNN...75 7.2.5 Hybride KNN...75 7.2.6 Rekurrene KNN...75 7.2.7 Schnellere KNN...75 7.2.8 Anwendung der Modelle im Audiobereich...76 Lieraurverzeichnis...77 Anhang...81 A. Zeireihen...81 B. Maple-Quellkode...82 C. Java-Quellkode...90 Ehrenwörliche Erklärung...91

5/91 Abbildungsverzeichnis Abb. 1: ACF der Reihe ArbeislosBRD mi Laggrößen bis 80 (links) sowie die Originalwere von 1993-2000...16 Abb. 2: Flussdiagramm einer Zeireihenprognose...18 Abb. 3: Scaerplo der Reihe SromBRD...19 Abb. 4: Graph der Reihe SromBRD...19 Abb. 5: Plo der Originalreihen SromBRD, SromFR, SromNL, SromUK, SromES...20 Abb. 6: Erse Differenzen der Reihe SromBRD mi 2s (blau) und 3s (ro) Inervall...23 Abb. 7: Boxplo der ersen Differenzen der Reihe SromBRD...23 Abb. 8: Boxplo-Ausreißer der Reihe SromBRD...24 Abb. 9: Resliche Ausreißer nach der Inerpolaion der Ausreißer mi >1991 der Reihe SromBRD...24 Abb. 10: Regressionsgeraden für beide Hälfen am Punk =1991 der Reihe SromBRD...25 Abb. 11: Reihe SromBRD nach der Korrekur des LS...25 Abb. 12: Tägliche Dow-Jones Indusial Average Index Schlussnoierung 1950-2005...25 Abb. 13: Vorgehen bei einem reinen globalen Trend...28 Abb. 14: Reihe ArbeislosBRD in Abschnie je 12 Were unereil...29 Abb. 15: Vorgehen bei einem reinen saisonalen Trend...30 Abb. 16: Vorgehen bei einem kombinieren globalen und saisonalen Trend...31 Abb. 17: Reihe DJ daily: Tägliche Dow-Jones Indusial Average Index Schlussnoierung 1950-2005 nach Log-Transformaion...33 Abb. 18 A-G: Die Mielwer bereinige Reihe ArbeislosBRD (blau), Regressionspolynom (ro) und Trend bereinige Were (schwarz) mi Polynomen verschiedener Grade....35 Abb. 19: (A)-(D): Die Mielwer bereinige Reihe SromBRD (blau), Regressionspolynom (ro) und Trend bereinige Were (schwarz) mi Polynomen verschiedener Grade, (E): Trend bereinige Were, (F): ACF der Trend bereinigen Were...36 Abb. 20: Die Graphen der Funkionen (A) e2x, (B) e-3x und (C) e-0.1x...37 Abb. 21: Die Graphen verschiedener logisischer Funkionen...37 Abb. 22: Die globaler Trend bereinigen Were der Reihe SromBRD, aufgeeil in Abschnie je 12 Were...39 Abb. 23: Die globaler Trend bereinigen Were der Reihe SromBRD, aufgeeil nach ihrer Zugehörigkei zu einem Mona (schwarz), sowie ihre Mielwere (ro)... 39 Abb. 24: (A) Die Saison und Trend bereinigen Were der Reihe SromBRD, aufgeeil in Abschnie je 12 Were. (B) Die Saison und Trend bereinigen Were der Reihe SromBRD, aufgeeil nach ihrer Zugehörigkei zu einem Mona (schwarz), sowie ihre Mielwere (ro). (C) ACF der Saison und Trend bereinigen Reihe...40 Abb. 25: Ausschni der Reihe SromBRD (2001-2005, schwarz) mi gleienden Durchschnien der Ordnung 3 (ro), 7 (blau) und 13 (grün)...42 Abb. 26: Differenzierungen der Reihe SromBRD bis zu einer Ordnung von 10. Links: ACF bei Lag 1 (schwarz) und Grenzwer bei -0.5 (ro). Rechs: Sandardabweichung der differenzieren Reihen...44 Abb. 27: Links: Die einfach differenzieren Were der Reihe SromBRD, aufgeeil nach ihrer Zugehörigkei zu einem Mona (schwarz), sowie ihre Mielwere (ro).

6/91 Rechs: Die einfach saisonal differenzieren Were der Reihe SromBRD, aufgeeil nach ihrer Zugehörigkei zu einem Mona (schwarz), sowie ihre Mielwere (ro)...44 Abb. 28: PACF der Saison und Trend bereinigen Reihe SromBRD (schwarz) mi Signifikanzinervall bei 0.2 und -0.2 (ro)...47 Abb. 29: Einschri Prognosen des AR(1)-Modells (ro) für die Saison und Trend bereinige Reihe SromBRD (schwarz)...48 Abb. 30: Residuen und ACF der Residuen der einschri Prognosen des AR(1)- Modells für die saisonbereinige Reihe SromBRD...48 Abb. 31: Einschri Prognosen des AR(1)-Modells (ro) nach Zurückransformaion der Saison- und Trendbereinigung für die Originalreihe SromBRD (schwarz)...49 Abb. 32: Einschri Prognosen durch gleiende Durchschnie mi Laggrößen 3 (ro) und 7 (blau) der Originalreihe SromBRD (schwarz)...50 Abb. 33: Einschri Prognosen des EWMA-Modells (ro) für die Saison und Trend bereinige Reihe SromBRD (schwarz)...52 Abb. 34: Die Residuen der EWMA-Prognose (links) sowie die ACF der Residuen (rechs) für die Saison und Trend bereinige Reihe SromBRD...52 Abb. 35: Einschri Prognosen des EWMA-Modells (ro) für die Residuen des AR (1)-Modells (schwarz) für die Reihe SromBRD...53 Abb. 36: Die Residuen der EWMA-Prognose (links) sowie die ACF der Residuen (rechs) für die Residuen des AR(1)-Modells für die Reihe SromBRD...53 Abb. 37: Schemaische Darsellung eines McCulloch-Pis-Neurons...54 Abb. 38: Absieg an einer Fehlerfunkion (milerer quadraischer Fehler)...55 Abb. 39: Berechnungsformel für die Gewichsakualisierung beim Sandard Backpropagaion...55 Abb. 40: Prognosen der Modelle SDIF MLR (oben), SDIF KNN mi PCA (mie) und des hybriden Modells (unen)...67 Abb. 41: Flußdiagramm zum Vorgehen beim hybriden Modell...68 Abb. 42: Rohdaen der Reihen DAX (links oben), DJ (rechs oben) und CAC (links unen)...69 Abb. 43: ACF (links) sowie saisonaler Indexplo (rechs) der Reihe DAX...70 Abb. 44: ACF(1) (oben links) und Sandardabweichung (oben rechs) bei verschiedenen Differenzierungsordnungen sowie ACF nach einfacher Differenzierung (unen links) der Reihe DAX...71 Abb. 45: Prognosen der Modelle DIF MLR (oben), DIF KNN mi PCA (mie) und des hybriden Modells (unen)...72

7/91 Tabellenverzeichnis Tabelle 1: Fehlerwere der MLR nach einfacher saisonaler Differenzierung der Daen bei verschiedenen Lagsrukuren für die Reihe SromBRD...65 Tabelle 2: Fehlerwere der KNN und MLR Prognosen für die Reihe SromBRD... 65 Tabelle 3: Fehlerwere der KNN und MLR Prognosen mi und ohne PCA für die Reihe SromBRD...66 Tabelle 4: Fehlerwere der MLR und KNN Prognosen mi und ohne PCA sowie des hybriden Modells für die Reihe SromBRD...66 Tabelle 5: Fehlerwere der verschiedenen Modelle für die Prognose der Reihe DAX...72

8/91 Abkürzungen und Symbole Abb. ABSE Absch. ACF AO AR ARIMA ARMA avg. DFT EWMA FFT IO IQR KNN LC LS MA MAD MAPE MCPN MKQ MLR MSE PACF RMSE SARIMA SOM SSE Tanh TC Theil U VC WMA Abbildung Summe der absoluen Fehlerberäge, sum of absolue errors Abschni Auokorrelaionsfunkion Addiive oulier, lokaler Ausreißer Auoregression Auoregressive Inegraed Moving Average Auoregressive Moving Average Average, Durchschni, durchschniliche Diskree Fourier Transformaion Exponenial weighed moving average, exponenial smoohing exponeniell gewicheer gleiender Durchschni, exponenielle Gläung Fas Fourier Transformaion Innovaive oulier, Ausreißer mi einem längeren emporären Effek Inerquarile range Künsliches neuronales Nez Level change, permanene Niveauänderung Level Shif, Plözlicher Wechsel des mileren Niveaus Moving average, gleiender Durchschni Milerer absoluer Fehler, mean absolue error, mean absolue deviaion Milerer absoluer prozenualer Fehler, mean absolue percen error McCulloch-Pis Neuron Mehode der kleinsen Quadrae Muliple lineare Regression Milerer quadraischer Fehler, mean squared error Parielle Auokorrelaionsfunkion Quadrawurzel des mileren quadrieren Fehlers, roo mean squared error Seasonal Auoregressive Inegraed Moving Average Self organizing map, selbsorganisierende Kare, Kohonen-Kare Summe der quadrieren Fehler, sum of squared errors Tangens hyperbolicus Transien level change, sanfe Niveauänderung Theil'scher Ungleichheiskoeffizien Variance change, seige Änderung der Varianz Wighed moving average, gewicheer gleiender Durchschni Index der Beobachungen (Zeiindex), erse Beobachung = 1 x f N r Wer zum Zeipunk Prognosizierer Wer für den Zeipunk Anzahl der Beobachungen Differenzfiler Dela, Seigung Auokorrelaionskoeffizien

9/91 r k σ xy T T S S xˆ e ε Auokorrelaionskoeffizien mi lag k (Auokorrelaionsfunkion) Kovarianz der Were x und y Trendfunkion für den globalen Trend Wer der Trendfunkion für den globalen Trend zum Zeipunk Trendfunkion für den saisonalen Trend Wer der Trendfunkion für den saisonalen Trend zum Zeipunk Trend bereiniger Wer zum Zeipunk Eulersche Konsane Nich prognosizierer Fehler zum Zeipunk

10/91 1 Einleiung 1.1 Moivaion My ineres is in he fuure... because I'm going o spend he res of my life here. Charles Keering 1 Nach den aniken Myhen aus Griechenland (um das 6. und 5. Jahrhunder v. Chr.) verfüge das Orakel von Delphi die Fähigkei, die Zukunf vorauszusagen. Apollon, der Go der Weishei, sprach durch seine Prieserin, Pyhia genann, und erfülle sie mi seiner Weishei, so dass sie den richigen Ra geben konne. Die Raschläge besanden aus Sprüchen oder anderen Zeichen. 2 Diese Ar der Zukunfsvoraussage blieb lange Zei erhalen. Bei den Römern sagen Ponifices (sakrale Beame) und Flämines (Prieser einer besimmen Gohei) die Zukunf aus himmlischen Zeichen, wie Bliz und Donner, oder dem Flug der Vögel voraus. 3 Weiere verbreiee Riuale waren lesen aus den Eingeweiden von Opferieren, Befragung von Tier und Menschenknochen. Dies zeig, dass die Menschen sei äleser Zei versuch haben, die Zukunf voraus zu sagen, mi mehr oder weniger Erfolg. Die modernen Mehoden der Prognose sind gegenüber den aniken Weissagungen mahemaisch-wissenschaflich begründe, empirisch und deerminisisch. Zu den Haupanwendungsgebieen der Zeireihenanalyse gehören 4 : Deskripion der Daen Modellierung des Prozesses, der den Daen zugrunde lieg Prognose des weieren Verlaufs der Daen in der Zukunf Konrolle der zugrunde liegenden Prozesse, welches jedoch meis wegen der Komplexiä der Prozesse kaum möglich is Der Bedarf an Prognosen ensamm vor allem der Enscheidungsfindung. Hier einige Beispiele aus verschiedenen Anwendungsgebieen, die eilweise späer auch genauer diskuier werden: Wirschaf o Prognose von Werpapierkursen, um fundiere Enscheidungen für den An- / Verkauf zu reffen o Prognose von Absazmengen zur Besimmung der zu erwarenden Absäze o Bedarfsschäzung von Ressourcen zur Planung (Operaional Research) Volkswirschaf o Prognose von Kennziffern eines Landes, Volkswachsum, Arbeislosenzahlen, ec., welche auch in Geseze einfließen Ökologie o Weerprognosen zur Vorbereiung für Landwirschafen oder einfach zur Planung des Wochenendes 1 Charles F. Keering (*1876 1958), amerikanischer Ingenieur. 2 Lindenhal, Friedemann; hp://www.geschi.de/arikel/orkdelph.shml (Abruf: 19.04.05). 3 hp://de.wikipedia.org/wiki/orakel (Abruf: 19.04.05). 4 Nach [Schligen 01] Vorwor

11/91 o Schadsoffemissionsprognosen zur Prävenion von Umwelverschmuzung o Erdbebenprognosen zur Vorbereiung und Warnung Biologie o Prognosen zu Populaionswachsümen Technische Konrollen o Prognose von Schadsoffkonzenraionen zur präveniven Reglerkonrolle Die Populariä und auch Effekiviä moderner Prognosemehoden lieg vor allem in zwei Fakoren begründe: 1. Lange Enwicklung der Prognoseverfahren mi immer ausgefeileren Mehoden, welche rech gue Ergebnisse liefern. 2. Forschri der Compuerechnik, die es ers ermöglich den immensen Rechenaufwand, der zur Analyse von großen Daenmengen benöig wird, zu bewäligen. Daraus ergeben sich aber auch die Nacheile moderner Prognoseverfahren: man benöig Experenwisssen sowohl über die zu prognosizierende Domäne als auch über die Prognoseverfahren. Dennoch haben sich viele Programme am Mark eablier, welche das Experenwisssen aufbringen und in auomaisiere Verfahren umsezen. Dennoch sind auch solche mächigen Werkzeuge durch einen Experen auszuweren und zu validieren und berücksichigen kaum besondere Modelle, wie hybride Mehoden aus Kombinaionen mi künslichen neuronalen Nezen. 1.2 Aufgabensellung und Zielsezung The bes way o predic he fuure is o inven i. Alan Curis Kay 5 Ziel dieser Arbei is es eine Mehodologie zu enwickeln um lineare Mehoden der Zeireihenanalyse und prognose mi Prognosemodellen künslicher neuronaler Neze zu vereinen, um ein effizienes und effekives Modell der Prognose zu erhalen. Hierzu sollen zuers verschiedene Mehoden der Zeireihenanalyse und -prognose vorgesell werden. Anschließend sollen diese Mehoden der linearen Zeireihenanalyse an verschiedene Zeireihen angepass und als Vorverarbeiung einer Prognose mi künslichen neuronalen Nezen (KNN) eingesez werden. Im Bereich der Zeireihenanalyse gib es bereis sehr viele auomaisiere Verfahren, die gue Prognoseergebnisse liefern. Beispielsweise kann das Programm Demera 6 alle für ein komplexes SARIMA-Modell benöigen Parameer auomaisch ermieln und opimieren. Ziel dieser Arbei soll es daher nich sein, ein auomaisches Verfahren für Zeireihenprognosen zu enwickeln, sondern vielmehr einen Baukasen an Mehoden zu unersuchen, mi deren Hilfe die Leisungsfähigkei neuronaler Prognosen geseiger werden können. 5 Alan Curis Kay (*1940), US-amerikanischer Compuerpionier. 6 Demera: hp://forum.europa.eu.in/irc/dsis/eurosam/info/daa/demera.hm

12/91 1.3 Gliederung Das Kapiel 2 beschäfig sich haupsächlich mi der Definiion von Zeireihen, sowie mi Charakerisiken von Zeireihen, welche als Grundlage der Zeireihenanalyse dienen. In Kapiel 3 wird anschließend ein Vorgehensmodell zur Zeireihenprognose aufgezeig, welche die Darsellung, Vorverarbeiung, Zerlegung und Prognose der Zeireihe umfaß. Hierbei werden primär Mehoden der klassischen linearen Zeireihenanalyse und prognose vorgesell und unersuch. Ein Abschni beschäfig sich mi den Grundlagen und Anwendungen von künslichen neuronalen Nezen im besonderen auf die Zeireihenprognose. Kapiel 4 gib einen Überblick über Maßzahlen, welche es erlauben die Prognosegüe verschiedener Modelle mieinander zu vergleichen. Im Kapiel 5 werden Maßzahlen vorgesell, welche es erlauben die Prognosegüe verschiedener Modelle mieinander zu vergleichen. Schließlich wird in Kapiel 6 experimenell die Performanz der muliplen linearen Regression mi einem künslichen neuronalen Nez für mulivariae Prognosen verglichen und anschließend zur Verbesserung der Performanz ein hybrides Modell aus beiden Mehoden enwickel. Das leze Kapiel enhäl die obligaorische Zusammenfassung und diskuier im Ausblick zusäzliche Ideen für Verbesserungen der Prognosemodelle.

13/91 2 Zeireihenanalyse und prognose I is said ha he presen is pregnan wih he fuure. Volaire 7 in The Porable Volaire Dieses Kapiel führ Grundbegriffe, Konzepe und die Mehodologie der üblichen Zeireihenanalyse und prognose ein und erklär diese an Beispielen. Dabei wird auch das von Thiesing vorgeselle Modell der Zeireihenprognose mi KNN vorgesell. Die in diesem Kapiel vorgesellen mehodischen Werkzeuge zur Zeireihenanalyse und prognose werden im nächsen Kapiel auf ihre Tauglichkei als Vorverarbeiung einer KNN-Prognose im Vergleich zu derselben benuz. 2.1 Definiion einer Zeireihe Eine Zeireihe is eine nach dem Zeiindex geordnee Menge von Beobachungen x einer Zufallsvariablen X mi = 1,..., T, d. h. es liegen T Beobachungen vor. 8 Dabei gehen die meisen Verfahren zur Analyse von Zeireihen von einem äquidisanen Zeiraser aus, also von Beobachungen, die in gleichmäßigen Absänden gewonnen wurden. 2.2 Univariae und mulivariae Zeireihen Bei einer univariaen Zeireihe lieg für jeden Zeipunk eine einzige Beobachung vor, es wird also nur ein Merkmal berache. Die Prognose zukünfiger Beobachungen wird anhand der vorliegenden (vergangenen und akuellen) Beobachungen ermiel. Dem lieg die Annahme zugrunde, dass die vorliegenden Beobachungen über die Zei hinweg eine inerne Srukur bzw. Regelmäßigkei besizen, welche durch die Analyse herausgearbeie und durch die Prognose benuz werden soll. 9 Üblicherweise werden die lezen n Beobachungen als Süzbereich (englisch: Lag) benuz, um die nächse, nich mehr vorliegende Beobachung zu prognosizieren. Thiesing sprich hierbei auch von einer horizonalen Prognose. 10 Bei mulivariaen Zeireihen berache man nich eine Variable isolier, sondern das Zusammenwirken mehrerer Variablen zugleich und dami ihre Abhängigkeissrukur. Dami liegen für jeden Zeipunk mehrere Beobachungen oder verschiedene Merkmale vor: Die zu prognosizierende endogene Zeireihe und die erklärenden exogenen Zeireihen. Thiesing nenn die mulivariae Prognose auch die verikale Prognose. Der Ansaz der mulivariaen Zeireihe versuch auch der Tasache gerech zu werden, dass die meisen Prozesse nich isolier aufreen und auch nich isolier prognosizierbar sind, sondern nur als Menge mehrere mieinander in Abhängigkei sehender Prozesse. 7 Volaire, eigenlich François-Marie Aroue (*1694 1778), französischer Schrifseller und Philosoph. 8 [Leiner 82] S. 2. 9 Vergl. [PrinsNIST] Absch. 6.4. 10 Vergl. [Thiesing 98] S. 88.

14/91 2.3 Charakerisische Merkmale von Zeireihen Arihmeischer Mielwer Das arihmeische Miel, auch als Durchschni bezeichne, is der Mielpunk der Beobachungen. In der Physik wird er auch als Massezenrum bezeichne. Er wird im univariaen Fall als Quoien der Summe der einzelnen Beobachungen und der Anzahl der Beobachungen berechne. N 1 x = [ x ] N = 1 Bei einer mulivariaen Zeireihe aus M Reihen Mielwer aus dem M-dimensionalen Vekor ( x,..., x ) m X 1...X m mi m=1...m beseh der 1. Der Mielpunk wird also als Vekor der Mielpunke der einzelnen Reihen versanden. Varianz und Sandardabweichung Die Varianz bezeichne die Särke der Sreuung der Were um den Mielwer und wird im univariaen Fall wie folg berechne: N 2 1 2 s = [( x x) ] N = 1 Auf der Varianz aufbauend wird die Sandardabweichung definier, welche im Gegensaz zur Varianz dieselbe Maßeinhei ha wie die zugrunde liegenden Were: Empirische Kovarianz s = Die Kovarianz beschreib, wie sark zwei verschiedene Reihen X und Y linear voneinander abhängig sind. Linear bedeue hier, dass eine Gerade das Verhälnis zwischen beiden Reihen beschreib. Dies is auch die Schwäche dieser Kenngröße, da sie nichs über nichlineare (z.b. quadraische, logarihmische oder andere) Zusammenhänge beider Reihen aussag. N 1 11 σ XY = [( x x)( y y)] N 1 = Lieg lediglich eine Zeireihe vor, also im univariaen Fall, kann die Kovarianz auch die lineare Abhängigkei zwischen Weren mi verschiedenen zeilichen Absänden (Lag) besimmen und wird dann als Auokovarianz bezeichne. Dabei wird y durch x + lag ersez. Korrelaionskoeffizien Der Korrelaionskoeffizien (Ko-Relaion = Mi-Beziehung), hier die Definiion von Bravais-Pearson 12, auch als Produk-Momen-Korrelaion bekann, is eine 11 [Heiler 94] S. 222., [Schligen 01] S. 4. 12 Benann nach den Mahemaikern Auguse Bravais (*1811 1863) und Karl Pearson (*1857 1936), siehe 2 s

15/91 Normierung der Kovarianz auf das Inervall [-1;+1] und gib Richung und Särke des linearen Zusammenhanges an. Der Wer des Korrelaionskoeffizienen r lieg immer im Bereich 1 bis +1, wobei 1 r < 0 für einen umgekehr proporionalen Zusammenhang, r = 0 für keinen linearen Zusammenhang und 0 < r 1 für einen proporionalen Zusammenhang sehen. Je größer der Berag von r is, deso särker is die gemeinsame Korrelaion. r XY = N = 1 N = 1 [( x x) ( y [( x x) 2 ] N = 1 y)] 2 [( y y) ] Bei mehreren Zeireihen bilde man üblicherweise die Korrelaionsmarix, deren Reihen und Spalen die Korrelaionen der verschiedenen Zeireihen zueinander enhalen. Da die Korrelaion einer Zeireihe zu sich selbs ses 1 is, beseh die Diagonale der Korrelaionsmarix aus Einsen. Da der Korrelaionskoeffizien auch reflexiv is, d.h. r XY = ryx gil, is die Korrelaionsmarix symmerisch zu ihrer Diagonalen. Im folgenden die Korrelaionsmarix der Srom-Zeireihen, welche in der Abb. 5 auch graphisch dargesell werden. DE FR NL UK ES DE [ 1..9156.868.7426.7687 ] FR.9156 1..8351.814.7723 NL.868.8351 1..6811.9486 UK.7426.814.6811 1..6247 ES.7687.7723.9486.6247 1. Zu erkennen sind die särksen Korrelaionen zwischen dem Sromverbrauch in Deuschland und Frankreich und zwischen den Niederlanden und Spanien. Auch die anderen Länder haben hinsichlich des Sromverbrauches große Ähnlichkeien. Bei der Auswahl exogener Reihen für mulivariae Prognosen is eine Vorberachung der Korrelaionen zwischen den Reihen von Voreil. So kann im Vorfeld erkann werden, wie sark zwei Reihen überhaup zueinander in Beziehung sehen. Auokorrelaion Im univariaen Fall ineressier besonders die Selbsähnlichkei, bzw. der lineare Zusammenhang der Were einer Reihe mi einem fesen Absand (Lag) zueinander. Man bedenke, dass meis zyklische Schwankungen, wie ewa Verkaufszahlen für Tannenbäume im Mona Dezember, regelmäßig ein hoch haben (Weihnachsverkäufe) und dami die Dezember-Were verschiedener Jahre einen sarken linearen Zusammenhang haben. Daher wird bei Berachung univariaer Zeireihen den Auokorrelaionskoeffizienen mi verschiedenen 13 Baur, Franz: Korrelaionsrechnung. Mahemaisch-Physikalische Bibliohek. Leipzig: Teubner, 1928. 13 [Chafield 89] S. 19., [Schligen 01] S. 4, [Heiler 94] S. 255.

16/91 Absänden besondere Aufmerksamkei geschenk, welche solche Zusammenhänge erkennen lassen. Der Auokorrelaionskoeffizien r k mi Lag k is definier als: N k = 1 k = N r [( x x)( x = 1 + k ( x x) 2 x)] Bilde man von einer Reihe alle Auokorrelaionskoeffizienen mi den möglichen Laglängen (k=1..n-k), so sprich man von der Auokorrelaionsfunkion (kurz ACF), welche durch verschiedene Formeln auch abgeschäz werden kann. Graphisch wird diese Funkion dargesell, indem die Koeffizienen im Verhälnis zur Laglänge gezeichne werden. Wie auch im weieren Verlauf dieser Arbei ersichlich wird, gib die grafische Darsellung der ACF sehr viel Aufschluss über verschiedene Eigenschafen und Komponenen der Zeireihe und is dami ein unverzichbares Werkzeug zur Besimmung von Saisonaliä und Trend. Die Beispiel ACF der Reihe ArbeislosBRD in Abb. 1 zeig eine saisonale Korrelaion im Absand von 12 Monaen (sichbar an den regelmäßigen Spizen) sowie eine sarke Korrelaion über mehrere Lags (langsamer An-/Absieg des Graphen), welche für einen sarken Trend sprich. 14 Abb. 1: ACF der Reihe ArbeislosBRD mi Laggrößen bis 80 (links) sowie die Originalwere von 1993-2000. 2.4 Saionäre und Nich-Saionäre Zeireihen Von saionären Zeireihen sprich man, wenn die Zeireihe keine sysemaische Änderung des Mielweres (Trend), keine sysemaische Änderung der Varianz und keine zyklischen Schwankungen (Saisonaliä) über die Zei hinweg besiz 15. Dies bedeue auch, dass verschiedene, gleichlange Segmene einer Zeireihe keinen signifikanen Unerschied im Erwarungswer, in der Varianz und der Auokovarianz aufweisen und dami diese Charakerisiken unabhängig vom Zeiindex sind. 16 14 [Chafield 89] S. 20., [Schligen 01] S. 5. 15 Vergl. [Chafield 89] S.10. 16 [Waler 99] hp://user.uni-frankfur.de/~andreas/rekur/node3.hml

17/91 Ensprechend sprich man von nich-saionären Zeireihen, wenn diese Eigenschafen nich erfüll werden, weil z.b. die Zeireihe mi der Zei zunehmend divergier. Die meisen Mehoden der Zeireihenprognose bauen auf saionäre Reihen auf. Die Prognose saionärer Reihen is der einfachse Fall der Prognose: als zukünfige Were wird einfach der Mielwer der Reihe genommen, der sabil is. Die verbreiesen Verfahren versuchen durch Transformaionen eine Reihe in eine saionäre zu überführen, um diese anschließend durch ihren Mielwer oder einem Regressionsverfahren zu approximieren.

18/91 3 Mehodologie der Zeireihenprognose Im folgenden soll das Vorgehen zur Prognose einer Zeireihe dargesell werden. Das Flussdiagramm in Abb. 2 zeig den schemaischen Verlauf. Abb. 2: Flussdiagramm einer Zeireihenprognose.

19/91 3.1 Daensichung und Darsellung Der erse Schri in der Analyse und Prognose von Zeireihen is die Darsellung derselben. Die erse Form der Daendarsellung is meis der zweidimensionale Scaerplo, der in der horizonalen Achse die Zei und in der verikalen Achse den Wer zum ensprechenden Zeipunk als einfachen Punk darsell. Abb. 3. sell den Scaerplo der Reihe SromBRD dar. Der Nacheil dieser Darsellungsar is, das man mi dem bloßen Auge den zeilichen Verlauf der vielen Punke kaum erkennen kann. Abb. 3: Scaerplo der Reihe SromBRD. Da bei Zeireihen meis von seigen Prozessen ausgegangen wird, die lediglich zu diskreen Zeipunken gemessen wurden, werden die einzelnen Punke zu einem Graphen verbunden, wie in Abb. 4 zu sehen is. Abb. 4: Graph der Reihe SromBRD. Bei mulivariaen Zeireihen können die verschiedenen Reihen auf einem gemeinsamen Graph gezeichne werden (siehe Abb. 5). Dies sez jedoch voraus,

20/91 dass die verschiedenen Reihen eine gemeinsame Maßeinhei haben. Außerdem dürfen ihre Höhen nich zu sark voneinander unerschiedlich sein, da sons die Y-Achsenskalierung die Darsellung zu sehr verzerr. In einem solchen Fall können die Reihen zuers Mielwer bereinig werden, so dass ihre Graphen annähernd gleiche Höhen haben. Abb. 5: Plo der Originalreihen SromBRD, SromFR, SromNL, SromUK, SromES. Weiere Beispiele für grafische Darsellungen werden an gegebenen Sellen ergänz. 3.2 Vorverarbeiung der Daen 3.2.1 Gleichmäßiges Zeiraser schaffen Die meisen Mehoden der Zeireihenanalyse und prognose sezen voraus, dass die Beobachungen in einem regelmäßigen Zeiinervall (äquidisanes Zeiraser) gewonnen wurden. Diese Voraussezung lieg haupsächlich in der Vergleichbarkei der Were und der Vereinfachung des Zeifakors begründe. Werden Beobachungen verschiedener Inervalle vermisch, z.b. einige Beobachungen in äglichen, andere in monalichen Inervallen, so sind die Were zuers an ein gemeinsames Zeiraser anzupassen. Besonders Messungen physikalischer Were werden meis nich zu vorgegebenen Zeipunken geäig. Durch Aufeilen der Messwere auf die kleinse gemeinsame Zeiskala können die Originalwere auf äquidisane Zeipunke inerpolier werden. Auch ri in der prakischen Anwendung häufig das Problem von fehlenden Weren durch Ausfall einer Messsaion auf. Auch diese Were können durch Inerpolaion abgeschäz und ergänz werden. Zur Inerpolaion sehen eine Vielzahl von Möglichkeien berei, von denen hier lediglich die einfachsen dargesell werden sollen:

21/91 Lineare Inerpolaion Mi Hilfe der benachbaren Punke ( 1/ x 1) und ( + 1/ x+ 1) wird eine Geradengleichung g besimm und für den Punk x an der Selle ausgewere. Hierbei sind: g ( ) = m + b x + 1 x 1 m = ( + 1) ( 1) die Seigung der Geraden und b = x 1 m ( 1) der y-achsen Schnipunk der Geraden. Quadraische Inerpolaion Mi Hilfe der benachbaren Punke ( 2 / x 2 ), ( 1/ x 1) und ( + 1/ x+ 1) wird eine Quadraische Gleichung g besimm und für den Punk x an der Selle ausgewere. Hierbei sind: 2 g ( ) = a + b + c Da alle drei gegebenen Punke der Gleichung g genügen müssen, erhäl man drei lineare Gleichungen mi drei unbekannen, die exak lösbar sind. 2 (1) x 2 = a ( 2) + b ( 2) + c 2 (2) x 1 = a ( 1) + b ( 1) + c 2 (3) x + 1 = a ( + 1) + b ( + 1) + c Polynomiale Inerpolaion mi Polynomen p-en Grades, deren Spezialfälle p=1 die lineare und p=2 die quadraische Inerpolaion sind. Splineinerpolaionen, die hier jedoch nich genauer erläuer werden. 3.2.2 Ausreißer Idenifikaion und Behandlung Als Ausreißer werden diejenigen Were bezeichne, die mi der Masse der übrigen Were unvereinbar erscheinen. 17 Ausreißer können durch Mess-, Überragungs-, Berichs- oder Rechenfehler verursach werden. 18 Aber auch korreke, ungewöhnliche Beobachungen können als Ausreißer in den Weren aufauchen. So wäre in einer Daenmenge mi den Einwohnerzahlen deuscher Säde Berlin mi 3.382.169 Einwohnern 19 sicherlich ein Ausreißer (die nächs kleinere Sad is Hamburg mi 1.715.392 Einwohnern, bei drei Säden mi mehr als einer Million Einwohnern). Dies lieg aber offensichlich nich an einem Fehler. 20 Die Wichigkei der Behandlung von Ausreißern wird vor allem dann deulich, wenn man sich die für die Zeireihenanalyse benuzen Maßzahlen und Mehoden der Saisik vor Augen führ: Bei der Bildung der Varianz fließen die Abweichungen (oder Fehler) der Ausreißer quadrier ein. Somi verfälschen sie die Annahmen über die zugrundeliegenden Eigenschafen einer Menge sehr sark. Auch die Mehode der kleinsen Quadrae bei der Regression reagier auf Ausreißer sehr empfindlich, da auch hier die Quadrae der Abweichungen benuz werden, wobei die größe Abweichung auch die größe Gewichung erhäl. 21 17 Vergl. Barne, V., Lewis, T., Ouliers in Saisical Daa, Wiley John + Sons, 1994 ziier nach [Buler 03] S. 4. 18 Rönz, B.; Srohe, H. G.: Lexikon Saisik, Gabler-Verlag Wiesbaden, 1994 ziier nach [Buler 03] S. 3. 19 Bundesagenur für Arbei, hp://www.arbeisagenur.de, Sand März 2005. 20 Vergl. [Buler 03] S. 4. 21 Vergl. [Buler 03] S. 6.

22/91 Ausreißer werden häufig nach ihrer Ar kaegorisier: Addiive Oulier (AO) Addiive Ausreißer sind Ereignisse mi einem (relaiv) großen aber emporären Effek auf die Reihe. 22 Ein Beispiel für einen solchen Ausreißer is der Dow-Jones Index ab dem 11.09.01 (Anschläge auf die Twin-Tower und das Penagon, siehe Abb. 12). Bei einer feineren Unereilung dieses Ausreißeryps wird der Begriff AO nur für einzelne Ausreißerwere und Innovaive Oulier (IO) für Ausreißer mi einem längeren emporären Effek benuz 23. Level Shif (LS) Level Shifs sind Ereignisse, die das Niveau der Zeireihe ab einem besimmen Zeipunk permanen verändern. Vor allem bei echnischen Messungen werden durch Neukalibrierungen das Niveau der Zeireihe veränder. Ein Beispiel hierfür biee die Reihe SromBRD (siehe Abb. 4). Im Jahr 1991 fand die Wiedervereinigung sa, ab dem die Verbrauchswere der früheren DDR und der alen BRD zusammengeleg wurden. Dies erklär den plözlichen Sprung des Verbrauchs in diesem Jahr, welcher naürlich konsan weier erhalen blieb. Level Shifs werden weierhin in permanene Niveauänderungen (level change, LC) und sanfe Niveauänderungen (ransien level change, TC) unereil, welche einen langsamen und seigen Wechsel zweier Niveaus bezeichnen. 24 Variance Change (VC) Varianzänderungen sind seige Änderungen der Varianz. Dabei ha die Reihe die Form eines Kegels, der mi zunehmender Zei eine größere Sreuung zeig. Addiive Ausreißer spielen auch eine wichige Rolle im Bereich Daa Mining, wo außergewöhnliche Were besondere Aufmerksamkei erhalen. Beispiele hierfür sind ungewöhnliche Transakionen bei Kredikarenmißbrauch oder Leisungen außergewöhnlicher Sporler. 25 Zur Besimmung von Ausreißern gib es zahlreiche Verfahren, die meisens eine saisische Vereilung der zugrunde liegenden Menge annähern (wie z.b. eine Normalvereilung) und anhand eines Hypoheseness enscheiden, ob ein Wer mi großer Wahrscheinlichkei ein Ausreißer (daher, außerhalb eines besimmen Inervalls) is oder nich. Weiere Verfahren zur Besimmung von AOs, IOs und LCs in univariaen Reihen berachen die Differenzen erser Ordnung 1 = x - x, welche im Absch. 3.4.5 S.42 noch genauer berache werden. Hier -1 soll es ausreichen, die ersen Differenzen als Absände zwischen benachbaren Punken zu inerpreieren. Were, die einen außergewöhnlich großen Absand zu ihren Nachbarweren haben, deuen auf einen Ausreißer hin und sind durch besonders hohe Were in den ersen Differenzen erkennbar. Nimm man für die Differenzen eine Normalvereilung an (welches meis gegeben is), so liegen 95% der Were innerhalb der 2-fachen Sandardabweichung um den Mielwer (bzw. 99% der Were innerhalb eines 3 s Inervalls). Die Inervallgrenzen helfen Ausreißer außerhalb der Inervallgrenzen zu erkennen. In der Zeireihe 22 Vergl. [Arranz 03] S. 2. 23 Vergl. [Tsay 86] nach [Junilla 01]. 24 Vergl. [Tsay 86] nach [Junilla 01]. 25 Vergl. [Knorr 00].

23/91 SromBRD sind bei 1991 und 1994 zwei solcher Ausreißer außerhalb des Inervalls zu erkennen (siehe Abb. 6). 3 s Abb. 6: Erse Differenzen der Reihe SromBRD mi 2s (blau) und 3s (ro) Inervall. Eine weiere sehr einfache Möglichkei der Ausreißerbesimmung sind die so genannen Box-Whisker-Plos (kurz Boxplo). 26 Hierbei wird die Reihe nach ihren Weren aufseigend sorier und in zwei gleichgroße Teilmengen unereil. Der Wer in der Mie (Median) der Teilmenge mi den kleineren Weren is das erse Quaril (unerhalb dessen 25% der Were liegen), der ensprechende Median der Teilmenge mi den größeren Weren is das drie Quaril (unerhalb dessen 75% der Were liegen). Der Median der gesamen Menge wird als Srich in einem Käschen gezeichne, dessen obere und unere Kane das drie bzw. erse Quaril kennzeichnen (wodurch 50% der Were in diesem Bereich liegen). Der Inerquarilbereich (engl. inerquarile range, kurz IQR) wird als Differenz des ersen und drien Quarils gebilde. Anschließend werden die Whiskers mi 1.5-fachem IQR oberhalb des drien Quarils gezeichne. Were ober- und unerhalb der Whisker werden als Ausreißer berache. 27 Üblicherweise wende man die Boxplos auf die Originaldaen an. Haben die Originaldaen jedoch sarke Trends, so is es hilfreich die Boxplos der ersen Differenzen zu berachen. Abb. 7: Boxplo der ersen Differenzen der Reihe SromBRD. Im Beispiel der ersen Differenzen der Reihe SromBRD werden so vier Were als Ausreißer klassifizier (siehe Abb. 8). 26 Ersmals in [Tukey 83] vorgesell. Der Name Box-Whiskers (Käschen-Schnurrhaare) bezieh sich auf das grafische Käschen mi den Linien ober- und unerhalb. 27 Vergl. [EduQu 97], [Heiler 94] Absch. 4.4.

24/91 Abb. 8: Boxplo-Ausreißer der Reihe SromBRD. Wurden Ausreißer endeck, is zuers einmal zu besimmen, was die Fehlerquelle war, also ob es sich beim Ausreißer um einen Fehler oder lediglich um eine richige, jedoch außergewöhnliche Beobachung handel. Hierzu muss Hinergrundwissen zur Beobachungsreihe herangehol werden. Bei der Reihe SromBRD is zumindes für den Zeipunk 1991 der Grund bekann. Um den LC zu diesem Zeipunk zu beheben, wird die Reihe in zwei Teilreihen < 1991 und 1991 aufgeeil und jeweils eine Gerade durch Regression angepass. Der Höhenunerschied (Differenz beider Geraden am Ausreißerpunk) zwischen beiden Geraden gib die Höhe des LC an und is zu den Weren mi < 1991 hinzu zu addieren (siehe Abb. 10), um diese dem Niveau der akuelleren Were 1991 anzupassen (siehe Abb. 11). In diesem konkreen Fall wäre es auch einfach möglich die Were < 1991 ganz zu verwerfen, da ab 1991 genügend Were vorliegen. Dami die Regression der Gerade im rechen Teil nich durch die Ausreißer verfälsch wird, wird zuers eine quadraische Inerpolaion dieser Were durchgeführ (siehe Abb. 9). Abb. 9: Resliche Ausreißer nach der Inerpolaion der Ausreißer mi >1991 der Reihe SromBRD.

25/91 Abb. 10: Regressionsgeraden für beide Hälfen am Punk =1991 der Reihe SromBRD. Abb. 11: Reihe SromBRD nach der Korrekur des LS. Nach der Korrekur des LS erscheinen keine Were mehr als Ausreißer. Abb. 12: Tägliche Dow-Jones Indusial Average Index Schlussnoierung 1950-2005. 28 28 Reihe DJ, Geschichliche Eckdaen: hp://www.welchronik.de, hp://de.wikipedia.org, hp://www.quarks.de/boerse/0602.hm (Alle Abrufe 09.05.05).

26/91 Eine weiere Möglichkei Ausreißer zu behandeln beseh darin, die Were der Zeireihe derar zu Skalieren, dass exremere Were an Gewich verlieren. Hierzu is die Skalierung 29 x x xˆ = s mi der Zurückransformaion x = xˆ s + x besonders gu geeigne, da sie die Were auf ihren Kern zusammenschrumpf. 3.3 Klassisches Komponenenmodell für Zeireihen Meisens sind die zugrunde liegenden Zeireihen nich saionär. Vor allem bei ökonomischen Zeireihen reen regelmäßige, Saison abhängige Höhen und Tiefen auf. Beispielsweise ha die Reihe ArbeislosBRD im 12en Mona regelmäßig ein Jahreshoch. Gleichzeiig erscheinen die Were für den Mona Februar in den meisen Reihen gering, relaiv zu den anderen Monaen. Dies is u.a. darauf zurück zu führen, dass der Februar ses weniger Tage ha als die anderen Monae. Auch uner den anderen Monaen gib es diesen Unerschied, da einige Monae 30, andere 31 Tage haben. Gleichermaßen kann der Durchschni enlang der Zeiachse wachsen oder sinken. Beispiel hierfür is der jährliche Sromverbrauch, der scheinbar konsan zunimm (siehe Abb. 11). Meis reen beide Varianen eines Trends zusammen auf. Um diesen Gegebenheien gerech zu werden, wurde das klassische Komponenenmodell aufgesell 30. In diesem Modell wird die zugrundeliegende Zeireihe in einzelne Komponenen, dem globalen Trend ( G ), der Konjunkurkomponene ( K ), dem zyklischen Trend ( S ) und der Reskomponene ( R ) zerleg (Dekomposiion). Die Konjunkurkomponene repräsenier mehrjährige, nich nowendig regelmäßige Schwankungen und wird meis auf den globalen und den zyklischen Trend vereil. Die Reskomponene spiegel die nich erklärbaren Einflüsse oder Sörungen wieder, wobei es sich um den Teil der Zeireihe handel, der durch die anderen Komponenen nich erklär werden kann. Bei einem guen Modell wird angenommen, das die Reskomponene einem zufälligen Prozess, einem weißen Rauschen, ensprich. 31 Der globale und der zyklische Trend werden in den folgenden Abschnien gesonder behandel, da das Augenmerk der Trendbereinigung, bei Vereilung der Konjunkurkomponene auf diese beiden Komponenen, besonders auf ihnen lieg. Die Zerlegung der Beobachungen kann addiiv oder muliplikaiv geschehen: 32 29 [Thiesing 98] S. 83. 30 Vergl. [Schligen 01] S. 9-12, [Leiner 82] S. 5-6. 31 Vergl. [Schligen 01] S. 9., [Leiner 82] S. 5.-6. 32 Vergl. [Leiner 82] S. 7, [Schligen 01] S. 9ff, [Heiler 94] S. 332ff

27/91 Addiives Komponenenmodell: x = G + K + S + R Muliplikaives Komponenenmodell: x = G K S R Das muliplikaive Komponenenmodell is besonders dann angebrach, wenn die Zeireihe aus Weren beseh, die durch eine Wachsumsrae mieinander verbunden sind. 33 Dies erkenn man u.a. daran, dass der Trend der Reihe aufwärs (oder abwärs) verläuf und die lokalen Flukuaionen dabei mi der Zei proporional größer (oder kleiner) werden. 34 3.3.1 Globaler Trend Als globalen Trend oder auch glae Komponene, bezeichne man die langfrisige sysemaische Veränderung des mileren Niveaus der Zeireihe. 35 Is ein globaler Trend vorhanden und evl. wachsend oder fallend, so is die Zeireihe nich saionär. Durch Trendbereinigung kann die Zeireihe jedoch in eine saionäre Reihe überführ werden. Die üblichsen Mehoden hierfür sind Transformaionen, Regression einer Trendfunkion oder auch Gläungsverfahren, wie der gleiende Durchschni. Auch durch die Bildung der ersen (bzw. der n-en) Differenzen benachbarer Were kann eine Trendbereinigung durchgeführ werden. Die Differenzierung, auch Differenzfiler genann, wird vor allem in Inegrieren Modellen wie ARIMA oder SARIMA zusammen mi dem gleienden Durchschni benuz. Im Abschni 3.4.5 wird auf diese Technik noch genauer eingegangen. Einen globalen Trend kann man sowohl an dem Graphen der Reihe als auch an dem ACF erkennen: Da benachbare Were einen gemeinsamen Trend haben, wirk dieser sark korrelierend, wodurch der ACF einer Reihe mi großer Trendkomponene sehr langsam sink. Die Abb. 13 zeig das schemaische Vorgehen zur Eliminierung des Trends bei einer Reihe mi reinem globalen Trend, also ohne saisonalen Trend. In Abb. 16 is auch ein Vorgehensmodell bei kombinierem globalen und saisonalem Trend dargesell. 33 Vergl. [Heiler 94] S.93. 34 Vergl. [Jansen 03] S. 3. 35 [Schligen 01] S. 9.

28/91 Abb. 13: Vorgehen bei einem reinen globalen Trend. 3.3.2 Zyklischer Trend (Saisonaliä) Der zyklische Trend einer Zeireihe is eine wiederkehrende, meis saisonbedinge Änderung des mileren Niveaus. Bei Zeireihen mi Beobachungen in Zeiabsänden, die kleiner als ein Jahr sind, reen wiederhol jahreszeiliche (oder auch ageszeiliche) Schwankungen auf. Man kann sich leich vorsellen, dass die Verkaufszahlen von Speiseeis im Sommer regelmäßig höher sind als im Winer. Aber auch bei jährlichen Beobachungen können Saisonaliäen aufreen. Hierzu is die Zeireihe Lynx 36 ein gues Beispiel: die Anzahl jährlich gefangener Luchse in einem Gebie in Kanada ha in Absänden von 10 Jahren ein Hoch (welches u.a. auf Populaionsschübe zurückzuführen is). Der zyklische Trend kann durch ensprechende Verfahren, wie dem Phasendurchschnisverfahren, Regression zyklischer Funkionen, wie Fourierreihen, sowie durch saisonale Differenzen eliminier werden. Einen zyklischen Trend kann man, wie auch einen globalen Trend, am Graphen oder an der ACF der Zeireihe erkennen. Der ACF einer Zeireihe mi sarker zyklischer Komponene zeig beim Lag mi der Saisonlänge einen hohen Wer. 36 Siehe [Schligen 01] S. 531.

29/91 Dies lieg daran, dass die Were mi den Absänden der Saison und deren mehrfachen eine gemeinsame Korrelaion haben, nämlich den zyklischen Trend. So können auch noch unbekanne Saisonaliäen mi Hilfe des ACF aufgespür werden. Eine weiere Visualisierungsmöglichkei bei vermueer Periodenlänge der Saisonaliä sind mehrere übereinander gezeichnee Graphen, die jeweils nur Were einer Saison enhalen. Einen solchen Graphen mi einer Saisonlänge von 12 Monaen der Reihe ArbeislosBRD aus monalichen Beobachungen zeig die Abb. 14. Deulich is zu erkennen, dass in den Monaen Dezember und Januar das Jahreshoch lieg, und dies in allen Jahren. Außerdem is zu erkennen, dass diese Reihe einen globalen Trend ha, da die äleren Saisons relaiv zu den neueren Saisons kleinere Were haben. Abb. 14: Reihe ArbeislosBRD in Abschnie je 12 Were unereil. Eine weiere Visualisierungsmöglichkei bilde der saisonale Indexplo, der im Abschni 3.4.3 im Zusammenhang mi dem Phasendurchschnisverfahern vorgesell wird. Das schemaische Vorgehen zur Eliminierung der saisonalen Komponene bei einer Reihe mi reinem saisonalen Trend is in Abb. 15 dargesell.

30/91 Abb. 15: Vorgehen bei einem reinen saisonalen Trend. Liegen beide Trendvarianen vor, so müssen auch beide behandel werden. Die Differenzierung biee die Möglichkei, beide Trendvarianen in einem zu eliminieren, während bei der Alernaive zur Differenzierung die beiden Trendkomponenen hinereinander ausgeschale werden. Die Abb. 16 sell dies schemaisch dar.

31/91 Abb. 16: Vorgehen bei einem kombinieren globalen und saisonalen Trend. 3.4 Trendbereinigung Nach der Eliminierung des globalen und zyklischen Trends erhäl man durch bilden der Differenz zwischen dem Trendwer ( T ) und der Beobachung ( x ) die lokalen Flukuaionen der Reihe ( R, Residuen). 37 R = x T Die Bereinigung des globalen und zyklischen Trends ensprich dem herausfilern langsamer Schwingungen, welches vor allem in der Signalverarbeiung als Hochpassfiler bekann is. Diese Ar Filer lassen nur Schwingungen hoher Frequenzen durch und blockieren dami die iefen (langsamen) Frequenzen. Äquivalen wird das Bilden der Were des Trends selber als das Filern der schnellen Schwingungen inerpreier. Hierbei sprich man vom Tiefpassfiler, der nur langsame und dami iefe Frequenzen, wie den globalen oder zyklischen Trend, passieren läss. 37 [Chafield 89] S. 13.

32/91 Die Trend bereinigen Were werden durch das eigenliche Prognoseverfahren (z.b. AR, Exponenial Smoohing) prognosizier. Die Prognoseergebnisse müssen anschließend wieder mi dem Trend versehen werden, um mi den Originalweren der Reihe vergleichbar zu sein. 3.4.1 Transformaionen Eine Transformaion überführ die Zeireihe in eine andere Zeireihe, wobei wesenliche Eigenschafen der Zeireihe erhalen bleiben sollen. Außerdem muss die Transformaion inverierbar sein, es muss also möglich sein, die Originalwere durch Anwendung einer inversen Transformaion in ihre ursprüngliche Form zurück zu bringen. Im folgenden werden die am meisen verbreieen Transformaionen für Zeireihen vorgesell: 38 Cox-Box 39 Power Transformaion Diese Transformaion beschreib eigenlich eine Schar von Transformaionen, welche über den Transformaionsparameer λ geseuer werden. 40 Mi λ = 1 wird keine Transformaion, für λ = 0 wird die Log-Transformaion, für λ = 0. 5 die Wurzelransformaion und für λ = 1 die Inverse Transformaion durchgeführ. Sie is definier durch: λ ( x 1) / λ, λ 0 y = log( x ), λ = 0 Log-Transformaion Durch die Log-Transformaion kann ein muliplikaives Komponenenmodell in ein lineares Komponenenmodell überführ werden: 41 x = G K S R log( x ) = log( G ) + log( K ) + log( S ) + log( R ) Besonders bei Zeireihen mi exponeniellem Wachsum, wie dem Dow- Jones Index (Abb. 12 S.25) is die Anwendung dieser Transformaion sinnvoll. Bei Log-ransformieren Weren wird für alle weieren Verarbeiungsschrie die addiiven Modelle benuz (z.b. das addiive Phasendurchschnismodell für die Saisonaliä). y = log( x ), x > 0 38 Vergl. [BoxCox 64] S. 211-252 nach [Census 02]. 39 Benann nach dem englischen Mahemaiker George P.E. Box (*1919) und D.R. Cox. 40 Vergl. [Chafield 89] S. 12. 41 Vergl. [Heiler 94] S. 332, [Leiner 82] S. 6.

33/91 Abb. 17: Reihe DJ daily: Tägliche Dow-Jones Indusial Average Index Schlussnoierung 1950-2005 nach Log-Transformaion. 42 Wurzelransformaion 1 y = + 2 ( x 1), x 0 4 Inverse Transformaion 1 y = 2, x 0 x Logisische Transformaion x y = log, 0 < x < 1 1 x Für die logisische Transformaion gib es kein Cox-Box äquivalen. 3.4.2 Regression Durch Regression kann eine Trendfunkion T an die Daen angepass und die xˆ Trend bereinigen Were durch xˆ = x T berechne werden, um die Zeireihe vom globalen Trend zu bereinigen. Hierbei agier die Trendfunkion als Hochpassfiler. Die Trendfunkion kann, im einfachsen Fall, eine Gerade sein, wobei man von einem linearen Trend sprich. Mi Hilfe der Gauß schen Mehode der kleinsen Quadrae (kurz MKQ, engl. ordinary leas squares, kurz OLS) kann die Gerade an die Daen angepass werden. 43 Weiere häufig benuze Trendfunkionen sind 44 : 42 Dow-Jones Were: hp://www.handelsbla.com, Geschichliche Eckdaen um Dow-Jones: hp://www.welchronik.de, hp://de.wikipedia.org, hp://www.quarks.de/boerse/0602.hm (Alle Abrufe 09.05.05). 43 Vergl. [Leiner 82] S. 11-12. 44 Vergl. [Leiner 82] S. 9.