Analyse eines Forschungsthemas Franziska Ressel - 14.03.2017
Motivation Ähnliches Verhalten in Vorsaison Einzelne Zeitscheiben Parameterschätzung und Modellerstellung 2 Modell Prognose 3 Fenster vergrößern -> ARIMA-Modelle 1 Trainingsdaten extrahieren Nov 14 Dez 14 Jan 15 Feb 15 Nov 15 Dez 15 Jan 16 Feb 16 Hartmann, Claudio, et al. "Exploiting big data in time series forecasting: A cross-sectional approach." Data Science and Advanced Analytics (DSAA), 2015. 36678 2015. IEEE International Conference on. IEEE, 2015. 2
Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 4
ARIMA (p,d,q) -Modelle Moving Average Integrated Auto-Regression Werte für p, d und q können nicht schrittweise durchlaufen werden (Umfang!) Auto-ARIMA: Algorithmus für effizientes Durchprobieren und Vergleich mit Akaikes Informationskriterium - AIC: Messwert, wie gut ein Modell zu gegebenen Daten passt Hyndman, Rob J., and Yeasmin Khandakar. Automatic time series for forecasting: the forecast package for R. No. 6/07. Monash University, Department of Econometrics and Business Statistics, 2007. 5
Auto-ARIMA: Algorithmus 4 Startmodelle generieren: - ARIMA(2, d, 2) - ARIMA(0, d, 0) - ARIMA(1, d, 0) - ARIMA(0, d, 1) Konstante c: wenn d 1, dann c 0, sonst c = 0 Modell mit geringstem AIC ist aktuelles Modell Variationen vom aktuellen Modell generieren - p und q um ±1 verändern - p oder q um ±1 verändern - c 0 oder c = 0 Neues aktuelles Modell: Modell mit geringstem AIC Wiederholde Schritt 2, bis kein besseres Modell mehr gefunden wird Default: p und q -> 5 Hyndman, Rob J., and Yeasmin Khandakar. Automatic time series for forecasting: the forecast package for R. No. 6/07. Monash University, Department of Econometrics and Business Statistics, 2007. 6
Modellbildung durch ACF-PACF (1) Erfasst Zusammenhang der Zeitreihe mit der um k Zeitpunkten (=Lag) verschobenen Parameter q (MA-Modell) Spiegelt direkten Einfluss des Zeitpunktes k-t auf k wieder; x 1 x k Überlagerung, Echos herausgerechnet Parameter p (AR-Modell) 7
Box-Jenkins-Methode (1) Trend prüfen - Langsamer Abfall beim ACF wenn Trend vorhanden - Differential Saisonalität prüfen - Peaks im ACF - Saisonales Differential Parameter schätzen mit Maximum Likelihood (meist verwendet) oder Methode der kleinsten Quadrate Residuen prüfen Ggf neues Modell erstellen p, q identifizieren - ARIMA(p,d,0) - PACF bricht nach p Zeitpunkten ab - ARIMA(0,d,q) - ACF bricht nach q Zeitpunkten ab - Schwer für gemischte Modelle https://ncss-wpengine.netdna-ssl.com/wp- content/themes/ncss/pdf/procedures/ncss/the_box- Jenkins_Method.pdf 8
Box-Jenkins-Methode: Probleme (2) ARIMA(2,1,1) d=1 -> Trend vorhanden ARIMA(0,0,2) d=0 -> kein Trend 9
TRAMO und SEATS TRAMO Modellidentifikation Linearisiert Zeitreihe/ Korrigiert ZR Deterministische Effekte entfernt Fehlende Werte interpoliert Automatische Modellidentifikation Zerlegt Zeitreihe in stochastische Komponenten (Trend, Saison, Zyklisch, Irregulär) Finalen Komponenten = stochastische Komponenten + deterministische Effekte Parameterschätzung ARIMA-Modell SEATS Übergabe linearisierte Zeitreihe Zerlegung in Komponenten Entfernung deterministische Effekte Evtl. erneute Modellschätzung Einfügen der Effekte Nach: https://ec.europa.eu/eurostat/sa-elearning/tramo 10
Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 11
Mann-Kendall-Trendtest (1) H0: Datenreihe ist unabhängig und gleichverteilt, kein Trend H1: Trend Steigungen aller mgl. Paare, j > k Hamed, Khaled H., and A. Ramachandra Rao. "A modified Mann-Kendall trend test for autocorrelated data." Journal of Hydrology 204.1 (1998): 182-196. http://vsp.pnnl.gov/help/vsample/design_trend_mann_kendall.htm 12
Mann-Kendall-Trendtest (2) Kennzahl zur Auswertung stat. Tests Je kleiner der p-wert, desto eher wird H0 abgelehnt < 0,1 signifikant < 0,05 stark signifikant < 0,01 äußerst signifikant H0 abgelehnt und H1 akzeptiert wenn Z MK Z 1 /2 Z 1 /2 aus Normalverteilungstabelle ablesen Bsp.: α = 0,05; Z 1 /2 = 1,96 S = 2244 σ 2 = 67008,66 Z MK = 8,665 p = 4,5189 10 18 H0 abgelehnt, Trend vorhanden 13
Mann-Kendall-Trendtest: Probleme (3) Statistik S g für jede Saison (g = 1,2,, m) einzeln berechnen S aufsummieren Anstieg der Wahrscheinlichkeit, dass ein Trend gefunden wird, obwohl kein Trend vorhanden ist σ 2 = n(n 1)(2n+5) 18 Varianz wird unterschätzt In Varianzberechnung Autokorrelation miteinfließen lassen -> modifizierter Trendtest ftp://cran.r-project.org/pub/r/web/packages/ trend/vignettes/trend.pdf Hamed, Khaled H., and A. Ramachandra Rao. "A modified Mann-Kendall trend test for autocorrelated data." Journal of Hydrology 204.1 (1998): 182-196. 14
Sen-Slope Schätzer Für alle mgl. Zeitreihenpaare wird Q berechnet, wobei j > k gilt Sen-Slope (schwarz) Methode der kleinsten Quadrate (blau) Reale Zeitreihe (grün) Schätzung der Steigung β ergibt sich aus dem Median der berechneten Q http://vsp.pnnl.gov/help/vsample/nonparametric_estimate_of_trend.htm https://en.wikipedia.org/wiki/theil%e2%80%93sen_estimator 15
Spearmans Rangkorrelationskoeffizient (1) Basiert auf Rängen statt den eigentlichen Werten Unempfindlich für Ausreißer r S = 1 6 σ d i 2 n n 2 1 σ 2 = 1 n 1 Z S = r S σ 2 d i = rg X i rg Y i Gautheir, Thomas D. "Detecting trends using Spearman's rank correlation coefficient." Environmental forensics 2.4 (2001): 359-362. 16
Vergleich der Trendtests 2000 unabhängige, normalverteilte Zeitreihen generiert Zeitreihenlänge n = 10, 20,, 100 Mann-Kendall-Trendtest mit Spearmans Rangkorrelationskoeffizient verglichen Beide Tests zeigen ähnlich gute Ergebnisse Spearmans Rangkorrelationskoeffizient verwenden, da geringerer Aufwand Yue, Sheng, Paul Pilon, and George Cavadias. "Power of the Mann Kendall and Spearman's rho tests for detecting monotonic trends in hydrological series." Journal of hydrology 259.1 (2002): 254-271. 17
Trendtest einer Datensammlung Eine Münze wird n-mal geworfen k ist die Anzahl der Kopfwürfe p 0 = 0,5 als hypothetische Wahrscheinlichkeit n = 100, k = 58 Behauptung: Kopf liegt wesentlich öfter vor als Zahl! H 0 : p > 0,5 H 1 : p 0,5 Z > Z 1 α, H 0 nicht abgelehnt Z Z 1 α, H 0 abgelehnt Z = Z = k p 0 n n p 0 (1 p 0 ) 58 0,5 100 100 0,5 (1 0,5) = 1,6 Z 1 α = Z 1 0,05 = Z 0,95 = 1,65 H 0 wird abgelehnt, Kopf liegt nicht wesentlich öfter vor als Zahl Kopf durch kein Trend ersetzen Grundannahme: die Datensammlung besitzt einen Trend 18
Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 19
Saisontest mit ACF (1) Lag ACF 47 0,289 48 0,320 49 0,300 95 0,273 96 0,293 97 0,269 143 0,257 144 0,262 145 0,248 191 0,234 192 0,247 193 0,242 20
Saisontest mit ACF (2) Lag ACF 47 0,361 48 0,313 49 0,339 95 0,162 96 0,141 97 0,101 Hier lediglich 3 Saisons verwendet Keine eindeutige Saisonidentifikation (Mehrheitsentscheid, Mittelwert?) 21
Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 22
Umgang mit Fehlwerten Zeitreihenmittelwert Mittel der Nachbarpunkten Median der Nachbarpunkten Lineare Interpolation Linearer Trend am Punkt Glättungsverfahren Prognose Ersetzen durch beobachteten Wert eines möglichst ähnlichen Falls im Datensatz Ersetzen durch möglichst ähnlichen Fall früherer Beobachtung Jeder fehlende Wert wird durch Set von plausiblen Schätzwerten dargestellt; diese dann analysiert und kombiniert http://www.ibm.com/support/knowledgecenter/de/sslvmb_23.0.0/spss/base/replace_missing_values_estimation_methods.html VDE Verband der Elektrotechnik Elektronik Informationstechnik e.v., Messwesen Strom (Metering Code); VDE-AR-N 4400, 2011. 23
Zusammenfassung Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 24
Analyse eines Forschungsthemas Franziska Ressel - 14.03.2017
AIC und BIC AIC = 2 ln ML + 2k BIC = 2 ln ML + k ln( n) Faktor des Strafterms ist von der Stichprobengröße unabängig -> tendenziell Modelle mit vielen Parametern positiv bewertet AICc ist AIC mit stärkerer Bestrafung von extra Parametern Existenz wahres Modell wird ausgeschlossen, stattdessen möglichst gute Vorhersagen Strafterm wächst mit Stichprobengröße -> stärkere Bestrafung der Anzahl der Parameter führt zu einfacheren Modellen Wahres Modell ML = Maximum Likelihood k = Anzahl geschätzter Parameter n = Anzahl Beobachtungen 26
Kalman-Filter Aus gemessenen, fehlerbehafteten Werten eine möglichst genaue Schätzung über den tatsächlichen Zustand erlangen Mit zunehmenden Iterationsschritten wird der Filter sicherer (Varianz sinkt) Erwarteter Systemzustand wird verglichen mit realen, neuen Werten http://www.cbcity.de/das-kalman-filter-einfach-erklaert-teil-1 27
Kalman-Filter: Iterationen Mit zunehmenden Iterationsschritten wird der Filter sicherer (Varianz sinkt) Erwarteter Systemzustand wird verglichen mit realen, neuen Werten Prädiktion: Unsicherheit steigt Korrektur: Unsicherheit sinkt http://www.mi.hs-rm.de/~schwan/projects/cg/carreracv/doku/kalman/kalman.htm 28
MK-Trendtest und Autokorrelation (1) Anstieg der Whl., dass ein Trend gefunden wird, obwohl kein Trend vorhanden ist X: stationär, white noise Y: AR(1), φ = 0,4, Input X S(X)=557 S(Y)=793 var(s)=112750 Z 1 α/2 = 1,96 Z Y = 2,36 H0 abgelehnt Z X = 1,66 H0 angenommen Hamed, Khaled H., and A. Ramachandra Rao. "A modified Mann-Kendall trend test for autocorrelated data." Journal of Hydrology 204.1 (1998): 182-196. 29
MK-Trendtest und Autokorrelation (2) identisch für beide Zeitreihen Varianz unterschätzt In Varianzberechnung Autokorrelation miteinfließen lassen (p S (i)) -> modifizierter Trendtest 30