Analyse eines Forschungsthemas Franziska Ressel

Ähnliche Dokumente
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

6. Statistische Schätzung von ARIMA Modellen

Hauptseminar zum Thema:

Hauptseminar Technische Informationssysteme

11. Zeitreihen mit Trend und Saisonalität

acf(y) pacf(y) Series y Series y Index ACF Lag Partial ACF Lag

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. PROGNOSE II - Vertiefung Aufgaben und Lösungen Sommersemester 2004

Seminar zur Energiewirtschaft:

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

5. Zeitreihenanalyse und Prognoseverfahren

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Überschrift. Titel Prognosemethoden

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Empirische Analysen mit dem SOEP

8. Konfidenzintervalle und Hypothesentests

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67

Klausur zu Statistik II

Kointegration. Kapitel 19. Angewandte Ökonometrie / Ökonometrie III Michael Hauser

SAS Forecast Server. Copyright 2005, SAS Institute Inc. All rights reserved.

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Auswertung und Lösung

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Teil: lineare Regression

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Gütebewertung und Performanceanalyse von Prognosealgorithmen bei unterschiedlichen Signalklassen

Lösungen zu den Übungsaufgaben in Kapitel 10

Einführung in die Maximum Likelihood Methodik

Allgemeines zu Tests. Statistische Hypothesentests

Mathematik für Biologen

Statistik. Jan Müller

Statistische Tests für unbekannte Parameter

Statistik II Übung 2: Multivariate lineare Regression

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

SBWL Tourismusanalyse und Freizeitmarketing, Vertiefungskurs 2

Vorbereitung auf 3. Übungsblatt (Präsenzübungen) - Lösungen

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Tests einzelner linearer Hypothesen I

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Statistik und Wahrscheinlichkeitsrechnung

Seminarvortrag. Euler-Approximation. Marian Verkely TU Dortmund

Mathematische und statistische Methoden II

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Eine zweidimensionale Stichprobe

Anpassungstests VORGEHENSWEISE

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

Methodik der multiplen linearen Regression

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Stochastische Prozesse und Zeitreihenmodelle

Mathematik für Biologen

Fehlerfortpflanzung. M. Schlup. 27. Mai 2011

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1. Bootstrap: Tests

Statistiken deuten und erstellen

Statistik II Übung 1: Einfache lineare Regression

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Lage- und Streuungsparameter

Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Imputationsverfahren

Lineare Regression II

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Ergänzung der Aufgabe "Mindestlöhne" zu einer multiplen Regression

Mathematik für Biologen

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Business Forecasting im Dienst der Neutralen Benchmarkprognose

Statistischer Rückschluss und Testen von Hypothesen

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Mathematik für Biologen

Definition: Gedächtnis einer Zeitreihe

Wahrscheinlichkeitstheorie und Statistik vom

Analyse von Querschnittsdaten. Signifikanztests I Basics

Tutorial: Regression Output von R

Einführung in die Induktive Statistik: Testen von Hypothesen

10. Die Normalverteilungsannahme

Multiplizitätskorrektur bei Variablenselektion

Diagnose und Prognose: Kurzfassung 4

Statistik II Übung 2: Multivariate lineare Regression

Korrektur: Lineare Regression in Excel

Willkommen zur Vorlesung Statistik (Master)

1. Lösungen zu Kapitel 7

Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet.

Kapitel 5: Einfaktorielle Varianzanalyse

Angewandte Ökonometrie Übung. Endogenität, VAR, Stationarität und Fehlerkorrekturmodell

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Tutorial: Rangkorrelation

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

Mehrebenenanalyse. Seminar: Multivariate Analysemethoden Referentinnen: Barbara Wulfken, Iris Koch & Laura Früh

1 Gemischte Lineare Modelle

Korrelation - Regression. Berghold, IMI

9. Schätzen und Testen bei unbekannter Varianz

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Regionale Arbeitslosenprognosen: Die Leistungsfähigkeit ausgewählter Zeitreihenverfahren

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

Grundlegende Eigenschaften von Punktschätzern

Modul G.1 WS 07/08: Statistik

Kapitel 5: Einfaktorielle Varianzanalyse

Transkript:

Analyse eines Forschungsthemas Franziska Ressel - 14.03.2017

Motivation Ähnliches Verhalten in Vorsaison Einzelne Zeitscheiben Parameterschätzung und Modellerstellung 2 Modell Prognose 3 Fenster vergrößern -> ARIMA-Modelle 1 Trainingsdaten extrahieren Nov 14 Dez 14 Jan 15 Feb 15 Nov 15 Dez 15 Jan 16 Feb 16 Hartmann, Claudio, et al. "Exploiting big data in time series forecasting: A cross-sectional approach." Data Science and Advanced Analytics (DSAA), 2015. 36678 2015. IEEE International Conference on. IEEE, 2015. 2

Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 4

ARIMA (p,d,q) -Modelle Moving Average Integrated Auto-Regression Werte für p, d und q können nicht schrittweise durchlaufen werden (Umfang!) Auto-ARIMA: Algorithmus für effizientes Durchprobieren und Vergleich mit Akaikes Informationskriterium - AIC: Messwert, wie gut ein Modell zu gegebenen Daten passt Hyndman, Rob J., and Yeasmin Khandakar. Automatic time series for forecasting: the forecast package for R. No. 6/07. Monash University, Department of Econometrics and Business Statistics, 2007. 5

Auto-ARIMA: Algorithmus 4 Startmodelle generieren: - ARIMA(2, d, 2) - ARIMA(0, d, 0) - ARIMA(1, d, 0) - ARIMA(0, d, 1) Konstante c: wenn d 1, dann c 0, sonst c = 0 Modell mit geringstem AIC ist aktuelles Modell Variationen vom aktuellen Modell generieren - p und q um ±1 verändern - p oder q um ±1 verändern - c 0 oder c = 0 Neues aktuelles Modell: Modell mit geringstem AIC Wiederholde Schritt 2, bis kein besseres Modell mehr gefunden wird Default: p und q -> 5 Hyndman, Rob J., and Yeasmin Khandakar. Automatic time series for forecasting: the forecast package for R. No. 6/07. Monash University, Department of Econometrics and Business Statistics, 2007. 6

Modellbildung durch ACF-PACF (1) Erfasst Zusammenhang der Zeitreihe mit der um k Zeitpunkten (=Lag) verschobenen Parameter q (MA-Modell) Spiegelt direkten Einfluss des Zeitpunktes k-t auf k wieder; x 1 x k Überlagerung, Echos herausgerechnet Parameter p (AR-Modell) 7

Box-Jenkins-Methode (1) Trend prüfen - Langsamer Abfall beim ACF wenn Trend vorhanden - Differential Saisonalität prüfen - Peaks im ACF - Saisonales Differential Parameter schätzen mit Maximum Likelihood (meist verwendet) oder Methode der kleinsten Quadrate Residuen prüfen Ggf neues Modell erstellen p, q identifizieren - ARIMA(p,d,0) - PACF bricht nach p Zeitpunkten ab - ARIMA(0,d,q) - ACF bricht nach q Zeitpunkten ab - Schwer für gemischte Modelle https://ncss-wpengine.netdna-ssl.com/wp- content/themes/ncss/pdf/procedures/ncss/the_box- Jenkins_Method.pdf 8

Box-Jenkins-Methode: Probleme (2) ARIMA(2,1,1) d=1 -> Trend vorhanden ARIMA(0,0,2) d=0 -> kein Trend 9

TRAMO und SEATS TRAMO Modellidentifikation Linearisiert Zeitreihe/ Korrigiert ZR Deterministische Effekte entfernt Fehlende Werte interpoliert Automatische Modellidentifikation Zerlegt Zeitreihe in stochastische Komponenten (Trend, Saison, Zyklisch, Irregulär) Finalen Komponenten = stochastische Komponenten + deterministische Effekte Parameterschätzung ARIMA-Modell SEATS Übergabe linearisierte Zeitreihe Zerlegung in Komponenten Entfernung deterministische Effekte Evtl. erneute Modellschätzung Einfügen der Effekte Nach: https://ec.europa.eu/eurostat/sa-elearning/tramo 10

Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 11

Mann-Kendall-Trendtest (1) H0: Datenreihe ist unabhängig und gleichverteilt, kein Trend H1: Trend Steigungen aller mgl. Paare, j > k Hamed, Khaled H., and A. Ramachandra Rao. "A modified Mann-Kendall trend test for autocorrelated data." Journal of Hydrology 204.1 (1998): 182-196. http://vsp.pnnl.gov/help/vsample/design_trend_mann_kendall.htm 12

Mann-Kendall-Trendtest (2) Kennzahl zur Auswertung stat. Tests Je kleiner der p-wert, desto eher wird H0 abgelehnt < 0,1 signifikant < 0,05 stark signifikant < 0,01 äußerst signifikant H0 abgelehnt und H1 akzeptiert wenn Z MK Z 1 /2 Z 1 /2 aus Normalverteilungstabelle ablesen Bsp.: α = 0,05; Z 1 /2 = 1,96 S = 2244 σ 2 = 67008,66 Z MK = 8,665 p = 4,5189 10 18 H0 abgelehnt, Trend vorhanden 13

Mann-Kendall-Trendtest: Probleme (3) Statistik S g für jede Saison (g = 1,2,, m) einzeln berechnen S aufsummieren Anstieg der Wahrscheinlichkeit, dass ein Trend gefunden wird, obwohl kein Trend vorhanden ist σ 2 = n(n 1)(2n+5) 18 Varianz wird unterschätzt In Varianzberechnung Autokorrelation miteinfließen lassen -> modifizierter Trendtest ftp://cran.r-project.org/pub/r/web/packages/ trend/vignettes/trend.pdf Hamed, Khaled H., and A. Ramachandra Rao. "A modified Mann-Kendall trend test for autocorrelated data." Journal of Hydrology 204.1 (1998): 182-196. 14

Sen-Slope Schätzer Für alle mgl. Zeitreihenpaare wird Q berechnet, wobei j > k gilt Sen-Slope (schwarz) Methode der kleinsten Quadrate (blau) Reale Zeitreihe (grün) Schätzung der Steigung β ergibt sich aus dem Median der berechneten Q http://vsp.pnnl.gov/help/vsample/nonparametric_estimate_of_trend.htm https://en.wikipedia.org/wiki/theil%e2%80%93sen_estimator 15

Spearmans Rangkorrelationskoeffizient (1) Basiert auf Rängen statt den eigentlichen Werten Unempfindlich für Ausreißer r S = 1 6 σ d i 2 n n 2 1 σ 2 = 1 n 1 Z S = r S σ 2 d i = rg X i rg Y i Gautheir, Thomas D. "Detecting trends using Spearman's rank correlation coefficient." Environmental forensics 2.4 (2001): 359-362. 16

Vergleich der Trendtests 2000 unabhängige, normalverteilte Zeitreihen generiert Zeitreihenlänge n = 10, 20,, 100 Mann-Kendall-Trendtest mit Spearmans Rangkorrelationskoeffizient verglichen Beide Tests zeigen ähnlich gute Ergebnisse Spearmans Rangkorrelationskoeffizient verwenden, da geringerer Aufwand Yue, Sheng, Paul Pilon, and George Cavadias. "Power of the Mann Kendall and Spearman's rho tests for detecting monotonic trends in hydrological series." Journal of hydrology 259.1 (2002): 254-271. 17

Trendtest einer Datensammlung Eine Münze wird n-mal geworfen k ist die Anzahl der Kopfwürfe p 0 = 0,5 als hypothetische Wahrscheinlichkeit n = 100, k = 58 Behauptung: Kopf liegt wesentlich öfter vor als Zahl! H 0 : p > 0,5 H 1 : p 0,5 Z > Z 1 α, H 0 nicht abgelehnt Z Z 1 α, H 0 abgelehnt Z = Z = k p 0 n n p 0 (1 p 0 ) 58 0,5 100 100 0,5 (1 0,5) = 1,6 Z 1 α = Z 1 0,05 = Z 0,95 = 1,65 H 0 wird abgelehnt, Kopf liegt nicht wesentlich öfter vor als Zahl Kopf durch kein Trend ersetzen Grundannahme: die Datensammlung besitzt einen Trend 18

Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 19

Saisontest mit ACF (1) Lag ACF 47 0,289 48 0,320 49 0,300 95 0,273 96 0,293 97 0,269 143 0,257 144 0,262 145 0,248 191 0,234 192 0,247 193 0,242 20

Saisontest mit ACF (2) Lag ACF 47 0,361 48 0,313 49 0,339 95 0,162 96 0,141 97 0,101 Hier lediglich 3 Saisons verwendet Keine eindeutige Saisonidentifikation (Mehrheitsentscheid, Mittelwert?) 21

Agenda Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 22

Umgang mit Fehlwerten Zeitreihenmittelwert Mittel der Nachbarpunkten Median der Nachbarpunkten Lineare Interpolation Linearer Trend am Punkt Glättungsverfahren Prognose Ersetzen durch beobachteten Wert eines möglichst ähnlichen Falls im Datensatz Ersetzen durch möglichst ähnlichen Fall früherer Beobachtung Jeder fehlende Wert wird durch Set von plausiblen Schätzwerten dargestellt; diese dann analysiert und kombiniert http://www.ibm.com/support/knowledgecenter/de/sslvmb_23.0.0/spss/base/replace_missing_values_estimation_methods.html VDE Verband der Elektrotechnik Elektronik Informationstechnik e.v., Messwesen Strom (Metering Code); VDE-AR-N 4400, 2011. 23

Zusammenfassung Auto-ARIMA ACF-PACF Box-Jenkins-Methode TRAMO und SEATS Mann-Kendall-Trendtest Sen-Slope Schätzer Spearman Rangkorrelationskoeffizient ACF 24

Analyse eines Forschungsthemas Franziska Ressel - 14.03.2017

AIC und BIC AIC = 2 ln ML + 2k BIC = 2 ln ML + k ln( n) Faktor des Strafterms ist von der Stichprobengröße unabängig -> tendenziell Modelle mit vielen Parametern positiv bewertet AICc ist AIC mit stärkerer Bestrafung von extra Parametern Existenz wahres Modell wird ausgeschlossen, stattdessen möglichst gute Vorhersagen Strafterm wächst mit Stichprobengröße -> stärkere Bestrafung der Anzahl der Parameter führt zu einfacheren Modellen Wahres Modell ML = Maximum Likelihood k = Anzahl geschätzter Parameter n = Anzahl Beobachtungen 26

Kalman-Filter Aus gemessenen, fehlerbehafteten Werten eine möglichst genaue Schätzung über den tatsächlichen Zustand erlangen Mit zunehmenden Iterationsschritten wird der Filter sicherer (Varianz sinkt) Erwarteter Systemzustand wird verglichen mit realen, neuen Werten http://www.cbcity.de/das-kalman-filter-einfach-erklaert-teil-1 27

Kalman-Filter: Iterationen Mit zunehmenden Iterationsschritten wird der Filter sicherer (Varianz sinkt) Erwarteter Systemzustand wird verglichen mit realen, neuen Werten Prädiktion: Unsicherheit steigt Korrektur: Unsicherheit sinkt http://www.mi.hs-rm.de/~schwan/projects/cg/carreracv/doku/kalman/kalman.htm 28

MK-Trendtest und Autokorrelation (1) Anstieg der Whl., dass ein Trend gefunden wird, obwohl kein Trend vorhanden ist X: stationär, white noise Y: AR(1), φ = 0,4, Input X S(X)=557 S(Y)=793 var(s)=112750 Z 1 α/2 = 1,96 Z Y = 2,36 H0 abgelehnt Z X = 1,66 H0 angenommen Hamed, Khaled H., and A. Ramachandra Rao. "A modified Mann-Kendall trend test for autocorrelated data." Journal of Hydrology 204.1 (1998): 182-196. 29

MK-Trendtest und Autokorrelation (2) identisch für beide Zeitreihen Varianz unterschätzt In Varianzberechnung Autokorrelation miteinfließen lassen (p S (i)) -> modifizierter Trendtest 30