Basiswerkzeuge. Kapitel 6. Lernziele. Zeitreihen-Plot. Beschreiben von Zeitreihen. Graphische Darstellungen. Univariate und bivariate Maßzahlen

Ähnliche Dokumente
Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Prognose. Kapitel 5. Ökonometrie I Michael Hauser

5. Zeitreihenanalyse und Prognoseverfahren

Vorlesung 8a. Kovarianz und Korrelation

Kointegration. Kapitel 19. Angewandte Ökonometrie / Ökonometrie III Michael Hauser

Eine zweidimensionale Stichprobe

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. PROGNOSE II - Vertiefung Aufgaben und Lösungen Sommersemester 2004

5 Erwartungswerte, Varianzen und Kovarianzen

Modul G.1 WS 07/08: Statistik

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

K8 Stetige Zufallsvariablen Theorie und Praxis

Stochastische Prozesse und Zeitreihenmodelle

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Univariates Datenmaterial

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

5.6 Empirische Wirtschaftsforschung

Kenngrößen von Zufallsvariablen

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Statistik, Datenanalyse und Simulation

Einführung in statistische Analysen

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

5.4 Prognosen & Prognoseintervalle

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

11.4 Korrelation. Def. 44 Es seien X 1 und X 2 zwei zufällige Variablen, für die gilt: 0 < σ X1,σ X2 < +. Dann heißt der Quotient

Korrelation und Regression

Taylorreihen. Kapitel 9. Lernziele. Taylorreihe. (x x 0 ) + f (x 0 ) 2! (x x 0 ) f (n) (x 0 ) (x x 0 ) n. Taylorreihe und MacLaurinreihe

Überschrift. Titel Prognosemethoden

Teil: lineare Regression

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Varianz und Kovarianz

Regression und Korrelation (Gurtner)

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Kap. 12: Regression mit Zeitreihendaten und Prognosemodelle

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Kapitel 4. Daten. Indizes: Preis-, Mengen- und Umsatzindex

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik II Übung 1: Einfache lineare Regression

Statistik und Wahrscheinlichkeitsrechnung

Übungsaufgaben zu Statistik II

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Einführung in die Maximum Likelihood Methodik

3. Das einfache lineare Regressionsmodell

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Gütebewertung und Performanceanalyse von Prognosealgorithmen bei unterschiedlichen Signalklassen

Korrelation - Regression. Berghold, IMI

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

2.1 Gemeinsame-, Rand- und bedingte Verteilungen

Anleitung: Standardabweichung

Dynamische Systeme und Zeitreihenanalyse // Daten 8 p.2/??

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Stochastik für die Naturwissenschaften

Wahrscheinlichkeitstheorie und Statistik vom

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen III / Marktpreisrisiken Dr. Klaus Lukas Stefan Prasser

Statistik und Wahrscheinlichkeitsrechnung

Klausur zu Statistik II

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

I. Deskriptive Statistik 1

Das klassische Regressionsmodell: Ein Beispiel

Angewandte Ökonometrie Übung. Endogenität, VAR, Stationarität und Fehlerkorrekturmodell

11. Zeitreihen mit Trend und Saisonalität

Mathematik für Biologen

6. Statistische Schätzung von ARIMA Modellen

Inhaltsverzeichnis. Teil I Einführung

Regression. Leonardo da Vinci ( ) formulierte folgende Zusammenhänge:

Korrektur: Lineare Regression in Excel

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Lineare Regression mit einem Regressor: Einführung

2. Eindimensionale (univariate) Datenanalyse

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Kapitel 1 Beschreibende Statistik

SBWL Tourismusanalyse und Freizeitmarketing, Vertiefungskurs 2

Brückenkurs Statistik für Wirtschaftswissenschaften

Prognosen. Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen. Auch ein Weiser hat nicht immer recht Prognosefehler sind hoch

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Inhaltsverzeichnis. Vorwort

Statistik für Ökonomen

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet.

Kovarianz und Korrelation

Statistiken deuten und erstellen

Hauptseminar Technische Informationssysteme

Einführung in die computergestützte Datenanalyse

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Mathematik III - Statistik für MT(Master)

Statistik eindimensionaler Größen

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

1. Lösungen zu Kapitel 7

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Transkript:

Kapitel 6 Basiswerkzeuge Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 1 / 29 Lernziele Beschreiben von Zeitreihen Graphische Darstellungen Univariate und bivariate Maßzahlen Transformationen von Zeitreihen Maßzahlen für die Prognosegüte Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 2 / 29 Zeitreihen-Plot Zeitpfad wird visualisiert: Monatliche Bierproduktion in Australien Muster und Charakteristika werden meist sichtbar: Trends Ml 120 140 160 180 Zyklen Saison Irreguläres Verhalten (keine Regelmäßigkeit) 1991 1992 1993 1994 1995 Jahr Ausreißer, atypische Beobachtungen Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 3 / 29

Muster Wir können vier Muster unterscheiden: Horizontales Muster. Daten fluktuieren um ein konstantes Mittel. z.b.: Renditen, Bierproduktion Saisonales Muster. Saisonbehaftete Daten, fluktuieren mit fixer Periodizität. z.b.: Stromverbrauch, Speiseeisproduktion Zyklisches Muster. Daten fluktuieren in Zyklen unregelmäßiger Länge und Amplitude. z.b.: Konjunkturzyklen Trend. Daten steigen oder fallen über eine längere Periode. z.b.: BIP-real, Stromproduktion Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 4 / 29 Überlagerung der Strukturen Ausgeprägte Strukturen machen die Wahl eines geeigneten Modells leicht. In kurzen Reihen sind einzelne Muster nicht zuverlässig erkennbar. Die Unterscheidung zwischen Trend und langen Zyklen ist allgemein ein schwieriges Problem. Zyklen, die kurz im Verhaltnis zu Frequenz der Beobachtungen liegen sind schwer zu erkennen (oder erzeugen Scheinperiodizitäten). Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 5 / 29 Saisonale Plots Saisonale Plots zeigen die Daten für einzelne Saisonen (hier Monate). Monatliche Bierproduktion in Australien Ml 120 140 160 180 2 4 6 8 10 12 Monat Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 6 / 29

Histogramm Das Histogramm dient zur graphischen Beschreibung der Verteilung einer Variablen. Nur sinnvoll bei horizontalem Muster (stationärer Struktur). Monatliche Bierproduktion in Australien 0 2 4 6 8 10 12 120 140 160 180 200 Ml Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 7 / 29 Streudiagramm (scatter plot) Im Streudiagramm werden zwei Variable werden gegeneinander aufgetragen (Punktwolke). Es erlaubt Korrelationen abzuschätzen. (Korrelations-/Regressionsanalyse) 120 140 160 180 130 140 150 160 170 180 190 Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 8 / 29 Univariate Maßzahlen Maßzahlen für Zeitreihen {y t }, t = 1,..., T. Mittelwert Median mittlerer absoluter Abstand mittlerer quadratischer Abstand ȳ = 1 T y t Me = mittlerer Wert MAD = 1 T y t ȳ MSD = 1 T (y t ȳ) 2 Varianz s 2 y = 1 T 1 (y t ȳ) 2 Standardabweichung s y = s 2 = Summation über alle t = 1,..., T. 1 T 1 (y t ȳ) 2 Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 9 / 29

Bivariate Maßzahlen Zwei Zeitreihen {x t } und {y t }, t = 1,..., T. Kovarianz Cov xy = 1 T 1 (x t x)(y t ȳ) Korrelation r xy = Cov xy s x s y = (x t x)(y t ȳ) (xt x) 2 (y t y) 2 Der Korrelationskoeffizient liegt immer zwischen 1 und 1: 1 r xy 1 Wir verwenden hier die Stichprobenvarianz bzw. -kovarianz. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 10 / 29 Autokorrelation Die Autokorrelation k-ter Ordnung misst die Korrelation zwischen Werten einer Reihe, die k Perioden voneinander entfernt sind: r k = T t=k+1 (y t ȳ)(y t k ȳ) T t=1 (y t ȳ) 2 Die Werte y t k und y t sind k Perioden voneinander entfernt. Wir sagen y t k ist der Wert von y t um k Perioden verzögert. Durch Zusammenfassen der Autokorrelationen der Ordnung 0, 1, 2, 3,... erhält man die Autokorrelationsfunktion oder das Korrelogramm: r 0 = 1, r 1, r 2, r 3,.... Nur sinnvoll für stationäre Zeitreihen (horizontales Muster). Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 11 / 29 Autokorrelation erster Ordnung für die Australische Bierproduktion: (1) (2) (3) (4) (5) (6) (7) t y t y t 1 (y t ȳ) (y t 1 ȳ) (y t ȳ) 2 (y t ȳ) (y t 1 ȳ) 1 164 14.70 215.99 2 148 164 1.30 14.70 1.70 19.16 3 152 148 2.70 1.30 7.27 3.51 4 144 152 5.30 2.70 28.13 14.30. 55 119 130 30.30 19.30 918.31 584.97 56 153 119 3.70 30.30 13.66 112.01 Σ 8361 21135.84 8893.51 T = 56, ȳ = 8361/56 = 149.30, r 1 = T t=2 (y t ȳ)(y t 1 ȳ) T t=1 (y t ȳ) 2 = 8893.51 21135.84 = 0.421 Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 12 / 29.

Korrelogramm Korrelogramm der australischen Bierproduktion ACF 0.4 0.0 0.4 0.8 0 5 10 15 20 Lag Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 13 / 29 Stationärer Prozess Ein stationärer Prozess hat konstanten Erwartungswert E(y t ) = µ für alle t Varianz V(y t ) = σ für alle t Autokovarianzen Cov(y t, y t+k ) = γ(k) für alle t Autokorrelationen ρ k = γ(k)/γ(0) für alle t Der Zeitreihenplot eines stationären Prozesses hat: horizontaler Verlauf des Mittels, Streuung um Mittel gleichmäßig über die Zeit. Die Autokorrelationsfunktion eines stationären Prozesses geht geometrisch gegen Null, macht saisonale Muster sichtbar. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 14 / 29 Interpretation von r k In der Regressionsanalyse wird ein lineares Modell betrachtet: y t = a + b x t + ǫ t Die Methode der kleinsten Quadrate liefert die Schätzer b = Cov(x, y) s 2 x = Corr(x, y) s y s x und â = ȳ b x Im Fall x t = y t k gilt σ x = σ y und Corr(x, y) = r k und somit y t = a + ρ k y t k + ǫ t Diese Regression macht Sinn, und y t k kann zur Prognose y t verwendet werden. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 15 / 29

Ziel der Transformation Reihen können mit Standardverfahren modelliert werden, wenn sie besitzen. einen linearen Trend, oder konstantes Mittel und konstante Varianz Exponentielles Wachstum ist nicht linear kann aber durch Logarithmierung linearisiert werden: x t = log(y t ) (log ist hier der natürliche Logarithmus.) z.b.: Aktienindizes, reales BIP Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 16 / 29 Varianzstabilisierung Allgemeiner als Logarithmierung ist die Box-Cox Transformation. y BC t = y p t für p < 0 log(y t ) für p = 0 y p t für p > 0 Steigt (selten fällt) die Varianz einer Reihe mit steigendem Mittel, so kann eine konstante Varianz durch die geeignete Wahl von p erreicht werden (Varianzstabilisierung). Rücktransformation: y t = ( y BC ) 1/p t für p < 0 exp(y BC t ) für p = 0 (y BC ) 1/p t für p > 0 Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 17 / 29 Varianzstabilisierung / (2) Bedeutung des Parameters p: p > 1: Die Varianz für große Werte wird größer. p = 1: Reihe bleibt unverändert. p < 1: Die Varianz für große Werte wird kleiner. p = 0: Geeignete Transformation für exponentielles Wachstum. p < 0: Die Varianz für große Werte wird noch stärker reduziert. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 18 / 29

Prognose Das Prognoseproblem lautet: Wir beobachten Daten y i, i = 1,..., t, und wollen wissen, wie sich die Reihe in der Zukunft, ŷ j, für die Zeitpunkte j = (t + 1), (t + 2),... entwickelt. Allgemein unterscheidet man Punkt- und Intervallprognose. Ähnlich wie Punkt- und Intervallschätzer. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 19 / 29 Naive Prognose Der letzte Wert wird als Prognose verwendet: ŷ t+1 = y t z.b.: Wenn der Bierabsatz in der letzten Jahr 80 Ml betragen hat, dann prognostizieren wir für heuer ebenfalls 80 Ml. Saisonale Effekte können dabei berücksichtig werden: wobei i die Länge der Periode ist. ŷ t+1 = y t i+1 z.b.: Wenn der Bierabsatz im August des letzten Jahres 60 Ml betragen hat, dann prognostizieren wir für den heuerigen August ebenfalls 60 Ml. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 20 / 29 Einfache Prognosen Angenommen unsere Reihe weist ein horizontales Muster auf: Das Mittel der Reihe wird fortgeschrieben: ŷ t+1 = ȳ einen linearen Trend auf: Der Trend wird zur Prognose fortgeschrieben: ŷ t+1 = â + b (t + 1) â und b sind die Schätzer für das lineare Modell y t = a + b t + ǫ t. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 21 / 29

τ-schritt Prognose und Prognosefehler Die Prognose für τ Schritte in die Zukunft heißt τ-schritt Prognose: ŷ t+τ Der Prognosefehler für τ (τ = 1, 2,...) ist e t+τ = y t+τ ŷ t+τ y t+τ sind die zukünftigen, noch nicht beobachteten Werte. Ziel ist es, den Prognosefehler so klein wie möglich zu machen. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 22 / 29 in-sample / out-of-sample Prognose Wir unterscheiden: in-sample Prognose (ex post): Ein Modell wird für t = 1,..., T geschätzt. Für die Zeitpunkte der Schätzperiode (i.e. 1 t T) werden Prognosen berechnet. out-of-sample Prognose (ex ante): Die Prognose wird für Zeiten außerhalb der Schätzperiode berechnet. z.b. für T + τ, τ = 1, 2,... Out-of-sample Prognosen werden oft so durchgeführt, daß die Länge der Schäzperiode festgehalten wird, und diese Periode über die Zeit hinweg verschoben wird (moving window). Der Prognosehorizont (z.b. 5-Schritt Prognose) wird festgehalten und mit der Prognoseperiode mitbewegt. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 23 / 29 Prognoseintervall Sind die Fehler ǫ t bzw. e t normalverteilt, so kann man auch Prognoseintervalle angeben. 95% Prognoseintervall: [ ŷ t+τ 1.96 σ e (τ), ŷ t+τ + 1.96 σ e (τ) ] σ e (τ) ist die Standardabweichung des τ-schritt Prognosefehlers. Wie man diese bestimmt, weden wir später sehen. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 24 / 29

Maße für die Prognosegüte Mittlerer Fehler, Mean Error, ME misst den Bias (Verzerrheit) einer k-schritt Prognose: ME = 1 k k (y t+j ŷ t+j ) Mittlere Fehlerquadrate, Mean Square Error, MSE misst Bias 2 + Fehlervarianz: MSE = 1 k k (y t+j ŷ t+j ) 2 Der MSE ist analog zur Fehlerquadratsumme konstruiert. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 25 / 29 Maße für die Prognosegüte / (2) Root Mean Square Error, RMSE analog zur Standardstandardabweichung: RMSE = MSE Mittlerer absoluter Fehler, Mean Absolute Error, MAE misst die absoluten Abweichungen (nicht die quadrierten). MAE = 1 k k y t+j ŷ t+j Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 26 / 29 Maße für die Prognosegüte / (3) Alle vier Kriterien können auch als relative Fehler (Percent Error) definiert werden. Mean Absolute Percent Error, MAPE MAPE = 100 k k y t+j ŷ t+j y t+j Hier wird der Fehler in Relation zum realisierten Wert gesetzt. Große Fehler bei großen y t -Werten werden geauso bewertet wie kleine Fehler bei kleinen Realisationen. Relative Fehler sind nur sinnvoll, wenn die verwendete Skala einen sinnvollen Nullpunkt hat. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 27 / 29

Maße für die Prognosegüte / (4) Wenn ein Modell für mehrere Reihen, y (i) t, i = 1,..., n auf dessen Prognosegüte überprüft werden sollen, hält man die Schrittlänge k fest und mittelt über die Werte ŷ (i) t+k, i = 1,..., n, z.b.: MSE k = 1 n n i=1 ( ) y (i) 2 t+k ŷ(i) t+k Beispiele: Der datengenerierende Prozess ist bekannt oder vorgegeben. Mittels Simulation werden künstliche Datensätze generiert und die Prognosen aus den ausgewählten Modellen getestet. Die Modelle sollen für eine Vielzahl von Datensätzen eingesetzt werden. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 28 / 29 Theil s U-Statistik Theil s U-Statistik vergleicht die verwendete Methode mit der Güte der naiven Methode. U = ( k 1 yt+j+1 ŷ t+j+1 k 1 ) 2 y t ( ) yt+j+1 y 2 t+j y t Interpretation: U = 1: die naive Methode ist genauso gut. U < 1: die gewählte Prognosetechnik ist besser als die naive Methode. U > 1: die naive Methode produziert bessere Prognosen. Josef Leydold c 2006 Mathematische Methoden VI Basiswerkzeuge 29 / 29