Empirische Methoden (MA) SS 2011 Übungsblatt 1 Willi Mutschler willi.mutschler@uni-muenster.de Kurzeinführung in EViews 1. Starten Sie EViews und laden Sie das workfile Konsum.wf1 (workfiles sind das von EViews benutzte Datenformat). Eine gute Kurzeinführung bietet Stanz, Richard (2007): EViews Illustrated for Version 6, Chapter I. Folgen Sie den Schritten des Kapitels, benutzen Sie jedoch die Zeitreihe PrivKonsum aus dem Datensatz Konsum.wf1. Machen Sie sich insbesondere mit folgenden Dingen vertraut: Grafische Veranschaulichung und Übersichtsstatistiken Veränderung des Beobachtungszeitraums Erstellung von neuen Reihen und der Logarithmusfunktion Scatterplots inkl. Regressionslinie Einfache Regressionsanalyse: Regressionsoutput, (Grafische) Analyse der Residuen und Prognosen. Organisation des Workspaces und Speichern Solution:Vgl.Stanz, Richard (2007): EViews Illustrated for Version 6, Chapter I. Eine einfache Konsumfunktion 1 2. Eine einfache Konsumfunktion erklärt den Konsum als Funktion des Einkommens C t = β 0 +β 1 Y t +u t (1) C bezeichnet den realen privaten Konsum und Y das reale verfügbare Einkommen. Diese soll in der folgenden Aufgabe geschätzt werden. Öffnen Sie dazu zunächst den Datensatz Konsum.wf1 und betrachten Sie folgende Datensatzbeschreibung: CPI: Quelle Deutsche Bundesbank: Consumer-Price-Index, Preisindex(2005=100), quarterly, seasonally adjusted. 1 Diese Aufgabe ist angelehnt an Hackl, Peter (2005): Einführung in die Ökonometrie.
Emp. Methoden (MA)/Blatt 1 Page 2 of 8 Willi Mutschler Priv Konsum: Quelle Deutsche Bundesbank: Consumer expenditures in Billion Euros (also in Mrd. Euro), quarterly, current prices, seasonally adjusted. Verf EK: Quelle Deutsche Bundesbank: Disposable income in Billion Euros (also in Mrd. Euro), quarterly, current prices, seasonally adjusted. Zins: Quelle Datastream: Long-Term government bond yield 9-10 Years, quarterly, interest rate. (a) Erstellen Sie nun zwei neue Zeitreihen für den realen privaten Konsum und das reale verfügbare Einkommen. (i) Betrachten Sie beide Zeitreihen als Liniendiagramm. (ii) Betrachten Sie beide Zeitreihen als Scatterplot. (iii) Wie hoch ist die Kovarianz und die Korrelation? (iv) Lässt sich ein Zusammenhang erkennen? Solution: series ek=verf ek/cpi; series konsum=priv konsum/cpi Durch Markieren von beiden Zeitreihen (Reihenfolge beachten: Einkommen auf die x-achse, Konsum auf die y-achse!), Rechtsklick, Open as Group werden die darzustellenden Zeitreihen in einem eigenen Fenster geöffnet. (i) Anklicken von View, dann Line Graph liefert das Liniendiagramm. (ii) Anklicken von View, dann Scatter liefert das Streudiagramm. 3.4 3.8 3.3 3.6 3.4 3.2 KONSUM 3.2 3.1 3.0 3.0 2.9 2.8 92 94 96 98 00 02 04 06 08 10 2.8 3.2 3.3 3.4 3.5 3.6 3.7 3.8 EK KONSUM EK Man erkennt den positiven Zusammenhang zwischen Konsum und Einkommen: steigt das Einkommen, wird mehr konsumiert. (iii) Die Analyse der Korrelation bestätigt diese Vermutung: Anklicken von View, Covariance Analysis und dann bei Covariance und Correlation ein Häkchen machen liefert die Kovarianz/Korrelationsmatrix. Die Kovarianz ist gleich 0.021282 und der Korrelationskoeffizienten hat einen Wert nahe bei Eins (0.972232). (iv) Alles deutet auf einen starken positiven linearen Zusammenhang hin.
Emp. Methoden (MA)/Blatt 1 Page 3 of 8 Willi Mutschler (b) Führen Sie nun eine Schätzung von (1) durch und interpretieren Sie die Koeffizienten β 0 und β 1. Solution: Variable Coefficient Std. Error t-statistic Prob. C -0.291805 0.095048-3.070071 0.0029 EK 0.973807 0.026541 36.69125 0.0000 β 0 = 0.291805 ist die Konstante bzw. der Achsenabschnitt. Wenn das reale verfügbare Einkommen Null beträgt, so beträgt der Konsum-0.291805 Mrd. Euro. Dies ist unsinnig. Die Konstante legt einfach nur ein Niveau fest. Oft ist eine Interpretationnichtmöglichbzw.unsinnig. β 1 = 0.973807istdermarginaleEffekt des realen verfügbaren Einkommens. Wenn dieses um eine Einheit steigt, hier also um eine Mrd. Euro, dann steigt der Konsum um 0.973807 Mrd. Euro. (c) Schätzen Sie nun folgendes Modell: log(c t ) = β 0 +β 1 log(y t )+u t (2) Interpretieren Sie nun die Koeffizienten β 0 und β 1. Macht dieses Ergebnis ökonomisch Sinn? Solution: Variable Coefficient Std. Error t-statistic Prob. C -0.243854 0.038080-6.403707 0.0000 LOG(EK) 1.101739 0.029874 36.87903 0.0000 Das Interzept β 0 = 0.243854 beschreibt, wie viel konsumiert würde, wenn das verfügbare Einkommen Null wäre. Der negative Wert ist natürlich nicht realistisch und ist ein Hinweis (i) auf mögliche Mängel in der Modell-Spezifikation und (ii) darauf, wie problematisch das Extrapolieren eines Modells in einen Bereich des Regressors ist, für den keine Beobachtungen verfügbar sind. Interpretation β 1 = 1.101739: Sowohl die endogene als auch die exogene Variable liegen in Logarithmen vor, d.h. hier ist eine Interpretation als Elastizität möglich, denn: log(y t ) = β 0 +β 1 log(x t )+u t log(y t ) = log(y t ) y t = log(y t) y t = 1 y t = y t y t y t y t y t log(x t ) = x t x t β 1 = log(y yt t) log(x t ) = y t x t x t
Emp. Methoden (MA)/Blatt 1 Page 4 of 8 Willi Mutschler β 1 ist somit eine Elastizität, d.h. das Verhältnis von zwei prozentualen Veränderungen. Der Regressionskoeffizient des Einkommens repräsentiert hier also die marginale Konsumneigung, den Anteil des Einkommens, der für Konsum verwendet wird. Diese Größe muss natürlich im Bereich von 0 bis 1 liegen; ein Wert von weit mehr als 1 lässt an der Korrektheit der Modell-Spezifikation zweifeln. (d) Schätzen Sie nun eine erweiterte Konsumfunktion (i bezeichnet den Zins): log(c t ) = β 0 +β 1 log(y t )+β 2 i t +u t (3) Interpretieren Sie nun die Koeffizienten β 0, β 1 und β 2. Macht dieses Ergebnis ökonomisch Sinn? Solution: Variable Coefficient Std. Error t-statistic Prob. C -0.012303 0.088000-0.139808 0.8892 LOG(EK) 0.939532 0.062972 14.91982 0.0000 ZINS -0.004897 0.001694-2.890150 0.0050 Die Interpretation der Konstante macht hier immer noch keinen Sinn, jedoch liegt durch Hinzunahme des Zinses die marginale Konsumneigung zwischen 0 und 1, d.h. bei einem Prozent mehr Einkommen steigt der Konsum um 93.95%. β 2 ist eine Semi-elastizität: Steigt der Zins um einen Prozentpunkt, so sinkt der Konsum um 0.4897%. (e) Interpretieren Sie den Regressionsoutput soweit Sie können. Solution: Siehe hierzu auch die Hinweise zum Regressionsoutput auf der Kurshomepage. t-statistik und p-wert Mithilfe der t-statistik wird überprüft, ob der geschätzte Koeffizient signifikant von 0 verschieden ist. Die Nullhypothese lautet H 0 : β i = 0. Unterder Nullhypotheseistt = (ˆβ i 0) SE(ˆβ i ) t-verteiltmit(n-k-1)-freiheitsgraden, die recht schnell gegen eine Standardnormalverteilung konvergiert. Aus der Statistik ist bekannt, dass man aus Verteilungen Wahrscheinlichkeiten mithilfe von kritischen Werten berechnen kann. Beispielsweise gilt für eine Std-Normalverteilte Variable Z N(0; 1), dass Z mit 95%-iger Wahrscheinlichkeit zwischen -1.96 und 1.96 liegt: Pr( 1.96 Z 1.96) = 0.95. Die Fläche unter der Dichtefunktion links von -1.96 und rechts von 1.96
Emp. Methoden (MA)/Blatt 1 Page 5 of 8 Willi Mutschler beinhaltet also zusammen 5%. Dies wäre dann der p-wert zum kritischen Wert ±1.96: p = 0.05. Diese Vorgehensweise überträgt man nun auf den t-test: Ist die Nullhypothese wahr, so liegt der berechnete t-wert t = (ˆβ i 0) SE(ˆβ i ) mit 95%-iger Wahrscheinlichkeit zwischen ±1.96, da t unter H 0 (asymptotisch) Standard-Normalverteilt ist. Liegtderberechnetet-Wertaußerhalb,also t > 1.96,soist dievariable t nicht Std-Normalverteilt, d.h. die Nullhypothese ist falsch und wird auf einem Signifikanzniveau von α = 5% (Fehler 1. Art) abgelehnt. Mit anderen Worten: Für t > 1.96 ist β i signifikant von Null verschieden, der Regressor besitzt also Erklärungsgehalt im Model. Der Flächeninhalt der Dichtefunktion links und rechts vom berechneten t ergibt den zugehörigen p-wert. Grob: p ist die Wahrscheinlichkeit mit der die Nullhypothese stimmt. Somit lässt sich mit dem p-wert ganz leicht die Testentscheidung fällen: Ist p < 0.05 so lehne ich die Nullhypothese auf einem Signifikanzniveau von 5% ab. Diese Vorgehensweise gilt für (fast) alle Tests. HIER: Bis auf das Interzept sind alle Koeffizienten statistisch signifikant von Null verschieden, d.h. sowohl der Einfluss des logarithmierten verfügbaren Einkommens, als auch der Einfluss des Zinses sind statistisch signifikant von Null verschieden. Das Bestimmtheitsmaß R 2 und das adjustierte Bestimmtheitsmaß R 2 Das R 2 misst wie gut das Modell die Streuung der Daten erklärt: R 2 = ESS TSS mit ESS = 1 n 1 n i=1(ŷi Ȳ) 2 als Estimated-Sum-Squared (erklärte Varianz) und ESS = 1 n 1 n i=1( Yi Ȳ) 2 als Total-Sum-Squared (Gesamtvarianz). Ein R 2 = 1 bedeutet, dass die gesamte Streuung von Y i durch das geschätzte Modell erklärt wird. Bei einem R 2 = 0 hingegen wird die Streuung nicht erklärt. Mit dem normalen R 2 lassen sich streng genommen alternative ökonometrische Modelle nur bei gleicher Anzahl von Regressoren vergleichen. Mit dem adjustierten Bestimmtheitsmaß lassen sich Modell mit unterschiedlicher Anzahl von Regressoren besser miteinander vergleichen, da eine Korrektur der Freiheitsgrade erfolgt.
Emp. Methoden (MA)/Blatt 1 Page 6 of 8 Willi Mutschler HIER: Ein R 2 von 0.951068 und ein R 2 von 0.949798 sind fast schon zu perfekte Werte für das Bestimmtheitsmaß. Man sollte bei solch einem Wert immer suspekt sein, ob wirklich alle Annahmen des linearen Regressionsmodells zulässig sind. Insbesondere gilt bei Zeitreihen, dass die Störterme autokorreliert sind (siehe Durbin-Watson-Statistik) und dies führt u.a. zu einem derart hohen Bestimmtheitsmaß. S.E. of regression ist ein Schätzer für die Standardabweichung des Störterms. Sum squared resid ist die Residuenquadratsumme. Diese sollte nahe Null sein. Log likelihood ist der Wert der in der Maximum-Likelihood verwendeten Schätzfunktion. Dieser wird für diverese Tests gebraucht bzw. kann auch zur Modellanpassung und -vergleich benutzt werden. F-Statistik Der standardmäßig ausgegebene F-Test testet die Nullhypothese H 0 : β 1 = β 2 = = β k (Wichtig: NICHT die Konstante!) gegen H 1 : mindestens ein β i 0. Der F-Test testet folglich mehrere Parameter gleichzeitig(im Vergleich dazu testet der t-test nur einzeln). HIER: Da die F-Statistik sehr hoch ist (F = 748.3136) und der p-wert Prob(F-Statistic)= 0, wird die Nullhypothese abgelehnt. Mit anderen Worten: Das Modell an sich besitzt Erklärungsgehalt. Es gibt mindestens einen Koeffizient der von Null verschieden ist. Mean dependent var ist der Mittelwert der endogenen Variablen. S.D. dependent var ist die (korrigierte) Standardabweichung der endogenen Variablen. Akaike info criterion, Schwarz criterion und Hannan-Quinn criter. Dies sind die sogenannten Informationskriterien, die man zur Modellauswahl (insbesondere zur Lag-Bestimmung von ARMA Modellen verwendet). Die Idee ist es einen Ausgleich zwischen einer guten Anpassung und einer sparsamen Modellierung zu erreichen. Je kleiner die Werte, desto besser (vorsicht vor Flüchtigkeitsfehlern bei negativen Zahlen). Durbin-Watson stat
Emp. Methoden (MA)/Blatt 1 Page 7 of 8 Willi Mutschler Der Durbin-Watson-Test überprüft die Nullhypothese, dass die Störgrößenunkorreliert sind(genauer: H 0 : DieAutokorrelationerster Ordnung ist 0) und ist somit ein Test zur Spezifikation des Modells. Bei positiver Autokorrelation kann man einen Wert zwischen 0 und 2 erwarten. Bei negativer Autokorrelation kann man einen Wert zwischen 2 und 4 erwarten. Liegt die Statistik nahe beim Wert 2, so gibt es keine wesentliche Autokorrelation der Störgrößen. HIER: Die DW-Statistik hat einen Wert von 0.229031. Die Störterme scheinen also positiv autokorreliert zu sein, die Modellspezifikation ist somit nicht korrekt. (f) Analysieren Sie die Residuen des erweiterten Modells: (i) Berechnen Sie die üblichen deskriptiven Statistiken (Mittelwert, Standardabweichung, Schiefe) zur Beschreibung ihrer Verteilung; (ii) zeichnen Sie ein Histogramm und ein Q-Q-Plot zur Beurteilung, ob die Residuen normalverteilt sind. Solution: Es empfiehlt sich, die Residuen in einer neuen Variablen zu speichern: Proc-Make Residual Series. Ansonsten findet man die Residuen der zuletzt durchgeführten Schätzung in der EViews-Variable RESID. Doppeltes Anklicken der Residuen-Zeitreihe öffnet das Fenster mit dieser Zeitreihe. Anklicken der Schaltfläche View, dann Descriptive Statistics, dann Histogram and Stats liefert folgenden Output: Der Mittelwert hat praktisch den Wert Null; für Standardabweichung und Schiefe ergeben sich 0.010501 und 0.142932. Dem relativ zur Standardabweichung der abhängigen Variablen (0.04747) kleinen Wert der Standardabweichung entspricht der hohe Wert des Bestimmtheitsmaßes (0.95). Der Wert der Schiefe nahe bei Null weist auf nur geringe Abweichungen von einer symmetrischen Verteilung der Residuen ab. Die Form des Histogramms ähnelt allerdings der Glockenform nur eingeschränkt. Auch das Q-Q-Plot weist auf Abweichungen von der Normalverteilung hin: Das Q-Q-Plot ergibt sich durch Anklicken der Schaltfläche View-Graph, dann Quantile - Quantile. Im Auswahlfenster ist Normal distribution zu markieren. Bei einer perfekten Normalverteilung der Residuen würden die Punkte auf einer Geraden liegen. (g) Zeichnen Sie(i) ein Streudiagramm der geschätzten Werte für den realen Konsum über den wahren Werten. Zeichnen Sie (ii) ein Streudiagramm der Residuen über dem realen Konsum. Interpretieren Sie den Wert des Bestimmtheitsmaßes der angepassten Konsumfunktion.
Emp. Methoden (MA)/Blatt 1 Page 8 of 8 Willi Mutschler Solution: 3.4 3.4 3.3 3.3 3.2 3.2 KONSUM 3.1 KONSUM 3.1 3.0 3.0 2.9 2.9 2.8 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 2.8 -.02 -.01.00.01.02.03 KONSUMF RESID01 Der hohe Wert des Bestimmtheitsmaßes spiegelt sich in der guten Übereinstimmung zwischen Beobachtungen und geschätzten Werten wider. Das Muster des Residuen-Streudiagramms zeigt jedoch, dass zwischen den Residuen und der abhängigen Variablen eine deutliche funktionale Abhängigkeit besteht; die Residuen sind keine zufälligen Größen, das Modell erklärt die abhängige Variable nur ungenügend. Ein hoher Wert des Bestimmtheitsmaßes genügt nicht, die Adäquatheit des Modells zu zeigen!