Spezifikations- & Datenprobleme

Transkript

1 Kapitel 14 Spezifikations- & Datenprobleme Man is impelled to invent theories to account for what happens in the world. Unfortunately, he is not quite intelligent enough, in most cases, to find correct explanations. So that when he acts on his theories, he behaves very often like a lunatic. Aldous Huxley (Texts and Pretexts, 1932, 270 Bisher haben wir uns vorwiegend mit der Schätzung der Parameter bekannter Modelle und deren statistischen Beurteilung beschäftigt. Tatsächlich sind aber in den meisten Fällen nicht nur die Parameter unbekannt, sondern auch die Modelle selbst, z.b. welche Variablen im wahren Modell vorkommen oder wie die wahre funktionale Form der zu schätzenden Gleichungen aussieht. Eine Lehrbuchdarstellung des ökonometrischen Arbeitens sieht ungefähr folgendermaßen aus: Ökonomische Theorie Mathematisches Modell der Theorie Ökonometrisches Modell (funktionale Formen, Stochastik) Daten Schätzung des Ökonometrischen Modells Testen der Hypothesen, Prognosen Wirtschaftspolitische Anwendungen (Strukturanalysen, Prognosen) Die Praxis sieht allerdings oft anders aus. Die ökonomische Theorie liefert selten genügend Informationen um alle Entscheidungen bei der Modellierung eindeutig 1

2 Empirische Wirtschaftsforschung 2 treffen zu können. Bei der Modellierung werden viele Entscheidungen ad-hoc oder auf Basis der verfügbaren Daten getroffen. Einige Kriterien, denen ein gutes ökonometrisches Modell entsprechen sollte, sind z.b. (vgl. Gujarati 1995, S. 453ff) Relevanz: Das Modell sollte der Fragestellung entsprechen. Theoretische Konsistenz: Das Modell sollte selbstverständlich logisch widerspruchsfrei sein; auch sollten die geschätzten Parameter das erwartete Vorzeichen aufweisen (theoretische Plausibilität). Einfachheit (Parsimony): Das Modell sollte so einfach wie möglich sein, aber nach Einstein nicht einfacher!!! Occam s razor; die Größe des Modells sollte adäquat sein, im Zweifelsfall sollen einfachere Modelle bevorzugt werden. 1 Prognosefähigkeit: das Modell sollte über die Stichprobe hinaus möglichst gute Prognosen liefern. Genauigkeit und Robustheit der geschätzten Koeffizienten Anpassung (Goodness of fit): das Modell sollte die verfügbaren Daten möglichst gut abbilden Data Mining Kaum in einem anderen Bereich klaffen die Meinungen zwischen Statistikern und Ökonometrikern so auseinander, wie beim data mining. Prinzipiell versuchen Statistiker wie Ökonometrikerinnen aus Beobachtungen, d.h. Daten, etwas über die zugrunde liegenden Phänomene zu lernen. Die etwas tiefere philosophische Frage ist, wieviel a priori Wissen dazu erforderlich ist. Generell neigen Ökonometriker dazu, dem theoretischen a priori Wissen einen deutlich höheren Stellenwert beizumessen als Statistikerinnen, denn Messung ohne Theorie ist nach Meinung der meisten Ökonometriker blind, wenn nicht überhaupt ein sinnloses Unterfangen. Auf einer praktischeren Ebene lässt es sich auf eine Diskussion herunterbrechen, wie Hypothesentests korrekt durchzuführen und zu interpretieren sind. Ein Beispiel soll dieses Argument verdeutlichen. Angenommen ein Forscher hat eine Reihe potentiell erklärender Variablen zur Verfügung, um eine abhängige Variable y zu erklären. Er oder sie ist sich aber nicht sicher, welche der x-variablen tatsächlich zur Erklärung von y beitragen. Die Theorie alleine gibt selten umfassende Auskunft darüber, welche Variablen mit Sicherheit im Modell sein sollten, bzw. welche funktionale Form die richtige ist. Es ist gängige (und meist verwerfliche!) Praxis, durch einfaches Ausprobieren anhand von t-statistiken und dem R 2 die Entscheidung darüber zu treffen, welche erklärenden Variablen letztendlich in das ökonometrische Modell aufgenommen werden 1 Steht man vor der Wahl mehrerer möglicher Erklärungen für dasselbe Phänomen, soll man diejenige bevorzugen, die mit der geringsten Anzahl an Hypothesen auskommt und somit die einfachste Theorie darstellt.

3 Empirische Wirtschaftsforschung 3 Welt (nicht direkt beobachtbar) Theorie Datengenerierender Prozess (DGP) Modell Beschreibung & Erklärung Spezifikation Daten Forscherin & testen (für gegebene Spezifikation!) schätzen Beobachtungen Abbildung 14.1: Die übliche Schätz- und Testtheorie setzt eine korrekte Spezifikation voraus. Wenn die Spezifikationssuche datengetrieben ist und auf den gleichen Daten wie die Schätzung beruht sind können die üblichen Verfahren fehlerhafte Ergebnisse liefern; siehe pretest estimators, z.b. Danilov and Magnus (2004) und welche funktionale Form gewählt wird. Das Problem bei dieser Vorgangsweise besteht darin, dass durch ein solches data mining oder number crunching die üblichen Teststatistiken ihre Aussagekraft verlieren und die vorgegebenen Signifikanzniveaus bedeutungslos werden. Wenn man z.b. hundert Hypothesen testet, muss man bei einem Signifikanzniveau von 5% damit rechnen, dass man in 5 Fällen ein signifikantes Ergebnis erhält (d.h. die Nullhypothese verworfen wird), wenn die Nullhypothese tatsächlich richtig ist (Typ I Fehler). Wenn man also unter diesen 100 Ergebnissen das mit dem kleinsten p-wert aussucht, ist dieses Resultat natürlich von zweifelhaftem Wert und in statistischer Hinsicht wertlos. Dies ist insbesondere problematisch, als ein Außenstehender nicht beurteilen kann wie eine Schätzung zustande gekommen ist, und wieviele Probeläufe der endgültigen Regression vorausgegangen sind. Eine Methode des automatisierten data minings, die auch in vielen ökonometrischen Progammpaketen implementiert ist, ist die stepwise regression (z.b. in EViews der Befehl stepls). Dabei werden aus einer Menge potentiell erklärender Regressoren eine Teilmenge von Regressoren ausgewählt, indem nach einem oder mehreren Kriterien (z.b. p-werte oder R 2 ) zusätzliche Regressoren aufgenommen oder eliminiert werden. Begründet werden solche Verfahren häufig mit dem Argument let the data speak. Allerdings, wer keine vernünftigen Fragen stellt darf keine klugen Antworten erwarten! Einer der Altmeister der Ökonometrie, Edward Leamer, hat seinen Standpunkt klar zum Ausdruck gebracht:

4 Empirische Wirtschaftsforschung 4 We don t rely on stepwise regression or any other automated statistical pattern recognition to pull understanding from our data sets because there is currently no way of providing the critical contextual inputs into those algorithms and because an understanding of the context is absolutely critical to making sense of our noisy nonexperimental data. The last person you want to analyze an economics data set is a statistician, which is what you get when you run stepwise regression. (Leamer, 2007, 101) Eines der Hauptprobleme beim data mining ist, dass die herkömmlich berechneten Signifikanzniveaus ungültig sind, das heißt, dass mit weit mehr als α 100% ein Typ I Fehler gemacht wird. Lovell(1983) hat für solche Fälle des data mining ein wahres Signfikanzniveau α vorgeschlagen. Wenn ein Forscher aus insgesamt K potentiell erklärenden Variablen und einem nicht korrigierten Signifikanzniveau α nach dieser Methode schließlich k Variablen auswählt, dann ist das wahres Signfikanzniveau α = 1 (1 α) K/k, oder ungefähr α (K/k)α Wenn z.b. bei einem Signifikanzniveau von 5% aus insgesamt 15 (= K) zur Verfügung stehenden x-variablen schließlich 5 (= k) ausgewählt werden, dann ist das wahre Signfikanzniveau nach Lovell α (15/5)5 = 15%. Dieses Mass hat sich in der Literatur allerdings ebenso wenig durchgesetzt wie ausgefeiltere Verfahren. Wer sich gegen Gefahren des data mining absichern möchte, dem sein empfohlen sofern möglich vor den Schätzungen eine Teilmenge der Daten (z.b. 20%) auf die Seite zu legen, um anschließend überprüfen zu können, inwieweit die Ergebnisse auch out of sample gelten! Aber das hilft wenig um das grundlegende Problem zu lösen, denn das theoretische Wissen ist selten hinreichend um ein Modell auf Anhieb richtig spezifizieren zu können, z.b. um zu entscheiden, welche erklärenden Variablen von allen möglichen Variablen tatsächlich berücksichtigt werden sollen. Der traditionelle Ansatz der Modellspezifikation war eher bottom up orientiert, das heißt, es wurde von einem eher kurzen Modell ausgegangen, und dieses Modell wurde durch Berücksichtigung zusätzlicher erklärender Variablen solange erweitert, bis das Ergebnis als befriedigend empfunden wurde. Ein Problem bei einer solchen Vorgangsweise ist, dass unterschiedliche Forscherinnen für die gleiche Problemstellung vermutlich verschiedene Antworten finden werden. Deshalb wird in der Literatur meist ein top down Ansatz vorgeschlagen, der v.a. in der Ökonometrie v.a. von Hendry (1995) vertreten wird, und der unter dem Schlagwort General to Specific in die Literatur eingegangen ist. Demzufolge sollte man mit einem möglichst umfassenden Modell beginnen und nach umfangreichen Tests ein adäquates schlankes (parsimonious) Modell wählen, also top down vorgehen. Da Hendry die Anwendung ganzer Testbatterien vorschlägt wurde seine Methodologie auch als TTT-Methodologie (für test, test, test ) bekannt. Allerdings ist dies keine mechanische Prozedur, sondern erfordert neben der entsprechenden Methodenkenntnis viel Erfahrung und Intuition.

5 Empirische Wirtschaftsforschung Vergleich von Modellen Wenn für ein Modell viele erklärende Variablen (und möglicherweise noch mehr Interaktionseffekte) plausibel sind, der Datenumfang aber beschränkt ist, kann es schwierig sein ein geeignetes Modell zu finden. Methoden der Modellselektion( model selection ) sollen bei der Auswahl eines geeigneten Modells helfen. Gleich vorweg soll aber betont werden, dass dieses Problem der Modellselektion bis heute weitgehend ungelöstes ist, es existiert keine Zauberformel, die automatisch ein bestes Modell liefert. Modellselektion bewegt sich immer im Grenzbereich zum data mining, und entsprechend kontrovers wird dieser Problemkomplex diskutiert Das korrigierte Bestimmtheitsmaß Beim Vergleich zweier alternativer Spezifikationen gilt es, das Risiko einer Verzerrung durch Nichtberücksichtigung relevanter Variablen (Bias) und das Risiko einer unnötig großen Varianz (Ineffizienz) durch Berücksichtigung irrelevanter Variablen gegeneinander abzuwägen. PrinzipiellkönntenzweiModellalternativenanhanddesBestimmtheitsmaßesR 2 verglichen werden, aber dieses Kriterium ist nur anwendbar, wenn 1. in beiden Modellen die abhängige Variable y identisch ist; z.b. dürfen ein lineares Modell y = β 1 + β 2 x+ˆε und ein semi-log Modell ln(y) = β 1+ β 2x+ˆε nicht anhand des R 2 verglichen werden. Warum? Rufen Sie sich die Formel für das Bestimmtheitsmaß in Erinnerung! 2. beide Modelle die gleiche Zahl an erklärenden Variablen x haben(d.h. in beiden Modellen k Koeffizienten geschätzt wurden); und 3. beide Modelle ein Interzept enthalten. Da das R 2 mit der Berücksichtigung zusätzlicher erklärender Variablen nie abnehmen kann (warum?) wird für einen Vergleich verschieden langer Modelle häufig die Verwendung des korrigierten Bestimmtheitsmaßes R 2 ( adjusted R 2 ) empfohlen. R 2 = 1 ˆε ˆε n k y y nȳ 2 n 1 ( = 1 ˆε ˆε y y nȳ 2 )( ) n 1 n k Unter alternativen Modellen wird man ceteris paribus das Modell mit dem größten R 2 wählen. Aber auch in diesem Fall muss die abhängige Variable y identisch sein, und die Modelle müssen ein Interzept enthalten. Das korrigierte Bestimmtheitsmaß kann übrigens auch einfach aus dem üblichen R 2 berechnet werden R 2 = 1 (1 R 2 ) n 1 n k Wie man sieht kann das korrigierte Bestimmtheitsmaß auch negativ werden. Man kann außerdem zeigen, dass die Berücksichtigung einer zusätzlichen Variablen, deren Absolutwert der t-statistik größer als 1 ist (d.h. t > 1), immer zu einer Zunahme des korrigierten Bestimmtheitsmaßes führt.

6 Empirische Wirtschaftsforschung 6 Hinweis: In Fällen, in denen das Bestimmtheitsmaß R 2 nicht wie üblich interpretiert werden kann (z.b. bei Modellen ohne Interzept oder für den Vergleich von linlin mit log-log Modellen) behilft man sich manchmal mit einem Trick. Wir erinnern uns, dass im einfachen Modell mit Interzept das Bestimmtheitsmaß das Quadrat des Korrelationskoeffizienten zwischen gefitteten y-werten und den tatsächlichen Realisationen von y ist, d.h. R 2 = [corr(ŷ,y)] 2. Analog dazu wird in Fällen, in denen das einfache Bestimmtheitsmaß nicht interpretiert werden kann, manchmal das Quadrat des Korrelationskoeffizienten zwischen den gefitteten und tatsächlichen y-werten anstelle des von den Programmen ausgegebenen Bestimmtheitsmaßes verwendet. Zum Beispiel in EViews: equation eq01.ls Y X1 X2 eq01.fit Yhat scalar R2 = (@cor(yhat,y))^ Akaike Informations Kriterium (AIC) und Schwarz Informations Kriterium (SIC) Eine Alternative zum korrigierten Bestimmtheitsmaß ist das Akaike Informations Kriterium (AIC), das ebenfalls auf einer Abwägung des Verzerrungsrisikos und des Risikos einer zu großen Schätzvarianz beruht. Nach Greene (2007, 143) oder Verbeek (2014, 83) berechnen die meisten Softwarepakte den Wert als 2 ) (ˆε ˆε AIC = ln + 2k n n Ein Modell ist ceteris paribus umso besser, je kleiner das AIC ist, d.h. zwischen alternativen Modellen wählt man das Modell mit dem kleinsten AIC. Ein ähnliches Maß ist das Schwarz (bzw. Bayes) Informations Kriterium (SIC) ) (ˆε ˆε SIC = ln + kln(n) n n Ebenso wie beim AIC wählt man zwischen alternativen Modellen das Modell mit dem kleinsten SIC. In den meisten Fällen wird das SIC ceteris paribus zu einem schlankeren Modell als das AIC neigen, aber es. Diese Informationskriterien werden häufig verwendet, um in Zeitreihenmodellen die optimale Anzahl von Lags zu bestimmen. Ähnlich wie das R 2 dürfen das AIC und das SIC nur zum Vergleich solcher Modelle verwendet werden, die das gleiche y enthalten (also z.b. nicht zum Vergleich der Modelle y = Xˆβ + ˆε und ln(y) = Xˆβ + ˆε )! 2 Die Theorie hinter den Informationskriterien beruht auf der Maximum-Likelihood Methode, wenn l(ˆθ) den Wert der Log-Likelihood Funktion für ˆθ bezeichnet ist AIC l = 2l(ˆθ) + 2k. Im klassischen Regressionsmodell mit normalverteilten Fehlern lässt sich die negative Loglikelihood mit Hilfe der Varianz σ 2 der Störterme schreiben als AIC σ = nlog(σ 2 ) + 2k, vgl. Weder EViews, R noch Stata berechnen das AIC auf die von (Greene, 2007, 143) angegebene Weise.

7 Empirische Wirtschaftsforschung 7 Beide Informationskriterien haben Vor- und Nachteile, deren Diskussion den Rahmen dieses Kapitels sprengen würde, aber das SIC bewertet den Verlust von Freiheitsgraden stärker, und bevorzugt deshalb ceteris paribus schlankere Modelle stärker als das AIC. Weder das korrigierte Bestimmtheitsmaß noch das AIC oder SIC erlauben eine statistische Abschätzung der Fehlspezifikation Ein allgemeiner Spezifkationstest: Ramsey s RESET Test RESET ist die Abkürzung für Regression Specification Error Test und wurde von Ramsey(1969) vorgeschlagen. Es ist ein Test für Spezifikationsfehler sehr allgemeiner Art, insbesondere falsche Funktionsform Endogenität, d.h. bei einer Korrelation zwischen x und u, hervorgerufen z.b. durch fehlende Variablen (omitted variables), simultane Kausalität, Messfehler in x, Autokorrelation mit verzögerten endogenen Variablen,... In diesen Fällen ist der OLS-Schätzer systematisch verzerrt und auch nicht konsistent. Heute wird der RESET Test vor allem als Test auf die korrekte Funktionsform verwendet. Ist das wahre Modell nicht-linear und wir schätzen irrtümlich eine lineare Regressionsgleichung, so wird diese nur in kleinen Bereichen die Daten adäquat abbilden. Eine Einbeziehung von Potenzen der gefitteten Werte von y würde die Qualität der Schätzung vermutlich verbessern. Auf dieser Grundidee beruht der RESET Test. Die Durchführung des Tests ist (in der einfachsten Form) simpel: 1. Schätze das Modell (z.b. y = β 1 + β 2 x 2 + ˆε) mittels OLS und berechne die gefitteten Werte von y, d.h. ŷ. 2. Schätze die ursprüngliche Gleichung und inkludiere zusätzlich (nicht-lineare) Transformationen von ŷ. Üblicherweise werden Potenzen von ŷ verwendet, also y = β 1 + β 2 x 2 + β 3 ŷ 2 + β 4 ŷ 3 + ˆε 3. Teste mittels Wald oder LR-Test, ob die Koeffizienten der Transformationen von ŷ gemeinsam signifikant von Null verschieden sind (z.b. H 0 : β 3 = β 4 = 0). Ein Vorteil des RESET-Tests besteht darin, dass das Alternativmodell nicht explizit spezifiziert werden muss. Andererseits ist der Test nicht konstruktiv und gibt keine Hinweise auf die richtige Spezifikation (vgl. (Johnston and Dinardo, 1996, 121), (Wooldridge, 2005, 308f)). In R sind mehrere Versionen dieses Tests mit dem Befehl resettest verfügbar. Beispiel in EViews:

8 Empirische Wirtschaftsforschung 8 Ramsey s RESET Test Beispiel aus Gujarati (1995) S.219 & 466 equation EQ_R.ls COST c OUTPUT EQ_R.fit COST_hat equation EQ_UR.ls COST c OUTPUT COST_hat^2 COST_hat^3 scalar F_Stat2 = ((EQ_R.@ssr - EQ_UR.@ssr)/2)/(EQ_UR.@ssr/6) scalar F_pval2 = 1-@cfdist(F_Stat2,2,6) Result: F_Stat2 = , p-val = Der niedrige p-wert ist ein starker Hinweis auf Probleme, und man sollte nach einer geeigneteren Spezifikation suchen. Der Test kann in EViews auch einfacher durchgeführt werden, indem im Equation- Menü View Stability Tests Ramsey RESET Test... die Anzahl der zu berücksichtigenden gefitteten Potenzen angegeben wird (bei 2 wird z.b. ŷ 2 und ŷ 3 einbezogen). Noch einfacher geht s mi dem Befehl eqname.reset(n) wobei eqname den Namen des Equation-Objekts und n die Anzahl der zu berücksichtigenden gefitteten Potenzen bezeichnet Test auf normalverteilte Residuen - die Jarque-Bera Statistik Wir wissen, dass die OLS-Schätzer selbst dann erwartungstreu und effizient sind, wenn die Residuen nicht normalverteilt sind. Allerdings sind die Teststatistiken dann nur noch asymptotisch gültig. Deshalb sollte man es sich zur Angewohnheit machen auch das Histogramm der Residuen einer Regression anzusehen. Wenn die Residuen normalverteilt sind, sollte das Histogram eine Normalverteilung erahnen lassen und die Jarque-Bera Statistik sollte nicht signifikant sein. Die Jarque-Bera Statistik ist ein asymptotischer Test auf Normalverteiltung einer Daten-Reihe. Im wesentlichen werden Schiefe (skewness) und Kurtosis einer Daten- Reihe mit denen der Normalverteilung (0 bzw. 3) verglichen, oder genauer JB = n k 6 (S (K 3)2 ) a χ 2 2 wobei S Skewness, K die Kurtosis, und k die Anzahl der geschätzen Koeffizienten ist, die für die Bildung Datenreihe verwendet wurden. Die Jarque-Bera Statistik dient zum Test der Null-Hypothese, derzufolge die Daten normalverteilt sind. Sie ist asymptotisch χ 2 verteilt mit 2 Freiheitsgraden. Die Nullhypothese der Normalverteilung wird verworfen, wenn die Jarque-Bera Statistik größer als der kritische Wert der χ 2 (2) Verteilung ist (bzw. der p-wert kleiner ist als das gewählte Signifikanzniveau). Da es sich um einen asymptotischen Test handelt und das 3. und 4. Moment getestet wird erfordert er meist eine wirklich große Stichprobe! Wir erinnern allerdings noch einmal, dass die Normalverteilung der Residuen keine Voraussetzung für die BLUE-Eigenschaft des OLS-Schätzers ist, die Normalverteilungsannahme ist nur für die Berechnung der Konfidenzintervalle in kleinen

9 Empirische Wirtschaftsforschung 9 Stichproben von Bedeutung (in großen Stichproben gilt der zentrale Grenzwertsatz, demzufolge die Wahrscheinlichkeitsverteilungen der OLS-Schätzer unabhängig von der zugrundeliegenden Verteilung der Störterme ε gegen eine Normalverteilung konvergiert) Strukturbruchtests Wir sind bisher von einem gegebenen Modell ausgegangen, von dem wir angenommen haben, dass es den datengenerierenden Prozess angemessen beschreiben kann. Tatsächlich ist die Welt aber dauernd im Fluss, und vermutlich werden sich zumindest über längere Zeiträume auch die Parameter ändern. Sehr häufig interessiert man sich auch, ob z.b. politische Maßnahmen, Naturereignisse oder ähnliches zu systematischen Parameteränderungen geführt haben. Für solche Fälle wurden eine Reihe von Strukturbruchtests entwickelt, von denen wir hier nur eine kleine Auswahl vorstellen werden Wiederholung: Chow Strukturbruchtest (Chow Breakpoint Test) Den klassischen Chow Test auf Strukturbrüche haben wir bereits früher kennengelernt. Bei diesem Chow Breakpoint Test wird davon ausgegangen, dass die insgesamt n Beobachtungen der Stichprobe in zwei (oder mehr) Teilstichproben ( subsamples )mitdemumfangn 1 undn 2 zerlegtwerdenkann,mitn 1 +n 2 = n.getestet wird, ob die Stichprobendaten von zwei verschiedenen datengenerierenden Prozesse erzeugt wurden oder nicht. Verglichen wird die Quadratsumme der Residuen eines restringierten Modells (ˆε rˆε r), das über alle n Beobachtungen geschätzt wird, mit der Quadratsumme der Residuen eines nicht restringierten Modells, das man erhält, indem man für jede Teilstichprobe eine eigene Regression schätzt. Die Durchführung des Tests erfolgt mittels der bereits bekannten F-Statistik (k ist wieder die Anzahl der Regressoren) Chow Breakpoint Test = (ˆε rˆε r ˆε uˆε u)/k ˆε uˆε u/(n 2k) F k,n 2k wobei man die nicht-restringierte Quadratsumme der Residuen einfach durch Addition der Quadratsummen der Residuen aus den beiden Regressionen der Teilstichproben erhält. ˆε uˆε u = ˆε 1ˆε 1 + ˆε 2ˆε 2 Getestet wird die Nullhypothese, ob die beiden Teilstichproben vom gleichen datengenerierenden Prozess erzeugt wurden. In diesem Fall würden wir erwarten, dass die Koeffizienten der Regressionen beider Teilstichproben ähnlich sind, und sich auch die Quadratsummen des restringierten und nicht restringierten Modells kaum unterscheiden werden. Ein Wert der so berechneten F-Statistik, der größer ist als der kritische Wert, führt dazu, dass die Nullhypothese verworfen werden muss. Bei Querschnittsdaten beruhen die Teilstichproben oft auf klar unterscheidbaren Gruppen (z.b. Männer & Frauen, Länder,...), aber bei Zeitreihen ist oft weniger klar, wann ein Strukturbruch stattgefunden haben könnte.

10 Empirische Wirtschaftsforschung 10 Dieser Chow Strukturbruchtest ist für Zeitreihendaten aber nur anwendbar, wenn der Zeitpunkt des Strukturbruchs a priori bekannt ist. 3 Der Quandt-Andrews Test ermöglicht einen Strukturbruchtest auch in Fällen, in denen der Zeitpunkt eines potentiellen Strukturbruchs nicht bekannt ist, und erlaubt darüber hinaus häufig zugleich Schätzung des Zeitpunktes eines möglichen Strukturbruchs Quandt-Andrews Test auf Strukturbrüche bei unbekannten Bruchzeitpunkten Die Grundidee des Quandt-Andrews Tests (auch bekannt als Quandt-Likelihood- Ratio-Statistik (QLR) oder auch sup-wald-statistik ) ist einfach. Angenommen wir vermuten, dass ein Strukturbruch zwischen zwei Zeitpunkte t 1 und t 2 stattgefunden hat; dann wird einfach für jedes Datum zwischen diesen Zeitpunkten ein Chow Strukturbruchtest durchgeführt und die entsprechende F-Statistik berechnet. Die Quandt-Andrews Statistik (QLR) ist einfach der größte Wert all dieser F Statistiken QLR = max t 1 <t<t 2 {F(t 0 ),...,F(t 1 )} Die Nullhypothese besagt, dass alle Parameter des Regressionsmodells über die Zeit konstant sind. Die Zeitpunkte t 1 und t 2 sollten nicht zu nahe am Anfang oder Ende der Zeitreihe liegen, da sonst die Eigenschaften dieses asymptotischen Tests sehr schlecht werden. Deshalb wird t 1 und t 2 häufig so gewählt, dass die ersten und letzten 7.5% der Beobachtungen, die vor t 1 bzw. nach t 2 liegen, also 15% aller Beobachtungen, ausgeschlossen werden. Diese 15% werden als trimming value bezeichnet. Allerdings ist diese Quandt-Andrews Statistik (QLR) nicht mehr F verteilt, da die größte einer Reihe von F Statistiken ausgewählt wurde. Die Verteilung hängt unter anderem von der Anzahl der getesteten Restriktionen, von den trimming Werten t 1 /T und t 2 /T, usw. ab. Andrews(1993) konnte die Verteilung dieser Statistik bestimmen und Hansen(1997) ungefähre asymptotische p Werte dazu ermitteln. Deshalb ist diese Statistik sehr einfach anzuwenden. Darüber hinaus hat sie einige nützliche Eigenschaften Ähnlich wie der Chow Strukturbruchtest kann sie für einen Test aller Regressionskoeffizienten oder für den Test einer Teilmenge der Koeffizienten verwendet werden. Der Test kann auch Hinweise auf mehrere Strukturbrüche geben. Diese sind einfach zu erkennen, indem man die Werte der Teststatistiken für die einzelnen Perioden betrachtet. Falls es einen offensichtlichen Strukturbruch gibt kann man den Zeitpunkt mit dem maximalen Wert der F Statistik als Schätzer für den Zeitpunkt des Strukturbruchs verwenden. 3 Auch bei Querschnittsdaten stellt sich dieses Problem manchmal, wenn z.b. Individuen nach dem Einkommen sortiert wurden und getestet werden sollte, ob eine bestimmte Konsumfunktion für arme und reiche Individuen gleichermaßen gilt.

11 Empirische Wirtschaftsforschung 11 Dieser Test ist in EViews im Equation Menü unter View Stability Tests Quandt- Andrews breakpoint test (oder mit dem Befehl ubreak) verfügbar. In R ist dieser und eine große Zahl weiterer Strukturbruchtests im Packet strucchange (Zeileis et al., 2002) verfügbar. Beispiel: Im Folgenden wird eine einfache Phillips Kurve für Österreich geschätzt und getestet, ob es in den Koeffizienten c (Konstante) und unr (unemployment rate) einen Strukturbruch gab. Als trimming Wert wird 15% gewählt. equation eq01.ls infl c infl(-1) infl(-4) unr eq01.ubreak c unr Dependent Variable: INFL Method: Least Squares Sample (adjusted): 1971:1 2007:2 Included observations: 146 after adjustments Variable Coefficient Std. Error t-statistic Prob. C INFL(-1) INFL(-4) UNR R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter F-statistic Durbin-Watson stat Prob(F-statistic) Die Schätzung deutet darauf hin, dass es einen negativen Zusammenhang zwischen der jährlichen Inflationsrate infl und der Arbeitslosenquote unr gibt, wie dies auch in Abbildung 14.2 ersichtlich ist. 4 Der Quandt-Andrews Test für die Konstante (c) und die Arbeitslosenquote (UNR) gibt keine Hinweise auf einen Strukturbruch dieser Koeffizienten in der untersuchten Periode (aufgrund des p Werts von kann die Nullhypothese nicht verworfen werden). 4 Achtung: die Durbin-Watson Statistik darf nicht interpretiert werden, da die Gleichung verzögerte endogene Variablen enthält.

12 Empirische Wirtschaftsforschung INFL UNR Abbildung 14.2: Zusammenhang zwischen jährlicher Inflationsrate (INFL) und Arbeitslosenquote (UNR) für Österreich 1971:1 2007:2 (Quartalsdaten). Quandt-Andrews unknown breakpoint test Null Hypothesis: No breakpoints within trimmed data Varying regressors: C UNR Equation Sample: 1971:1 2007:2 Test Sample: 1976:3 2001:4 Number of breaks compared: 102 Statistic Value Prob. Maximum LR F-statistic (1984:3) Maximum Wald F-statistic (1984:3) Exp LR F-statistic Exp Wald F-statistic Ave LR F-statistic Ave Wald F-statistic Note: probabilities calculated using Hansen s (1997) method Chow s Forecast Test Sowohl der klassische Chow Strukturbruchtest als auch der Quandt-Andrews Test sind nur anwendbar, wenn beide Teilstichproben groß genug sind um getrennte Regressionen für beide Teilstichproben rechnen zu können, bzw. bei Zeitreihen, wenn der mögliche Strukturbruch nicht sehr nahe am Anfang oder Ende der Zeitreihe vermutet wird. Chow s Forecast Test ist auch in Fällen anwendbar, wenn ein Subsample zu klein ist um eine Regression für dieses Teilstichprobe zu rechnen, z.b. wenn n 2 < k. Die Nullhypothese bei Chow s Forecast Test ist ebenfalls, dass der wahre Koeffizientenvektor β für beide Gruppen/Perioden gleich ist.

13 Empirische Wirtschaftsforschung 13 Die Idee besteht darin, die Regression nur für die größere Teilstichprobe zu rechnen, mit Hilfe dieser Regression Prognosen für die kleinere Teilstichprobe zu erstellen, und die Prognosefehler für einen Strukturbruchtest zu verwenden. Konkret hat Chow gezeigt, dass Chow Forecast Test = 1 n 2 n2 j=1 (Prognosefehler j) 2 n1 i=1 ˆε2 i 1 n 1 k 1 F(n 2,[n 1 k 1]) Man kann zeigen, dass dieser Test auch einfacher berechnet werden kann (siehe Johnston & DiNardo 1997, S. 113ff): 1. Schätze das Modell über die ersten n 1 Beobachtungen (das erste Subsample) undberechnedarausdienicht-restringiertequadratsummederresiduen ˆε uˆε u. 2. Schätze das Modell über alle n 1 + n 2 Beobachtungen (also über beide Subsamples) und berechne daraus die restringierte Quadratsumme der Residuen ˆε rˆε r. 3. Teste die Nullhypothese, dass kein Strukturbruch stattgefunden hat, mit F FC n 2,n 1 k = (ˆε rˆε r ˆε uˆε u)/n 2 ˆε uˆε u/(n 1 k) Dieser Test ist in EViews im Equation-Menü unter View Stability Test Chow forecast test verfügbar Rekursiv geschätzte Parameter und Rolling Regressions Rekursive Schätzungen werden häufig herangezogen um die Strukturstabilität von Modellen zu beurteilen. Dabei werden Regressionen über jeweils unterschiedliche Stichprobenbereiche gerechnet. Bei rekursiven Parameterschätzungen ( Recursive Estimates ) wird die erste Regression über die ersten k (oder k +1) Beobachtungen gerechnet, und für jede weitere Regression wird jeweils eine weitere Beobachtung dazugenommen. Man erhält also eine Folge von T k Schätzungen β t für jeden Parameter β, wobei der Subindex t die Anzahl der berücksichtigten Beobachtungen angibt. Wenn die Parameterschätzungen mit zunehmender Beobachtungszahl stark schwanken ist dies ein Anzeichen für Instabilität und könnte ein Hinweis auf Strukturbrüche sein. In EViews können Graphiken solcher rekursiv geschätzten Parameter im Equation- Menü unter View Stability Test Recursive Estimates Recursive Coefficients produziert werden. Rolling Regressions funktionieren ähnlich, aber es wird eine fixe Fensterbreite verwendet, d.h. es werden Anfangs- und Endzeitpunkt für die Schätzung werden

14 Empirische Wirtschaftsforschung 14 verschoben (bei den rekursiv geschätzten Parametern wird nur der Endzeitpunkt verschoben). Auf finden Sie ein kurzes EViews Programm, das eine Grafik der geschätzten Parameter erzeugt. Einen typischen Output dieses Programms finden Sie in Abbildung 14.3 (S. 14). Rolling Regressions of Equation "eq01" with window size b3-2*stderr(b3) Estimates of b3 b3 + 2*stderr(b3) Abbildung 14.3: Output des Programms RollReg.prg Rekursiv geschätzte Residuen; CUSUM und CUSUMSQ Tests Eine ganze Reihe von Spezifikationstests beruhen auf den geschätzten Residuen ˆε. Von den Störtermen der Grundgesamtheit ε haben wir angenommen, dass ε i N(0,σ 2 ). Leider impliziert dies nicht, dass die geschätzten Residuen ebenfalls normalverteilt sind mit Mittelwert 0 und Varianz σ 2, da diese auch von den x-variablen abhängen. Dies kann einfach mit Hilfe der Projektionsmatrix P = X(X X) 1 X und der residuenerzeugenden Matrix M = I P gezeigt werden. Wir erinnern uns und aufgrund der Idempotenz von M ist ˆε = My = Mε = (I P)ε E(ˆεˆε ) = σ 2 M = σ 2 (I P) Einige der daraus resultierenden Probleme können mit Hilfe rekursiver Residuen gelöst werden. Das nicht-standardisierte rekursive Residuum (oder one-step ahead prediction error ) ist definiert als ν t = y t x tˆβ t 1

15 Empirische Wirtschaftsforschung 15 wobei ˆβ t 1 auf Grundlage der Beobachtungen 1,...t 1 berechnet wurde (also ohne Beobachtung t,t+1,...,t). Die Varianz dieses one-step ahead prediction error ist var(ν t ) = σ 2 (1+x t(x t 1X t 1 ) 1 x t ) Deshalb ist das (standardisierte) rekursive Residuum für Beobachtung y t definiert als y t x w t = tˆβ t 1 1+x t (X t 1X t 1 ) 1 x t Wenn die Parameter des Modells konstant und die Störterme normalverteilt sind gilt für den T k Vektor der rekursiven Residuen w N(0,σ 2 I) Die rekursiven Residuen können mit den Konfidenzintervallen (rekursives Residuum plus/minus zwei Standardfehler) geplottet werden (z.b. in EViews im Equation Menü unter View Stability Test Recursive Estimates Recursive Residuals). Recursive Residuen, die außerhalb der Konfidenzintervalle liegen, deuten auf eine Instabilität der Parameter hin. Rekursive Residuen werden auch für den CUSUM-Test verwendet. Der CUSUM- Test ist ein Strukturbruchtest, dessen großer Vorteil gegenüber dem klassischen Chow Breakpoint Test darin besteht, dass ähnlich wie beim Quandt-Andrews Test der Zeitpunkt des Strukturbruchs nicht a priori bekannt sein muss. Er beruht auf einer Summe der rekursiven Residuen t W t = w j /ˆσ 2, t = k +1,...,T j=k+1 wobei ˆσ 2 = ˆε ˆε/(T k) die Quadratsumme der Residuen der Regression auf alle T Beobachtungen ist. Wenn die Parameter konstant sind ist E(W t ) = 0, wenn aber die Parameter nicht konstantsindwirdsichw t immerweitervondernull-linieentfernen.diesignifikanz kann mit Hilfe zweier Linien beurteilt werden, die durch die Punkte (k,±a n k) und (n,±3a n k) gehen (a ist ein Parameter, der vom gewählten Signifikanzniveau abhängt; für ein Signifikanzniveau α = 0.05 ist z.b. a = 0.948; für Details siehe z.b. Johnston and Dinardo (1996, 118ff). Abbildung 14.4 zeigt die Linien und Abbildung 14.5 ein EViews Beispiel. In EViews ist die Grafik im Equation Menü unter View Stability Test Recursive Estimates CUSUM-Test verfügbar. In R sind im Packet strucchange (Zeileis et al., 2002) mit dem Befehl efp (für empirical fluctuation processes ) eine Reihe von Methoden verfügbar, siehe (Kleiber and Zeileis, 2008, 171). Der CUSUMSQ Test funktioniert im Prinzip ähnlich, reagiert aber empfindlicher auf Instabilität in der Varianz (vgl. Johnston and Dinardo, 1996, 119f).

16 Empirische Wirtschaftsforschung 16 W t 3a T K a T K a T K K T t 3a T K Abbildung 14.4: CUSUM Test: Signifikanzniveaus CUSUM 5% Significance Abbildung 14.5: CUSUM Test: EViews Output 14.6 Erkennung von Ausreißern: Leverage, Studentized Residuals und DF-Betas Einzelne Beobachtungen können einen großen Einfluss auf ein Regressionsergebnis haben, da OLS die Abweichungen quadratisch gewichtet. Speziell wenn die Beobachtungen weit entfernt vom Mittelwert liegen können Sie Steigungskoeffizienten stark von einer einzelnen Beobachtung beeinflusst sein. Es ist nahe liegend, die Residuen einer Regression als Indikator für extreme Beobachtungen zu verwenden. Allerdings sind die Residuen selbst dann nicht identisch

17 Empirische Wirtschaftsforschung 17 und unabhängig verteilt, wenn die Störterme i.i.d. sind. Wir erinnern uns, dass für var(ε i X) = σ 2 I die Varianz-Kovarianzmatrix der Residuen var(ˆε i X) = σ 2 (I P) = σ 2 (M) wobei P = X(X X 1 X die Projektionsmatrix (auch Hut-Matrix genannt) und M = I P die residuenerzeugenden Matrix ist. Wenn wir das i-te Diagonalelement der Projektionsmatrix P mit h ii bezeichnen können wir für ein einzelnes Residuum schreiben var(ˆε i X) = σ 2 (1 h ii ), das bedeutet, die Varianz von ˆε i wird umso kleiner sein, je größer h ii ist. Weil Residuen mit einem großen h ii klein sein werden, d.h. nahe bei Null liegen, wird h ii häufig leverage von Beobachtung i genannt. In die Berechnung der h ii gehen nur die erklärenden Variablen X ein, nicht aber die y. Deshalb ist der Leverage eine Maßzahl, inwieweit eine erklärende Beobachtung x ih vom Mittelwert vom Mittelwert x h abweicht. Man kann zeigen, dass die Spur der Projketionsmatrix P gleich k ist ( i h ii = k) und 0 h ii 1. Der Durchschnitt der Leverages ist k/n, und Beobachtungen mit einem Leverage h ii > 2k/n werden als leverage points (Hebelpunkte) bezeichnet. Punkte mit einem großen ˆε i und großen h ii sollten eventuell näher betrachtet werden. Durch die Minimierung der Quadratsumme der Residuen erhalten extreme Beobachtungen einen überproportional großen Einfluss auf die Lage der Regressionsgeraden. Deshalb kann es passieren, dass das Residuum einer extremen Beobachtung nicht sehr groß ist und deshalb nicht auffällt. Abbildung 14.6 zeigt das Problem. Die durchgezogene Regressionsgerade wurde für alle Beobachtungen berechnet, die strichlierte Regressionsgerade wurde unter Auslassung der extremen Beobachtung berechnet. Offensichtlich hat Die letzte (am weitesten rechts liegenden) Beobachtung einen großen Einfluss auf Regressionsgerade hat kann es passieren, dass das berechnete Residuum nicht sehr groß ist und nicht auffällt. Ein Studentized Residual ε i wird für jede Beobachtung i einzeln berechnet, indem für jedes i-te Studentized Residual eine eigene Regressionsgerade unter Auslassung der i-ten Beobachtung geschätzt wird. Die strichlierte Regressionsgerade in Abbildung 14.6 wurde unter Auslassung der am weitesten rechts liegenden Beobachtung berechnet. Das dazugehörige Residuum ε i ist deutlich größer. Wenn man das so ermittelte Residuum durch den Standardfehler der Schätzung (= ˆε ˆε/(n k)) dividiert ist dieses standardisierte Studentized Residual ε i asymptotisch t-verteilt. Werte der Residuen von größer als ca. 2 (bzw. dem entsprechenden Wert aus der t Tabelle) können als Ausreißer angesehen werden. Also ε i = [y i β(i)x i ] ˆσ(i) wobei die β(i) und ˆσ i (i) jeweils unter Auslassung der i-ten Beobachtung berechnet werden. Eine alternative Art der Berechnung erhält man, wenn man sich die Bedeutung einer Dummy überlegt, die jeweils für die i-te Beobachtung den Wert 1 annimmt

18 Empirische Wirtschaftsforschung 18 y ε i ˆε i x Abbildung 14.6: Studentized Residuals (i = 1,...,n), und sonst Null ist. Da die Regression in diesem Falle immer durch den Punkt i geht ist das Residuum dieser Beobachtung Null, aber der Koeffizient der Dummy dividiert durch die Standardabweichung ist genau das studentized residual der i-ten Beobachtung. Dies ist natürlich die übliche t-statistik der Dummy- Variable, woraus man auch gleich erkennen kann, dass die studentized residuals t-verteilt sind. Man schätzt also insgesamt n Regressionen (mit i = 1,...,n), wobei die Dummy-Variable in der ersten Regression für die erste Beobachtung gleich 1 ist und Null sonst, bei der zweiten Regression für die zweite Beobachtung gleich 1 ist und Null sonst, usw. Abbildung 14.7 zeigt die Studentized Residuals der Daten, die Abbildung 14.6 zugrunde liegen. Eine weniger rechenintensive Möglichkeit zur Berechnung der studentized residuals existiert mit Hilfe der residuenerzeugenden Matrix M. Man kann zeigen, dass ˆε i /m ii = y i x iβ(i), wobei β(i) der Koeffizientenvektor ist, der unter Auslassung der i-ten Beobachtung berechnet wird (siehe Greene, 2002, 60f). Dies wird von den meisten Programmen zur Berechnung der leave one out Residuen verwendet. Wenn man sich einen Eindruck vom Einfluss von Ausreißern bzw. einzelnen einflussreichen Beobachtungen auf das Regressionsergebnis machen möchte kann man eine Regression unter Ausschluss aller identifizierten Ausreißer rechnen und die Resultate mit einer Regression auf alle Beobachtungen vergleichen. Der Ausschluss der Ausreißer kann in EViews mit einem einfachen if studres < 2 erreicht werden, wobei studres die Datenreihe mit den Studentized Residuals ist. Wenn Ausreißer ein echtes Problem darstellen sollte die Anwendung eines robusten Schätzverfahrens, z.b. eines LAD Schätzers ( Least Absolute Deviation ) in Betracht gezogen werden. Die daraus folgende Regressionsgerade kann als bedingter Median von y i für ein gegebenes x i interpretiert werden. Dieser kann als Spezialfall einer Quantil-Regression betrachtet werden. Daneben existieren zahlreiche weitere robu-

19 Empirische Wirtschaftsforschung 19 3 Possible Outliers of Equation eq Abbildung 14.7: Studentized Residuals von Abbildung 14.6 ste Schätzmethoden, die weniger empfindlich gegen Ausreißer reagieren, z.b. LTS ( Least Trimmed Squares ), die manchmal günstigere Eigenschaften haben. Schwieriger zu rechtfertigen ist die Elimination von Ausreißern. Generell sollten Ausreißer nur dann eliminiert werden, wenn man eine gute (theoretische) Begründung dafür hat. Falls man sich letztendlich entschließen sollte allfällige Ausreißer zu entfernen, dann sollte dies eher mit Hilfe von Dummy-Variablen erfolgen, da dies für Leser eher nachvollziehbar ist. Dazu wird für jeden Ausreißer eine eigene Dummyvariable angelegt, die für die Beobachtung des Ausreißers den Wert 1 hat und überall sonst den Wert Null. DF-Betas dienen dazu, den Einfluss einer einzelnen Beobachtung auf die Koeffizienten zu erkennen. Auch sie werden jeweils unter Auslassung der i-ten berechnet DF-Beta h (i) = [ β h β h (i)] ˆσ βh (i) wobei β h (i) (ˆσ βh (i)) der unter Auslassung der i-ten Beobachtung berechnete Koeffizient (Standardfehler) ist. Sie lassen den Einfluss einzelner Beobachtungen auf die geschätzten Koeffizienten erkennen (vgl. Pindyck and Rubinfeld, 1997, 191f). Eine ganze Reihe von Statistiken, die den Einfluss einzelner Beobachtungen messen, sind in allen gängigen Softwarepaketen implementiert. In EViews steht z.b.

20 Empirische Wirtschaftsforschung 20 der Befehl infstats zur Verfügung, ausführliche Erläuterungen finden sich in der Online-Hilfe in den Kapiteln Influence Statistics bzw. Stability Diagnostics. In R steht u.a. der Befehl influence.measures(lmobj), zur Verfügung. Kleiber and Zeileis (2008, Chap. 4) geben eine konzise Einführung. Eine gute Übersicht über die Methoden, die in Stata zur Verfügung stehen, findet sich z.b. auf Test auf funktionale Form nach MacKinnon, White & Davidson Die ökonomische Theorie gibt nur selten Hinweise auf die wahre Funktionsform. Deshalb scheint es empfehlenswert, aus den Daten auf eine geeignete Funktionsform zu schließen. Der folgende asymptotische Test von Davidson and MacKinnon (1981) kann die Entscheidung zwischen einem linearen und einem log-linearen Modell erleichtern (vgl. z.b. Wooldridge 2000, S. 283f; Gujarati S. 265). Dazu wird von zwei Nullhypothesen ausgegangen: H 1 0: Lineares Modell: y ist eine lineare Funktion der x H 2 0: Log-lineares Modell: ln(y) ist eine lineare Funktion von ln(x) Durchführung des Tests: 1. Schätze das lineare Modell y = α 1 + α 2 x+ˆε 1 und speichere die gefitteten Werte ŷ in einer Variable, z.b. ŷ linfit. 2. Schätze das log-lineare Modell ln(y) = β 1 + β 2 ln(x) + ˆε 2 und speichere die gefitteten Werte lny in einer Variable, z.b. ŷ logfit. 3. Berechne v = ln(ŷ linfit ) ŷ logfit 4. Regressiere y auf die x und v von oben, d.h. y = γ 1 + γ 2 x+ γ 3 v + ˆε 3 verwirf H 1 0, d.h. die lineare Funktionsform, wenn der Koeffizient von v (d.h. γ 3 ) statistisch signifikant von Null verschieden ist. 5. Berechne w = exp(ŷ logfit ) ŷ linfit 6. Regressiere ln(y) auf die ln(x) und w von oben, d.h. ln(y) = δ 1 + δ 2 ln(x)+ δ 3 w+ ˆε 4 verwirf H 2 0, d.h. die log-lineare Funktionsform, wenn der Koeffizient von w (d.h. δ 3 ) statistisch signifikant von Null verschieden ist. Beispiel in EViews:

21 Empirische Wirtschaftsforschung 21 Test Funktionale Form (MacKinnon, White & Davidson) Beispiel aus Gujarati (1995) S.219 equation EQ_Lin.ls COST c OUTPUT EQ_Lin.fit COST_hat series lncost series lnoutput equation EQ_Log.ls lncost c lnoutput EQ_Log.fit lncost_hat series V - lncost_hat equation EQ_Lin.ls COST c OUTPUT V series W - Cost_hat equation EQ_Log.ls lncost c lnoutput W Dieses Programm liefert folgenden Output: bzw. Dependent Variable: COST Included observations: 10 Variable Coefficient Std. Error t-statistic Prob. C OUTPUT V R-squared Durbin-Watson stat Dependent Variable: LNCOST Included observations: 10 Variable Coefficient Std. Error t-statistic Prob. C LNOUTPUT W R-squared Durbin-Watson stat Offensichtlich kann die Hypothese einer linearen Funktionsform nicht verworfen werden (der Koeffizient von V ist nicht signifikant), während die Hypothese einer log-linearen Funktionsform auf einem Signifikanzniveau von 1.1% verworfen werden kann. In diesem Fall wissen wir, dass die tatsächliche Funktionsform kubisch ist, also beide Funktionsformen fehlspezifiziert sind. Aber offensichtlich sind wir nicht in der Lage die lineare Funktionsform zu verwerfen. Die Durbin-Watson Statistik von sollte uns allerdings trotzdem skeptisch stimmen! Achtung:DiebeidenR 2 dergleichungensindnichtvergleichbar,dasichdieabhängigen Variablen unterscheiden!

22 Empirische Wirtschaftsforschung Davidson MacKinnon J-Test Manchmal lässt sich die Null-Hypothese nicht als Restriktion (bzw. Spezialfall) der Alternativhypothese darstellen ( non-nested hypothesis ). Für diesen Fall haben Davidson and MacKinnon (1993) einen asymptotischen Test vorgeschlagen. Die Idee ist einfach: wenn das Modell richtig spezifiziert ist sollten die gefitteten Werte des Alternativmodells keinen Erklärungsbeitrag mehr leisten. Angenommen, wir wollen uns zwischen den beiden folgenden Spezifikationen einer Konsumfunktion entscheiden: 5 H 1 : CS t = α 1 +α 2 GDP t +α 3 GDP t 1 +u t H 2 : CS t = β 1 +β 2 GDP t +β 3 CS t 1 +u t Um die Spezifikationen H 1 gegen H 2 zu testen schätzen wir zuerst Modell H 2 und speichern die gefitteten Werte davon z.b. in CS2. In EViews: equation eq_cs2.ls cs c gdp cs(-1) eq_cs2.fit cs2 AnschließendschätzenwirModellH 1 undinkludierenzusätzlichdiegefittetenwerte CS2. Das Resultat ist Dependent Variable: CS Method: Least Squares Included observations: 191 after adjusting endpoints Variable Coefficient Std. Error t-statistic Prob. C GDP GDP(-1) CS Da die gefitteten Werte des Modells H 2 signifikant in Modell H 1 eingehen können wir Modell H 1 verwerfen. Um H 2 gegen H 1 zu testen schätzen wir Modell H 1 und speichern die gefitteten Werte davon in CS1. Anschließend schätzen wir Modell H 2 und inkludieren CS1 in diese Schätzung. Der EViews-Output dieser Schätzung ist Dependent Variable: CS Method: Least Squares Variable Coefficient Std. Error t-statistic Prob. C GDP CS(-1) CS das Beispiel entstammt dem EViews Handbuch: Specification and Diagnostic Tests

23 Empirische Wirtschaftsforschung 23 Da auch der Koeffizient von CS1 signifikant von Null verschieden ist müssen wir auch Modell H 2 verwerfen, offensichtlich enthalten die Daten nicht genügend Informationen um zwischen diesen Modellen diskriminieren zu können. Wenn wir den Koeffizienten von CS2 mit α 4 und den Koeffizienten von CS1 mit β 4 bezeichnen sind folgende Fälle sind möglich: Hypothese: α 4 = 0 Hypothese: β 4 = 0 nicht verwerfen verwerfen nicht verwerfen akzeptiere H 1 und H 2 verwirf H 1, akzeptiere H 2 verwerfen akzeptiere H 1, verwirf H 2 verwirf H 1 und H 2 Übungsaufgaben: Berechnen Sie eine Monte Carlo Analyse für ein Modell mit Messfehler. Das wahre Modellseiy i = 1+x i1 +x i2 +ε i mitε i N(0,1)(d.h.β 1 = β 2 = β 3 = 1). x 1 sei ein Trend, und x 2 = x 1 (x 1 und x 2 sind also korreliert). Anstatt von x 2 sei nur eine Variable z i = x i2 +υ i mit υ i N(0,1) beobachtbar. Führen Sie diese Monte Carlo Analyse für n = 10, n = 20 und n = 100 durch (jeweils 1000 Durchgänge) und plotten Sie die Histogramme der geschätzten Parameter. Führen Sie eine ähnliche Monte Carlo Analyse für omitted & redundant variables durch. Literaturverzeichnis Andrews, D. W. K. (1993), Tests for parameter instability and structural change with unknown change point, Econometrica 61(4), Danilov, D. and Magnus, J. R. (2004), On the harm that ignoring pretesting can cause, Journal of Econometrics 122(1), URL: Davidson, R. and MacKinnon, J. G. (1981), Several tests for model specification in the presence of alternative hypotheses, Econometrica 49(3), Davidson, R. and MacKinnon, J. G. (1993), Estimation and Inference in Econometrics, Oxford University Press, USA. Greene, W. H. (2002), Econometric Analysis (5th Edition), 5th edn, Prentice Hall. Greene, W. H. (2007), Econometric Analysis, 6th edn, Prentice Hall. Hansen, B. E.(1997), Approximate asymptotic p values for structural-change tests, Journal of Business & Economic Statistics 15(1), Hendry, D. F. (1995), Dynamic Econometrics (Advanced Texts in Econometrics), Oxford University Press, USA.

24 Empirische Wirtschaftsforschung 24 Johnston, J. and Dinardo, J. (1996), Econometric Methods, 4 edn, McGraw- Hill/Irwin. Kleiber, C. and Zeileis, A. (2008), Applied Econometrics with R (Use R!), 2008 edn, Springer. Leamer, E. E. (2007), A Flat World, a Level Playing Field, a Small World After All, or None of the Above? A Review of Thomas L Friedman s The World is Flat, Journal of Economic Literature 45(1), Lovell, M. C. (1983), Data mining, The Review of Economics and Statistics 65(1), Pindyck, R. S. and Rubinfeld, D. L. (1997), Econometric Models and Economic Forecasts, 4 edn, McGraw-Hill/Irwin. Ramsey, J. B. (1969), Tests for specification errors in classical linear least squares regression analysis, Journal of the Royal Statistical Society, Series B 31, Verbeek, M. (2014), Moderne Ökonometrie, 1 edn, Wiley-VCH. Wooldridge, J. (2005), Introductory Econometrics: A Modern Approach, 3 edn, South-Western College Pub. Zeileis, A., Leisch, F., Hornik, K. and Kleiber, C. (2002), strucchange: An R Package for Testing for Structural Change in Linear Regression Models, Journal of Statistical Software 7(2), URL:

25 Anhang A Test auf allgemeine lineare Restriktionen in Matrixschreibweise Wie schon erwähnt beruhen sehr viele Tests in der Ökonometrie auf einem Vergleich zwischen einem restringiertem Modell und einem nicht-restringierten Modell, wobei das restringierte Modell als Spezialfall des nicht-restringierten Modells dargestellt werden kann (sogenannte nested Tests). Im Folgenden wollen wir eine allgemeinere Art lineare Restriktionen abzubilden darstellen. Wir werden gleich sehen, dass sich lineare Hypothesen immer in der Form Rβ = r anschreiben lassen, wobei die Matrix R aus Konstanten besteht, die aus der Nullhypothese folgen, und die Dimension q k hat (q ist die Anzahl der Restriktionen und k die Anzahl der geschätzten Koeffizienten). Der Vektor r hat die Dimension q 1 und besteht ebenfalls aus Konstanten, deren Wert(e) aus der Nullhypothese folgen. Beispiele: Das Modell sei y i = β 1 +β 2 x i2 +β 3 x i2 +ε i Die Nullhypothese H 0 : β 2 = c (wobei c eine beliebige Konstante ist) kann mit R = [0 1 0] und r = c (also ein Skalar) angeschrieben werden als Rβ = [ ] β 1 β 2 = c = r β 3 bzw. β 2 = c mit q = 1 (eine Restriktion). H 0 : β 2 +β 3 = 1: R = [ ], r = 1, q = 1 25