Nachtrag Kapitel 3: Marginale Effekte

Ähnliche Dokumente
Marginale Effekte & nichtlineare Funktionsformen

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Empirische Wirtschaftsforschung

Dynamische Modelle: Schätzen und Modellwahl

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Statistik II Übung 2: Multivariate lineare Regression

Annahmen des linearen Modells

Das Lineare Regressionsmodell

Das lineare Regressionsmodell

Statistik II Übung 2: Multivariate lineare Regression

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Bivariate Zusammenhänge

Übungsblatt 10: Lineare Regression (Sitzung 11)

Prognoseintervalle für y 0 gegeben x 0

Kurs Empirische Wirtschaftsforschung

Übung V Lineares Regressionsmodell

Zusammenfassung: Einfache lineare Regression I

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Lineare Modelle in R: Klassische lineare Regression

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Vorlesung 4: Spezifikation der unabhängigen Variablen

Empirische Wirtschaftsforschung

1 Einführung Ökonometrie... 1

Analyse von Querschnittsdaten. Signifikanztests I Basics

Ziel der linearen Regression

1. Lösungen zu Kapitel 7

Statistik II Übung 1: Einfache lineare Regression

Vorlesung 3: Schätzverfahren

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Marginale Effekte und nichtlineare Funktionsformen

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

2.8.2 Interpretation der Koeffizienten logarithmierter Variablen Wann logarithmieren? Quadratische Modelle

Statistik II Übung 2: Multivariate lineare Regression

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

Statistik II Übung 1: Einfache lineare Regression

Statistische Eigenschaften der OLS-Schätzer, Residuen,

Heteroskedastie. Test auf Heteroskedastie. Heteroskedastie bedeutet, dass die Varianz der Residuen in der Stichprobe nicht konstant ist.

Wiederholungsübungen zu den Kapiteln 7 bis 11

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Empirical Banking and Finance

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Das Identifikationsproblem

Diagnostik von Regressionsmodellen (1)

1 Beispiel zur Methode der kleinsten Quadrate

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Multiple Regressionsanalyse - Kurzabriss

Die Regressionsanalyse

Multiple Regression. Statistik II

Analysen politikwissenschaftlicher Datensätze mit Stata. Sitzung 5: Lineare Regression

6.4 Kointegration Definition

Econometrics Übung 1. CLRM & Verletzung der Unabhängigkeitsannahme

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Kapitel 9. Multikollinearität. 9.1 Problem. God abhors a naked singularity. (Stephen Hawking)

Inferenz im multiplen Regressionsmodell

Kapitel 4. Zensierte (censored) und gestutzte (truncated) abhängige Variablen, Sample Selection

Lineare Regression in R, Teil 1

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Vorlesung: Statistik II für Wirtschaftswissenschaft

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Auswertung und Lösung

Empirische Analysen mit dem SOEP

Mikro-Ökonometrie, WS 15/16 Musterlösung Aufgabenblatt 3

Dynamische Modelle: Stabilität und Interpretation

Regression III. Statistik I. Sommersemester Wiederholung. Zwei unabhängige Variablen Multivariate Zusammenhänge Interaktion.

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Bivariate Regressionsanalyse

Datenanalyse mit Excel und Gretl

Das multiple lineare Regressionsmodell

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

5 Multivariate stationäre Modelle

Analyse von Querschnittsdaten. Statistische Inferenz

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

» S C H R I T T - F Ü R - S C H R I T T - A N L E I T U N G «M U L T I P L E L I N E A R E R E G R E S S I O N M I T S P S S / I B M Daniela Keller

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Zeitreihenanalyse. Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. PROGNOSE II - Vertiefung Aufgaben und Lösungen Sommersemester 2004

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

VS PLUS

Lineare Regression II

Hypothesentests mit SPSS

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Bivariate Analyseverfahren

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse III: Diagnostik

Transkript:

Tabelle 3.1: Preise von Gebrauchtautos. Abh.Var.: Preis (1) (2) (3) Const. 23183.613 23521.484 20460.096 (377.445) (385.394) (435.275) Alter 2202.768 2757.766 (217.994) (128.276) km 0.022 0.081 (0.007) (0.006) R-squared 0.902 0.887 0.731 N 61 61 61 Nachtrag Kapitel 3: Marginale Effekte Die Interpretation der Steigungskoeffizienten als marginaler Effekt gilt allerdings nur, falls wir das Regressionsmodell korrekt spezifiziert haben. Falls wir eine wichtige erklärende Variable im Regressionsmodell nicht berücksichtigt haben, die mit einer berücksichtigten Variable korreliert ist, führt die Interpretation als marginaler Effekt zu falschen Schlussfolgerungen. Kehren wir nochmals zurück zu unserem Autobeispiel. Angenommen die korrekte Spezifikation sei Preis = β 1 + β 2 Alter + β 3 km + ε. Spalte (1) in Tabelle 3.1 zeigt das Ergebnis dieser Schätzung, dagegen zeigt Spalte (2) das Ergebnis einer Regression nur auf das Alter, und Spalte (3) das Ergebnis einer Regression nur auf den Kilometerstand. In beiden Fällen erhalten wir im falsch spezifizierten Modell absolut gesehen deutlich größere Steigungskoeffizienten als im korrekt spezifizierten Modell. Was ist passiert? Wenn wir nur auf das Alter regressieren misst der Steigungskoeffizient nicht nur den Einfluss des Alters, sondern indirekt auch den Einfluss des nicht berücksichtigten Kilometerstands. Da das Alter und der Kilometerstand von Gebrauchtautos üblicherweise positiv korreliert sind, überschätzen wir den Einfluss des Alters, ein Teil des Preisverlusts ist auf den durchschnittlich höheren Kilometerstand älterer Autos zurückzuführen. Einen intuitiven Einblick gibt das Venn Diagramm in Abbildung 3.4. Die Streuung der Variablen Preis, Alter und Kilometerstand wird durch Kreise symbolisiert, und die Korrelation zwischen den Variablen durch die Überschneidungen der Kreise. Im korrekt spezifizierten Modell (linkes Panel) geht die Fläche A in die Schätzung des Koeffizienten für das Alter ein und die Fläche B in die Schätzung des Koeffizienten für den Kilometerstand. Die Überschneidungsfläche C, die aus der Korrelation zwischen Alter und Kilometerstand resultiert, kann nicht klar einer der Variablen zugeordnet werden, und geht deshalb nicht in die Schätzung der Steigungskoeffizienten ein (sehr wohl aber in das R 2 ). Anders im Fall des falsch spezifizierten Modell im rechten Panel. Wenn das Alter nicht als erklärende Variable berücksichtigt wird, gehen die Flächen B und C in die Schätzung des Koeffizienten für den Kilometerstand ein, die Fläche C zumindest 7

Preis Preis A C B A C B Alter km Alter km Preis = β 1 + β 2 Alter+ β 3 km Preis = β 1 + β 2km Abbildung 3.4: Korrektes und fehlspezifiziertes Modell. Im korrekt spezifizierten Modell (linkes Panel) geht die Überschneidungsfläche C nicht in die Schätzung der Steigungskoeffizienten ein. Falls das Alter fälschlich nicht berücksichtigt wird geht die Fläche C in die Schätzung des Koeffizienten für den Kilometerstand ein ( Omitted Variables Bias, rechtes Panel). teilweise zu unrecht, da diese auch dem nicht berücksichtigten Alter zuzuschreiben ist. Dies gibt dem Kilometerstand fälschlich eine größere Bedeutung als ihm eigentlich zukommt, da er zum Teil auch den Effekt des nicht berücksichtigten Alters mit einfängt! Die Folgen sind gravierend, der Koeffizient des Kilometerstands misst nicht länger den korrekten marginalen Effekt, sondern ist gewissermassen verschmutzt durch die fälschlich nicht berücksichtigte Variable Alter. Deshalb erhalten wir einen weit überhöhten Preisverlust von 8 Cent pro Kilometer anstelle der korrekten 2 Cent, die bei einer Berücksichtigung von Kilometerstand und Alter resultieren. Analoges gilt, wenn wir nur auf das Alter regressieren und den Kilometerstand nicht berücksichtigen. In diesem Fall würden wir einen Teil des Preisverlustes, der eigentlich Kilometerstand zuzuschreiben ist, zu unrecht dem Alter zuschreiben. Dieses Problem ist in die Literatur als Omitted Variables Bias bekannt und wird uns später noch ausführlich beschäftigen. Hier sei nur vorausgeschickt, dass ein Omitted Variables Bias nur dann auftreten kann, wenn der fehlende Regressor sowohl mit der abhängigen Variable y als auch mit dem berücksichtigten Regressor x korreliert ist. Das linke Panel des Venn Diagramms in Abbildung 3.4 kann uns noch eine weitere Einsicht vermitteln. Wenn die Regressoren Alter und Kilometerstand sehr hoch korreliert sind führt dies dazu, dass die Überschneidungsfläche C sehr groß wird, und die Flächen A und B entsprechend klein werden. Da aber nur die die Flächen A und B in die Schätzung der Koeffizienten eingehen, wir die Schätzung entsprechend ungenau, dies führt im wesentlichen zum genau gleichen Problem wie eine (zu) kleine Stichprobe. Dieses Problem einer hohen Korrelation zwischen den erklärenden Variablen wird in der Ökonometrie Multikollinearität genannt und wird später noch ausführlich diskutiert. 8

Im Extremfall, wenn die Regressoren Alter und Kilometerstand perfekt korreliert sind (d.h. corr(alter, km) = 1) liegen die Kreise für Alter und Kilometerstand aufeinander, und die Koeffizienten können nicht mehr geschätzt werden, bzw. sind nicht mehr definiert. Dieser Extremfall wird perfekte Multikollinearität genannt. 3.1.1 Partielle Regression und das Frisch-Waugh-Lovell (FWL) Theorem Bereits in der allerersten Ausgabe der Econometrica (1933) haben Frisch und Waugh auf eine interessante Eigenschaft der multiplen Regression hingewiesen, die uns ein tieferes Verständnis für die Interpretation der Regressionskoeffizienten geben kann. Diese Einsicht beruht darauf, dass die OLS Methode im wesentlichen eine Zerlegungsmethode ist, eine abhängige Variable y wird in eine systematische Komponente ŷ und in die damit unkorrelierten Residuen ˆε zerlegt. Bleiben wir bei dem Beispiel mit den Gebrauchtautos. Wenn wir den Preis nur auf den km-stand regressieren, also Preis = ˆγ 1 + ˆγ 2 km+ ˆε P enthalten die Residuen ˆε P alle Komponenten des Preises, die nicht mit dem Kilometerstand korreliert sind. Wir können uns vorstellen, dass wir die OLS Regression dazu nützen, um aus der Preis-Variable alle linearen Effekte der km-variable zu eliminieren. Im Englischen wird dies häufig partialling out genannt. Ebenso können wir aus der Alter-Variable mittels OLS alle linearen Effekte der km-variable eliminieren Alter = ˆδ 1 + ˆδ 2 km+ ˆε A Wiederum enthalten die Residuen ˆε A dieser Regression alle Komponenten der Alter- Variable, die nicht mit der km-variable korreliert sind. Frisch and Waugh (1933) haben nun gezeigt, dass man aus einer Regression der Residuen dieser Hilfsregressionen ˆε P = β 2 ˆε A + ˆε exakt den gleichen Koeffizienten β 2 und den gleichen Residuenvektor ˆε erhält wie aus der langen Regression Preis = β 1 + β 2 Alter+ β 3 km+ ˆε Dieses Ergebnis wurde später von Lovell (1963) verallgemeinert, er zeigte, dass dies auch für Gruppen von Variablen gilt. Seither ist dieses Resultat als Frisch-Waugh- Lovell (FWL) Theorem bekannt. Für unser Beispiel bedeutet dies, dass wir durch Berücksichtigung des Kilometerstandes in der langen Regression exakt den gleichen Koeffizienten für die Alter Variable erhalten, den wir erhalten hätten, wenn wir in einem ersten Schritt mittels Hilfsregressionen den linearen Effekt der Kilometer aus der Preis- und der Alter- Variable entfernt hätten. Tatsächlich liefert 9

ˆε P = 2202.768ˆε A (214.33) *** den gleichen Koeffizienten für die Alter-Variable wie die lange Regression Preis = 23183.613 2202.768 Alter 0.022 km (377.445) *** (217.994) *** (0.007) *** allerdings sind die Standardfehler der Residuen-Regression nicht exakt gültig! 5 Der Beweis dieses Theorems erfolgt üblicherweise unter Zuhilfenahme von Matrixalgebra. Wir werden hier einen deutlich einfacheren Beweis skizzieren, der Lovell (2008) folgt. Erinnern wir uns, die OLS Methode ist im wesentlichen eine Zerlegungsmethode, sie zerlegt eine abhängige Variable y in einen systematische Komponente ŷ und eine damit unkorrelierte Restkomponente, die Residuen ˆε. Beginnen wir mit einer einfachen Regression y i = β 1 + β 2 x i2 + β 3 x i3 + ˆε i (3.1) Die folgenden Ausführungen beruhen auf zwei Eigenschaften der OLS Methode: 1. Die erklärenden Variablen x 2 und x 3 sind mit den Residuen ˆε unkorreliert. Dies folgt unmittelbar aus den Bedingungen erster Ordnung i x ihˆε i = 0 für h = 2,3. 2. Wenn eine Variable weder mit der abhängigen Variable y noch mit den restlichen erklärenden x Variablen korreliert ist, dann ist der Koeffizient dieser Variable gleich Null. Wenn z.b. in Gleichung (3.1) cov(y,x 3 ) = 0 und cov(x 2,x 3 ) = 0 ist, dann ist β 3 = 0. Wir beginnendamit, dieabhängigevariabley unddieerklärende Variablex 2 mittels zweierolshilfsregressionenindiedurchx 3 erklärtesystematische Komponenteund die Residuen zu zerlegen y i = ˆγ 1 + ˆγ 2 x i3 + ˆε y i (3.2) x i2 = ˆδ 1 + ˆδ 2 x i3 + ˆε x 2 i (3.3) Man beachte, dass aufgrund der Bedingungen erster Ordnung cov(x 3,ˆε y i ) = 0 und cov(x 3,ˆε x 2 i ) = 0. Wir setzen diese beiden Gleichungen in Gleichung (3.1) ein und erhalten daraus folgt ˆγ 1 + ˆγ 2 x i3 + ˆε y i = β 1 + β 2 (ˆδ 1 + ˆδ 2 x i3 + ˆε x 2 i )+ β 3 x i3 + ˆε i ˆε y i = ( β 1 ˆγ 1 )+ β 2 (ˆδ 1 + ˆδ 2 x i3 + ˆε x 2 i ) ˆγ 2 x i3 + β 3 x i3 + ˆε i = ( β 1 ˆγ 1 + β 2ˆδ1 )+ β 2ˆε x 2 i +( β 2ˆδ2 ˆγ 2 + β 3 )x i3 + ˆε i 5 Der Grund dafür liegt darin, dass der Verlust von Freiheitsgraden für die Berechnung der Residuen bei der Residuen-Regression nicht berücksichtigt wird. 10

Aus Gleichung (3.2) wissen wir aber, dass cov(x 3,ˆε y ) = 0, und aus Gleichung (3.3), dass cov(x 3,ˆε x 2 ) = 0, deshalb muss der Koeffizient von x 3 gleich Null sein, d.h. β 2ˆδ2 ˆγ 2 + β 3 = 0. Deshalb ist ˆε y i = ( β 1 ˆγ 1 + β 2ˆδ1 )+ β 2 ˆε x 2 i + ˆε i Zudem wissen wir bereits, dass bei einer Regression von mittelwerttransformierten Variablen das Interzept gleich Null ist. In unserem Fall sind sowohl die abhängige Variable ˆε y i alsauchdieerklärendevariable ˆεx 2 i Residuen aus Regressionen mit einem Interzept, deshalb ist deren Mittelwert immer Null (Bedingung erster Ordnung!), die Residuen sind also bereits mittelwerttransformiert. Aus diesem Grund ist das Interzept ebenfalls Null ( β 1 ˆγ 1 + β 2ˆδ1 = 0) und wir erhalten ˆε y i = β 2 ˆε x 2 i + ˆε i Deshalb erhalten wir bei einer Regression der Residuen der Hilfsregressionen (3.2) und (3.3) den gleichen Koeffizienten β 2 und die gleichen Residuen ˆε i wie aus der langen Regression (3.1). Der Koeffizient β 2 der langen Regression (3.1) beschreibt also die Auswirkungen von x 2 auf y, nachdem der lineare Einfluss von x 3 eliminiert wurde, oder in andern Worten, nachdem für x 3 kontrolliert wurde. Hinweis: Wir haben im Abschnitt über Mittelwerttransformationen darauf hingewiesen, dass wir aus einer Regression von mittelwerttransformierten Variablen (y i ȳ) = β 2 (x i x)+ˆε den gleichen Steigungskoeffizienten β 2 erhalten wie aus der Regression mitdennichttransformierten Dateny i = β 1 + β 2 x i +ˆε. Diesist tatsächlich eine Konsequenz des FWL Theorems! Wir erinnern uns, dass eine Regression auf die Regressionskonstante den Mittelwert liefert, und die mittelwerttransformierten Variablen deshalb als Residuen von Hilfsregressionen auf die Regressionskonstante interpretiert werden können. 3.1.2 Streudiagramme für multiple Regressionen Wir können das FWL Theorem auch nützen, um die Zusammenhänge zwischen abhängiger und erklärenden Variablen multipler Regression grafisch darzustellen. Erinnern wir uns, in einem zweidimensionalen Streudiagramm können wir nur das Resultat einer bivariaten Regression darstellen. Wenn aber der wahre Zusammenhang nur durch mehrere Variablen beschrieben werden kann, ist eine bivariate Regression fehlspezifiziert und führt zum Omitted Variables Bias, wann immer die weggelassenen Variablen mit y und x korreliert sind. Deshalb kann ein solch einfaches Streudiagramm zu sehr irreführenden Schlussfolgerungen führen, der scheinbare Zusammenhang könnte auf die nicht berücksichtigten Variablen zurückzuführen sein (SCheinkorrelation). Wenn in unserem Beispiel die erklärenden Variablen Alter und Kilmeterstandstand korreliert sind, messen die Koeffizienten bivariater Regressionen nicht den marginalen Effekt, sondern sind gewissermaßen durch die jeweils weggelassenen Variablen verschmutzt. 11

Das FWL Theorem bietet eine einfache Möglichkeit, die partiellen Zusammenhänge korrekt darzustellen, indem zuerst mittels Hilfsregressionen der Einfluss aller anderen Variablen eliminiert wird, und anschließend die Residuen dieser Hilfsregressionen in einem Streudiagramm dargestellt werden. 6 Abbildung 3.5 zeigt den Zusammenhang zwischen Preis und Kilometerstand von Gebrauchtautos links ohne Berücksichtigung des Alters, und rechts nachdem für das Alter kontrolliert wurde. Offensichtlich würde eine bivariate Regression Preis = β 1 + β 2 km den Einfluss der Kilometerzahl überschätzen und ein zu optimistisches Bild zeichnen, nach der Kontrolle des Alters in der partiellen Regression sieht man, dass der Einfluss tatsächlich zu einem guten Teil auf das Alter und nicht auf die Kilometerzahl zurückzuführen war. Halten wir also zusammenfassend noch einmal fest, falls wesentliche erklärende Variablen fehlen oder die wahre Funktionsform der PRF nicht linear ist, kann die einfache Interpretation der Steigungskoeffizienten als marginale Effekte zu (sehr) irreführenden Schlussfolgerungen führen! Tatsächlich haben wir die Daten gewissermaßen auf das Prokrustes-Bett 7 unserer Spezifikation gespannt! Nur wenn die empirische Spezifikation die PRF korrekt abbildet können wir den Ergebnissen vertrauen! 6 Allerdings ist dabei zu beachten, dass dadurch die Skalierung geändert wird. 7 Prokrustes eine Figur aus der griechischen Mythologie war bekannt dafür Reisenden ein Bett anzubieten, und sie dann an die Größe des Bettes anzupassen. War der Wanderer groß hackte er ihm die Füße ab, war der Wanderer klein zog er ihn in die Länge. 12

EViews: Bivariate Regression Partielle Regression 30,000 6,000 25,000 4,000 PREIS 20,000 15,000 RES_PREIS 2,000 0 10,000-2,000 5,000 0 40,000 80,000 120,000 160,000 200,000 KM -4,000-40,000 0 20,000 60,000 100,000 RES_KM R: Bivariate Regression Partielle Regression PREIS 10000 20000 res_preis 2000 0 2000 4000 0 50000 100000 150000 KM 20000 20000 60000 100000 res_km Stata: 5000 10000 15000 20000 25000 30000 Bivariate Regression 0 50000 100000 150000 200000 KM 4000 2000 0 2000 4000 6000 Partielle Regression 50000 0 50000 100000 Residuals PREIS Fitted values Residuals Fitted values Abbildung 3.5: Bivariate und partielle Regression: bei der partiellen Regression werden Residuen nach Eliminierung des Alters geplottet (Standardoutput von EViews, R und Stata). 13

Tabelle 3.2: EViews-, R- und Stata-Programmcode, der Abbildung 3.5 erzeugt. EViews: wfopen(type=text) "http://www.uibk.ac.at/econometrics/data/auto.csv" delim=";" group Gr_P KM PREIS freeze(graph1) Gr_P.scat linefit Graph1.addtext(t) Bivariate Regression equation eq_preis.ls PREIS c ALTER eq_preis.makeresid res_preis equation eq_km.ls KM c ALTER eq_km.makeresid res_km group Gr_res res_km res_preis freeze(graph2) Gr_res.scat linefit Graph2.addtext(t) Partielle Regression graph Graph3.merge Graph1 Graph2 GRAPH3.align(2,1,0) R: Auto <- read.csv2("http://www.uibk.ac.at/econometrics/data/auto.csv", dec=".") attach(auto) res_preis <- resid(lm(preis ~ ALTER)) res_km <- resid(lm(km ~ ALTER)) par(mfrow=c(1,2),cex.main=0.85) plot(km,preis, main="bivariate Regression") abline(lm(preis ~ KM),col="blue") plot(res_km,res_preis, main="partielle Regression") abline(lm(res_preis ~ res_km),col="red") Stata: insheet using c:\mydata\auto.csv, delimiter(";") clear regress preis alter predict res_preis, res regress km alter predict res_km, res twoway (scatter preis km) (lfit preis km), /// title(bivariate Regression) name(graph1,replace) nodraw twoway (scatter res_preis res_km) (lfit res_preis res_km), /// title(partielle Regression) name(graph2,replace) nodraw graph combine Graph1 Graph2, cols(2) 14