Datenanalyse mit Excel und Gretl

Ähnliche Dokumente
Proxies, Endogenität, Instrumentvariablenschätzung

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Teil: lineare Regression

1. Lösungen zu Kapitel 7

Kurs Empirische Wirtschaftsforschung

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Inferenz im multiplen Regressionsmodell

Die Regressionsanalyse

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Seminar zur Energiewirtschaft:

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. . Studiengang.

Kategorielle Zielgrössen

Statistik II Übung 2: Multivariate lineare Regression

Übung V Lineares Regressionsmodell

Statistik II Übung 2: Multivariate lineare Regression

2 Anwendungen und Probleme

Bachelorprüfung WS 2012/13 - MUSTERLÖSUNG

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Econometrics Übung 1. CLRM & Verletzung der Unabhängigkeitsannahme

(1 Punkt) i) Bestimmen Sie formal den marginalen Effekt der Häufigkeit des Alkoholkonsums für männliche

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Perfekte Multikollinearität III. Multikollinearität

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

x t2 y t = 160, y = 8, y y = 3400 t=1

Prof. Dr. Marc Gürtler WS 2014/2015. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Annahmen des linearen Modells

Pobeklausur: Einführung in die Ökonometrie. 1. (20 Punkte) Wir betrachten 2 (in den Koeffizienten) lineare Modelle mit folgenden Variablen:

Bachelorprüfung WS 2014/15 - MUSTERLÖSUNG

4 Multiple lineare Regression Multikollinearität 4.9

Empirische Analysen mit dem SOEP

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im SS 2012

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

1. Lösungen zu Kapitel 5

= 2 ( 3250,3 ( 3251,5)) = 1,1662 F(2,800) = 2,4 χ2

1 Einführung Ökonometrie... 1

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Statistik II Übung 1: Einfache lineare Regression

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Probeklausur - Statistik II, SoSe 2017

Instrumentvariablen und Instrumentvariablenschätzer

Empirische Wirtschaftsforschung

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Beispiel: Multiples Modell/Omitted Variable Bias I

1. Lösungen zu Kapitel 8

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

Quantitative Methoden der Agrarmarktanalyse und des Agribusiness

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Analyse von Querschnittsdaten. Spezifikation der Regressionsfunktion

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Statistik II Übung 2: Multivariate lineare Regression

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

Lineare Regression 1 Seminar für Statistik

Vorlesung 4: Spezifikation der unabhängigen Variablen

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Statistik II (Sozialwissenschaften)

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

Kapitel 4. Zensierte (censored) und gestutzte (truncated) abhängige Variablen, Sample Selection

1. Lösungen zu Kapitel 6

Multivariate Verfahren

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2017/18. ( = 58 Punkte)

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

Das multiple lineare Regressionsmodell

Einführung in die Statistik

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

Goethe-Universität Frankfurt

Transkript:

Dozent: Christoph Hindermann christoph.hindermann@uni-erfurt.de Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 1

Teil 2: Gretl Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 2

Modellannahmen Damit wir mit Hilfe der Kleinsten-Quadrate-Methode (OLS) konsistente und unverzerrte Schätzergebnisse erhalten, müssen folgende Modellannahmen erfüllt sein: A1. Erwartungstreue: Im Erwartungswert ist der Fehlerterm ε gleich null. E(ε) = 0 A2. Homoskedastie: Jeder Fehlerterm ε folgt einer Verteilung mit der Varianz σ 2. Var(ε) = σ 2 A3. Unkorrelierte Fehlerterme: Die Kovarianz der Fehlerterme beträgt null. Cov(ε i,ε j ) = 0 A4. Normalverteilung: Wir nehmen weiterhin an, dass die Fehlerterme normalverteilt sind. ε ~ N(0,σ 2 ) Weitere Annahmen: siehe auch Zusatzmaterial_Annahmen_Regression.pdf A5. Keine Multikollinearität: Die einzelnen unabhängigen Variablen dürfen keine linearen Funktionen darstellen (sprich es darf keine lineare Abhängigkeit vorliegen). Folglich muss in einem Modell Y = β 0 X 1 + β 2 X 2 + ε gelten, dass X 1 λx 2. A6. Keine Endogenität: Liegt vor, wenn eine exogene Variable mit dem Fehlerterm korreliert. Cov(ε i,x i ) 0 Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 3

Multiple Regression I Burger Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden zentralen Fragen lauten: Führen niedrigere Preise zu höheren Verkaufserlösen? Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind? Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt: SALES = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε (SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $) 1. Öffnen Sie die Datei andy.gdt mit Gretl und schätzen zunächst die folgende Gleichung SALES = β 0 ADVERT + ε. 2. Interpretieren Sie die geschätzten Koeffizienten β 0 und β 1. Ist die Interpretation von β 0 ökonomisch sinnvoll? Wie können wir β 1 interpretieren? Was wäre zunächst die Schlussfolgerung für die optimalen Werbeausgaben? Welche Aussagen können Sie zur Signifikanz der Koeffizienten treffen? Was sind die zugrundeliegenden Hypothesen? 3. Nehmen Sie an, dass der Einfluss der Werbeausgaben mit zunehmenden Ausgaben sinkt (abnehmender Ertrag der Werbung). Schätzen Sie zu diesem Zweck die Koeffizienten des Modells SALES = β 0 ADVERT + β 2 ADVERT 2 + ε. 4. Interpretieren Sie das Ergebnis erneut. Wie hoch wären nun die umsatzmaximierenden Werbeausgaben? (Hinweis: Überführen Sie die Ergebnisse in eine Funktion und leiten Sie ab!) Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 4

Multiple Regression I Burger Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden zentralen Fragen lauten: Führen niedrigere Preise zu höheren Verkaufserlösen? Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind? Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt: SALES = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε (SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $) 5. Schätzen Sie nun folgendes Modell: SALES = β 0 PRICE + ε. Wie können wir den Koeffizienten β 1 interpretieren? Finden Sie das Modell sinnvoll? 6. Definieren Sie nun eine neue Variable MENGE = SALES/PRICE. Schätzen Sie nun folgendes Modell: MENGE = β 0 PREIS + ε. Wie können wir den Koeffizienten β 1 interpretieren? Was für eine Funktion haben wir nun geschätzt? 7. Schätzen Sie nun das vorgeschlagene Gesamtmodell SALES = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε. Geben Sie eine abschließende Interpretation aller Koeffizienten! Schätzen Sie auch das Modell MENGE = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε. Welches Modell bevorzugen Sie? 8. Können Sie eine Aussage darüber treffen, ob der Fehlerterm normalverteilt ist? Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 5

Neben metrischen Variablen können wir auf nominale bzw. ordinale Variablen in unser Regressionsmodell (OLS) als unabhängige Variablen aufnehmen. (Hinweis: Die abhängige Variable darf jedoch nicht nominal oder ordinal sein. In diesem Fall müssten wir andere Modelle heranziehen!) Hierzu müssen wir diese Variablen jedoch zunächst binär kodieren. In diesem Fall spricht man auch von Dummy-Variablen ( ja-nein-variablen ). X = 1, wenn Ausprägung vorliegt (z.b. Student, Nicht Älter als 50 Jahre) 0, wenn Ausprägung nicht vorliegt (z.b. nicht Student, Älter als 50 Jahre) Falls eine Variable mit n sich ausschließenden Kategorien vorliegt (z.b. Student, Berufstätig, Rentner, Schüler), müssen zuvor n-1 Dummy-Variablen erstellt werden. In unserem Beispiel also: X 1 = 1, Student 0, sonst X 2 = 1, Berufstätig 0, sonst X 3 = 1, Rentner 0, sonst Die Auswirkung der letzten Kategorie (Schüler) drückt sich dann in der Konstanten der Regressionsgleichung aus (in dem Fall sind X 1 =0; X 2 =0 und X 3 =0). Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 6

Neben einfachen Dummy-Variablen können noch sogenannte Interaktionsterme in die Regressionsgleichung mit aufgenommen werden. Beispielsweise wollen wir den Einfluss von Geschlecht (männlich/weiblich) und Hautfarbe (schwarz/weiß) auf die Löhne ermitteln. Beide Variablen können zunächst als Dummy-Variable verstanden werden. X 1 = 1, weiblich 0, sonst X 2 = 1, schwarz 0, sonst Die Regressionsgleichung könnte zunächst wie folgt aussehen: WAGE = β 0 FEMALE + β 2 BLACK + ε Zudem können wir nun noch einen Interaktionsterm BLACK*FEMALE einfügen. Jener gibt uns an, welche Auswirkungen das gleichzeitige Auftreten beider Merkmale auf den Lohn hat. WAGE = β 0 FEMALE + β 2 BLACK + β 3 BLACK*FEMALE + ε Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 7

II Immobilien Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften der Häuser erklären. Folgende erklärende Variablen werden verwendet: UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein) SQFT: Größe des Hauses in Hundert Quadratfuß AGE: Alter des Hauses POOL: Hat das Haus einen Pool? (1 ja; 0 nein) FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein) Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch folgendes Modell beschreiben lässt: PRICE = β 0 UTOWN + β 2 SQFT + β 3 (SQFT x UTOWN) + β 4 AGE + β 5 POOL + β 6 FPLACE + ε 1. Öffnen Sie die Datei 2_Immobilien.gdt mit gretl und schätzen Sie zunächst mit Hilfe der Kleinste-Quadrate Methode den folgenden Zusammenhang: PRICE = β 0 UTOWN + β 2 SQFT + β 3 AGE + β 4 POOL + β 5 FPLACE + ε. Interpretieren sie die geschätzten Koeffizienten. Wie können die Dummy-Variablen interpretiert werden? Welche Merkmale müsste ein Haus aufweisen, damit es einen besonders hohen Preis hat? Welche Merkmale hingegen, damit es einen sehr geringen Wert hat? Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 8

II Immobilien Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften der Häuser erklären. Folgende erklärende Variablen werden verwendet: UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein) SQFT: Größe des Hauses in Hundert Quadratfuß AGE: Alter des Hauses POOL: Hat das Haus einen Pool? (1 ja; 0 nein) FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein) Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch folgendes Modell beschreiben lässt: PRICE = β 0 UTOWN + β 2 SQFT + β 3 (SQFT x UTOWN) + β 4 AGE + β 5 POOL + β 6 FPLACE + ε 2. Schätzen Sie nun mit Hilfe der Kleinste-Quadrate Methode den folgenden Zusammenhang: PRICE = β 0 UTOWN + β 2 SQFT + β 3 (SQFT x UTOWN) + β 4 AGE + β 5 POOL + β 6 FPLACE + ε Interpretieren sie die geschätzten Koeffizienten erneut. Wie können Sie den Interaktionsterm interpretieren? Ist die Annahme, dass die Fehlerterme normalverteilt sind, erfüllt? Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 9

III Lohn und Diskriminierung Sie möchten herausfinden, ob Menschen bei der Gehaltsfindung aufgrund ihrer Hautfarbe oder ihres Geschlechts benachteiligt werden. Zu diesem Zweck verwenden Sie das folgende Modell: WAGE = β 0 EDUC + β 2 BLACK + β 3 FEMALE + β 4 (BLACK x FEMALE) + ε (WAGE = Stundenlohn in $; EDUC = Ausbildungsjahre; BLACK = Dummy für Hautfarbe, 1 dunkelhäutig; FEMALE = Dummy für Geschlecht, 1 weiblich) 1. Öffnen Sie die Datei 3_Lohn_und_Diskriminierung.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der Kleinste- Quadrate Methode. Gehen Sie dabei insbesondere auf die Dummy-Variablen ein sowie auf den Interaktionsterm ein. Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 10

IV Ökonometrie Eine wirtschaftswissenschaftliche Fakultät möchte herausfinden, ob Studenten, die eine gute statistische Ausbildung haben und Ökonometrie-Kurse besucht haben, ein höheres Einstiegsgehalt bekommen als Studenten, die keine Ökonometrie-Kurse besucht haben. Hierzu soll zunächst folgende Schätzung durchgeführt werden: SAL = β 0 GPA + β 2 METRICS + ε (SALARY = Stundenlohn in $; GPA = Durchschnittsnote auf einer 4-Punkte Skala (je höher, desto besser); METRICS = Dummy für Besuch von Ökonometrie-Kursen, 1 Ökonometriekurse besucht) 1. Öffnen Sie die Datei 4_Ökonometrie.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der Kleinste- Quadrate Methode. Interpretieren Sie zunächst Ihr Ergebnis! 2. Wie kann die Gleichung verändert werden, um herauszufinden, ob Frauen einen geringeres Einstiegseinkommen als Männer haben? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis! 3. Wie kann die Gleichung abschließend verändert werden, um herauszufinden, ob der Wert für Ökonometrie auf das Einstiegsgehalt unabhängig vom Geschlecht ist? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis! Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 11

Interpretation von R 2 in einem Modell ohne Konstante Wenn wir die Konstante bei der Schätzung des Modells weglassen, führt dies tendenziell dazu, dass das Bestimmheitsmaß (R 2 ) ansteigt. Dies bedeutet jedoch nicht, dass unser Modell nun mehr Varianz erklärt. Dies ist bereits an der folgenden Grafik zu erkennen: Regressionsgerade ohne Konstante Regressionsgerade mit Konstante Die Begründung für den Anstieg von R 2 liegt in dessen Konstruktion, wonach das Weglassen der Konstante R 2 gegen den Wert 1 hin verzerrt. Für eine genauere und mathematischere Begründung sei auf folgenden Artikel verwiesen: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/noconstant.htm Für uns ist zunächst nur wichtig: R 2 kann in einem Modell ohne Konstante nicht interpretiert werden, da es gegen den Wert 1 verzerrt ist. Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 12