Dozent: Christoph Hindermann christoph.hindermann@uni-erfurt.de Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 1
Teil 2: Gretl Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 2
Modellannahmen Damit wir mit Hilfe der Kleinsten-Quadrate-Methode (OLS) konsistente und unverzerrte Schätzergebnisse erhalten, müssen folgende Modellannahmen erfüllt sein: A1. Erwartungstreue: Im Erwartungswert ist der Fehlerterm ε gleich null. E(ε) = 0 A2. Homoskedastie: Jeder Fehlerterm ε folgt einer Verteilung mit der Varianz σ 2. Var(ε) = σ 2 A3. Unkorrelierte Fehlerterme: Die Kovarianz der Fehlerterme beträgt null. Cov(ε i,ε j ) = 0 A4. Normalverteilung: Wir nehmen weiterhin an, dass die Fehlerterme normalverteilt sind. ε ~ N(0,σ 2 ) Weitere Annahmen: siehe auch Zusatzmaterial_Annahmen_Regression.pdf A5. Keine Multikollinearität: Die einzelnen unabhängigen Variablen dürfen keine linearen Funktionen darstellen (sprich es darf keine lineare Abhängigkeit vorliegen). Folglich muss in einem Modell Y = β 0 X 1 + β 2 X 2 + ε gelten, dass X 1 λx 2. A6. Keine Endogenität: Liegt vor, wenn eine exogene Variable mit dem Fehlerterm korreliert. Cov(ε i,x i ) 0 Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 3
Multiple Regression I Burger Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden zentralen Fragen lauten: Führen niedrigere Preise zu höheren Verkaufserlösen? Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind? Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt: SALES = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε (SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $) 1. Öffnen Sie die Datei andy.gdt mit Gretl und schätzen zunächst die folgende Gleichung SALES = β 0 ADVERT + ε. 2. Interpretieren Sie die geschätzten Koeffizienten β 0 und β 1. Ist die Interpretation von β 0 ökonomisch sinnvoll? Wie können wir β 1 interpretieren? Was wäre zunächst die Schlussfolgerung für die optimalen Werbeausgaben? Welche Aussagen können Sie zur Signifikanz der Koeffizienten treffen? Was sind die zugrundeliegenden Hypothesen? 3. Nehmen Sie an, dass der Einfluss der Werbeausgaben mit zunehmenden Ausgaben sinkt (abnehmender Ertrag der Werbung). Schätzen Sie zu diesem Zweck die Koeffizienten des Modells SALES = β 0 ADVERT + β 2 ADVERT 2 + ε. 4. Interpretieren Sie das Ergebnis erneut. Wie hoch wären nun die umsatzmaximierenden Werbeausgaben? (Hinweis: Überführen Sie die Ergebnisse in eine Funktion und leiten Sie ab!) Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 4
Multiple Regression I Burger Eine Burger-Kette möchte herausfinden, welchen Einfluss ihre Preis- und Werbestrategie auf ihre Verkaufserlöse hat. Zu diesem Zweck hat sie die Verkaufserlöse, die Preise und die Werbeausgaben aus 75 verschiedenen Filialen zusammengetragen. Die beiden zentralen Fragen lauten: Führen niedrigere Preise zu höheren Verkaufserlösen? Führen zusätzliche Werbeausgaben zu zusätzlichen Erlösen, die höher als die Werbeausgaben sind? Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Zusammenhang zwischen Erlösen, Preisen und Werbeausgaben am besten durch folgendes Modell beschreiben lässt: SALES = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε (SALES = Erlöse in Tausend $, PRICE = Preis pro Burger in $, ADVERT = Werbeausgaben in Tausend $) 5. Schätzen Sie nun folgendes Modell: SALES = β 0 PRICE + ε. Wie können wir den Koeffizienten β 1 interpretieren? Finden Sie das Modell sinnvoll? 6. Definieren Sie nun eine neue Variable MENGE = SALES/PRICE. Schätzen Sie nun folgendes Modell: MENGE = β 0 PREIS + ε. Wie können wir den Koeffizienten β 1 interpretieren? Was für eine Funktion haben wir nun geschätzt? 7. Schätzen Sie nun das vorgeschlagene Gesamtmodell SALES = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε. Geben Sie eine abschließende Interpretation aller Koeffizienten! Schätzen Sie auch das Modell MENGE = β 0 PRICE + β 2 ADVERT + β 3 ADVERT 2 + ε. Welches Modell bevorzugen Sie? 8. Können Sie eine Aussage darüber treffen, ob der Fehlerterm normalverteilt ist? Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 5
Neben metrischen Variablen können wir auf nominale bzw. ordinale Variablen in unser Regressionsmodell (OLS) als unabhängige Variablen aufnehmen. (Hinweis: Die abhängige Variable darf jedoch nicht nominal oder ordinal sein. In diesem Fall müssten wir andere Modelle heranziehen!) Hierzu müssen wir diese Variablen jedoch zunächst binär kodieren. In diesem Fall spricht man auch von Dummy-Variablen ( ja-nein-variablen ). X = 1, wenn Ausprägung vorliegt (z.b. Student, Nicht Älter als 50 Jahre) 0, wenn Ausprägung nicht vorliegt (z.b. nicht Student, Älter als 50 Jahre) Falls eine Variable mit n sich ausschließenden Kategorien vorliegt (z.b. Student, Berufstätig, Rentner, Schüler), müssen zuvor n-1 Dummy-Variablen erstellt werden. In unserem Beispiel also: X 1 = 1, Student 0, sonst X 2 = 1, Berufstätig 0, sonst X 3 = 1, Rentner 0, sonst Die Auswirkung der letzten Kategorie (Schüler) drückt sich dann in der Konstanten der Regressionsgleichung aus (in dem Fall sind X 1 =0; X 2 =0 und X 3 =0). Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 6
Neben einfachen Dummy-Variablen können noch sogenannte Interaktionsterme in die Regressionsgleichung mit aufgenommen werden. Beispielsweise wollen wir den Einfluss von Geschlecht (männlich/weiblich) und Hautfarbe (schwarz/weiß) auf die Löhne ermitteln. Beide Variablen können zunächst als Dummy-Variable verstanden werden. X 1 = 1, weiblich 0, sonst X 2 = 1, schwarz 0, sonst Die Regressionsgleichung könnte zunächst wie folgt aussehen: WAGE = β 0 FEMALE + β 2 BLACK + ε Zudem können wir nun noch einen Interaktionsterm BLACK*FEMALE einfügen. Jener gibt uns an, welche Auswirkungen das gleichzeitige Auftreten beider Merkmale auf den Lohn hat. WAGE = β 0 FEMALE + β 2 BLACK + β 3 BLACK*FEMALE + ε Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 7
II Immobilien Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften der Häuser erklären. Folgende erklärende Variablen werden verwendet: UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein) SQFT: Größe des Hauses in Hundert Quadratfuß AGE: Alter des Hauses POOL: Hat das Haus einen Pool? (1 ja; 0 nein) FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein) Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch folgendes Modell beschreiben lässt: PRICE = β 0 UTOWN + β 2 SQFT + β 3 (SQFT x UTOWN) + β 4 AGE + β 5 POOL + β 6 FPLACE + ε 1. Öffnen Sie die Datei 2_Immobilien.gdt mit gretl und schätzen Sie zunächst mit Hilfe der Kleinste-Quadrate Methode den folgenden Zusammenhang: PRICE = β 0 UTOWN + β 2 SQFT + β 3 AGE + β 4 POOL + β 5 FPLACE + ε. Interpretieren sie die geschätzten Koeffizienten. Wie können die Dummy-Variablen interpretiert werden? Welche Merkmale müsste ein Haus aufweisen, damit es einen besonders hohen Preis hat? Welche Merkmale hingegen, damit es einen sehr geringen Wert hat? Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 8
II Immobilien Eine Immobilienfirma möchte die Häuserpreise einer US-amerikanischen Universitätsstadt in Abhängigkeit von den Eigenschaften der Häuser erklären. Folgende erklärende Variablen werden verwendet: UTOWN: Ist das Haus weniger als 3 Meilen von der Universität entfernt? (1 ja; 0 nein) SQFT: Größe des Hauses in Hundert Quadratfuß AGE: Alter des Hauses POOL: Hat das Haus einen Pool? (1 ja; 0 nein) FPLACE: Hat das Haus einen Kamin? (1 ja; 0 nein) Nehmen Sie an, dass alle Standardannahmen der Kleinste-Quadrate Methode gegeben sind und dass sich der Hauspreis durch folgendes Modell beschreiben lässt: PRICE = β 0 UTOWN + β 2 SQFT + β 3 (SQFT x UTOWN) + β 4 AGE + β 5 POOL + β 6 FPLACE + ε 2. Schätzen Sie nun mit Hilfe der Kleinste-Quadrate Methode den folgenden Zusammenhang: PRICE = β 0 UTOWN + β 2 SQFT + β 3 (SQFT x UTOWN) + β 4 AGE + β 5 POOL + β 6 FPLACE + ε Interpretieren sie die geschätzten Koeffizienten erneut. Wie können Sie den Interaktionsterm interpretieren? Ist die Annahme, dass die Fehlerterme normalverteilt sind, erfüllt? Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 9
III Lohn und Diskriminierung Sie möchten herausfinden, ob Menschen bei der Gehaltsfindung aufgrund ihrer Hautfarbe oder ihres Geschlechts benachteiligt werden. Zu diesem Zweck verwenden Sie das folgende Modell: WAGE = β 0 EDUC + β 2 BLACK + β 3 FEMALE + β 4 (BLACK x FEMALE) + ε (WAGE = Stundenlohn in $; EDUC = Ausbildungsjahre; BLACK = Dummy für Hautfarbe, 1 dunkelhäutig; FEMALE = Dummy für Geschlecht, 1 weiblich) 1. Öffnen Sie die Datei 3_Lohn_und_Diskriminierung.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der Kleinste- Quadrate Methode. Gehen Sie dabei insbesondere auf die Dummy-Variablen ein sowie auf den Interaktionsterm ein. Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 10
IV Ökonometrie Eine wirtschaftswissenschaftliche Fakultät möchte herausfinden, ob Studenten, die eine gute statistische Ausbildung haben und Ökonometrie-Kurse besucht haben, ein höheres Einstiegsgehalt bekommen als Studenten, die keine Ökonometrie-Kurse besucht haben. Hierzu soll zunächst folgende Schätzung durchgeführt werden: SAL = β 0 GPA + β 2 METRICS + ε (SALARY = Stundenlohn in $; GPA = Durchschnittsnote auf einer 4-Punkte Skala (je höher, desto besser); METRICS = Dummy für Besuch von Ökonometrie-Kursen, 1 Ökonometriekurse besucht) 1. Öffnen Sie die Datei 4_Ökonometrie.gdt mit gretl und schätzen Sie obigen Zusammenhang mit Hilfe der Kleinste- Quadrate Methode. Interpretieren Sie zunächst Ihr Ergebnis! 2. Wie kann die Gleichung verändert werden, um herauszufinden, ob Frauen einen geringeres Einstiegseinkommen als Männer haben? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis! 3. Wie kann die Gleichung abschließend verändert werden, um herauszufinden, ob der Wert für Ökonometrie auf das Einstiegsgehalt unabhängig vom Geschlecht ist? Schätzen Sie die Gleichung und interpretieren Sie das Ergebnis! Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 11
Interpretation von R 2 in einem Modell ohne Konstante Wenn wir die Konstante bei der Schätzung des Modells weglassen, führt dies tendenziell dazu, dass das Bestimmheitsmaß (R 2 ) ansteigt. Dies bedeutet jedoch nicht, dass unser Modell nun mehr Varianz erklärt. Dies ist bereits an der folgenden Grafik zu erkennen: Regressionsgerade ohne Konstante Regressionsgerade mit Konstante Die Begründung für den Anstieg von R 2 liegt in dessen Konstruktion, wonach das Weglassen der Konstante R 2 gegen den Wert 1 hin verzerrt. Für eine genauere und mathematischere Begründung sei auf folgenden Artikel verwiesen: http://www.ats.ucla.edu/stat/mult_pkg/faq/general/noconstant.htm Für uns ist zunächst nur wichtig: R 2 kann in einem Modell ohne Konstante nicht interpretiert werden, da es gegen den Wert 1 verzerrt ist. Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 12