Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden Sie dazu den Datensatz ProKopfEinkommen.sav, welcher u.a. das Pro Kopf Einkommen von 110 verschiedenen Ländern im Jahr 1980 beinhaltet (gemessen in US Dollar). Bitte bearbeiten Sie Aufgaben 1-5 in Gruppen von bis zu 4 Studierenden (vergessen Sie nicht die Namen!) und reichen Sie die Lösungen VOR der 4. PC Übung ein. 1. Zeigen Sie die Verteilung von Inflation (entspricht der durchschnittlichen Inflationsrate von 1973-1980) anhand eines Histogramms und legen Sie die Normalverteilung zwecks Vergleichs über die Grafik. Analysieren> Deskriptive Statistiken> Häufigkeiten > Variablen: Inflation > Diagramme: Histogramme > Normalverteilungskurve anzeigen > Weiter > ok 2. Generieren Sie die Variable LogInflation als Logarithmus von Inflation (entspricht der durchschnittlichen Inflationsrate von 1973-1980). Transformieren > Variable berechnen > Zielvariable: LogInflation > Numerischer Ausdruck: LN(Inflation) > ok 3. Zeigen Sie die Verteilung von LogInflation anhand eines Histrogramms und legen Sie die Normalverteilung zwecks Vergleichs über die Grafik. Ähnelt die Verteilung von LogInflation mehr der Normalverteilung als jene von Inflation? Analysieren> Deskriptive Statistiken> Häufigkeiten > Variablen: Histogramme > Normalverteilungskurve anzeigen > Weiter > ok LogInflation > Diagramme: 1
4. Generieren Sie die Variable LogProKopfEink als Logarithmus von ProKopfEink (Pro Kopf Einkommen 1980 in US Dollar). Transformieren > Variable berechnen > Zielvariable: LN(ProKopfEink) > ok LogproKopfEink > Numerischer Ausdruck: 5. Regressieren Sie ProKopfEink auf Inflation, Land (misst die Grösse in Quadratmeilen) und Oelproduzent (1 falls wichtiger Ölproduzent, 0 falls nicht) und interpretieren Sie die Koeffizienten. Analysieren > Regression > Linear > Abhängige Variable: Inflation, Land, Oelproduzent ProKopfEink > Unabhängige Variable: Modellzusammenfassung Modell R R-Quadrat Korrigiertes R- Quadrat Standardfehler des Schätzers 1.486 a.236.214 3711.985 a. Einflußvariablen : (Konstante), Oelproduzent, Land, Inflation ANOVA a Mittel der Modell Quadratsumme df Quadrate F Sig. 1 Regression 451198492.862 3 150399497.621 10.915.000 b Nicht standardisierte Residuen 1460556251.51 1 106 13778832.561 Gesamt 1911754744.37 3 109 b. Einflußvariablen : (Konstante), Oelproduzent, Land, Inflation 2
Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell ffizientb Standardfehler Beta T Sig. 1 (Konstante) 3337.576 464.997 7.178.000 Inflation -14.974 14.822 -.087-1.010.315 Land.001.001.178 2.080.040 Oelproduzent 7614.992 1453.516.446 5.239.000 Wenn die Inflationsrate um 1 Prozentpunkt steigt, geht das Pro Kopf Einkommen um 14,974 US Dollar zurück. Der Koeffizient der Inflationsrate ist aber nicht statistisch signifikant. Mit jeder zusätzlichen Quadratmeile steigt das Pro Kopf Einkommen um 0,001 US Dollar. Dieser Effekt ist signifikant auf dem 5 % Niveau. Falls ein Land ein Oelproduzent ist, ist das durchschnittliche Pro Kopf Einkommen um 7615 US Dollar höher (als wenn das Land kein Oelproduzent ist). Der Koeffizient ist signifikant auf dem 1% Niveau. 6. Generieren Sie eine neue Variable LandDurch1000 als Land dividiert durch 1000. Transformieren > Variable berechnen > Zielvariable: Land/1000 > ok LandDurch1000 > Numerischer Ausdruck: 7. Warum können Sie LogProKopfEink nicht gleichzeitig (also in der selben Regression) auf Land und LandDurch1000 regressieren? Aufgrund von Multikollinearität 8. Regressieren Sie LogProKopfEink auf Inflation, LandDurch1000 und Oelproduzent (1 falls wichtiger Ölproduzent, 0 falls nicht) und interpretieren Sie die Koeffizienten. Analysieren > Regression > Linear > Abhängige Variable: LogProKopfEink > Unabhängige Variable: LogInflation, LandDurch1000, Oelproduzent Modellzusammenfassung Modell R R-Quadrat Korrigiertes R- Quadrat Standardfehler des Schätzers 1.347 a.120.096 1.07230 a. Einflußvariablen : (Konstante), Oelproduzent, LandDurch1000, Inflation 3
ANOVA a Mittel der Modell Quadratsumme df Quadrate F Sig. 1 Regression 16.687 3 5.562 4.837.003 b Nicht standardisierte Residuen 121.882 106 1.150 Gesamt 138.569 109 a. Abhängige Variable: LogProKopfEink b. Einflußvariablen : (Konstante), Oelproduzent, LandDurch1000, Inflation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell ffizientb Standardfehler Beta T Sig. 1 (Konstante) 7.542.134 56.150.000 Inflation -.001.004 -.015 -.161.872 LandDurch1000.000.000.163 1.768.080 Oelproduzent 1.423.420.309 3.389.001 a. Abhängige Variable: LogProKopfEink Wenn die Inflationsrate um 1 Prozentpunkt steigt, geht das Pro Kopf Einkommen um 0,1% zurück, aber dieser Effekt ist nicht statistisch signifikant. Falls ein Land ein Oelproduzent ist, ist das durchschnittliche Pro Kopf Einkommen um 142,3% höher (als wenn das Land kein Oelproduzent ist). Der Koeffizient ist signifikant auf dem 1% Niveau. Der Effekt von 1000 zusätzlichen Quadratmeilen erhöht das Pro Kopf Einkommen um annähernd 0% und ist nicht statistisch signifikant. 9. Regressieren Sie ProKopfEink auf LogInflation und interpretieren Sie die Koeffizienten Analysieren > Regression > Linear > Abhängige Variable: LogInflation ProKopfEink > Unabhängige Variable: Modellzusammenfassung Modell R R-Quadrat Korrigiertes R- Quadrat Standardfehler des Schätzers 1.202 a.041.032 4120.457 a. Einflußvariablen : (Konstante), LogInflation 4
ANOVA a Modell Quadratsumme df Mittel der Quadrate F Sig. 1 Regression 78112905.791 1 78112905.791 4.601.034 b Nicht standardisierte Residuen 1833641838.58 2 108 16978165.172 Gesamt 1911754744.37 3 109 b. Einflußvariablen : (Konstante), LogInflation Koeffizienten a Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Regressionskoe Modell ffizientb Standardfehler Beta T Sig. 1 (Konstante) 6865.725 1436.424 4.780.000 LogInflation -1191.116 555.313 -.202-2.145.034 Wenn die Inflationsrate um 1% steigt, sinkt das Pro Kopf Einkommen um ungefähr 11, 91 US Dollar. Dieser Koeffizient ist signifikant auf dem 5% Niveau. 10. Warum kann es in Regressionen Sinn machen, die logarithmierte Version einer Variable anstatt deren ursprünglicher Version zu verwenden? Lineares Modell gilt nicht für die ursprüngliche Variable, aber für die logarithmierte Version (zb: Wachstum kann exponentiell sein, der Logarithmus davon kann aber linear sein). 11. Erklären Sie intuitiv das Konzept der Konsistenz. Wenn Stichprobe gegen unendlich geht, kollabiert die Verteilung des Schätzers zum wahren Wert des Effekts. Oder: Je grösser die Stichprobe, umso mehr nähert sich die Verteilung des Schätzers dem wahren Wert des Effekts an. 12. Was bedeutet die Korrelation eines Regressors mit dem Fehlerterm für die Konsistenz von OLS (lineare Regression)? Der Schätzer ist inkonsistent, weil der Schätzer auch in sehr grossen Stichproben (also asymptotisch) verzerrt ist. 5
13. Was sagt der zentrale Grenzwertsatz für eine Folge von unabhängigen Zufallsvariablen Y mit identischer Verteilung? 14. Was impliziert der zentrale Grenzwertsatz für den OLS Schätzer (unter der Annahme, dass der Schätzer konsistent ist)? Deshalb ist OLS Schätzer asymptotisch normalverteilt: 15. Mit welcher Rate ( Geschwindigkeit ) gehen die Varianz und der Standardfehler des OLS Schätzers gegen Null? 6
16. Vergleichen Sie zwei Regressionsmodelle, die anhand einer Stichprobe mit 395 Beobachtungen geschätzt werden. In einem Modell wird die abhängige Variable auf vier unabhängige Variablen regressiert. Das entsprechende R 2 beträgt 0,738. Im anderen Modell wird dieselbe abhängige Variable nur auf eine der vier unabhängigen Variablen regressiert. Das R 2 beträgt 0,264 in diesem (zweiten) Modell. a. Formulieren Sie die Nullhypothese (H 0 ) als auch die Alternativhypothese (H 1 ) für einen F- Test, der die zwei Modelle vergleicht. H 0 : β 2 = β 3 = β 4 = 0 H A : Mindestens einer der Koeffizienten β 2, β 3 oder β 4 ist verschieden von Null b. Berechnen Sie die F-Statistik anhand der R 2 der Modelle [1]. (R 2 ur R 2 r )/q F = (1 R 2 ur )/(N k 1) = (0,738 0,264)/3 (1 0,738)/(395 4 1) 0,158 0,00067 235,19 c. Bestimmen Sie den kritischen Wert für den F-Test anhand der Tabelle mit kritischen Werten. F 3,390 = 2,60 d. Wird die Nullhypothese auf dem 5% Signifikanzniveau abgelehnt? 235,19 > 2,60 H 0 wird auf dem 5% Niveau verworfen 17. Sind die zwei folgenden Modelle statistisch signifikant unterschiedlich auf dem 5% Signifikanzniveau? Vergleichen Sie die Modelle mit Hilfe des F-Tests. Anzahl der Beobachtungen in der Stichprobe: 95 Modell 1: y i = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + u, R 2 ur = 0,8598 Modell 2: y i = β 0 + β 3 x 3 + u, R 2 r = 0,8480 H 0 : β 1 = β 2 = β 4 = 0 H A : Mindestens einer der Koeffizienten β 1, β 2 oder β 4 ist verschieden von Null F = (0,8598 0,8480)/3 (1 0,8598)/(95 4 1) 2,52 F 3,90 = 2,71 2,52 < 2,71 H 0 wird auf dem 5% Niveau nicht verworfen Die zwei Modelle sind nicht statistisch signifikant unterschiedlich auf dem 5% Signifikanzniveau. [1] Formel für F-Statistik lautet F = (R ur 2 R 2 r )/q (1 R 2 ur )/(N k 1) 7