1 Statistische Grundlagen

Transkript

1 Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze . Wir sind ehemalige Übungsleiter in Mathematik und Statistik, die auch alle Empirische 1 hören mussten und dir kompetente und klausurorientierte Hilfe anbieten können - zu einem fairen Preis. Frag einfach an! nachhilfe-im-studium@gmx.de 1 Statistische Grundlagen ˆ Zufallsvariablen: Eine Größe, die eine Verteilung besitzt, aus der Realisationen gezogen werden. ˆ Schätzer: Ein Schätzer ist eine Funktion der Daten. Wichtige Schätzer sind das arithmetische Mittel für den Erwartungswert µ der Normalverteilung oder der Koeffizientenschätzer in einer Regression ˆβ. Schätzer sind Zufallsvariablen. ˆ Geschätzter Wert: Das Resultat eines Schätzers, wenn er auf die beobachteten Daten angewendet wird. Der geschätzte Wert ist keine Zufallsvariable, sondern fest. Man wird aber nur durch Zufall den wahren Parameter richtig schätzen. ˆ Unverzerrter Schätzer: Ein Schätzer ˆθ ist unverzerrt, wenn der Erwartungswert des Schätzers ˆθ dem zu schätzenden Parameter θ entspricht. Formal bedeutet das: E(ˆθ) = θ. Im Mittel erhält man also den wahren Wert, wenn man den Schätzer immer wieder auf neue Stichproben anwendet. ˆ Bias: Verzerrung eines Schätzers, also E(ˆθ) θ. Ist der Bias gleich Null, heißt der Schätzer unverzerrt. ˆ Konsistenz: Ein Schätzer ist genau dann konsistent, wenn sich der Schätzer beliebig genau dem wahren Parameter annähert, wenn der Stichprobenumfang n wächst. 1

2 Nicht jeder unverzerrte Schätzer ist konsistent (dazu muss die Varianz des Schätzers für n noch gegen Null gehen). Nicht jeder konsistente Schätzer ist unverzerrt ˆ Effizienz und relative Effizienz: Da Schätzer Zufallsvariablen sind, besitzen sie Erwartungswert und Varianz. Ein unverzerrter Schätzer ist relativ effizient, wenn er eine geringere Varianz besitzt als ein anderer unverzerrter Schätzer. ˆ BLUE: Best linear unbiased estimator. Der lineare unverzerrte Schätzer für einen Parameter mit der kleinsten Varianz unter allen linearen unverzerrten Schätzern für diesen Parameter. Linear bedeutet, dass die Daten linear in die Schätzfunktion eingehen, z.b. 1/n n i=1 x i für das arithmetische Mittel. ˆ t-test allgemein: Der t-test soll eine Aussage darüber treffen, wie wahrscheinlich es ist, dass ein bestimmter geschätzter Wert für einen Parameter θ beobachtet wird, wenn man davon ausgeht, dass das wahre θ den unterstellten Wert H 0 : θ = θ H0 annimmt. Dazu wird die t-statistik t = geschätzter Wert unterstellter Wert Standardfehler des Schätzers berechnet. Je höher der Betrag der t-statistik, desto unwahrscheinlicher ist es, dass der geschätzte Wert zufällig so extrem im Vergleich zum unterstellten wahren Wert in der Nullhypothese ist. Auf deutsch: H 0 wird abgelehnt, wenn der Betrag des t-werts über dem kritischen Wert ist (1.64 für 10%-Niveau, 1.96 für 5%-Niveau und 2.58 für 1%-Niveau). Wenn der kritische Wert kleiner als die jeweilige Grenze ist, wird H 0 nicht verworfen. Wird H 0 verworfen, geht man davon aus, dass der wahre Parameter nicht dem Wert in H 0 entspricht. Bei einer Regression geht man bei Ablehnen des Tests, ob der Koeffizient gleich Null ist, davon aus, dass ein signifikanter Zusammenhang zwischen der jeweiligen Einflussgröße X und der Zielgröße Y besteht. ˆ p-wert: Die Wahrscheinlichkeit für gegebene Daten, dass ein auf Basis der Stichprobe geschätzter Wert beobachtet wird, wenn der wahre Parameter den Wert wie in der Nullhypothese H 0 annimmt. Ein niedriger p-wert spricht gegen die Hypothese H 0. ˆ Signifikanzniveau: Höchste zulässige Wahrscheinlichkeit dafür, dass H 0 abgelehnt wird, obwohl H 0 richtig ist. Einfacher zu merken: Obere Grenze für den p-wert, bei dem H 0 abgelehnt wird. ˆ Konfidenzintervall: Ein Konfidenzintervall deckt genau die möglichen Werte eines Schätzers ab, bei denen ein t-test für ein festes Signifikanzniveau nicht ablehnen würde. 2

3 ˆ Verständnistipps: Im Beispiel hier gehen wir jetzt davon aus, dass das Signifikanzniveau auf 5% festgelegt wurde (das passiert meist aus einer Konvention heraus, manche Wissenschaftsgebiete akzeptieren 5%, für andere Gebiete wäre das nicht überzeugend) und man möchte die Signifikanz einer Einflussgröße in der Regression testen, also ob das wahre β = 0. Als Hypothese H 0 : β = 0. Es besteht eine sogenannte Dualität zwischen t-test und Konfidenzintervall. Drei Beispiele: Der Betrag der t-statistik ist größer als 1,96. Dann weiß man, dass der p- Wert kleiner ist als 0.05 und dass das zugehörige Konfidenzintervall die 0 nicht überdeckt. Das Konfidenzintervall überdeckt die Null. Dann weiß man, dass der p-wert größer ist als 0.05 und dass der t-wert kleiner ist als Der p-wert ist kleiner als Dann weiß man, dass der t-wert größer ist als 1.96 und das Konfidenzintervall die Null nicht überdeckt. 2 Regression ˆ Schätzung der Parameter: Die Parameter werden geschätzt, indem die Summe der quadrierten Abweichungen der Datenpunkte von der Regressionsgeraden minimiert werden. ˆ Koeffizientenschätzer: ˆβ k = s X k Y s 2 X k Der Koeffizientenschätzer wird berechnet, indem die Stichprobenkovarianz zwischen der Einflussgröße X und der Zielgröße Y durch die Stichprobenvarianz der Einflussgröße X geteilt wird. Möchte man die Kovarianz zwischen der Einflussgröße und der Zielgröße berechnen, löst man die Gleichung einfach danach auf! Der Schätzer für den Achsenabschnitt wird über ˆβ 0 = Y ˆβ 1 X 1... ˆβ k X k berechnet, wobei der Überstrich bedeutet, dass es sich um das arithmetische Mittel der jeweiligen Größe handelt. ˆ Varianz des Koeffizientenschätzers: ˆβ streut weniger, je größer der Stichprobenumfang n ist und je größer die Varianz der Einflussgröße X ist. ˆ Prognostizierter Wert für Y : Setze die Werte in die geschätzte Regressionsgleichung ein und erhalte so die Prognose für Y. ˆ Residuum: Das Residuum ist die Differenz zwischen wahrem Wert und durch die Regression vorhergesagtem Wert. In einer Grafik ist das der senkrechte Abstand des Datenpunkts zur geschätzten Regressionsgerade. 3

4 ˆ Hetero- und Homoskedastie: Daten sind homoskedastisch, wenn die Varianz nicht davon abhängt, welchen Bereich der Daten man betrachtet. Daten sind heteroskedastisch, wenn man für verschiedene Bereiche der Daten eine andere Varianz schätzen müsste. Liegt Heteroskedastie vor, kann man die Standardfehler von ˆβ nicht mehr konsistent schätzen und muss robuste Standardfehler verwenden. ˆ Annahme M1: E(u i X 1i,..., X ki ) = 0. Bei einer Regression wird der bedingte Erwartungswert von Y bei gegebenen Kovariablen modelliert. Annahme M1 besagt, dass alle relevanten Charakteristika der Daten für den bedingten Erwartungswert von Y auch in der Regression berücksichtigt wurden. ˆ Annahme M2: Die Beobachtungen der Einfluss- und der Zielvariablen stammen aus einer Zufallsstichprobe und sind deswegen identisch und vor allem unabhängig verteilt. ˆ Annahme M3: Es liegen keine Ausreißer vor. ˆ Annahme M4: Es liegt keine perfekte Multikollinearität vor. Perfekte Multikollinearität liegt vor, wenn die Korrelation zwischen zwei Einflussgrößen exakt gleich 1 ist. Liegt perfekte Multikollinearität vor, können die Koeffizientenschätzwerte nicht mehr eindeutig bestimmt werden. Viele Programme brechen die Schätzung bei perfekter Multikollinearität ab. Das liegt meist daran, dass die Einflussgrößen schlecht gewählt sind (z.b. die Aufnahme von Körpergröße in cm und Körpergröße in m in die Regression). Imperfekte Multikollinearität schließt eine Schätzung nicht aus, hohe Standardfehler sind aber möglich! (Instabile Schätzer) ˆ Wenn M1 bis M4 gilt: Die OLS-Schätzer sind unverzerrt, konsistent und asymptotisch normalverteilt. ˆ M1 bis M4 gelten und Daten homoskedastisch: Gauss-Markov Theorem gilt. OLS-Schätzer ist BLUE. Ist Y bzw. der Fehler auch noch normalverteilt, hat der OLS-Schätzer die kleinste asymptotische Varianz unter allen linearen und nicht-linearen Schätzern. ˆ Kleine Stichproben: Für approximative Normalverteilung der Schätzer und für die Verteilung der t-statistik entsprechend der t-verteilung mit n 2 Freiheitsgraden müssen die Daten homoskedastisch und Y normalverteilt sein. Die Normalverteilung muss nicht für die Einflussgrößen gelten. ˆ Bestimmtheitsmaß und korrigiertes Bestimmtheitsmaß: Das Bestimmtheitsmaß R 2 ist gibt den Anteil der erklärten Varianz der Gesamtvarianz an. Es nimmt Werte zwischen 0 und 1 und kann auch 1 werden. Das R 2 kann dadurch künstlich erhöht werden, indem man viele Regressionskoeffizienten aufnimmt. Das verhindert das korrigierte R 2, das von den Einflussgrößen fordert, dass deren Aufnahme einen Beitrag zum Erklärungsgehalt liefert. Es berücksichtigt die Anzahl bereits aufgenommener Regressionen und kann auch sinken, wenn die zusätzlich aufgenommene Variable nicht genügend Erklärungsgehalt aufweist. 4

5 ˆ Standardfehler der Regression: Durchschnittliche Größe des Residuums, berücksichtigt verlorene Freiheitsgrade durch zu schätzende Residuen, der Root Mean Squared Error nicht. ˆ Interpretation der geschätzten Koeffizienten: Interpretation als marginaler Effekt (erste partielle Ableitung der Regressionsgerade nach interessierender Einflussgröße). Steigt X k um eine Einheit, steigt Y im Mittel um β k Einheiten, wenn alle übrigen Variablen konstant gehalten werden. Angabe der Signifikanz über p-wert indem p-wert und Signifikanzniveau angegeben werden, oder: Angabe der Signifikanz über t-wert, indem berechneter t-wert mit entsprechendem t-quantil verglichen wird (bei 5%-Signifikanzniveau: 1.96), oder: Falls t-wert nicht gegeben: Berechnung, indem der geschätzte Wert für β durch dessen Standardfehler berechnet wird (t-test, wenn unterstellter wahrer Parameter Null sein soll). ˆ Warum F-Test bei verbundenen Hypothesen? Zu testen wäre H 0 : β 1 = β 1,H0 und β 2 = β 2,H0. Geschätzte Parameter sind nicht statistisch unabhängig voneinander und damit sind die t-statistiken ebenfalls nicht unabhängig. In die F-Statistik geht die Varianz-Kovarianz der geschätzten Koeffizienten ein, wodurch die Korrelation zwischen den Koeffizienten berücksichtigt wird. Die Statistik ist F q, -verteilt. ˆ Restriktionen q des F-Tests: Salopp: Anzahl der Gleichheitszeichen in H 0. ˆ Unkorrelierte t-statistiken bei zwei Koeffizienten: F = 0.5(t t 2 2). ˆ R-Matrix beim F-Test: Matrix mit q-zeilen bezogen auf die zu testenden Hypothesen und (k + 1)-Spalten für die Anzahl der Koeffizienten (k + 1 für Achsenabschnitt und Steigungsparameter). 3 Ausgelassene Variablen Betrachte das wahre Modell Y i = β 0 + β 1 X i + β 2 Z i + u i. X ist die Größe, an deren Einfluss wir interessiert sind und deswegen β 1 unverzerrt und konsistent schätzen wollen. Nehmen wir an, dass wir Z nicht beobachten können. Wann ist der Schätzer für β 1 verzerrt? Dafür müssen beide folgenden Bedingungen gelten: ˆ X und Z müssen korreliert sein, also corr(x, Z) 0 und ˆ Z muss einen Einfluss auf Y besitzen. 5

6 Nur dann ist β 1 verzerrt und M1 verletzt. Lösung: Versuche die Variable Z in die Regression aufzunehmen. Ist sie beobachtbar und im Datensatz vorhanden, dann kann man sie in die Regression aufnehmen, eventuell muss man sie allerdings nichtlinear transformieren. ˆ Lineares Modell: Die X dürfen beliebig verändert werden, nur die Koeffizienten dürfen höchstens mit einer Konstanten multipliziert werden. Die Koeffizienten müssen linear bleiben (logarithmieren oder die Anwendung der e-funktion auf den Koeffizienten sind nichtlineare Transformationen). ˆ Richtung der Verzerrung In der Regression y = β 0 + β 1 X steht Z im Zusammenhang mit Y und ist mit X korreliert. In welche Richtung ist β 1 verzerrt? corr(x, Z) Zusammenhang mit Y Verzerrung in welche Richtung? + + E( ˆβ 1 ) > β 1 (Überschätzung) - + E( ˆβ 1 ) < β 1 (Unterschätzung) + - E( ˆβ 1 ) < β 1 (Unterschätzung) - - E( ˆβ 1 ) > β 1 (Überschätzung) ˆ Nichtlineare Regressoren: Modelliert wird bspw. Y i = β 0 + β 1 X i + β 2 X 2 i Marginaler Effekt hängt vom Wert von X ab, da Y i X = β 1 + 2β 2 X i ˆ Interpretation lin-log: Y linear, X im Logarithmus. Steigt X um 1% führt das im Mittel zu einer Erhöhung von Y um β/100. ˆ Interpretation log-lin: Y im Logarithmus, X linear. Steigt X um eine Einheit, ändert sich Y im Mittel um 100β%. ˆ Interpretation log-log: Steigt X um 1%, ändert sich Y im Mittel um β%. β kann als Elastizität von Y bezüglich X interpretiert werden. ˆ Interaktionen: Siehe Folie 270. Y i = β 0 + β 1 D 1i + β 2 D 2i + β 3 (D 1i D 2i ) wobei D1 und D2 jeweils Dummy-Variablen sind. Vier Fälle: E(Y D 1 = 0, D 2 = 0) = β 0 + β β β 3 (0 0) = β 0 E(Y D 1 = 1, D 2 = 0) = β 0 + β β β 3 (1 0) = β 0 + β 1 E(Y D 1 = 1, D 2 = 1) = β 0 + β 1 + β 2 + β 3 Wichtig ist, dass β 3 nur dann in den bedingten Erwartungswert eingehen, wenn beide Dummies den Wert 1 annehmen Vergleiche Folien !!. 6

7 4 (Natürliche) Experimente und Differenzenschätzer ˆ Average Treatment Effect: Differenz des Durchschnittswerts in Treatmentgruppe und des Durchschnittswerts der Kontrollgruppe. Modelliert durch Regression mit Dummy D, die den Wert 1 annimmt, wenn das Individuum in der Treatmentgruppe war: Y i = β 0 + β 1 X i β 1 kann dann als ATE interpretiert werden. ˆ Potenzielle Probleme bei der Durchführung von Zufallsexperimenten: Verletung des Versuchsprotokolls bzw. Fehlschlagen der Zufallsauswahl (z.b. Selbstselektion) Abbrecher (Gründe für Abbrechen entscheidend!) Experimentelle Effekte: Teilnehmer können ihr natürliches Verhalten verändern, weil sie wissen, dass sie an einem Experiment teilnehmen (Hawthorne-Effekt). Doppelblind-Studien als Ideal. Zu kleine Stichproben, sodass Erwartungstreue und Konsistenz des OLS- Schätzers argumentativ schwer durchsetzbar sind. Hohe Standardfehler der Schätzer können auch ein Problem sein. Übertragbarkeit der Ergebnisse (externe Validität). Ist das Experiment repräsentativ? ˆ Einfacher und doppelter Differenzenschätzer intuitiv: In natürlichen Experimenten ohne zeitliche Änderung entspricht der einfache Differenzenschätzer dem ATE. In Experimenten mit zeitlicher Änderung ist entscheidend, ob Niveauunterschiede zwischen den beiden Gruppen vor dem Experiment vorgelegen haben. Liegen Niveauunterschiede vor, ist der doppelte Differenzenschätzer vorzuziehen, da dieser die Niveauunterschiede herausrechnet, indem die Veränderung in diesen Gruppen verglichen werden. ˆ Einfacher und doppelter Differenzenschätzer in Regressionen: Regression mit dem einfachen Differenzenschätzer: Siehe Average Treatment Effect. Es können auch Kovariablen aufgenommen werden. Regression beim doppelten Differenzenschätzer: Y = β 0 + β 1 D 1 + β 2 D 2 + β 3 (D 1 D 2 ), Wobei D 1 den Wert 1 annimmt, wenn die Person der Treatmentgruppe angehört und D 2 ist 1, wenn sich die Beobachtung nach dem Experiment gemacht wurde. Effekt ist dann am Koeffizienten des Interaktionsterms des Zeit- und Treatment- Dummies abzulesen, hier β 3. ˆ Tipps: Grafik auf Folie 314! Der einfache Differenzenschätzer ist hier die Differenz zwischen dem Mittelwert in treatment-after und dem Mittelwert von controlafter. 7

8 5 Logit und Probit ˆ Warum kein lineares Modell?: Modelliert werden soll die bedingte Wahrscheinlichkeit, dass Y = 1 bei gegebenen Kovariablen. Wahrscheinlichkeiten nehmen aber nur Werte zwischen 0 und 1 an, ein lineares Modell ist aber nicht beschränkt. Besonders problematisch ist aber, dass immer Heteroskedastie vorliegen würde und so die korrekte Berechnung von Standardfehlern nicht möglich ist (und damit Schlüsse auf die Grundgesamtheit über t- oder p-wert problematisch wäre). ˆ Marginaler Effekte im Probit: Modelliert wird P r(y = 1 X 1,..., X k ) = Φ(β 0 + β 1 X β k X k ), wobei Φ( ) die Verteilungsfunktion der Standardnormalverteilung ist (dafür gibt es keine Formel, die Verteilungsfunktion der Normalverteilung ist analytisch nicht vorhanden). Marginaler Effekt: P r(y = 1 X 1,..., X k ) X 1 = φ(β 0 + β 1 X β k X k ) β 1, wobei φ( ) die Dichte der Standardnormalverteilung ist. Der marginale Effekt ist über die Kettenregel zu berechnen und abhängig von allen Koeffizienten. Die Richtung des Effekts wird durch das Vorzeichen des Koeffizienten der interessierenden Einflussgröße berechnet. ˆ Interpretation des marginalen Effekts im Probit: Interpretiert wird nur die Richtung des Effekts. Ist ˆβ positiv, hat X im Mittel einen positiven Effekt auf Y und einen negativen, wenn ˆβ negativ ist. Signifikanz wird hier über den Gauss-Test abgelesen (z-wert), die kritischen Werte sind die gleichen wie beim t-test, jedenfalls für große Stichproben. ˆ Marginaler Effekte im Logit: Modelliert wird P r(y = 1 X 1,..., X k ) = F (β 0 + β 1 X β k X k ), wobei F ( ) die Verteilungsfunktion der logistischen Verteilung ist. Marginaler Effekt: P r(y = 1 X 1,..., X k ) = f(β 0 + β 1 X β k X k ) β 1, X 1 wobei f( ) die Dichte der logistischen Verteilung ist. Der marginale Effekt ist über die Kettenregel zu berechnen und abhängig von allen Koeffizienten. Die Richtung des Effekts wird durch das Vorzeichen des Koeffizienten der interessierenden Einflussgröße berechnet. ˆ Interpretation des marginalen Effekts im Logit: Interpretiert wird nur die Richtung des Effekts. Ist ˆβ positiv, hat X im Mittel einen positiven Effekt auf Y und einen negativen, wenn ˆβ negativ ist. ˆ Was bedeutet Steigung im Gretl-Output? Marginaler Effekt des jeweiligen Koeffizienten, wenn für alle Einflussgrößen der Mittelwert eingesetzt wird. 8

9 6 Zeitreihen ˆ Autokorrelation: Korrelation von zeitlich benachbarten Werten der gleichen Größe. ρ j = corr(y t, Y t j ). ˆ Persistenz: Hohe Autokorrelation über mehrere Perioden. Persistente Zeitreihen eignen sich besonders, um vergangene Werte zur kurzfristigen Prognose zukünftiger Werte zu verwenden. ˆ AR(p)-Prozess: Lineares Modell mit vergangenen Werten von Y als Kovariablen. Schätzung funktioniert auch über OLS. Parameterschätzung sind bei korrekter Spezifikation durchaus konsistent! Für Prognosen kann das (korrigierte) R 2 verwendet werden, genauso kann ein t-test für einzeln signifikante Koeffizienten und der F-Test für gemeinsam signifikante Koeffizienten verwendet werden. 9