1. Grundlagen linearer Panelmodelle

Größe: px
Ab Seite anzeigen:

Download "1. Grundlagen linearer Panelmodelle"

Transkript

1 1. Grundlagen linearer Panelmodelle 1.1 Aggregierte (gepoolte) Querschnittsdaten Viele Befragungen von Personen, Haushalten oder Unternehmen werden regelmäßig wiederholt. Beispiele sind die jährliche Current Population Survey (CPS) in den USA oder die alle fünf Jahre (zuletzt 2013) in Deutschland durchgeführte Einkommens- und Verbrauchsstichprobe (EVS). Falls zufällige Stichproben in mehreren Zeitperioden gezogen werden, ergibt ihre Aggregation unabhängig aggregierte (gepoolte) Querschnittsdaten. Kennzeichen von aggregierten Querschnittsdaten: Aggregierte Querschnittsdaten weisen sowohl Querschnitts- als auch Zeitreiheneigenschaften auf Durch diese Daten kann die Anzahl der Beobachtungen erhöht werden. Somit erhöht sich auch die Präzision von Schätzern und Testverfahren in linearen Regressionsmodellen (falls der Zusammenhang zumindest zwischen einigen erklärenden und abhängigen Variablen über die Zeit konstant bleibt). Im Hinblick auf die Zugehörigkeit der Population zu verschiedenen Zeitperioden werden entsprechende Dummy-Variablen (die selbst im Fokus der Analyse stehen können) in lineare Regressionsmodelle einbezogen. Es können auch Interaktionsterme mit diesen Dummy-Variablen gebildet werden, falls sich der Effekt der erklärenden Variablen über die Zeit verändert. 1

2 Beispiel: Erklärung der Fertilität von Frauen (I) Mit Daten der in geraden Jahren von 1972 bis 1984 vom National Opinion Research Center durchgeführten General Social Surveys werden mit Hilfe eines linearen gepoolten Regressionsmodells die Determinanten der Anzahl der von einer Frau geborenen Kinder (kids) in den USA untersucht. Erklärende Variablen sind: Ausbildungszeit in Jahren (educ) Alter in Jahren (age) Quadriertes Alter in Jahren (agesq) Hautfarbe (black) Heimat-Regionen im Alter von 16 Jahren (east, northcen, west) Lebensumwelten im Alter von 16 Jahren (farm, othrural, town, smcity) Das Basisjahr für die einbezogenen Dummy-Variablen der einzelnen Jahre (y74, y76, y78, y80, y82, y84) ist Eine wichtige Fragestellung der Analyse ist, wie sich die Fertilitätsrate über die Zeit verändert hat, falls alle anderen beobachteten Faktoren konstant sind. Bei der OLS-Schätzung des linearen gepoolten Regressionsmodells mit STATA zeigen sich dabei für n = 1129 Frauen (im Alter zwischen 35 und 54 Jahren) folgende Ergebnisse:

3 Beispiel: Erklärung der Fertilität von Frauen (II) reg kids educ age agesq black east northcen west farm othrural town smcity y74 y76 y78 y80 y82 y84 Source SS df MS Number of obs = F( 17, 1111) = 9.72 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = kids Coef. Std. Err. t P> t [95% Conf. Interval] educ age agesq black east northcen west farm othrural town smcity y y y y y y

4 Beispiel: Erklärung der Fertilität von Frauen (III) Interpretation der Ergebnisse: Die geschätzten Regressionsparameter der Dummy-Variablen der einzelnen Jahre implizieren einen starken Rückgang der Fertilität in den 1980er Jahren. Die geschätzten Parameter für y82 und y84 sind auch signifikant von null verschieden ist somit z.b. (bei konstanten Werten der anderen erklärenden Variablen) die geschätzte Anzahl der geborenen Kinder um 0,545 geringer als Die Gruppe der geschätzten Parameter aller Dummy-Variablen der einzelnen Jahre sind zudem gemeinsam signifikant von null verschieden. Mit STA- TA zeigen sich folgende Ergebnisse des entsprechenden F-Tests: test y74=y76=y78=y80=y82=y84=0 ( 1) y74 - y76 = 0 ( 2) y74 - y78 = 0 ( 3) y74 - y80 = 0 ( 4) y74 - y82 = 0 ( 5) y74 - y84 = 0 ( 6) y74 = 0 F( 6, 1111) = 5.87 Prob > F = Die Ausbildungszeit hat einen signifikant negativen und die schwarze Hautfarbe einen signifikant positiven Effekt auf kids

5 Beispiel: Erklärung der Fertilität von Frauen (IV) Die geschätzten Parameter für age und agesq sind signifikant von null verschieden, so dass ein signifikanter nicht-linearer marginaler Effekt vorliegt Da der geschätzte Parameter für age positiv und der geschätzte Parameter für agesq negativ ist, hat age bis zu einem Wendepunkt zunächst einen (mit zunehmendem Alter sinkenden) geschätzten positiven und nach diesem Punkt einen geschätzten negativen marginalen Effekt. Der Wendepunkt des geschätzten Effektes von age ergibt sich folgendermaßen: age* = β age /(2 β agesq ) = 0,5321/[2 (-0,0058)] = 45,87 Jahre Es kann bei extrem geringen Signifikanzniveaus Heteroskedastizität nachgewiesen werden. Mit STATA zeigen sich folgende Ergebnisse des entsprechenden Breusch-Pagan-Tests: estat hettest, rhs iid Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: educ age agesq black east northcen west farm othrural town smcity y74 y76 y78 y80 y82 y84 chi2(17) = Prob > chi2 = Bei der OLS-Schätzung mit STATA zeigen sich bei der Einbeziehung heteroskedastizitäts-robust geschätzter Standardabweichungen der geschätzten Parameter folgende Ergebnisse: 5

6 Beispiel: Erklärung der Fertilität von Frauen (V) reg kids educ age agesq black east northcen west farm othrural town smcity y74 y76 y78 y80 y82 y84, robust Linear regression Number of obs = 1129 F( 17, 1111) = Prob > F = R-squared = Root MSE = Robust kids Coef. Std. Err. t P> t [95% Conf. Interval] educ age agesq black east northcen west farm othrural town smcity y y y y y y _cons

7 Anwendung für difference-in-differences Schätzer: Untersucht werden hier die Auswirkungen von natürlichen (bzw. Quasi-) Experimenten. Ein natürliches Experiment liegt vor, wenn ein exogenes Ereignis (insbesondere eine Politikmaßnahme wie z.b. eine arbeitspolitische Maßnahme) das Umfeld von Personen, Haushalten, Unternehmen oder Regionen verändert. Bei natürlichen Experimenten liegt eine typische was wäre wenn Frage vor, da die kontrafaktische Situation ohne exogenes Ereignis fehlt Ein natürliches Experiment enthält eine Treatmentgruppe, die vom Ereignis betroffen ist, sowie eine Kontrollgruppe, die nicht vom Ereignis betroffen ist Für die Analyse der Differenzen zwischen den beiden Gruppen werden Daten vor dem Ereignis und Daten nach dem Ereignis benötigt. Damit erhält man vier Gruppen, d.h. die Treatmentgruppe vor dem Ereignis, die Treatmentgruppe nach dem Ereignis, die Kontrollgruppe vor dem Ereignis und die Kontrollgruppe nach dem Ereignis. Der Effekt des Ereignisses auf Variablen y der Treatmentgruppe kann durch die Differenz zwischen der Differenz der durchschnittlichen Werte der Treatmentgruppe (TG) nach (y NE,TG ) und vor (y VE,TG ) dem Ereignis sowie der Differenz der durchschnittlichen Werte der Kontrollgruppe (KG) nach (y NE,KG ) und vor (y VE,KG ) dem Ereignis geschätzt werden, d.h. durch: (y NE,TG - y NE,KG ) - (y VE,TG - y VE,KG) 7

8 Dieser difference-in-differences Schätzer lässt sich auch mit Hilfe eines linearen gepoolten Regressionsmodells ermitteln, das als erklärende Variablen eine Dummy-Variable für die Zeit nach dem Ereignis (NE), eine Dummy-Variable für die Treatmentgruppe (TG) und einen Interaktionsterm von NE und TG enthält: y = β + δ NE + δ TG + δ NE TG + ε δ 3 misst somit den durchschnittlichen Effekt des Ereignisses auf die Variablen y der Treatmentgruppe und wird deshalb auch als average treatment effect bezeichnet. Jedoch hängt die untersuchte Variable y in der Regel nicht nur vom Ereignis, sondern auch von anderen erklärenden Variablen ab, die in das lineare gepoolte Regressionsmodell einbezogen werden können: y = β + δ NE + δ TG + δ NE TG + β x + + β x + ε k k Auch hier misst δ 3 den average treatment effect und somit den Effekt des Ereignisses, wenngleich er nicht mehr die vorherige einfache Form hat. Der difference-in-differences Ansatz kann folgendermaßen dargestellt werden: E(y) VE NE NE-VE KG β 0 +β 1 x 1 + +β k x k β 0 +δ 1 +β 1 x 1 + +β k x k δ 1 TG β 0 +δ 2 +β 1 x 1 + +β k x k β 0 +δ 1 +δ 2 +δ 3 +β 1 x 1 + +β k x k δ 1 +δ 3 TG-KG δ 2 δ 2 +δ 3 δ 3 8

9 Beispiel: Effekt von Arbeitsunfallgesetz auf Dauer ohne Arbeit (I) In Kentucky wurde 1980 die Obergrenze des Einkommens, bei dem Beschäftigte bei einem Arbeitsunfall eine Entschädigung erhalten, angehoben. Eine solche Anhebung hat keinen Einfluss auf entsprechende Ausgleichszahlungen für Geringverdiener, vermindert aber die Kosten für Hochverdiener. Zur Kontrollgruppe gehören deshalb Geringverdiener und zur Treatmentgruppe gehören jene Hochverdiener, die von diesem Arbeitsunfallgesetz betroffen waren. Auf Basis von zufälligen Stichproben von Beschäftigten mit einem Arbeitsunfall in beiden Gruppen vor und nach dem Gesetz soll untersucht werden, ob dieses den Logarithmus des Zeitraums ohne Arbeit (logdurat), für den Entschädigungen bezahlt werden, erhöht hat. In das lineare gepoolte Regressionsmodell werden somit folgende erklärende Variablen einbezogen: Eine Dummy-Variable für die Zeit nach der Politikmaßnahme (afchnge) Eine Dummy-Variable für die Treatmentgruppe der Hochverdiener (highearn) Der entsprechende Interaktionsterm afchngehighearn von afchnge und highearn Dabei zeigen sich mit STATA folgende OLS-Schätzergebnisse: 9

10 Beispiel: Effekt von Arbeitsunfallgesetz auf Dauer ohne Arbeit (II) reg logdurat afchnge highearn afchngehighearn Source SS df MS Number of obs = F( 3, 5622) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = logdurat Coef. Std. Err. t P> t [95% Conf. Interval] afchnge highearn afchngehighearn _cons Interpretation: Der difference-in-differences Schätzer beträgt 0,191. Mit t = 2,78 ist der geschätzte Parameter des Interaktionsterms signifikant von null verschieden. Der Schätzer impliziert, dass die Dauer ohne Arbeit (aber mit Entschädigungszahlungen) bei Hochverdienern (d.h. highearn = 1) durch die Politikmaßnahme (also durch die Erhöhung der Obergrenze des Einkommens, bei der Beschäftigte bei einem Arbeitsunfall eine Entschädigung erhalten) durchschnittlich um mehr als 19% gestiegen ist

11 Beispiel: Effekt von Arbeitsunfallgesetz auf Dauer ohne Arbeit (III) Weitere Interpretationen: Der geschätzte Parameter für afchnge zeigt für Geringverdiener (d.h. highearn = 0) die geschätzte durchschnittliche Differenz in logdurat zwischen der Zeit nach und der Zeit vor der Politikmaßnahme. Da der Parameter nicht signifikant von null verschieden ist, ergibt sich erwartungsgemäß kein Hinweis darauf, dass diese Politikmaßnahme einen Effekt auf die Dauer ohne Arbeit bei Geringverdienern hat Der geschätzte Parameter von highearn zeigt für die Zeit vor der Politikmaßnahme (d.h. afchnge = 0) die geschätzte durchschnittliche Differenz in logdurat zwischen Hochverdienern und Geringverdienern. Diese Differenz ist hochsignifikant positiv. Das Beispiel zeigt einen typischen Fall, bei dem ein signifikanter Effekt einer Politikmaßnahme vorliegt, obwohl sich die Variation der abhängigen Variablen aufgrund des kleinen Wertes des Bestimmtheitsmaßes nur zu einem geringen Anteil durch die OLS-Regressionsfunktion erklären lässt. Dies war absehbar, da die Dauer ohne Arbeit natürlich von vielen anderen Faktoren wie z.b. der Schwere der Verletzung abhängt

12 Beispiel: Effekt von Arbeitsunfallgesetz auf Dauer ohne Arbeit (IV) Die Einbeziehung einer Vielzahl weiterer erklärender Variablen hat jedoch nur einen geringen Effekt auf den difference-in-differences Schätzer. Zum Beispiel zeigen sich bei der zusätzlichen Einbeziehung zweier Dummy-Variablen für das Geschlecht (male) und den Familienstand (marr) mit STATA folgende OLS- Schätzergebnisse: reg logdurat male married afchnge highearn afchngehighearn Source SS df MS Number of obs = F( 5, 5356) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = logdurat Coef. Std. Err. t P> t [95% Conf. Interval] male married afchnge highearn afchngehighearn _cons

13 1.2 Einfache lineare Panelmodelle für zwei Perioden Im Folgenden werden nun Paneldaten betrachtet, bei denen im Unterschied zu aggregierten Querschnittsdaten für dieselben Untersuchungseinheiten (z.b. Personen, Haushalte, Unternehmen, Regionen) Daten über mehrere Zeitperioden vorliegen. Beispiele auf Basis von Befragungen sind die weltweit am längsten andauernde Befragung (seit 1968) des Panel Study of Income Dynamics (PSID) in den USA oder das (seit 1991 durchgeführte) British Household Panel Survey (BHPS) in Großbritannien. Wichtige Paneldatensätze in Deutschland sind das 1984 aufgebaute Sozio-ökonomische Panel (SOEP) für Haushalte sowie das 1993 aufgebaute Mannheimer Innovationspanel (MIP) für Unternehmen. Vorüberlegungen: Zunächst werden für jede Untersuchungseinheit lediglich zwei (nicht unbedingt direkt aufeinander folgende) Perioden betrachtet, t = 1 und t = 2 Grundsätzlich können für beide Perioden t = 1 und t = 2 (z.b. Jahre) jeweils getrennte Querschnittsanalysen durchgeführt werden. Häufig entsteht dabei allerdings das Problem von Verzerrungen bei der Vernachlässigung relevanter erklärender Variablen ( omitted variable bias ). Die Einbeziehung aller relevanten erklärenden Variablen ist aber oft nicht möglich. 13

14 Beim Vorliegen von Paneldaten bietet sich die Einbeziehung von zwei Typen unbeobachteter Faktoren an, die einen Einfluss auf die abhängige Variable haben: Ein konstanter Faktor α i sowie ein über die Zeit variierender Faktor v it. Bei deren Einbeziehung in ein lineares Regressionsmodell ergibt sich: y = β + δ d2 + β x + + β x + α + v für i = 1,, n; t = 1, 2 it 0 1 t 1 it1 k itk i it Erläuterungen: Der Index i bezeichnet die jeweilige Querschnittseinheit, also z.b. eine Person, einen Haushalt, ein Unternehmen oder eine Region. Der Index t bezeichnet dagegen die Zeitperiode. Die Dummy-Variable d2 t nimmt für t = 2 den Wert eins und für t = 1 den Wert null an. Sie enthält nicht das Subskript i, da sie sich bei verschiedenen i nicht verändert. Die Konstante lautet somit β 0 für t = 1 und β 0 + δ 1 für t = 2. Die Variable α i beinhaltet alle unbeobachteten zeitinvarianten Faktoren, die einen Effekt auf die abhängige Variable y it haben. Aufgrund der Zeitinvarianz enthält sie nicht das Subskript t. Die Variable α i wird auch als unbeobachteter Effekt, fixer Effekt oder unbeobachtete Heterogenität bezeichnet. Dieses lineare Regressionsmodell wird deshalb auch als unobserved effects oder fixed effects Modell bezeichnet. Der Fehlerterm v it wird dagegen häufig als idiosynkratischer oder zeitvarianter Fehler bezeichnet, da er unbeobachtete Faktoren enthält, die sich über die Zeit verändern 14

15 Ein Ansatz zur Schätzung der Regressionsparameter solcher linearer fixed effects Modelle ergibt sich durch die Aggregation der Daten über beide Perioden. Im entsprechenden linearen gepoolten Regressionsmodell kann dann eine OLS-Schätzung durchgeführt werden. Eine wesentliche Voraussetzung für die Konsistenz der geschätzten Regressionsparameter ist dabei allerdings, dass der unbeobachtete Effekt α i mit allen erklärenden Variablen unkorreliert ist. Diese generelle Bedingung bei linearen Regressionsmodellen kann mit dem zusammengesetzten Fehlerterm ε it = α i + v it durch folgende Modifikation veranschaulicht werden: y = β + δ d2 + β x + + β x + ε für i = 1,, n; t = 1, 2 it 0 1 t 1 it1 k itk it Das heißt, ε it muss also für eine konsistente OLS-Schätzung aller Regressionsparameter mit allen x it1,, x itk unkorreliert sein. Selbst wenn also v it mit den erklärenden Variablen unkorreliert ist, ergeben sich verzerrte und inkonsistente Schätzer, falls α i mit einer erklärenden Variablen korreliert ist. Allerdings liegt ein wesentlicher Grund der Anwendung von Paneldaten für empirische Analysen gerade darin, dass α i mit den erklärenden Variablen korreliert sein kann. Da der fixe Effekt α i über die Zeit konstant ist, kann er beseitigt werden, indem für das lineare fixed effects Modell für jede Querschnittseinheit i die ersten Differenzen der Gleichungen in den beiden Perioden t = 2 und t = 1 gebildet werden. Für jedes i = 1,, n ergibt sich dabei zunächst: 15

16 y = β + β x + + β x + α + v (t = 1) i1 0 1 i11 k i1k i i1 y = β + δ + β x + + β x + α + v (t = 2) i i21 k i2k i i2 Durch die Subtraktion der ersten von der zweiten Gleichung ergibt sich: y - y = δ + β (x - x ) + + β (x - x ) + v - v bzw. i2 i1 1 1 i21 i11 k i2k i1k i2 i1 Δy = δ + β Δx + + β Δx + Δv i 1 1 i1 k ik i Diese Gleichung erster Differenzen stellt letztlich eine Querschnittsgleichung dar, bei der jede Variable über die Zeit differenziert ist. Deshalb kann dieser Ansatz wie ein lineares Regressionsmodell mit Querschnittsdaten behandelt werden. Die OLS-Schätzung der Regressionsparameter wird als first-differenced Schätzer (OLS-Schätzer in den ersten Differenzen) bezeichnet. Voraussetzungen für die erwartungstreue OLS-Schätzung (siehe auch später): x ih (h = 1,, k) muss über i variabel sein, d.h. eine erklärende Variable darf nicht über die Zeit invariant sein (z.b. Geschlecht) oder sich bei allen i mit dem gleichen Betrag über die Zeit verändern (z.b. Alter). Diese Bedingung macht Sinn, da α i mit den erklärenden Variablen korreliert sein darf, so dass deren Effekte bei zeitinvarianten erklärenden Variablen nicht separabel sind. v i ist unkorreliert mit allen x ih. Diese Bedingung ist erfüllt, falls die v it in beiden Perioden mit den erklärenden Variablen unkorreliert sind. Dies ist eine andere Version der strikten Exogenität der erklärenden Variablen (und schließt die Einbeziehung verzögerter abhängiger Variablen aus). 16

17 Beispiel 1: Erklärung von Kriminalitätsraten (I) Im Hinblick auf die Untersuchung des Effektes von Arbeitslosenraten (unem) auf Kriminalitätsraten, gemessen mit der Anzahl der Straftaten auf 1000 Personen (crmrte), liegen für n = 46 Städte in den USA sowohl für 1982 (t = 1) als auch für 1987 (t = 2) entsprechende Paneldaten vor. Dabei wird zunächst eine Querschnittsanalyse für 1987 durchgeführt, d.h. auf Basis der Daten von 1987 wird folgende OLS-Regressionsfunktion geschätzt (n = 46, R 2 = 0,033): ˆ crmrte = 128,378-4,161unem (20,757) (3,416) Diese Schätzung impliziert einen unplausiblen (insignifikanten) negativen Effekt der Arbeitslosenraten. Allerdings dürften hier Verzerrungen aufgrund der Vernachlässigung relevanter erklärender Variablen vorliegen. Aufgrund des Vorliegens von Paneldaten für 1982 und 1987 kann aber folgendes lineares fixed effects Modell spezifiziert werden: crmrte = β + δ d87 + β unem + α + v für i = 1,, 46; t = 1, 2 it 0 1 t 1 it i it Dabei bezeichnet d87 die Dummy-Variable für das Jahr

18 Beispiel 1: Erklärung von Kriminalitätsraten (II) In einem ersten Schritt werden zunächst die Paneldaten in einem entsprechenden linearen gepoolten Regressionsmodell aggregiert. Unter Einbeziehung von d87 wird folgende OLS-Regressionsfunktion geschätzt (n 2 = 92 Beobachtungen, R 2 = 0,012): crmrte ˆ = 93, ,940d87 + 0,427unem (12,739) (7,975) (1,188) Allerdings ergibt sich auch unter den restriktiven Annahmen des linearen gepoolten Regressionsmodells ein insignifikanter Effekt von unem. Deshalb wird eine entsprechende OLS-Schätzung in den ersten Differenzen durchgeführt mit folgenden Ergebnissen (n(2-1) = 46 Beobachtungen, R 2 = 0,127): crmrte ˆ = 15, ,218 unem (4,702) (0,878) Damit zeigt sich nun der erwartete signifikant positive Effekt der Arbeitslosenrate, so dass sich durch die Differenzierung und damit Beseitigung des fixen Effektes ein völlig anderes Resultat ergibt. Interessant ist hier auch die geschätzte Konstante, die selbst bei gleichbleibender Arbeitslosenrate einen Anstieg der Kriminalitätsrate (um durchschnittlich über 15 Fälle pro 1000 Einwohner) impliziert. 18

19 Beispiel 1: Erklärung von Kriminalitätsraten (III) reg crmrte unem if year==87 Source SS df MS Number of obs = F( 1, 44) = 1.48 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = 34.6 crmrte Coef. Std. Err. t P> t [95% Conf. Interval] unem _cons reg crmrte unem Source SS df MS Number of obs = F( 1, 90) = 0.11 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = crmrte Coef. Std. Err. t P> t [95% Conf. Interval] unem _cons

20 Beispiel 1: Erklärung von Kriminalitätsraten (IV) reg crmrte unem d87 Source SS df MS Number of obs = F( 2, 89) = 0.55 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = crmrte Coef. Std. Err. t P> t [95% Conf. Interval] unem d _cons reg d.(crmrte unem) Source SS df MS Number of obs = F( 1, 44) = 6.38 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = D.crmrte Coef. Std. Err. t P> t [95% Conf. Interval] unem D _cons

21 Beispiel 2: Zusammenhang zwischen Schlaf und Arbeit (I) Mit Paneldaten von n = 239 Personen in den USA für 1975 und 1981 sollen die Determinanten der Schlafzeit in Minuten pro Woche (slpnap) untersucht werden. Als erklärende Variablen werden folgende Faktoren betrachtet: Arbeitszeit in Minuten pro Woche (totwrk) Ausbildungszeit in Jahren (educ) Familienstand, d.h. eine Dummy-Variable, die den Wert eins annimmt, falls die Person verheiratet ist (marr) Dummy-Variable für die Präsenz eines Kleinkindes (yngkid) Gesundheitsstatus (gdhlth) Analysiert wird ein lineares fixed effects Modell, bei dem zeitinvariante Variablen wie z.b. Geschlecht oder Hautfarbe nicht einbezogen werden. Bei der OLS-Schätzung in den ersten Differenzen impliziert der signifikant von null verschiedene negative Parameter für totwrk einen Trade-off zwischen Schlaf und Arbeit. Alle anderen Steigungsparameter sind nicht signifikant von null verschieden. Der sehr hohe Schätzwert der Standardabweichung bei educ weist auf die geringe Variation der Ausbildungszeit im Datensatz hin (bei mehr als 76% der 239 Personen liegt keinerlei Variation vor). Im Einzelnen zeigen sich mit STATA folgende Schätzergebnisse:

22 Beispiel 2: Zusammenhang zwischen Schlaf und Arbeit (II) xtset id year, delta(6) panel variable: id (strongly balanced) time variable: year, 75 to 81 delta: 6 units reg d.(slpnap totwrk educ marr yngkid gdhlth) Source SS df MS Number of obs = F( 5, 233) = 8.19 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = D.slpnap Coef. Std. Err. t P> t [95% Conf. Interval] totwrk D educ D marr D yngkid D gdhlth D _cons

23 Mit first-differenced OLS-Schätzungen in linearen fixed effects Modellen können wie bei der vorherigen Betrachtung auch Programme wie z.b. Politikmaßnahmen untersucht werden. Der Unterschied liegt darin, dass bei Paneldaten dieselben Untersuchungseinheiten betrachtet werden können. Dadurch kann für unbeobachtete Heterogenität kontrolliert werden. Einfaches lineares fixed effects Modell: y = β + δ d2 + β prog + α + v für i = 1,, n; t = 1, 2 it 0 1 t 1 it i it Dabei nimmt d2 t wieder für t = 2 den Wert eins und für t = 1 den Wert null an. Die Dummy-Variable prog it nimmt dagegen den Wert eins an, wenn Untersuchungseinheit i in der entsprechenden Zeitperiode t von einem spezifischen Programm betroffen ist. Durch Differenzierung ergibt sich: Δy = δ + β Δprog + Δv i 1 1 i i Falls eine Programmbeteiligung nur in der zweiten Periode t = 2 vorliegt, ergibt sich für den OLS-Schätzer für β 1 in den ersten Differenzen: ˆβ = Δy - Δy 1 TG KG Dies ist die Paneldatenversion des vorherigen difference-in-differences Schätzers bei aggregierten Querschnittsdaten. Wenn eine Programmbeteiligung in beiden Perioden möglich ist, kann der first-differenced Schätzer für die Veränderung von y durch die Programmbeteiligung nicht mehr wie hier dargestellt werden. 23

24 Beispiel: Weiterbildungsprogramme und Ausschussraten (I) Für die Analyse des Effektes eines Weiterbildungsprogramms (grant) in Michigan auf Ausschussraten in Unternehmen in % (scrap) liegen Paneldaten für die Jahre 1987 und 1988 vor. Damit ergeben sich folgende linearen fixed effects und first-differenced Modelle (wobei y88 eine Dummy-Variable für 1988 ist): scrap = β + δ y88 + β grant + α + v für i = 1,, 54; t = 1, 2 it 0 1 t 1 it i it Δscrap = δ + β Δgrant + Δv i 1 1 i i Es zeigen sich folgende first-differenced OLS-Schätzergebnisse (R 2 = 0,022): ˆ Δscrap = -0,564-0,739Δgrant (0,405) (0,683) Demnach zeigt sich kein signifikanter Effekt des Weiterbildungsprogramms. Dagegen zeigen sich bei der Verwendung des Logarithmus der Ausschussraten (logscrap) folgende first-differenced OLS-Schätzergebnisse (R 2 = 0,067): Δlogscrap ˆ = -0,057-0,317Δgrant (0,097) (0,164) Für den difference-in-differences Schätzer ergibt sich nun ein t-wert von -1,93. Bei der Betrachtung einer gepoolten OLS-Schätzung zeigt sich dagegen kein signifikanter Effekt

25 Beispiel: Weiterbildungsprogramme und Ausschussraten (II) reg scrap y88 grant Source SS df MS Number of obs = F( 2, 105) = 0.45 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = scrap Coef. Std. Err. t P> t [95% Conf. Interval] y grant _cons reg logscrap y88 grant Source SS df MS Number of obs = F( 2, 105) = 0.18 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = logscrap Coef. Std. Err. t P> t [95% Conf. Interval] y grant _cons

26 Beispiel: Weiterbildungsprogramme und Ausschussraten (III) reg d.(scrap grant) Source SS df MS Number of obs = F( 1, 52) = 1.17 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = D.scrap Coef. Std. Err. t P> t [95% Conf. Interval] grant D _cons reg d.(logscrap grant) Source SS df MS Number of obs = F( 1, 52) = 3.74 Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = D.logscrap Coef. Std. Err. t P> t [95% Conf. Interval] grant D _cons

27 1.3 Einfache lineare Panelmodelle für mehr als zwei Perioden Wenn für i = 1,, n Querschnittseinheiten Paneldaten für t = 1,, T Perioden vorliegen (wobei bei mikroökonometrischen Betrachtungen T > 2 eher klein ist im Vergleich zu großen n) ergibt sich unter Einbeziehung von T-1 Dummy-Variablen für die Perioden t = 2,, T mit der Basisperiode t = 1 folgendes allgemeines lineares fixed effects Modell: y = β + δ d2 + δ d3 + + δ dt + β x + + β x + α + v it 0 1 t 2 t T-1 t 1 it1 k itk i it Dadurch liegen nun insgesamt N = nt Beobachtungen vor. Ausführlich dargestellt ergibt sich: y = β + β x + + β x + α + v i1 0 1 i11 k i1k i i1 y = β + δ + β x + + β x + α + v i i21 k i2k i i2 y = β + δ + β x + + β x + α + v it 0 T-1 1 it1 k itk i it Wie bereits erwähnt, setzt die Konsistenz der OLS-Schätzer im gepoolten linearen Regressionsmodel voraus, dass α i mit allen erklärenden Variablen unkorreliert ist. Aber selbst in diesem (oft unrealistischen) Fall liegen (wegen der Einbeziehung derselben Querschnittseinheiten i über die Zeit) meist für den gemeinsamen Störterm ε it = α i + v it (zumindest für einzelne i) Autokorrelationen vor, so dass z.b. die t-statistiken nicht mehr t-verteilt sind und entsprechend (z.b. cluster-) robuste t-statistiken (siehe Kapitel 2) betrachtet werden sollten. 27

28 Jedoch kann der fixe Effekt α i wiederum beseitigt werden, indem für das lineare fixed effects Modell für jede Untersuchungseinheit i und über alle Zeitperioden t = 2,, T die ersten Differenzen gebildet werden, wobei jeweils die erste von der zweiten Periode, die zweite von der dritten Periode subtrahiert wird usw. bis schließlich die Periode T-1 von Periode T subtrahiert wird. Damit ergibt sich für t = 2,, T folgendes lineares first-differenced Modell: Δy = δ Δd2 + δ Δd3 + + δ ΔdT + β Δx + + β Δx + Δv bzw. it 1 t 2 t T-1 t 1 it1 k itk it Δy = δ + β Δx + + β Δx + Δv i2 1 1 i21 k i2k i2 Δy = -δ + δ + β Δx + + β Δx + Δv i i31 k i3k i3 Δy = -δ + δ + β Δx + + β Δx + Δv it T-2 T-1 1 it1 k itk it Falls bei einer Aggregation der Daten über alle Perioden für dieses (gepoolte) first-differenced Modell die klassischen linearen Modellannahmen gelten, ergeben sich bei der OLS-Schätzung erwartungstreue Schätzer und die t- und F- Statistiken folgen der t- und F-Verteilung. Allerdings enthält dieses Modell keine Konstante. Dies ist für einige Anwendungen unpraktisch, weshalb in der Regel folgendes lineares first-differenced Modell mit einer Konstante und T-2 Dummy- Variablen für die Perioden t = 3, 4,, T betrachtet wird (die Einbeziehung einer linearen Zeittrendvariablen wäre auch möglich): 28

29 Δy it = β 0+ δ1d3 t+ δ2d4 t+ + δt-2dt t+ β1δx it1+ + βkδx itk+ Δvit Auch das lineare first-differenced Modell kann mit OLS geschätzt werden. Da bei einem balanced panel für jede Untersuchungseinheit i jeweils T-1 Perioden vorliegen, beträgt hier die gesamte Anzahl an Beobachtungen N = n(t-1). Im Folgenden werden die Annahmen zur Betrachtung des Erwartungswertes bei der OLS-Schätzung in allgemeinen linearen (gepoolten) first-differenced Modellen zusammengestellt: Annahme C1: Lineares fixed effects Modell y it = β 1 x it1 + + β k x itk + α i + v it Annahme C2: Zufallsstichprobe Es liegt im Querschnitt eine Stichprobe vom Umfang n aus der Grundgesamtheit vor Annahme C3: Keine perfekte Kollinearität und Zeitvarianz Jede erklärende Variable muss für einige i über die Zeit variieren und es besteht keine exakte lineare Beziehung zwischen den erklärenden Variablen Annahme C4: Bedingter Erwartungswert von v it ist null Für alle t ist der bedingte Erwartungswert des idiosynkratischen Fehlers, gegeben die erklärenden Variablen in allen Perioden sowie der unbeobachtete Effekt, null, d.h. E(v it x i, α i ) = 0 29

30 Mit diesen vier Annahmen C1 bis C4 sind die first-differenced OLS-Schätzungen der Regressionsparameter erwartungstreu und für festes T mit n konsistent. Zu Annahme C4 : Mit dem k-dimensionalen Vektor x it = (x it1,, x itk ) beinhaltet der T k-dimensionale Vektor x i = (x i1,, x it ) für eine Querschnittseinheit i alle erklärenden Variablen x ith über alle Zeitperioden (t = 1,, T; h = 1,, k) Unter dieser Annahme liegt eine bedingte strikte Exogenität der erklärenden Variablen, gegeben der fixe Effekt, vor. Damit besteht keine Korrelation zwischen den erklärenden Variablen und dem idiosynkratischen Fehler, wenn für die unbeobachtete Heterogenität kontrolliert wird. Annahme C4 ist restriktiver als notwendig und bezieht sich auf die Betonung des interessierenden Erwartungswertes E(y it x i, α i ) = β 1 x it1 + + β k x itk + α i, wobei der Steigungsparameter β h den partiellen Effekt der erklärenden Variablen x h misst, wenn für unbeobachtete Heterogenität kontrolliert wird Ausreichend für die Erwartungstreue der OLS-Schätzer in den ersten Differenzen wäre es, wenn E( v it x i ) = 0 (t = 2,, T). Ausreichend für die Konsistenz der Schätzer wäre es, wenn die x ith mit den v it unkorreliert sind. Dies gilt bereits bei schwacher Exogenität der erklärenden Variablen, d.h. mit E(v it x i1,, x it, α i ) = 0, so dass hierfür nicht die strikte Exogenität notwendig ist mit E(v it x i, α i ) = E(v it x i1,, x it,, x it, α i ) = 0. 30

31 Weitere Annahmen: Annahme C5: Homoskedastizität Die bedingte Varianz der ersten Differenzen der idiosynkratischen Fehler, gegeben alle erklärenden Variablen, ist für alle Zeitperioden t = 2,, T konstant, d.h. Var( v it x i ) = σ 2 Annahme C6: Keine Autokorrelation Für alle Perioden t s sind die ersten Differenzen der idiosynkratischen Fehler unter der Bedingung von x i unkorreliert, d.h. Cov( v it, v is x i ) = 0 Mit den sechs Annahmen C1 bis C6 sind die first-differenced OLS-Schätzer die besten linearen unverzerrten Schätzer unter der Bedingung von x i. Zusätzliche Annahme C7: Normalverteilung Unter der Bedingung von x i sind die ersten Differenzen der idiosynkratischen Fehler v it unabhängig und identisch normalverteilt Unter den sieben Annahmen C1 bis C7 sind die first-differenced OLS-Schätzer unter der Bedingung von x i normalverteilt, so dass die entsprechenden t- und F-Statistiken den t- und F-Verteilungen folgen. Ohne die Annahme C7, aber mit den sechs Annahmen C1 bis C6 kann jedoch die asymptotische Normalverteilung von Funktionen des OLS-Schätzers in den ersten Differenzen sowie die asymptotische t- und F-Verteilung der t- und F-Statistiken abgeleitet werden. 31

32 Zu Annahme C6: Falls die ursprünglichen idiosynkratischen Fehler v it über die Zeit unkorreliert sind, ergibt sich daraus nicht zwangsläufig, dass die ersten Differenzen v it der idiosynkratischen Fehler über die Zeit unkorreliert sind Falls die v it keine Autokorrelation und eine konstante Varianz aufweisen, ergibt sich für die Korrelation zwischen v it und v i,t+1 der Wert -0,5. Falls die v it einem stabilen AR(1) Prozess folgen (v it = ρv i,t-1 + e t ), sind die v it autokorreliert. Lediglich wenn die v it einem random walk folgen (v it = v i,t-1 + e t ), sind die v it nicht autokorreliert. Zur statistischen Überprüfung, dass die v it keine AR(1) Autokorrelation aufweisen, kann ein entsprechender t-test auf AR(1) Autokorrelation der Fehlerterme auf die Betrachtung der ersten Differenzen der idiosynkratischen Fehler übertragen werden Falls eine Autokorrelation in den v it vorliegt, können GLS-Schätzungen angewendet oder aber autokorrelations- (und auch heteroskedastizitäts-) robuste Korrekturen bei den Schätzern der Varianzen der geschätzten Parameter und damit bei den t-statistiken durchgeführt werden. Voraussetzung dafür ist aber, dass n groß und vor allem deutlich größer als T ist. Falls keine Autokorrelation in den v it vorliegt, können entsprechende Tests auf Heteroskedastizität (z.b. der Breusch-Pagan-Test) durchgeführt sowie heteroskedastizitäts-robuste Schätzer der Varianzen der geschätzten Parameter und damit t-statistiken abgeleitet werden 32

33 Beispiel 1: Effekt von Industriefördergebieten auf Arbeitslosenzahlen (I) Mit Hilfe von Paneldaten und eines linearen fixed effects Modells soll der Effekt eines Programms zur Einrichtung von Industriefördergebieten in Indiana auf den Logarithmus von Arbeitslosenzahlen (loguclms) für i = 1,, 22 Städte in Indiana über die Jahre von t = 1980 bis t = 1988 (T = 9) untersucht werden: loguclms = β + δ d δ d88 + β ez + α + v it 0 1 t 8 t 1 it i it Die Dummy-Variable ez it nimmt dabei den Wert eins an, wenn Stadt i im Jahr t ein Industriefördergebiet ist. Die Dummy-Variablen d81,, d88 beziehen sich auf die jeweiligen Jahre. Der fixe Effekt α i kann als allgemeines ökonomisches Umfeld in Stadt i interpretiert werden. Wenn die Einrichtung von Industriefördergebieten nicht zufällig ist, sondern vom ökonomischen Umfeld abhängt, sind ez it und α i korreliert, so dass α i im folgenden linearen first-differenced Modell beseitigt werden sollte (t = 1981,, t = 1988): loguclms = β + δ d δ d88 + β ez + Δv it 0 1 t 7 t 1 it it Mit N = n(t-1) = 22 8 = 176 Beobachtungen hat sich der first-differenced Schätzer β 1 = -0,182 bei einer geschätzten Standardabweichung von 0,078 ergeben. Damit ergibt sich ein signifikant negativer Effekt der Präsenz eines Industriefördergebietes. Der geschätzte Parameter impliziert näherungsweise eine durchschnittliche über 18% geringere Arbeitslosenzahl

34 Beispiel 1: Effekt von Industriefördergebieten auf Arbeitslosenzahlen (II) reg d.(loguclms) d82 d83 d84 d85 d86 d87 d88 d.(ez) Source SS df MS Number of obs = F( 8, 167) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = D.loguclms Coef. Std. Err. t P> t [95% Conf. Interval] d d d d d d d ez D _cons

35 Beispiel 1: Effekt von Industriefördergebieten auf Arbeitslosenzahlen (III) Zum Vergleich zeigen sich in einem linearen gepoolten Regressionsmodell mit STATA folgende OLS-Schätzergebnisse: reg loguclms d81 d82 d83 d84 d85 d86 d87 d88 ez Source SS df MS Number of obs = F( 9, 188) = Model Prob > F = Residual R-squared = Adj R-squared = Total Root MSE = loguclms Coef. Std. Err. t P> t [95% Conf. Interval] d d d d d d d d ez _cons

36 Beispiel 2: Erklärung von Kriminalitätsraten (I) Mit Hilfe von Paneldaten für n = 90 Regionen in North Carolina für die Jahre von 1981 bis 1987 (T = 7) soll ein lineares fixed effects Modell für die Erklärung des Logarithmus der Anzahl von Straftaten pro Person (logcrmrte) betrachtet werden. Der unbeobachtete Effekt α i kann dabei verschiedene Faktoren wie geographische Lage oder Verhalten gegenüber Straftaten beinhalten. Als erklärende Variablen werden folgende Faktoren betrachtet: Logarithmus der Wahrscheinlichkeit einer Festnahme (logprbarr) Logarithmus der Wahrscheinlichkeit einer Verurteilung nach Festnahme (logprbcon) Logarithmus der Wahrscheinlichkeit eines Gefängnisaufenthalts nach Verurteilung (logprbpris) Logarithmus der durchschnittlichen Höhe des Strafmaßes (logavgsen) Logarithmus der Anzahl von PolizistInnen pro Kopf (logpolpc) Daneben wird die maximal mögliche Anzahl an Dummy-Variablen (d83, d84, d85, d86, d87) für die einzelnen Jahre einbezogen. Bei der OLS-Schätzung in den ersten Differenzen (mit einer cluster-robusten Schätzung der Standardabweichungen der geschätzten Regressionsparameter, siehe Kapitel 2) zeigen sich mit STATA folgende Schätzergebnisse:

37 Beispiel 2: Erklärung von Kriminalitätsraten (II) reg d.(logcrmrte) d83 d84 d85 d86 d87 d.(logprbarr logprbcon logprbpri logavgsen logpolpc), cluster(county) Linear regression Number of obs = 540 F( 10, 89) = Prob > F = R-squared = Root MSE = (Std. Err. adjusted for 90 clusters in county) Robust D.logcrmrte Coef. Std. Err. t P> t [95% Conf. Interval] d d d d d logprbarr D logprbcon D logprbpri D logavgsen D logpolpc D _cons

38 Beispiel 2: Erklärung von Kriminalitätsraten (III) Damit zeigen sich für die drei Wahrscheinlichkeitsvariablen die erwarteten signifikant negativen Elastizitäten (z.b. geschätzte 0,327% bei einer Erhöhung der Wahrscheinlichkeit einer Festnahme um 1%). Lediglich der positiv geschätzte Parameter für die Anzahl von PolizistInnen ist unplausibel. Zum Vergleich zeigen sich in einem linearen gepoolten Regressionsmodell (mit N = n T = 90 7 = 630) mit STATA folgende OLS-Schätzergebnisse: reg logcrmrte d82 d83 d84 d85 d86 d87 logprbarr logprbcon logprbpri logavgsen logpolpc, cluster(county) Robust logcrmrte Coef. Std. Err. t P> t [95% Conf. Interval] d d d d d d logprbarr logprbcon logprbpri logavgsen logpolpc _cons

2. Statische lineare Panelmodelle

2. Statische lineare Panelmodelle 2. Statische lineare Panelmodelle 2.1 Fixed effects Schätzung Eine gegenüber der first-differenced OLS-Schätzung oft vorteilhaftere Vorgehensweise zur Beseitigung der fixen Effekte α i in linearen fixed

Mehr

Einführung in Panel-Verfahren

Einführung in Panel-Verfahren Einführung in Panel-Verfahren Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Drei Arten von Datensätzen Cross-Section

Mehr

Das Lineare Regressionsmodell

Das Lineare Regressionsmodell Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines

Mehr

Kurs Empirische Wirtschaftsforschung

Kurs Empirische Wirtschaftsforschung Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische

Mehr

Statistischer Rückschluss und Testen von Hypothesen

Statistischer Rückschluss und Testen von Hypothesen Statistischer Rückschluss und Testen von Hypothesen Statistischer Rückschluss Lerne von der Stichprobe über Verhältnisse in der Grundgesamtheit Grundgesamtheit Statistischer Rückschluss lerne aus Analyse

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Annahmen des linearen Modells

Annahmen des linearen Modells Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im SS 2012

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im SS 2012 Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im SS 2012 Aufgabe 1 (20 Punkte) Sei y = Xβ + ε ein N 1 Vektor und X eine N K Matrix.

Mehr

1. Einleitung. 1.1 Phasen einer ökonometrischen Analyse

1. Einleitung. 1.1 Phasen einer ökonometrischen Analyse 1. Einleitung 1.1 Phasen einer ökonometrischen Analyse Empirische ökonomische bzw. ökonometrische Analyse: Nutzung von Schätz- und Testmethoden zur Überprüfung ökonomischer Hypothesen oder Quantifizierung

Mehr

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden

Mehr

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 3.0.004 0.0.004

Mehr

Vorlesung 4: Spezifikation der unabhängigen Variablen

Vorlesung 4: Spezifikation der unabhängigen Variablen Vorlesung 4: Spezifikation der unabhängigen Variablen. Fehlspezifikation der unabhängigen Variablen. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der

Mehr

Zeitreihen. Statistik II. Literatur. Zeitreihen-Daten Modelle Probleme Trends und Saisonalität Fehlerstruktur. 1 Wiederholung.

Zeitreihen. Statistik II. Literatur. Zeitreihen-Daten Modelle Probleme Trends und Saisonalität Fehlerstruktur. 1 Wiederholung. Statistik II 1 Literatur 2 -Daten Trends und Saisonalität Fehlerstruktur 3 Statistik II (1/31) Literatur Zum Nachlesen Wooldridge ch 101 & 102 Statistik II (2/31) Literatur Für nächste Woche Einfache für

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Vorlesung 9: Kumulierte (gepoolte) Querschnittsdaten

Vorlesung 9: Kumulierte (gepoolte) Querschnittsdaten Vorlesung 9: Kumulierte (gepoolte) Querschnittsdaten 1. Kumulierte Querschnittsdaten: Was ist das? 2. Anwendungsmöglichkeiten im Überblick 3. Fallstudie 1: Determinanten von Erwerbseinkommen 1978-85 4.

Mehr

Datenanalyse mit Excel und Gretl

Datenanalyse mit Excel und Gretl Dozent: Christoph Hindermann christoph.hindermann@uni-erfurt.de Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 1 Teil 2: Gretl Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 2 Modellannahmen

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Vorlesung 3: Schätzverfahren

Vorlesung 3: Schätzverfahren Vorlesung 3: Schätzverfahren 1. Beispiel: General Social Survey 1978 2. Auswahl einer Zufallsstichprobe und Illustration des Stichprobenfehlers 3. Stichprobenverteilung eines Regressionskoeffizienten 4.

Mehr

1. Lösungen zu Kapitel 7

1. Lösungen zu Kapitel 7 1. Lösungen zu Kapitel 7 Übungsaufgabe 7.1 Um zu testen ob die Störterme ε i eine konstante Varianz haben, sprich die Homogenitätsannahme erfüllt ist, sind der Breusch-Pagan-Test und der White- Test zwei

Mehr

Einfache Modelle für Paneldaten. Statistik II

Einfache Modelle für Paneldaten. Statistik II Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen. Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte

Mehr

Institut für Soziologie Benjamin Gedon. Methoden 2. Kausalanalyse

Institut für Soziologie Benjamin Gedon. Methoden 2. Kausalanalyse Institut für Soziologie Methoden 2 Kausalanalyse Inhalt 1. Kausalanalyse 2. Anwendungsbeispiel 3. Wiederholung 4. Übungsaufgabe # 2 Kausalanalyse Kausalität: Identifizieren von Ursache-Wirkungs-Beziehungen

Mehr

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Wiederholung Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

1 Einführung Ökonometrie... 1

1 Einführung Ökonometrie... 1 Inhalt 1 Einführung... 1 1.1 Ökonometrie... 1 2 Vorüberlegungen und Grundbegriffe... 7 2.1 Statistik als Grundlage der Empirischen Ökonomie... 7 2.2 Abgrenzung und Parallelen zu den Naturwissenschaften...

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte : Schätzung Statistik

Mehr

Analyse von Querschnittsdaten. Heteroskedastizität

Analyse von Querschnittsdaten. Heteroskedastizität Analyse von Querschnittsdaten Heteroskedastizität Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004 03.11.2004

Mehr

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer John Komlos Bernd Süssmuth Empirische Ökonomie Eine Einführung in Methoden und Anwendungen 4y Springer 1 Einführung 1 1.1 Ökonometrie 1 2 Vorüberlegungen und Grundbegriffe 7 2.1 Statistik als Grundlage

Mehr

Empirical Banking and Finance

Empirical Banking and Finance Empirical Banking and Finance Vorlesung zur Volkswirtschaftspolitik Prof. Dr. Isabel Schnabel Lehrstuhl für Volkswirtschaftslehre, insb. Financial Economics Johannes Gutenberg-Universität Mainz Wintersemester

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Signifikanztests I Basics Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004

Mehr

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen Breusch-Pagan-Test I Ein weiterer Test ist der Breusch-Pagan-Test. Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine (einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.

Mehr

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1 FRAGESTUNDE Dr. Christian Schwarz 1 #2 - Allgemein Q: Müssen wir den Standard Error händisch berechnen können? R: Nein. Q: Hat das Monte Carlo Experiment irgendeine Bedeutung für uns im Hinblick auf die

Mehr

Panelregression (und Mehrebenenanwendungen)

Panelregression (und Mehrebenenanwendungen) Panelregression (und Mehrebenenanwendungen) Henning Lohmann Universität zu Köln Lehrstuhl für Empirische Sozial- und Wirtschaftsforschung SOEP@Campus 2007, Universität Duisburg-Essen, 11. Oktober 2007

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Das lineare Regressionsmodell

Das lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Prof. Dr. Werner Smolny Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Institutsdirektor Das ökonomische

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Bachelorprüfung WS 2012/13

Bachelorprüfung WS 2012/13 Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Fach: Praxis der empirischen Wirtschaftsforschung Prüfer: Prof. Regina T. Riphahn, Ph.D. Bachelorprüfung WS 2012/13

Mehr

1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann.

1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09 Dr Sylvia Kaufmann Februar 2009 Angewandte Ökonometrie, Sylvia Kaufmann, FS09 1 1 Gliederung Zeitreihenökonometrie Einführung

Mehr

Analyse zeitabhängiger Daten. Kumulierte (gepoolte) Querschnittsdaten I

Analyse zeitabhängiger Daten. Kumulierte (gepoolte) Querschnittsdaten I Analyse zeitabhängiger Daten Kumulierte (gepoolte) Querschnittsdaten I 1 Warum geht es in den folgenden Sitzungen? Kumulierte Querschnitte (Trend-, Kohortenanalyse) Datum 04.04.07 11.04.07 18.04.07 25.04.07

Mehr

Empirical Banking and Finance

Empirical Banking and Finance Empirical Banking and Finance Vorlesung zur Volkswirtschaftspolitik Prof. Dr. Isabel Schnabel Lehrstuhl für Volkswirtschaftslehre, insb. Financial Economics Johannes Gutenberg-Universität Mainz Wintersemester

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Arbeitsmarktökonomie. Fragestunde. Universität Basel HS 2014 Christoph Sajons, Ph.D.

Arbeitsmarktökonomie. Fragestunde. Universität Basel HS 2014 Christoph Sajons, Ph.D. Arbeitsmarktökonomie Fragestunde Universität Basel HS 2014 Christoph Sajons, Ph.D. 1 Heute A. Ganz kurz: Empirie Migration B. Allgemeines zur Klausur C. Fragen 2 A. Empirie Migration Siehe Do- und Log-file

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Analyse von Querschnittsdaten. Statistische Inferenz

Analyse von Querschnittsdaten. Statistische Inferenz Analyse von Querschnittsdaten Statistische Inferenz Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004 03.11.2004

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im SS 2012 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im SS 2012 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im SS 2012 Lösungsskizze Aufgabe 1 (20 Punkte) Sei y = Xβ + ε ein N 1 Vektor und X eine

Mehr

5. Lineare Regressionsmodelle mit Zeitreihendaten 5.1 Vorüberlegungen

5. Lineare Regressionsmodelle mit Zeitreihendaten 5.1 Vorüberlegungen 5. Lineare Regressionsmodelle mit Zeitreihendaten 5.1 Vorüberlegungen Besonderheiten von Zeitreihendaten im Vergleich zu Querschnittsdaten: Bei Zeitreihendaten werden eine oder mehrere Variablen über mehrere

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 6.. Herleitung des OLS-Schätzers

Mehr

OLS-Schätzung: asymptotische Eigenschaften

OLS-Schätzung: asymptotische Eigenschaften OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl

Mehr

Masterprüfung SS 2014

Masterprüfung SS 2014 Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Masterprüfung SS 2014 Fach: Ökonometrie Prüfer: Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnummer E-Mail

Mehr

3 Grundlagen statistischer Tests (Kap. 8 IS)

3 Grundlagen statistischer Tests (Kap. 8 IS) 3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung

Mehr

Die Regressionsanalyse

Die Regressionsanalyse Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige

Mehr

1. Lösungen zu Kapitel 8

1. Lösungen zu Kapitel 8 1. Lösungen zu Kapitel 8 Übungsaufgabe 8.1 a) Falsch! Die Nichtberücksichtigung von unwichtigen Variablen für die Identifikation kausaler Effekte stellt kein Problem dar, sofern diese Variablen keinen

Mehr

Instrumentvariablen und Instrumentvariablenschätzer

Instrumentvariablen und Instrumentvariablenschätzer Instrumentvariablen und Instrumentvariablenschätzer Ausgangspunkt der Überlegungen Es gibt endogene erklärende Variable. D. h. diese erklärenden Variablen werden selbst wieder durch das Modell erklärt.

Mehr

Econometrics Übung 1. CLRM & Verletzung der Unabhängigkeitsannahme

Econometrics Übung 1. CLRM & Verletzung der Unabhängigkeitsannahme Econometrics Übung 1 CLRM & Verletzung der Unabhängigkeitsannahme CLRM 1. Repetition: Gauss-Markov-Annahmen 2. Beispiel: Income & Consumption Verletzung der Unabhängigkeitsannahme 3. Repetition: Was passiert,

Mehr

Nachschreibklausur im Anschluss an das SS 2009

Nachschreibklausur im Anschluss an das SS 2009 Nachschreibklausur im Anschluss an das SS 2009 08. Oktober 2009 Lehrstuhl: Prüfungsfach: Prüfer: Hilfsmittel: Klausurdauer: Wirtschaftspolitik Empirische Wirtschaftsforschung Prof. Dr. K. Kraft Nicht-programmierbarer

Mehr

Inferenz im multiplen Regressionsmodell

Inferenz im multiplen Regressionsmodell 1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Kurze Einführung in die Ökonometrie-Software E-Views

Kurze Einführung in die Ökonometrie-Software E-Views Kurze Einführung in die Ökonometrie-Software E-Views Folie 2 Workfile Kurze Einführung in die Ökonometrie-Software E-Views 4. November 2008 Typischerweise liegen die Daten in einem Spreadsheet -Format

Mehr

Einführung in die Methoden der Empirischen Wirtschaftsforschung

Einführung in die Methoden der Empirischen Wirtschaftsforschung Einführung in die Methoden der Empirischen Wirtschaftsforschung Prof. Dr. Dieter Nautz Einführung in die Methoden der Emp. WF 1 / 37 Übersicht 1 Einführung in die Ökonometrie 1.1 Was ist Ökonometrie? 1.2

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen .1. Stochastische ökonometrische Modelle.1 Einführung Ziele: - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen - Numerische Konkretisierung ökonomischer Modelle und deren Analse. . Variierende

Mehr

Klausur zu Statistik II

Klausur zu Statistik II GOETHE-UNIVERSITÄT FRANKFURT FB Wirtschaftswissenschaften Statistik und Methoden der Ökonometrie Prof. Dr. Uwe Hassler Wintersemester 03/04 Klausur zu Statistik II Matrikelnummer: Hinweise Hilfsmittel

Mehr

Zeitreihen. Statistik II

Zeitreihen. Statistik II Statistik II Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Zum Nachlesen

Mehr

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff. Vorlesung: Lineare Modelle Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München SoSe 205 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.

Mehr

Empirische Analysen mit dem SOEP

Empirische Analysen mit dem SOEP Empirische Analysen mit dem SOEP Methodisches Lineare Regressionsanalyse & Logit/Probit Modelle Kurs im Wintersemester 2007/08 Dipl.-Volksw. Paul Böhm Dipl.-Volksw. Dominik Hanglberger Dipl.-Volksw. Rafael

Mehr

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression Institut für Soziologie Christian Ganser Methoden 2 Regressionsanalyse II: Lineare multiple Regression Inhalt 1. Anwendungsbereich 2. Vorgehensweise bei multipler linearer Regression 3. Beispiel 4. Modellannahmen

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik 1-Stichproben-Mittelwert-Tests 1-Stichproben-Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Bachelorprüfung WS 2012/13 - MUSTERLÖSUNG

Bachelorprüfung WS 2012/13 - MUSTERLÖSUNG Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Bachelorprüfung WS 2012/13 - MUSTERLÖSUNG Fach: Praxis der empirischen Wirtschaftsforschung Prüfer: Prof. Regina

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Lösung Übungsblatt 5

Lösung Übungsblatt 5 Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von

Mehr

Lehrstuhl für Statistik und emp. Wirtschaftsforschung, Prof. R. T. Riphahn, Ph.D. Bachelorprüfung, Praxis der empirischen Wirtschaftsforschung

Lehrstuhl für Statistik und emp. Wirtschaftsforschung, Prof. R. T. Riphahn, Ph.D. Bachelorprüfung, Praxis der empirischen Wirtschaftsforschung Lehrstuhl für Statistik und emp. Wirtschaftsforschung, Prof. R. T. Riphahn, Ph.D. Bachelorprüfung, Praxis der empirischen Wirtschaftsforschung Aufgabe 1: [14,5 Punkte] Sie interessieren sich für die Determinanten

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Mikro-Ökonometrie, WS 15/16 Musterlösung Aufgabenblatt 3

Mikro-Ökonometrie, WS 15/16 Musterlösung Aufgabenblatt 3 Mikro-Ökonometrie, WS 15/16 Musterlösung Aufgabenblatt 3 Aufgabe 3: Die Datei WAGE2.DTA enthält Daten einer Stichprobe von 935 männlichen US-amerikanischen Arbeitnehmern im Alter von 28 bis 38 Jahren.

Mehr

Modell (Konstante) 0,411 0,155 male 0,212 0,13 job 0,119 0,131 alcohol 0,255 0,05 a. Abhängige Variable: skipped

Modell (Konstante) 0,411 0,155 male 0,212 0,13 job 0,119 0,131 alcohol 0,255 0,05 a. Abhängige Variable: skipped Aufgabe 1 [14 Punkte] Sie möchten untersuchen, wovon die Abwesenheit der Studierenden in den Vorlesungen an einer Universität abhängt. Sie verfügen über einen Datensatz zu 282 Studierenden mit folgenden

Mehr

Lineare Regression mit einem Regressor: Einführung

Lineare Regression mit einem Regressor: Einführung Lineare Regression mit einem Regressor: Einführung Quantifizierung des linearen Zusammenhangs von zwei Variablen Beispiel Zusammenhang Klassengröße und Testergebnis o Wie verändern sich Testergebnisse,

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Angewandte Ökonometrie Übung. Endogenität, VAR, Stationarität und Fehlerkorrekturmodell

Angewandte Ökonometrie Übung. Endogenität, VAR, Stationarität und Fehlerkorrekturmodell Angewandte Ökonometrie Übung 3 Endogenität, VAR, Stationarität und Fehlerkorrekturmodell Zeitreihenmodelle Zeitreihenmodelle Endogenität Instrumentvariablenschätzung Schätzung eines VARs Tests auf Anzahl

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Prognoseintervalle für y 0 gegeben x 0

Prognoseintervalle für y 0 gegeben x 0 10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen

Mehr

7. Stochastische Prozesse und Zeitreihenmodelle

7. Stochastische Prozesse und Zeitreihenmodelle 7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. . Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr.  . Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Mikro-Ökonometrie: Small Sample Inferenz mit OLS

Mikro-Ökonometrie: Small Sample Inferenz mit OLS Mikro-Ökonometrie: Small Sample Inferenz mit OLS 1. November 014 Mikro-Ökonometrie: Small Sample Inferenz mit OLS Folie Zusammenfassung wichtiger Ergebnisse des letzten Kapitels (I) Unter den ersten vier

Mehr

Mehr-Ebenen-Analyse I. Regressionsmodelle für Politikwissenschaftler

Mehr-Ebenen-Analyse I. Regressionsmodelle für Politikwissenschaftler Mehr-Ebenen-Analyse I Regressionsmodelle für Politikwissenschaftler Was sind strukturierte Daten? Was ist Struktur? Probleme Bisher sind wir stets von einfachen Zufallsstichproben ausgegangen (Registerstichprobe)

Mehr

Statistik II. I. Einführung. Martin Huber

Statistik II. I. Einführung. Martin Huber Statistik II I. Einführung Martin Huber 1 / 24 Übersicht Inhalt des Kurses Erste Schritte in der empirischen Analyse 2 / 24 Inhalt 1 Einführung 2 Univariates lineares Regressionsmodell 3 Multivariates

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge 40 60 80 Bivariater Zusammenhang: Zusammenhang zwischen zwei Variablen weight (kg) Gibt es einen Zusammenhang zwischen Größe & Gewicht? (am Beispieldatensatz) Offensichtlich positiver

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr