Annahmen des linearen Modells

Größe: px

Ab Seite anzeigen:

Download "Annahmen des linearen Modells"

Johannes Dittmar
vor 7 Jahren
Abrufe

1 Annahmen des linearen Modells

2 Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert der Residuen E(ujx 1 ; : : : ; x k ) = 0 A4: Stichprobenvariation in x, keine perfekte Multikollinearität A5: Homoskedastizität A6: Residuen sind iid normalverteilt u» N(0; ¾ 2 ) 2

3 Die (klassischen) Annahmen des linearen Modells Annahme 1: Die Beziehung zwischen X und y ist linear in den Schätzparametern, wobei X auf y wirkt und nicht umgekehrt. y = 0 + 1x 1 + 2x kx k Annahme 2: Ziehen einer Zufallsstichprobe y i ; x 1i ; x 2i ; : : : ; x ki.. y n ; x 1n ; x 2n ; : : : ; x kn für jeder Person i =1,..., n hat man einen Vektor an Merkmalsbeobachtungen abhängige Variable y erklärende Variable x 1 bis x k 3

4 Annahme 1 zusammen mit Annahme 2: Zufallsstichprobe ) Beobachtungen sind unabhängig Person 1 hat keinen Einfluss auf Realisationen von Person 2 keine Korrelationen zwischen Beobachtungen (keine serielle Korrelation, keine Autokorrelation) Cov(u i ; u j ) = 0 fäur i 6= j 4

5 Annahme 3: Hat man für alle relevanten Einflüsse kontrolliert, ist der Erwartungswert der Residuen u gleich Null E(ujx 1 ; : : : ; x k ) = 0 Was beinhalten die Residuen? Variablen, die y beinflussen, die aber nicht mit im Modell aufgenommen wurden vergessen für nicht relevant erachtet nicht messbar Zufällig Einflüsse, die Ausprägung y i vom Erwartungswert E(y x) abweichen lassen Messfehler in der abhängigen Variable 5

6 Diskussion der Annahmen Annahme 3 besagt: Die Residuen (Abweichungen vom bedingten Mittelwert) heben sich im Durchschnitt auf gegeben eine Ausprägung x ) E(y x) beobachtete Werte y x streuen zufällig um E(y x) Summe der Abweichungen u x = 0 f(y x) E(ujx 1 ; : : : ; x k ) = 0 y x 1 x 2 x 3 E(y x) = ß 0 + ß 1 x x 6

7 Wann ist Annahme 3: E(u x 1,... x k ) =0 typischerweise verletzt? typisch wenn falsche Spezifikation des Modells dann: Schätzmodell entspricht nicht dem wahren Modell relevante Variable fehlt im Schätzmodell ) omitted variable bias Nichtlineare Zusammenhänge ) Wahl der funktionalen Form 7

8 years potential experience years potential experience Beispiel: Stundenlohn wird linear von Berufserfahrung bestimmt Beispiel: Stundenlohn wird nichtlinear von Berufserfahrung bestimmt 8

9 relevante Variable fehlt im Schätzmodell Nichtlineare Zusammenhänge wahres Modell wahres Modell y = 0 + 1x 1 + 2x 2 + 3x 3 y = 0 + 1x 1 + 2x 2 1 Schätzmodell Schätzmodell y = ^ 0 + ^ 1x 1 + ^ 2x 2 + +^v y = ^ 0 + ^ 1x 1 + +^v zusammengesetztes Residuum zusammengesetztes Residuum ^v = ^u + ^ 3x 3 ^v = ^u + 2x1 2 nicht modellierte Einflüsse fließen also in die Störgröße (Residuum) Störgröße ist dann keine Zufallsvariable mehr (stattdessen systematischer Fehler im Schätzmodell) 9

10 Annahme 4: Jede unabhängige Variable x k hat Variation (und ist damit keine Konstante); zudem liegt keine perfekte Multikollinearität vor 1. Vorliegen von Stichprobenvariation in den erklärenden Variablen x wenn keine Variation in x 1 ) x 1 hätte den selben Wert für alle Beobachtungen Beispiel: Untersuchung einer Krankheit unter einigen Bewohnern eines Männerklosters ) Geschlecht hat keine Variation (Männerkloster!) ) Geschlecht kann keinen Erklärungsbeitrag zum Auftreten der Krankheit liefern 10

11 bei fehlender Stichprobenvariation gilt formal x 1i = ¹x 1 fäur i = 1; : : : ; n Koeffizienten / Steigungsparameter werden geschätzt aus ^ 1 = P i (x 1i ¹x 1 )(y i ¹y) P i (x 1i ¹x 1 ) 2 wenn x 1i = ¹x 1 fäur i = 1; : : : ; n ) X i (x 1i ¹x 1 ) = 0 und Steigungsparameter lässt sich nicht berechnen (im Nenner eine Null) 11

Keine perfekte Multikollinearität Multikollinearität: eine erklärende Variable x kann als Linearkombination von anderen im Modell enthaltenen Variablen erklärt werden alle Männer ) trinken Bier alle

12 Keine perfekte Multikollinearität Multikollinearität: eine erklärende Variable x kann als Linearkombination von anderen im Modell enthaltenen Variablen erklärt werden alle Männer ) trinken Bier alle Frauen ) trinken Sekt es ist egal, ob man Geschlecht oder Getränk in Modell aufnimmt transportieren dieselbe Information hier Geschlecht und Getränk sind perfekt korreliert Annahme 4 besagt: Korrelation zwischen erklärenden Variablen durchaus zulässig jedoch keine perfekte Korrelation fast alle Männer trinken Bier (und einige trinken Sekt) zulässig fast alle Frauen trinken Sekt (aber einige trinken Bier) 12

13 Multikollinearität Multikollinearität erklärt durch Venn-Diagramm Schnittmenge Y x 1 ) Variation in Y, die von x 1 erklärt werden kann Schnittmenge Y x 2 ) Variation in Y, die von x 2 erklärt werden kann keine Korrelation zwischen x 1 und x 2 (sind überschneidungsfrei) Y X 1 X 2 13

14 Multikollinearität und Varianz der Schätzkoeffizienten Schnittmenge Y x 1 x 2 : OLS kann keinen marginalen Effekt bestimmen Effekt könnte von x 1 oder x 2 kommen eindeutig zu identifizierende Effekte (marginale Effekte) x 1 : violetter Bereich x 2 : dunkelgrüner Bereich Y je kleiner diese Bereiche, desto unpräziser die Schätzung der Koeffizienten Je weniger singuläre Information eine Variable beiträgt, X 1 X 2 desto schlechter kann marginaler Effekt identifiziert werden desto unpräziser ist die Schätzung hohe Multikollinearität: Schätzergebnisse werden insignifikant 14

15 Annahme 4: Jede unabhängige Variable x k hat Variation (und ist damit keine Konstante); zudem liegt keine perfekte Multikollinearität vor Variation in den unabhängigen Variablen X (x ik ¹x k ) > 0 sonst x j konstant i und als Erklärungsvariable nicht zu gebrauchen (konstante Einflüsse werden von 0 abgebildet) keine perfekte Multikollinearität denn wenn x 1 perfekt durch x 2 erklärt werden kann, hat x 1 keinen eigenen Informationsgehalt x 1 kann aus Modell entfernt werden 15

16 Annahme 5: Homoskedastizität = konstante Streuung der Residuen um den Erwartungswert Varianz (Streuung) der Residuen ist konstant Unabhängig von der Größenordnung der erklärenden Variable, hat die bedingte Verteilung der Residuen immer die gleiche Streuung Gegenbeispiel: Heteroskedastizität! Streuung der Residuen hängt von der Größe der erklärenden Variable x ab V ar(u i jx 1i ; : : : ; x ki ) = ¾ 2 i 16

17 Homoskedastizität Je höher das Bildungsniveau (gemessen als Variable x), desto größer der Stundenlohn (Variable y) E(yjx) = 0 + 1x mit 1 > 0 Streuung der Residuen u immer konstant um E(y x) ) Var(u x) = ¾ 2 f(y x) y x 1 x 2 x 3 E(y x) = ß 0 + ß 1 x x 17

18 Gegenbeispiel: Heteroskedastizität Je höher das Bildungsniveau, desto größer ist das Spektrum der möglichen Vergütungen Akademiker als Vorstandschef eines Konzern der durchschnittliche Akademiker der arbeitslose Akademiker Heteroskedastizität: V ar(ujx = 8) < V ar(ujx = 12) < V ar(ujx = 16) f(lohn Bildung) Lohn E(y x) = ß 0 + ß 1 x Bildung 18

19 u Beispiel Heteroskedastizität Lineare Regression & Speichern der (nicht-standardisierten) Residuen u i wage = ^ 0 + ^ 1 educ + ^u 0: :541 educ + ^u years of education 19

20 Heteroskedastizität: Residuen streuen stärker für hohes Bildungsniveau offenbar kann man die Lohnvariation bei hoher Bildung mit dem einfachen Modell schlecht erklären V ar(u i jx 1i ; : : : ; x ki ) = ¾ 2 i Fehlspezifikation: vermutlich hat man eine (odere mehrere) relevante Variablen im Schätzmodell nicht berücksichtigt deren Einflüsse werden durch Residuum u abgebildet ) darum scheint es eine Abhängigkeit von x (Bildung ) und u zu geben Probleme mit Heteroskedastizität Indiz für Fehlspezifikation alle Tests (Signifikanztest, F-Test) werden unzuverlässig ) siehe Kapitel über Hypothesentest individuelle Streuung u 20

21 Annahme 6: Die Residuen u sind unabhängig und identisch normalverteilt (iid! independent and identical distributed) u» N(0; ¾ 2 ) Annahme 6 impliziert zwangsläufig Annahme 3: E(ujx 1 ; : : : ; x k ) = 0 und Annahme 5: f(y x) y x 1 x 2 x 3 E(y x) = ß 0 + ß 1 x x 21

22 aus Annahme 6 folgt, dass auch die abhängige Variable y normalverteilt ist yjx» NV 0 + 1x 1 + : : : kx k ; ¾ 2 Mittelwert der Verteilung, gegeben x Streuung von y um Mittelwert Quelle: Wooldrigde 2003, S

Ähnliche Dokumente

Das Lineare Regressionsmodell

Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines