Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Transkript

1 Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001

2 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung der Regressionsgeraden: Linearitätsannahme Hypothese, dass das lineare Regressionsmodell in der Population für alle Ausprägungen der unabhängigen Variablen X gilt. Unkorreliertheit der unabhängigen Variablen und der Residualvariablen Varianzgleichheit (Homoskedastizität) und Unkorreliertheit der Residuen Gauß-Markov-Theorem = Unter genannten Bedingungen sind die Kleinstquadrateschätzer in der Klasse der linearen erwartungstreuen Schätzer effizient (=BLU- Eigenschaft). 1

3 Standardfehler der Regressionskoeffizienten Berechnung des Standardfehlers (der Kennwerteverteilung) der Regressionskonstante a nach: (x i x) 2 σ2 U = σ U σ a = 1n x 2 i σ U n 1 + x2 s 2 x 1 n + x2 SS X = σ a = Standardfehler der Regressionskonstante a σ U = Standardabweichung der Populationsresiduen U Berechnung des Standardfehlers des Regressionsgeichts b nach: σ b = σ U n 1 s X 1 ni=1 (x i x) 2 σ2 U = σ U 1 SS = X 2

4 σ b = Standardfehler des Regressionsgewichts b Formel der durch die Varianz der Stichprobenresiduen geschätzte Varianz der Residualvariablen U: u i = y i (α + β x i ) geschätzt durch e i = y i (a + b x i ) = y i ŷ i Formel des geschätzten Standardfehlers der Regressionskonstante a: ni=1 ˆσ U 2 = (y i ŷ i ) 2 e n 2 = 2 i n 2 = SS E n 2 = n n 2 s2 E ˆσ U 2 = aus den Stichprobendaten geschätzte Varianz der Residualvariablen U in der Population n 2 = Anzahl der Freiheitsgrade im bivariaten Regressionsmodell

5 Formel des geschätzten Standardfehler für das Regressionsgewicht b: ˆσ a = = ˆσ U n 1 n x 2 i x 2 n i ( i=1 x i ) SS x2 = S E X n 2 n n e 2 i n x2 s 2 x s E = Standardabweichung der Stichprobenresiduen e i Überprüfen: ˆσ b = = 1 x 2 n i ( i=1 x i ) 2 1 SS X n n ˆσ U n = 1 s 2 X e 2 i n 2 s E n 2 ˆσ b = geschätzter Standardfehler des Regressionsgewichts b Je geringer der Standardfehler für den Regressionskoeffizienten b ist, desto genauer ist die Schätzung der Steigung der

6 Regressionsgeraden. Aus der letzten Gleichung ist ersichtlich, dass der Standardfehler für b geringer wird, wenn die Variation bzw. Varianz der X-Werte zunimmt; der Stichprobenumfang zunimmt; die Residualvarianz in der Stichprobe kleiner wird.

7 Konfidenzintervalle für die Regressionskoeffizienten α und β Für das Regressionsgewicht β in der Population werden die Grenzen des (1 - α)- Konfidenzintervalls mit der Irrtumswahrscheinlichkeit α ermittelt nach: c.i.(β) = b + ˆσ b t n 2;1 α/2 t n 2;1 α/2 = Quantilwert der T-Verteilung mit df = n - 2 für das 1 - α/2-quantil Analog werden die Grenzen des (1 - α)- Konfidenzintervalls für die Regressionskonstante α in der Population berechnet nach: c.i.(α) = a + ˆσ a t n 2;1 α/2 3

8 Prüfung von Hypothesen über die Regressionskoeffizienten α und β Zur Prüfung einer Hypothese über das Regressionsgewicht β wird ein Hypothesenpaar aus Null- und Alternativhypothese formuliert. Folgende Hypothesenpaare können geprüft werden: (1)H 0 : β = β 0 H 1 : βungleichβ 0 (1) (2)H 0 : β < β 0 H 1 : β > β 0 (2) (3)H 0 : β > β 0 H 1 : β < β 0 (3) β = Erwartungswert des Regressionsgewichts b in der Population β 0 = in der Nullhypothese postulierter (Maximalbzw. Minimal-)Wert von β Die Teststatistik T wird berechnet als: T = b β 0 ˆσ b 4

9 Prüfung einer Hypothese über die Regressionskonstante α: (1)H 0 : α = α 0 H 1 : αungleichα 0 (4) (2)H 0 : α < α 0 H 1 : α > α 0 (5) (3)H 0 : α > α 0 H 1 : α < α 0 (6) α = Erwartungswert der Regressionskonstante a in der Population α 0 = in der Nullhypothese vermuteter (Maximalbzw. Minimal-)Wert von α Die Teststatistik T wird wie folgt berechnet: T = a α 0 ˆσ a

10 Standardfehler und Konfidenzintervall für den Vorhersagewert von Y Standardfehler und Konfidenzintervall für die Vorhersage des bedingten Populationsmittelwerts µ Y X beider Ausprägung X = x 0 σ(ˆµ Y X=x0 ) = σa 2 + x 0 2 σb x 0 σ ab σ(ˆµ Y X=x0 ) = Standardfehler des geschätzten bedingten Populationsmittelwertes ˆµ Y X bei X = x 0 σa 2, σ2 b = Varianz der Kennwerteverteilung der Regressionskoeffizienten a und b x 0 = Ausprägung der unabhängigen Variablen X σ ab = Kovarianz der Regressionskoeffizienten a und b Die geschätzte Kovarianz von a und b ist gleich: ˆσ ab = x x 2 n i ( i=1 x i ) 2 n e 2 i n 2 ˆσ ab = geschätzte Kovarianz der Regressionskoeffizienten a und b 5

11 Der geschätzte Standardfehler des Vorhersagewerts (ˆµ Y X beix = x 0 : ˆσ(ˆµ Y X=x0 ) = h 0 ˆσ U 2 ( 1 n + (x 0 ˆx) 2 (x i x) 2) ˆσ2 U = h 0 = Hebelwert, der die Bedeutung (Hebelkraft; engl.: leverage) des Werts X = x 0 für die Lage der Regressionsgeraden im Streudiagramm erfasst. Der geschätzte Standardfehler ˆσ(ˆµ Y X=x0 ist umso größer, je weiter die Ausprägung x 0 vom Mittelwert x entfernt ist. Das liegt daran, dass der Abstand (x 0 x) ein Multiplikator des geschätzten Regressionskoeffitzienten b ist. Deutlich wird dies, wenn für den Vorhersagewert ŷ 0 die Regressionskonstante a betrachtet wird: ŷ 0 = a + b x 0 = (ȳ b x) + b x 0 = ȳ + b (x 0 x)

12 Prüfung von Hypothesen über Kovarianzen, Korrelationen und Determinationskoeffizienten Der unstandardisierte Regressionskoeffizient b ist ein erwartungstreuer Schätzer des Regressionsgewichts β in der Population. Ein erwartungstreuer Schätzer für die Populationsvarianz σ XY ergibt sich dagegen nur dann, wenn die Summe der Kreuzprodukte statt durch den Stichprobenumfang durch n-1 dividiert wird: ˆσ XY = (x i x) (y i ȳ) n 1 = SP XY n 1 = n n 1 s XY ˆσ XY = erwartungstreuer Schätzer der Populationskovarianz von X und Y Prüfung der Signifikanz von Kovarianz und Korrelation über die Hypothese β = 0 H 0 : β = 0 versus H 1 : β ungleich 0 6

13 Hypothesenpaare: H 0 : σ XY = 0versusH 1 : σ XY ungleich0 (7) H 0 : ρ XY = 0versus H 1 : ρ XY ungleich0 (8) H 0 : ρ 2 Y X = 0versus H 1 : ρ 2 Y X > 0 (9) Dies gilt jedoch nur für die bivariate Regression.

14 Kontrolle der Modellannahmen des linearen Regressionsmodells Wenn die Modellannahmen erfüllt sind, sollten die Werte der Residualvariablen U bei unterschiedlichen Ausprägungen der unabhängigen Variablen X unabhängig voneinander sein, die gleiche Varianz aufweisen, möglichst normalverteilt sein. Darüber hinaus soll der bedingte Populationsmittelwert von U bei jeder Ausprägung von X gleich null sein. 7

15 Prüfung der Normalverteilungsannahme Die Normalverteilung der Residuen kann graphisch mit einem so genannten Q-Q-Plot untersucht werden. Dabei werden die standardisierten Residuen gegen die z-werte abgetragen, die aus der kumulierten Häufigkeitsverteilung der standardisierten Residuen ermittelt werden können. Ausreißerwerte und einflussreiche Fälle Die Ergebnisse einer Regressionsanalyse können dadurch verzerrt werden, dass die Stichprobe Fälle enthält, die (Aufgrund von Besonderheiten) von den übrigen Fällen abweichen. Gelegentlich lassen sich solche Fälle durch eine Analyse von Ausreißern identifiezieren und überprüfen. In allen Streudiagrammen aus der Abbildung fällt ein Fall unter den n= 185 Fällen besonders auf, der ein sehr hohes standardisiertes Residuum aufweist. Es handelt 8

16 sich hierbei um ein Paar, bei dem das Alter für den männlichen Partner mit 17 Jahren und das für die Partnerin mit 46 Jahren angegeben ist. Der Einfluss eines einzelnen Falls auf die Lage und Richtung der Regressionsgeraden ist eine Funktion der Hebelkraft einer Ausprägung von X und den Residuen. Ein Maß, das die dieses Einflusses ausdrückt, ist die vom Statistiker Cook vorgeschlagene Distanz, die als CooksDistanzD i bezeichnet wird. In die Berechnung geht die Hebelkraft eines Falls und sein standardisiertes Stichprobenresiduum ein: D i = (e i )2 2 h i 1 h i D i = Distanzmaß für den Einfluss, den ein Punkt auf die Regressionsgerade hat

17 T-Test von Mittelwertdifferenzen in unabhängigen Stichproben Um den Mittelwertvergelich mit Hilfe des linearen Regressionsmodells durchführen zu können, wird die unabhängige Variable Gruppenzugehörigkeit (alte versus neue Bundesländer) als eine dichotome Indikatorvariable X mit den beiden Ausprägungen null (bei Befragten aus den alten Bundesländern) und eins (bei Befragten aus den neuen Bundesländern) codiert. Bei der linearen Regression der Links- Rechts-Selbsteinstufung auf die Indikatorvariable gibt es dann zwei mögliche Vorhersagewerte: ŷ 0 für die Befragten aus den alten Bundesländern und ŷ 1 für die Befragten aus den neuen Bundesländern: ŷ 0 = a + b 0 = a und ŷ 1 = a + b 1 = a + b alte Bundesländer neue Bundesländer Der Vorhersagewert ist bei der Gruppe mit 9

18 der Ausprägung null bei der INidiaktorvariable gleich dem Wert der Regressionskonstante a. Bei X = 0 ist der Mittelwert ȳ der abhängigen Variablen gleich dem Wert der Regressionskonstante a. Wenn X = 1 ist, dann ist der Mittelwert ȳ gleich der Summe aus den beiden Regressionskoeffizienten a und b. Die durchschnittliche Link-Rechts- Selbsteinstufung in den alten und den neuen Bundesländern ist dann gleich: ȳ 0 = a und ȳ 1 = a + b alte Bundesländer neue Bundesländer Die Differenz der Mittelwerte in den beiden Gruppen ist dann gleich dem Regressionsgewicht b: ȳ 1 ȳ 0 = (a + b) a = b Wenn die Populationsmittelwerte beider Gruppen gleich groß sind, hat das Regressionsgewicht β in der Population den Wert null.

19 Die Prüfung der Nullhypothese, dass das Regressionsgewicht β der Indikatorvariablen X in der Population gleich null ist, entspricht somit der Prüfung der Hypothese über die Gleichheit zweier Mittelwerte in unabhängigen Stichproben.