Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Ähnliche Dokumente
Tests einzelner linearer Hypothesen I

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

3. Das einfache lineare Regressionsmodell

Klausur zu Statistik II

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Mathematik III - Statistik für MT(Master)

Lineare Regression mit einem Regressor: Einführung

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Vorlesung 8a. Kovarianz und Korrelation

Einführung in die Induktive Statistik: Testen von Hypothesen

Analyse von Querschnittsdaten. Signifikanztests I Basics

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

4. Das multiple lineare Regressionsmodell

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. PROGNOSE II - Vertiefung Aufgaben und Lösungen Sommersemester 2004

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

9. Schätzen und Testen bei unbekannter Varianz

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests

10. Die Normalverteilungsannahme

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Statistik, Datenanalyse und Simulation

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

1 Gemischte Lineare Modelle

Eine zweidimensionale Stichprobe

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Teil: lineare Regression

Empirische Analysen mit dem SOEP

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

8. Konfidenzintervalle und Hypothesentests

1. Lösungen zu Kapitel 7

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Mathematische und statistische Methoden II

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Prognose. Kapitel 5. Ökonometrie I Michael Hauser

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Lineare Modelle in R: Klassische lineare Regression

Mathematik für Biologen

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Willkommen zur Vorlesung Statistik (Master)

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Wahrscheinlichkeitstheorie und Statistik vom

Statistische Tests für unbekannte Parameter

Allgemeines zu Tests. Statistische Hypothesentests

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

I. Deskriptive Statistik 1

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Grundgesamtheit und Stichprobe

Kapitel 13. Grundbegriffe statistischer Tests

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Mathematik für Biologen

Statistik II. Statistische Tests. Statistik II

Schließende Statistik: Hypothesentests (Forts.)

Bachelorprüfung SS MUSTERLÖSUNG

Schließende Statistik

Jost Reinecke. 7. Juni 2005

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Kapitel 3 Schließende Statistik

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Statistik II für Betriebswirte Vorlesung 12

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

Statistik II für Betriebswirte Vorlesung 1

Kapitel VIII - Tests zum Niveau α

Testen von Hypothesen:

Test auf den Erwartungswert

Kapitel 3. Inferenz bei OLS-Schätzung I (small sample, unter GM1,..., GM6)

2. Korrelation, lineare Regression und multiple Regression

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Tutorial: Regression Output von R

Grundlagen der Statistik

2.3 Nichtlineare Regressionsfunktion

Bachelorprüfung SS 2015

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Statistik für das Psychologiestudium

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Statistik II Übung 1: Einfache lineare Regression

Hypothesentests mit SPSS. Beispiel für einen t-test

Mathematik für Biologen

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Varianz und Kovarianz

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Lösungen zu den Übungsaufgaben in Kapitel 10

1 Statistische Grundlagen

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Kapitel 13: Statistische Signifikanztests

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Korrelation und Regression

Transkript:

1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs zwischen x i und y i nötig ist Die Schätzung dieser beiden Parameter führt wieder zum Problem der Suche nach Absolutglied und Steigung einer geeigneten Geradengleichung Satz 11 Satz von Gauß-Markov) y f β1,β x) β 1 + β x Unter den getroffenen Annahmen liefert die aus dem deskriptiven Ansatz bekannte Verwendung der KQ-Methode, also die Minimierung der Summe der quadrierten vertikalen Abstände zur durch β 1 und β bestimmten Geraden, in Zeichen y i β 1 + β x i ))! min i1 β 1,β R i1 y i β 1 + β x i )), die beste varianzminimale) lineare in y i ) erwartungstreue Schätzfunktion β 1 für β 1 bzw β für β Dies rechtfertigt letztendlich die Verwendung des Optimalitätskriteriums Minimierung der quadrierten vertikalen Abstände Schließende Statistik WS 16/17) Folie 33 1 Lineare Regression Parameterschätzung 13 Man erhält also ganz analog zum deskriptiven Ansatz die folgenden Parameterschätzer: Parameterschätzer im einfachen linearen Regressionsmodell β n i1 x ) iy i i1 x i) i1 y ) i n i1 x ) i n i1 x ) xy x y s X,Y i x x sx β 1 1 n n i1 y ) i 1 n n i1 x ) i β y x β r X,Y sy s X, Wegen der Abhängigkeit von y i handelt es sich bei β 1 und β wie in der schließenden Statistik gewohnt) um Realisationen von) Zufallsvariablen Die resultierenden vertikalen Abweichungen û i : y i β 1 + β x i ) y i ŷ i der y i von den auf der Regressionsgeraden liegenden Werten ŷ i : β 1 + β x i nennt man Residuen Wie im deskriptiven Ansatz gelten die Beziehungen i1 ûi, i1 y i i1 ŷi, i1 x iû i, i1 ŷiû i sowie die Varianzzerlegung 1 n i1 y i y) 1 n i1 ŷ i ŷ) + 1 n i1 û i Schließende Statistik WS 16/17) Folie 34 1 Lineare Regression Parameterschätzung 13 Das multiple) Bestimmtheitsmaß R Auch im linearen Regressionsmodell wird die Stärke des linearen Zusammenhangs mit dem Anteil der erklärten Varianz an der Gesamtvarianz gemessen und mit R i1 ŷ i ŷ) i1 y i y) 1 i1 û i i1 y i y) bezeichnet R wird auch multiples) Bestimmtheitsmaß genannt Es gilt R 1 sowie der bekannte) Zusammenhang R rx,y s X,Y sx s Y Größere Werte von R in der Nähe von 1) sprechen für eine hohe Modellgüte, niedrige Werte in der Nähe von ) für eine geringe Modellgüte Vorsicht! s X, s Y sowie s X,Y bezeichnen in diesem Kapitel die empirischen Größen s X 1 n i1 x i x) x x, s Y 1 n i1 y i y) y y und s X,Y 1 n i1 x i x) y i y) xy x y 1 Lineare Regression Parameterschätzung 13 Beispiel: Ausgaben in Abhängigkeit vom Einkommen I) Es wird angenommen, dass die Ausgaben eines Haushalts für Nahrungs- und Genussmittel y i linear vom jeweiligen Haushaltseinkommen x i jeweils in 1 e) in der Form y i β 1 + β x i + u i, u i N, σ ), i {1,, n} abhängen Für n 7 Haushalte beobachte man nun neben dem Einkommen x i auch die Realisation der) Ausgaben für Nahrungs- und Genussmittel y i wie folgt: Haushalt i 1 3 4 5 6 7 Einkommen x i 35 49 1 39 15 8 5 NuG-Ausgaben y i 9 15 7 11 5 8 9 Mit Hilfe dieser Stichprobeninformation sollen nun die Parameter β 1 und β der linearen Modellbeziehung geschätzt sowie die Werte ŷ i, die Residuen û i und das Bestimmtheitsmaß R bestimmt werden Schließende Statistik WS 16/17) Folie 35 Schließende Statistik WS 16/17) Folie 36

1 Lineare Regression Parameterschätzung 13 Berechnete deskriptive/empirische) Größen: x 38571 y 91486 x 1317149 y 98571 s X 114491 s Y 86938 s X,Y 3449 r X,Y 9587 Damit erhält man die Parameterschätzer β 1 und β als β s X,Y sx 3449 114491 6417 β 1 y β x 91486 6417 38571 1148 Als Bestimmtheitsmaß erhält man R r X,Y 9587 9191 Für ŷ i und û i erhält man durch Einsetzen ŷ i β 1 + β x i, û i y i ŷ i ): i 1 3 4 5 6 7 x i 35 49 1 39 15 8 5 y i 9 15 7 11 5 8 9 ŷ i 139 149 669 1144 51 854 775 û i 139 91 31 44 1 54 15 1 Lineare Regression Parameterschätzung 13 Grafik: Ausgaben in Abhängigkeit vom Einkommen β 1 1148, β 6417, R 9191 y i 5 1 15 u^i y^i y y^ x 1 3 4 5 y i x i Schließende Statistik WS 16/17) Folie 37 Schließende Statistik WS 16/17) Folie 38 1 Lineare Regression Parameterschätzung 13 1 Lineare Regression Parameterschätzung 13 Eigenschaften der Schätzfunktionen β 1 und β β 1 und β sind linear in y i, man kann genauer zeigen: x β 1 x x i nsx y i und β i1 i1 x i x ns X β 1 und β sind erwartungstreu für β 1 und β, denn wegen Eu i ) gilt Eyi ) β 1 + β x i + Eu i ) β 1 + β x i, Ey) E 1 n i1 y i) 1 n n i1 Ey i) 1 n n i1 β1 + β x i) β 1 + β x, Exy) E 1 n i1 x ) iy i 1 n n i1 x iβ 1 + β x i ) β 1 x + β x und damit sowie E β ) E sx,y s X ) E xy x y) s X β 1 x + β x x β 1 + β x) s X Exy) x Ey) s X y i β x x ) s X β E β 1 ) Ey x β ) Ey) x E β ) β 1 + β x x β β 1 Diese Eigenschaften folgen bereits mit dem Satz von Gauß-Markov) Schließende Statistik WS 16/17) Folie 39 Für die Varianzen der Schätzfunktionen erhält man: Var β ) Var β 1 ) σ n σ n i1 x i x) σ σ n x x ) i1 x i i1 x i x) σ x n x x ) σ x Diese hängen von der unbekannten Varianz σ der u i ab Eine erwartungstreue Schätzfunktion für σ ist gegeben durch σ : Varu i ) 1 n i1 û i n n s Y 1 R ) n n s Y β s X,Y ) Die positive Wurzel σ + σ dieser Schätzfunktion heißt auch Standard Error of the Regression SER) oder residual standard error Schließende Statistik WS 16/17) Folie 4

1 Lineare Regression Parameterschätzung 13 Einsetzen des Schätzers σ für σ liefert die geschätzten Varianzen der Parameterschätzer 1 Lineare Regression Konfidenzintervalle und Tests 14 Konfidenzintervalle und Tests unter Normalverteilungsannahme für u i σ β σ β1 : Var β σ ) n x x ) σ und s Y β s X,Y n ) s X : Var β σ 1 ) x n x x ) σ x s Y β s X,Y ) x n ) sx Die positiven Wurzeln σ σ β1 β σ und σ β 1 β dieser geschätzten Varianzen werden wie üblich als geschätzte) Standardfehler von β 1 und β bezeichnet Trifft man eine weitergehende Verteilungannahme für u i und damit für y i, so lassen sich auch die Verteilungen von β 1 und β weiter untersuchen und zur Konstruktion von Tests, Konfidenzintervallen und Prognoseintervallen verwenden Häufig nimmt man für die Störgrößen an, dass speziell u i N, σ ) gilt, dh dass alle u i für i {1,, n}) unabhängig identisch normalverteilt sind mit Erwartungswert und unbekannter) Varianz σ In diesem Fall sind offensichtlich auch y 1,, y n stochastisch unabhängig und jeweils normalverteilt mit Erwartungswert Ey i ) β 1 + β x i und Varianz Vary i ) σ Da β 1 und β linear in y i sind, folgt insgesamt mit den bereits berechneten Momenten von β 1 und β : ) β 1 N β 1, σ x σ ) und β N β, Schließende Statistik WS 16/17) Folie 41 Schließende Statistik WS 16/17) Folie 4 1 Lineare Regression Konfidenzintervalle und Tests 14 Konfidenzintervalle unter Normalverteilungsannahme für u i Da σ unbekannt ist, ist für Anwendungen wesentlich relevanter, dass im Falle unabhängig identisch normalverteilter Störgrößen u i mit den Schätzfunktionen σ β1 für Var β 1 ) und σ β für Var β ) gilt: β 1 β 1 σ β1 tn ) und β β σ β tn ) Hieraus erhält man unmittelbar die Formeln [ β1 t n ;1 α σ β1, β 1 + t n ;1 α σ β1 ] für symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1 α für β 1 bzw [ β α tn ;1 σ β, β ] + t n ;1 α σ β für symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1 α für β Schließende Statistik WS 16/17) Folie 43 1 Lineare Regression Konfidenzintervalle und Tests 14 Beispiel: Ausgaben in Abhängigkeit vom Einkommen II) Im bereits erläuterten Beispiel erhält man als Schätzwert für σ : σ n s Y β s X,Y ) n 7 86938 6417 3449) 7 Die geschätzten) Standardfehler für β 1 und β sind damit σ x 9856 1317149 σ β1 1164, 7 114491 σ 9856 σ β 7 114491 351 Für α 5 erhält man mit t n ;1 α t 5;975 571 für β 1 also 9856 [1148 571 1164, 1148 + 571 1164] [ 17537, 4383] als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 α 95 bzw [6417 571 351, 6417 + 571 351] [1739, 3544] als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 α 95 für β Schließende Statistik WS 16/17) Folie 44

1 Lineare Regression Konfidenzintervalle und Tests 14 Hypothesentests unter Normalverteilungsannahme für u i Genauso lassen sich unter der Normalverteilungsannahme exakte) t-tests für die Parameter β 1 und β konstruieren Trotz unterschiedlicher Problemstellung weisen die Tests Ähnlichkeiten zum t-test für den Mittelwert einer normalverteilten Zufallsvariablen bei unbekannter Varianz auf Untersucht werden können die Hypothesenpaare H : β 1 β1 H : β 1 β1 H : β 1 β1 gegen gegen gegen H 1 : β 1 β1 H 1 : β 1 > β1 H 1 : β 1 < β1 bzw H : β β H : β β H : β β gegen gegen gegen H 1 : β β H 1 : β > β H 1 : β < β Besonders anwendungsrelevant sind Tests auf die Signifikanz der Parameter insbesondere β ), die den zweiseitigen Tests mit β1 bzw β entsprechen Schließende Statistik WS 16/17) Folie 45 1 Lineare Regression Konfidenzintervalle und Tests 14 Zusammenfassung: t-test für den Parameter β 1 im einfachen linearen Regressionsmodell mit Normalverteilungsannahme Anwendungsvoraussetzungen exakt: y i β 1 + β x i + u i mit u i N, σ ) für i {1,, n}, σ unbekannt, x 1,, x n deterministisch und bekannt, Realisation y 1,, y n beobachtet Nullhypothese H : β 1 β1 H : β 1 β1 H : β 1 β1 Gegenhypothese H 1 : β 1 β1 H 1 : β 1 > β1 H 1 : β 1 < β1 Teststatistik t β 1 β 1 σ β1 Verteilung H ) Benötigte Größen β s X,Y s X t für β 1 β1 tn )-verteilt, β 1 y β sy x, σ β1 β s X,Y ) x n ) sx Kritischer Bereich, t n ;1 α ) t n ;1 α, ), t n ;1 α) zum Niveau α t n ;1 α, ) p-wert 1 F tn ) t )) 1 F tn ) t) F tn ) t) Schließende Statistik WS 16/17) Folie 46 1 Lineare Regression Konfidenzintervalle und Tests 14 Zusammenfassung: t-test für den Parameter β im einfachen linearen Regressionsmodell mit Normalverteilungsannahme Anwendungsvoraussetzungen exakt: y i β 1 + β x i + u i mit u i N, σ ) für i {1,, n}, σ unbekannt, x 1,, x n deterministisch und bekannt, Realisation y 1,, y n beobachtet Nullhypothese H : β β H : β β H : β β Gegenhypothese H 1 : β β H 1 : β > β H 1 : β < β Teststatistik t β β σ β Verteilung H ) Benötigte Größen β s X,Y s X t für β β tn )-verteilt sy, σ β β s X,Y n ) sx Kritischer Bereich, t n ;1 α ) t n ;1 α, ), t n ;1 α) zum Niveau α t n ;1 α, ) p-wert 1 F tn ) t )) 1 F tn ) t) F tn ) t) Schließende Statistik WS 16/17) Folie 47 1 Lineare Regression Konfidenzintervalle und Tests 14 Beispiel: Ausgaben in Abhängigkeit vom Einkommen III) Im bereits erläuterten Beispiel soll zum Signifikanzniveau α 5 getestet werden, ob β 1 signifikant von Null verschieden ist Geeigneter Test: t-test für den Regressionsparameter β 1 1 Hypothesen: H : β 1 gegen H 1 : β 1 Teststatistik: t β 1 ist unter H für β 1 ) tn )-verteilt σ β1 3 Kritischer Bereich zum Niveau α 5: K, t n ;1 α ) t n ;1 α, + ), t 5;975) t 5;975, + ), 571) 571, + ) 4 Berechnung der realisierten Teststatistik: t β 1 1148 114 σ β1 1164 5 Entscheidung: t 114 /, 571) 571, + ) K H wird nicht abgelehnt! p-wert: F t5) t ) F t5) 114 ) 815 357) Der Test kann für β 1 keine signifikante Abweichung von Null feststellen Schließende Statistik WS 16/17) Folie 48

1 Lineare Regression Konfidenzintervalle und Tests 14 Beispiel: Ausgaben in Abhängigkeit vom Einkommen IV) Nun soll zum Signifikanzniveau α 1 getestet werden, ob β positiv ist Geeigneter Test: t-test für den Regressionsparameter β 1 Hypothesen: H : β gegen H 1 : β > Teststatistik: t β ist unter H für β ) tn )-verteilt σ β 3 Kritischer Bereich zum Niveau α 1: K t n ;1 α, + ) t 5;99, + ) 3365, + ) 4 Berechnung der realisierten Teststatistik: t β 6417 756 σ β 351 5 Entscheidung: t 756 3365, + ) K H wird abgelehnt! p-wert: 1 F t5) t) 1 F t5) 756) 1 9997 3) Der Test stellt fest, dass β signifikant positiv ist Schließende Statistik WS 16/17) Folie 49 1 Lineare Regression Punkt- und Intervallprognosen 15 Punkt- und Intervallprognosen im einfachen linearen Regressionsmodell mit Normalverteilungsannahme Neben Konfidenzintervallen und Tests für die Parameter β 1 und β in linearen Regressionsmodellen vor allem Prognosen wichtige Anwendung Zur Erstellung von Prognosen: Erweiterung der Modellannahme y i β 1 + β x i + u i, u i N, σ ), i {1,, n} auf zumindest) einen weiteren, hier mit x, y ) bezeichneten Datenpunkt, bei dem jedoch y nicht beobachtet wird, sondern lediglich der Wert des Regressors x bekannt ist Ziel: Schätzung Prognose) von y β 1 + β x + u bzw Ey ) β 1 + β x auf Grundlage von x Wegen Eu ) und der Erwartungstreue von β 1 für β 1 bzw β für β ist ŷ : β 1 + β x : Êy ) offensichtlich erwartungstreu für y bzw Ey ) gegeben x ŷ bzw Êy ) wird auch bedingte) Punktprognose für y bzw Ey ) gegeben x genannt Schließende Statistik WS 16/17) Folie 5 1 Lineare Regression Punkt- und Intervallprognosen 15 Prognosefehler Zur Beurteilung der Genauigkeit der Prognosen: Untersuchung der sogenannten Prognosefehler Qualitativer Unterschied: Prognosefehler ŷ y bzw Êy ) Ey ) Êy ) Ey ) β 1 + β x β 1 + β x ) β 1 β 1) + β β ) x resultiert nur aus Fehler bei der Schätzung von β 1 bzw β durch β 1 bzw β Prognosefehler ŷ y β 1 + β x β 1 + β x + u ) β 1 β 1) + β β ) x u ist Kombination von Schätzfehlern für β 1 und β ) sowie zufälliger Schwankung von u N, σ ) Zunächst: Untersuchung von e E : Êy ) Ey ) Schließende Statistik WS 16/17) Folie 51 1 Lineare Regression Punkt- und Intervallprognosen 15 Wegen der Erwartungstreue stimmen mittlerer quadratischer Prognose-) Fehler und Varianz von e E Êy ) Ey ) überein und man erhält VarÊy ) Ey )) VarÊy )) Var β 1 + β x ) Var β 1 ) + x Var β ) + x Cov β 1, β ) Es kann gezeigt werden, dass für die Kovarianz von β 1 und β gilt: Cov β 1, β ) σ x i1 x i x) x σ Insgesamt berechnet man so die Varianz des Prognosefehlers σ σe E : Vare E ) σ x + x σ x + x x x n s X x σ x n s X σ x x ) + x + x x x) σ s X + x x) 1 σ n + x x) ) Schließende Statistik WS 16/17) Folie 5

1 Lineare Regression Punkt- und Intervallprognosen 15 1 Lineare Regression Punkt- und Intervallprognosen 15 Die Linearität von β 1 und β in y i ) überträgt sich natürlich) auch auf Êy ), damit gilt offensichtlich e E Êy ) Ey ) N, σ e E ) bzw Êy ) Ey ) σ ee N, 1) Da σ unbekannt ist, erhält man durch Ersetzen von σ durch die erwartungstreue Schätzfunktion σ die geschätzte Varianz σ e E : Vare E ) σ s X + x x) n s X σ 1 n + x x) ) von Êy ) und damit die praktisch wesentlich relevantere Verteilungsaussage e E Êy ) Ey ) tn ), σ ee σ ee aus der sich in bekannter Weise symmetrische) Konfidenzintervalle und Tests) konstruieren lassen Prognoseintervalle für Ey ) gegeben x Intervallprognosen zur Vertrauenswahrscheinlichkeit 1 α erhält man also als Konfidenzintervalle zum Konfidenzniveau 1 α für Ey ) in der Form ] [Êy ) t n ;1 α σ e E, Êy ) + t n ;1 α σ e E [ β 1 + β x ) t n ;1 α σ e E, β 1 + β ] x ) + t n ;1 α σ e E Im Beispiel Ausgaben in Abhängigkeit vom Einkommen) erhält man zu gegebenem x 38 in 1 e) σ e E σ 1 n + x x) ) ) 1 38 38571) 9856 + 14 7 7 114491 die Punktprognose Êy ) β 1 + β x 1148 + 6417 38 11187 in 1 e) sowie die Intervallprognose zur Vertrauenswahrscheinlichkeit 95 [ 11187 571 14, 11187 + 571 14 ] [99914, 137] in 1 e) Schließende Statistik WS 16/17) Folie 53 Schließende Statistik WS 16/17) Folie 54 1 Lineare Regression Punkt- und Intervallprognosen 15 1 Lineare Regression Punkt- und Intervallprognosen 15 Prognosefehler e : ŷ y Nun: Untersuchung des Prognosefehlers e : ŷ y Offensichtlich gilt für e ŷ y die Zerlegung ŷ y β 1 + β x ) β 1 + β x +u }{{}}{{} ) Êy) Ey ) Êy ) Ey ) }{{} u }{{} Fehler aus Schätzung von zufällige Schwankung β 1 und β der Störgröße Êy ) hängt nur von u 1,, u n ab über y 1,, y n bzw β 1 und β ) und ist wegen der Annahme u i N, σ ) unabhängig von u Damit sind die beiden Bestandteile des Prognosefehlers insbesondere auch unkorreliert und man erhält: σe : Varŷ y ) VarÊy ) Ey )) + Varu ) 1 σ n + x x) ) + σ σ 1 + 1n + x x) ) Aus der Unkorreliertheit der beiden Komponenten des Prognosefehlers folgt auch sofort die Normalverteilungseigenschaft des Prognosefehlers e y ŷ, genauer gilt: e ŷ y N, σ e ) bzw ŷ y σ e N, 1) Wieder muss σ durch σ ersetzt werden, um mit Hilfe der geschätzen Varianz σ e : Varŷ y ) σ 1 + 1n + x x) ) des Prognosefehlers die für die Praxis relevante Verteilungsaussage e σ e ŷ y σ e tn ), zu erhalten, aus der sich dann wieder Prognoseintervalle konstruieren lassen Schließende Statistik WS 16/17) Folie 55 Schließende Statistik WS 16/17) Folie 56