Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Ähnliche Dokumente
Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Teil VIII Hypothesentests für zwei Stichproben

Vorlesung: Statistik II für Wirtschaftswissenschaft

1 Beispiel zur Methode der kleinsten Quadrate

Multivariate Verfahren

Schriftliche Prüfung (90 Minuten)

Übung V Lineares Regressionsmodell

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Statistik II. IV. Hypothesentests. Martin Huber

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Analyse von Querschnittsdaten. Signifikanztests I Basics

Die Funktion f wird als Regressionsfunktion bezeichnet.

Teil: lineare Regression

Multivariate Verfahren

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Inferenz im multiplen Regressionsmodell

Auswertung und Lösung

Prognoseintervalle für y 0 gegeben x 0

Schriftliche Prüfung (90 Minuten)

Tests einzelner linearer Hypothesen I

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Lineare Modelle in R: Klassische lineare Regression

Kurs Empirische Wirtschaftsforschung

Lösung Übungsblatt 5

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

3. Das einfache lineare Regressionsmodell

Musterlösung. Modulklausur Multivariate Verfahren

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden)

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Einführung in die Statistik

Übungen mit dem Applet. by Michael Gärtner

Hypothesentests mit SPSS

Lineare Regression mit einem Regressor: Einführung

Statistik II. Regressionsanalyse. Statistik II

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

10. Die Normalverteilungsannahme

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Die Regressionsanalyse

Tests für Erwartungswert & Median

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Woche 2: Zufallsvariablen

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Das lineare Regressionsmodell

Statistik und Wahrscheinlichkeitsrechnung

das Kleingedruckte...

Diagnostik von Regressionsmodellen (1)

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

6. Schätzverfahren für Parameter

4.1 Problemstellung. E E i = 0 : Linearität, Additivität. 4 Residuen-Analyse 4.1. PROBLEMSTELLUNG 96. (a) (b) gleiche Varianz var E i = σ 2,

Statistik II Übung 1: Einfache lineare Regression

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Mathematik III - Statistik für MT(Master)

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

6.2 Lineare Regression

Regression und Korrelation

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Schriftliche Prüfung (120 Minuten)

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Eine Einführung in R: Das Lineare Modell

Vorlesung: Lineare Modelle

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Teil X. Hypothesentests für eine Stichprobe. Woche 8: Hypothesentests für eine Stichprobe. Lernziele. Statistische Hypothesentests

Seminar zur Energiewirtschaft:

Klausur zu Statistik II

Die Familie der χ 2 (n)-verteilungen

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Allgemein zu Hypothesentests: Teststatistik. OLS-Inferenz (Small Sample) Allgemein zu Hypothesentests

Statistik Vorlesung 7 (Lineare Regression)

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Statistisches Testen

Statistische Tests für unbekannte Parameter

Einfaktorielle Varianzanalyse

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Einführung in die Statistik

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Mathematik IV: Statistik

Statistik II Übung 1: Einfache lineare Regression

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Bereiche der Statistik

Statistische Datenanalyse

Empirische Wirtschaftsforschung

3.1 Punktschätzer für Mittelwert µ und Varianz σ 2. Messungen x 1,..., x N, die unabhängig voneinander auf gleiche Weise gewonnen worden sind

I. Deskriptive Statistik 1

Transkript:

Woche 10: Lineare Regression Patric Müller <patric.mueller@stat.math.ethz.ch> Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit und Statistik 2 / 26 WBL 2017 Lernziele Zusammenfassung Sie können...... ein lineares Regressionsmodell aufschreiben und dessen Komponenten erläutern... eine lineare Regression in R durchführen... prüfen, ob ein Datensatz die Modellannahmen der linearen Regression erfüllt. Vorlesung basiert auf Kapitel 5.2 des Skripts. Korrelation Corr(X, Y ) erklärt, wie gut die Daten auf einer Geraden liegen. X i und Y i sind gepaart. Tests Ein Test ist eine Entscheidungsregel. Das Testergebnis entscheidet, ob die zwei Stichproben unterschiedliche Verteilungen haben. X i und Y i sind gepaart oder ungepaart. Lineare Regression Mit der linearen Regression schätzt man die (lineare) Beziehung zwischen X und Y. Das heisst, man bestimmt die bestmögliche Gerade, die zu den Daten passt. Xi und Y i sind gepaart. Zusätzlich beeinflusst der Prädiktor Xi die Zielvariable Y i. Wahrscheinlichkeit und Statistik 3 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 4 / 26 WBL 2017

Beispiel: Körpermasse und Energieumsatz In einer Studie wurde die fettfreie Masse und der Energieumsatz während 24h von 7 Probanden gemessen (2 Messungen pro Proband) (Webb, 1981). Täglicher Energieumsatz scheint linear mit fettfreier Masse zu wachsen. Energy expenditure [MJ] 8 9 10 11 50 55 60 65 70 75 Fat free mass [kg] Zusammenhang zwischen fettfreier Masse und Energieumsatz liesse sich z.b. durch Korrelation ausdrücken; das hilft aber nicht, für eine bekannte fettfreie Masse den dazugehörigen Energieumsatz vorherzusagen! Ziel: Eine Formel für den Energieumsatz als Funktion der Masse bestimmen. Wahrscheinlichkeit und Statistik 5 / 26 WBL 2017 Einfache lineare Regression Modell für einfache lineare Regression: Wobei E 1,..., E n N (0, σ 2 ) Var. Bezeichnung Bedeutung Beispiel Y i Zielvariable Variable, die wir vorhersagen wollen Energieumsatz x i erklärende Variable, bekannte oder einfach zu fettfreie Masse Co-Variable messende Variable E i Fehlervariable oder Abweichung von perfekter Rauschterm Geraden Fehlervariablen modellieren (nicht erklärbare) individuelle Abweichungen von einem Mittelwert nicht gemessene Einflüsse auf die Zielvariable: z.b. sportliche Aktivität, Personenunterschied,... Wahrscheinlichkeit und Statistik 6 / 26 WBL 2017 Einfache lineare Regression: Namensbedeutung Modell für einfache lineare Regression: Bezeichnung des Modells: E 1,..., E n N (0, σ 2 ) einfach : nur eine erklärende Variable (andernfalls: multiple lineare Regression, s. Kurs Regression ) linear : Zielvariable ist lineare Funktion der Koeffizienten β 0, β 1 Bemerke: Eine versteckte Annahme der linearen Regression ist, dass die Prädiktoren x i exakt (ohne Fehler) gemessen wurden. Regressionsgerade schätzen Wie finden wir eine Gerade, die gut auf die Daten passt? Welche der gezeigten Geraden passt am besten? Energy expenditure [MJ] 8 9 10 11 50 55 60 65 70 75 Fat free mass [kg] Wahrscheinlichkeit und Statistik 7 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 8 / 26 WBL 2017

Regressionsmodell schätzen: Überblick Methode der kleinsten Quadrate Modell: Wobei E 1,..., E n N (0, σ 2 ) Ziel: Parameter β 0, β 1 (und σ 2 ) schätzen. Mit ˆβ 0 und ˆβ 1 bezeichnen wir die geschätzten Parameter. x i und Y i sind gemessene Daten. β 0 und β 1 werden mit der Methode der kleinsten Quadrate geschätzt. Das heisst durch Minimierung der Summe der Fehlerquadrate ( residual sum of squares ) RSS = n (Y i β 0 β 1 x i ) 2 i=1 ( n ) ( ˆβ 0 ; ˆβ 1 ) = argmin (Y i β 0 β 1 x i ) 2 β 0,β 1 i=1 σ 2 schätzen durch Varianzschätzung der R i = Y i ˆβ 0 ˆβ 1 x i Wahrscheinlichkeit und Statistik 9 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 10 / 26 WBL 2017 Eigenschaften der Schätzer Residuum: Differenz zwischen gemessenem und angepasstem Wert der Zielvariablen. Gemessener Wert: Y i (gemessener Energieumsatz) Angepasster Wert für gegebene Parameter β0 und β 1 : Y = β0 + β 1 x i. In der Regel sind die gegebene Parameter die geschätzte Parameter, somit: ˆβ 0 + ˆβ 1 x i =: Ŷ i Definition () Das i-te Residuum (i = 1,..., n) ist definiert als R i = Y i β 0 β 1 x i. Die Summe der Fehlerquadrate ist definiert als RSS = n i=1 R2 i. Theorem ˆβ 0 und ˆβ 1 sind erwartungstreue Schätzer für die wahren Koeffizienten β 0 und β 1. Fehlervariablen E i sind nicht direkt messbar: wir kennen bloss Werte von x i und Y i Mit Hilfe der konstruiert man ein Schätzer für die Fehlervarianz: ˆσ 2 = 1 n Ri 2 n 2 i=1 Wahrscheinlichkeit und Statistik 11 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 12 / 26 WBL 2017

Lineare Regression in R Viel Output... > energymass <- read.table("../daten/energy.csv", sep = ",", header = TRUE) > energymass$energy <- 4.1868e-3*energymass$energy # Einheiten umrechnen... > energy.fit <- lm(energy ~ mass, data = energymass) > summary(energy.fit) Koeffizienten: ˆβ 0 = 2.53831, ˆβ 1 = 0.10482 Standardabweichung der Fehlervariablen: ˆσ = 0.433 Messpunkte in der Studie: n = Freiheitsgrade + Anzahl Koeffizienten; n = 12 + 2 = 14 Wahrscheinlichkeit und Statistik 13 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 14 / 26 WBL 2017 Interpretation des Outputs I Beantworten Sie die folgenden Fragen basierend auf dem Output auf der vorangehenden Folie: Angenommen, Sie wiegen 4kg mehr als Ihr Bruder; um wie viel ist dann der Erwartungswert Ihres täglichen Energieumsatzes höher als der Ihres Bruders? Wie gross ist der erwartete Energieumsatz einer Person mit einer fettfreien Masse von 65kg? Geben Sie ein 95%-Vertrauensintervall für den täglichen Energieumsatz einer Person mit einer fettfreien Masse von 65kg an. Signifikanz des ganzen Modells: F-Test p-wert der F-Statistik : Ergebnis eines Tests zur Nullhypothese alle Koeffizienten ausser β 0 sind 0. Relevant bei multipler linearer Regression; bei der einfachen linearen Regression bezieht sich der Test nur auf β 1. Wahrscheinlichkeit und Statistik 15 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 16 / 26 WBL 2017

Signifikanz einzelner erklärender Variablen: t-test Signifikanz und Vertrauensintervall für erklärende Variable Gibt es einen signifikanten Zusammenhang zwischen fettfreier Masse und Energieumsatz? Das lässt sich mit einem t-test zur Nullhypothese β 1 = 0 herausfinden. calc. coeff. exp. coeff. Teststatistik: T = = ˆβ 1 0 standard error ŝe( ˆβ 1 ) Unter der Nullhypothese ist die Teststatistik t-verteilt mit n 2 Freiheitsgraden Werte der Teststatistik und zugehörige p-werte lassen sich aus dem R-Output ablesen Einfache lineare Regression: t-test zur Steigung liefert gleichen p-wert wie F-Test zum Modell. Konfidenzintervall [ für β 1 : I = ˆβ1 ŝe( ˆβ 1 )t n 2,1 α, ˆβ 2 1 + ŝe( ˆβ ] 1 )t n 2,1 α 2 Hier: I = [0.0823, 0.1273] Wahrscheinlichkeit und Statistik 17 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 18 / 26 WBL 2017 analyse: Überprüfung der Modellannahmen Tukey-Anscombe-Plot Modellannahmen können im Wesentlichen mit zwei Plots überprüft werden: Linearität und -Annahme der Fehler mit dem Tukey-Anscombe-Plot: ( gegen gefittete Werte). Normalverteilungs-Annahme der Fehler mit einem Q-Q-Plot 0.8 0.4 0.0 0.2 0.4 0.6 Tukey Anscombe Plot Empirische Quantile 0.8 0.4 0.0 0.2 0.4 0.6 Q Q Plot der Linearität und -Annahme der Fehlervariablen prüfen: R i gegen angepasste Werte der Zielvariable (Ŷi = ˆβ 0 + ˆβ 1 x i ) plotten (Tukey-Anscombe plot) Falls -Annahme zutrifft, sollten Punkte im Tukey-Anscombe-Plot zufällig um eine horizontale Gerade fluktuieren, ohne sichtbares Muster Tukey-Anscombe-Plot in R: > plot(fitted(energy.fit), resid(energy.fit), xlab = "Angepasste Werte", ylab = "") 0.8 0.4 0.0 0.4 7.5 8.0 8.5 9.0 9.5 10.5 Angepasste Werte 7.5 8.0 8.5 9.0 9.5 10.0 10.5 Angepasste Werte 0.5 0.0 0.5 Theoretische Quantile Wahrscheinlichkeit und Statistik 19 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 20 / 26 WBL 2017

Guter Tukey-Anscombe-Plot Im Tukey-Anscombe-Plot sichtbare Verletzungen der Annahmen 1.0 0.5 0.0 0.5 1.0 5 6 7 8 9 10 Angep. Werte Unterschiedliche Fehlervarianzen: 1.5 0.5 0.5 1.5 5 6 7 8 9 10 Angep. Werte Kegel; kann evtl. mit Hilfe einer log-transformation behoben werden Y i log(y i ) Nicht-linearer Trend: 1 0 1 2 5 6 7 8 9 10 Angep. Werte Quadratischer Trend; kann evtl. durch Hinzufügen eines quadratischen Terms (x 2 i ) behoben werden. Wahrscheinlichkeit und Statistik 21 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 22 / 26 WBL 2017 Bestimmtheitsmass R 2 Bestimmtheitsmass im R-Output Bestimmtheitsmass R 2 gibt an, wie gut die Datenpunkte auf einer Gerade liegen ( goodness of fit ) Definition: Bestimmtheitsmass = quadrierter Korrelationskoeffizient zwischen gemessenen (Y i ) und angepassten (Ŷi) Werten der Zielvariable, das heisst: R 2 = ( sŷy sŷs y ) 2 Manuelle Berechnung: > cor(energymass$energy, fitted(energy.fit))^2 [1] 0.8955353 Wahrscheinlichkeit und Statistik 23 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 24 / 26 WBL 2017

Einfache lineare Regression: Zusammenfassung Literatur I Energy expenditure [MJ] 8 9 10 11 50 55 60 65 70 75 Fat free mass [kg] Modell der einfachen linearen Regression: E 1,..., E n N (0, σ 2 ) Zu schätzende Parameter: β 0, β 1 und σ 2 Paul Webb. Energy expenditure and fat-free mass in men and women. The American journal of clinical nutrition, 34(9):1816 1826, 1981. β 0 und β 1 werden mit der Methode der kleinsten Fehlerquadrate geschätzt; sie minimieren RSS = n i=1 R2 i. Die Schätzung von σ 2 wird durch die Varianzschätzung der R i = Y i ˆβ 0 ˆβ 1 x i berechent. Wahrscheinlichkeit und Statistik 25 / 26 WBL 2017 Wahrscheinlichkeit und Statistik 26 / 26 WBL 2017