Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Ähnliche Dokumente
Prognoseintervalle für y 0 gegeben x 0

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

1 Beispiel zur Methode der kleinsten Quadrate

Lineare Modelle in R: Klassische lineare Regression

Schriftliche Prüfung (90 Minuten)

Auswertung und Lösung

Variablen Selektion beste Volles Modell

Vorlesung: Statistik II für Wirtschaftswissenschaft

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Lineare Regression in R, Teil 1

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Züchtungslehre - Lösung 3

Übung V Lineares Regressionsmodell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Empirische Wirtschaftsforschung in R

Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden)

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Mehrfache und polynomiale Regression

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Statistik II. IV. Hypothesentests. Martin Huber

Einführung in die formale Demographie Übung

Analyse von Querschnittsdaten. Signifikanztests I Basics

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Tutorial: Regression Output von R

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Eine Einführung in R: Das Lineare Modell

Regressionsanalyse in R

Schriftliche Prüfung (90 Minuten)

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

6. Statistische Schätzung von ARIMA Modellen

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Die Regressionsanalyse

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

FORMELN IN. Referent: Daniel Laskow Betreuer: Eugen Betke Programmierung in R Arbeitsbereich Wissenschaftliches Rechnen Universität Hamburg

Teil: lineare Regression

1 Binäre Regression (I)

3. Das einfache lineare Regressionsmodell

Seminar zur Energiewirtschaft:

Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren

Kurs Empirische Wirtschaftsforschung

6.2 Lineare Regression

Lösung Übungsblatt 5

Logistische Regression

Statistik Einführung // Lineare Regression 9 p.2/72

B. Regressionsanalyse [progdat.sav]

9. Lineare Regression

Woche 2: Zufallsvariablen

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012

Einführung in die multiple Regression

Lineare Regression 1 Seminar für Statistik

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Allgemein zu Hypothesentests: Teststatistik. OLS-Inferenz (Small Sample) Allgemein zu Hypothesentests

Das lineare Regressionsmodell

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Schriftliche Prüfung (120 Minuten)

Lehrstuhl für Statistik und emp. Wirtschaftsforschung, Prof. Regina T. Riphahn, Ph.D. Diplomvorprüfung Statistik II Einf. Ökonometrie im WS 06/07

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Statistisches Lernen

Metrische und kategoriale Merkmale

Statistik I für Betriebswirte Vorlesung 14

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Teil VIII Hypothesentests für zwei Stichproben

Eine Einführung in R: Varianzanalyse

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Ich bestätige, dass ich obige Hinweise zur Kenntnis genommen habe und sie befolgen werde.

Strukturgleichungsmodellierung

6.4 Kointegration Definition

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

Inferenz im multiplen Regressionsmodell

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Statistik II Übung 2: Multivariate lineare Regression

Vorlesung: Statistik II für Wirtschaftswissenschaft

Kapitel 4: Binäre Regression

Technische Universität München Zentrum Mathematik Sommersemester Juli 2005 Arbeitszeit 60 Minuten

10. Übung (Korrelation und lineare Regressionsanalyse)

Statistik II Übung 1: Einfache lineare Regression

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Statistik für Naturwissenschaftler Woche 11-13: Regression basics (mit R Unterstützung)

Einführung in die Statistik

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Eine Einführung in R: Lineare Regression

Analyse von Querschnittsdaten. Signifikanztests II Advanced Stuff

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Eine Einführung in R: Lineare Regression

Statistik II Übung 2: Multivariate lineare Regression

Tests einzelner linearer Hypothesen I

Anwendung von Multi-Level Moderation in Worst Performance Analysen

Transkript:

Woche 11: Multiple lineare Regression Patric Müller <patric.mueller@stat.math.ethz.ch> Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL 017 Wahrscheinlichkeit und Statistik / WBL 017 Lernziele Sie können...... ein lineares Regressionsmodell aufschreiben und dessen Komponenten erläutern,... eine multiple lineare Regression in R durchführen,... die Nutzung der AIC und BIC Kriterien erläutern. Vorlesung basiert auf Kapitel 5. des Skripts. Wahrscheinlichkeit und Statistik 3 / WBL 017 Zusammenfassung Einfache lineare Regression Modell für einfache lineare Regression: Y i = β 0 + β 1 x i + E i, i = 1,..., n, Wobei E 1,..., E n N (0, σ ) Var. Bezeichnung Bedeutung Beispiel Y i Zielvariable Variable, die wir vorhersagen wollen Energieumsatz x i erklärende Variable, bekannte oder einfach zu fettfreie Masse Co-Variable messende Variable E i Fehlervariable oder Abweichung von perfekter Rauschterm Geraden Die unbekannten Parameter β 0 und β 1 werden mit der Methode der kleinsten Quadrate geschätzt. ( n ) ( ˆβ 0 ; ˆβ 1 ) = argmin (Y i β 0 β 1 x i ) β 0,β 1 i=1 Wahrscheinlichkeit und Statistik 4 / WBL 017

Signifikanz und Vertrauensintervall für erklärende Variable Multiple lineare Regression Konfidenzintervall [ für β 1 : ] I = ˆβ 1 ŝe( ˆβ 1 )t n,1 α, ˆβ 1 + ŝe( ˆβ 1 )t n,1 α lm(formula = energy ~ mass, data = energymass) Residuals: Min 1Q Median 3Q Max -0.83689-0.5948-0.0941 0.37778 0.5947 Estimate Std. Error t value Pr(> t ) (Intercept).53831 0.65519 3.874 0.001 ** mass 0.1048 0.01033 10.143 3.07e-07 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.433 on 1 degrees of freedom Multiple R-squared: 0.8955, Adjusted R-squared: 0.8868 F-statistic: 10.9 on 1 and 1 DF, p-value: 3.073e-07 Modell für die (multiple) lineare Regression Y i = β 0 + β 1 x (1) i + β x () i +... + β m x (m) i + E i, i = 1,..., n Wobei E 1,..., E n N (0, σ ) Die unbekannten Parameter sind hier β 0, β 1,..., β m, σ Das Modell ist linear (in den Parametern), es gibt aber mehrere Parameter zu schätzen (und mehrere Prädiktoren) Hier: I = [0.083, 0.173] Wahrscheinlichkeit und Statistik 5 / WBL 017 Wahrscheinlichkeit und Statistik 6 / WBL 017 Notation mit Matrizen Geometrische Interpretation wobei X = Y = X β + E, 1 x (1) 1 x () 1... x (m) 1 1 x (1) x ()... x (m), Y =..... 1 x n (1) x n ()... x n (m) β = β 0 β 1. β m, E = E 1 E. E n. Y 1 Y. Y n, Einfache lineare Regression: m = 1 und p = (Parameter zu schätzen). Man findet die bestmögliche Gerade. Lineare Regression mit zwei Prädiktoren: m = und p = 3. Man findet die bestmögliche Ebene. Multiple lineare Regression: m N und p = m + 1. Man findet die bestmögliche Hyperebene. Energy expenditure [MJ] 8 9 10 11 50 60 70 Fat free mass [kg] (Webb, 1981) Quelle: https://de.wikipedia.org/wiki/multiple lineare Regression Wahrscheinlichkeit und Statistik 7 / WBL 017 Wahrscheinlichkeit und Statistik 8 / WBL 017

Multiple lineare Regression Beispiel Anhand einer statistischen Analyse der Daten einer Studie (Willerman et al. (1991)), möchte man feststellen, wie die Intelligenz der Personen von vier Merkmalen (Geschlecht, Gewicht, Höhe, Gehirnmasse) Abhängt. Man vermutet eine lineare Abhängigkeit: Es entsteht folgendes Modell: Ziele: Y i = β 0 + β 1 x G i + β x W i + β 3 x H i + β 4 x M i + E i, i = 1,..., n, Wobei E 1,..., E n N (0, σ ), x G i = Geschlecht i, x W i = Gewicht i, x H i = Höhe i, x M i = Gew. Gehirnmasse i Schätzung der Parameter β0, β 1, β, β 3, β 4. Tests und Vertrauensintervalle für die geschätzten Parameter konstruieren. Vorhersagen machen (prediction). Wahrscheinlichkeit und Statistik 9 / WBL 017 Visualisierung des 5D-Datensatzes 65 75 0.0 0.8 0.0 0.8 65 75 FSIQ Gender Weight Height MRI_Coun 80 140 10 800000 Wahrscheinlichkeit und Statistik 10 / WBL 017 800000 10 80 140 Lineare Regression mit R lm(formula = FSIQ ~ Gender + Weight + Height + MRI_Count, data = brdat) Residuals: Min 1Q Median 3Q Max -33.57-16.574-0.83 16.957 43.780 Estimate Std. Error t value Pr(> t ) (Intercept) 1.344e+0 1.00e+0 1.341 0.1891 Gender -.599e+00 1.118e+01-0.33 0.8175 Weight -7.538e-0.0e-01-0.34 0.7343 Height -.767e+00 1.447e+00-1.91 0.0646. MRI_Count 1.999e-04 6.645e-05 3.008 0.0050 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.6 on 33 degrees of freedom Multiple R-squared: 0.661, Adjusted R-squared: 0.177 F-statistic:.99 on 4 and 33 DF, p-value: 0.0369 Koeffizienten: ˆβ 0 = 133.4, ˆβ 1,..., ˆβ 4 Standardabweichung der Fehlervariablen: ˆσ = 1.6 Messpunkte in der Studie: n = Freiheitsgrade + Anzahl Koeffizienten; n = df +p = 33+5 = 38 F-Test: Die Nullhypothese H 0 : β 1 = β = β 3 = β 4 = 0 (keine der Prädiktoren hat einen Einfluss auf die Zielvariable) wird verworfen. Vertrauensintervalle und R Vertrauensintervalle für die Parameter konstruiert man im mehrdimensionalen Fall, genauso wie im einfachen Fall. Konfidenzintervall für β j : [ ] I = ˆβ j ŝe( ˆβ j )t n,1 α, ˆβ j + ŝe( ˆβ j )t n,1 α Das Bestimmtheitsmass R-squared ergibt den Anteil der Variation der vom Modell erklärt wird. n R i=1 = 1 (Y i Ŷ i ) n i=1 (Y i y) Das korrigierte Bestimmtheitsmass (Adjusted R-squared) wird mit der folgenden Formel berechnet: R = R (1 R p ) n p 1 Wahrscheinlichkeit und Statistik 11 / WBL 017 Wahrscheinlichkeit und Statistik 1 / WBL 017

Residuenanalyse: Überprüfung der Modellannahmen Immer noch lineare Regression! Die Annahmen des Modells werden ähnlich wie bei der einfachen linearen Regression geprüft. Empirische Quantile 0 0 0 40 Q Q Plot der Residuen Residuen 0 0 0 40 Tukey Anscombe Plot Betrachte folgendes Modell: Ist das Modell linear? Y i = β 0 + β 1 x + β x + β 3 x 3 + E i Wobei E 1,..., E n N (0, σ ) Das Modell ist linear, denn es ist linear in den Parametern! Eine lineare Regression kann deswegen, wie üblich durchgeführt werden. 40 0 0 0 40 Theoretische Quantile 90 100 110 10 130 140 Angepasste Werte Wahrscheinlichkeit und Statistik 13 / WBL 017 Wahrscheinlichkeit und Statistik 14 / WBL 017 Beispiel Simulierter Datensatz Bemerkungen Komplexität des Modells lm(formula = y ~ x + x + x3) Residuals: Min 1Q Median 3Q Max -18.7836-3.6495-0.6014 4.005 0.795 Estimate Std. Error t value Pr(> t ) (Intercept) 3.888394 1.8180073 1.809 0.07836. x -1.5615171 0.4638577-3.366 0.00175 ** x -0.00030 0.0381488-0.008 0.99335 x3 0.0949439 0.0061468 15.446 < e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 8.168 on 38 degrees of freedom Multiple R-squared: 0.9518, Adjusted R-squared: 0.948 F-statistic: 50. on 3 and 38 DF, p-value: <.e-16 y 100 50 0 50 100 10 5 0 5 10 x Ein komplexeres Modell erklärt die Daten immer besser (SSR kleiner) als eine einfachere Version desselben Modells. Kompliziere Modelle sind aber nicht immer besser! Einfache Modelle sind einfach! Wenige Parameter müssen geschätzt werden, und die Interpretation fällt in der Regel dann auch leichter. Kaum signifikante Prädiktoren oder Prädiktoren, die keine Kausalitätsbeziehung mit der Zielvariable haben, sollen im Modell lieber weggelassen werden. Zu viele Prädiktoren können zu einer Überanpassung (overfitting) des Modells führen! Eine gute Regel ist n 10p, das heisst pro geschätzter Parameter mindestens 10 Beobachtungen haben. Harrell (015) Das linear Regressionsmodell hat eine eindeutige Lösung falls n > p (und Rang(X ) = p). Wie findet man ein gutes Gleichgewicht zwischen Komplexität und gute Qualität des fits? Wahrscheinlichkeit und Statistik 15 / WBL 017 Wahrscheinlichkeit und Statistik 16 / WBL 017

AIC und BIC Es ist wichtg ein gutes Gleichgewicht zwischen der Komplexität des Modells und Anpassungsgüte zu finden. AIC und BIC geben diesem Gleichgewicht ein einen numerischen Wert. AIC = l(ˆθ) + p, BIC = l(ˆθ) + log(n)p wobei l(ˆθ) = loglikelihood und ˆθ der Parametervektor ist. Theorem In einem linearen Modell mit den üblichen Annahmen gilt l(ˆθ) = n log ( SSR ) + C n für eine von der Modellwahl unabhängige Konstante C. Wie benutzt man in der Praxis AIC und BIC? Wahrscheinlichkeit und Statistik 17 / WBL 017 AIC und BIC Anwendung Man wähle, zwischen allen möglichen Modellen, das Modell mit dem kleinsten AIC bzw. BIC Wert. Für eine maximale Anzahl von M benutzten Prädiktoren, gäbe es M+1 Modelle zu testen. Die Anzahl zu fittende Modelle kann stark reduziert werden dank einer sogenannten (vorwärts/rückwärts) stepwise Regression. Vorwärts stepwise Regression, Idee: 1 Fitte das leere Modell Y = β 0 + E und berechne den dazugehörigen Wert AIC 0 Fitte alle Modelle mit nur einem Prädiktor (Y = β 0 + β 1 x k + E). 3 Definiere als Basismodell, das Modell mit dem kleinsten AIC Koeffizienten. 4 Teste jetzt alle Modelle, die entstehen beim Hinzufügen eines Parameters zum Basismodell. 5 Definiere als neues Basismodell das Modell mit dem kleinsten AIC. 6 Vorgehen wiederholen solange es keine Änderungen mehr gibt. Wahrscheinlichkeit und Statistik 18 / WBL 017 AIC und BIC Anwendung AIC forward mit R Rückwärts stepwise Regression, Idee: 1 Fitte das komplette Modell mit allen Parametern und berechne den dazugehörigen Wert AIC p Fitte alle Modelle mit allen Prädiktoren alle bis auf einen. 3 Definiere als Basismodell das Modell mit dem kleinsten AIC Wert. 4 Teste jetzt alle Modelle, die entstehen beim Weglassen eines Parameters vom Basismodell. 5 Definiere als neues Basismodell das Modell mit dem kleinsten AIC. 6 Vorgehen wiederholen solange es keine Änderungen mehr gibt. Bemerkungen: Vorwärts und R ckwärts stepwise regression ergeben nicht unbedingt dasselbe Ergebnis. Stepwise Regression kann man auch mit dem BIC Kriterium machen. AIC Kriterium mit Richtung Vorwärts : step(...,directon="forward") Start: AIC=41.93 FSIQ ~ 1 + MRI_Count 1 337.04 18648 39.44 <none> 0985 41.93 + Height 1 94.4 0691 43.40 + Gender 1 115.3 0870 43.7 + Weight 1 55.6 0930 43.83 Step: AIC=39.45 FSIQ ~ MRI_Count + Height 1 3180.7 15468 34.34 + Weight 1 1414.6 1734 38.45 <none> 18648 39.44 + Gender 1 736.9 1791 39.91 - MRI_Count 1 337.0 0985 41.93 Step: AIC=34.34 FSIQ ~ MRI_Count + Height <none> 15468 34.34 + Weight 1 41.8 1546 36.4 + Gender 1 1.4 15455 36.31 - Height 1 3180.7 18648 39.44 - MRI_Count 1 53.3 0691 43.40 lm(formula = FSIQ ~ MRI_Count + Height, data = brdat) (Intercept) MRI_Count Height 1.64e+0.05e-04 -.871e+00 Wahrscheinlichkeit und Statistik 19 / WBL 017 Wahrscheinlichkeit und Statistik 0 / WBL 017

AIC backward mit R Literatur I AIC Kriterium mit Richtung Rückwärts : step(...,directon="backward") Start: AIC=38.17 FSIQ ~ Gender + Weight + Height + MRI_Count - Gender 1 5. 1546 36.4 - Weight 1 54.7 15455 36.31 <none> 15401 38.17 - Height 1 1706.3 17107 40.17 - MRI_Count 1 43.4 1964 45.38 Step: AIC=36.4 FSIQ ~ Weight + Height + MRI_Count - Weight 1 41.8 15468 34.34 <none> 1546 36.4 - Height 1 1808.0 1734 38.45 - MRI_Count 1 54.6 0651 45.3 Step: AIC=34.34 FSIQ ~ Height + MRI_Count <none> 15468 34.34 - Height 1 3180.7 18648 39.44 - MRI_Count 1 53.3 0691 43.40 lm(formula = FSIQ ~ Height + MRI_Count, data = brdat) (Intercept) Height MRI_Count 1.64e+0 -.871e+00.05e-04 Frank Harrell. Regression Modeling Strategies. Springer, 015. Paul Webb. Energy expenditure and fat-free mass in men and women. The American journal of clinical nutrition, 34(9):1816 186, 1981. Lee Willerman, Robert Schultz, J Neal Rutledge, and Erin D Bigler. In vivo brain size and intelligence. Intelligence, 15():3 8, 1991. Wahrscheinlichkeit und Statistik 1 / WBL 017 Wahrscheinlichkeit und Statistik / WBL 017