Lineare Regression 2: Gute Vorhersagen

Ähnliche Dokumente
Logistische Regression

Einfache lineare Regression. Statistik (Biol./Pharm./HST) FS 2015

Statistisches Lernen

Mixed Effects Models: Wachstumskurven

Lineare Regression 1 Seminar für Statistik

ANalysis Of VAriance (ANOVA) 2/2

Least Absolute Shrinkage And Seletion Operator (LASSO)

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Das Lineare Regressionsmodell

Kategorielle Daten. Seminar für Statistik Markus Kalisch

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN

Schätzung im multiplen linearen Modell VI

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

Seminar zur Energiewirtschaft:

Varianzkomponentenschätzung

9 Robuste Methoden. 9.1 Einfluss und Robustheit. i (x i x) 2 = i x iy i. c 1 = x 2 + i (x i x) 2. Einfache Regression: 9.1 Einfluss und Robustheit 205

Allgemeine lineare Modelle

Übung V Lineares Regressionsmodell

Variablen Selektion beste Volles Modell

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Vorlesung Wissensentdeckung

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse)

Thilo Moseler Bern,

ANalysis Of VAriance (ANOVA) 1/2

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Modellwahlverfahren für Proxy-Modelle im Kontext von Solvency II

Statistik II für Betriebswirte Vorlesung 8

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

Gegenüberstellung alternativer Methoden zur Variablenselektion

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016

Kurs Empirische Wirtschaftsforschung

1 Beispiel zur Methode der kleinsten Quadrate

Einführung in die Maximum Likelihood Methodik

1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann.

Strukturgleichungsmodellierung

BZQ II: Stochastikpraktikum

Multiple Lineare Regression (Forts.) Residualanalyse (1)

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Die Funktion f wird als Regressionsfunktion bezeichnet.

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Wiederholung. Seminar für Statistik

Lineare Modelle in R: Klassische lineare Regression

Auswertung und Lösung

Feature Selection / Preprocessing

Fortgeschrittene Ökonometrie: Maximum Likelihood

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

6.2 Lineare Regression

6. Tutoriumsserie Statistik II

Statistik II Übung 1: Einfache lineare Regression

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

V. Das lineare Regressionsmodell

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Proxies, Endogenität, Instrumentvariablenschätzung

Beispiel: Multiples Modell/Omitted Variable Bias I

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Genauigkeit von Nächst- Nachbarmodellen in pflanzenzüchterischen Versuchen

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität

Deskriptive Beschreibung linearer Zusammenhänge

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Lineare Regression. Kapitel Regressionsgerade

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

1. Lösungen zu Kapitel 7

Die Stochastischen Eigenschaften von OLS

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

10 ARIMA-Modelle für nicht-stationäre Zeitreihen

Empirische Wirtschaftsforschung

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Zusammenfassung 11. Sara dos Reis.

Statistik II Übung 2: Multivariate lineare Regression

Stochastik Praktikum Parametrische Schätztheorie

Bachelorprüfung: Statistik (1 Stunde)

Frequentisten und Bayesianer. Volker Tresp

Naive Bayes für Regressionsprobleme

Grundlagen zu neuronalen Netzen. Kristina Tesch

Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben

6.4 Kointegration Definition

Statistische Methoden

Statistik II. IV. Hypothesentests. Martin Huber

Wichtige Definitionen und Aussagen

5 Allgemeine Verfahren zum Testen von Hypothesen

Analytics Entscheidungsbäume

Teil: lineare Regression

Statistik II Übung 1: Einfache lineare Regression

Korollar 116 (Grenzwertsatz von de Moivre)

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Inferenz im multiplen Regressionsmodell

Permutationstests II.

Die Regressionsanalyse

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Transkript:

Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1

Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation Y kategoriell VL 3 Exkurse: VL 8 (Poweranalyse), VL 9 & 10 (Experimentelles Design), VL 13 (Fehlende Werte, Reproduzierbarkeit) Markus Kalisch 23.09.2014 2

Ziele: Vorhersage vs. Inferenz Vorhersage: Hintergründe egal (Black box) - Gegeben die Blutwerte: Verträgt der Patient das Medikament? - Wie viele Kunden wollen neues Produkt? Möglichst komplexes Modell, um alle Details zu erfassen Inferenz: Hintergründe verstehen - Durchschnittliche Kassierzeit pro Produkt? - Gibt es einen Zshg zw Dosis und Heilungswa.? Möglichst einfaches Modell, um interpretieren zu können Lineare Regression: Guter Kompromiss werden uns weiter damit beschäftigen Fokus heute: Vorhersage Markus Kalisch 23.09.2014 3

Wdh: Bias und Varianz eines Schätzers Schätzer Θ, wahrer Parameter Θ Je nach beobachteten, zufälligen Daten: Θ variiert Bias (B) von Θ: E( Θ Θ) Varianz (V) von Θ: Var Θ = E Θ Θ 2 B V V B Markus Kalisch 23.09.2014 4

Wdh: Güte vom Modell Residuen = Vertikaler Abstand zw. Punkt und Linie R i = y i ( β 0 + β 1 x i ) R 18 = -27 R 1 = 4 Residual Sum of Squares (RSS): RSS = n i=1 R i 2 Mean Squared Error (MSE): MSE = RSS n

Training MSE vs.test MSE Training Daten: Bisher gesehene Daten Test Daten: Neue, zukünftige Daten Training MSE: Fehler auf bisher gesehenen Daten Test MSE: Fehler auf zukünftigen Daten Bisher: Gesehenes gut erklären - Modellklasse wählen (z.b. Geradengleichung) - Parameter finden, so dass Trainings MSE minimal Neues Ziel: Zukünftige Daten gut erklären Modell finden, so dass Test MSE minimal 6

Bias-Variance Trade-Off Training MSE: Kann beliebig klein gemacht werden, wenn wir nur genügend Parameter verwenden Test MSE: Selbst wenn wir f(x) perfekt schätzen, stört der Fehlerterm ε unsere Vorhersage (Eq. 2.7): Erwartetes Residuenquadrat an Stelle x 0 im Testset: E y 0 f x 0 2 = Var f x 0 + Bias f x 0 2 + Var ε Test MSE: Mittelwert von E y 0 f x 0 von x 0 im Testset. perfekter Fit von f(x): Test MSE = Var(ε) > 0 Fazit: Training MSE Test MSE 2 über alle möglichen Werte Markus Kalisch 23.09.2014 7

Training MSE Test MSE Y = f x + ε Schwarze Kurve: f(x) Welche Kurve beschreibt - Training MSE - Test MSE? Markus Kalisch 23.09.2014 8

Paradox: Overfitting Paradox: Modell das die bisherigen Daten am besten beschreibt (minmaler Training MSE) ist nicht unbedingt das beste für zukünftige Daten (minimaler Test MSE)! Y = f x + ε f x meist glatt Perfekter Fit auf Trainings-Daten modelliert v.a. Fehlerterm, der bei zukünftigen Daten anders sein wird. Markus Kalisch 23.09.2014 9

Fazit Um gute Vorhersagen zu machen, müssen wir den Test MSE minimieren Um den Test MSE zu minimieren reicht es NICHT den Training MSE zu minimieren Markus Kalisch 23.09.2014 10

Wie schätzt man den Test MSE? Direkte Methoden - Test Datensatz - Cross-validation (CV) Indirekte Methoden: C p, AIC, BIC, Adjusted R 2 - Korrektur vom Training MSE - Approximation von direkter Methode - Schnell: Gut, wenn viele oder aufwändige Modelle zu schätzen sind Markus Kalisch 23.09.2014 11

Direkte Methode 1: Expliziter Test Datensatz Teile Daten in Test- und Trainingsdatensatz Schätze Modell auf Trainingsdatensatz, evaluiere auf Testdatensatz Vorteil: Einfach, schnell Training Test Nachteil: - Je nach Wahl vom Testdatensatz: Unterschiedlicher MSE - Trainingsdatensatz kleiner als Originaldatensatz Test MSE wird überschätzt Markus Kalisch 23.09.2014 12

Direkte Methode 2: Cross-Validation (CV) Leave-one-out cross-validation (LOOCV): Jede Zeile ist einmal Testset; Rest ist Trainingsset Nachteil: Langsam, weil ein Fit pro Zeile K-fold cross-validation, z.b. 10-fold: Teile Daten in 10 Blöcke; jeder Block ist einmal Testset Nachteil: Je nach Unterteilung in K Blöcke unterschiedliches Test MSE Markus Kalisch 23.09.2014 13

Cross-Validation in R Grundsätzlich funktioniert CV für alle erdenklichen Vorhersagemethoden Für Lineare Modelle (und sogar GLM s) gibt es eine besonders einfache Funktion: cv.glm() in package boot Wdh: Lineare Modelle sind eine Unterklasse der Generalized Linear Models (GLMs) Damit kann man sowohl LOOCV als auch k-fold CV durchführen Markus Kalisch 23.09.2014 14

Indirekte Methoden: Hintergrund Kriterium K, das Güte vom Fit (RSS) und Anzahl Parameter (d) verbindet: K = RSS + f(d) Theorie: Unter gewissen Annahmen und bei sehr grossen Datensätzen (asymptotisch) gilt: Modell mit bestem K ist optimal für Vorhersage Vorteil: Schnell zu rechnen Nachteil: Approximativ; macht Annahmen; Test MSE nicht berechnet Praxis: Verwenden, falls viele oder komplizierte Modelle geschätzt werden müssen Markus Kalisch 23.09.2014 15

Indirekte Methoden: Überblick Je nach theo. Annahmen, leicht andere Form von K (d: Anz. Parameter im Modell, n: Anz. Beobachtungen) C p = 1 n (RSS + 2d σ2 ) AIC = 1 n σ 2 (RSS + 2d σ2 ) BIC = 1 n (RSS + log(n)d σ2 ) Adjusted R 2 = 1 RSS n d 1 TSS n 1 (TSS: Total sum of squares) Praxis: Willkürlich für eine Methode entscheiden (z.b. BIC) Markus Kalisch 23.09.2014 16

Modellwahl Fokus 1: Finde Modell, das möglichst kleinen Vorhersagefehler hat Fokus 2: Finde Variablen, die für gute Vorhersage nötig sind Könnten CV verwenden (s. ISL 6.5.3); wir konzentrieren uns aber auf indirekte Methoden: Einfacher und schneller Faustregel für die Praxis: - Test MSE mit CV (direkte Methode) - Modellwahl mit BIC (indirekte Methode) Markus Kalisch 23.09.2014 17

Bsp: Gehalt von Baseball Spielern Erkläre Gehalt ( Salary ) von Baseball Spielern mit erklärenden Variablen in der Saison 86/87 Datensatz Hitters im package ISLR Markus Kalisch 23.09.2014 18

Techniken zur Modellwahl 1: Exakt Berechne eine Lineare Regression für alle möglichen Kombinationen von erklärenden Variablen; speichere BIC Vorteil: Findet bestes Subset bzgl. BIC Nachteil: Rechenaufwand! p Variablen 2 p Subsets p 2 p 10 10 3 20 10 6 30 10 9 40 10 12... In der Praxis kaum mehr zu berechnen Markus Kalisch 23.09.2014 19

Techniken zur Modellwahl 2: Heuristiken Wie Bergwanderung im Nebel: Gehe immer nach oben man landet evtl. auf Zwischengipfel Verfehlen evtl. globales Optimum Stepwise forward : Starte mit dem leeren Modell; füge immer eine Variable hinzu Stepwise backward : Start mit dem vollen Modell; lasse immer eine Variable weg Markus Kalisch 23.09.2014 20

RSS oder BIC? Angenommen, wir haben 20 Variablen zur Auswahl. Wir wollen das beste (bzgl. Vorhersage) Modell mit genau 5 Variablen finden. Sollten wir als Gütekriterium RSS oder BIC verwenden? RSS produziert das bessere Modell. BIC produziert das bessere Modell. RSS und BIC produzieren das gleiche Modell. Markus Kalisch 23.09.2014 21

Bsp: Stepwise forward selection Variablen: Y, X1, X2, X3 M1: Y ~ 1 BIC = 20 Bestes Modell mit einer Variable: M2: Y~X2 BIC = 17, also besser Bestes Modell mit X2 und noch einer Variable: M3: Y~X2 + X1 BIC = 18, also schlechter als M2 Stop Ausgabe: Bestes Modell ist Y~X2. Markus Kalisch 23.09.2014 22

Bsp: Stepwise backward selection Variablen: Y, X1, X2, X3 M1: Y ~ X1 + X2 + X3 BIC = 20 Bestes Modell mit einer Variable weniger: M2: Y~X2 + X3 BIC = 17, also besser als M1 Bestes Modell mit einer Variable weniger als X2, X3: M3: Y~X2 BIC = 18, also schlechter als M2 Stop Ausgabe: Bestes Modell ist Y~X2. Markus Kalisch 23.09.2014 23

Modellwahl in R Funktion regsubsets in Paket leaps ; berechnet sowohl exakt als auch mit Heuristiken Definition von BIC in leaps : BIC = 1 RSS + log n d σ2 n finde Modell mit minimalem BIC Vorgehen: 1) Für jede Anzahl erklärende Variablen: Finde bestes Subset bzgl. RSS 2) Vergleiche Modelle mit unterschiedlichen Variablenzahlen mit BIC Bemerkung: Falls Anzahl Variablen fix ist, finden RSS und BIC das gleiche optimale Modell Markus Kalisch 23.09.2014 24