Statistisches Lernen

Ähnliche Dokumente
Sparse Hauptkomponentenanalyse

1 Beispiel zur Methode der kleinsten Quadrate

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung

Vorlesung Statistisches Lernen

Die Datenmatrix für Überwachtes Lernen

Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell

Variablen Selektion beste Volles Modell

Lineare Regression. Volker Tresp

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Übung V Lineares Regressionsmodell

Elastic Net und Lasso: Lassen Sie in unübersichtlichen Situationen Software statistische Modelle finden.

Eine Einführung in R: Varianzanalyse

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Lineare Modelle in R: Klassische lineare Regression

Lasso in LMs und GLMs

6.4 Kointegration Definition

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Kurs Empirische Wirtschaftsforschung

Eine Einführung in R: Das Lineare Modell

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse)

Analytics Entscheidungsbäume

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Lineare Regression in R, Teil 1

Multivariate Verfahren

Teil: lineare Regression

Das Lineare Regressionsmodell

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Optimierung der Variablen-Selektion für die PLS-Regression

Inferenz im multiplen Regressionsmodell

Die Regressionsanalyse

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Funktionale Regressionsmodelle für skalare Zielgrößen

Statistik II. IV. Hypothesentests. Martin Huber

6. Statistische Schätzung von ARIMA Modellen

Vorlesung: Statistik II für Wirtschaftswissenschaft

Eine Einführung in R: Lineare Regression

6.2 Lineare Regression

Wissensentdeckung in Datenbanken

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Statistische Eigenschaften der OLS-Schätzer, Residuen,

MÖGLICHKEITEN UND GRENZEN DER VORHERSAGBARKEIT VON EPIDEMIEN IN FRÜHEN STADIEN

Statistik, Datenanalyse und Simulation

Kapitel 4: Merkmalszusammenhänge

Empirische Wirtschaftsforschung

Statistischer Rückschluss und Testen von Hypothesen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009

Neuronale Netze. Anna Wallner. 15. Mai 2007

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Regressionsanalyse in R

Klassifikation und Ähnlichkeitssuche

Prognoseintervalle für y 0 gegeben x 0

Variablenselektion im linearen Regressionsmodell mit der experimentellen Prozedur PROC GLMSELECT

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN

Principal Component Analysis (PCA)

Mathematische und statistische Methoden I

Einführung in das statistische Lernen

Willkommen zur Vorlesung Statistik (Master)

Fragestunde zur Übung

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Multivariate Verfahren

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

5 Multivariate stationäre Modelle

11.8 Diskriminanzanalyse

Das lineare Regressionsmodell

Pareto optimale lineare Klassifikation

6. Schätzung stationärer ARMA-Modelle

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

4. Das multiple lineare Regressionsmodell

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Strukturgleichungsmodellierung

3. Das einfache lineare Regressionsmodell

> library(nlme) > fit <- lme(y ~ 1, random = ~1 id, data = sim.y.long) > summary(fit)

Vorlesung 4: Spezifikation der unabhängigen Variablen

Transkript:

Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28

Einführung Einführung Lineares Modell: Y = β 0 + β 1 x 1 + β 2 x 2 + + β p x p + ɛ Wie kann man relevante Prädiktoren auswählen, d.h. die Interpretierbarkeit des Modells verbessern? Wie kann man die Vorhersageleistung verbessern, bei vielen Prädiktoren p und moderater Stichprobengröße n? Was tun bei hochdimensionalen Daten (p n)? 2 / 28

Einführung Methoden Subset selection: Modell mit einem Teil der p Prädiktoren mit hoher Vorhersagekraft Shrinkage/Regularisierung: Modell mit allen p Prädiktoren, Koeffizienten werden gegen 0 geschrumpft Dimensionsreduktion: Projektion von p auf M, mit M < p, Verwendung der M Projektionen als Prädiktoren 3 / 28

Subset-Selection Best-Subset-Selection Wahl des besten Modells aus allen möglichen Modellen Algorithmus: 1 Nullmodel M 0 ohne Prädiktoren 2 Für k = 1, 2,..., p: 1 Passe alle ( p k) Modelle mit genau k Prädiktoren an 2 Wähle aus diesen Modellen das beste Modell M k 3 Wähle das beste Modell aus den Modellen M 0,..., M p 4 / 28

Subset-Selection Wahl des besten Modells Ziel: Modell mit kleinstem Vorhersagefehler auf Testdaten (neuen Daten) wählen Problem: Modell mit den meisten Prädiktoren wird immer kleinsten MSE oder größtes R 2 auf Trainingsdaten haben Testdaten-Vorhersagefehler schätzen: Indirekt: Adjustieren des Trainingsdaten-Vorhersagefehlers Direkt: Validierungsdaten oder Resampling-Methoden, z.b. Kreuzvalidierung 5 / 28

Subset-Selection Modellbewertungskriterien im linearen Modell Residual sum of squares (RSS): RSS = Var(ɛ) = n (y i ŷ i ) 2 i=1 R 2 -Statistik: Anteil erklärter Varianz n R 2 i=1 = (ŷ i ȳ) 2 n n i=1 (y i ȳ) 2 = 1 i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2 = 1 RSS TSS Adjustiertes R 2 Radj 2 RSS/(n d 1) = 1 TSS/(n 1) mit d Prädiktoren 6 / 28

Subset-Selection Modellbewertungskriterien im linearen Modell II Mallow s C p C p = 1 n (RSS + 2d ˆσ2 ) mit ˆσ 2 Schätzer der Residualvarianz im vollen Modell Akaikes Informationskriterium (AIC): AIC = 1 nˆσ 2 (RSS + 2d ˆσ2 ) im linearen Modell sind C p und AIC proportional zueinander Bayessches Informationskriterium (BIC) BIC = 1 n (RSS + log(n)d ˆσ2 ) v-fach kreuzvalidierter Vorhersagefehler (MSE): MSE = 1 V n RSS n v 1 v = (y i ˆf v (x i )) 2 n n v=1 v i C v 7 / 28

Subset-Selection Beispiel Baseball-Daten Datensatz Hitters im R-Paket ISLR Interessierende Variable: Bezahlung von 263 Baseballspielern in den Major Leagues 1986 und 1987 19 weitere Variablen: Anzahl (Home) Runs, Putouts, Hits usw., Beschäftigungsdauer in den Major Leagues, National oder American League,... 8 / 28

Subset-Selection Beispiel Baseball-Daten RSS Adjustiertes R 2 RSS 2.4e+07 3.0e+07 3.6e+07 5 10 15 Adjustiertes R 2 0.35 0.40 0.45 0.50 5 10 15 Anzahl Variablen Anzahl Variablen Mallow's C p BIC Mallow's C p 20 40 60 80 100 5 10 15 BIC 150 130 110 90 5 10 15 Anzahl Variablen Anzahl Variablen 9 / 28

Subset-Selection Best-Subset-Selection Wahl des besten Modells aus allen möglichen Modellen Algorithmus: 1 Nullmodel M 0 ohne Prädiktoren 2 Für k = 1, 2,..., p: 1 Passe alle ( p k) Modelle mit genau k Prädiktoren an 2 Wähle aus diesen Modellen das beste Modell M k mit kleinstem RSS bzw. MSE oder größtem R 2 3 Wähle das beste Modell aus den Modellen M 0,..., M p bzgl. AIC, BIC, adjustiertem R 2 oder kreuzvalidiertem Vorhersagefehler Problem: Für große p sehr rechenaufwändig, da 2 p Modelle angepasst werden müssen. 10 / 28

Subset-Selection Vorwärts-Einschluss (Forward selection) Beginnend mit dem Nullmodel schrittweiser Einschluss der Variablen, die die Anpassung am meisten verbessert. Algorithmus: 1 Nullmodel M 0 ohne Prädiktoren 2 Für k = 0, 2,..., p 1: 1 Betrachte alle p k Modelle, die das Modell M k um einen zusätzlichen Prädiktor erweitern 2 Wähle aus diesen p k Modellen das beste Modell M k+1 mit kleinstem RSS bzw. MSE oder größtem R 2 3 Wähle das beste Modell aus den Modellen M 0,..., M p bzgl. AIC, BIC, adjustiertem R 2 oder kreuzvalidiertem Vorhersagefehler Anpassung von 1 + p 1 k=0 (p k) = 1 + p(p + 1)/2 Modellen notwendig. 11 / 28

Subset-Selection Rückwärts-Elimination (Backward selection) Beginnend mit dem vollen Modell schrittweiser Ausschluss der Variablen, die am wenigsten zur Anpassung beiträgt. Algorithmus: 1 Model M p mit allen p Prädiktoren 2 Für k = p, p 1..., 1: 1 Betrachte k Modelle, die das Modell M k um einen der Prädiktoren verringern 2 Wähle aus diesen k Modellen das beste Modell M k 1 mit kleinstem RSS bzw. MSE oder größtem R 2 3 Wähle das beste Modell aus den Modellen M 0,..., M p bzgl. AIC, BIC, adjustiertem R 2 oder kreuzvalidiertem Vorhersagefehler Anpassung von 1 + p 1 k=0 (p k) = 1 + p(p + 1)/2 Modellen notwendig. 12 / 28

Subset-Selection Vorwärts-Selektion und Rückwärts-Elimination Problem: U.U. wird nicht das beste aller Modelle gewählt. Vorwärts-Selektion auch bei hochdimensionalen Daten anwendbar. Alternativen: Hybrid-Ansätze, die Prädiktoren sowohl selektieren als auch elimineren. 13 / 28

Shrinkage Shrinkage Modifikation der Kleinste-Quadrate-Schätzung RSS = n p (y i β 0 β j x ij ) 2 min i=1 j=1 Ziel: Schrumpfen der Koeffizienten gegen 0 Stabile Modelle für große Anzahl Prädiktoren p Trotz nötiger Tuning-Parameter-Wahl schnellere Berechnung als bei Best-Subset-Selection 14 / 28

Shrinkage Ridge-Regression Schätzen der Koeffizienten durch n p (y i β 0 β j x ij ) 2 + λ p i=1 j=1 j=1 β 2 j min mit Tuning-Parameter λ Bestimmung von λ mit Kreuzvalidierung 15 / 28

Shrinkage Bias-Variance-Trade-off Simulierter Datensatz mit 45 Prädiktoren und 50 Beobachtungen Mean Squared Error 0 10 20 30 40 50 60 1e 01 1e+01 1e+03 λ Quelle: T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer 2013, S. 218 16 / 28

Shrinkage Lasso Schätzen der Koeffizienten durch n (y i β 0 i=1 mit Tuning-Parameter λ p β j x ij ) 2 + λ j=1 Bestimmung von λ mit Kreuzvalidierung p β j min Vorteil gegenüber Ridge-Regression: Automatische Variablenselektion, da viele Variablen Koeffizienten gleich 0 erhalten j=1 17 / 28

Shrinkage Ridge und Lasso auf den Baseball-Daten Ridge Lasso Standardisierte Koeffizienten 500 0 500 Standardisierte Koeffizienten 500 0 500 5 0 5 10 log(λ) 5 0 5 10 log(λ) 18 / 28

Shrinkage Variablenselektionseigenschaft des Lasso Andere Formulierung des Schätzproblems n p (y i β 0 β j x ij ) 2 min i=1 j=1 unter Berücksichtigung von p j=1 β j s (Lasso) bzw. p j=1 β2 j s (Ridge) Für p = 2 β 2 β 2 β ^ β^ β 1 β 1 Quelle: T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer 2013, S. 222 19 / 28

Dimensionsreduktion Dimensionsreduktion Schritt 1: Linearkombinationen Z 1, Z 2,..., Z M, M < p, der p Prädiktoren: p Z m = φ jm X j, m = 1,..., M j=1 mit Skalaren φ 1m, φ 2m,..., φ pm Schritt 2: Regressionsmodell anpassen y i = θ 0 + M θ m z im + ɛ i, i = 1,..., n m=1 D.h. Kleinste-Quadrate-Schätzung von M + 1 statt p + 1 Koeffizienten 20 / 28

Dimensionsreduktion Hauptkomponentenanalyse/Principal components analysis Idee: Verschieben des Koordinatensystems unter Verkleinerung der Varianz Erste Hauptkomponte enthält höchsten Varianzanteil, usw. Annahme: Die Variablen mit höchster Streuung enthalten größte Information bzgl. Endpunkt Endpunkt wird nicht berücksichtigt, deshalb unüberwachtes Lernen Variablen sollten standardisiert werden Wahl der optimalen Anzahl an Hauptkomponenten durch Kreuzvalidierung 21 / 28

Dimensionsreduktion Beispiel PCA Ad Spending 5 10 15 20 25 30 2nd Principal Component 10 5 0 5 10 20 30 40 50 Population 20 10 0 10 20 1st Principal Component Quelle: T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer 2013, S. 232 22 / 28

Dimensionsreduktion Partial least squares (PLS) Überwachte Alternative zur Hauptkomponentenanalyse Vorgehen: Erste PLS-Komponente, Z 1, entspricht Linearkombination mit Koeffizienten aus linearer Regression Z 2 bis Z M erhält man aus der Regression der jeweiligen Residuen Variablen sollten standardisiert werden Wahl der optimalen Anzahl an Komponenten durch Kreuzvalidierung 23 / 28

Dimensionsreduktion Zusammenfassung Einfache lineare Regression nur anwendbar und sinnvoll, wenn p n Alternativen: Subset selection: Liefert einfache und interpretierbare Modelle, allerdings u.u. sehr rechenaufwändig Shrinkage/Regularisierung: Lasso liefert gut interpretierbare Modelle mit moderatem Rechenaufwand Dimensionsreduktion: gute Vorhersageleistung, aber nicht direkt interpretierbar Alle Methoden enthalten Tuningparameter, die durch Kreuzvalidierung bestimmt werden sollten! Bei hochdimensionalen Daten muss bzgl. der Interpretierbarkeit der ausgewählten Prädiktoren allerdings beachtet werden, dass diese oft hochkorreliert mit anderen Variablen sind, die nicht ins Modell aufgenommen wurden. 24 / 28

Anwendung Aufgaben Wenden Sie Vorwärts-Selektion und Rückwärts-Elimination, Lasso und Ridge-Regression, sowie Hauptkomponentenanalyse und PLS auf den Baseball-Daten an! 25 / 28

Anwendung R-Code Vorwärts-Selektion und Rückwärts-Elimination > library(islr) > library(leaps) > hitters <- na.omit(hitters) > # > ### Forward > # > regfit.fwd <- regsubsets(salary~., hitters, method="forward", nvmax=ncol( > (summary.fwd <- summary(regfit.fwd)) > coef(regfit.fwd, id=which.min(summary.fwd$bic)) > # > ### Backward > # > regfit.bwd <- regsubsets(salary~., hitters, method="backward", nvmax=ncol > (summary.bwd <- summary(regfit.bwd)) > coef(regfit.bwd, id=which.min(summary.bwd$bic)) 26 / 28

Anwendung R-Code: Ridge und Lasso > library(glmnet) > grid <- 10^seq(10, -2, length=200) > x <- model.matrix(salary~., hitters)[, -1] > y <- hitters$salary > # > ### Ridge > # > set.seed(1) > cv <- cv.glmnet(x, y, alpha=0, lambda=grid) > plot(cv) > mod.ridge.opti <- glmnet(x, y, lambda=cv$lambda.min, alpha=0) > coef(mod.ridge.opti) > # > ### Lasso > # > set.seed(1) > cv <- cv.glmnet(x, y, lambda=grid, alpha=1) > plot(cv) > mod.lasso.opti <- glmnet(x, y, alpha=1, lambda=cv$lambda.min) > coef(mod.lasso.opti) 27 / 28

Anwendung R-Code: PCR und PLS > library(pls) > # > ### PCR > # > set.seed(2) > pcr.fit <- pcr(salary~., data=hitters, scale=true, validation="cv") > summary(pcr.fit) > validationplot(pcr.fit, val.type="r2") > # > ### PLS > # > set.seed(2) > pls.fit <- plsr(salary~., data=hitters, scale=true, validation="cv") > summary(pls.fit) > validationplot(pls.fit, val.type="r2") 28 / 28