Der LASSO-Schätzer. Verfahren zur Modellschrumpfung und Variablenselektion. Jona Cederbaum. Institut für Statistik Ludwig-Maximilians-Universität

Transkript

1 Der LASSO-Schätzer Verfahren zur Modellschrumpfung und Variablenselektion Jona Cederbaum Institut für Statistik Ludwig-Maximilians-Universität 10. Juni 009

2 Übersicht 6 Einleitung 6.1. Das Modell 6.. KQ-Schätzer und Motivation für neue Schätzerverfahren 6.3. Ridge-Regression 6.4. Subset Selection 1.1. Spezialfall orthonormales Design 1.. Schätzung des Standardfehlers 1.3. Bestimmung des Lasso-Parameters Beispiel Prostatakrebs 3 Zusammenfassung 7 Der Lasso-Schätzer 7.1. Definition und Herleitung 7.. Allgemeine Eigenschaften 7.3. Geometrie im 4 Grenzen des Lasso-Schätzers 5 Ausblick

3 Das Modell Betrachtet wird das lineare Regressionsmodell y X y y, y,..., y, y X unabhängig, zentriert X ist eine n 1 n p Designmatrix, standardisiert : Fehlerterme, für die gilt: N0, ²I 1 n n i 1 y y 0 n n 1 1 ij n i1 n i1 i x 0, x ² 1 ij 3

4 Kleinste-Quadrate-Schätzer Residuenquadratsumme n i i RSS y x y X y X i1 Falls X vollen Rang hat, definiert sich der Kleinste-Quadrate-Schätzer als 1 KQ arg min y X y X X X X y RSS 4

5 Eigenschaften des KQ-Schätzers (1) Erwartungstreuer Schätzer für, d.h. Bias KQ E KQ 0 Minimale Varianz und somit minimaler Mean-Squared-Error unter den unverzerrten Schätzern (BLUE) MSE KQ Var KQ Bias KQ * Bias KQ 0 Var 1 KQ X X 5

6 Eigenschaften des KQ-Schätzers () endenziell zu groß geschätzte Länge des Schätzers, d.h. KQ Keine Variablenselektion, sehr geringe Effekte bleiben im Modell Eingeschränkte Interpretierbarkeit Existiert nur für vollen Rang der Designmatrix ( Multikollinearität) Idee: Suche in Länge beschränkten Schätzer, der Aspekte Prädiktionsgenauigkeit Interpretierbarkeit 6

7 Ridge-Regression Ausweitung der Suche auf die Klasse der verzerrten Schätzer Minimierung der RSS unter linearer Nebenbedingung, die die Länge des Schätzers beschränkt arg min RSS unter der Nebenbedingung Ridge RSS arg min y X y X, 0 p j1 j t, t 0 1 X X I X y, I: Einheitsmatrix 7

8 Eigenschaften des Ridge-Schätzers (1) Lineare Lösung in y. Hy, mit H X X I 1 Ridge Kein erwartungstreuer Schätzer Für geeignete Wahl von gilt: MSE KQ-Schätzer Bias-Quadrat MSE Ridge MSE KQ Ridge-Schätzer Varianz 8

9 Eigenschaften des Ridge-Schätzers () Je größer, desto stärker der Schrumpfungseffekt Designmatrix X muss nicht den vollen Rang haben löst Multikollinearitäts-Problematik Keine Variablenselektion Wahl von zum Beispiel mit Kreuzvalidierung (siehe Vortrag L0) Fazit: Einer der beiden Aspekte bzgl. des KQ-Schätzers verbessert Verbesserung der Prädiktionsgenauigkeit durch geeignete Wahl von möglich ABER: Keine Verbesserung der Interpretierbarkeit 9

10 Least Absolute Shrinkage and Selection Operator (LASSO) Ziel: Simultane Schrumpfung und Variablenselektion Minimierung der RSS unter linearer Nebenbedingung arg min RSS unter der Nebenbedingung Lasso p j1 j t, t 0 p arg min y X y X j, 0 j1 RSS Im Allgemeinen nicht explizit darstellbar, da keine lineare Lösung in y 13

11 Allgemeine Eigenschaften des Lasso-Schätzers Mit t : p KQ,j gilt: für alle Werte KQ j1 t t KQ Schrumpfung, einige Koeffizienten exakt auf Null t t KQ (sofern existent) Lasso KQ hat genau entgegen gerichtete Wirkung auf den Schätzer Designmatrix X muss nicht den vollen Rang haben Lasso ist unabhängig vom KQ-Schätzer 14

12 Geometrische Aspekte im (1) Betrachtet wird der Fall p Sowohl Ridge- als auch Lasso-Schätzer minimieren die RSS unter Nebenbedingungen Ridge: -Penalisierung Lasso: 1-Penalisierung RSS KQ X X KQ const, wobei, 1 RSS c, für c beliebig hat elliptische, um KQ zentrierte, Konturlinien Hauptachsen der Ellipsen in 45 mit Koordinatenachsen des 1 - Koordinatensystems 15

13 Geometrische Aspekte im () LASSO Elliptische Konturlinien RIDGE ^ ^ KQ KQ Graphische Darstellung der Schätzer im für verschiedene Wahl von t p j 1 im t j 1 im p j 1 j 1 t 16

14 Spezialfall orthonormales Design (1) X hat orthonormale Einträge, d.h. es gilt X X I, I: Einheitsmatrix Lasso-Schätzer geschlossener Form darstellbar (, + : positiver eil) Schätzer Ridge-Schätzer Best Subset der Größe k Lasso-Schätzer Formel Ridge j KQ,j 1,, Ridge,falls Subset, j KQ,j KQ, j sign, La sso, j KQ,j KQ,j Lasso 17

15 Spezialfall orthonormales Design () RIDGE BES SUBSE SELECION LASSO Schätzfunktionen im Vergleich zur KQ-Schätzung im orthonormalen Design, für Linear, Proportionale Schrumpfung Sprungstelle bei Variablenselektion eilweise linear Schrumpfung & Selektion 18

16 Geometrie im im orthomalen Design Konturlinien von LASSO KQ X X KQ sind kreisförmig Kreisförmige Konturlinien RIDGE ^ ^ KQ KQ Graphische Darstellung der Schätzer im für verschiedene Wahl von t im Spezialfall des orthonormalen Designs 19

17 Schätzung des Standardfehlers des Lasso-Schätzers Lasso-Schätzer ist nichtlineare, nichtdifferenzierbare Funktion Schätzung des Standardfehlers se j Var j, j 1,...,p schwierig Vergleich: 1 KQ X X - KQ-Schätzer: Var Ridge - Ridge-Schätzer: Var X XI X X X X I Ein Ansatz: Approximation durch Ridge-Schätzer 1 1 0

18 Schätzung des Standardfehlers durch Ridge-Approximation (1) ransformation der Lasso-Nebenbedingung p p j t zu j j j1 j1 Approximation des Lasso-Schätzers 1 mit W diag, j 1,...,p, Lasso, j t X X W X y, Verallgem. Ridge-Schätzer W : verallgem. Inverse von W, d.h. WW W=W derart gewählt, dass p j t erfüllt ist j1 1

19 Schätzung des Standardfehlers durch Ridge-Approximation () 1 1 Var X X W X X X X W : Schätzer für Fehlervarianz, Diagonalelemente als Schätzer für Varianz des jeweiligen Lasso,j, j 1,...,p Nachteil: Für Lasso,j 0 Varianz wird automatisch Null Vernachlässigung der Unsicherheit

20 Wahl des Lasso-Parameters t (1) Anhand Generalisierter Kreuzvalidierung (GCV) Ziel: Minimierung des Vorhersagefehlers PE Ey X Wieder: ransformation der Lasso-Nebenbedingung p p j t zu j j j1 j1 t und Approximation durch verallgemeinerten Ridge-Schätzer (vgl. Folie 1) X X W X y 1 3

21 Wahl des Lasso-Parameters t () Zu minimierendes Generalisiertes Kreuzvalidierungskriterium allgemein in Abhängigkeit vom Parameter - GCV n 1 yi f x i n i1 1 tr H n f x i : Schätzwert an der Stelle i in Abhängigkeit von - tr: Spur der Matrix - H: Hatmatrix, d.h. y Hy 4

22 Wahl des Lasso-Parameters t (3) gilt: Im unrestringierten Fall des KQ-Schätzers mit 1 trh = p Für die Ridge-Regression mit 1 H X X X X gilt H X X X I X im orthonormalen Design trh p 1 X X W X y Für die Approximation 1 1 H X X X W X trh pt mit GCV t (effektive Parameteranzahl) des Lasso-Schätzers gilt: (effektive Parameteranzahl) n * 1 y X 1 RSS t i1, n 1 p t n n 1 p t n RSSt als RSS für Schätzung unter Nebenbedingung mit Restriktion t 5

23 Beispiel Prostatakrebs (1) Datensatz Prostate aus dem R-Paket lasso Beschreibung der Daten: - Zusammenhang zwischen dem Level eines prostataspezifischen Antigens und mehreren klinischen Messungen bei Männern, die kurz vor der operativen Entfernung der Prostata standen - Response: logarithmiertes Level des prostataspezifschen Antigens (lpsa) - Einflussgrößen: lcavol, lweight, age, lbph, svi, lcp, gleason, pgg45 Zunächst Standardisieren: n n 1 1 xij 0, x ij² 1, y unzentriert n i1 n i1 6

24 Beispiel Prostatakrebs () KQ-, Ridge- und Lasso-Schätzer im Vergleich Wahl des Lasso-Parameters anhand von Leave-One-Out Kreuzvalidierung (vgl. Vortrag (L0)) Leave-One-Out CV CV Ergebnis: t t 0.69 s [0,1] t KQ t 7

25 Beispiel Prostatakrebs (3) Lasso 16.8 Name KQ Ridge Ridge 57,87 Lasso s 0.43 Schätzer Std.Error Schätzer Std.Error Schätzer Std.Error lcavol lweight age lbph svi lcp gleason pgg Farbig: signifikant zum Niveau

26 Beispiel Prostatakrebs (4) Mittelwerte der Schätzer und Standardabweichung Mittelwerte der Schätzer Variablen 9

27 Beispiel Prostatakrebs (5) Standardisierte Koeffizienten Pfade der Lasso-Koeffizienten für verschiedene Wahl von s t t s [0,1] p t KQ KQ, j j1 30

28 Zusammenfassung Methode zur simultanen Schrumpfung und Variablenselektion Art stetige Subset Selection Designmatrix braucht keinen vollen Rang ibshirani betrachtet in seinem Paper 3 Szenarien: Am besten bzgl. MSE: a. wenige starke Effekte Subset, Lasso, Ridge b. eine kleine bis mittlere Anzahl moderater Effekte Lasso, Ridge, Subset c. eine große Anzahl kleiner Effekte Ridge, Lasso, Subset Lasso-Schätzer relativ gut bzgl. Vorhersage Außerdem: gute Interpretierbarkeit 31

29 Grenzen des Lasso-Schätzers In einigen Fällen stößt das Lasso-Verfahren an seine Grenzen: - Mehr Kovariablen als Beobachtungen d.h. p n: maximal n Variablen können durch Lasso-Schätzung ausgewählt werden - Hohe paarweise Korrelation: Lasso-Methode wählt lediglich eine der korrelierten Kovariablen aus (vgl.: H. Zou,. Hastie) 3

30 Ausblick Ausweitungen möglich beispielsweise auf GLMs Im 1-Penalisierung Spezialfall von r-penalisierung: : p r j, r j1 ) idg, r : (a) r 4,(b r R e (c) r 1 Lasso,(d) r 1, (e) r 1 10 Bayesianische Herangehensweise mit Doppelexponentialverteilung als Priori für, j 1,...,p j (vgl. ibshirani (1996), Park und Casella (008)) 33

31 Literaturverzeichnis [1] B. Efron,. Hastie, I. Johnstone, R. ibshirani: Least Angle Regression (00). [] L. Fahrmeir,. Kneib, S. Lang: Regression. Modelle, Methoden und Anwendungen. Springer- Verlag Berlin Heidelberg (007). [3]. Hastie, R. ibshirani, J. Friedman: he Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer, New York (001). [4] A. Hoerl, R. Kennard: Ridge regression: biased estimation for nonorthogonal problems. echnometrics, Vol. 1:55-67 (1970). [5] L. Huan, H. Motoda: Computational methods of feature selection. Chapman&Hall (008). [6] S. Konrath: Bayesianische Regularisation mit Anwendungen. Masterthesis. (007). [7]. Park und G. Casellea: he Bayesian Lasso. echnical report. University of Florida (005). [8] R. ibshirani: Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), Volume 58, Issue 1 (1996), [9] H. outenburg: Lineare Modelle. heorie und Anwendungen. Physica- Verlag Heidelberg (003). [10] H. Zou,. Hastie : Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society. Series B, Volume 67 (005),