Der LASSO-Schätzer. Verfahren zur Modellschrumpfung und Variablenselektion. Jona Cederbaum. Institut für Statistik Ludwig-Maximilians-Universität
|
|
- Stanislaus Wagner
- vor 5 Jahren
- Abrufe
Transkript
1 Der LASSO-Schätzer Verfahren zur Modellschrumpfung und Variablenselektion Jona Cederbaum Institut für Statistik Ludwig-Maximilians-Universität 10. Juni 009
2 Übersicht 6 Einleitung 6.1. Das Modell 6.. KQ-Schätzer und Motivation für neue Schätzerverfahren 6.3. Ridge-Regression 6.4. Subset Selection 1.1. Spezialfall orthonormales Design 1.. Schätzung des Standardfehlers 1.3. Bestimmung des Lasso-Parameters Beispiel Prostatakrebs 3 Zusammenfassung 7 Der Lasso-Schätzer 7.1. Definition und Herleitung 7.. Allgemeine Eigenschaften 7.3. Geometrie im 4 Grenzen des Lasso-Schätzers 5 Ausblick
3 Das Modell Betrachtet wird das lineare Regressionsmodell y X y y, y,..., y, y X unabhängig, zentriert X ist eine n 1 n p Designmatrix, standardisiert : Fehlerterme, für die gilt: N0, ²I 1 n n i 1 y y 0 n n 1 1 ij n i1 n i1 i x 0, x ² 1 ij 3
4 Kleinste-Quadrate-Schätzer Residuenquadratsumme n i i RSS y x y X y X i1 Falls X vollen Rang hat, definiert sich der Kleinste-Quadrate-Schätzer als 1 KQ arg min y X y X X X X y RSS 4
5 Eigenschaften des KQ-Schätzers (1) Erwartungstreuer Schätzer für, d.h. Bias KQ E KQ 0 Minimale Varianz und somit minimaler Mean-Squared-Error unter den unverzerrten Schätzern (BLUE) MSE KQ Var KQ Bias KQ * Bias KQ 0 Var 1 KQ X X 5
6 Eigenschaften des KQ-Schätzers () endenziell zu groß geschätzte Länge des Schätzers, d.h. KQ Keine Variablenselektion, sehr geringe Effekte bleiben im Modell Eingeschränkte Interpretierbarkeit Existiert nur für vollen Rang der Designmatrix ( Multikollinearität) Idee: Suche in Länge beschränkten Schätzer, der Aspekte Prädiktionsgenauigkeit Interpretierbarkeit 6
7 Ridge-Regression Ausweitung der Suche auf die Klasse der verzerrten Schätzer Minimierung der RSS unter linearer Nebenbedingung, die die Länge des Schätzers beschränkt arg min RSS unter der Nebenbedingung Ridge RSS arg min y X y X, 0 p j1 j t, t 0 1 X X I X y, I: Einheitsmatrix 7
8 Eigenschaften des Ridge-Schätzers (1) Lineare Lösung in y. Hy, mit H X X I 1 Ridge Kein erwartungstreuer Schätzer Für geeignete Wahl von gilt: MSE KQ-Schätzer Bias-Quadrat MSE Ridge MSE KQ Ridge-Schätzer Varianz 8
9 Eigenschaften des Ridge-Schätzers () Je größer, desto stärker der Schrumpfungseffekt Designmatrix X muss nicht den vollen Rang haben löst Multikollinearitäts-Problematik Keine Variablenselektion Wahl von zum Beispiel mit Kreuzvalidierung (siehe Vortrag L0) Fazit: Einer der beiden Aspekte bzgl. des KQ-Schätzers verbessert Verbesserung der Prädiktionsgenauigkeit durch geeignete Wahl von möglich ABER: Keine Verbesserung der Interpretierbarkeit 9
10 Least Absolute Shrinkage and Selection Operator (LASSO) Ziel: Simultane Schrumpfung und Variablenselektion Minimierung der RSS unter linearer Nebenbedingung arg min RSS unter der Nebenbedingung Lasso p j1 j t, t 0 p arg min y X y X j, 0 j1 RSS Im Allgemeinen nicht explizit darstellbar, da keine lineare Lösung in y 13
11 Allgemeine Eigenschaften des Lasso-Schätzers Mit t : p KQ,j gilt: für alle Werte KQ j1 t t KQ Schrumpfung, einige Koeffizienten exakt auf Null t t KQ (sofern existent) Lasso KQ hat genau entgegen gerichtete Wirkung auf den Schätzer Designmatrix X muss nicht den vollen Rang haben Lasso ist unabhängig vom KQ-Schätzer 14
12 Geometrische Aspekte im (1) Betrachtet wird der Fall p Sowohl Ridge- als auch Lasso-Schätzer minimieren die RSS unter Nebenbedingungen Ridge: -Penalisierung Lasso: 1-Penalisierung RSS KQ X X KQ const, wobei, 1 RSS c, für c beliebig hat elliptische, um KQ zentrierte, Konturlinien Hauptachsen der Ellipsen in 45 mit Koordinatenachsen des 1 - Koordinatensystems 15
13 Geometrische Aspekte im () LASSO Elliptische Konturlinien RIDGE ^ ^ KQ KQ Graphische Darstellung der Schätzer im für verschiedene Wahl von t p j 1 im t j 1 im p j 1 j 1 t 16
14 Spezialfall orthonormales Design (1) X hat orthonormale Einträge, d.h. es gilt X X I, I: Einheitsmatrix Lasso-Schätzer geschlossener Form darstellbar (, + : positiver eil) Schätzer Ridge-Schätzer Best Subset der Größe k Lasso-Schätzer Formel Ridge j KQ,j 1,, Ridge,falls Subset, j KQ,j KQ, j sign, La sso, j KQ,j KQ,j Lasso 17
15 Spezialfall orthonormales Design () RIDGE BES SUBSE SELECION LASSO Schätzfunktionen im Vergleich zur KQ-Schätzung im orthonormalen Design, für Linear, Proportionale Schrumpfung Sprungstelle bei Variablenselektion eilweise linear Schrumpfung & Selektion 18
16 Geometrie im im orthomalen Design Konturlinien von LASSO KQ X X KQ sind kreisförmig Kreisförmige Konturlinien RIDGE ^ ^ KQ KQ Graphische Darstellung der Schätzer im für verschiedene Wahl von t im Spezialfall des orthonormalen Designs 19
17 Schätzung des Standardfehlers des Lasso-Schätzers Lasso-Schätzer ist nichtlineare, nichtdifferenzierbare Funktion Schätzung des Standardfehlers se j Var j, j 1,...,p schwierig Vergleich: 1 KQ X X - KQ-Schätzer: Var Ridge - Ridge-Schätzer: Var X XI X X X X I Ein Ansatz: Approximation durch Ridge-Schätzer 1 1 0
18 Schätzung des Standardfehlers durch Ridge-Approximation (1) ransformation der Lasso-Nebenbedingung p p j t zu j j j1 j1 Approximation des Lasso-Schätzers 1 mit W diag, j 1,...,p, Lasso, j t X X W X y, Verallgem. Ridge-Schätzer W : verallgem. Inverse von W, d.h. WW W=W derart gewählt, dass p j t erfüllt ist j1 1
19 Schätzung des Standardfehlers durch Ridge-Approximation () 1 1 Var X X W X X X X W : Schätzer für Fehlervarianz, Diagonalelemente als Schätzer für Varianz des jeweiligen Lasso,j, j 1,...,p Nachteil: Für Lasso,j 0 Varianz wird automatisch Null Vernachlässigung der Unsicherheit
20 Wahl des Lasso-Parameters t (1) Anhand Generalisierter Kreuzvalidierung (GCV) Ziel: Minimierung des Vorhersagefehlers PE Ey X Wieder: ransformation der Lasso-Nebenbedingung p p j t zu j j j1 j1 t und Approximation durch verallgemeinerten Ridge-Schätzer (vgl. Folie 1) X X W X y 1 3
21 Wahl des Lasso-Parameters t () Zu minimierendes Generalisiertes Kreuzvalidierungskriterium allgemein in Abhängigkeit vom Parameter - GCV n 1 yi f x i n i1 1 tr H n f x i : Schätzwert an der Stelle i in Abhängigkeit von - tr: Spur der Matrix - H: Hatmatrix, d.h. y Hy 4
22 Wahl des Lasso-Parameters t (3) gilt: Im unrestringierten Fall des KQ-Schätzers mit 1 trh = p Für die Ridge-Regression mit 1 H X X X X gilt H X X X I X im orthonormalen Design trh p 1 X X W X y Für die Approximation 1 1 H X X X W X trh pt mit GCV t (effektive Parameteranzahl) des Lasso-Schätzers gilt: (effektive Parameteranzahl) n * 1 y X 1 RSS t i1, n 1 p t n n 1 p t n RSSt als RSS für Schätzung unter Nebenbedingung mit Restriktion t 5
23 Beispiel Prostatakrebs (1) Datensatz Prostate aus dem R-Paket lasso Beschreibung der Daten: - Zusammenhang zwischen dem Level eines prostataspezifischen Antigens und mehreren klinischen Messungen bei Männern, die kurz vor der operativen Entfernung der Prostata standen - Response: logarithmiertes Level des prostataspezifschen Antigens (lpsa) - Einflussgrößen: lcavol, lweight, age, lbph, svi, lcp, gleason, pgg45 Zunächst Standardisieren: n n 1 1 xij 0, x ij² 1, y unzentriert n i1 n i1 6
24 Beispiel Prostatakrebs () KQ-, Ridge- und Lasso-Schätzer im Vergleich Wahl des Lasso-Parameters anhand von Leave-One-Out Kreuzvalidierung (vgl. Vortrag (L0)) Leave-One-Out CV CV Ergebnis: t t 0.69 s [0,1] t KQ t 7
25 Beispiel Prostatakrebs (3) Lasso 16.8 Name KQ Ridge Ridge 57,87 Lasso s 0.43 Schätzer Std.Error Schätzer Std.Error Schätzer Std.Error lcavol lweight age lbph svi lcp gleason pgg Farbig: signifikant zum Niveau
26 Beispiel Prostatakrebs (4) Mittelwerte der Schätzer und Standardabweichung Mittelwerte der Schätzer Variablen 9
27 Beispiel Prostatakrebs (5) Standardisierte Koeffizienten Pfade der Lasso-Koeffizienten für verschiedene Wahl von s t t s [0,1] p t KQ KQ, j j1 30
28 Zusammenfassung Methode zur simultanen Schrumpfung und Variablenselektion Art stetige Subset Selection Designmatrix braucht keinen vollen Rang ibshirani betrachtet in seinem Paper 3 Szenarien: Am besten bzgl. MSE: a. wenige starke Effekte Subset, Lasso, Ridge b. eine kleine bis mittlere Anzahl moderater Effekte Lasso, Ridge, Subset c. eine große Anzahl kleiner Effekte Ridge, Lasso, Subset Lasso-Schätzer relativ gut bzgl. Vorhersage Außerdem: gute Interpretierbarkeit 31
29 Grenzen des Lasso-Schätzers In einigen Fällen stößt das Lasso-Verfahren an seine Grenzen: - Mehr Kovariablen als Beobachtungen d.h. p n: maximal n Variablen können durch Lasso-Schätzung ausgewählt werden - Hohe paarweise Korrelation: Lasso-Methode wählt lediglich eine der korrelierten Kovariablen aus (vgl.: H. Zou,. Hastie) 3
30 Ausblick Ausweitungen möglich beispielsweise auf GLMs Im 1-Penalisierung Spezialfall von r-penalisierung: : p r j, r j1 ) idg, r : (a) r 4,(b r R e (c) r 1 Lasso,(d) r 1, (e) r 1 10 Bayesianische Herangehensweise mit Doppelexponentialverteilung als Priori für, j 1,...,p j (vgl. ibshirani (1996), Park und Casella (008)) 33
31 Literaturverzeichnis [1] B. Efron,. Hastie, I. Johnstone, R. ibshirani: Least Angle Regression (00). [] L. Fahrmeir,. Kneib, S. Lang: Regression. Modelle, Methoden und Anwendungen. Springer- Verlag Berlin Heidelberg (007). [3]. Hastie, R. ibshirani, J. Friedman: he Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer, New York (001). [4] A. Hoerl, R. Kennard: Ridge regression: biased estimation for nonorthogonal problems. echnometrics, Vol. 1:55-67 (1970). [5] L. Huan, H. Motoda: Computational methods of feature selection. Chapman&Hall (008). [6] S. Konrath: Bayesianische Regularisation mit Anwendungen. Masterthesis. (007). [7]. Park und G. Casellea: he Bayesian Lasso. echnical report. University of Florida (005). [8] R. ibshirani: Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), Volume 58, Issue 1 (1996), [9] H. outenburg: Lineare Modelle. heorie und Anwendungen. Physica- Verlag Heidelberg (003). [10] H. Zou,. Hastie : Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society. Series B, Volume 67 (005),
Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell
Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell Tobias Liboschik Verena Ueberfeldt Seminar Modellwahlkriterien Wintersemester 2009/10 13. November 2009 1 / 48 Inhaltsverzeichnis
MehrLasso in LMs und GLMs
Lasso in LMs und GLMs Seminar Regularisierungstechniken und strukturierte Regression, Prof. Dr. Gerhard Tutz, Institut für Statistik, Ludwig-Maximilians-Universität München Referent: Patrick Schenk Betreuer:
MehrElastic Net und Lasso: Lassen Sie in unübersichtlichen Situationen Software statistische Modelle finden.
Elastic Net und Lasso: Lassen Sie in unübersichtlichen Situationen Software statistische Modelle finden. Bernd Heinen SAS Institute GmbH In der Neckarhelle 168 Heidelberg Bernd.heinen@jmp.com oder Zusammenfassung
MehrStatistisches Lernen
Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28
MehrRegularisierung (Shrinkage Methoden) Steve Finger
Regularisierung (Shrinkage Methoden) Steve Finger Inhalt 1. Motivation 2. Regularisierung 3. Vergleich der Shrinkage Methoden 4. Zusammenfassung 1. Motivation 1. Kleinste Quadrate Methode Lineare Regression:
MehrDas elastic net und Gruppierung korrelierter Prädiktoren
Das elastic net und Gruppierung korrelierter Prädiktoren Bettina Wiebe 8 Dezember 04 Wiederholung Im folgenden Kapitel, welches nicht vorgetragen wird, wird kurz an das vorliegende Modell sowie einige
MehrLeast Absolute Shrinkage And Seletion Operator (LASSO)
Least Absolute Shrinkage And Seletion Operator (LASSO) Peter von Rohr 20 März 2017 Lineare Modell und Least Squares Als Ausgangspunkt haben wir das Lineare Modell und Least Squares y = Xβ + ɛ (1) ˆβ =
MehrLineare Regression 2: Gute Vorhersagen
Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,
MehrSparse Hauptkomponentenanalyse
Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36 1 Einführung 2 3 4 5 2 / 36 Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es
MehrKapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität
Kapitel 0 Multikollinearität Exakte Multikollinearität Beinahe Multikollinearität Exakte Multikollinearität Unser Modell lautet y = Xb + u, Dimension von X: n x k Annahme : rg(x) = k Wenn sich eine oder
MehrStochastik Praktikum Lineare Modelle
Stochastik Praktikum Lineare Modelle Thorsten Dickhaus Humboldt-Universität zu Berlin 06.10.2010 Übersicht 1 Einfache lineare Regression 2 Multiple lineare Regression 3 Varianzanalyse 4 Verallgemeinerte
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
MehrEinführung in die Induktive Statistik: Regressionsanalyse
Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrZusammenfassung: Einfache lineare Regression I
4 Multiple lineare Regression Multiples lineares Modell 41 Zusammenfassung: Einfache lineare Regression I Bisher: Annahme der Gültigkeit eines einfachen linearen Modells y i = β 0 + β 1 x i + u i, i {1,,
MehrLösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016
ETH Zürich D-USYS Institut für Agrarwissenschaften Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016 Peter von Rohr Datum 30. Mai 2016 Beginn 08:00 Uhr Ende 08:45
MehrEGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN
1 EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN UFBAU 1 Historie 2 Anwendungen / Ziele 3 Lineare Regression/ Beispiel KQ 4 Nichtlineare Regression 5 Eigenschaften der Schätzer istorie früheste Form
MehrVergleich von Partial Cox Regression und Lasso zur Analyse von U berlebenszeiten bei hochdimensionalen Daten
Vergleich von Partial Cox Regression und Lasso zur Analyse von U berlebenszeiten bei hochdimensionalen Daten Claudia-Martina Messow Robertson Centre for Biostatistics, University of Glasgow Situation Methoden
Mehr6. Schätzverfahren für Parameter
6. Schätzverfahren für Parameter Ausgangssituation: Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert X habe eine unbekannte Verteilungsfunktion F X (x) Wir interessieren uns für einen
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrModelluntersuchung bei Anwendung von Lasso auf Bootstrap-Stichproben
- LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN - INSTITUT FÜR STATISTIK Modelluntersuchung bei Anwendung von Lasso auf Bootstrap-Stichproben BACHELORARBEIT ZUR ERLANGUNG DES AKADEMISCHEN GRADES BACHELOR OF SCIENCE
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.
Reparametrisierung des Modells Gegeben sei das Modell (2.1) mit (2.5) unter der linearen Restriktion Aβ = c mit A R a p, rg(a) = a, c R a. Wir betrachten die lineare Restriktion als Gleichungssystem. Die
Mehr6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
Mehr2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)
2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme) Annahme A1: Im multiplen Regressionsmodell fehlen keine relevanten exogenen Variablen und die benutzten exogenen Variablen x 1,
Mehrx t2 y t = 160, y = 8, y y = 3400 t=1
Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =
Mehry = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0
8 Lineare Modelle In diesem Abschnitt betrachten wir eine spezielle Klasse von statistischen Modellen, in denen die Parameter linear auftauchen Wir beginnen mit zwei Beispielen Beispiel 8 (lineare Regression)
Mehry t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.
Aufgabe 1 (25 Punkte Zur Schätzung des Werbe-Effekts in einem Getränke-Unternehmen wird das folgende lineare Modell aufgestellt: Dabei ist y t = β 1 + x t2 β 2 + e t. y t : x t2 : Umsatz aus Getränkeverkauf
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
MehrStochastik Praktikum Parametrische Schätztheorie
Stochastik Praktikum Parametrische Schätztheorie Thorsten Dickhaus Humboldt-Universität zu Berlin 05.10.2010 Prolog Momentenmethode X : Ω 1 Ω Zufallsgröße, die Experiment beschreibt. Ein statistisches
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrX =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrGemischte Modelle zur Schätzung geoadditiver Regressionsmodelle
Gemischte Modelle zur Schätzung geoadditiver Regressionsmodelle Thomas Kneib & Ludwig Fahrmeir Institut für Statistik, Ludwig-Maximilians-Universität München 1. Regressionsmodelle für geoadditive Daten
MehrLineare Regression 1 Seminar für Statistik
Lineare Regression 1 Seminar für Statistik Markus Kalisch 17.09.2014 1 Statistik 2: Ziele Konzepte von einer breiten Auswahl von Methoden verstehen Umsetzung mit R: Daten einlesen, Daten analysieren, Grafiken
MehrPraxis der Regressionsanalyse
Praxis der Regressionsanalyse Von Samprit Chatterjee New York University und Bertram Price Price Associates, Inc., Washington, D. C. Aus dem Amerikanischen übertragen von Prof. Dr. Gunter Lorenzen Universität
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrStatistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
MehrBeispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
MehrVorlesung: Lineare Modelle
Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen
MehrMultiplizitätskorrektur bei Variablenselektion
Multiplizitätskorrektur bei Variablenselektion Seminar: Multiples Testen Dozent: Prof. Dr. T. Dickhaus Referent: Maximilian Mönch - 22.11.2010 - Überblick 1) Einleitung 2) Multiplizitätskorrektur 3) Median
MehrProxies, Endogenität, Instrumentvariablenschätzung
1 4.2 Multivariate lineare Regression: Fehler in den Variablen, Proxies, Endogenität, Instrumentvariablenschätzung Literatur: Wooldridge, Kapitel 15, Appendix C.3 und Kapitel 9.4 Wahrscheinlichkeitslimes
MehrVorlesung 4: Spezifikation der unabhängigen Variablen
Vorlesung 4: Spezifikation der unabhängigen Variablen. Fehlspezifikation der unabhängigen Variablen. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der
MehrRidge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel
Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule
MehrMan kann also nicht erwarten, dass man immer den richtigen Wert trifft.
2.2.2 Gütekriterien Beurteile die Schätzfunktionen, also das Verfahren an sich, nicht den einzelnen Schätzwert. Besonders bei komplexeren Schätzproblemen sind klar festgelegte Güteeigenschaften wichtig.
MehrStatistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
MehrSchätzung im multiplen linearen Modell VI
Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
Mehr2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen
.1. Stochastische ökonometrische Modelle.1 Einführung Ziele: - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen - Numerische Konkretisierung ökonomischer Modelle und deren Analse. . Variierende
MehrLineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrStatistik II Übung 2: Multivariate lineare Regression
Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden
MehrPolynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen
Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit
MehrDabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen
Lineare Regression und Matrizen. Einführendes Beispiel Der im Kapitel Skalarprodukt gewählte Lösungsweg für das Problem der linearen Regression kann auch mit Matrizen formuliert werden. Die Idee wird zunächst
MehrProf. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft
Prof. Dr. Marc Gürtler WS 015/016 Prof. Dr. Marc Gürtler Klausur zur 10/1 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Lösungsskizze Prof. Dr. Marc Gürtler WS 015/016 Aufgabe 1: (11+5+1+8=56
MehrStatistik in Geodäsie, Geoinformation und Bauwesen
Wilhelm Benning Statistik in Geodäsie, Geoinformation und Bauwesen 2., überarbeitete und erweiterte Auflage Herbert Wichmann Verlag Heidelberg Matrix-Theorie 1 1.1 Matrizen und Vektoren 1 1.2 Matrixverknüpfungen
MehrBeispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
MehrStatistik II Übung 2: Multivariate lineare Regression
Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden
MehrSchätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Wiederholung Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte
MehrVorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.
Vorlesung: Lineare Modelle Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München SoSe 205 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.
MehrSchweizer Statistiktage, Aarau, 18. Nov. 2004
Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der
MehrFakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.
Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...
Mehr6. Tutoriumsserie Statistik II
6. Tutoriumsserie Statistik II 1. Aufgabe: Eine Unternehmensabteilung ist ausschließlich mit der Herstellung eines einzigen Produktes beschäftigt. Für 10 Perioden wurden folgende Produktmenge y und Gesamtkosten
MehrStatistik II Übung 2: Multivariate lineare Regression
Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrWahrscheinlichkeitsrechnung und Statistik
9. Vorlesung - 2017 Monte Carlo Methode für numerische Integration Sei g : [0, 1] R stetige Funktion; man möchte 1 0 g(t)dt numerisch approximieren mit Hilfe von Zufallszahlen: Sei (U n ) n eine Folge
MehrStatistik II für Betriebswirte Vorlesung 8
Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:
MehrAnalyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen
Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 3.0.004 0.0.004
MehrLineare Regression und Varianzanalyse
Lineare Regression und Varianzanalyse Von Prof. Dr. Fritz Pokropp Universität der Bundeswehr Hamburg R. Oldenbourg Verlag München Wien Inhaltsverzeichnis 1 Einleitung 1 1.1 Grundstruktur linearer Modelle
Mehr(1 Punkt) i) Bestimmen Sie formal den marginalen Effekt der Häufigkeit des Alkoholkonsums für männliche
Aufgabe 1 [14 Punkte] Sie möchten untersuchen, wovon die Abwesenheit der Studierenden in den Vorlesungen an einer Universität abhängt. Sie verfügen über einen Datensatz zu 282 Studierenden mit folgenden
MehrDistribution-free calculation of the standard error of Chain Ladder reserve estimates
Distribution-free calculation of the standard error of Chain Ladder reserve estimates David Fischinger 31. März 2018 David Fischinger 31. März 2018 1 / 41 Inhaltsverzeichnis 1) Einleitung 2) Chain Ladder
MehrTrim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19
Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist
MehrStatistik I für Betriebswirte Vorlesung 13
Statistik I für Betriebswirte Vorlesung 13 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 4. Juli 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrSchätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte : Schätzung Statistik
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrEin exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann
Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten Oliver Kuß, Cora Gromann Institut für Medizinische Epidemiologie, Biometrie und Informatik, Universität Halle-Wittenberg, Halle
MehrÜbung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010
MehrZiel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.
Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt
MehrW09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung
Der Verhältnisschätzer - Ratio estimator Beispiel: Schätzung der Anzahl Objekte (Bäume) in einem bestimmten Gebiet. Situation: Die Fläche ist unterteilt in Streifen / Transekte. Man wählt zufällig n =
MehrMERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN
Verteidigung der Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Von: Tom Fels 23.11.2015 Betreut durch: Prof. Dr.-Ing. Wolfgang Lehner Motivation Motivation PROGNOSEN Schätzung zukünftiger
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, 2. Juli 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Konjugierte Prior Konjugierte Prior
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrStatistics, Data Analysis, and Simulation SS 2017
Mainz, 26. Juni 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
Mehr10 Statistisches Schätzen
10 Statistisches Schätzen 620 10 Statistisches Schätzen 10.1 Punktschätzung 623 10.1.1 Schätzer und ihre Gütekriterien 623 10.1.2 Erwartungstreue 627 10.1.3 Erwartete quadratische Abweichung (MSE) 634
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrMethoden der Ökonometrie
Dr. Matthias Opnger Lehrstuhl für Finanzwissenschaft WS 2013/14 Dr. Matthias Opnger Methoden d. Ökonometrie WS 2013/14 1 / 21 Dr. Matthias Opnger Büro: C 504 Sprechzeit: nach Vereinbarung E-Mail: opnger@uni-trier.de
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt
MehrForschungsstatistik I
Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrV. Das lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Tino Conrad, M.Sc. Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2016 Übung zur
MehrStatistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II
Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte
MehrInstrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.
Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen? Lineare Regression
MehrStatistische Eigenschaften der OLS-Schätzer, Residuen,
Statistische Eigenschaften der OLS-Schätzer, Residuen, Bestimmtheitsmaß Stichwörter: Interpretation des OLS-Schätzers Momente des OLS-Schätzers Gauss-Markov Theorem Residuen Schätzung von σ 2 Bestimmtheitsmaß
Mehr