Statistisches Lernen

Größe: px
Ab Seite anzeigen:

Download "Statistisches Lernen"

Transkript

1 Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/ / 28

2 Einführung Einführung Lineares Modell: Y = β 0 + β 1 x 1 + β 2 x β p x p + ɛ Wie kann man relevante Prädiktoren auswählen, d.h. die Interpretierbarkeit des Modells verbessern? Wie kann man die Vorhersageleistung verbessern, bei vielen Prädiktoren p und moderater Stichprobengröße n? Was tun bei hochdimensionalen Daten (p n)? 2 / 28

3 Einführung Methoden Subset selection: Modell mit einem Teil der p Prädiktoren mit hoher Vorhersagekraft Shrinkage/Regularisierung: Modell mit allen p Prädiktoren, Koeffizienten werden gegen 0 geschrumpft Dimensionsreduktion: Projektion von p auf M, mit M < p, Verwendung der M Projektionen als Prädiktoren 3 / 28

4 Subset-Selection Best-Subset-Selection Wahl des besten Modells aus allen möglichen Modellen Algorithmus: 1 Nullmodel M 0 ohne Prädiktoren 2 Für k = 1, 2,..., p: 1 Passe alle ( p k) Modelle mit genau k Prädiktoren an 2 Wähle aus diesen Modellen das beste Modell M k 3 Wähle das beste Modell aus den Modellen M 0,..., M p 4 / 28

5 Subset-Selection Wahl des besten Modells Ziel: Modell mit kleinstem Vorhersagefehler auf Testdaten (neuen Daten) wählen Problem: Modell mit den meisten Prädiktoren wird immer kleinsten MSE oder größtes R 2 auf Trainingsdaten haben Testdaten-Vorhersagefehler schätzen: Indirekt: Adjustieren des Trainingsdaten-Vorhersagefehlers Direkt: Validierungsdaten oder Resampling-Methoden, z.b. Kreuzvalidierung 5 / 28

6 Subset-Selection Modellbewertungskriterien im linearen Modell Residual sum of squares (RSS): RSS = Var(ɛ) = n (y i ŷ i ) 2 i=1 R 2 -Statistik: Anteil erklärter Varianz n R 2 i=1 = (ŷ i ȳ) 2 n n i=1 (y i ȳ) 2 = 1 i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2 = 1 RSS TSS Adjustiertes R 2 Radj 2 RSS/(n d 1) = 1 TSS/(n 1) mit d Prädiktoren 6 / 28

7 Subset-Selection Modellbewertungskriterien im linearen Modell II Mallow s C p C p = 1 n (RSS + 2d ˆσ2 ) mit ˆσ 2 Schätzer der Residualvarianz im vollen Modell Akaikes Informationskriterium (AIC): AIC = 1 nˆσ 2 (RSS + 2d ˆσ2 ) im linearen Modell sind C p und AIC proportional zueinander Bayessches Informationskriterium (BIC) BIC = 1 n (RSS + log(n)d ˆσ2 ) v-fach kreuzvalidierter Vorhersagefehler (MSE): MSE = 1 V n RSS n v 1 v = (y i ˆf v (x i )) 2 n n v=1 v i C v 7 / 28

8 Subset-Selection Beispiel Baseball-Daten Datensatz Hitters im R-Paket ISLR Interessierende Variable: Bezahlung von 263 Baseballspielern in den Major Leagues 1986 und weitere Variablen: Anzahl (Home) Runs, Putouts, Hits usw., Beschäftigungsdauer in den Major Leagues, National oder American League,... 8 / 28

9 Subset-Selection Beispiel Baseball-Daten RSS Adjustiertes R 2 RSS 2.4e e e Adjustiertes R Anzahl Variablen Anzahl Variablen Mallow's C p BIC Mallow's C p BIC Anzahl Variablen Anzahl Variablen 9 / 28

10 Subset-Selection Best-Subset-Selection Wahl des besten Modells aus allen möglichen Modellen Algorithmus: 1 Nullmodel M 0 ohne Prädiktoren 2 Für k = 1, 2,..., p: 1 Passe alle ( p k) Modelle mit genau k Prädiktoren an 2 Wähle aus diesen Modellen das beste Modell M k mit kleinstem RSS bzw. MSE oder größtem R 2 3 Wähle das beste Modell aus den Modellen M 0,..., M p bzgl. AIC, BIC, adjustiertem R 2 oder kreuzvalidiertem Vorhersagefehler Problem: Für große p sehr rechenaufwändig, da 2 p Modelle angepasst werden müssen. 10 / 28

11 Subset-Selection Vorwärts-Einschluss (Forward selection) Beginnend mit dem Nullmodel schrittweiser Einschluss der Variablen, die die Anpassung am meisten verbessert. Algorithmus: 1 Nullmodel M 0 ohne Prädiktoren 2 Für k = 0, 2,..., p 1: 1 Betrachte alle p k Modelle, die das Modell M k um einen zusätzlichen Prädiktor erweitern 2 Wähle aus diesen p k Modellen das beste Modell M k+1 mit kleinstem RSS bzw. MSE oder größtem R 2 3 Wähle das beste Modell aus den Modellen M 0,..., M p bzgl. AIC, BIC, adjustiertem R 2 oder kreuzvalidiertem Vorhersagefehler Anpassung von 1 + p 1 k=0 (p k) = 1 + p(p + 1)/2 Modellen notwendig. 11 / 28

12 Subset-Selection Rückwärts-Elimination (Backward selection) Beginnend mit dem vollen Modell schrittweiser Ausschluss der Variablen, die am wenigsten zur Anpassung beiträgt. Algorithmus: 1 Model M p mit allen p Prädiktoren 2 Für k = p, p 1..., 1: 1 Betrachte k Modelle, die das Modell M k um einen der Prädiktoren verringern 2 Wähle aus diesen k Modellen das beste Modell M k 1 mit kleinstem RSS bzw. MSE oder größtem R 2 3 Wähle das beste Modell aus den Modellen M 0,..., M p bzgl. AIC, BIC, adjustiertem R 2 oder kreuzvalidiertem Vorhersagefehler Anpassung von 1 + p 1 k=0 (p k) = 1 + p(p + 1)/2 Modellen notwendig. 12 / 28

13 Subset-Selection Vorwärts-Selektion und Rückwärts-Elimination Problem: U.U. wird nicht das beste aller Modelle gewählt. Vorwärts-Selektion auch bei hochdimensionalen Daten anwendbar. Alternativen: Hybrid-Ansätze, die Prädiktoren sowohl selektieren als auch elimineren. 13 / 28

14 Shrinkage Shrinkage Modifikation der Kleinste-Quadrate-Schätzung RSS = n p (y i β 0 β j x ij ) 2 min i=1 j=1 Ziel: Schrumpfen der Koeffizienten gegen 0 Stabile Modelle für große Anzahl Prädiktoren p Trotz nötiger Tuning-Parameter-Wahl schnellere Berechnung als bei Best-Subset-Selection 14 / 28

15 Shrinkage Ridge-Regression Schätzen der Koeffizienten durch n p (y i β 0 β j x ij ) 2 + λ p i=1 j=1 j=1 β 2 j min mit Tuning-Parameter λ Bestimmung von λ mit Kreuzvalidierung 15 / 28

16 Shrinkage Bias-Variance-Trade-off Simulierter Datensatz mit 45 Prädiktoren und 50 Beobachtungen Mean Squared Error e 01 1e+01 1e+03 λ Quelle: T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer 2013, S / 28

17 Shrinkage Lasso Schätzen der Koeffizienten durch n (y i β 0 i=1 mit Tuning-Parameter λ p β j x ij ) 2 + λ j=1 Bestimmung von λ mit Kreuzvalidierung p β j min Vorteil gegenüber Ridge-Regression: Automatische Variablenselektion, da viele Variablen Koeffizienten gleich 0 erhalten j=1 17 / 28

18 Shrinkage Ridge und Lasso auf den Baseball-Daten Ridge Lasso Standardisierte Koeffizienten Standardisierte Koeffizienten log(λ) log(λ) 18 / 28

19 Shrinkage Variablenselektionseigenschaft des Lasso Andere Formulierung des Schätzproblems n p (y i β 0 β j x ij ) 2 min i=1 j=1 unter Berücksichtigung von p j=1 β j s (Lasso) bzw. p j=1 β2 j s (Ridge) Für p = 2 β 2 β 2 β ^ β^ β 1 β 1 Quelle: T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer 2013, S / 28

20 Dimensionsreduktion Dimensionsreduktion Schritt 1: Linearkombinationen Z 1, Z 2,..., Z M, M < p, der p Prädiktoren: p Z m = φ jm X j, m = 1,..., M j=1 mit Skalaren φ 1m, φ 2m,..., φ pm Schritt 2: Regressionsmodell anpassen y i = θ 0 + M θ m z im + ɛ i, i = 1,..., n m=1 D.h. Kleinste-Quadrate-Schätzung von M + 1 statt p + 1 Koeffizienten 20 / 28

21 Dimensionsreduktion Hauptkomponentenanalyse/Principal components analysis Idee: Verschieben des Koordinatensystems unter Verkleinerung der Varianz Erste Hauptkomponte enthält höchsten Varianzanteil, usw. Annahme: Die Variablen mit höchster Streuung enthalten größte Information bzgl. Endpunkt Endpunkt wird nicht berücksichtigt, deshalb unüberwachtes Lernen Variablen sollten standardisiert werden Wahl der optimalen Anzahl an Hauptkomponenten durch Kreuzvalidierung 21 / 28

22 Dimensionsreduktion Beispiel PCA Ad Spending nd Principal Component Population st Principal Component Quelle: T. Hastie, R. Tibshirani, J. Friedman: The Elements of Statistical Learning, Springer 2013, S / 28

23 Dimensionsreduktion Partial least squares (PLS) Überwachte Alternative zur Hauptkomponentenanalyse Vorgehen: Erste PLS-Komponente, Z 1, entspricht Linearkombination mit Koeffizienten aus linearer Regression Z 2 bis Z M erhält man aus der Regression der jeweiligen Residuen Variablen sollten standardisiert werden Wahl der optimalen Anzahl an Komponenten durch Kreuzvalidierung 23 / 28

24 Dimensionsreduktion Zusammenfassung Einfache lineare Regression nur anwendbar und sinnvoll, wenn p n Alternativen: Subset selection: Liefert einfache und interpretierbare Modelle, allerdings u.u. sehr rechenaufwändig Shrinkage/Regularisierung: Lasso liefert gut interpretierbare Modelle mit moderatem Rechenaufwand Dimensionsreduktion: gute Vorhersageleistung, aber nicht direkt interpretierbar Alle Methoden enthalten Tuningparameter, die durch Kreuzvalidierung bestimmt werden sollten! Bei hochdimensionalen Daten muss bzgl. der Interpretierbarkeit der ausgewählten Prädiktoren allerdings beachtet werden, dass diese oft hochkorreliert mit anderen Variablen sind, die nicht ins Modell aufgenommen wurden. 24 / 28

25 Anwendung Aufgaben Wenden Sie Vorwärts-Selektion und Rückwärts-Elimination, Lasso und Ridge-Regression, sowie Hauptkomponentenanalyse und PLS auf den Baseball-Daten an! 25 / 28

26 Anwendung R-Code Vorwärts-Selektion und Rückwärts-Elimination > library(islr) > library(leaps) > hitters <- na.omit(hitters) > # > ### Forward > # > regfit.fwd <- regsubsets(salary~., hitters, method="forward", nvmax=ncol( > (summary.fwd <- summary(regfit.fwd)) > coef(regfit.fwd, id=which.min(summary.fwd$bic)) > # > ### Backward > # > regfit.bwd <- regsubsets(salary~., hitters, method="backward", nvmax=ncol > (summary.bwd <- summary(regfit.bwd)) > coef(regfit.bwd, id=which.min(summary.bwd$bic)) 26 / 28

27 Anwendung R-Code: Ridge und Lasso > library(glmnet) > grid <- 10^seq(10, -2, length=200) > x <- model.matrix(salary~., hitters)[, -1] > y <- hitters$salary > # > ### Ridge > # > set.seed(1) > cv <- cv.glmnet(x, y, alpha=0, lambda=grid) > plot(cv) > mod.ridge.opti <- glmnet(x, y, lambda=cv$lambda.min, alpha=0) > coef(mod.ridge.opti) > # > ### Lasso > # > set.seed(1) > cv <- cv.glmnet(x, y, lambda=grid, alpha=1) > plot(cv) > mod.lasso.opti <- glmnet(x, y, alpha=1, lambda=cv$lambda.min) > coef(mod.lasso.opti) 27 / 28

28 Anwendung R-Code: PCR und PLS > library(pls) > # > ### PCR > # > set.seed(2) > pcr.fit <- pcr(salary~., data=hitters, scale=true, validation="cv") > summary(pcr.fit) > validationplot(pcr.fit, val.type="r2") > # > ### PLS > # > set.seed(2) > pls.fit <- plsr(salary~., data=hitters, scale=true, validation="cv") > summary(pls.fit) > validationplot(pls.fit, val.type="r2") 28 / 28

Sparse Hauptkomponentenanalyse

Sparse Hauptkomponentenanalyse Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36 1 Einführung 2 3 4 5 2 / 36 Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung

Website. Vorlesung Statistisches Lernen. Dozenten. Termine. Einheit 1: Einführung Website Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig (Aktuelle) Informationen

Mehr

Vorlesung Statistisches Lernen

Vorlesung Statistisches Lernen Vorlesung Statistisches Lernen Einheit 1: Einführung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 20 Organisatorisches

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell

Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell Verfahren zur Variablenselektion und Modellschrumpfung im linearen Regressionsmodell Tobias Liboschik Verena Ueberfeldt Seminar Modellwahlkriterien Wintersemester 2009/10 13. November 2009 1 / 48 Inhaltsverzeichnis

Mehr

Variablen Selektion beste Volles Modell

Variablen Selektion beste Volles Modell Variablen Selektion Wähle das beste Modell aus einer Klasse von MLR s. Volles Modell enthält alle m möglicherweise erklärenden Größen (Prädiktoren) Suche nach dem besten Modell, das nur eine Teilmenge

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multivariate Statistik für Psychologen 6. Vorlesung: 28.04.2003 Organisatorisches Terminverlegung Übungsgruppen Gruppe 5 alter Termin: Donnerstag, 01.05.03, 12 14 Uhr, IfP SR 9 neuer Termin:

Mehr

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff. Vorlesung: Lineare Modelle Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München SoSe 205 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.

Mehr

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation Validation Oktober, 2013 1 von 20 Validation Lernziele Konzepte des maschinellen Lernens Validierungsdaten Model Selection Kreuz-Validierung (Cross Validation) 2 von 20 Validation Outline 1 Validation

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Elastic Net und Lasso: Lassen Sie in unübersichtlichen Situationen Software statistische Modelle finden.

Elastic Net und Lasso: Lassen Sie in unübersichtlichen Situationen Software statistische Modelle finden. Elastic Net und Lasso: Lassen Sie in unübersichtlichen Situationen Software statistische Modelle finden. Bernd Heinen SAS Institute GmbH In der Neckarhelle 168 Heidelberg Bernd.heinen@jmp.com oder Zusammenfassung

Mehr

Eine Einführung in R: Varianzanalyse

Eine Einführung in R: Varianzanalyse Eine Einführung in R: Varianzanalyse Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2011 Bernd Klaus, Verena Zuber Das

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Lineare Modelle in R: Klassische lineare Regression

Lineare Modelle in R: Klassische lineare Regression Lineare Modelle in R: Klassische lineare Regression Achim Zeileis 2009-02-20 1 Das Modell Das klassische lineare Regressionsmodell versucht den Zusammenhang zwischen einer abhängigen Variablen (oder Responsevariablen)

Mehr

Lasso in LMs und GLMs

Lasso in LMs und GLMs Lasso in LMs und GLMs Seminar Regularisierungstechniken und strukturierte Regression, Prof. Dr. Gerhard Tutz, Institut für Statistik, Ludwig-Maximilians-Universität München Referent: Patrick Schenk Betreuer:

Mehr

6.4 Kointegration Definition

6.4 Kointegration Definition 6.4 Kointegration 6.4.1 Definition Nach Engle und Granger (1987): Wenn zwei oder mehrere Variablen I(1) sind, eine Linearkombination davon jedoch I() ist, dann sind die Variablen kointegriert. Allgemein:

Mehr

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1 V Inhaltsverzeichnis Vorwort XI 1 Einführung in die multivariate Datenanalyse 1 1.1 Was ist multivariate Datenanalyse? 1 1.2 Datensätze in der multivariaten Datenanalyse 4 1.3 Ziele der multivariaten Datenanalyse

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur 2.1 Lineare und generalisierte lineare Modelle Das klassische lineare Regressionsmodell

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl

Mehr

Kurs Empirische Wirtschaftsforschung

Kurs Empirische Wirtschaftsforschung Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische

Mehr

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Das Lineare Modell Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2009 Bernd Klaus, Verena Zuber

Mehr

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse)

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Seminar für Statistik Markus Kalisch 25.11.2014 1 Unsupervised Learning Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen

Mehr

Analytics Entscheidungsbäume

Analytics Entscheidungsbäume Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering

Mehr

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen Breusch-Pagan-Test I Ein weiterer Test ist der Breusch-Pagan-Test. Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine (einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.

Mehr

Lineare Regression in R, Teil 1

Lineare Regression in R, Teil 1 Lineare Regression in R, Teil 1 Christian Kleiber Abt. Quantitative Methoden, WWZ, Universität Basel October 6, 2009 1 Vorbereitungen Zur Illustration betrachten wir wieder den Datensatz CASchools aus

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Das Lineare Regressionsmodell

Das Lineare Regressionsmodell Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Optimierung der Variablen-Selektion für die PLS-Regression

Optimierung der Variablen-Selektion für die PLS-Regression Optimierung der Variablen-Selektion für die PLS-Regression Michael Judas Stefaan De Smet Institut für Sicherheit und Qualität bei Fleisch, MRI Standort Kulmbach Laboratory for Animal Nutrition and Animal

Mehr

Inferenz im multiplen Regressionsmodell

Inferenz im multiplen Regressionsmodell 1 / 40 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 2 Ökonometrie I Michael Hauser 2 / 40 Inhalt ANOVA, analysis of variance korrigiertes R 2, R 2 F-Test F-Test bei linearen Restriktionen Erwartungstreue,

Mehr

Die Regressionsanalyse

Die Regressionsanalyse Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige

Mehr

Empirische Wirtschaftsforschung in R

Empirische Wirtschaftsforschung in R Empirische Wirtschaftsforschung in R Schätzung der keynesianischen Geldnachfragefunktion auf Basis von Daten der dänischen Volkswirtschaft Jonas Richter-Dumke Universität Rostock, Institut für Volkswirtschaftslehre

Mehr

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade Version 2015 Formelsammlung für das Modul Statistik 2 Bachelor Sven Garbade Prof. Dr. phil. Dipl.-Psych. Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Statistische Methoden in der Wirtschaftsund Sozialgeographie Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 0.5--45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-

Mehr

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs) Poisson Regression Verallgemeinerte Lineare Modelle (GLMs) 28.11.2011 Poisson Regression Aus der Einführungsvorlesung Poisson-Verteilung ist in der Regel gut geeignet, um Anzahlen zu modellieren. Frage

Mehr

Funktionale Regressionsmodelle für skalare Zielgrößen

Funktionale Regressionsmodelle für skalare Zielgrößen Funktionale Regressionsmodelle für skalare Zielgrößen Gerrit Toenges Fakultät Statistik Technische Universität Dortmund 15. Dezember 2014 G.Toenges (TU Dortmund) 15.12.14 1 / 47 Inhaltsverzeichnis 1 Motivation

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

6. Statistische Schätzung von ARIMA Modellen

6. Statistische Schätzung von ARIMA Modellen 6. Statistische Schätzung von ARIMA Modellen Vorschau: ARIMA Modelle Modellidentifikation verschiedene Schätzverfahren Modelldiagnostik Fallstudien Zeitreihenanalyse 1 6.1 ARIMA Modelle Bisher: ARMA(p,q)-Modelle:

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Eine Einführung in R: Lineare Regression

Eine Einführung in R: Lineare Regression Eine Einführung in R: Lineare Regression Katja Nowick, Lydia Müller und Markus Kreuz Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.bioinf.uni-leipzig.de/teaching/currentclasses/class211.html

Mehr

6.2 Lineare Regression

6.2 Lineare Regression 6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen. Aufgabe 1 (25 Punkte Zur Schätzung des Werbe-Effekts in einem Getränke-Unternehmen wird das folgende lineare Modell aufgestellt: Dabei ist y t = β 1 + x t2 β 2 + e t. y t : x t2 : Umsatz aus Getränkeverkauf

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Statistische Eigenschaften der OLS-Schätzer, Residuen,

Statistische Eigenschaften der OLS-Schätzer, Residuen, Statistische Eigenschaften der OLS-Schätzer, Residuen, Bestimmtheitsmaß Stichwörter: Interpretation des OLS-Schätzers Momente des OLS-Schätzers Gauss-Markov Theorem Residuen Schätzung von σ 2 Bestimmtheitsmaß

Mehr

MÖGLICHKEITEN UND GRENZEN DER VORHERSAGBARKEIT VON EPIDEMIEN IN FRÜHEN STADIEN

MÖGLICHKEITEN UND GRENZEN DER VORHERSAGBARKEIT VON EPIDEMIEN IN FRÜHEN STADIEN MÖGLICHKEITEN UND GRENZEN DER VORHERSAGBARKEIT VON EPIDEMIEN IN FRÜHEN STADIEN Mario Ziller Friedrich-Loeffler-Institut Bundesforschungsinstitut für Tiergesundheit Institut für Epidemiologie Seestr. 55,

Mehr

Statistik, Datenanalyse und Simulation

Statistik, Datenanalyse und Simulation Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 31. Mai 2011 4. Methode der kleinsten Quadrate Geschichte: Von Legendre, Gauß und Laplace zu Beginn des 19. Jahrhunderts eingeführt. Die Methode der

Mehr

Kapitel 4: Merkmalszusammenhänge

Kapitel 4: Merkmalszusammenhänge Kapitel 4: Merkmalszusammenhänge Korrelationen 1 Lineare Regression 3 Literatur 5 Korrelationen Mit Hilfe von G*Power lässt sich analog zum Vorgehen beim t-test (Kapitel 3, Band I) vor einer Untersuchung

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 6.. Herleitung des OLS-Schätzers

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Statistischer Rückschluss und Testen von Hypothesen

Statistischer Rückschluss und Testen von Hypothesen Statistischer Rückschluss und Testen von Hypothesen Statistischer Rückschluss Lerne von der Stichprobe über Verhältnisse in der Grundgesamtheit Grundgesamtheit Statistischer Rückschluss lerne aus Analyse

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen. Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009

Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009 Boosting für Bäume Seminar Modellwahlkriterien Holger Rettig 18. Dezember 2009 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember 2009 1 / 43 Gliederung 1 Einführung in CART Motivation Regressionsbäume

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Eine Einführung in R: Lineare Regression

Eine Einführung in R: Lineare Regression Eine Einführung in R: Lineare Regression (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365

Mehr

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg Übungsklausur Lineare le Prof. Dr. H. Toutenburg Aufgabe Ein lineares Regressionsmodell mit der abhängigen Variablen Körpergröße und der unabhängigen Variablen Geschlecht wurde einmal mit der dummykodierten

Mehr

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS) Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS) Es soll untersucht werden, ob und wie sich Rauchen während der Schwangerschaft auf den Gesundheitszustand des Neugeborenen auswirkt. Hierzu werden

Mehr

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung Regression II Statistik I Sommersemester 2009 Statistik I Regression II (1/33) R 2 Root Mean Squared Error Statistik I Regression II (2/33) Zum Nachlesen Agresti: 9.1-9.4 Gehring/Weins: 8 Schumann: 8.1-8.2

Mehr

Regressionsanalyse in R

Regressionsanalyse in R Regressionsanalyse in R Session 6 1 Einfache Regression Lineare Regression ist eines der nützlichsten Werkzeuge in der Statistik. Regressionsanalyse erlaubt es Zusammenhänge zwischen Parametern zu schätzen

Mehr

13 Dimensionsreduktion

13 Dimensionsreduktion 13 Dimensionsreduktion 13.0 Dimensionsreduktion Dimensionsreduktion 13 Dimensionsreduktion (aus: C. Weihs und J. Jessenberger (1998): Statistische Methoden zur Qualitätssicherung und -optimierung in der

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Prognoseintervalle für y 0 gegeben x 0

Prognoseintervalle für y 0 gegeben x 0 10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen

Mehr

Variablenselektion im linearen Regressionsmodell mit der experimentellen Prozedur PROC GLMSELECT

Variablenselektion im linearen Regressionsmodell mit der experimentellen Prozedur PROC GLMSELECT Variablenselektion Variablenselektion im linearen Regressionsmodell mit der experimentellen Prozedur PROC GLMSELECT Brigitte Hörmann PD Dr. Rainer Muche Institut für Biometrie, Universität Ulm Institut

Mehr

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit 2. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle In vielen Untersuchungen soll eine komplexere Beziehungsstruktur untersucht werden.

Mehr

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN

MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Verteidigung der Bachelorarbeit MERKMALSAUSWAHL ZUR OPTIMIERUNG VON PROGNOSEPROZESSEN Von: Tom Fels 23.11.2015 Betreut durch: Prof. Dr.-Ing. Wolfgang Lehner Motivation Motivation PROGNOSEN Schätzung zukünftiger

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Statistik & Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Einführung in das statistische Lernen

Einführung in das statistische Lernen Universität Ulm 24. April 2007 Inhalt Motivation Grundbegriffe Kleinste Quadrate und k-nächste-nachbar-methode Statistische Entscheidungstheorie Regressionsmodelle und Kernmethoden Zusammenfassung Modellwahl

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für

Mehr

Fragestunde zur Übung

Fragestunde zur Übung Prof. Bernd Fitzenberger, Ph.D. Dr. Roland Füss Aderonke Osikominu Übung zur Veranstaltung Empirische Wirtschaftsforschung Albert-Ludwigs-Universität Freiburg Wintersemester 2007/08 Fragestunde zur Übung

Mehr

Übungen mit dem Applet. by Michael Gärtner

Übungen mit dem Applet. by Michael Gärtner Übungen mit dem Applet by Michael Gärtner Betreuer: Prof. Dr. Wilhelm Kleppmann Abgabe: 20. October 2006 Inhaltsverzeichnis 1 Prinzip der kleinsten Quadrate 4 2 Quadrierte Abweichungen und Bestimmtheitsmaÿ

Mehr

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003-1 Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell von XENOPHOB auf V247 und POSTMAT, MATERIAL Für unsere

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3. Reparametrisierung des Modells Gegeben sei das Modell (2.1) mit (2.5) unter der linearen Restriktion Aβ = c mit A R a p, rg(a) = a, c R a. Wir betrachten die lineare Restriktion als Gleichungssystem. Die

Mehr

5 Multivariate stationäre Modelle

5 Multivariate stationäre Modelle 5 Multivariate stationäre Modelle 5.1 Autoregressive distributed lag (ADL) 5.1.1 Das Modell und dessen Schätzung Im vorangehenden Kapitel führten wir mit der endogenen verzögerten Variablen, y t 1, als

Mehr

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 Vorlesung: 29.10.2002 To err is human, to forgive is devine - but to include errors in your design is statistical Leslie Kish Dr. Wolfgang Langer

Mehr

11.8 Diskriminanzanalyse

11.8 Diskriminanzanalyse 11.8 Diskriminanzanalyse Die Diskriminanzanalyse bezieht sich auf dieselbe Erhebungssituation wie die einfaktorielle MANOVA und teilt deren Voraussetzungen (vgl. Abschn. 11.7.1): Beobachtungsobjekte aus

Mehr

Das lineare Regressionsmodell

Das lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Prof. Dr. Werner Smolny Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Institutsdirektor Das ökonomische

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

6. Schätzung stationärer ARMA-Modelle

6. Schätzung stationärer ARMA-Modelle 6. Schätzung stationärer ARMA-Modelle Problemstellung: Statistische Anpassung eines stationären ARMA(p, q)-prozesses an eine Stichprobe von t = 1,..., T Prozessbeobachtungen Es bezeichne x 1,..., x T die

Mehr

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) 8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) Annahme B4: Die Störgrößen u i sind normalverteilt, d.h. u i N(0, σ 2 ) Beispiel: [I] Neoklassisches Solow-Wachstumsmodell Annahme einer

Mehr

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung Der Verhältnisschätzer - Ratio estimator Beispiel: Schätzung der Anzahl Objekte (Bäume) in einem bestimmten Gebiet. Situation: Die Fläche ist unterteilt in Streifen / Transekte. Man wählt zufällig n =

Mehr

4. Das multiple lineare Regressionsmodell

4. Das multiple lineare Regressionsmodell 4. Das multiple lineare Regressionsmodell Bisher: 1 endogene Variable y wurde zurückgeführt auf 1 exogene Variable x (einfaches lineares Regressionsmodell) Jetzt: Endogenes y wird regressiert auf mehrere

Mehr

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Wiederholung Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte

Mehr

Strukturgleichungsmodellierung

Strukturgleichungsmodellierung Strukturgleichungsmodellierung FoV Methodenlehre FSU-Jena Dipl.-Psych. Norman Rose Parameterschätzung, Modelltest & Fit Indizes bei SEM Forschungsorientierte Vertiefung - Methodenlehre Dipl.-Psych. Norman

Mehr

3. Das einfache lineare Regressionsmodell

3. Das einfache lineare Regressionsmodell 3. Das einfache lineare Regressionsmodell Ökonometrie: (I) Anwendung statistischer Methoden in der empirischen Forschung in den Wirtschaftswissenschaften Konfrontation ökonomischer Theorien mit Fakten

Mehr

> library(nlme) > fit <- lme(y ~ 1, random = ~1 id, data = sim.y.long) > summary(fit)

> library(nlme) > fit <- lme(y ~ 1, random = ~1 id, data = sim.y.long) > summary(fit) Übungsblatt Analyse longitudinaler Daten und Zeitreihen SoSe 007 Donna Pauler Ankerst, Ulrich Mansmann, Volkmar Henschel, Michael Höhle Übung: Montag 0..007 Aufgabe 1 (Mixed Model Simulation) In dieser

Mehr

Vorlesung 4: Spezifikation der unabhängigen Variablen

Vorlesung 4: Spezifikation der unabhängigen Variablen Vorlesung 4: Spezifikation der unabhängigen Variablen. Fehlspezifikation der unabhängigen Variablen. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der

Mehr