Lineare Regression 2: Gute Vorhersagen
|
|
|
- Albert Haupt
- vor 7 Jahren
- Abrufe
Transkript
1 Lineare Regression 2: Gute Vorhersagen Markus Kalisch
2 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation Y kategoriell VL 3 Exkurse: VL 8 (Poweranalyse), VL 9 & 10 (Experimentelles Design), VL 13 (Fehlende Werte, Reproduzierbarkeit) Markus Kalisch
3 Ziele: Vorhersage vs. Inferenz Vorhersage: Hintergründe egal (Black box) - Gegeben die Blutwerte: Verträgt der Patient das Medikament? - Wie viele Kunden wollen neues Produkt? Möglichst komplexes Modell, um alle Details zu erfassen Inferenz: Hintergründe verstehen - Durchschnittliche Kassierzeit pro Produkt? - Gibt es einen Zshg zw Dosis und Heilungswa.? Möglichst einfaches Modell, um interpretieren zu können Lineare Regression: Guter Kompromiss werden uns weiter damit beschäftigen Fokus heute: Vorhersage Markus Kalisch
4 Wdh: Bias und Varianz eines Schätzers Schätzer Θ, wahrer Parameter Θ Je nach beobachteten, zufälligen Daten: Θ variiert Bias (B) von Θ: E( Θ Θ) Varianz (V) von Θ: Var Θ = E Θ Θ 2 B V V B Markus Kalisch
5 Wdh: Güte vom Modell Residuen = Vertikaler Abstand zw. Punkt und Linie R i = y i ( β 0 + β 1 x i ) R 18 = -27 R 1 = 4 Residual Sum of Squares (RSS): RSS = n i=1 R i 2 Mean Squared Error (MSE): MSE = RSS n
6 Training MSE vs.test MSE Training Daten: Bisher gesehene Daten Test Daten: Neue, zukünftige Daten Training MSE: Fehler auf bisher gesehenen Daten Test MSE: Fehler auf zukünftigen Daten Bisher: Gesehenes gut erklären - Modellklasse wählen (z.b. Geradengleichung) - Parameter finden, so dass Trainings MSE minimal Neues Ziel: Zukünftige Daten gut erklären Modell finden, so dass Test MSE minimal 6
7 Bias-Variance Trade-Off Training MSE: Kann beliebig klein gemacht werden, wenn wir nur genügend Parameter verwenden Test MSE: Selbst wenn wir f(x) perfekt schätzen, stört der Fehlerterm ε unsere Vorhersage (Eq. 2.7): Erwartetes Residuenquadrat an Stelle x 0 im Testset: E y 0 f x 0 2 = Var f x 0 + Bias f x Var ε Test MSE: Mittelwert von E y 0 f x 0 von x 0 im Testset. perfekter Fit von f(x): Test MSE = Var(ε) > 0 Fazit: Training MSE Test MSE 2 über alle möglichen Werte Markus Kalisch
8 Training MSE Test MSE Y = f x + ε Schwarze Kurve: f(x) Welche Kurve beschreibt - Training MSE - Test MSE? Markus Kalisch
9 Paradox: Overfitting Paradox: Modell das die bisherigen Daten am besten beschreibt (minmaler Training MSE) ist nicht unbedingt das beste für zukünftige Daten (minimaler Test MSE)! Y = f x + ε f x meist glatt Perfekter Fit auf Trainings-Daten modelliert v.a. Fehlerterm, der bei zukünftigen Daten anders sein wird. Markus Kalisch
10 Fazit Um gute Vorhersagen zu machen, müssen wir den Test MSE minimieren Um den Test MSE zu minimieren reicht es NICHT den Training MSE zu minimieren Markus Kalisch
11 Wie schätzt man den Test MSE? Direkte Methoden - Test Datensatz - Cross-validation (CV) Indirekte Methoden: C p, AIC, BIC, Adjusted R 2 - Korrektur vom Training MSE - Approximation von direkter Methode - Schnell: Gut, wenn viele oder aufwändige Modelle zu schätzen sind Markus Kalisch
12 Direkte Methode 1: Expliziter Test Datensatz Teile Daten in Test- und Trainingsdatensatz Schätze Modell auf Trainingsdatensatz, evaluiere auf Testdatensatz Vorteil: Einfach, schnell Training Test Nachteil: - Je nach Wahl vom Testdatensatz: Unterschiedlicher MSE - Trainingsdatensatz kleiner als Originaldatensatz Test MSE wird überschätzt Markus Kalisch
13 Direkte Methode 2: Cross-Validation (CV) Leave-one-out cross-validation (LOOCV): Jede Zeile ist einmal Testset; Rest ist Trainingsset Nachteil: Langsam, weil ein Fit pro Zeile K-fold cross-validation, z.b. 10-fold: Teile Daten in 10 Blöcke; jeder Block ist einmal Testset Nachteil: Je nach Unterteilung in K Blöcke unterschiedliches Test MSE Markus Kalisch
14 Cross-Validation in R Grundsätzlich funktioniert CV für alle erdenklichen Vorhersagemethoden Für Lineare Modelle (und sogar GLM s) gibt es eine besonders einfache Funktion: cv.glm() in package boot Wdh: Lineare Modelle sind eine Unterklasse der Generalized Linear Models (GLMs) Damit kann man sowohl LOOCV als auch k-fold CV durchführen Markus Kalisch
15 Indirekte Methoden: Hintergrund Kriterium K, das Güte vom Fit (RSS) und Anzahl Parameter (d) verbindet: K = RSS + f(d) Theorie: Unter gewissen Annahmen und bei sehr grossen Datensätzen (asymptotisch) gilt: Modell mit bestem K ist optimal für Vorhersage Vorteil: Schnell zu rechnen Nachteil: Approximativ; macht Annahmen; Test MSE nicht berechnet Praxis: Verwenden, falls viele oder komplizierte Modelle geschätzt werden müssen Markus Kalisch
16 Indirekte Methoden: Überblick Je nach theo. Annahmen, leicht andere Form von K (d: Anz. Parameter im Modell, n: Anz. Beobachtungen) C p = 1 n (RSS + 2d σ2 ) AIC = 1 n σ 2 (RSS + 2d σ2 ) BIC = 1 n (RSS + log(n)d σ2 ) Adjusted R 2 = 1 RSS n d 1 TSS n 1 (TSS: Total sum of squares) Praxis: Willkürlich für eine Methode entscheiden (z.b. BIC) Markus Kalisch
17 Modellwahl Fokus 1: Finde Modell, das möglichst kleinen Vorhersagefehler hat Fokus 2: Finde Variablen, die für gute Vorhersage nötig sind Könnten CV verwenden (s. ISL 6.5.3); wir konzentrieren uns aber auf indirekte Methoden: Einfacher und schneller Faustregel für die Praxis: - Test MSE mit CV (direkte Methode) - Modellwahl mit BIC (indirekte Methode) Markus Kalisch
18 Bsp: Gehalt von Baseball Spielern Erkläre Gehalt ( Salary ) von Baseball Spielern mit erklärenden Variablen in der Saison 86/87 Datensatz Hitters im package ISLR Markus Kalisch
19 Techniken zur Modellwahl 1: Exakt Berechne eine Lineare Regression für alle möglichen Kombinationen von erklärenden Variablen; speichere BIC Vorteil: Findet bestes Subset bzgl. BIC Nachteil: Rechenaufwand! p Variablen 2 p Subsets p 2 p In der Praxis kaum mehr zu berechnen Markus Kalisch
20 Techniken zur Modellwahl 2: Heuristiken Wie Bergwanderung im Nebel: Gehe immer nach oben man landet evtl. auf Zwischengipfel Verfehlen evtl. globales Optimum Stepwise forward : Starte mit dem leeren Modell; füge immer eine Variable hinzu Stepwise backward : Start mit dem vollen Modell; lasse immer eine Variable weg Markus Kalisch
21 RSS oder BIC? Angenommen, wir haben 20 Variablen zur Auswahl. Wir wollen das beste (bzgl. Vorhersage) Modell mit genau 5 Variablen finden. Sollten wir als Gütekriterium RSS oder BIC verwenden? RSS produziert das bessere Modell. BIC produziert das bessere Modell. RSS und BIC produzieren das gleiche Modell. Markus Kalisch
22 Bsp: Stepwise forward selection Variablen: Y, X1, X2, X3 M1: Y ~ 1 BIC = 20 Bestes Modell mit einer Variable: M2: Y~X2 BIC = 17, also besser Bestes Modell mit X2 und noch einer Variable: M3: Y~X2 + X1 BIC = 18, also schlechter als M2 Stop Ausgabe: Bestes Modell ist Y~X2. Markus Kalisch
23 Bsp: Stepwise backward selection Variablen: Y, X1, X2, X3 M1: Y ~ X1 + X2 + X3 BIC = 20 Bestes Modell mit einer Variable weniger: M2: Y~X2 + X3 BIC = 17, also besser als M1 Bestes Modell mit einer Variable weniger als X2, X3: M3: Y~X2 BIC = 18, also schlechter als M2 Stop Ausgabe: Bestes Modell ist Y~X2. Markus Kalisch
24 Modellwahl in R Funktion regsubsets in Paket leaps ; berechnet sowohl exakt als auch mit Heuristiken Definition von BIC in leaps : BIC = 1 RSS + log n d σ2 n finde Modell mit minimalem BIC Vorgehen: 1) Für jede Anzahl erklärende Variablen: Finde bestes Subset bzgl. RSS 2) Vergleiche Modelle mit unterschiedlichen Variablenzahlen mit BIC Bemerkung: Falls Anzahl Variablen fix ist, finden RSS und BIC das gleiche optimale Modell Markus Kalisch
Logistische Regression
Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation
Einfache lineare Regression. Statistik (Biol./Pharm./HST) FS 2015
Einfache lineare Regression Statistik (Biol./Pharm./HST) FS 2015 Wdh: Korrelation Big picture: Generalized Linear Models (GLMs) Bisher: Population wird mit einer Verteilung beschrieben Bsp: Medikament
Statistisches Lernen
Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28
Mixed Effects Models: Wachstumskurven
Mixed Effects Models: Wachstumskurven Markus Kalisch 07.10.2014 1 Überblick Wiederholte Messungen (z.b. Wachstumskurven): Korrelierte Beobachtungen Random Intercept Model (RI) Random Intercept and Random
Lineare Regression 1 Seminar für Statistik
Lineare Regression 1 Seminar für Statistik Markus Kalisch 17.09.2014 1 Statistik 2: Ziele Konzepte von einer breiten Auswahl von Methoden verstehen Umsetzung mit R: Daten einlesen, Daten analysieren, Grafiken
ANalysis Of VAriance (ANOVA) 2/2
ANalysis Of VAriance (ANOVA) 2/2 Markus Kalisch 22.10.2014 1 Wdh: ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor X). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich
Least Absolute Shrinkage And Seletion Operator (LASSO)
Least Absolute Shrinkage And Seletion Operator (LASSO) Peter von Rohr 20 März 2017 Lineare Modell und Least Squares Als Ausgangspunkt haben wir das Lineare Modell und Least Squares y = Xβ + ɛ (1) ˆβ =
X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
Das Lineare Regressionsmodell
Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines
Kategorielle Daten. Seminar für Statistik Markus Kalisch
Kategorielle Daten Markus Kalisch 1 Phase 3 Studie: Wirksamer als Placebo? Medikament Placebo Total Geheilt 15 9 24 Nicht geheilt 10 11 21 Total 25 20 45 Grundfrage: Sind Heilung und Medikamentengabe unabhängig?
Schätzung im multiplen linearen Modell VI
Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,
2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)
2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme) Annahme A1: Im multiplen Regressionsmodell fehlen keine relevanten exogenen Variablen und die benutzten exogenen Variablen x 1,
Seminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
Varianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
Übung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
Variablen Selektion beste Volles Modell
Variablen Selektion Wähle das beste Modell aus einer Klasse von MLR s. Volles Modell enthält alle m möglicherweise erklärenden Größen (Prädiktoren) Suche nach dem besten Modell, das nur eine Teilmenge
Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse
Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon im Tutorium LiMo2.pdf laden wir den GSA Datensatz R> load("gsa.rda") und wählen
Vorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse)
Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse) Seminar für Statistik Markus Kalisch 25.11.2014 1 Unsupervised Learning Supervised Learning: Erkläre Zielgrösse durch erklärende Variablen
Thilo Moseler Bern,
Bern, 15.11.2013 (Verallgemeinerte) Lineare Modelle Stärken Schwächen Fazit und persönliche Erfahrung 2 i-te Beobachtung der zu erklärenden Variablen Yi ist gegeben durch Linearkombination von n erklärenden
ANalysis Of VAriance (ANOVA) 1/2
ANalysis Of VAriance (ANOVA) 1/2 Markus Kalisch 16.10.2014 1 ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich)?
Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.
Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen? Lineare Regression
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
Schweizer Statistiktage, Aarau, 18. Nov. 2004
Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der
Modellwahlverfahren für Proxy-Modelle im Kontext von Solvency II
Modellwahlverfahren für Proxy-Modelle im Kontext von Solvency II Benjamin Reichenwallner FB Mathematik, Universität Salzburg 12. November 2014 Benjamin Reichenwallner Modellwahlverfahren 12. November 2014
Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).
Aufgabe 1 (5 Punkte) Gegeben sei ein lineares Regressionsmodell in der Form. Dabei ist y t = x t1 β 1 + x t β + e t, t = 1,..., 10 (1) y t : x t1 : x t : Teekonsum in den USA (in 1000 Tonnen), Nimmt den
Gegenüberstellung alternativer Methoden zur Variablenselektion
Gegenüberstellung alternativer Methoden zur Variablenselektion Reinhard Strüby, Ulrich Reincke SAS Deutschland Business Competence Center Analytical Solutions Copyright 2004, SAS Institute Inc. All rights
3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer
3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich
Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016
ETH Zürich D-USYS Institut für Agrarwissenschaften Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016 Peter von Rohr Datum 30. Mai 2016 Beginn 08:00 Uhr Ende 08:45
Kurs Empirische Wirtschaftsforschung
Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische
1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
Einführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann.
Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09 Dr Sylvia Kaufmann Februar 2009 Angewandte Ökonometrie, Sylvia Kaufmann, FS09 1 1 Gliederung Zeitreihenökonometrie Einführung
Strukturgleichungsmodellierung
Strukturgleichungsmodellierung FoV Methodenlehre FSU-Jena Dipl.-Psych. Norman Rose Parameterschätzung, Modelltest & Fit Indizes bei SEM Forschungsorientierte Vertiefung - Methodenlehre Dipl.-Psych. Norman
BZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
Multiple Lineare Regression (Forts.) Residualanalyse (1)
6. Multivariate Verfahren Lineare Regression Multiple Lineare Regression (Forts.) Residualanalyse (1) Studentisierte Residuen (Option R) r i = e i s 1 h ii e i = y i ŷ i (Residuen) sind korreliert, var
13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017
13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl
Die Funktion f wird als Regressionsfunktion bezeichnet.
Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
Wiederholung. Seminar für Statistik
Wiederholung 17.12.2014 1 Prüfung: 2 Kohorten 2 Kohorten alphabetisch nach Nachname sortiert: Kohorte 1: A bis und mit Müller Kohorte 2: Müllhaupt bis und mit Z 17.12.2014 2 Prüfung: 2 Kohorten Kohorte
Lineare Modelle in R: Klassische lineare Regression
Lineare Modelle in R: Klassische lineare Regression Achim Zeileis 2009-02-20 1 Das Modell Das klassische lineare Regressionsmodell versucht den Zusammenhang zwischen einer abhängigen Variablen (oder Responsevariablen)
Auswertung und Lösung
Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden
Feature Selection / Preprocessing
1 Feature Selection / Preprocessing 2 Was ist Feature Selection? 3 Warum Feature Selection? Mehr Variablen führen nicht automatisch zu besseren Ergebnissen. Lernen von unwichtigen Daten Mehr Daten notwendig
Fortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) Annahme B4: Die Störgrößen u i sind normalverteilt, d.h. u i N(0, σ 2 ) Beispiel: [I] Neoklassisches Solow-Wachstumsmodell Annahme einer
6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
Statistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm
y Aufgabe 3 Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6 a) Zur Erstellung des Streudiagramms zeichnet man jeweils einen Punkt für jedes Datenpaar (x i, y i ) aus der zweidimensionalen
Proxies, Endogenität, Instrumentvariablenschätzung
1 4.2 Multivariate lineare Regression: Fehler in den Variablen, Proxies, Endogenität, Instrumentvariablenschätzung Literatur: Wooldridge, Kapitel 15, Appendix C.3 und Kapitel 9.4 Wahrscheinlichkeitslimes
Beispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft
Prof. Dr. Marc Gürtler WS 015/016 Prof. Dr. Marc Gürtler Klausur zur 10/1 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Lösungsskizze Prof. Dr. Marc Gürtler WS 015/016 Aufgabe 1: (11+5+1+8=56
Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015
Hypothesentests für Erwartungswert und Median Statistik (Biol./Pharm./HST) FS 2015 Normalverteilung X N μ, σ 2 X ist normalverteilt mit Erwartungswert μ und Varianz σ 2 pdf: pdf cdf:??? cdf 1 Zentraler
Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität
Kapitel 0 Multikollinearität Exakte Multikollinearität Beinahe Multikollinearität Exakte Multikollinearität Unser Modell lautet y = Xb + u, Dimension von X: n x k Annahme : rg(x) = k Wenn sich eine oder
Deskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Lineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
1. Lösungen zu Kapitel 7
1. Lösungen zu Kapitel 7 Übungsaufgabe 7.1 Um zu testen ob die Störterme ε i eine konstante Varianz haben, sprich die Homogenitätsannahme erfüllt ist, sind der Breusch-Pagan-Test und der White- Test zwei
Die Stochastischen Eigenschaften von OLS
Die Stochastischen Eigenschaften von OLS Das Bivariate Modell Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Wiederholung
10 ARIMA-Modelle für nicht-stationäre Zeitreihen
10 ARIMA-Modelle für nicht-stationäre Zeitreihen In diesem Abschnitt untersuchen wir einige praktische Aspekte bei der Wahl eines geeigneten Modells für eine beobachtete Zeitreihe X 1,...,X n. Falls die
Empirische Wirtschaftsforschung
Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 6.. Herleitung des OLS-Schätzers
Zusammenfassung 11. Sara dos Reis.
Zusammenfassung 11 Sara dos Reis [email protected] Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt
Statistik II Übung 2: Multivariate lineare Regression
Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden
Bachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
Frequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
Naive Bayes für Regressionsprobleme
Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt
Grundlagen zu neuronalen Netzen. Kristina Tesch
Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen
Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben
Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Mikroökonometrie im Sommersemester 014 Aufgaben Vorbemerkungen: Anzahl der Aufgaben: Bewertung:
6.4 Kointegration Definition
6.4 Kointegration 6.4.1 Definition Nach Engle und Granger (1987): Wenn zwei oder mehrere Variablen I(1) sind, eine Linearkombination davon jedoch I() ist, dann sind die Variablen kointegriert. Allgemein:
Statistische Methoden
Modeling of Data / Maximum Likelyhood methods Institut für Experimentelle und Angewandte Physik Christian-Albrechts-Universität zu Kiel 22.05.2006 Datenmodellierung Messung vs Modell Optimierungsproblem:
Statistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
Wichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Analytics Entscheidungsbäume
Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering
Teil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
Statistik II Übung 1: Einfache lineare Regression
Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der
Korollar 116 (Grenzwertsatz von de Moivre)
Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgrößen Bernoulli-verteilt sind. Korollar 116 (Grenzwertsatz von de Moivre) X 1,..., X n seien unabhängige
7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
Inferenz im multiplen Regressionsmodell
1 / 40 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 2 Ökonometrie I Michael Hauser 2 / 40 Inhalt ANOVA, analysis of variance korrigiertes R 2, R 2 F-Test F-Test bei linearen Restriktionen Erwartungstreue,
Die Regressionsanalyse
Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige
Eine Einführung in R: Hochdimensionale Daten: n << p Teil II
Eine Einführung in R: Hochdimensionale Daten: n
