9. Lineare Regression

Ähnliche Dokumente
Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Vorlesung: Statistik II für Wirtschaftswissenschaft

Prognoseintervalle für y 0 gegeben x 0

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Eine Einführung in R: Das Lineare Modell

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Vorlesung: Lineare Modelle

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Musterlösung. Modulklausur Multivariate Verfahren

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

Teil: lineare Regression

Übung V Lineares Regressionsmodell

Kurs Empirische Wirtschaftsforschung

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Lineare Modelle in R: Klassische lineare Regression

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Lineare Regression in R, Teil 1

4. Das multiple lineare Regressionsmodell

Tests einzelner linearer Hypothesen I

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Kapitel 4: Binäre Regression

Lineare Regression (Ein bisschen) Theorie

Bivariate Zusammenhänge

Schriftliche Prüfung (90 Minuten)

Multivariate Verfahren

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Das einfache lineare Regressionsmodell

Empirische Analysen mit dem SOEP

Lösung Übungsblatt 5

1 Gemischte Lineare Modelle

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Analyse von Querschnittsdaten. Signifikanztests I Basics

Lineare Regression mit einem Regressor: Einführung

Diagnostik von Regressionsmodellen (1)

Auswertung und Lösung

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Eine Einführung in R: Varianzanalyse

Eine Einführung in R: Lineare Regression

1 Beispiel zur Methode der kleinsten Quadrate

Statistik II. Regressionsanalyse. Statistik II

2. Ein Zufallsvektor X IR d ist multivariat normal verteilt dann und nur dann wenn seine charakteristische Funktion folgendermaßen gegeben ist:

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Prof. Dr. Fred Böker

Statistische Eigenschaften der OLS-Schätzer, Residuen,

Regressionsanalyse in R

Tutorial: Regression Output von R

Das Lineare Regressionsmodell

Die Regressionsanalyse

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

2. Stochastische ökonometrische Modelle. - Modelle der ökonomischen Theorie an der Wirklichkeit überprüfen

3 Grundlagen statistischer Tests (Kap. 8 IS)

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

6.2 Lineare Regression

1 Einführung Ökonometrie... 1

Regression und Korrelation

Mathematische Statistik Aufgaben zum Üben. Schätzer

Inferenz im multiplen Regressionsmodell

Lineare Regression II

Vorlesung 8a. Kovarianz und Korrelation

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Einführung in die Statistik

Statistik Vorlesung 7 (Lineare Regression)

Mehrfache und polynomiale Regression

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Statistik II für Betriebswirte Vorlesung 12

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

1 Erwartungswert und Kovarianzmatrix von Zufallsvektoren

> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Statistik, Datenanalyse und Simulation

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Die Familie der χ 2 (n)-verteilungen

Multivariate Verteilungen

Statistik II Übung 1: Einfache lineare Regression

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Transkript:

9. Lineare Regression y 3.0 3.5 4.0 4.5 0.0 0.2 0.4 0.6 0.8 1.0 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 1 / 40 x

KQ-Schätzung Es ist eine Gerade y = β 1 + β 2 x gesucht, welche die Punktwolke in der Abbildung bestmöglichst approximiert. Dazu betrachten wir eine bivariate Zufallsvariable (Y, X ) mit Beobachtungen (y i, x i ), i = 1,..., n und definieren den Schätzer für die Parameter der Gerade als ( ˆβ 1, ˆβ 2 ) = argmin β 1,β 2 n (y i β 1 β 2 x i ) 2. i=1 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 2 / 40

KQ-Schätzung Dieser Schätzer ( ˆβ 1, ˆβ 2 ) heißt (aus offensichtlichen Gründen) Kleinster-Quadrate-Schätzer und repräsentiert diejenige Gerade durch die Punktwolke, welche den quadratischen vertikalen Abstand jeder Beobachtung zur Geraden minimiert. Andere Kriterien sind denkbar, wie etwa ( ˆβ 1, ˆβ 2 ) = argmin β 1,β 2 n y i β 1 β 2 x i. i=1 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 3 / 40

Zielgröße Y = Y 1 Y 2. Y n Rn Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 4 / 40

Einflussgrößen X j = X j 1 X j 2. X j n, j = 1,..., k welche wir in einer Matrix X = (X 1, X 2,..., X k ) R n,k aggregieren. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 5 / 40

Modellparameter Die Parameter der Geraden (k = 1) bzw. Hyperebenen (k > 2) sind durch β 1 β 2 β =. Rk β k gegeben und wir betrachten das Modell Y = Xβ. Gesucht ist nach dem Kriterium der Kleinsten Quadrate ein Schätzer ˆβ, sodass Y X ˆβ 2 Y Xβ 2 β R k. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 6 / 40

KQ-Schätzung Sei der Rang von X gleich k. Dann gilt: ˆβ = argmin Y Xβ = (X X) 1 X Y β Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 7 / 40

KQ-Schätzung y 3.0 3.5 4.0 4.5 0.2 0.4 0.6 0.8 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 8 / 40 x

Das Lineare Regressionsmodell Das Modell Y = Xβ + U heißt lineares Regressionsmodell. Dabei ist U 1 U 2 U =. Rn U n ein n-dimensionaler Zufallsvektor. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 9 / 40

Eigenschaften gegeben sind mehrere stetige Merkmale Y, X 1,..., X k X 1,..., X k verursachen Y und nicht umgekehrt der Zusammenhang ist linear, also Y i = k j=1 β jx j i + U i die X -Variablen heißen unabhängige Variable, Regressoren, exogene Variable oder Design-Variable die Y -Variable heißt abhängige Variable, Regressant, endogene Variable oder Response-Variable U sind nicht beobachtbare Störgrößen. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 10 / 40

Annahmen Zudem treffen wir vier Annahmen: A1) X ist eine feste (nicht zufällige) n k Matrix mit vollem Spaltenrang, also Rang(X) = k. A2) U ist ein Zufallsvektor mit E(U) = (E(U 1 ), E(U 2 ),..., E(U n )) = 0. A3) Die Komponenten von U sind paarweise unkorreliert und haben alle die gleiche Varianz σ 2, formal: Cov(U) = σ 2 I n. A4) U N(0, σ 2 I n ) Hinweis: Aus Annahme A4) folgt A2) und A3). Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 11 / 40

Körperfettmessung Garcia et al. (2005, Obesity Research) untersuchten n = 71 Frauen und erhoben (unter anderem) k = 5 Einflussgrößen (Alter, Bauchumfang, Hüftumfang, Ellenbogenbreite und Kniebreite), um deren Einfluss auf die Zielgröße, den Körperfettanteil gemessen mittels Dual Energy X-Ray Absorptiometry (DXA), zu untersuchen. Es stellen sich folgende Fragen: Welche der unabhängigen Variablen haben tatsächlich einen Einfluss auf den Körperfettanteil? Welche haben einen positiven und welche einen negativen Einfluss? Kann man aus den unabhängigen Variablen auf den Körperfettanteil schließen? Diese Fragen können mittels eines linearen Regressionsmodells beantwortet werden. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 12 / 40

Körperfettmessung 10 20 30 40 50 60 DEXfat 20 30 40 50 60 10 20 30 40 50 60 age DEXfat 70 80 90 100 110 10 20 30 40 50 60 waistcirc DEXfat 90 100 110 120 130 10 20 30 40 50 60 hipcirc DEXfat 5.5 6.0 6.5 7.0 10 20 30 40 50 60 elbowbreadth DEXfat 8 9 10 11 10 20 30 40 50 60 kneebreadth DEXfat Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 13 / 40

Geschätzte β-koeffizienten Model (Intercept) age waistcirc hipcirc elbowbreadth -59.5732 0.0638 0.3204 0.4340-0.3012 kneebreadth 1.6538 Interpretation der geschätzten Parameter: Intercept: Wenn alle anderen Kovariablen gleich 0 sind, beträgt der Körperfettanteil durchschnittlich β 0 = 59.5732 (oft nicht sinnvoll interpretierbar). Begründung: Lineares Modell als (geschätzten) bedingten Erwartungswert betrachten: E(Y i X i = x i ) = β 0 + β 1 x 1 +... + β k x k E(Y i X i = 0) = β 0 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 14 / 40

Interpretation der β-koeffizienten - Fortsetzung Kovariablen: Erhöht sich die Kovariable (X j ) um eine Einheit, so erhöht sich die Zielvariable (Y ) durchschnittlich um β j Einheiten, wenn alle anderen Kovariablen gleich bleiben. z.b. Alter: Steigt das Alter um ein Jahr, so erhöht sich der durchschnittliche Körperfettanteil um β 1 = 0.0638, bei konstanthalten aller anderen Kovariablen. Begründung: Erhöhung der Kovariable x j um 1 bedeutet: β 0 + β 1 x 1 +... + β j (x j + 1) +... + β k x k = β 0 + β 1 x 1 +... + β j x j + β j 1 +... + β k x k = E(Y i X i = x i ) + β j = E(Y i + β j X i = x i ) Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 15 / 40

Eigenschaften der KQ-Methode Unter A1, A2 und A3 ist ˆβ ein erwartungstreuer Schätzer für β mit Kovarianzmatrix Cov( ˆβ) = σ 2 (X X) 1. Sei Y R n ein beliebiger Zufallsvektor mit E(Y ) = (E(Y 1 ),..., E(Y n )) und Var(Y 1 ) Cov(Y 1, Y 2 ) Cov(Y 2, Y 1 ) Var(Y 2 ) Cov(Y 2, Y 3 ) Cov(Y ) =....... Var(Yn) mit Cov(Y ) = Cov(Y ) = E((Y E(Y ))(Y E(Y )) ). Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 16 / 40

Eigenschaften der KQ-Methode Es gilt 1 Cov(Y ) is positiv semidefinit 2 E(AY ) = AE(Y ) 3 Cov(AY ) = ACov(Y )A Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 17 / 40

Lineare Funktionen Unter Umständen sind wir an Linearkombinationen des Parametervektors β interessiert (welche auch Kontraste genannt werden). Sei c R k ein Vektor von Konstanten. Dann ist c ˆβ eine erwartungstreue Schätzung von c β mit Kovarianzmatrix σ 2 c (X X) 1 c. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 18 / 40

Optimalität der KQ-Methode Ein Schätzer β heißt linear, wenn eine Matrix C R k,n existiert, sodass β = CY. Gauß-Markov-Theorem: Unter A1-A3 gilt: 1 ˆβ ist der beste lineare erwartungstreue Schätzer (BLUE) für β, d.h. Cov( ˆβ) Cov( β) im Sinne der Löwner-Halbordnung (d.h. Cov( β) Cov( ˆβ) psd). 2 BLUE ist eindeutig. Desweiteren: Unter A1-A3 ist c ˆβ der BLUE für c β. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 19 / 40

Prognose mit KQ Gegeben sei Y und X 1,..., X k mit Beobachtungen (y i, x i = (x 1 i,..., xk i )), i = 1,..., n sowie x n+1. Gesucht sei y n+1. Bekannt ist, dass Y n+1 = x n+1 β + U n+1. Da die Störgrößen U nicht beobachtbar sind, jedoch per Annahme einen Erwartungswert gleich 0 haben, schätzen wir Ŷ n+1 = x n+1 ˆβ. Es gilt: Unter A1-A3 ist E(Ŷ n+1 Y n+1 ) = 0. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 20 / 40

Körperfettmessung Für die 45jährige Emma mit Bauchumfang 90cm, Hüftumfang 110cm, Ellenbogenbreite 7cm und Kniebreite 10cm ist der vorhergesagte Körperfettanteil: E(Y Emma X i = x Emma ) = β 0 + β 1 45 +... + β 5 10 = [,1] [1,] 34.30292 mit den folgenden verwendeten β-koeffizienten: age waistcirc hipcirc elbowbreadth -59.5732 0.0638 0.3204 0.4340-0.3012 kneebreadth 1.6538 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 21 / 40

Schätzung von Varianz und Kovarianz Es fehlen noch Schätzer für σ 2 und Cov( ˆβ). Dazu betrachten wir die Residuen Û = Y X ˆβ als Ersatz für die nicht beobachtbaren Störgrößen U. 1 Û = MY = MU mit M = diag(n) H, wobei die sogenannte Hat-Matrix H gegeben ist durch H = X(X X) 1 X und Ŷ = HY (H setzt dem Y den Hut auf). 2 M ist orthogonaler Projektor mit Rang (gleich Spur) n k. Unter A1-A3 gilt ˆσ 2 = Û Û n k ist eine erwartungstreue Schätzung für σ 2. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 22 / 40

Kovarianzschätzung Damit können wir also auch die Kovarianzmatrix Cov( ˆβ) schätzen, und zwar als ˆσ 2 (X X) 1. Desweiteren ist es möglich, die geschätzten Koeffizienten zu standardisieren, um sie miteinander vergleichen zu können: ˆβ j ˆσ diag((x X) 1 ) Im Beispiel Körperfettmessung ergeben sich die folgenden standardisierten Regressionskoeffizienten: (Intercept) age waistcirc hipcirc elbowbreadth -7.0471 1.7061 4.3469 4.5365-0.2474 kneebreadth 1.9178 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 23 / 40

Annahme normalverteilter Fehler (A4) Eigenschaften der (multivariaten) Normalverteilung: Eine n-dimensionale Zufallsvariable Z folgt einer multivariaten Normalverteilung mit Erwartungswertvektor µ R n und Kovarianzmatrix Σ R n,n (symmetrisch und pd), symbolisch Es gilt Z N (µ, Σ). 1 Z N (µ, Σ) E(Z) = µ, Cov(Z) = Σ und Z i N (µ i, Σ ii ). 2 Sei A R p,n mit Rang gleich p und b R p, dann AZ + b N (Aµ + b, AΣA ). 3 Die Komponenten von Z sind stochastisch unabhängig Σ = diag(σ 2 ii ). 4 A R p,n, B R q,n, AΣB = 0 AZ, BZ sind stochastisch unabhängig. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 24 / 40

Annahme normalverteilter Fehler (A4) II KQ- und Varianzschätzung: Es gilt Y = Xβ + U N (Xβ, σ 2 diag(n)) ˆβ = (X X) 1 X Y N (β, σ 2 (X X) 1 ) Unter A1 - A4 sind ˆβ und ˆσ 2 stochastisch unabhängig. Unter A1 - A4 ist ˆβ die ML-Schätzung für β. Unter A1 - A4 ist ˆσ 2 ML = Û Û/n die ML-Schätzung für σ 2. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 25 / 40

Konfidenzintervalle und Tests für β Wir möchten nun Hypothesen der Form H 0 : d β = 0 vs. H 1 : d β 0 testen oder Konfidenzintervalle für den Parameter d β herleiten. Dabei ist d R k beliebig. Unter A1 - A4 gilt d ˆβ d β ˆσ 2 d (X X) 1 d t n k, wobei t n k die t-verteilung mit n k Freiheitsgraden bezeichnet. Damit lautet die Testentscheidung: Lehne H 0 ab, wenn T = d ˆβ ˆσ 2 d (X X) 1 d > t n k,1 α/2 und ein (1 α) 100% Konfidenzintervall für d β ist d ˆβ ± t n k,1 α/2 ˆσ 2 d (X X) 1 d. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 26 / 40

Körperfettmessung Jetzt können wir für jede der Einflussgrößen die Teststatistik ausrechnen, dabei ist d der j-te Einheitsvektor, sodass d β = β j : (Intercept) age waistcirc -7.0471 1.7061 4.3469 hipcirc elbowbreadth kneebreadth 4.5365-0.2474 1.9178 und die zweiseitigen P-Werte aus der t-verteilung ablesen (Intercept) age waistcirc 0.0000 0.0928 0.0000 hipcirc elbowbreadth kneebreadth 0.0000 0.8054 0.0595 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 27 / 40

Körperfettmessung Call: lm(formula = DEXfat ~ age + waistcirc + hipcirc + elbowbreadth + kneebreadth, data = bodyfat) Residuals: Min 1Q Median 3Q Max -9.1782-2.4973 0.2089 2.5496 11.6504 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -59.57320 8.45359-7.047 1.43e-09 *** age 0.06381 0.03740 1.706 0.0928. waistcirc 0.32044 0.07372 4.347 4.96e-05 *** hipcirc 0.43395 0.09566 4.536 2.53e-05 *** elbowbreadth -0.30117 1.21731-0.247 0.8054 kneebreadth 1.65381 0.86235 1.918 0.0595. --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 3.988 on 65 degrees of freedom Multiple R-squared: 0.8789, Adjusted R-squared: 0.8696 F-statistic: 94.34 on 5 and 65 DF, p-value: < 2.2e-16 Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 28 / 40

Körperfettmessung Und auch noch die Konfidenzintervalle 2.5 % 97.5 % (Intercept) -76.45619185-42.6902064 age -0.01088410 0.1385129 waistcirc 0.17321558 0.4676638 hipcirc 0.24291126 0.6249985 elbowbreadth -2.73231557 2.1299704 kneebreadth -0.06842371 3.3760367 Wir sehen also, dass hauptsächlich der Bauch- und Hüftumfang informativ für den Körperfettanteil sind. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 29 / 40

Kategoriale Kovariablen - Dummy-Codierung Bisher: Nur metrische Kovariablen in das Modell aufgenommen Jetzt: Auch Verwendung von Kategoriale Variablen Verwendung der Dummy-Kodierung mit einer Referenzkategorie: Aus einer c-kategorialen Kovariable X kat {1,..., c} entstehen c 1 Dummy-Variablen: X 1 kat { 1, falls X kat = 1 0, sonst,..., X c 1 kat Kategorie c (X kat = c) ist Referenzkategorie. { 1, falls X kat = c 1 0, sonst Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 30 / 40

Kategoriale Variablen im linaren Modell Die Dummy-Variablen aller κ kategorialer Variablen werden als Kovariablen in das Regressionsmodell aufgenommen: Y i = β }{{} 0 + Intercept k j=1 β j X j i }{{} Metrische Kovariablen + Dummy-Variablen {}}{ c κ q 1 β mq X mq kat,i q=1 m=1 }{{} Kategoriale Kovariablen + U i }{{} Störterm Jede Dummy-Variable besitzt ihren eigenen β-koeffizienten. Interpretation: Intercept: β 0 ist der durchschnittliche Wert der abhängigen Variablen in der Referenzkategorie c wenn alle metrischen Variablen 0 sind. Koeffizienten der kategorialen Variablen: β mq beschreibt den Effekt von Kategorie m der kategorialen Variable q im Vergleich zur ihrer Referenzkategorie c q, dies entspricht einer Parallelverschiebung der Regressionsgeraden um β mp. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 31 / 40

Kategoriale Variablen im linearen Modell II 150 100 gamble sex m f 50 0 0 5 10 15 income Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 32 / 40

Interaktion von Variablen Problem: Parallelverschiebungen bietet oft keine gute Anpassung an die Daten (Siehe Graphik auf vorheriger Folie). Lösung: Mehr Flexibilität durch gruppenspezifische Steigungen zulassen (Entspricht Interaktion von Kovariablen) Im Modell mit einer metrischen Variable und einer kategorialen Variable mit c = 2 Kategorien: Y i = β }{{} 0 + β 1 X i 1 }{{} + β kat Xkat,i 1 }{{} Intercept Metrische Kovariable Kategoriale Kovariable + β int Xi 1 X kat,i + }{{} U }{{} i Interaktionsterm Störterm Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 33 / 40

Interaktion von Variablen II 150 100 gamble sex m f 50 0 0 5 10 15 income Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 34 / 40

Modelldiagnose Fragestellung: Sind die Modellannahmen erfüllt? Was tun bei verletzten Annahmen? Diagnose: Möglicher Einfluss von Ausreißern Normalverteilung des Fehlers Implizit auch Annahme konstanter Varianz Betrachten von Diagnoseplots Achtung: Bei echten Daten werden immer Abweichungen vom Ideal beobachtet. Es wird eher nach groben Verletzungen als nach perfekter Übereinstimmung mit der Theorie gesucht. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 35 / 40

Diagnoseplots - Residuals vs. Fitted Residuen Û i = y i ŷ i (y-achse) vs. Fitted values ŷ i (x-achse). Die Punkte sollten gleichmäßig um 0 streuen. Insbesondere ist auf Trichterform zu achten (Verletzung der Annahme konstanter Varianz) und Struktur im Verlauf der Residuen (ggf. nicht-linearer Zshg. y = f (x)) Residuals vs Fitted Residuals 50 0 50 100 36 39 24 0 20 40 60 80 Fitted values Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 36 / 40

Diagnoseplots - Scale-Location Plot Wurzel der absoluten, standardisierten Residuen vs. Fitted values. Es sollte kein Trend zu sehen sein (d.h. die eingezeichnete rote Linie sollte flach sein) Standardized residuals 0.0 0.5 1.0 1.5 2.0 36 Scale Location 0 20 40 60 80 Fitted values lm(gamble ~ income * sex + verbal + status) Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 37 / 40 39 24

Diagnoseplots - Normal QQ-Plot Wenn die Annahmen stimmen, sollten standardisierte Residuen einer Standardnormalverteilung folgen, d.h. die Punkte sollten auf der Diagonalen liegen. Normal Q Q Standardized residuals 2 0 2 4 36 24 39 2 1 0 1 2 Theoretical Quantiles lm(gamble ~ income * sex + verbal + status) Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 38 / 40

Diagnoseplots - Residuals vs. Leverage Liefert Hinweise auf mögliche Ausreißer. Punkte jenseits der 0.5 Höhenlinie sollten näher untersucht werden, Punkte jenseits von 1 sind kritisch. Residuals vs Leverage Standardized residuals 2 0 2 4 24 42 Cook's distance 39 1 1 0.5 0.5 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 Leverage lm(gamble ~ income * sex + verbal + status) Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 39 / 40

Ausblick: Modellierung von dichotomen Y-Variablen - Logit-Modell Y {0, 1} lineares Modell ungeeigenet weil: Wertebereich ist R. Normalverteilungsannahme der Residuen ist verletzt. Idee: Den linearen Prädiktor η = Xβ in den Wertebereich [0, 1] transformieren. Eine mögliche Funktion ist die logistische Funktion: f (η) = 1 1 + exp( η) = exp(η) (0, 1) 1 + exp(η) Damit ergibt sich das logistische Regressionsmodell (Logit-Modell): P(Y i = 1 X = x i ) = exp(x i β) 1 + exp(x i β) Es wird also die Wahrscheinlichkeit für Y = 1, gegeben Kovariablen-Ausprägungen, modelliert. Fabian Scheipl, Bernd Bischl Stochastik und Statistik SoSe 2016 40 / 40