> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Ähnliche Dokumente
Tutorial: Regression Output von R

Regressionsanalyse in R

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Lösung zu Kapitel 11: Beispiel 1

Lineare Modelle in R: Klassische lineare Regression

Eine Einführung in R: Das Lineare Modell

Lineare Modelle in R: Einweg-Varianzanalyse

Entschädigungen von Stiftungsräten

Analysis of Variance (ANOVA) in R

Prüfungsleistung Quantitative Methoden II, WS10/11

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

10. Übung (Korrelation und lineare Regressionsanalyse)

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

6 Korrelation und Regression

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Beipiele zum Üben und Wiederholen Wirtschaftsstatistik 2 (Kurs 3) Lösungen

Finanzmarkttheorie I. Performancemessung in EViews Übungsunterlage. Prof. Dr. Heinz Zimmermann WWZ Uni Basel Frühling 2015

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2012/13. Aufgabe 1

Kovarianz, Korrelation, (lineare) Regression

Statistik für Biologen 1. Fachsemester Mono-Bachelor

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Kap. 12: Regression mit Zeitreihendaten und Prognosemodelle

Ergänzung der Aufgabe "Mindestlöhne" zu einer multiplen Regression

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Lineare Regression. Gebrauchtwagenpreise. Varianzanalyse. Methoden empirischer Sozialforschung. 2 (oder mehr) metrische Variablen.

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX

Statistik Einführung // Lineare Regression 9 p.2/72

Wahrscheinlichkeitsrechnung und Statistik für Biologen Lineare Modelle

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Empirische Softwaretechnik

Musterlösung zu Serie 14

Prof. Dr. Karl-Werner Hansmann

5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models

Einführung in die multiple Regression

Inferenzstatistik Vergleich mehrerer Stichproben - Varianzanalyse

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Kapitel 1 Beschreibende Statistik

Kapitel 4: Binäre Regression

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Gedichtinterpretation und Modellbildung

Statistik II Übung 1: Einfache lineare Regression

Prüfen von Mittelwertsunterschieden: t-test

Analyse von Querschnittsdaten. Signifikanztests I Basics

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean()

III. Prognosen - Teil 1

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Evaluation der Normalverteilungsannahme

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt?

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Statistik Vorlesung 7 (Lineare Regression)

Einfache Varianzanalyse für unabhängige Stichproben

Zur Ermittlung des Verkehrswerts bebauter Grundstücke in Kaiserslautern Axel Krebs 1 Betreuer: Prof. Dr. J. Franke

= = = 3 10 = = 33

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Erwin Grüner

ANalysis Of VAriance (ANOVA) 1/2

Korrelation - Regression. Berghold, IMI

1.6 Der Vorzeichentest

Übungsblatt 7: Schätzung eines Mietspiegels

Bonus-Lektion: Prüfung der Voraussetzungen und Transformationen

2 Anwendungen und Probleme

Stochastische Prozesse und Zeitreihenmodelle

Lineare Regression in R, Teil 2

Einflussfaktoren auf die Macht der Hypothesenprüfung

PROC UNIVARIATE. Starten Sie die Programmzeilen aus dem Beispiel, zeigt SAS im Output-Fenster die Informationen auf der Rückseite:

3. Das einfache lineare Regressionsmodell

DSR Daten, Statistik, Risikobewertung AUSWERTUNG GAHS. Intervention + BMI

1 Die Methode der Kleinsten Quadrate

Varianzanalyse mit Messwiederholungen (Repeated- measures (ANOVA) BiFe noch einmal datasets.zip laden

- Beschreibung der Stichprobe(n-Häufigkeitsverteilung) <- Ermittlung deskriptiver Maßzahlen (Mittelungsmaße, Variationsmaße, Formparameter)

ANalysis Of VAriance (ANOVA) 2/2

Regression mit Faktoren, Interaktionen und transformierten Variablen

Multiple Regression. Statistik II

Log-lineare Analyse I

4. Das multiple lineare Regressionsmodell

Anhang A: Fragebögen und sonstige Unterlagen

R-WORKSHOP II. Inferenzstatistik. Johannes Pfeffer

Angewandte Datenanalyse mit R und R-Stan

Inferenz im multiplen Regressionsmodell

Klausur Datenanalyse und Statistik (WS 2015/16)

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Multidimensionale Paarvergleiche. Experten

Crashkurs Einführung Biostatistik

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

Transkript:

> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings) > # Indexplot der Residuen > plot(savings.lm$res, ylab="residuen", main="index-plot der Residuen") > sort(savings.lm$res)[c(1,50)] # kleinster und größter Wert Chile Zambia -8.2422 9.7509 > # interaktiv: > countries = row.names(savings) > identify(1:50,savings.lm$res,countries) # dann in Bild klicken [1] 7 46

Index Plot der Residuen Residuen 5 0 5 10 Zambia Chile Index

> # Leverage: > lev = hatvalues(savings.lm) # Berechnung der h_i > plot(lev, ylab="leverages", main="index plot") > abline(h = 5/50, lty=2) # Durchschnitt = p/n > abline(h = 2*5/50) # 2p/n > sum(lev) # = p [1] 5 > names(lev) = countries > lev[lev > 0.2] Ireland Japan United States Libya 0.21224 0.22331 0.33369 0.53146 > identify(1:50,lev,countries) # interaktiv [1] 21 23 44 49

Index plot Libya Leverages 0.1 0.2 0.3 0.4 0.5 Ireland Japan United States Index

> # Berechnung der standardisierten (intern studentisierten) Residuen > sigma.hat = summary(savings.lm)$sigma > sigma.hat [1] 3.8027 > res.standard = savings.lm$res/(sigma.hat*sqrt(1-lev)) > plot(res.standard, ylab = "Standardisierte Residuen") > # alternativ direkt mit R-Funktion: > plot(rstandard(savings.lm), ylab = "Standardisierte Residuen") > # Berechnung der Jackknife-Residuen > jack = rstudent(savings.lm) > plot(jack, ylab="jackknife Residuen") > # größter Wert (mit Name) > jack[abs(jack)==max(abs(jack))] Zambia 2.8536 > # kritischer Wert für Ausreißer-Test (Bonferroni-Korrektur) > qt(1-0.05/(50*2),44) [1] 3.5258

Standardisierte Residuen 2 1 0 1 2 Jackknife Residuen 2 1 0 1 2 3 Index Index

> # Berechnung von Cook s distance: > cook = cooks.distance(savings.lm) > plot(cook, ylab="cooks distances") > identify(1:50, cook, countries) [1] 23 46 49

Libya Cooks distances 0.00 0.05 0.10 0.15 0.20 0.25 Japan Zambia Index

> # Vergleich mit und ohne einflußreichste Beobachtung: > savings2.lm <- lm(sr ~ pop15+pop75+dpi+ddpi, data = savings, + subset = (cook < max(cook))) > summary(savings2.lm) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 24.524046 8.224026 2.98 0.0047 ** pop15-0.391440 0.157909-2.48 0.0171 * pop75-1.280867 1.145182-1.12 0.2694 dpi -0.000319 0.000929-0.34 0.7331 ddpi 0.610279 0.268778 2.27 0.0281 * > summary(savings.lm) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 28.566087 7.354516 3.88 0.00033 *** pop15-0.461193 0.144642-3.19 0.00260 ** pop75-1.691498 1.083599-1.56 0.12553 dpi -0.000337 0.000931-0.36 0.71917 ddpi 0.409695 0.196197 2.09 0.04247 * > # deutliche Änderungen, ddpi um etwa 50%!

> # Berechnung der beta_(i): > inf = lm.influence(savings.lm) > plot(inf$coef[,2], inf$coef[,3], xlab="änderung in Koef. pop15", + ylab="änderung in Koef. pop75") > identify(inf$coef[,2], inf$coef[,3], countries) [1] 21 23 49

Ireland Änderung in Koef. pop75 0.6 0.4 0.2 0.0 0.2 0.4 Japan Libya 0.08 0.06 0.04 0.02 0.00 0.02 0.04 Änderung in Koef. pop15

> # Modell ohne Japan > oj.lm <- lm(sr ~ pop15+pop75+dpi+ddpi, savings, + subset=(countries!= "Japan")) > summary(oj.lm) Residuals: Min 1Q Median 3Q Max -7.997-2.592-0.115 2.032 10.157 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 23.940171 7.783997 3.08 0.0036 ** pop15-0.367901 0.153630-2.39 0.0210 * pop75-0.973674 1.155450-0.84 0.4040 dpi -0.000471 0.000919-0.51 0.6112 ddpi 0.334749 0.198446 1.69 0.0987. Residual standard error: 3.74 on 44 degrees of freedom Multiple R-Squared: 0.277, Adjusted R-squared: 0.211 F-statistic: 4.21 on 4 and 44 DF, p-value: 0.00565 > ## ddpi nicht mehr signifikant!

> # Plot der Residuen > par(mfrow=c(1,2)) > plot(savings.lm$fit, savings.lm$res, xlab="fitted", ylab="residuen") > abline(h=0) > plot(savings.lm$fit, abs(savings.lm$res), xlab="fitted", ylab=" Residuen ") > # zum Vergleich > par(mfrow=c(2,2)); n=50 # n=100 > plot(,rnorm(n), main="konstante Varianz") > plot(,()*rnorm(n), main="starke Heterogenität") > plot(,sqrt(())*rnorm(n), main="schwache Heterogenität") > plot(,cos(()*pi/25)+rnorm(n), main="nichtlinearität") > n=50 > plot(,abs(rnorm(n)), main="konstante Varianz") > plot(,abs(()*rnorm(n)), main="starke Heterogenität") > plot(,abs(sqrt(())*rnorm(n)), main="schwache Heterogenität") > plot(,abs(cos(()*pi/25)+rnorm(n)), main="nichtlinearität")

Residuen 5 0 5 10 Residuen 0 2 4 6 8 10 6 8 10 12 14 16 Fitted 6 8 10 12 14 16 Fitted

konstante Varianz starke Heterogenität rnorm(n) 3 2 1 0 1 () * rnorm(n) 50 0 50 schwache Heterogenität Nichtlinearität sqrt(()) * rnorm(n) 20 10 0 5 10 cos(() * pi/25) + rnorm(n) 3 1 0 1 2 3

konstante Varianz starke Heterogenität rnorm(n) 2 1 0 1 2 () * rnorm(n) 100 100 300 0 20 40 60 80 100 0 20 40 60 80 100 schwache Heterogenität Nichtlinearität sqrt(()) * rnorm(n) 10 0 10 20 cos(() * pi/25) + rnorm(n) 4 2 0 2 4 0 20 40 60 80 100 0 20 40 60 80 100

konstante Varianz starke Heterogenität abs(rnorm(n)) 0.0 1.0 2.0 3.0 abs(() * rnorm(n)) 0 20 40 60 80 schwache Heterogenität Nichtlinearität abs(sqrt(()) * rnorm(n)) 0 2 4 6 8 10 abs(cos(() * pi/25) + rnorm(n)) 0.0 1.0 2.0

> # Überprüfung der Normalverteilungsannahme > par(mfrow=c(1,2)) > qqnorm(savings.lm$res, ylab="roh-residuen") > qqline(savings.lm$res) > qqnorm(rstudent(savings.lm), ylab="jackknife-residuen") > abline(0,1) > par(mfrow=c(1,1))

Normal Q Q Plot Normal Q Q Plot Roh Residuen 5 0 5 10 Jackknife Residuen 2 1 0 1 2 3 2 1 0 1 2 Theoretical Quantiles 2 1 0 1 2 Theoretical Quantiles