Mehrfache und polynomiale Regression

Ähnliche Dokumente
Kovarianz, Korrelation, (lineare) Regression

Tutorial: Regression Output von R

> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Regressionsanalyse in R

Lineare Modelle in R: Klassische lineare Regression

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

Eine Einführung in R: Varianzanalyse

Variablen Selektion beste Volles Modell

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Lineare Modelle in R: Einweg-Varianzanalyse

Lehrstuhl für Statistik und emp. Wirtschaftsforschung, Prof. Regina T. Riphahn, Ph.D. Diplomvorprüfung Statistik II Einf. Ökonometrie im WS 06/07

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

1 Analyse von Kontigenztafeln: Das loglineare Modell

Statistik Einführung // Lineare Regression 9 p.2/72

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Lösung zu Kapitel 11: Beispiel 1

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Schriftliche Prüfung (90 Minuten)

10. Übung (Korrelation und lineare Regressionsanalyse)

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Vorlesung: Statistik II für Wirtschaftswissenschaft

Diagnostik von Regressionsmodellen (1)

Was ist R? Warum R? Literatur Eine Beispielsitzung mit R. Einführung in R. Dr. Mike Kühne. Technische Universität Dresden Institut für Soziologie

Kapitel 4: Binäre Regression

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Ausprägung und Ursache von Anreizen bei der Vermietung von Büroliegenschaften im Grossraum Zürich

Kap. 12: Regression mit Zeitreihendaten und Prognosemodelle

Entschädigungen von Stiftungsräten

Statistik für Biologen 1. Fachsemester Mono-Bachelor

Statistik Vorlesung 7 (Lineare Regression)

Eine Einführung in R: Das Lineare Modell

Jonathan Harrington. Die t-verteilung

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Lineare Regression. Gebrauchtwagenpreise. Varianzanalyse. Methoden empirischer Sozialforschung. 2 (oder mehr) metrische Variablen.

Beipiele zum Üben und Wiederholen Wirtschaftsstatistik 2 (Kurs 3) Lösungen

Metrische und kategoriale Merkmale

Multiple Regression Mais-NP Zweidimensionale lineare Regression Data Display Dreidimensionale lineare Regression Multiple Regression

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2012/13. Aufgabe 1

Vergleich zweier Stichproben

Lehrstuhl für Statistik und empirische Wirtschaftsforschung, Prof. Regina T. Riphahn, Ph.D. Diplomprüfung in Ökonometrie im SS 09

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Musterlösung zu Serie 14

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Korrelation - Regression. Berghold, IMI

Vergleich von Gruppen I

Finanzmarkttheorie I. Performancemessung in EViews Übungsunterlage. Prof. Dr. Heinz Zimmermann WWZ Uni Basel Frühling 2015

6. Schätzung stationärer ARMA-Modelle

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Statistik II Übung 2: Multivariate lineare Regression

Analyse von Querschnittsdaten. Signifikanztests I Basics

Ergänzung der Aufgabe "Mindestlöhne" zu einer multiplen Regression

Prof. Dr. Karl-Werner Hansmann

Statistik II Übung 1: Einfache lineare Regression

Beispiele zu LM, GLM, GAM und Bäumen

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Statistik II für Betriebswirte Vorlesung 12

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Übung zur Empirischen Wirtschaftsforschung. VII. Ökonometrische Testverfahren. 7.1 Geldnachfragefunktion. 7.2 Empirische Ergebnisse: Westdeutschland

Statistik II Übung 1: Einfache lineare Regression

Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt?

Einführung in die multiple Regression

Kapitel 3. Inferenz bei OLS-Schätzung I (small sample, unter GM1,..., GM6)

6 Korrelation und Regression

Inferenz im multiplen Regressionsmodell

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

4 Binäre Regressionsmodelle, Folien 2

(Repeated-measures ANOVA) path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/"))

Teil: lineare Regression

Lineare Regression in R, Teil 2

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Analysis of Variance (ANOVA) in R

Regression mit Faktoren, Interaktionen und transformierten Variablen

BIOL, HST HS 2014 Dr. M. Kalisch. MC-Quiz 1. Einsendeschluss: Dienstag, der :59 Uhr

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

4. Das multiple lineare Regressionsmodell

Übungsblatt 7: Schätzung eines Mietspiegels

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

Methodik der multiplen linearen Regression

3. Das einfache lineare Regressionsmodell

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Übungsaufgaben Angewandte Ökonometrie I

Transkript:

Mehrfache und polynomiale Regression Kriteria für die Durchführung einer Regression Jonathan Harrington Bitte datasets.zip (unter 5.5, Tabellarische Daten) neu herunterladen und in pfad auspacken

Einfache Regression ^ Mehrfache Regression ^ In diesem Fall: 2 Regressoren (x 1, x 2 ), 2 Neigungen (b 1, b 2 ), ein Intercept, k und eine Ebene im 3D- Raum

Mehrfache Regression Es können auch mehrere Regressoren sein ^ n verschiedene Neigungen, ein Intercept Eine Hyper-Ebene in einem n-dimensionalen Raum

Einige Daten ydata = read.table(file.path(pfad, "ydata.txt")) names(ydata) Zungendorsum Untere Lippe [1] "F2" "DORSY" "DORSX" "LIPY" "LIPX" [y] Vokale, alle Werte zum zeitlichen Mittelpunkt DORSX, DORSY (horizontale und vertikale Position des Zungendorsums) LIPX, LIPY (horizontale Verlagerung und vertikale Position der Unterlippe)

Ein mehrfaches Regressionsmodell ^ F2 = b 1 DORSX +b 2 DORSY + b 3 LIPX + b 4 LIPY + k hat die Bedeutung ^ F2 = ein Gewicht Mal die horizontale Position der Zunge + ein anderes Gewicht Mal die vertikale Position der Zunge +. + ein Intercept Mehrfache Regression in R Festlegung von b 1, b 2, b 3, b 4, k Sind alle diese Parameter notwendig? Wenn nicht, welches Parameter oder Parameterkombination hat die deutlichste lineare Beziehung zu F2?

pairs(ydata) hoch tief oben unten hinten* vorne hinten vorne * Richtung Glottis

^ F2 = b 1 DORSX +b 2 DORSY + b 3 LIPX + b 4 LIPY + k regm = lm(f2 ~ DORSX+DORSY+LIPX+LIPY, data=ydata) Koeffiziente coef(regm)

summary(regm) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1355.05 822.63 1.647 0.113 DORSX -38.33 157.21-0.244 0.810 DORSY 63.08 254.27 0.248 0.806 LIPX -67.36 110.90-0.607 0.550 LIPY -164.08 205.04-0.800 0.432 Residual standard error: 83 on 23 degrees of freedom Multiple R-Squared: 0.3939, Adjusted R-squared: 0.2884 F-statistic: 3.736 on 4 and 23 DF, p-value: 0.01747 F2 kann mit einer multidimensionalen Regression aus diesen artikulatorischen Parametern modelliert werden: Adjusted R 2 = 0.29, F[4, 23] = 3.7, p < 0.05.

Adjusted R 2 R 2 : (siehe vorige Vorlesung) ist die Proportion der Varianz, die durch die Regression erklärt werden kann (variiert zwischen 0 und 1) R 2 wird mit einer zunehmenden Anzahl von Regressoren größer. Daher muss in der Berechnung von R 2 für die Anzahl der Regressoren kompensiert werden, wenn wir - wie in diesem Fall - Regressionslinien mit unterschiedlichen Anzahlen von Regressoren miteinander vergleichen wollen.

Adjusted R 2 kann auch negativ sein ist weniger als R 2 Adjusted R 2 = n ist die Anzahl der Stichproben, k ist die Anzahl der Regressoren. Für diesen Fall n = with(ydata, length(f2)) 1-(1-0.3939) * ( (n-1)/(n-4-1) ) [1] 0.2884913

Modell-Prüfung durch AIC (Akaike's Information Criterion) Mit der stepaic() Funktion in library(mass) wird geprüft, ob für die Regression wirklich alle (in diesem Fall 4) Regressoren benötigt werden. Je kleiner AIC, umso nützlicher die Kombination für die Regression (umso höher adjusted R 2 ) library(mass) stepaic(regm)

Start: AIC= 251.95 F2 ~ DORSX + DORSY + LIPX + LIPY Df Sum of Sq RSS AIC - DORSX 1 410 158861 250 - DORSY 1 424 158875 250 - LIPX 1 2541 160993 250 - LIPY 1 4412 162863 251 <none> 158451 252 sortiert nach AIC. Dies ist der AIC-Wert, wenn aus diesem Modell DORSX weggelassen wäre. Vor allem ist dieser AIC Wert weniger als AIC mit allen Parametern (= 251.95). Daher wird im nächsten Modell DORSX weggelassen.

Step: AIC= 250.02 F2 ~ LIPX + LIPY + DORSY Df Sum of Sq RSS AIC - DORSY 1 1311 160172 248 - LIPY 1 4241 163102 249 <none> 158861 250 - LIPX 1 16377 175238 251 AIC ist am kleinsten, wenn aus diesem Modell DORSY weggelassen wird. Und dieser Wert ohne DORSY ist kleiner als derjenige mit LIPX+LIPY+DORSY zusammen. Daher wird DORSY weggelassen

Step: AIC= 248.25 F2 ~ LIPX + LIPY Df Sum of Sq RSS AIC <none> 160172 248 - LIPX 1 25225 185397 250 - LIPY 1 50955 211127 254 Wenn wir entweder LIPX oder LIPY weggelassen, dann wird AIC höher im Vergleich zu AIC mit beiden Parametern zusammen. Daher bleiben wir bei F2 ~ LIPX + LIPY

Dieses Modell F2 ~ LIPX + LIPY müsste auch den höchsten adjusted R 2 haben. Prüfen, zb: summary(regm) Adjusted R-squared: 0.2884 lip.lm = lm(f2 ~ LIPX+ LIPY, data= ydata) summary(lip.lm) Adjusted R-squared: 0.3383 Also wird die Variation in F2 in [y] am meisten durch die horizontale und vertikale Position der Unterlippe erklärt.

^ Polynomiale Regression ein Regressor ein Koeffizient ein Regressor, 2 Koeffiziente ^ bestimmt die Krümmung; b 2 ist näher an 0 b 2 ist negativ b 2 ist positiv

ein Regressor, n Koeffiziente ^ In allen Fällen handelt es sich um Abbildung/ Beziehungen im 2D-Raum (da wir mit einem Regressor zu tun haben).

epg = read.table(paste(pfad, "epg.txt", sep="/")) with(epg, plot(cog, F2))

^ regp = lm(f2 ~ COG + I(COG^2), data = epg) k = coef(regp) (Intercept) COG I(COG^2) -294.3732 2047.8403-393.5154 ^ with(epg, plot(cog, F2)) Die Parabel überlagern curve(k[1] + k[2]*x + k[3]*x^2, add=t)

summary(regp) Beide Komponente, COG und COG 2 der Parabel scheinen notwendig zu sein, um die F2-COG Beziehungen zu modellieren. Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -294.37 139.95-2.103 0.0415 * COG 2047.84 192.83 10.620 1.81e-13 *** I(COG^2) -393.52 54.17-7.264 6.10e-09 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 202.1 on 42 degrees of freedom Multiple R-Squared: 0.9092, Adjusted R-squared: 0.9049 F-statistic: 210.4 on 2 and 42 DF, p-value: < 2.2e-16

mit stepaic() kann wieder festgestellt werden, ob wir den COG 2 Parameter wirklich benötigen: stepaic(regp) Start: AIC= 480.69 F2 ~ COG + I(COG^2) Df Sum of Sq RSS AIC <none> 1715550 481 - I(COG^2) 1 2155469 3871019 515 - COG 1 4606873 6322423 537 Call: lm(formula = F2 ~ COG + I(COG^2)) Coefficients: (Intercept) COG I(COG^2) -294.4 2047.8-393.5 Scheinbar ja (da AIC höher wird, wenn entweder COG oder COG 2 aus dem Modell weggelassen werden).

Prüfen ob das Verhältnis logarithmisch ist, zb: with(epg, plot(log(cog), F2)) Inwiefern kann man das Verhältnis zwischen den Variablen mit einer geraden Linie modellieren?

Bedingungen für die Durchführung einer Regression siehe vor allem http://www.duke.edu/~rnau/testing.htm und Verzani Kap. 10)

Die wichtigsten Kriterien: Die Residuals sollen: (a) von einer Normalverteilung nicht signifikant abweichen. (b) 'homoscedasticity' oder eine konstante Varianz aufweisen. (c) keine Autokorrelation aufweisen. (d) ggf. Ausreißer entfernen

(a) Sind die Residuals normalverteilt? regp = lm(f2 ~ COG + I(COG^2), data = epg) shapiro.test(resid(regp)) data: resid(regp) W = 0.9606, p-value = 0.1285

(b) Haben die Residuals eine konstante Varianz? Insbesondere sollten die residuals nicht wesentlich größer am Anfang/Ende sein, sondern auf eine randomisierte Weise um die 0 Linie verteilt sein. plot(resid(regp)) abline(h=0, lty=2)

(c) Keine Autokorrelation Autokorrelation ist wenn die Werte eines Signals mit sich selbst korreliert sind Ein gutes Beispiel von autokorrelierten Daten: ein stimmfahtes Sprachsignal

Die Residuals sollen keine Autokorrelation aufweisen acf(resid(regp)) 95% Konfidenzintervall um 0 Wenn die meisten ACF-Werte innerhalb der blauen Linien liegen, gibt es keine Autokorrelation. Insbesondere die Werte bei lag 1 und 2 beobachten: diese sollten vor allem innerhalb des Vertauensintervalls liegen.

(d) Ausreißer Ein einziger Ausreißer vor allem vom Mittelpunkt weit entfernt kann die Regressionslinie deutlich beeinflussen. plot(regp, 4) plot(regp, 4) Ausreißer die eventuell (aber nicht unbedingt) die Regressionslinie stark beeinflussen, können mit dem sog. Cookes Distance aufgedeckt werden

Die Cookes-Entfernungen und daher Ausreißer könnten auch mit einem sogenannten 'bubble plot' (siehe Verzani) abgebildet werden with(epg, plot(cog, F2, cex = 10*sqrt(cooks.distance(regp)))) with(epg, text(cog, F2, as.character(1:length(f2))))