epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Ähnliche Dokumente
Kovarianz, Korrelation, (lineare) Regression

Mehrfache und polynomiale Regression

Biostatistik 101 Korrelation - Regressionsanalysen

Prognoseintervalle für y 0 gegeben x 0

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Biostatistik 101 Korrelation - Regressionsanalysen

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Statistik II für Betriebswirte Vorlesung 8

Beispiel: Multiples Modell/Omitted Variable Bias I

Beispiel: Multiples Modell/Omitted Variable Bias I

Eine Einführung in R: Varianzanalyse

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

Züchtungslehre - Lösung 3

FUNKTIONEN UND FORMELN IN

Lineare Modelle in R: Klassische lineare Regression

FORMELN IN. Referent: Daniel Laskow Betreuer: Eugen Betke Programmierung in R Arbeitsbereich Wissenschaftliches Rechnen Universität Hamburg

# Proportionen berechnen: die Proportion vom Erfolg (0 <= p <= 1) p = with(ovokal.m, P/(P+Q)) ovokal.m = cbind(ovokal.m, p)

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Multiple Regression III

Empirische Wirtschaftsforschung in R

Schriftliche Prüfung (90 Minuten)

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

1 Beispiel zur Methode der kleinsten Quadrate

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Dr. M. Kalisch. Statistik (für Biol./Pharm. Wiss.) Winter Musterlösung

Eine Einführung in R: Varianzanalyse

Tutorial: Regression Output von R

> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Einleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse

CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

Die Varianzanalyse. Jonathan Harrington

Prüfungstermin aus Angewandter Statistik (WS 2012/13) Name:

Wiederholung und ein mehrfaktorielles Verfahren. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Musterlösung zu Serie 1

Jonathan Harrington. Die t-verteilung

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Eine Einführung in R: Das Lineare Modell

Schriftliche Prüfung (90 Minuten)

Eine Einführung in R: Das Lineare Modell

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2017/18. ( = 58 Punkte)

Wirtschaftswissenschaftliches Prüfungsamt

Interaktion unter Berücksichtigung des Skalenniveaus der Prädiktoren Dr. Markus Stöcklin, Universität Basel, Fakultät für Psychologie

Einführung in die Ökonometrie

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Analyse von Querschnittsdaten. Signifikanztests I Basics

Lineare Regression in R, Teil 1

Multiple lineare Regression

> r.lm < lm(log10(ersch) log10(dist), > summary(r.lm) > r.lms < summary(r.lm) R-Funktionen zur linearen Regression. data = d.

Schriftliche Prüfung (2 Stunden)

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Konfidenz-, Prognoseintervalle und Hypothesentests IV im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen

Analyse von Querschnittsdaten. Signifikanztests I Basics

Musterlösung. Kind Blume (beredet) Blume (nicht beredet)

Eine Einführung in R: Varianzanalyse

Marcel Dettling. Grundlagen der Mathematik II FS 2015 Woche 14. ETH Zürich, 27. Mai Institut für Datenanalyse und Prozessdesign

Vorlesung 7b. Kovarianz und Korrelation

Auswertung und Lösung

4 Multiple lineare Regression Multikollinearität 4.9

4 Multiple lineare Regression Multikollinearität 4.9

Klausur Statistik Lösungshinweise

Statistik II: Signifikanztests /2

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Sommersemester Namensschild. Dr.

Vergleich von Gruppen I

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Eine Einführung in R: Lineare Regression

Einführung in die formale Demographie Übung

Vorlesung 9b. Kovarianz und Korrelation

Eine Einführung in R: Lineare Regression

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012

ANGEWANDTE STATISTIK II Prüfungstermin Name:

Bachelorprüfung: Statistik (1 Stunde)

Schriftliche Prüfung (90 Minuten)

Einführung in die formale Demographie Übung

Vorlesung 8b. Kovarianz, Korrelation und Regressionsgerade

Schriftliche Prüfung (90 Minuten)

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)

Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden)

Transkript:

Kovarianz, Korrela-on, (lineare) Regression Jonathan Harrington & Ulrich Reubold library(laece) epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Kovarianz, Korrela-on, (lineare) Regression Eine Messung der Stärke der Beziehung zwischen 2 numerischen Variablen. head(epg) Vk-Reihenfolgen von einem deutschen MuVersprachler. F1, F2: F1 und F2-Werte zum Vokaloffset EPG-Parameter COG (Centre of Gravity) zum selben Zeitpunkt! V = /a ɛ ɪ i ɔ ʊ/ (a) (b) (c) (d) EPG-Parameter SUM1278

1. Kovarianz Je mehr die Kovarianz von 0 (Null) abweicht, umso deutlicher die lineare Beziehung zwischen den Variablen Kovarianz-Werte hoch und posi-v nah an 0 mivel und nega-v 509.6908-24.26598-289.516 2500 800 800 F2 2000 1500 F1 600 400 F1 600 400 1000 200 200 0.5 1.0 1.5 2.0 2.5 3.0 COG 0.5 1.0 1.5 2.0 2.5 3.0 COG 5 10 15 20 25 SUM1278

Berechnung der Kovarianz Produkt-Summe der Abweichungen vom MiVelwert y = epg$f2 x = epg$cog n = length(y) MiVelwert mx = mean(x) my = mean(y) Abweichungen vom MiVelwert dx = x - mean(x) dy = y - mean(y) Kovarianz = Produkt-Summe der Abweichungen dividiert durch n-1 covxy = sum(dx*dy)/(n-1) Funk-on in R cov(x, y)

Einige Merkmale der Kovarianz cov(x, y) cov(x,x) var(x+y) gleicht gleicht gleicht cov(y, x) var(x) var(x)+var(y) + 2 * cov(x,y) daher: wenn es keine lineare Beziehung zwischen x und y gibt ist cov(x,y) 0 (Null) sodass var(x+y) gleicht var(x) + var(y)

2. Kovarianz und Korrela-on Die Korrela-on (Pearson's product-moment correla-on), r, ist dasselbe wie die Kovarianz, aber sie normalisiert für die Mengen von x und y r ist die Kovarianz von x, y, dividiert durch deren Standardabweichungen r variiert zwischen -1 und +1 cov(x,y) [1] 509.6908 xgross = x*1000 cov(xgross,y) [1] 509690.8 r = cov(x,y)/(sd(x) * sd(y)) cor(x,y) [1] 0.8917474 cor(xgross,y) [1] 0.8917474

3. Regression y-auf-x Regression: y (abhängige Variable) soll durch x (unabhängige Variable) modelliert werden, also durch die Werte von x eingeschätzt werden. Regressionslinie: Eine gerade Linie durch die Verteilung, sodass der Abstand der S-chproben zu der Linie minimiert wird. y 1000 1500 2000 2500 X 0.5 1.0 1.5 2.0 2.5 3.0 Diese Regressionslinie durchschneidet (mx, my) den MiVelwert (X) der Verteilung x

3. Regression Die Regressionslinie: b ist die Die Steigung b = r * sd(y)/sd(x) oder ^ b = cov(x,y)/var(x) k ist das Intercept (y-achsenabschniv) k = my - b*mx ŷ sind die eingeschätzten Werte, die auf der Regressionslinie liegen yhut = b*x + k Abbildung plot(y ~ x) Regressionslinie überlagern abline(k, b) Eingeschätze Werte überlagern points(x, yhut, col = 2)

Error und SSE Der error (auch residuals) ist der Unterschied zwischen den tatsächlichen und eingeschätzten Werten. error = y - yhut SSE: sum of the squares of the error SSE = sum(error^2) ŷ y In der Regression wird die Linie auf eine solche Weise berechnet, dass SSE (RSS 1 ) minimiert wird. 1. wird auch manchmal RSS residual sum of squares genannt

Regression mit lm() reg = lm(y ~ x) ~ wird modelliert durch Regressionslinie überlagern plot(y ~ x) abline(reg) Regressionskoeffiziente Intercept Steigung coef(reg) (Intercept) x 610.6845 670.2670 y 2500 2000 1500 1000 0.5 1.0 1.5 2.0 2.5 3.0 x Eingeschätzte Werte yhut = predict(reg) Error residuals(reg) SSE deviance(reg) yhut = b*x + k error = y - yhut sum(error^2)

Regression: drei wich-ge Quan-täten 1. SSE (oder RSS) sum of the squared errors SSE = sum(error^2) oder SSE = deviance(reg) 2. SSY (oder SST): sum-of-the-squared devia-ons der tatsächlichen Werte SSY = sum( (y - my)^2) 3. SSR: sum of the squared-devia-ons von ŷ, also von den eingeschätzten Werten SSR = sum((yhut - my)^2) SSY = SSR + SSE

R-squared (R 2 ) SSY = SSR + SSE Je besser die Werte durch die Regressionslinie modelliert werden (also je geringer der Abstand zwischen y und ŷ) umso kleiner SSE, sodass im besten Fall SSE = 0 und SSY = SSR oder SSR/SSY = 1 (bedeutet: die tatsächlichen Werte sitzen auf der Linie). R-squared = SSR/SSY beschreibt auch die Propor-on der Varianz in y die durch die Regressionlinie erklärt werden kann R-squared variiert zwischen 0 (keine 'Erklärung') und 1 (die Regressionslinie erklärt 100% der Varianz in y).

R-squared (fortgesetzt) SSY = SSR + SSE Diese Quan-tät SSR/SSY nennt man auch R-squared weil sie denselben Wert hat wie den KorrelaBonskoeffizient hoch zwei. SSR/SSY [1] 0.7952134 cor(x, y)^2 (und da r zwischen -1 und 1 variiert, muss R-squared zwischen 0 und 1 variieren)

Signifikanz-Test Was ist die Wahrscheinlichkeit, dass ein lineares Verhältnis zwischen x und y besteht? Dies kann mit einem t-test mit n-2 Freiheitsgraden berechnet werden: tstat = r/rsb rsb = Standard-error von r = rsb = sqrt( (1 - r^2)/(n-2)) tstat = r/rsb [1] 12.92187

tstat = r/rsb [1] 12.92187 Signifikanz-Test fstat = tstat^2 [1] 166.9746 Ein t-test mit n-2 Freiheitsgraden 2 * (1 - pt(tstat, n-2)) Ein F-test mit 1 und n-2 Freiheitsgraden 1 - pf(fstat, 1, n-2) bekommt man auch durch cor.test(x,y) [1] 2.220446e-16 = 2.220446 x 10-16 Die Wahrscheinlichkeit, dass die Variablen nicht miteinander linear assoziiert sind, ist fast 0. (Hoch signifikant, p < 0.001).

summary(reg) Es gibt eine signifikante lineare Beziehung zwischen COG und F2 (R 2 = 0.80, F[1, 43] = 167, p < 0.001). Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -713.17-195.81-99.32 215.81 602.68 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 610.68 94.65 6.452 8.03e-08 *** x 670.27 51.87 12.922 < 2e-16 *** Residual standard error: 300 on 43 degrees of freedom Multiple R-Squared: 0.7952, Adjusted R-squared: 0.7905 F-statistic: 167 on 1 and 43 DF, p-value: < 2.2e-16

Die Residuals sollen: Gül-gkeit der Regression 1 (a) von einer Normalverteilung nicht signifikant abweichen. (b) eine konstante Varianz aufweisen. (c) keine Autokorrela-on aufweisen. 1. siehe auch hvp://scc.stat.ucla.edu/page_avachments/0000/0139/reg_1.pdf

(a) Sind die Residuals normalverteilt? shapiro.test(resid(reg)) Shapiro-Wilk normality test data: resid(regp) W = 0.9704, p-value = 0.2987

(b) Haben die Residuals eine konstante Varianz? Insbesondere sollten die Residuals nicht wesentlich größer am Anfang/Ende sein, sondern auf eine randomisierte Weise um die 0 Linie verteilt sein. Das ist hier nicht der Fall. plot(resid(reg)) abline(h=0, lty=2) resid(regp) -600-200 0 200 600 0 10 20 30 40 Index

(c) Keine Autokorrela-on Autokorrela-on ist wenn die Werte eines Signals mit sich selbst korreliert sind Ein gutes Beispiel von autokorrelierten Daten: ein s-mmfahtes Sprachsignal

(c) Keine Autokorrela-on Series resid(regp) ACF -0.2 0.2 0.4 0.6 0.8 1.0 acf(resid(reg)) 95% Konfidenzintervall um 0 0 5 10 15 Lag Wenn die meisten ACF-Werte innerhalb der blauen Linien liegen, gibt es keine Autokorrela-on. Insbesondere die Werte bei lag 1 und 2 beobachten: diese sollten innerhalb des Vertauensintervalls liegen (nicht der Fall).