Kovarianz, Korrelation, (lineare) Regression

Ähnliche Dokumente
epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

Mehrfache und polynomiale Regression

Biostatistik 101 Korrelation - Regressionsanalysen

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Biostatistik 101 Korrelation - Regressionsanalysen

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Eine Einführung in R: Varianzanalyse

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Tutorial: Regression Output von R

Jonathan Harrington. Die t-verteilung

Prognoseintervalle für y 0 gegeben x 0

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Eine Einführung in R: Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

FUNKTIONEN UND FORMELN IN

FORMELN IN. Referent: Daniel Laskow Betreuer: Eugen Betke Programmierung in R Arbeitsbereich Wissenschaftliches Rechnen Universität Hamburg

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Einleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

Statistik II für Betriebswirte Vorlesung 8

Eine Einführung in R: Varianzanalyse

Züchtungslehre - Lösung 3

Lineare Regression in R, Teil 1

Lineare Modelle in R: Klassische lineare Regression

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016

Lösung zu Kapitel 11: Beispiel 1

Beispiel: Multiples Modell/Omitted Variable Bias I

Wiederholung und ein mehrfaktorielles Verfahren. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

> r.lm < lm(log10(ersch) log10(dist), > summary(r.lm) > r.lms < summary(r.lm) R-Funktionen zur linearen Regression. data = d.

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Multiple Regression III

Generalised linear mixed models (GLMM) und die logistische Regression

Varianzanalyse (ANOVA)

Interaktion unter Berücksichtigung des Skalenniveaus der Prädiktoren Dr. Markus Stöcklin, Universität Basel, Fakultät für Psychologie

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Einführung in die Ökonometrie

Statistik Einführung // Lineare Regression 9 p.2/72

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Mixed Models. Jonathan Harrington. library(ez) library(lme4) library(multcomp) source(file.path(pfadu, "phoc.txt"))

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Mixed models. Jonathan Harrington. Die R-Befehle: mixed.txt. library(lme4) lex = read.table(paste(pfad, "lex.txt", sep="/"))

Empirische Wirtschaftsforschung in R

Die Varianzanalyse. Jonathan Harrington

Beispiel: Multiples Modell/Omitted Variable Bias I

Das Lineare Regressionsmodell

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

# Proportionen berechnen: die Proportion vom Erfolg (0 <= p <= 1) p = with(ovokal.m, P/(P+Q)) ovokal.m = cbind(ovokal.m, p)

6. Tutoriumsserie Statistik II

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2017/18. ( = 58 Punkte)

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25

Dr. M. Kalisch. Statistik (für Biol./Pharm. Wiss.) Winter Musterlösung

Metrische und kategoriale Merkmale

Vorlesung 7b. Kovarianz und Korrelation

Technische Universität München Zentrum Mathematik Sommersemester Juli 2005 Arbeitszeit 60 Minuten

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Schriftliche Prüfung (90 Minuten)

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Vorlesung 9b. Kovarianz und Korrelation

Varianzanalyse und Tukey-Test in SAS, R und JMP - die Skalierung der Erklärungsvariablen ist von enormer Bedeutung

Varianzkomponentenschätzung

10. Übung (Korrelation und lineare Regressionsanalyse)

Statistik Vorlesung 7 (Lineare Regression)

Mehrere metrische Merkmale

Eine Einführung in R: Das Lineare Modell

Vorlesung 8b. Kovarianz, Korrelation und Regressionsgerade

Analyse von Querschnittsdaten. Signifikanztests I Basics

ANGEWANDTE STATISTIK II Prüfungstermin Name:

1 Kodierung kategorialer Einflussgrößen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Statistik II für Betriebswirte Vorlesung 11

Eine Einführung in R: Das Lineare Modell

Wirtschaftswissenschaftliches Prüfungsamt

5. Übung Datenanalyse und Statistik WS07/08 (Boogaart, Jansen)

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Stochastik Praktikum Lineare Modelle

Blockpraktikum zur Statistik mit R

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

1 Beispiel zur Methode der kleinsten Quadrate

Wahrscheinlichkeitsrechnung und Statistik

CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife

Statistik II: Signifikanztests /2

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Transkript:

Kovarianz, Korrelation, (lineare) Regression Jonathan Harrington Die R-Befehle: reg.txt epg.txt (aus der Webseite) pfad = "Das Verzeichnis, wo die Daten gespeichert ist" edat = read.table(paste(pfad, "epg.txt", sep="/")) attach(edat) names(edat)

messen alle inwiefern es eine lineare Beziehung zwischen zwei Variablen gibt

epg.txt (aus der Webseite) Einige Daten pfad = "Das Verzeichnis, wo die Daten gespeichert ist" edat = read.table(paste(pfad, "epg.txt", sep="/")) attach(edat) names(edat) Vk-Reihenfolgen von einem deutschen Muttersprachler. V = /a ɛ ɪ i ɔ ʊ/ F1, F2: F1 und F2-Werte zum Vokaloffset Zwei EPG-Parameter zum selben Zeitpunkt

Die EPG Parameter COG: Centre of gravity (Gewichtsschwerpunkt) Werte (ein Wert pro Vokal) elektropalatographische Daten. SUM1278 Kontaktsummen, Spalten 1+2+7+8 19

Zusätzliches Beispiel von COG COG Fig. 7.17: Synchronised waveform (top) anteriority index (middle panel, solid), dorsopalatal index (middle panel, dashed), centre of gravity (lower panel) for just relax. The palatograms are those that occur closest to the time points marked by the vertical dotted lines are occur respectively in [ʤ] and [t] of just and in [l], [k], [s] of relax.

1. Kovarianz Je höher die Kovarianz, umso deutlicher die lineare Beziehung zwischen den Variablen hoch und +ve nah an 0 mittel und -ve 509.6908-24.26598-289.516

Berechung der Kovarianz Produkt-Summe der Abweichungen vom Mittelwert y = F2; x = COG; n = length(y) Mittelwert mx = mean(x) my = mean(y) Abweichungen vom Mittelwert dx = x - mean(x) dy = y - mean(y) Kovarianz = Produkt-Summe der Abweichungen dividiert durch n-1 covxy = sum(dx*dy)/(n-1) cov(x,y)

Einige Merkmale der Kovarianz cov(x, y) cov(x,x) var(x+y) = = = cov(y, x) var(x) var(x)+var(y) + 2 * cov(x,y) daher: wenn es keine lineare Beziehung zwischen x und y gibt ist cov(x,y) 0 (Null) sodass var(x+y) = var(x) + var(y)

2. Kovarianz und Korrelation Die Korrelation (Pearson's product-moment correlation), r, ist dasselbe wie die Kovarianz, aber sie normalisiert für die Mengen von x und y r ist die Kovarianz von x, y, dividiert durch deren Standardabweichungen r variiert zwischen -1 und +1 cov(x,y) [1] 509.6908 xgross = x*1000 cov(xgross,y) [1] 509690.8 r = cov(x,y)/(sd(x) * sd(y)) cor(x,y) [1] 0.8917474 cor(xgross,y) [1] 0.8917474

3. Regression y-auf-x Regression: y soll durch x modelliert werden, also durch die Werte von x eingeschätzt werden. Eine lineare Regressionslinie: Eine gerade Linie durch die Verteilung, sodass der Abstand der Punkte zu der Linie minimiert wird. Diese Regressionslinie durchschneidet (mx, my) den Mittelwert (X) der Verteilung

Die Regressionslinie: ^ b ist die Die Neigung b = r * sd(y)/sd(x) oder b = cov(x,y)/var(x) k ist das y-intercept k = my - b*mx y: ^ die eingeschätzten Werte, die auf der R-Linie liegen yhut = b*x + k Abbildung plot(x,y) Regressionslinie überlagern abline(k, b)

Regression und residuals Der residual oder error ist der Unterschied zwischen den tatsächlichen und eingeschätzten Werten. error = y - yhut ^ y y

Regression, residuals, SSE SSE = sum-of-the-squares of the error* SSE = sum(( y - yhut)^2) oder error = (y yhut) SSE = sum(error^2) In der Regression wird die Linie auf eine solche Weise berechnet, dass die SSE (RSS) minimiert wird. *wird auch manchmal RSS residual sum of squares genannt

reg = lm(y ~ x) Regressionslinie überlagern plot(x,y) abline(reg) Regressionskoeffiziente Die lm() Funktion ~ wird modelliert durch coef(reg) (Intercept) x 610.6845 670.2670 Eingeschätzte Werte yhut = predict(reg) yhut = b*x + k Residuals residuals(reg) SSE deviance(reg) error = y - yhut sum(error^2)

Regression: drei sehr wichtige Quantitäten 1. SSE (oder RSS) sum of the squared errors SSE = sum(error^2) oder SSE = deviance(reg) 2. SSY (oder SST): sum-of-the-squared deviations der tatsächlichen Werte SSY = sum( (y - my)^2) 3. SSR: sum of the squared-deviations in ^ y (der Werte, die wegen der Regressionslinie entstehen) SSR = sum((yhut - my)^2) SSY = SSR + SSE SSR + SSE dasselbe SSY

R-squared SSY = SSR + SSE Je besser die Werte durch die Regressionlinie modelliert werden (also je geringer der Abstand zwischen y und y) ^ umso kleiner SSE, sodass im besten Fall SSE = 0 und SSY = SSR oder SSR/SSY = 1 (bedeutet: die tatsächlichen Werte sitzen auf der Linie). R-squared = SSR/SSY beschreibt auch die Proportion der Varianz in y die durch die Regressionlinie erklärt werden kann R-squared variiert zwischen 0 (keine 'Erklärung') und 1 (die Regressionslinie erklärt 100% der Varianz in y).

R-squared (fortgesetzt) SSY = SSR + SSE Diese Quantität SSR/SSY nennt man auch R-squared weil sie denselben Wert hat wie den Korrelationskoeffizient hoch zwei. SSR/SSY [1] 0.7952134 cor(x, y)^2 (und da r zwischen -1 und 1 variiert, muss R-squared zwischen 0 und 1 variieren)

Signifikanz-Test Was ist die Wahrscheinlichkeit, dass ein lineares Verhältnis zwischen x und y besteht?

Signifikanz-Test H0: r = 0 H1: r weicht signifikant ab von 0 (bedeutet: x und y sind miteineander mit einer hohen Wahrscheinlichkeit korreliert). Dies kann mit einem t-test mit n-2 Freiheitsgraden berechnet werden: tstat = r/rsb rsb = Standard-error von r = rsb = sqrt( (1 - r^2)/(n-2)) tstat = r/rsb [1] 12.92187

tstat = r/rsb [1] 12.92187 Signifikanz-Test fstat = tstat^2 [1] 166.9746 Ein t-test mit n-2 Freiheitsgraden Ein F-test mit 1 und n-2 Freiheitsgraden 2 * (1 - pt(tstat, n-2)) 1 - pf(fstat, 1, n-2) bekommt man auch durch cor.test(x,y) [1] 2.220446e-16 = 2.220446 x 10-16 Die Wahrscheinlichkeit, dass die Variablen nicht miteeinander linear assoziiert sind ist fast 0. (Hoch signifikant, p < 0.001).

Signifikanz-Test Zwei wichtige Funktionen: summary(), anova() reg = lm(y ~ x) summary(reg) anova(reg)

summary(reg) sqrt(deviance(reg)/(n-2)) 2 * (1 - pt(tstat, n-2)) oder 1 - pf(fstat, 1, n-2) zb min(residuals(reg)) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max tstat -713.17-195.81-99.32 215.81 602.68 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 610.68 94.65 6.452 8.03e-08 *** x 670.27 51.87 12.922 < 2e-16 *** Residual standard error: 300 on 43 degrees of freedom Multiple R-Squared: 0.7952, Adjusted R-squared: 0.7905 F-statistic: 167 on 1 and 43 DF, p-value: < 2.2e-16 fstat SSR/SSY oder cor(x,y)^2 Es gibt eine lineare Assoziation zwischen x und y, R 2 = 0.80, F(1, 43) = 167, p < 0.001.

Auflistung von SSR, SSE, MSR, MSE anova(reg) MSR = mean-sum-of-squares due to regression MSE = mean-sum-of squares of the error MSE = residual standard error (vorige Seite) fstat = MSR/MSE Analysis of Variance Table MSR = SSR/1 2 * (1 - pt(tstat, n-2)) oder Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 15031672 15031672 166.97 < 2.2e-16 *** Residuals 43 3871019 90024 1 - pf(fstat, 1, n-2) SSR SSE MSE = SSE/(n-2) MSE = deviance(reg)/(n-2)

Was sind die Erwartungen bezüglich der Beziehung zwischen F1 im Vokal und SUM1278? SUM1278 Kontaktsummen, Spalten 1+2+7+8 19 y = F1; x = SUM1278 weiter: uebung.txt