Statistik Vorlesung 7 (Lineare Regression)

Ähnliche Dokumente
Statistik Vorlesung 7 (Lineare Regression)

5. Übung Datenanalyse und Statistik WS07/08 (Boogaart, Jansen)

Statistik Vorlesung 8 (Lineare Modelle)

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Statistik II für Betriebswirte Vorlesung 8

Varianzkomponentenschätzung

lineare Regression Wittmann Einleitung Problemstellung Beispiel Lineare Regression Ansatz kleinste Quadrate Güte Schluss Pascal Wittmann 1/22

Prognoseintervalle für y 0 gegeben x 0

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Lineare Regression in R, Teil 1

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Varianzanalyse

Biostatistik 101 Korrelation - Regressionsanalysen

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Varianzanalyse

6.2 Lineare Regression

Eine Einführung in R: Varianzanalyse

Biostatistik 101 Korrelation - Regressionsanalysen

Eine Einführung in R: Das Lineare Modell

Marcel Dettling. Grundlagen der Mathematik II FS 2015 Woche 14. ETH Zürich, 27. Mai Institut für Datenanalyse und Prozessdesign

Lineare Modelle in R: Klassische lineare Regression

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Zusammenfassung 11. Sara dos Reis.

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen

6.2 Regressionsanalyse I: Die lineare Einfachregression

Beispiel: Multiples Modell/Omitted Variable Bias I

Multiple Regression III

Diagnostik von Regressionsmodellen (1)

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Musterlösung. Modulklausur Multivariate Verfahren

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

Vorlesung 7b. Kovarianz und Korrelation

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Vorlesung: Statistik II für Wirtschaftswissenschaft

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Teil: lineare Regression

Beispiel: Multiples Modell/Omitted Variable Bias I

Versuchsplanung und multivariate Statistik Sommersemester 2018

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

Mathematik III - Statistik für MT(Master)

Musterlösung zu Serie 1

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Vorlesung 9b. Kovarianz und Korrelation

Deskriptive Beschreibung linearer Zusammenhänge

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Regression und Korrelation

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Übung V Lineares Regressionsmodell

Vorlesung 8b. Kovarianz, Korrelation und Regressionsgerade

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Das Lineare Regressionsmodell

Eine Einführung in R: Lineare Regression

Korrelation - Regression. Berghold, IMI

Eine Einführung in R: Lineare Regression

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

1 Beispiel zur Methode der kleinsten Quadrate

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Einführung in Quantitative Methoden

Tutorial: Regression Output von R

Einleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse

Konfidenz-, Prognoseintervalle und Hypothesentests IV im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen

Lineare Regression mit einem Regressor: Einführung

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

V. Das lineare Regressionsmodell

Schätzung im multiplen linearen Modell VI

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Schriftliche Prüfung (90 Minuten)

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

3.3 Konfidenzintervalle für Regressionskoeffizienten

Vergleich von Gruppen I

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Mathematische und statistische Methoden II

epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Lineare Regression. Kapitel Regressionsgerade

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Analyse von Querschnittsdaten. Signifikanztests I Basics

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Transkript:

Statistik Vorlesung 7 (Lineare Regression) K.Gerald van den Boogaart http://www.stat.boogaart.de/ Statistik p.1/77

> Brustkrebs <- read.table("breastcancerdata.txt", + sep = "\t", header = T) > Chroma <- read.table("chromatographydata.txt", + sep = "\t", header = T) > Wachstum <- read.table("ageandheightdata.txt", + sep = "\t", header = T) > Rauchen <- read.table("smokingandcancerdata.txt", + sep = "\t", header = T) > data(anscombe) > data(airquality) > showgeraden <- function(form = Mortality ~ Smoking, + data = Rauchen, alpha = 0, outer = F, n = 0, +..., pt = F, diag = F, g0 = F) { + par(pch = 20) + if (diag) + par(mfrow = c(2, 2)) + plot(form, data = data, col = 2, pch = 20, +...) + abline(m1 <- lm(form, data = data, x = T, + y = T), col = 2) + m <- m1 + if (n > 0) { + s <- sample(1:nrow(data), n) + points(form, data = data[s, ], col = 3, + pch = 20) + abline(m <- lm(form, data = data[s, ], + x = T, y = T), col = 3) + } + a <- coef(m)[1] + b <- coef(m)[2] + if (alpha > 0) { + xr <- range(m1$x[, 2]) + x <- seq(xr[1], xr[2], length.out = 200) + a <- coef(m)[1] + b <- coef(m)[2] + v <- vcov(m) + y <- a + b * x + sqy <- v[1, 1] + 2 * v[2, 1] * x + v[2, + 2] * x * x + ifelse(outer, summary(m)$sigma^2, 1-1

+ 0) + tq <- qt(1 - alpha/2, df = m$df.resid) + lines(x, y + sqrt(sqy) * tq) + lines(x, y - sqrt(sqy) * tq) + if (outer) + title(main = "Konfidenzbereich fuer die Punkte") + else { + title(main = "Konfidenzbereich fuer die Gerade") + if (g0) + abline(h = mean(m$y)) + } + } + title(sub = call("==", form[[2]], call("+", + round(a, 3), call("*", round(b, 3), form[[3]])))) + if (pt) { + points(m$x[, 2], mean(m$y) + resid(m), + pch = 20) + abline(h = mean(m$y)) + } + if (diag) { + plot(predict(m), resid(m)) + plot(predict(m), influence(m)$hat, ylab = "Hebelwirkung", + ylim = c(0, 1)) + plot(predict(m), cooks.distance(m), ylab = "Cook distance", + ylim = c(0, 1)) + } + invisible(m) + } > stepblock <- function(cc) { + pon <- T + cc <- as.list(cc[[2]][-1]) + for (my.expression.a in cc) { + cat("> ") + cat(deparse(my.expression.a), sep = "\n+ ") + eval.parent(my.expression.a) + cat("\n") + } + } > options(width = 60) 1-2

Konzepte der linearen Regression Statistik p.2/77

Wie wachsen Kleinkinder? Wachstum bei Kindern height 76 78 80 82 18 20 22 24 26 28 age in Monaten Statistik p.3/77

Gerade als Vereinfachung Wachstum bei Kindern height 76 78 80 82 18 20 22 24 26 28 age in Monaten Statistik p.4/77

In Formeln Das Modell Y i = a + bx i + ǫ i Statistik p.5/77

In Formeln Das Modell a, b sind unbekannt. Y i = a + bx i + ǫ i Statistik p.5/77

In Formeln Das Modell Y i = a + bx i + ǫ i a, b sind unbekannt. Der Computer schätzt die Werte als: cov(x,y ˆ ) ˆb = var(x) ˆ â = Ȳ Xˆb Statistik p.5/77

Computerausgabe > model <- lm(height ~ age, data = Wachstum) > model Call: lm(formula = height ~ age, data = Wachstum) Coefficients: (Intercept) age 64.928 0.635 Statistik p.6/77

Definitionen Das Modell Y i = a + bx i + ǫ i a heißt Achsenabschnitt weil a = a + b0 der Wert der Geraden bei X = 0 ist. Statistik p.7/77

Definitionen Das Modell a heißt Achsenabschnitt Y i = a + bx i + ǫ i b heißt Steigung weil b die Steigung der Geraden a + bx ist. Statistik p.7/77

Definitionen Das Modell a heißt Achsenabschnitt b heißt Steigung Y i = a + bx i + ǫ i Die X i heißen Regressor weil X die das ansteigen bewirkt. Statistik p.7/77

Definitionen Das Modell a heißt Achsenabschnitt b heißt Steigung Die X i heißen Regressor Y i = a + bx i + ǫ i Die Y i heißen Regressant weil Y erhöht wird. Statistik p.7/77

Definitionen Das Modell a heißt Achsenabschnitt b heißt Steigung Die X i heißen Regressor Y i = a + bx i + ǫ i Die Y i heißen Regressant Die ǫ i heißen Fehlerterm. weil ǫ den Fehler der Vereinfachung Gerade beinhaltet. Statistik p.7/77

Achsenabschnitt und Steigung Mortality 0 50 100 150 2.89 50 1.09*50 0 50 100 150 Smoking Statistik p.8/77

Vorhersagewerte Wachstum bei Kindern height 76 78 80 82 18 20 22 24 26 28 age in Monaten Statistik p.9/77

Die Vorhersagewerte Das Regressionsmodel: Y i = a + bx i + ǫ i Wenn wir von den Unzulänglichkeiten Das a und b nur geschätzt werden können. Die Gerade nur bis auf den Fehler ǫ stimmt. Statistik p.10/77

Die Vorhersagewerte Das Regressionsmodel: Y i = a + bx i + ǫ i Wenn wir von den Unzulänglichkeiten Das a und b nur geschätzt werden können. Die Gerade nur bis auf den Fehler ǫ stimmt. absehen würden wir also annehmen, dass für X = x dann y = a + bx sein müßte. Statistik p.10/77

Die Vorhersagewerte Das Regressionsmodel: Y i = a + bx i + ǫ i Wenn wir von den Unzulänglichkeiten Das a und b nur geschätzt werden können. Die Gerade nur bis auf den Fehler ǫ stimmt. absehen würden wir also annehmen, dass für X = x dann y = a + bx sein müßte. Diesen Wert bezeichnen wir als die vom Modell vorhergesagten Werte Ŷi: Ŷ i := â + ˆbX i Statistik p.10/77

Computerausgabe > predict(model) 1 2 3 4 5 6 76.35769 76.99266 77.62762 78.26259 78.89755 79.53252 7 8 9 10 11 12 80.16748 80.80245 81.43741 82.07238 82.70734 83.34231 Statistik p.11/77

Residuen Wachstum bei Kindern height 76 78 80 82 18 20 22 24 26 28 age in Monaten Statistik p.12/77

Schätzung und Residuen Das Regressionsmodel: Y i = a + bx i + ǫ i Wir kennen aber nur die Schätzwerte â und ˆb und erhalten eine neue Gleichung: Y i = â + ˆbX i + r i ˆb = cov(x,y ˆ ) var(x) ˆ der Schätzwert für b. Statistik p.13/77

Schätzung und Residuen Das Regressionsmodel: Y i = a + bx i + ǫ i Wir kennen aber nur die Schätzwerte â und ˆb und erhalten eine neue Gleichung: Y i = â + ˆbX i + r i ˆb = cov(x,y ˆ ) var(x) ˆ der Schätzwert für b. â = Ȳ Xˆb ist der Schätzwert für b Statistik p.13/77

Schätzung und Residuen Das Regressionsmodel: Y i = a + bx i + ǫ i Wir kennen aber nur die Schätzwerte â und ˆb und erhalten eine neue Gleichung: Y i = â + ˆbX i + r i ˆb = cov(x,y ˆ ) var(x) ˆ der Schätzwert für b. â = Ȳ Xˆb ist der Schätzwert für b Die r i heißen Residuen residuum: lat. für das Übriggebliebene Statistik p.13/77

Beispiel II: Rauchen Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Statistik p.14/77

Computerausgabe > model <- lm(mortality ~ Smoking, data = Rauchen) > model Call: lm(formula = Mortality ~ Smoking, data = Rauchen) Coefficients: (Intercept) Smoking -2.885 1.088 > predict(model) Farmers, foresters, and fisherman 80.85467 Miners and quarrymen 146.10660 Gas, coke and chemical makers Statistik p.15/77

Graphische Interpretation Mortality 0 50 100 150 2.89 y = a + b*x +? y = 2.89 + 1.09*x +? 1.09*50 50 Mortality = a + b*smoking +? Mortality = 2.89 + 1.09*Smoking +? 0 50 100 150 Smoking Statistik p.16/77

Normalansicht Schritt 1 Mortality 0 50 100 150 0 50 100 150 Smoking Statistik p.17/77

Regressionsgerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Statistik p.18/77

odellvorstellung: Ungenaue Beschreibung Das Regressionsmodel: Y i = a + bx i + ǫ i ist sich darüber bewußt, dass die Gerade die Wirklichkeit nicht genau beschreibt. Statistik p.19/77

odellvorstellung: Ungenaue Beschreibung Das Regressionsmodel: Y i = a + bx i + ǫ i ist sich darüber bewußt, dass die Gerade die Wirklichkeit nicht genau beschreibt. Man geht davon aus, dass die Abweichungen von der Gerade zufällig, unabhängig voneinander und im Mittel 0 sind. Statistik p.19/77

Bestimmung der Geraden Die Regressionsgerade wird so bestimmt, dass n (Y i (â + ˆbX i )) 2 i=1 so klein wie möglich wird. Statistik p.20/77

Bestimmung der Geraden Die Regressionsgerade wird so bestimmt, dass n (Y i (â + ˆbX i )) 2 i=1 so klein wie möglich wird. Dieses Verfahren nennt man: Kleinste Quadrate Statistik p.20/77

Bestimmung der Geraden Die Regressionsgerade wird so bestimmt, dass n (Y i (â + ˆbX i )) 2 i=1 so klein wie möglich wird. Dieses Verfahren nennt man: Kleinste Quadrate Dieses Vefahren ist besonders gut, wenn gewisse Annahmen erfüllt sind. Statistik p.20/77

Bestimmung der Geraden Die Regressionsgerade wird so bestimmt, dass n (Y i (â + ˆbX i )) 2 i=1 so klein wie möglich wird. Dieses Verfahren nennt man: Kleinste Quadrate Dieses Vefahren ist besonders gut, wenn gewisse Annahmen erfüllt sind. Annahmen: Die ǫ i sind normalverteilt mit Erwartungswert 0 und einer unbekannten Varianz σ 2. Statistik p.20/77

Vorhersagewerte Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Statistik p.21/77

Statistische Vorhersagen Die Vorhersagewerte sind also keineswegs eine feststehende Wahrheit, sondern geben lediglich eine Tendenz an. Sie lassen Raum für andere Einflüsse. Im Mittel werden die Vorhersagewerte allerdings richtig sein. Statistik p.22/77

Residuen Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Statistik p.23/77

Vorhersagewerte und Residuen Wir haben also: Y i Y i Ŷ i = a + bx i + ǫ i = â + ˆbX i + r i = â + ˆbX i Statistik p.24/77

Vorhersagewerte und Residuen Wir haben also: Y i Y i Ŷ i = a + bx i + ǫ i = â + ˆbX i + r i = â + ˆbX i und somit r i = Y i Ŷi Statistik p.24/77

Brustkrebs Mortality Temperature 1 102.5 51.3 2 104.5 49.9 3 100.4 50.0 4 95.9 49.2 5 87.0 48.5 6 95.0 47.8 7 88.6 47.3 8 89.2 45.1 9 78.9 46.3 10 84.6 42.1 11 81.7 44.2 12 72.2 43.5 13 65.1 42.3 14 68.1 40.2 15 67.3 31.8 Statistik p.25/77

Sinn oder Unsinn,... Die Regression kann auf jeden Datensatz angewendet werden..., aber ist das auch immer sinnvoll? Statistik p.26/77

Stichprobeneinfluß Statistik p.27/77

Demonstration: Stichprobenwahl Abhängig von der Wahl der Stichprobe werden die Geraden verschieden geschätzt. Das werden wir auf der nächsten Folie demonstrien indem wir jeweils 15 der Datenpunkte zufällig auswählen und die Gerade nur aufgrund dieser Punkte schätzen lassen. Statistik p.28/77

Demonstration: Stichprobenwahl Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 33.595 + 1.378Smoking Statistik p.29/77

Demonstration: Stichprobenwahl Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 10.161 + 0.963Smoking Statistik p.29/77

Demonstration: Stichprobenwahl Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 17.008 + 1.16Smoking Statistik p.29/77

Demonstration: Stichprobenwahl Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 3.27 + 1.02Smoking Statistik p.29/77

Demonstration: Stichprobenwahl Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 33.595 + 1.378Smoking 70 90 110 130 Smoking Mortality = 25.353 + 0.762Smoking Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 10.161 + 0.963Smoking 70 90 110 130 Smoking Mortality = 12.234 + 1.165Smoking Statistik p.29/77

Konfidenzintervall für die Vorhersage Wir können einen Bereich einzeichnen in dem der wahre Wert E[Y ] = a + bx mit 1 α = 95% Wahrscheinlichkeit zu liegen kommt: Die Formel ist kompliziert: u(x) = â + ˆbx + ˆ sd(ǫ)q tn 2,1 α/2(c 1 + 2c 2 x + c 3 x 2 ) l(x) = â + ˆbx ˆ sd(ǫ)q tn 2,α/2(c 1 + 2c 2 x + c 3 x 2 ) mit q tn 2,1 α/2 dem 1 α/2-quantil der t-verteilung und ( c 1 c 2 c 2 c 3 ) = ( n Xi Xi X 2 i ) 1 ohne Gewähr. Statistik p.30/77

Demonstration des Konfidenzintervalls Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 33.595 + 1.378Smoking Statistik p.31/77

Demonstration des Konfidenzintervalls Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 10.161 + 0.963Smoking Statistik p.31/77

Demonstration des Konfidenzintervalls Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 17.008 + 1.16Smoking Statistik p.31/77

Demonstration des Konfidenzintervalls Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 3.27 + 1.02Smoking Statistik p.31/77

Demonstration des Konfidenzintervalls Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 33.595 + 1.378Smoking 70 90 110 130 Smoking Mortality = 25.353 + 0.762Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 10.161 + 0.963Smoking 70 90 110 130 Smoking Mortality = 12.234 + 1.165Smoking Statistik p.31/77

Sinn oder Unsinn,... Eine wichtige Frage ist also immer, ob eventuell kein Zusammenhang bestehen konnte. Wenn X und Y unabhängig sind, dann ändert sich der Erwartungswert von Y nicht in Abhängigkeit von X: Y = a + 0X + ǫ Statistik p.32/77

Könnte kein Zusammenhang bestehen? Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 1.534 + 1.124Smoking Statistik p.33/77

Könnte kein Zusammenhang bestehen? Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 10.159 + 1.151Smoking Statistik p.33/77

Könnte kein Zusammenhang bestehen? Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 2.192 + 1.076Smoking Statistik p.33/77

Könnte kein Zusammenhang bestehen? Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 1.097 + 1.008Smoking Statistik p.33/77

Könnte kein Zusammenhang bestehen? Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 1.534 + 1.124Smoking 70 90 110 130 Smoking Mortality = 17.257 + 1.211Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 10.159 + 1.151Smoking 70 90 110 130 Smoking Mortality = 12.53 + 1.14Smoking Statistik p.33/77

Ergebnisse Das 95%-Konfidenzintervalle (für die Gerade) ist ein zufälliges Intervall um die geschätzte Gerade, dass an jeder Stelle die wahren Gerade mit einer wahrscheinlichkeit von 95% umschließt. Statistik p.34/77

Nochmal mit weniger Daten Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 4.898 + 1.105Smoking Statistik p.35/77

Nochmal mit weniger Daten Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 61.659 + 1.736Smoking Statistik p.35/77

Nochmal mit weniger Daten Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 32.72 + 0.82Smoking Statistik p.35/77

Nochmal mit weniger Daten Konfidenzbereich fuer die Gerade Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 12.207 + 1.085Smoking Statistik p.35/77

Nochmal mit weniger Daten Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 4.898 + 1.105Smoking 70 90 110 130 Smoking Mortality = 43.334 + 1.552Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 61.659 + 1.736Smoking 70 90 110 130 Smoking Mortality = 68.742 + 0.392Smoking Statistik p.35/77

Das Vorhersageintervall Frage: In welchem Bereich liegen die Sterblichkeit bei einer Berufsgruppe die 130% raucht? Statistik p.36/77

Das Vorhersageintervall Frage: In welchem Bereich liegen die Sterblichkeit bei einer Berufsgruppe die 130% raucht? Lösung: Das Vorhersageintervall Statistik p.36/77

Das Vorhersageintervall Frage: In welchem Bereich liegen die Sterblichkeit bei einer Berufsgruppe die 130% raucht? Lösung: Das Vorhersageintervall Die Formel ist kompliziert: u(x) = â + ˆbx + ˆ sd(ǫ)q tn 2,1 α/2(1 + c 1 + 2c 2 x + c 3 x 2 ) l(x) = â + ˆbx ˆ sd(ǫ)q tn 2,α/2(1 + c 1 + 2c 2 x + c 3 x 2 ) mit q tn 2,p dem p-quantil der t-verteilung und ( ohne Gewähr. c 1 c 2 c 2 c 3 ) = ( n Xi Xi X 2 i ) 1 Statistik p.36/77

Formeln c 0 = 1 n X 2 i ( i X i) 2 c 1 = c 0 X 2 i c 2 c 3 ˆ sd(ǫ) = = c 0 Xi = c 0 n 1 n 2 n i=1 r 2 i ohne Gewähr Statistik p.37/77

Demonstration des Vorhersageintervalls Konfidenzbereich fuer die Punkte Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 33.595 + 1.378Smoking Statistik p.38/77

Demonstration des Vorhersageintervalls Konfidenzbereich fuer die Punkte Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 10.161 + 0.963Smoking Statistik p.38/77

Demonstration des Vorhersageintervalls Konfidenzbereich fuer die Punkte Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 17.008 + 1.16Smoking Statistik p.38/77

Demonstration des Vorhersageintervalls Konfidenzbereich fuer die Punkte Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 3.27 + 1.02Smoking Statistik p.38/77

Demonstration des Vorhersageintervalls Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 33.595 + 1.378Smoking 70 90 110 130 Smoking Mortality = 25.353 + 0.762Smoking Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk Mortality 60 100 Mortality 60 100 70 90 110 130 Smoking Mortality = 10.161 + 0.963Smoking 70 90 110 130 Smoking Mortality = 12.234 + 1.165Smoking Statistik p.38/77

Ergebnisse Die Vorhersageintervalle sind bedeutend breiter als die Konfidenzintervalle. Echte Aussage über die einzelne Berufsgruppe sind offenbar nur für extremes Raucheverhalten zu treffen: Vorhersage von Werten ist bedeutend schwieriger als die Vorhersage von Tendenzen. Statistik p.39/77

Der Regressionstest Steigung = 0 X,Y unabhängig. Statistik p.40/77

Der Regressionstest Steigung = 0 X,Y unabhängig. Dieses Problem kann mit einem Test untersucht werden: Statistik p.40/77

Der Regressionstest Steigung = 0 X,Y unabhängig. Dieses Problem kann mit einem Test untersucht werden: Regressionstest: H 0 : b = 0 vs. H 1 : b 0 Voraussetzungen: wie Regression Anwendung: Nachweis der Abhängigkeit Statistik p.40/77

Computerausgabe > model <- lm(mortality ~ Smoking, data = Rauchen) > anova(model) Analysis of Variance Table Response: Mortality Df Sum Sq Mean Sq F value Pr(>F) Smoking 1 8395.7 8395.7 24.228 5.658e-05 *** Residuals 23 7970.3 346.5 --- Signif. codes: 0 ^aăÿ***^aăź 0.001 ^aăÿ**^aăź 0.01 ^aăÿ*^aăź 0.05 ^aăÿ.^aă Der p-wert wird steht in der letzten Spalte der Tabelle. Statistik p.41/77

Beispiel: Brustkrebs Mortality 60 70 80 90 100 35 40 45 50 Temperature Mortality = 21.795 + 2.358Temperature Statistik p.42/77

Computerausgabe > model <- lm(mortality ~ Temperature, data = Brustkrebs) > model Call: lm(formula = Mortality ~ Temperature, data = Brustkrebs) Coefficients: (Intercept) Temperature -21.795 2.358 > anova(model) Analysis of Variance Table Response: Mortality Df Sum Sq Mean Sq F value Pr(>F) Temperature 1 2599.53 2599.53 45.669 9.202e-06 *** Statistik p.43/77

Konfidenzintervall Konfidenzbereich fuer die Gerade Mortality 60 70 80 90 100 35 40 45 50 Temperature Mortality = 21.795 + 2.358Temperature Statistik p.44/77

Vorhersageintervall Konfidenzbereich fuer die Punkte Mortality 60 70 80 90 100 35 40 45 50 Temperature Mortality = 21.795 + 2.358Temperature Statistik p.45/77

Beispiel: Wachstum height 76 78 80 82 18 20 22 24 26 28 age height = 64.928 + 0.635age Statistik p.46/77

Computerausgabe > model <- lm(height ~ age, data = Wachstum) > model Call: lm(formula = height ~ age, data = Wachstum) Coefficients: (Intercept) age 64.928 0.635 > anova(model) Analysis of Variance Table Response: height Df Sum Sq Mean Sq F value Pr(>F) age 1 57.655 57.655 880 4.428e-11 *** Statistik p.47/77

Konfidenzintervall Konfidenzbereich fuer die Gerade height 76 78 80 82 18 20 22 24 26 28 age height = 64.928 + 0.635age Statistik p.48/77

Vorhersageintervall Konfidenzbereich fuer die Punkte height 76 78 80 82 18 20 22 24 26 28 age height = 64.928 + 0.635age Statistik p.49/77

Stärke des Zusammenhangs bewerten: Korrelation und R 2 Statistik p.50/77

Residualstreuung height 76 78 80 82 18 20 22 24 26 28 age height = 64.928 + 0.635age Statistik p.51/77

Residualstreuung Mortality 60 80 100 120 140 70 80 90 100 110 120 130 Smoking Mortality = 2.885 + 1.088Smoking Statistik p.51/77

Residualstreuung Mortality 60 70 80 90 100 35 40 45 50 Temperature Mortality = 21.795 + 2.358Temperature Statistik p.51/77

R 2 Def: Das Bestimmtheitsmaß R 2 ist gegeben durch R 2 = var(y ˆ ) var(r) ˆ vary ˆ also die erklärte Streuung, geteilt durch die Gesamtstreuung im Datensatz. Es gilt: R 2 = cor(x,y ˆ ) 2 Da R 2 allgemein für ein Model definiert ist kann es weiter eingesetzt werden, als die Pearson Korrelation. Statistik p.52/77

Interpretation von R 2 R 2 [0, 1] Statistik p.53/77

Interpretation von R 2 R 2 [0, 1] R 2 = 0 keine Abhängigkeit erkennbar. Statistik p.53/77

Interpretation von R 2 R 2 [0, 1] R 2 = 0 keine Abhängigkeit erkennbar. R 2 = 1 Ŷi = Y i, Modell erklärt Daten perfekt. Statistik p.53/77

Computerausgabe > R2 <- function(m) var(predict(m))/var(predict(m) + + resid(m)) > R2(lm(height ~ age, data = Wachstum)) [1] 0.988764 > R2(lm(Mortality ~ Smoking, data = Rauchen)) [1] 0.5129995 > R2(lm(Mortality ~ Temperature, data = Brustkrebs)) [1] 0.7653702 Statistik p.54/77

Der Blinde Fleck der Regression Statistik p.55/77

Das Anscombe Quartet y1 4 6 8 10 y2 3 5 7 9 4 6 8 10 12 14 x1 4 6 8 10 12 14 x2 y3 6 8 10 y4 6 8 10 4 6 8 10 12 14 x3 8 10 14 18 x4 Statistik p.56/77

Regressionsgeraden y1 4 6 8 10 y2 3 5 7 9 4 6 8 10 12 14 x1 y1 = 3 + 0.5x1 4 6 8 10 12 14 x2 y2 = 3.001 + 0.5x2 y3 6 8 10 y4 6 8 10 4 6 8 10 12 14 x3 y3 = 3.002 + 0.5x3 8 10 14 18 x4 y4 = 3.002 + 0.5x4 Statistik p.57/77

Konfidenzintervalle Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera y1 4 6 8 10 y2 3 5 7 9 4 6 8 10 12 14 x1 y1 = 3 + 0.5x1 4 6 8 10 12 14 x2 y2 = 3.001 + 0.5x2 Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera y3 6 8 10 y4 6 8 10 4 6 8 10 12 14 x3 y3 = 3.002 + 0.5x3 8 10 14 18 x4 y4 = 3.002 + 0.5x4 Statistik p.58/77

Vorhersageintervalle Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk y1 4 6 8 10 y2 3 5 7 9 4 6 8 10 12 14 x1 y1 = 3 + 0.5x1 4 6 8 10 12 14 x2 y2 = 3.001 + 0.5x2 Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk y3 6 8 10 y4 6 8 10 4 6 8 10 12 14 x3 y3 = 3.002 + 0.5x3 8 10 14 18 x4 y4 = 3.002 + 0.5x4 Statistik p.59/77

Was war das Problem? Voraussetzungen nicht erfüllt Ausreißer in den Daten sehr einflußreiche Punkte Statistik p.60/77

Regressionsdiagnostik Statistik p.61/77

4 6 8 10 12 14 x1 y1 = 3 + 0.5x1 Anscombe 1 5 6 7 8 9 10 y1 4 6 8 10 resid(m) 2 0 1 5 6 7 8 9 10 predict(m) predict(m) 5 6 7 8 9 10 Hebelwirkung 0.0 0.4 0.8 Cook distance 0.0 0.4 0.8 predict(m) Statistik p.62/77

residuals vs. predicted Hängt die Streuung vom Vorhersagewert ab? Gibt es extrem große Residuen? Treten die Vorhersagewerte gleichmäßig auf? Treten die Residuen gleichmäßig auf? Gibt es Strukturen? Statistik p.63/77

Hebelwirkung θ i = Änderung von Ŷi pro Änderung von Y i Wer weniger Kraft braucht sitzt am längeren Hebel Mißt die potentielle Wirkung eines Ausreißers im Regressant an dieser Stelle. Zeigt wie wichtig eine Beobachtung für die Schätzung ist. Große Werte deuten auf Unzuverlässige Schätzungen hin. Statistik p.64/77

Cook s Distanz c i = Maß für tatsächlicher Einfluß der Beobachtung Y i Große Werten bedeuten, dass die Beobachtung vom dem abweicht, was die anderen Werte über diese Stelle aussagen würden. Statistik p.65/77

4 6 8 10 12 14 x1 y1 = 3 + 0.5x1 Anscombe 1 5 6 7 8 9 10 y1 4 6 8 10 resid(m) 2 0 1 5 6 7 8 9 10 predict(m) predict(m) 5 6 7 8 9 10 Hebelwirkung 0.0 0.4 0.8 Cook distance 0.0 0.4 0.8 predict(m) Statistik p.66/77

4 6 8 10 12 14 x2 y2 = 3.001 + 0.5x2 Anscombe 2 5 6 7 8 9 10 y2 3 5 7 9 resid(m) 2.0 0.5 1.0 5 6 7 8 9 10 predict(m) predict(m) 5 6 7 8 9 10 Hebelwirkung 0.0 0.4 0.8 Cook distance 0.0 0.4 0.8 predict(m) Statistik p.67/77

4 6 8 10 12 14 x3 y3 = 3.002 + 0.5x3 Anscombe 3 5 6 7 8 9 10 y3 6 8 10 resid(m) 1 1 2 3 5 6 7 8 9 10 predict(m) predict(m) 5 6 7 8 9 10 Hebelwirkung 0.0 0.4 0.8 Cook distance 0.0 0.4 0.8 predict(m) Statistik p.68/77

8 10 14 18 x4 y4 = 3.002 + 0.5x4 Anscombe 4 7 8 9 10 12 y4 6 8 10 resid(m) 1.5 0.0 1.5 7 8 9 10 12 predict(m) predict(m) 7 8 9 10 12 Hebelwirkung 0.0 0.4 0.8 Cook distance 0.0 0.4 0.8 predict(m) Statistik p.69/77

Wachstumsdaten 18 22 26 77 79 81 83 age height = 64.928 + 0.635age height 76 80 resid(m) 0.2 0.2 predict(m) 77 79 81 83 77 79 81 83 predict(m) Hebelwirkung 0.0 0.4 0.8 Cook distance 0.0 0.4 0.8 predict(m) Statistik p.70/77

Raucherdaten 60 100 70 90 110 130 80 100 120 140 Smoking Mortality = 2.885 + 1.088Smoking Mortality resid(m) 30 0 20 predict(m) 0.0 0.4 0.8 80 100 120 140 80 100 120 140 predict(m) Hebelwirkung Cook distance 0.0 0.4 0.8 predict(m) Statistik p.71/77

Brustkrebsdaten 60 80 100 35 40 45 50 60 70 80 90 Temperature Mortality = 21.795 + 2.358Temperatu Mortality resid(m) 10 0 10 predict(m) 0.0 0.4 0.8 60 70 80 90 60 70 80 90 predict(m) Hebelwirkung Cook distance 0.0 0.4 0.8 predict(m) Statistik p.72/77

Robuste Schätzung Statistik p.73/77

Idee der robusten Schätzung Minimiere den mittleren quadratischen Abstand zu den n k-nächsten Punkten. Dann können k-ausreißer die Gerade nicht stark beeinflussen. Statistik p.74/77

Weitere Beispiele Statistik p.75/77

Chromatograph response 0 200 400 600 800 0 5 10 15 20 amount response = 14.411 + 46.629amount Statistik p.76/77

Chromatograph Konfidenzbereich fuer die Gerade response 0 200 400 600 800 0 5 10 15 20 amount response = 14.411 + 46.629amount Statistik p.76/77

Chromatograph Konfidenzbereich fuer die Punkte response 0 200 400 600 800 0 5 10 15 20 amount response = 14.411 + 46.629amount Statistik p.76/77

Chromatograph 0 400 800 0 5 10 15 20 0 200 600 amount response = 14.411 + 46.629amount response resid(m) 15 5 5 predict(m) 0.0 0.4 0.8 0 200 600 0 200 600 predict(m) Hebelwirkung Cook distance 0.0 0.4 0.8 predict(m) Statistik p.76/77

Luftqualität > pairs(airquality) > pairs(airquality) > showgeraden(ozone ~ Solar.R, data = airquality) > showgeraden(ozone ~ Solar.R, data = airquality, + diag = T) > pairs(airquality) > par(mfrow = c(1, 1)) > showgeraden(ozone ~ Temp, data = airquality) > showgeraden(ozone ~ Temp, data = airquality, alpha = + diag = T) > par(mfrow = c(1, 1)) Statistik p.77/77