Statistik Vorlesung 7 (Lineare Regression)
|
|
- Kevin Ursler
- vor 7 Jahren
- Abrufe
Transkript
1 Statistik Vorlesung 7 (Lineare Regression) K.Gerald van den Boogaart Statistik p.1/77
2 Gerade als Vereinfachung Wachstum bei Kindern height age in Monaten Statistik p.4/77
3 In Formeln Das Modell Y i = a + bx i + ǫ i a, b sind unbekannt. Der Computer schätzt die Werte als: cov(x,y ˆ ) ˆb = var(x) ˆ â = Ȳ Xˆb Statistik p.5/77
4 Computerausgabe > model <- lm(height ~ age, data = Wachstum) > model Call: lm(formula = height ~ age, data = Wachstum) Coefficients: (Intercept) age Statistik p.6/77
5 Definitionen Das Modell a heißt Achsenabschnitt b heißt Steigung Die X i heißen Regressor Y i = a + bx i + ǫ i Die Y i heißen Regressant Die ǫ i heißen Fehlerterm. weil ǫ den Fehler der Vereinfachung Gerade beinhaltet. Statistik p.7/77
6 Achsenabschnitt und Steigung Mortality * Smoking Statistik p.8/77
7 Vorhersagewerte Wachstum bei Kindern height age in Monaten Statistik p.9/77
8 Die Vorhersagewerte Das Regressionsmodel: Y i = a + bx i + ǫ i Wenn wir von den Unzulänglichkeiten Das a und b nur geschätzt werden können. Die Gerade nur bis auf den Fehler ǫ stimmt. absehen würden wir also annehmen, dass für X = x dann y = a + bx sein müßte. Diesen Wert bezeichnen wir als die vom Modell vorhergesagten Werte Ŷi: Ŷ i := â + ˆbX i Statistik p.10/77
9 Computerausgabe > predict(model) Statistik p.11/77
10 Residuen Wachstum bei Kindern height age in Monaten Statistik p.12/77
11 Schätzung und Residuen Das Regressionsmodel: Y i = a + bx i + ǫ i Wir kennen aber nur die Schätzwerte â und ˆb und erhalten eine neue Gleichung: Y i = â + ˆbX i + r i ˆb = cov(x,y ˆ ) var(x) ˆ der Schätzwert für b. â = Ȳ Xˆb ist der Schätzwert für b Die r i heißen Residuen residuum: lat. für das Übriggebliebene Statistik p.13/77
12 Beispiel II: Rauchen Mortality Smoking Statistik p.14/77
13 Computerausgabe > model <- lm(mortality ~ Smoking, data = Rauchen) > model Call: lm(formula = Mortality ~ Smoking, data = Rauchen) Coefficients: (Intercept) Smoking > predict(model) Farmers, foresters, and fisherman Miners and quarrymen Gas, coke and chemical makers Statistik p.15/77
14 Graphische Interpretation Mortality y = a + b*x +? y = *x +? 1.09*50 50 Mortality = a + b*smoking +? Mortality = *Smoking +? Smoking Statistik p.16/77
15 Normalansicht Schritt 1 Mortality Smoking Statistik p.17/77
16 Regressionsgerade Mortality Smoking Statistik p.18/77
17 odellvorstellung: Ungenaue Beschreibung Das Regressionsmodel: Y i = a + bx i + ǫ i ist sich darüber bewußt, dass die Gerade die Wirklichkeit nicht genau beschreibt. Man geht davon aus, dass die Abweichungen von der Gerade zufällig, unabhängig voneinander und im Mittel 0 sind. Statistik p.19/77
18 Bestimmung der Geraden Die Regressionsgerade wird so bestimmt, dass n (Y i (â + ˆbX i )) 2 i=1 so klein wie möglich wird. Dieses Verfahren nennt man: Kleinste Quadrate Dieses Vefahren ist besonders gut, wenn gewisse Annahmen erfüllt sind. Annahmen: Die ǫ i sind normalverteilt mit Erwartungswert 0 und einer unbekannten Varianz σ 2. Statistik p.20/77
19 Vorhersagewerte Mortality Smoking Statistik p.21/77
20 Statistische Vorhersagen Die Vorhersagewerte sind also keineswegs eine feststehende Wahrheit, sondern geben lediglich eine Tendenz an. Sie lassen Raum für andere Einflüsse. Im Mittel werden die Vorhersagewerte allerdings richtig sein. Statistik p.22/77
21 Residuen Mortality Smoking Statistik p.23/77
22 Vorhersagewerte und Residuen Wir haben also: Y i Y i Ŷ i = a + bx i + ǫ i = â + ˆbX i + r i = â + ˆbX i und somit r i = Y i Ŷi Statistik p.24/77
23 Brustkrebs Mortality Temperature Statistik p.25/77
24 Sinn oder Unsinn,... Die Regression kann auf jeden Datensatz angewendet werden..., aber ist das auch immer sinnvoll? Statistik p.26/77
25 Stichprobeneinfluß Statistik p.27/77
26 Demonstration: Stichprobenwahl Abhängig von der Wahl der Stichprobe werden die Geraden verschieden geschätzt. Das werden wir auf der nächsten Folie demonstrien indem wir jeweils 15 der Datenpunkte zufällig auswählen und die Gerade nur aufgrund dieser Punkte schätzen lassen. Statistik p.28/77
27 Demonstration: Stichprobenwahl Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.29/77
28 Konfidenzintervall für die Vorhersage Wir können einen Bereich einzeichnen in dem der wahre Wert E[Y ] = a + bx mit 1 α = 95% Wahrscheinlichkeit zu liegen kommt: Die Formel ist kompliziert: u(x) = â + ˆbx + ˆ sd(ǫ)q tn 2,1 α/2(c 1 + 2c 2 x + c 3 x 2 ) l(x) = â + ˆbx ˆ sd(ǫ)q tn 2,α/2(c 1 + 2c 2 x + c 3 x 2 ) mit q tn 2,1 α/2 dem 1 α/2-quantil der t-verteilung und ( c 1 c 2 c 2 c 3 ) = ( n Xi Xi X 2 i ) 1 ohne Gewähr. Statistik p.30/77
29 Demonstration des Konfidenzintervalls Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.31/77
30 Sinn oder Unsinn,... Eine wichtige Frage ist also immer, ob eventuell kein Zusammenhang bestehen konnte. Wenn X und Y unabhängig sind, dann ändert sich der Erwartungswert von Y nicht in Abhängigkeit von X: Y = a + 0X + ǫ Statistik p.32/77
31 Könnte kein Zusammenhang bestehen? Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.33/77
32 Ergebnisse Das 95%-Konfidenzintervalle (für die Gerade) ist ein zufälliges Intervall um die geschätzte Gerade, dass an jeder Stelle die wahren Gerade mit einer wahrscheinlichkeit von 95% umschließt. Statistik p.34/77
33 Nochmal mit weniger Daten Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.35/77
34 Das Vorhersageintervall Frage: In welchem Bereich liegen die Sterblichkeit bei einer Berufsgruppe die 130% raucht? Lösung: Das Vorhersageintervall Die Formel ist kompliziert: u(x) = â + ˆbx + ˆ sd(ǫ)q tn 2,1 α/2(1 + c 1 + 2c 2 x + c 3 x 2 ) l(x) = â + ˆbx ˆ sd(ǫ)q tn 2,α/2(1 + c 1 + 2c 2 x + c 3 x 2 ) mit q tn 2,p dem p-quantil der t-verteilung und ( ohne Gewähr. c 1 c 2 c 2 c 3 ) = ( n Xi Xi X 2 i ) 1 Statistik p.36/77
35 Formeln c 0 = 1 n X 2 i ( i X i) 2 c 1 = c 0 X 2 i c 2 c 3 ˆ sd(ǫ) = = c 0 Xi = c 0 n 1 n 2 n i=1 r 2 i ohne Gewähr Statistik p.37/77
36 Demonstration des Vorhersageintervalls Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk Mortality Mortality Smoking Mortality = Smoking Smoking Mortality = Smoking Statistik p.38/77
37 Ergebnisse Die Vorhersageintervalle sind bedeutend breiter als die Konfidenzintervalle. Echte Aussage über die einzelne Berufsgruppe sind offenbar nur für extremes Raucheverhalten zu treffen: Vorhersage von Werten ist bedeutend schwieriger als die Vorhersage von Tendenzen. Statistik p.39/77
38 Der Regressionstest Steigung = 0 X,Y unabhängig. Dieses Problem kann mit einem Test untersucht werden: Regressionstest: H 0 : b = 0 vs. H 1 : b 0 Voraussetzungen: wie Regression Anwendung: Nachweis der Abhängigkeit Statistik p.40/77
39 Computerausgabe > model <- lm(mortality ~ Smoking, data = Rauchen) > anova(model) Analysis of Variance Table Response: Mortality Df Sum Sq Mean Sq F value Pr(>F) Smoking e-05 *** Residuals Signif. codes: 0 ^aăÿ***^aăź ^aăÿ**^aăź 0.01 ^aăÿ*^aăź 0.05 ^aăÿ.^aă Der p-wert wird steht in der letzten Spalte der Tabelle. Statistik p.41/77
40 Beispiel: Brustkrebs Mortality Temperature Mortality = Temperature Statistik p.42/77
41 Computerausgabe > model <- lm(mortality ~ Temperature, data = Brustkrebs) > model Call: lm(formula = Mortality ~ Temperature, data = Brustkrebs) Coefficients: (Intercept) Temperature > anova(model) Analysis of Variance Table Response: Mortality Df Sum Sq Mean Sq F value Pr(>F) Temperature e-06 *** Statistik p.43/77
42 Konfidenzintervall Konfidenzbereich fuer die Gerade Mortality Temperature Mortality = Temperature Statistik p.44/77
43 Vorhersageintervall Konfidenzbereich fuer die Punkte Mortality Temperature Mortality = Temperature Statistik p.45/77
44 Beispiel: Wachstum height age height = age Statistik p.46/77
45 Computerausgabe > model <- lm(height ~ age, data = Wachstum) > model Call: lm(formula = height ~ age, data = Wachstum) Coefficients: (Intercept) age > anova(model) Analysis of Variance Table Response: height Df Sum Sq Mean Sq F value Pr(>F) age e-11 *** Statistik p.47/77
46 Konfidenzintervall Konfidenzbereich fuer die Gerade height age height = age Statistik p.48/77
47 Vorhersageintervall Konfidenzbereich fuer die Punkte height age height = age Statistik p.49/77
48 Stärke des Zusammenhangs bewerten: Korrelation und R 2 Statistik p.50/77
49 Residualstreuung height age height = age Statistik p.51/77
50 Residualstreuung Mortality Smoking Mortality = Smoking Statistik p.51/77
51 Residualstreuung Mortality Temperature Mortality = Temperature Statistik p.51/77
52 R 2 Def: Das Bestimmtheitsmaß R 2 ist gegeben durch R 2 = var(y ˆ ) var(r) ˆ vary ˆ also die erklärte Streuung, geteilt durch die Gesamtstreuung im Datensatz. Es gilt: R 2 = cor(x,y ˆ ) 2 Da R 2 allgemein für ein Model definiert ist kann es weiter eingesetzt werden, als die Pearson Korrelation. Statistik p.52/77
53 Interpretation von R 2 R 2 [0, 1] R 2 = 0 keine Abhängigkeit erkennbar. R 2 = 1 Ŷi = Y i, Modell erklärt Daten perfekt. Statistik p.53/77
54 Computerausgabe > R2 <- function(m) var(predict(m))/var(predict(m) + + resid(m)) > R2(lm(height ~ age, data = Wachstum)) [1] > R2(lm(Mortality ~ Smoking, data = Rauchen)) [1] > R2(lm(Mortality ~ Temperature, data = Brustkrebs)) [1] Statistik p.54/77
55 Der Blinde Fleck der Regression Statistik p.55/77
56 Das Anscombe Quartet y y x x2 y y x x4 Statistik p.56/77
57 Regressionsgeraden y y x1 y1 = x x2 y2 = x2 y y x3 y3 = x x4 y4 = x4 Statistik p.57/77
58 Konfidenzintervalle Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera y y x1 y1 = x x2 y2 = x2 Konfidenzbereich fuer die Gera Konfidenzbereich fuer die Gera y y x3 y3 = x x4 y4 = x4 Statistik p.58/77
59 Vorhersageintervalle Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk y y x1 y1 = x x2 y2 = x2 Konfidenzbereich fuer die PunkKonfidenzbereich fuer die Punk y y x3 y3 = x x4 y4 = x4 Statistik p.59/77
60 Was war das Problem? Voraussetzungen nicht erfüllt Ausreißer in den Daten sehr einflußreiche Punkte Statistik p.60/77
61 Regressionsdiagnostik Statistik p.61/77
62 x1 y1 = x1 Anscombe y resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.62/77
63 residuals vs. predicted Hängt die Streuung vom Vorhersagewert ab? Gibt es extrem große Residuen? Treten die Vorhersagewerte gleichmäßig auf? Treten die Residuen gleichmäßig auf? Gibt es Strukturen? Statistik p.63/77
64 Hebelwirkung θ i = Änderung von Ŷi pro Änderung von Y i Wer weniger Kraft braucht sitzt am längeren Hebel Mißt die potentielle Wirkung eines Ausreißers im Regressant an dieser Stelle. Zeigt wie wichtig eine Beobachtung für die Schätzung ist. Große Werte deuten auf Unzuverlässige Schätzungen hin. Statistik p.64/77
65 Cook s Distanz c i = Maß für tatsächlicher Einfluß der Beobachtung Y i Große Werten bedeuten, dass die Beobachtung vom dem abweicht, was die anderen Werte über diese Stelle aussagen würden. Statistik p.65/77
66 x1 y1 = x1 Anscombe y resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.66/77
67 x2 y2 = x2 Anscombe y resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.67/77
68 x3 y3 = x3 Anscombe y resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.68/77
69 x4 y4 = x4 Anscombe y resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.69/77
70 Wachstumsdaten age height = age height resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.70/77
71 Raucherdaten Smoking Mortality = Smoking Mortality resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.71/77
72 Brustkrebsdaten Temperature Mortality = Temperatu Mortality resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.72/77
73 Robuste Schätzung Statistik p.73/77
74 Idee der robusten Schätzung Minimiere den mittleren quadratischen Abstand zu den n k-nächsten Punkten. Dann können k-ausreißer die Gerade nicht stark beeinflussen. Statistik p.74/77
75 Weitere Beispiele Statistik p.75/77
76 Chromatograph response amount response = amount Statistik p.76/77
77 Chromatograph Konfidenzbereich fuer die Gerade response amount response = amount Statistik p.76/77
78 Chromatograph Konfidenzbereich fuer die Punkte response amount response = amount Statistik p.76/77
79 Chromatograph amount response = amount response resid(m) predict(m) predict(m) Hebelwirkung Cook distance predict(m) Statistik p.76/77
80 Luftqualität > pairs(airquality) > pairs(airquality) > showgeraden(ozone ~ Solar.R, data = airquality) > showgeraden(ozone ~ Solar.R, data = airquality, + diag = T) > pairs(airquality) > par(mfrow = c(1, 1)) > showgeraden(ozone ~ Temp, data = airquality) > showgeraden(ozone ~ Temp, data = airquality, alpha = + diag = T) > par(mfrow = c(1, 1)) Statistik p.77/77
Statistik Vorlesung 7 (Lineare Regression)
Statistik Vorlesung 7 (Lineare Regression) K.Gerald van den Boogaart http://www.stat.boogaart.de/ Statistik p.1/77 > Brustkrebs Chroma
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga
Mehr5. Übung Datenanalyse und Statistik WS07/08 (Boogaart, Jansen)
5. Übung Datenanalyse und Statistik WS07/08 (Boogaart, Jansen) Bringen Sie alles mit, was Ihnen helfen kann die letzte Aufgabe zu lösen: Taschenrechner, Laptop, Tafelwerke, oder.... Installieren Sie z.b.
Mehr7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
MehrStatistik Vorlesung 8 (Lineare Modelle)
Statistik p. 1/?? Statistik Vorlesung 8 (Lineare Modelle) K.Gerald van den Boogaart http://www.stat.boogaart.de Statistik p. 2/?? Lineare Modelle Def: Statistische Modelle der Form: Y i = c 0 + c 1 f 1
MehrStatistik II für Betriebswirte Vorlesung 8
Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrPrognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
Mehrlineare Regression Wittmann Einleitung Problemstellung Beispiel Lineare Regression Ansatz kleinste Quadrate Güte Schluss Pascal Wittmann 1/22
Pascal 1/22 Inhaltsverzeichnis 2/22 Inhaltsverzeichnis 2/22 Inhaltsverzeichnis 2/22 Es sind Paare von Messwerten (x i,y i ) mit i {1,...,n} und n 2 gegeben. Diese stellen geometrisch eine Punktwolke im
MehrEine Einführung in R: Varianzanalyse
Eine Einführung in R: Varianzanalyse Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2011 Bernd Klaus, Verena Zuber Das
MehrEinführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens
in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2013 Hochschule Augsburg Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht
MehrBiostatistik 101 Korrelation - Regressionsanalysen
Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander
MehrEine Einführung in R: Das Lineare Modell
Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 29. November 2012 Bernd Klaus, Verena Zuber,
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrSchweizer Statistiktage, Aarau, 18. Nov. 2004
Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der
MehrEine Einführung in R: Varianzanalyse
Eine Einführung in R: Varianzanalyse Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 13. Dezember 2012 Bernd Klaus, Verena Zuber,
MehrEine Einführung in R: Das Lineare Modell
Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 9. Dezember 2010 Bernd Klaus, Verena Zuber
MehrBiostatistik 101 Korrelation - Regressionsanalysen
Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander
MehrDiagnostik von Regressionsmodellen (1)
Diagnostik von Regressionsmodellen (1) Bei Regressionsanalysen sollte immer geprüft werden, ob das Modell angemessen ist und ob die Voraussetzungen eines Regressionsmodells erfüllt sind. Das Modell einer
MehrEine Einführung in R: Varianzanalyse
Eine Einführung in R: Varianzanalyse Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 13. Januar 2009 Bernd Klaus, Verena Zuber Das
Mehr6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
MehrZusammenfassung 11. Sara dos Reis.
Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt
MehrLineare Regression in R, Teil 1
Lineare Regression in R, Teil 1 Christian Kleiber Abt. Quantitative Methoden, WWZ, Universität Basel October 6, 2009 1 Vorbereitungen Zur Illustration betrachten wir wieder den Datensatz CASchools aus
MehrMarcel Dettling. Grundlagen der Mathematik II FS 2015 Woche 14. ETH Zürich, 27. Mai Institut für Datenanalyse und Prozessdesign
Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling ETH Zürich, 7. Mai 015 1 Regression Beispiel:
MehrMultiple Regression III
Multiple Regression III Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Überprüfung der Modellannahmen Residuen-Plot Normal-Q-Q-Plot Cook s Distanz-Plot Maßnahmen bei Abweichungen von Modellannahmen
MehrEine Einführung in R: Das Lineare Modell
Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2009 Bernd Klaus, Verena Zuber
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
Mehrsimple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall
Regression Korrelation simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall Zusammenhänge zw. Variablen Betrachtet man mehr als eine Variable, so besteht immer auch
MehrMathematik III - Statistik für MT(Master)
3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe
MehrLineare Modelle in R: Klassische lineare Regression
Lineare Modelle in R: Klassische lineare Regression Achim Zeileis 2009-02-20 1 Das Modell Das klassische lineare Regressionsmodell versucht den Zusammenhang zwischen einer abhängigen Variablen (oder Responsevariablen)
MehrDabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen
Lineare Regression und Matrizen. Einführendes Beispiel Der im Kapitel Skalarprodukt gewählte Lösungsweg für das Problem der linearen Regression kann auch mit Matrizen formuliert werden. Die Idee wird zunächst
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrBeispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
MehrVorlesung 7b. Kovarianz und Korrelation
Vorlesung 7b Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X,Y]:= E [ (X EX)(Y EY) ] Insbesondere ist
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei
MehrDeskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
MehrStatistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536
fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung
Mehr6.2 Regressionsanalyse I: Die lineare Einfachregression
6.2 Regressionsanalyse I: Die lineare Einfachregression 6.2.1 Grundbegriffe und Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren. Vielfache Anwendung in
MehrBeispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
MehrRegression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
MehrVorlesung 9b. Kovarianz und Korrelation
Vorlesung 9b Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X,Y]:= E [ (X EX)(Y EY) ] Insbesondere ist
MehrWiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung
Regression II Statistik I Sommersemester 2009 Statistik I Regression II (1/33) R 2 Root Mean Squared Error Statistik I Regression II (2/33) Zum Nachlesen Agresti: 9.1-9.4 Gehring/Weins: 8 Schumann: 8.1-8.2
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrTeil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
Mehr11. Übungsblatt zur Vorlesung Ökonometrie SS 2014
Universität des Saarlandes Lehrstab Statistik Dr. Martin Becker Dipl.-Kfm. Andreas Recktenwald 11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Aufgabe 45 Die in Aufgabe 43 getroffene Annahme heteroskedastischer
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrTeil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.
Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrVorlesung 8b. Kovarianz, Korrelation und Regressionsgerade
Vorlesung 8b Kovarianz, Korrelation und Regressionsgerade 1 1. Die Kovarianz und ihre Eigenschaften 2 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und
MehrProf. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006
Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand
MehrEinleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse
Einleitung Statistik Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Der Begriff Varianzanalyse (analysis of variance, ANOVA) taucht an vielen Stellen in der Statistik mit unterschiedlichen
Mehr1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:
Beispiele zum Üben und Wiederholen zu Wirtschaftsstatistik 2 (Kurs 3) 1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Haushaltseinkommen 12 24 30 40 80 60
Mehr13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017
13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl
MehrAufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:
Aufgabe 1 (8=2+2+2+2 Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Die Zufallsvariable X bezeichne die Note. 1443533523253. a) Wie groß ist h(x 5)? Kreuzen
MehrStatistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn
Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2014 Mehrdimensionale Datensätze: Multivariate Statistik Multivariate Statistik Mehrdimensionale Datensätze:
MehrVersuchsplanung und multivariate Statistik Sommersemester 2018
Versuchsplanung und multivariate Statistik Sommersemester 2018 Vorlesung 11: Lineare und nichtlineare Modellierung I Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 6.6.2018
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrVorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression
Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik Regression Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München 39 Einfache lineare Regression Bestimmung der Regressionsgerade
Mehr0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1
Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x
MehrSchriftliche Prüfung (90 Minuten)
Dr. M. Kalisch Prüfung Statistik I Sommer 2015 Schriftliche Prüfung (90 Minuten) Bemerkungen: Erlaubte Hilfsmittel: 10 hand- oder maschinengeschriebene A4 Seiten (=5 Blätter). Taschenrechner ohne Kommunikationsmöglichkeit.
MehrMusterlösung zu Serie 1
Prof. Dr. W. Stahel Regression HS 2015 Musterlösung zu Serie 1 1. a) > d.bv plot(blei ~ verkehr, data = d.bv, main
MehrStatistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services
Statistische Datenanalyse mit R, Korrelation und Regression Dr. Andrea Denecke Leibniz Universität IT-Services Korrelationsanalyse Eine Korrelationsanalyse soll herausfinden Ob ein linearer Zusammenhang
Mehr3.3 Konfidenzintervalle für Regressionskoeffizienten
3.3 Konfidenzintervalle für Regressionskoeffizienten Konfidenzintervall (Intervallschätzung): Angabe des Bereichs, in dem der "wahre" Regressionskoeffizient mit einer großen Wahrscheinlichkeit liegen wird
MehrEine Einführung in R: Lineare Regression
Eine Einführung in R: Lineare Regression (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365
MehrKorrelation - Regression. Berghold, IMI
Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines
MehrKonfidenz-, Prognoseintervalle und Hypothesentests IV im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
4 Multiple lineare Regression Heteroskedastische Störgrößen 4.10 Konfidenz-, Prognoseintervalle und Hypothesentests IV im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen Ein approximatives
MehrEine Einführung in R: Lineare Regression
Eine Einführung in R: Lineare Regression Katja Nowick, Lydia Müller und Markus Kreuz Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.bioinf.uni-leipzig.de/teaching/currentclasses/class211.html
MehrStatistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik
Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv,
MehrSchätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
MehrLineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
Mehr1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrGrundlagen der schließenden Statistik
Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46 Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen
MehrKovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen
Kovarianzanalyse 1 metrische und mehrere metrische und kategoriale Variablen Methoden empirischer Sozialforschung Lineare Modelle (2. Teil) Wie läßt sich die Abhängigkeit einer metrischen Variablen von
MehrGoethe-Universität Frankfurt
Goethe-Universität Frankfurt Fachbereich Wirtschaftswissenschaft PD Dr. Martin Biewen Dr. Ralf Wilke Sommersemester 2006 Klausur Statistik II 1. Alle Aufgaben sind zu beantworten. 2. Bitte runden Sie Ihre
MehrEinführung in Quantitative Methoden
in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr in Quantitative Methoden- 2.VO 1/47 Historisches Regression geht auf Galton
MehrSchätzung im multiplen linearen Modell VI
Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,
MehrWirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Sommersemester Namensschild. Dr.
Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Sommersemester 2013 Namensschild Dr. Martin Becker Hinweise für die Klausurteilnehmer ˆ Kleben Sie bitte sofort Ihr Namensschild
MehrSchriftliche Prüfung (90 Minuten)
Dr. M. Kalisch Prüfung Statistik I Winter 2016 Schriftliche Prüfung (90 Minuten) Bemerkungen: Erlaubte Hilfsmittel: 10 hand- oder maschinengeschriebene A4 Seiten (=5 Blätter). Taschenrechner ohne Kommunikationsmöglichkeit.
MehrLineare Regression mit einem Regressor: Einführung
Lineare Regression mit einem Regressor: Einführung Quantifizierung des linearen Zusammenhangs von zwei Variablen Beispiel Zusammenhang Klassengröße und Testergebnis o Wie verändern sich Testergebnisse,
MehrMathematische und statistische Methoden II
Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte
MehrWirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Wintersemester 2012/13. Namensschild. Dr.
Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Wintersemester 2012/13 Namensschild Dr. Martin Becker Hinweise für die Klausurteilnehmer ˆ Kleben Sie bitte sofort Ihr Namensschild
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002 1. Ein Chemiestudent hat ein Set von 10 Gefäßen vor sich stehen, von denen vier mit Salpetersäure Stoff A), vier mit Glyzerin Stoff
MehrAnalyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
MehrBreusch-Pagan-Test I auf Heteroskedastie in den Störgrößen
Breusch-Pagan-Test I Ein weiterer Test ist der Breusch-Pagan-Test. Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine (einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.
MehrDas Lineare Regressionsmodell
Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 9. Dezember 2010 1 Konfidenzintervalle Idee Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel Grundlagen
MehrAufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)
Aufgabe 3 (6 + 4 + 8 + 4 + 10 + 4 + 9 + 4 + 8 = 57 Punkte) Hinweis: Beachten Sie die Tabellen mit Quantilen am Ende der Aufgabenstellung! Mit Hilfe eines multiplen linearen Regressionsmodells soll auf
Mehr2.5 Lineare Regressionsmodelle
2.5.1 Wiederholung aus Statistik I Gegeben Datenpunkte (Y i, X i ) schätze die beste Gerade Y i = β 0 + β 1 X i, i = 1,..., n. 2 Induktive Statistik 409 Bsp. 2.30. [Kaffeeverkauf auf drei Flohmärkten]
Mehr