Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Ähnliche Dokumente
Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by Erster Spieltag (15. bis 16. August)

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag

Ergebnis. Tipp. Punkte. Tipp. Ergebnis. Punkte. Tipp. Ergebnis. Punkte. Punkte

Fußball-Ergebnistipps, Saison 2015/16

!!! !!! Bundesligaspielplan Saison 2015/16! Hinrunde:! 1. Spieltag 14. bis 16. August 2015! Heim - Gast!

Spieltage. 17.Runde : Runde : Runde : Runde :

Bundesligatip 2015/2016. Teilnehmer

Fussball-Bundeliga Saison 1964 / 65

Tippspiel Rückserie 2015 / Name : E - Mail. 18. Spieltag Fr So Punk te. Tipp

Spiel Nr. 21 Tipp Spiel Nr. 22 Tipp Spiel Nr. 23 Tipp

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag. 5. Spieltag

BVB - Spieltermine 2016 /17

Meine Bundesliga 2016/17

1. Spieltag o8.2o Spieltag o o9.2o Spieltag o9.2o Spieltag 2o. / 21.o9.2o Spieltag o9.

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag

Fussball Bundesliga Saison 1970 / 71

Bundesliga Spielplan 2009/2010

Tabelle Platz: Vereine Tore Punkte 1 : 2 : 3 : 4 : 5 : 6 : 7 : 8 : 9 : 10 : 11 : 12 : 13 : 14 : 15 : 16 : 17 : 18 :

Fussball-Bundeliga. Saison 1963 / 64

BuLiTipp-Spielplan Saison 16/17 (Hinrunde)

Statistik Vorlesung 7 (Lineare Regression)

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag. 5. Spieltag

BUNDESLIGA 2007/2008

1. Spieltag: Fr.-So Spieltag: Fr.-So Spieltag: Fr.-So Spieltag: Fr.-So

Bundesliga-Tippspiel (Teilnahmeschein)

Fussball-Bundeliga Saison 1965 / 66

Tabelle 1. Fußball Bundesliga Saison 2010/2011

Fussball Bundesliga Saison 1969 / 70

Mathematik III - Statistik für MT(Master)

Teil: lineare Regression

VR-Bundesliga-Tipp 2016/17

Die Bundesliga Eine Unterrichtseinheit

Statistik II Übung 1: Einfache lineare Regression

Terminliste B-JUNIOREN-BUNDESLIGA Staffel West Spieljahr 2016/2017

Terminliste A-JUNIOREN-BUNDESLIGA Staffel West Spieljahr 2015/ 2016


Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Bundesliga-Spielplan Saison 2010/2011 Spielplan: Bundesliga

SPIELPLAN: SAISON 2014/2015 BUNDESLIGA

Terminliste B-JUNIOREN-BUNDESLIGA Staffel West Spieljahr 2015/ 2016

Eine Einführung in R: Das Lineare Modell

Terminliste B-JUNIOREN-BUNDESLIGA Staffel West Spieljahr 2015/ 2016

Die Perron Frobenius Tabelle der Deutschen Fußballbundesliga

Die Trainerzeitschrift des Deutschen Fußball-Bundes.

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

DIE LIGA - Fußballverband e.v.

BUNDESLIGA. Umbenennung: MSV Duisburg bis 1966/67 Meidericher SV KFC Uerdingen 05 bis 1995 FC Bayer 05 Uerdingen

Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1

SPIELPLAN SAISON 2011/2012 BUNDESLIGA

BUNDESLIGA SAISON 2015/2016 SPIELPLAN

Liga-Heimspiele. des TSV 1860 München. seit 1972

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

DAS INTERESSE AN DEN 18 BUNDESLIGA-VEREINEN IN DER BEVÖLKERUNG: ERFOLG MACHT SEXY

SEASON SCHEDULE 2015/2016 BUNDESLIGA

Die Perron Frobenius Tabelle der Deutschen Fußballbundesliga

9 Meterschießen um die Plätze 17-20

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Fussballdaten deutsche Bundesliga August 08 Mai 09

Terminliste A-JUNIOREN-BUNDESLIGA Staffel Süd-/ Südwest Spieljahr 2014/ 2015

Terminliste A-JUNIOREN-BUNDESLIGA Staffel Süd-/ Südwest Spieljahr 2015/ 2016

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Terminliste B-JUNIOREN-BUNDESLIGA Staffel Süd-/ Südwest Spieljahr 2015/ 2016

Fußball Feldturnier für - U11 - Junioren - Teams Samstag, den SV Blau-Weiß Concordia 07/24 Viersen e.v. 02:00.

Der 2.Internationale Junior-Super-Cup

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Lösung des Problems des Monats

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Eurocup Vorrunde: Freitag, der , ab Uhr Gruppe A, Spielzeit 1 x 12,5 Minuten

FC BAYERN MÜNCHEN VOR SCHALKE 04 UND BORUSSIA DORTMUND


10. Internationaler Hönne-Cup 2014 am Samstag, 06. und Sonntag, 07. Dezember 2014 in der Kreissporthalle in Menden (Sauerland)

2. Bundesliga Saison 2010/ Spieltag ( )

Korrelation - Regression. Berghold, IMI

ST Heim Auswärts Distanz Team Montagsspiele davon ausw. Auf-/Absteiger Spiele in % AW-km AW-km im Schnitt 1 Bielefeld Rostock

SPIELPLAN: SAISON 2012/2013 BUNDESLIGA

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Grundwissen Mathematik - Zuordnungen. Das komplette Material finden Sie hier:

BUNDESLIGA SAISON 2015/2016 SPIELPLAN

Der 2.Internationale Junior-Super-Cup

SEASON SCHEDULE 2016/2017 BUNDESLIGA

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

Bundesliga. Veranstalter: Guido.R. Datum: Platzierungsmodus: Punkte, Tordifferenz, Anzahl Tore, Direkter Vergleich.

2.3 Nichtlineare Regressionsfunktion

Extended Ordered Paired Comparison Models An Application to the Data from Bundesliga Season 2013/14

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Siegerliste. Inhalt. Buchbesprechung (ein weiterer Beitrag in der Reihe 'Kultur im BL-Tipp') Liebe Mitglieder des BL-Tipp,

Inhaltsverzeichnis. Vorwort

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

A-JUNIOREN-BUNDESLIGA Staffel Süd-/Südwest

Einführung in die computergestützte Datenanalyse

Eine zweidimensionale Stichprobe

Nr. Platz Grp. Beginn Spielpaarung Ergebnis

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Korrelation und Regression

DFB-Pokal- und Europa-Cup-Heimspiele. des TSV 1860 München. seit

1.Benergie Cup Fußball Kleinfeldturnier U11. auf der Sportanlage FC Union 60 Bremen Jürgensdeich 1a, Bremen am 11/12.06.

Transkript:

Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA

Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei h 11 = 60 40 100 h ij m w h i h ij m w d 30 30 60 d 24 36 a 10 30 40 a 16 24 h j 40 60 100 = 24 usw. χ 2 = (30 24)2 + (30 36)2 + (10 16)2 + (30 24)2 = 6,25 24 36 16 24 K = 6,25 = 0,2425; M = min{2,2} = 2; 100+6,25 Kmax = K = 0,2425 0,7071 = 0,3430 2 1 2 = 0,7071 73

Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht schwer tödlich angegurtet 264 90 6 360 nicht angegurtet 2 34 4 40 266 124 10 400 leicht schwer tödlich Sicherheit Gurt Kein Standardized Residuals: < 4 4: 2 2:0 0:2 2:4 >4 Verletzungen Mosaikplot Autounfälle 74

Beispieldaten Zusammenhang Geschlecht, Zufriedenheit tab = table(mathezufr,geschlecht) tab ## Geschlecht ## MatheZufr Frau Mann ## nicht 44 24 ## geht so 33 14 ## zufrieden 29 14 ## sehr 16 10 mosaicplot(tab, shade = TRUE, sort=2:1, main="") Geschlecht Frau nicht geht so zufrieden sehr < 4 4: 2 2:0 0:2 2:4 >4 Mann Standardized Residuals: MatheZufr Mosaikplot Beispieldaten 75

Beispieldaten Zusammenhang Geschlecht, Wunschfarbe für Smartphone tab = table(farbe, Geschlecht) tab ## Geschlecht ## Farbe Frau Mann ## blau 7 4 ## gelb 2 2 ## rot 11 2 ## schwarz 47 50 ## silber 16 1 ## weiss 51 12 mosaicplot(tab, shade = TRUE, sort=2:1, main="") blau gelb rot schwarz silber weiss Mann Standardized Residuals: Geschlecht Frau < 4 4: 2 2:0 0:2 2:4 >4 Farbe Mosaikplot Beispieldaten 76

Beispieldaten Zusammenhang Geschlecht, Groesse tab = table( Geschlecht, Groesse=cut(Groesse, 5)) tab ## Groesse ## Geschlecht (156,164] (164,172] (172,181] (181,189] ## Frau 43 66 21 4 ## Mann 0 3 29 29 ## Groesse ## Geschlecht (189,197] ## Frau 0 ## Mann 10 mosaicplot(tab, shade = TRUE, sort=2:1, main="", las=1) Frau Mann Groesse (156,164] (164,172] < 4 4: 2 2:0 0:2 2:4 >4 (172,181] (181,189] (189,197] Standardized Residuals: Geschlecht Mosaikplot Beispieldaten 77

Preismesszahl: Misst Preisveränderung eines einzelnen Gutes: Preis zum Zeitpunkt j Preis zum Zeitpunkt i dabei: j: Berichtsperiode, i: Basisperiode Preisindex: Misst Preisveränderung mehrerer Güter (Aggregation von Preismesszahlen durch Gewichtung) Notation: p 0 (i) : Preis des i-ten Gutes in Basisperiode 0 p t (i) : Preis des i-ten Gutes in Berichtsperiode t q 0 (i) : Menge des i-ten Gutes in Basisperiode 0 q t (i) : Menge des i-ten Gutes in Berichtsperiode t 78

Gleichgewichteter Preisindex: P G 0t = 1 n p t(i) n p i=1 0 (i) = n p t(i) p i=1 0 (i) g(i) mit g(i) = 1 n Nachteil: Auto und Streichhölzer haben gleiches Gewicht Lösung: Preise mit Mengen gewichten! Preisindex von Laspeyres: n p t(i)q 0 (i) n P L 0t = i=1 p t(i) = n p p 0 (i)q 0 (i) i=1 0 (i) g 0(i) mit g 0 (i) = p 0(i) q 0 (i) n p 0 (j) q 0 (j) i=1 j=1 Preisindex von Paasche: n p t(i)q t(i) n P P 0t = i=1 p t(i) = n p p 0 (i)q t(i) i=1 0 (i) gt(i) mit gt(i) = p 0(i) q t(i) n p 0 (j) q t(j) i=1 j=1 79

: Beispiel Warenkorb: Kartoffeln und Kaffee Preis ( ) 1950 2013 Menge pro Woche Preis ( ) Menge pro Woche 1 kg Kartoffeln 0,04 3,58 1,10 1,25 100 g Kaffeebohnen 3,00 0,25 0,70 1,31 P L 1950, 2013 = P P 1950, 2013 = 1,10 3,58 + 0,70 0,25 0,04 3,58 + 3,00 0,25 4,6048 1,10 1,25 + 0,70 1,31 0,04 1,25 + 3,00 1,31 0,5759 80

Weitere Idealindex von Fisher: P0t F = P0t L PP 0t Marshall-Edgeworth-Index: P ME 0t = n p t (i)[q 0 (i) + q t (i)] i=1 n p 0 (i)[q 0 (i) + q t (i)] i=1 Preisindex von Lowe: P LO 0t = n p t (i)q(i) i=1 n p 0 (i)q(i) i=1 { Durchschn. Menge von wobei q(i) ˆ= Gut i über alle (bekannten) Perioden 81

Weitere : Beispiel Warenkorb: Kartoffeln und Kaffee Preis ( ) 1950 2013 Menge pro Woche Preis ( ) Menge pro Woche 1 kg Kartoffeln 0,04 3,58 1,10 1,25 100 g Kaffeebohnen 3,00 0,25 0,70 1,31 P F 1950,2013 4,6048 0,5759 = 1,6284 P1950,2013 ME 1,10 (3,58 + 1,25) + 0,70 (0,25 + 1,31) = 0,04 (3,58 + 1,25) + 3,00 (0,25 + 1,31) P1950,2013 Lo 1,10 2,5 + 0,70 0,75 = 0,04 2,5 + 3,00 0,75 = 1,3143 = 1,3936 Annahme bei P LO : Durchschn. Mengen bei Kartoffeln bzw. Kaffebohnen von 1950 bis 2013 sind 2,5 bzw. 0,75. 82

Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga in der Saison 2008/09 83

Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga in der Saison 2008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) 83

Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga in der Saison 2008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison 83

Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga in der Saison 2008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison Etat Punkte FC Bayern 80 67 VfL Wolfsburg 60 69 SV Werder Bremen 48 45 FC Schalke 04 48 50 VfB Stuttgart 38 64 Hamburger SV 35 61 Bayer 04 Leverkusen 35 49 Bor. Dortmund 32 59 Hertha BSC Berlin 31 63 1. FC Köln 28 39 Bor. Mönchengladbach 27 31 TSG Hoffenheim 26 55 Eintracht Frankfurt 25 33 Hannover 96 24 40 Energie Cottbus 23 30 VfL Bochum 17 32 Karlsruher SC 17 29 Arminia Bielefeld 15 28 (Quelle: Welt) 83

Darstellung der Daten in Streuplot Bundesliga 2008/09 Punkte 30 40 50 60 70 VfB Stuttgart Hertha BSC Berlin Hamburger SV Bor. Dortmund TSG Hoffenheim Hannover 96 1. FC Köln Eintracht Frankfurt VfL Bochum Bor. Mönchengladbach Energie Cottbus Karlsruher SC Arminia Bielefeld FC Schalke 04 Bayer 04 Leverkusen SV Werder Bremen VfL Wolfsburg FC Bayern 20 40 60 80 Etat [Mio. Euro] 84

Darstellung der Daten in Streuplot Punkte 30 40 50 60 70 Bundesliga 2008/09 20 40 60 80 Etat [Mio. Euro] 84

Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? 85

Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: Dabei: y = f(x) X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable 85

Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: Dabei: y = f(x) X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend: y = a + b x Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung) Schätzung von a und b: 85

Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten 86

Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen e i zusammen möglichst klein 86

Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen e i zusammen möglichst klein Einfache Summe aber nicht möglich, denn e i positiv oder negativ Deswegen: Summe der Quadrate von e i Prinzip der kleinsten Quadrate: Wähle a und b so, dass Q(a, b) = n [y i (a + bx i )] 2 min i=1 86

Beste Lösung Beste und eindeutige Lösung: ˆb = = n (x i x)(y i ȳ) i=1 n (x i x) 2 i=1 n x i y i n xȳ i=1 n x 2 i n x 2 i=1 â = ȳ ˆb x Regressionsgerade: ŷ = â + ˆb x 87

Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: 88

Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x 2 i 25209 xi y i 31474 n 18 88

Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x 2 i 25209 xi y i 31474 n 18 31474 18 33,83 46,89 ˆb = 25209 18 33,83 2 0,634 â = 46,89 ˆb 33,83 25,443 88

Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x 2 i 25209 xi y i 31474 n 18 31474 18 33,83 46,89 ˆb = 25209 18 33,83 2 0,634 â = 46,89 ˆb 33,83 25,443 Modell: ŷ = 25,443 + 0,634 x Punkte 20 30 40 50 60 70 80 0 20 40 60 80 Einkommen 88

Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x 2 i 25209 xi y i 31474 n 18 31474 18 33,83 46,89 ˆb = 25209 18 33,83 2 0,634 â = 46,89 ˆb 33,83 25,443 Modell: ŷ = 25,443 + 0,634 x Punkte 20 30 40 50 60 70 80 0 20 40 60 80 Einkommen Prognosewert für Etat = 30: ŷ(30) = 25,443 + 0,634 30 44,463 88

Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden 80 70 60 50 40 30 20 0 20 40 60 80 89

Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden 80 70 60 50 40 80 70 60 50 40 30 30 20 20 points model 0 20 40 60 80 89

Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden 80 70 60 50 40 80 70 60 50 40 30 30 20 20 points model 0 20 40 60 80 Empirische Varianz (mittlere quadratische Abweichung) für rot bzw. grün ergibt jeweils 1 18 18 (y i y) 2 200,77 bzw. i=1 1 18 18 (ŷ i y) 2 102,78 i=1 89

Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): R 2 = n (ŷ i ȳ) 2 i=1 = n (y i ȳ) 2 i=1 n ŷ 2 i nȳ 2 i=1 = r n 2 [0; 1] y 2 i nȳ2 i=1 Mögliche Interpretation von R 2 : Durch die Regression erklärter Anteil der Varianz R 2 = 0 wird erreicht wenn X, Y unkorreliert R 2 = 1 wird erreicht wenn ŷ i = y i i (alle Punkte auf Regressionsgerade) Im (Bundesliga-)Beispiel: R 2 = 18 (ŷ i y) 2 i=1 18 (y i y) 2 i=1 102,78 200,77 51,19 % 90

Regression: 4 eindimensionale Beispiele Berühmte Daten aus den 1970er Jahren: i x 1i x 2i x 3i x 4i y 1i y 2i y 3i y 4i 1 10 10 10 8 8,04 9,14 7,46 6,58 2 8 8 8 8 6,95 8,14 6,77 5,76 3 13 13 13 8 7,58 8,74 12,74 7,71 4 9 9 9 8 8,81 8,77 7,11 8,84 5 11 11 11 8 8,33 9,26 7,81 8,47 6 14 14 14 8 9,96 8,10 8,84 7,04 7 6 6 6 8 7,24 6,13 6,08 5,25 8 4 4 4 19 4,26 3,10 5,39 12,50 9 12 12 12 8 10,84 9,13 8,15 5,56 10 7 7 7 8 4,82 7,26 6,42 7,91 11 5 5 5 8 5,68 4,74 5,73 6,89 (Quelle: Anscombe (1973)) 91

Regression: 4 eindimensionale Beispiele In folgender Tabelle: Jeweils Ergebnisse der linearen Regressionsanalyse dabei: x k unabhängige Variable und y k abhängige Variable Modell jeweils: y k = a k + b k x k k â k ˆb k R 2 k 1 3,0001 0,5001 0,6665 2 3,0010 0,5000 0,6662 3 3,0025 0,4997 0,6663 4 3,0017 0,4999 0,6667 92

Plot der Anscombe-Daten y1 4 6 8 10 y3 6 8 10 12 4 6 8 10 12 14 x1 y2 3 4 5 6 7 8 9 10 y4 6 8 10 12 4 6 8 10 12 14 x2 4 6 8 10 12 14 x3 8 10 12 14 16 18 x4 93

Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") abline(meineregression) Alter der Mutter 40 45 50 55 60 65 ## ## Call: ## lm(formula = AlterM ~ AlterV) ## ## Coefficients: ## (Intercept) AlterV ## 17.054 0.638 40 50 60 70 Alter des Vaters 94

Cook s Distanz PLUS Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? 95

Cook s Distanz PLUS Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts Formel für ein lineares Modell mit einem unabh. Merkmal: D i = n (ŷ j ŷ j(ohne i) ) 2 j=1 MSE Dabei bedeutet: ŷ j : Prognosewert des kompletten Modells für das j-te Objekt ŷ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te Objekt MSE = 1 n (ŷ i y i ) 2 : Normierender Term (Schätzwert für Fehlerstreuung) 95

Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 y3 6 8 10 12 4 6 8 10 12 14 x3 96

Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über 1 sollten genau untersucht werden 1.39 y3 6 8 10 12 0.03 0.01 0 0 0 0.01 0.01 0.03 0.06 0.3 4 6 8 10 12 14 x3 96

Residualanalyse Oft aufschlussreich: Verteilung der Residuen e i Verbreitet: Graphische Darstellungen der Residuen Z.B.: e i über ŷ i 97

Residualanalyse Oft aufschlussreich: Verteilung der Residuen e i Verbreitet: Graphische Darstellungen der Residuen Z.B.: e i über ŷ i y3 6 8 10 12 Residuals 1 0 1 2 3 9 3 6 4 6 8 10 12 14 x3 5 6 7 8 9 10 Fitted values Residuals vs Fitted y1 4 6 8 10 Residuals 2 1 0 1 2 10 9 3 4 6 8 10 12 14 x1 5 6 7 8 9 10 Fitted values 97

Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster Alter der Mutter 40 45 50 55 60 65 Keine Änderung der Varianz in Abhängigkeit von ŷ i (Homoskedastizität) Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots) Residuals 10 0 10 20 19 165 107 40 50 60 70 Alter des Vaters 45 50 55 60 65 Fitted values 98

Kausalität versus Exkurs: Kausalität vs. Meist wichtig für sinnvolle Regressionsanalysen: Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund 99