Elementare Regressionsrechnung
Motivation: Streudiagramm zweier metrisch skalierter Merkmale X und Y Y X Dr. Karsten Webel 107
Ziel: Erfassung des Zusammenhangs zwischen X und Y durch eine Gerade der Form y i = a + bx i (i = 1,...,n) Vorteile einer linearen Modellierung: einfacher und leicht berechenbarer Zusammenhang ausführlich erforschte Theorie kompliziertere Zusammenhänge oft linearisierbar (später) bzw. lokal gut durch lineare Funktion approximierbar Dr. Karsten Webel 108
Fragen: Wie bzw. nach welchen Kriterien soll die Gerade durch das Streudiagramm der Beobachtungen gelegt werden? Mit anderen Worten: Wie sollen a und b gewählt werden? Wie gut beschreibt die so ermittelte Gerade den Zusammenhang zwischen X und Y? Dr. Karsten Webel 109
Zusammenhang via Augenmaß Y X Dr. Karsten Webel 110
Zusammenhang via Extrempunkte Y X Dr. Karsten Webel 111
Zusammenhang via absolute Abweichungen Y X Dr. Karsten Webel 112
Zusammenhang via quadrierte Abweichungen Y X Dr. Karsten Webel 113
Definition 1.64: einfaches lineares Regressionsmodell & KQ-Gerade Das Modell y i = a + bx i + u i, i = 1,...,n, heißt einfaches lineares Regressionsmodell. Die Gerade ŷ i = â + ˆbx i, i = 1,...,n, durch die Punktewolke {(x i,y i )} n i=1, die die Summe der quadrierten (vertikalen) Abstände der Beobachtungen von der Geraden minimiert, heißt KQ-Gerade. Dr. Karsten Webel 114
Satz 1.65: Die Koeffizienten der KQ-Geraden sind gegeben durch: ˆb = s xy s 2 x = n (x i x a )(y i ȳ a ) i=1 â = ȳ a ˆb x a. n und (x i x a ) 2 i=1 Dr. Karsten Webel 115
Beispiel 1.66: KQ-Gerade für die Konsumausgaben in Abhängigkeit vom verfügbaren Einkommen (Fortsetzung Bsp. 1.54) Konsumausgaben 1800 1700 1600 1700 1800 1900 2000 2100 verfügbares Einkommen Dr. Karsten Webel 116
Beispiel 1.66: KQ-Gerade für die Konsumausgaben in Abhängigkeit vom verfügbaren Einkommen (Fortsetzung ) Die Koeffizienten der KQ-Geraden lauten: ˆb = s xy s 2 x = 6876,562 13298, 440 = 0,517 und â = 1716,75 0,517 1856,75 = 754,069. Die KQ-Gerade lautet damit: ŷ i = 754,069 + 0,517 x i. Dr. Karsten Webel 117
sinnlose Regression mit Zufallszahlen 1 Zufallszahlen Y 0.5 0 0.5 1 0 0.5 1 1.5 2 Zufallszahlen X Dr. Karsten Webel 118
Definition 1.67: Bestimmtheitsmaß Die Größe R 2 = s2 ŷ s 2 y = = 1 s2 û s 2 y n (ŷ i ȳ a ) 2 i=1 n (y i ȳ a ) 2 i=1 = 1 n û 2 i i=1 n (y i ȳ a ) 2 i=1 heißt Bestimmtheitsmaß. Dr. Karsten Webel 119
Beispiel 1.68: Bestimmtheitsmaß der Regression der Konsumausgaben auf das verfügbare Einkommen (Fortsetzung Bsp. 1.66) x i y i ŷ i = 754,069 + 0,517x i (ŷ i ȳ a ) 2 1710 1610 1638,139 5717,023 1750 1660 1658,819 3017,415 1770 1680 1669,159 1988,357.... 2070 1810 1824,259 12212,239 28436,210 Dr. Karsten Webel 120
Beispiel 1.68: Bestimmtheitsmaß der Regression der Konsumausgaben auf das verfügbare Einkommen (Fortsetzung) bekannt: außerdem: s 2 y = 3748,438 s 2 ŷ = 1 8 28436,210 = 3554,526 also: R 2 = 3554,526 3748,438 = 0,948 Dr. Karsten Webel 121
Satz 1.69: Eigenschaften von R 2 Für das Bestimmtheitsmaß gilt: a) 0 R 2 1. b) Je näher R 2 bei 1 liegt, desto besser erklärt die KQ-Gerade den linearen Zusammenhang zwischen X und Y. c) Je näher R 2 bei 0 liegt, desto kleiner ist der Erklärungsgehalt von X auf die Variabilität von Y (R 2 = 0 kein Erklärungsgehalt). Dr. Karsten Webel 122
Bemerkung 1.70: Anwendungen des linearen Regressionsmodells auf nichtlineare Zusammenhänge a) X = Alter des PKWs, Y = Wert des PKWs Y = a + b 1 X Y = a + bx mit X = 1 X b) Cobb-Douglas-Produktionsfunktion: Y = Output, X 1 = Arbeit, X 2 = Kapital Y = α X b 1 X c 2 Y = a + bx 1 + cx 2 mit Y = log Y, a = log α, X 1 = log X 1, X 2 = log X 2 Dr. Karsten Webel 123
Bemerkung 1.71: Fazit zur elementaren Regressionsrechnung modelliert linearen Zusammenhang zwischen zwei metrisch skalierten Merkmalen Ursache und Wirkung dabei bekannt modellierter Zusammenhang auf gegebenen Datenbereich beschränkt Dr. Karsten Webel 124