Lineare Regression. Kapitel Regressionsgerade

Transkript

1 Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell der Regressionsgeraden setzt eine lineare Abhängigkeit an: yx) = a + b x für alle möglichen Werte x innerhalb eines gewissen Bereichs in der Regel ein Intervall); Interpretation der Regressionsfunktion yx) : Ein Wert x der Einflussgröße bedingt im Mittel den Wert yx) der Zielgröße; die Regressionsgerade stellt die Abhängigkeit der Mittelwerte der Zielgröße von der Einflussgröße dar Die Parameter a und b der Regressionsgeraden sind reelle Konstanten, die aber unbekannt sind und auf Grund von Beobachtungsdaten geschätzt werden müssen Beobachtungsdaten sind Paare: x, y ), x, y ),, x n, y n ) Methode der Kleinsten Quadrate engl Least Squares) Gegeben Beobachtungen: x, y ),, x n, y n ) Passe den Daten eine Gerade yx) = a + b x an mit der Least-Squares-Methode : ) yi a + b x i ) min }} a,b yx i ) Die Optimallösungen â, b heißen LS-Schätzungen für die Parameter a und b, und die lineare Funktion ŷx) = â + b x heißt die LS-Regressionsgerade auf Grund der Beobachtungsdaten) Die Formeln lauten: b = x i x) y i y), wobei x = x i x) n x i, y = n y i â = y b x dh der Punkt x, y) liegt auf der LS-Geraden) Anmerkung: b = s xy s x, wobei s xy = n x i x) y i y), s x = n x i x) 34

2 Kapitel 5: Lineare Regression 35 5 Normalverteilungsmodell der Regressionsgeraden Die Beobachtungswerte y i der Zielgröße werden als Werte von unabhängigen normalverteilten Zufallsvariablen aufgefasst; die Beobachtungswerte x i der Einflussgröße hingegen werden als Konstanten nicht zufallsabhängig) gesehen Genauer: Statistisches Modell: Y,, Y n unabhängige reelle Zufallsvariablen, Y i N a + bx i, σ) i =,, n), a, b R und σ 0, ) sind die Parameter Die Likelihood-Funktion zu Beobachtungsdaten x, y ),, x n, y n ) : n n La, b, σ) = f Yi ;a,b,σy i ) = σ π exp yi σ a + bx i ) ) ) = und die Log-Likelihood-Funktion: ML-Schätzungen σ π la, b, σ) = n ) n exp σ yi a + bx i ) ) ), lnπ) = n lnσ) σ yi a + bx i ) ) Die ML-Schätzungen â und b sind identisch mit den LS-Schätzungen, und σ = n RSS, wobei RSS = yi ŷx i )) und ŷx i ) = â + b x i, i =,, n RSS = Residual Sum of Squares) Es gilt auch: RSS = n y i y) b Bemerkung: x i x) y i y) Eine andere aber für größere n nur wenig von σ abweichende) Schätzung für σ ist auch gebräuchlich: s = n RSS 53 Statistische Eigenschaften der Schätzer Betrachten wir nun die Schätzer, dh die obigen Schätzungen als Zufallsvariablen die Werte y,, y n ersetzt durch die ZV en Y,, Y n ) : b = n ) s x i x) Y i Y ), â = Y b x, σ = n RSS, S = n RSS, x wobei RSS = Yi ŷx i ) ), ŷxi ) = â + b x i Erwartungstreue: Die Schätzer â und b sind erwartungstreue Schätzer für die Parameter a bzw b, und für ein gegebenes x 0 ist ŷx 0 ) = â + b x 0 ein erwartungstreuer Schätzer für yx 0 ) = a + b x 0 S ist ein erwartungstreuer Schätzer für σ

3 Kapitel 5: Lineare Regression 36 Verteilungseigenschaften der Schätzer Eine Linearkombination c â + c b ist normalverteilt mit für gegebene Konstanten c und c, nicht beide gleich Null) E a,b,σ c â + c b) = c a + c b und Var a,b,σ c â + c b) = qx c, c ) σ, c n wobei q x c, c ) = x i ) + c c c x 0 ; x i x) desweiteren für jeden Parameterpunkt a, b, σ)) : n σ S = σ RSS χ n und c â + c b c a + c b) qx c, c ) S t n 54 Konfidenzintervalle für die Parameter Konfidenzintervall für den Parameter γ = c a + c b mit gegeben Konstanten c, c ) Das α)-konfidenzintervall für c a + c b ist: c â + c b tn, α q x c, c ) s, c â + c b + tn, α q ] x c, c ) s wobei s = n RSS, q xc, c ) wie oben und t n, α das α )-Quantil der t n -Verteilung Speziell: Konfidenzintervalle für a und b Das α)-konfidenzintervall für den Parameter a ist: â t n, α q x, 0) s, â + t n, α q ] x, 0) s wobei q x, 0) = n x i ) / ) x i x) Das α)-konfidenzintervall für den Steigungsparameter b ist: b tn, α q x 0, ) s, b + tn, α q ] x 0, ) s / ) wobei q x 0, ) = x i x) Konfidenzintervall für den Parameter σ Das α)-konfidenzintervall für die Standardabweichung σ ist: ] n n s, s χ n, α χ n, α

4 Kapitel 5: Lineare Regression Konfidenzintervalle für die Regression Für ein spezielles x 0 ein möglicher Wert der Einflussgröße) ist yx 0 ) = a + b x 0 der zu erwartende Wert der Zielgröße Die Punkt-)Schätzung hierfür ist ŷx 0 ) = â + b x 0 Nun ist der Parameter yx 0 ) = a + b x 0 eine spezielle Linearkombination c a + c b nämlich mit c = und c = x 0 ), so dass gemäß Abschnitt 54 auch Konfidenzintervalle für yx 0 ) = a + b x 0 resultieren α)-konfidenzintervall für yx 0 ) = a + b x 0 : ŷx 0 ) t n, α q x, x 0 ) s, ŷx 0 ) + t n, α q ] x, x 0 ) s, wobei ŷx 0 ) = â + b x 0 und q x, x 0 ) = n + x 0 x) x i x) Man beachte: Die α)-konfidenz-eigenschaft des Intervalls bezieht sich auf ein gegebenes x 0, nicht aber gleichzeitig auf mehrere mögliche Werte der Einflussgröße Simultane Konfidenzintervalle für die gesamte Regressionsfunktion yx) = a + bx, auch Konfidenzband genannt, sind wie folgt Simultane α)-konfidenzintervalle für die Regressionsgerade yx) = a + b x : ŷx) F,n, α q x, x) s, ŷx) + F,n, α q ] x, x) s, wobei ŷx) = â + b x, q x, x) = x x) + n x i x) und F,n, α das α)-quantil der F,n -Verteilung bezeichnet Ein Prognose-Intervall zum Niveau α) für die Zielgröße unter dem Wert x 0 der Einflussgröße ist ein α)-konfidenzintervall basierend auf den Beobachtungsdaten x i, y i ), i =,, n) für den noch nicht beobachteten) Wert einer Zufallsvariablen Y 0 mit Y 0 N a + bx 0, σ), Y 0, Y,, Y n unabhängig Prognoseintervall zum Niveau α) für eine zukünftige Beobachtung der Zielgröße unter dem Wert x 0 der Einflussgröße : ŷx 0 ) t n, α + q x, x 0 ) s, ŷx 0 ) + t n, α ] + q x, x 0 ) s, wobei ŷx 0 ) und q x, x 0 ) wie oben unter Konfidenzintervall für yx 0 ) )

5 Kapitel 5: Lineare Regression Signifikanztests t-tests für den Steigungsparameter b TP a) H 0 : b b 0 gg H : b b 0 ϕ a] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s t n, α TP b) H 0 : b b 0 gg H : b < b 0 ϕ b] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s < t n, α TP ) H 0 : b = b 0 gg H : b b 0 ϕ ] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s t n, α / Dabei ist jeweils b 0 ein gegebener Wert, und es bezeichnet wie oben q x 0, ) = x i x) ) χ -Tests für die Varianz σ TP a) H 0 : σ σ 0 gg H : σ σ 0 ϕ a] x, y,, x n, y n ) = 0, falls n ) s σ 0 χ n, α TP b) H 0 : σ σ 0 gg H : σ < σ 0 ϕ b] x, y,, x n, y n ) = 0, falls n ) s σ 0 < χ n, α TP ) H 0 : σ = σ 0 gg H : σ σ 0 ϕ ] x, y,, x n, y n ) = 0, falls n ) s σ 0 χ n, α, χ n, α ] Der Wert σ 0 ist jeweils ein vorgegebener Wert 57 Güte der Anpassung Oft verwendet wird das Bestimmtheitsmaß : Dieses quantifiziert die Güte der Anpassung der geschätzten Regressionsgeraden ŷx) = â + bx an die Beobachtungsdaten x, y ),, x n, y n ) durch eine Zahl zwischen 0 und Das Bestimmtheitsmaß engl Coefficient of Determination): r = RSS 0, ] y i y) Interpretation: r ist die relative Verbesserung der Anpassung durch das Modell der Regressionsgeraden yx) = a + bx bezogen auf das Modell der konstanten Regression yx) = µ konstant) Dabei wird Verbesserung der Anpassung als Verringerung der Fehlerquadratsumme verstanden

6 Kapitel 5: Lineare Regression 39 Denn: r = y i y) n yi ŷx i ) ) y i y) Anmerkung: r ist auch gleich dem quadrierten empirischen Korrelationskoeffizienten: r = r xy, wobei r x,y = s xy s x s y = n x i x) y i y) n x i x) n y i y) 58 Bivariates Normalverteilungsmodell Dies ist ein verwandtes, aber anderes Modell für bivariate also R -wertige) Beobachtungsdaten x, y ), x, y ),, x n, y n ) ; die Paare x i, y i ) werden als Werte von uiv bivariaten normalverteilten Zufallsvariablen X i, Y i ) aufgefasst: X, Y ),, X n, Y n ) uiv N µ, µ, σ, σ, ρ ), µ, µ R, σ, σ 0, ) und ρ 0, ) die Parameter W-theoretischer Einschub: Bivariate Normalverteilung Eine bivariate Zufallsvariable X, Y ) ist normalverteilt mit den Parameterwerten µ, µ R, σ, σ 0, ) und ρ 0, ), wenn sie die folgende Dichtefunktion auf R ) besitzt: fx, y) = πσ σ exp x µ ) y µ ) x µ + ρ ρ ρ y µ ]) ) σ σ σ σ Die Verteilung der bivariaten Zufallsvariablen X, Y ) auch die gemeinsame Verteilung der beiden reellen ZV en X und Y genannt) ist dann gegeben durch die Wahrscheinlichkeiten P X I, Y J ) = fx, y) dy dx für je zwei Intervalle I, J R I J Zur Interpretation der Parameter : µ = EX), µ = EY ), σ = VarX), σ = VarY ), ρ = ρx, Y ), ρ σ σ = CovX, Y ) Im bivariaten Normalverteilungsmodell erhält man als Likelihood-Funktion zu Beobachtungswerten x, y ),, x n, y n ), wobei wir jetzt f µ,µ,σ,σ,ρ statt nur f für die Dichtefunktion schreiben) : n Lµ, µ, σ, σ, ρ) = f µ,µ,σ,σ,ρx i, y i ) = ) n exp πσ σ ρ ρ ) σ i µ ) x + σ y i µ ) ρ σ σ ] ) x i µ )y i µ )

7 Kapitel 5: Lineare Regression 40 Daraus ergibt sich die Log-Likelihood-Funktion: lµ, µ, σ, σ, ρ) = n lnπ) n lnσ ) n lnσ ) n ln ρ ) ρ )σ x i µ ) ρ )σ y i µ ) ρ + ρ )σ σ x i µ )y i µ ) Die Maximierung dieser Funktion lässt sich explizit durchführen und ergibt die ML-Schätzungen für die einzelnen Parameter: µ = x = ) x i, µ = y = ) y i, n n σ = n x i x), σ = n y i y), ρ = n x i x)y i y) σ σ Von besonderem Interesse sind die folgenden drei Testprobleme über den Korrelationsparameter: TP a) H 0 : ρ 0 gegen H : ρ 0 ; TP b) H 0 : ρ 0 gegen H : ρ < 0 ; TP ) H 0 : ρ = 0 gegen H : ρ 0 Die optimalen α-signifikanztests sind die nachfolgenden t-tests t-tests für den Korrelationsparameter ρ TP a) H 0 : ρ 0 gg H : ρ 0 ϕ a] x, y,, x n, y n ) = 0, falls n ρ ρ t n, α TP b) H 0 : ρ 0 gg H : ρ < 0 ϕ b] x, y,, x n, y n ) = 0, falls n ρ ρ < t n, α TP ) H 0 : ρ = 0 gg H : ρ 0 ϕ ] x, y,, x n, y n ) = 0, falls ρ n ρ t n, α 59 Multiples Regressionsmodell In Erweiterung des schon behandelten Modells der Regressionsgeraden betrachten wir jetzt den Fall mehrerer Einflussvariablen, die auf eine Zielgröße wirken: x, x,, x k y Dabei sind x, x,, x k die Werte gewisser Einflussgrößen und y ist der statistische Mittelwertwert einer interessierenden Zielgröße in dieser Situation Auch kategorielle Einflussgrößen können hier einbezogen sein, die dann in einer Dummy-Codierung als 0--wertige Variablen beschrieben werden

8 Kapitel 5: Lineare Regression 4 Beispiel: y = Mittlerer Umsatz eines Produkts; x = Preis des Produkts; x = Preis eines Konkurrenzprodukts am Markt; x 3 = Werbeaufwand in TV für das Produkt; x 4 = sonstiger Werbeaufwand für das Produkt; x 5 = Darbietungsform standard oder gehoben ) des Produkts Die Einlussvariablen x, x, x 3 und x 4 sind hier quantitative Variablen Werte in Geldeinheiten), während die Variable x 5 kategoriell mit zwei möglichen Stufen standard und gehoben ) ist Letztere wird als 0--wertige Variable kodiert: x 5 = 0, falls Darbietungsform gehoben standard Das multiple lineare Regressionsmodell beinhaltet den funktionalen Ansatz: yx) = β 0 + β x + β x + + β k x k, wobei x den Vektor der Werte x, x,, x k der Einflussvariablen bezeichnet und β 0 konstanter Term) und die Koeffizienten β, β,, β k reelle Parameter im Modell sind, deren wahre Werte unbekannt sind; sie sollen auf Grund von Beobachtungsdaten geschätzt werden, s unten) Im Folgenden wird etwas Matrizenrechnung verwendet, und wir führen als Spaltenvektoren ein: Den k-dim Spaltenvektor der Werte der Einflussgrößen und den k + )-dim Spaltenvektor der Regressionsparameter : x = x x x k und β = Mit der Operation des Transponierens schreiben wir Platz sparend: β 0 β β β k x = x, x,, x k ) t und β = β 0, β, β,, β k ) t Der Regressionsansatz lässt sich in Vektor-Notation auch so schreiben: yx) =, x t) β Seien jetzt Beobachtungsdaten gegeben, also n Paare bestehend jeweils aus einem Wert des Vektors x und dem dazu beobachteten Wert der Zielgröße: x, y ), x, y ),, x n, y n ) Der Vektor x i beinhaltet die Werte aller k Einflussvariablen im i-ten beobachteten Fall, x i = x i,, x i,,, x i,k ) t, i =,, n) Die Schätzung der Parameter wird wieder durch die Methode der kleinsten Quadrate engl Least Squares) vorgenommen

9 Kapitel 5: Lineare Regression 4 Methode der kleinsten Quadrate Die LS-Schätzung β = β0, β,, β k ) t In Matrix-Notation: minimiere engl Least Squares) ist die Optimallösung des folgenden Minimierungsproblems: y i ), x t i) β über β R k+ y i ), x t i) β = y Xβ) t y Xβ), wobei x t x X = t = x t n x, x, x,k x, x, x,k x n, x n, x n,k und y = Die LS-Schätzung lässt sich als Lösung eines linearen Gleichungssystems berechnen: X t X β = X t y, dh β = X t X) X t y, wobei wir voraussetzen, dass die k + ) k + ) Matrix X t X regulär also invertierbar) ist y y n Wir machen das multiple Regressionsmodell zu einem statistischen Modell, indem wir die beobachteten Werte der Zielgröße, y, y,, y n, als Werte von unabhängigen normalverteilten Zufallsvariablen Y, Y,, Y n auffassen Normalverteilungsmodell der multiplen Regression Y,, Y n unabhängige reelle ZV en, Y i N yx i ), σ ), yx i ) =, x t i) β, i =,, n), β = β 0, β,, β k ) t R k+ und σ die Parameter Die Likelihood-Funktion zu den Beobachtungsdaten x, y ),, x n, y n ) lautet: Lβ, σ) = = n f Yi,β,σy i ) = σ π n σ π exp σ y i, x t ) ) ] i β ) n exp σ y Xβ ) t y Xβ ) ), und die Log-Likelihood-Funktion: lβ, σ) = n lnπ) n lnσ) σ y Xβ)t y Xβ)

10 Kapitel 5: Lineare Regression 43 ML-Schätzungen Die ML-Schätzung β = β0, β,, β k ) t ist identisch mit der LS-Schätzung, β = X t X) X t y Die ML-Schätzung für σ ist: σy) = n RSS, wobei RSS = y X β ) t ) y X β Anmerkung: Statt der ML-Schätzung σ verwendet man oft die etwas andere Schätzung s = n k RSS Statistische Eigenschaften der Schätzer Die Schätzer aufgefasst als Zufallsvariablen) β0, β,, β k sind erwartungstreue Schätzer für die Regressionsparameter β 0, β,, β k ; für einen gegebenen Punkt x 0 = x 0,,, x 0,k ) t ist ŷx 0 ) =, x t 0) β ein erwartungstreuer Schätzer für yx 0 ) =, x t 0) β ; S = n k RSS ist ein erwartungstreuer Schätzer für σ Für die Verteilungen der Schätzer unter den Parameterwerten β 0, β,, β k und σ) gilt, wobei noch ein Vektor c = c 0, c,, c k ) t R k+, c 0 gegeben sei: c t β N c t β, q x c t ) σ ), wobei q x c t ) = c t X t X ) c 0 ; n k σ S = σ RSS χ n k und c t β c t β qx c t ) S t n k Konfidenzintervall für die Regressionsfunktion in einem Punkt Für einen gegebenen Punkt x 0 = x 0,,, x 0,k ) t von möglichen Werten x 0,j, j =,, k, der Einflussgrößen ist das α)-konfidenzintervall für yx 0 ) =, x t 0 ) β gegeben durch: ] ŷx 0 ) t n k, α q x, x t 0 ) s, ŷx 0) + t n k, α q x, x t0 ) s, wobei ŷx 0 ) =, x t 0) β und qx, x t 0 ) =, x t ) 0 X t X ) ) x0

11 Kapitel 5: Lineare Regression 44 t-tests für die einzelnen Regressionskoeffizienten Für ein gegebenes j 0,,, k} betrachte das zweiseitige) Testproblem H 0 : β j = 0 gegen H : β j 0 Der optimale α-signifikanztest für das Testproblem ist: ϕ j x, y,, x n, y n ) =, falls 0 wobei v j = X t X ) ] j,j βj vj s t n k, α, In der P-Wert-Darstellung lautet der Test: ϕ j x, y,, x n, y n ) = 0 βj ) ], falls F n k vj s < α, wobei F n k die Verteilungsfunktion der t n k -Verteilung bezeichnet