Lineare Regression. Kapitel Regressionsgerade

Ähnliche Dokumente
7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Signifikanztests Optimalitätstheorie

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Deskriptive Beschreibung linearer Zusammenhänge

Wichtige Definitionen und Aussagen

Multivariate Verfahren

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Goethe-Universität Frankfurt

Regression und Korrelation

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Tests einzelner linearer Hypothesen I

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

5. Spezielle stetige Verteilungen

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Schätzung im multiplen linearen Modell VI

Musterlösung. Modulklausur Multivariate Verfahren

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Einführung in die Induktive Statistik: Regressionsanalyse

Statistik I für Betriebswirte Vorlesung 4

Beispiel: Multiples Modell/Omitted Variable Bias I

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Varianzkomponentenschätzung

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Mathematische Statistik Aufgaben zum Üben. Schätzer

Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

3 Grundlagen statistischer Tests (Kap. 8 IS)

Stochastik Praktikum Lineare Modelle

3. Das einfache lineare Regressionsmodell

Klausur zu Statistik II

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Stochastik Serie 11. ETH Zürich HS 2018

Reelle Zufallsvariablen

Lösung Übungsblatt 5

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Kurs Empirische Wirtschaftsforschung

Statistik I für Betriebswirte Vorlesung 14

Einführung in die Maximum Likelihood Methodik

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

3.3 Konfidenzintervalle für Regressionskoeffizienten

Inferenz im multiplen Regressionsmodell

Als lineare Regressionsaufgabe, d. h., Regression von Y auf X, ergibt sich nun:

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Zusammenfassung: Einfache lineare Regression I

Mehrdimensionale Zufallsvariablen

1 Beispiel zur Methode der kleinsten Quadrate

6. Schätzverfahren für Parameter

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Punktschätzer Optimalitätskonzepte

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

x t2 y t = 160, y = 8, y y = 3400 t=1

Induktive Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Interpretation von Testergebnissen I

Statistik und Wahrscheinlichkeitsrechnung

Die Regressionsanalyse

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Die Funktion f wird als Regressionsfunktion bezeichnet.

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Statistik II. Regressionsanalyse. Statistik II

7. Stochastische Prozesse und Zeitreihenmodelle

Übung V Lineares Regressionsmodell

Seminar zur Energiewirtschaft:

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Vorlesung 7b. Kovarianz und Korrelation

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

Einführung in die Statistik

Die Stochastischen Eigenschaften von OLS

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Lineare Regression mit einem Regressor: Einführung

Statistik I für Betriebswirte Vorlesung 13

Statistik I für Betriebswirte Vorlesung 3

Transkript:

Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell der Regressionsgeraden setzt eine lineare Abhängigkeit an: yx) = a + b x für alle möglichen Werte x innerhalb eines gewissen Bereichs in der Regel ein Intervall); Interpretation der Regressionsfunktion yx) : Ein Wert x der Einflussgröße bedingt im Mittel den Wert yx) der Zielgröße; die Regressionsgerade stellt die Abhängigkeit der Mittelwerte der Zielgröße von der Einflussgröße dar Die Parameter a und b der Regressionsgeraden sind reelle Konstanten, die aber unbekannt sind und auf Grund von Beobachtungsdaten geschätzt werden müssen Beobachtungsdaten sind Paare: x, y ), x, y ),, x n, y n ) Methode der Kleinsten Quadrate engl Least Squares) Gegeben Beobachtungen: x, y ),, x n, y n ) Passe den Daten eine Gerade yx) = a + b x an mit der Least-Squares-Methode : ) yi a + b x i ) min }} a,b yx i ) Die Optimallösungen â, b heißen LS-Schätzungen für die Parameter a und b, und die lineare Funktion ŷx) = â + b x heißt die LS-Regressionsgerade auf Grund der Beobachtungsdaten) Die Formeln lauten: b = x i x) y i y), wobei x = x i x) n x i, y = n y i â = y b x dh der Punkt x, y) liegt auf der LS-Geraden) Anmerkung: b = s xy s x, wobei s xy = n x i x) y i y), s x = n x i x) 34

Kapitel 5: Lineare Regression 35 5 Normalverteilungsmodell der Regressionsgeraden Die Beobachtungswerte y i der Zielgröße werden als Werte von unabhängigen normalverteilten Zufallsvariablen aufgefasst; die Beobachtungswerte x i der Einflussgröße hingegen werden als Konstanten nicht zufallsabhängig) gesehen Genauer: Statistisches Modell: Y,, Y n unabhängige reelle Zufallsvariablen, Y i N a + bx i, σ) i =,, n), a, b R und σ 0, ) sind die Parameter Die Likelihood-Funktion zu Beobachtungsdaten x, y ),, x n, y n ) : n n La, b, σ) = f Yi ;a,b,σy i ) = σ π exp yi σ a + bx i ) ) ) = und die Log-Likelihood-Funktion: ML-Schätzungen σ π la, b, σ) = n ) n exp σ yi a + bx i ) ) ), lnπ) = n lnσ) σ yi a + bx i ) ) Die ML-Schätzungen â und b sind identisch mit den LS-Schätzungen, und σ = n RSS, wobei RSS = yi ŷx i )) und ŷx i ) = â + b x i, i =,, n RSS = Residual Sum of Squares) Es gilt auch: RSS = n y i y) b Bemerkung: x i x) y i y) Eine andere aber für größere n nur wenig von σ abweichende) Schätzung für σ ist auch gebräuchlich: s = n RSS 53 Statistische Eigenschaften der Schätzer Betrachten wir nun die Schätzer, dh die obigen Schätzungen als Zufallsvariablen die Werte y,, y n ersetzt durch die ZV en Y,, Y n ) : b = n ) s x i x) Y i Y ), â = Y b x, σ = n RSS, S = n RSS, x wobei RSS = Yi ŷx i ) ), ŷxi ) = â + b x i Erwartungstreue: Die Schätzer â und b sind erwartungstreue Schätzer für die Parameter a bzw b, und für ein gegebenes x 0 ist ŷx 0 ) = â + b x 0 ein erwartungstreuer Schätzer für yx 0 ) = a + b x 0 S ist ein erwartungstreuer Schätzer für σ

Kapitel 5: Lineare Regression 36 Verteilungseigenschaften der Schätzer Eine Linearkombination c â + c b ist normalverteilt mit für gegebene Konstanten c und c, nicht beide gleich Null) E a,b,σ c â + c b) = c a + c b und Var a,b,σ c â + c b) = qx c, c ) σ, c n wobei q x c, c ) = x i ) + c c c x 0 ; x i x) desweiteren für jeden Parameterpunkt a, b, σ)) : n σ S = σ RSS χ n und c â + c b c a + c b) qx c, c ) S t n 54 Konfidenzintervalle für die Parameter Konfidenzintervall für den Parameter γ = c a + c b mit gegeben Konstanten c, c ) Das α)-konfidenzintervall für c a + c b ist: c â + c b tn, α q x c, c ) s, c â + c b + tn, α q ] x c, c ) s wobei s = n RSS, q xc, c ) wie oben und t n, α das α )-Quantil der t n -Verteilung Speziell: Konfidenzintervalle für a und b Das α)-konfidenzintervall für den Parameter a ist: â t n, α q x, 0) s, â + t n, α q ] x, 0) s wobei q x, 0) = n x i ) / ) x i x) Das α)-konfidenzintervall für den Steigungsparameter b ist: b tn, α q x 0, ) s, b + tn, α q ] x 0, ) s / ) wobei q x 0, ) = x i x) Konfidenzintervall für den Parameter σ Das α)-konfidenzintervall für die Standardabweichung σ ist: ] n n s, s χ n, α χ n, α

Kapitel 5: Lineare Regression 37 55 Konfidenzintervalle für die Regression Für ein spezielles x 0 ein möglicher Wert der Einflussgröße) ist yx 0 ) = a + b x 0 der zu erwartende Wert der Zielgröße Die Punkt-)Schätzung hierfür ist ŷx 0 ) = â + b x 0 Nun ist der Parameter yx 0 ) = a + b x 0 eine spezielle Linearkombination c a + c b nämlich mit c = und c = x 0 ), so dass gemäß Abschnitt 54 auch Konfidenzintervalle für yx 0 ) = a + b x 0 resultieren α)-konfidenzintervall für yx 0 ) = a + b x 0 : ŷx 0 ) t n, α q x, x 0 ) s, ŷx 0 ) + t n, α q ] x, x 0 ) s, wobei ŷx 0 ) = â + b x 0 und q x, x 0 ) = n + x 0 x) x i x) Man beachte: Die α)-konfidenz-eigenschaft des Intervalls bezieht sich auf ein gegebenes x 0, nicht aber gleichzeitig auf mehrere mögliche Werte der Einflussgröße Simultane Konfidenzintervalle für die gesamte Regressionsfunktion yx) = a + bx, auch Konfidenzband genannt, sind wie folgt Simultane α)-konfidenzintervalle für die Regressionsgerade yx) = a + b x : ŷx) F,n, α q x, x) s, ŷx) + F,n, α q ] x, x) s, wobei ŷx) = â + b x, q x, x) = x x) + n x i x) und F,n, α das α)-quantil der F,n -Verteilung bezeichnet Ein Prognose-Intervall zum Niveau α) für die Zielgröße unter dem Wert x 0 der Einflussgröße ist ein α)-konfidenzintervall basierend auf den Beobachtungsdaten x i, y i ), i =,, n) für den noch nicht beobachteten) Wert einer Zufallsvariablen Y 0 mit Y 0 N a + bx 0, σ), Y 0, Y,, Y n unabhängig Prognoseintervall zum Niveau α) für eine zukünftige Beobachtung der Zielgröße unter dem Wert x 0 der Einflussgröße : ŷx 0 ) t n, α + q x, x 0 ) s, ŷx 0 ) + t n, α ] + q x, x 0 ) s, wobei ŷx 0 ) und q x, x 0 ) wie oben unter Konfidenzintervall für yx 0 ) )

Kapitel 5: Lineare Regression 38 56 Signifikanztests t-tests für den Steigungsparameter b TP a) H 0 : b b 0 gg H : b b 0 ϕ a] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s t n, α TP b) H 0 : b b 0 gg H : b < b 0 ϕ b] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s < t n, α TP ) H 0 : b = b 0 gg H : b b 0 ϕ ] x, y,, x n, y n ) = 0, falls b b0 qx 0, ) s t n, α / Dabei ist jeweils b 0 ein gegebener Wert, und es bezeichnet wie oben q x 0, ) = x i x) ) χ -Tests für die Varianz σ TP a) H 0 : σ σ 0 gg H : σ σ 0 ϕ a] x, y,, x n, y n ) = 0, falls n ) s σ 0 χ n, α TP b) H 0 : σ σ 0 gg H : σ < σ 0 ϕ b] x, y,, x n, y n ) = 0, falls n ) s σ 0 < χ n, α TP ) H 0 : σ = σ 0 gg H : σ σ 0 ϕ ] x, y,, x n, y n ) = 0, falls n ) s σ 0 χ n, α, χ n, α ] Der Wert σ 0 ist jeweils ein vorgegebener Wert 57 Güte der Anpassung Oft verwendet wird das Bestimmtheitsmaß : Dieses quantifiziert die Güte der Anpassung der geschätzten Regressionsgeraden ŷx) = â + bx an die Beobachtungsdaten x, y ),, x n, y n ) durch eine Zahl zwischen 0 und Das Bestimmtheitsmaß engl Coefficient of Determination): r = RSS 0, ] y i y) Interpretation: r ist die relative Verbesserung der Anpassung durch das Modell der Regressionsgeraden yx) = a + bx bezogen auf das Modell der konstanten Regression yx) = µ konstant) Dabei wird Verbesserung der Anpassung als Verringerung der Fehlerquadratsumme verstanden

Kapitel 5: Lineare Regression 39 Denn: r = y i y) n yi ŷx i ) ) y i y) Anmerkung: r ist auch gleich dem quadrierten empirischen Korrelationskoeffizienten: r = r xy, wobei r x,y = s xy s x s y = n x i x) y i y) n x i x) n y i y) 58 Bivariates Normalverteilungsmodell Dies ist ein verwandtes, aber anderes Modell für bivariate also R -wertige) Beobachtungsdaten x, y ), x, y ),, x n, y n ) ; die Paare x i, y i ) werden als Werte von uiv bivariaten normalverteilten Zufallsvariablen X i, Y i ) aufgefasst: X, Y ),, X n, Y n ) uiv N µ, µ, σ, σ, ρ ), µ, µ R, σ, σ 0, ) und ρ 0, ) die Parameter W-theoretischer Einschub: Bivariate Normalverteilung Eine bivariate Zufallsvariable X, Y ) ist normalverteilt mit den Parameterwerten µ, µ R, σ, σ 0, ) und ρ 0, ), wenn sie die folgende Dichtefunktion auf R ) besitzt: fx, y) = πσ σ exp x µ ) y µ ) x µ + ρ ρ ρ y µ ]) ) σ σ σ σ Die Verteilung der bivariaten Zufallsvariablen X, Y ) auch die gemeinsame Verteilung der beiden reellen ZV en X und Y genannt) ist dann gegeben durch die Wahrscheinlichkeiten P X I, Y J ) = fx, y) dy dx für je zwei Intervalle I, J R I J Zur Interpretation der Parameter : µ = EX), µ = EY ), σ = VarX), σ = VarY ), ρ = ρx, Y ), ρ σ σ = CovX, Y ) Im bivariaten Normalverteilungsmodell erhält man als Likelihood-Funktion zu Beobachtungswerten x, y ),, x n, y n ), wobei wir jetzt f µ,µ,σ,σ,ρ statt nur f für die Dichtefunktion schreiben) : n Lµ, µ, σ, σ, ρ) = f µ,µ,σ,σ,ρx i, y i ) = ) n exp πσ σ ρ ρ ) σ i µ ) x + σ y i µ ) ρ σ σ ] ) x i µ )y i µ )

Kapitel 5: Lineare Regression 40 Daraus ergibt sich die Log-Likelihood-Funktion: lµ, µ, σ, σ, ρ) = n lnπ) n lnσ ) n lnσ ) n ln ρ ) ρ )σ x i µ ) ρ )σ y i µ ) ρ + ρ )σ σ x i µ )y i µ ) Die Maximierung dieser Funktion lässt sich explizit durchführen und ergibt die ML-Schätzungen für die einzelnen Parameter: µ = x = ) x i, µ = y = ) y i, n n σ = n x i x), σ = n y i y), ρ = n x i x)y i y) σ σ Von besonderem Interesse sind die folgenden drei Testprobleme über den Korrelationsparameter: TP a) H 0 : ρ 0 gegen H : ρ 0 ; TP b) H 0 : ρ 0 gegen H : ρ < 0 ; TP ) H 0 : ρ = 0 gegen H : ρ 0 Die optimalen α-signifikanztests sind die nachfolgenden t-tests t-tests für den Korrelationsparameter ρ TP a) H 0 : ρ 0 gg H : ρ 0 ϕ a] x, y,, x n, y n ) = 0, falls n ρ ρ t n, α TP b) H 0 : ρ 0 gg H : ρ < 0 ϕ b] x, y,, x n, y n ) = 0, falls n ρ ρ < t n, α TP ) H 0 : ρ = 0 gg H : ρ 0 ϕ ] x, y,, x n, y n ) = 0, falls ρ n ρ t n, α 59 Multiples Regressionsmodell In Erweiterung des schon behandelten Modells der Regressionsgeraden betrachten wir jetzt den Fall mehrerer Einflussvariablen, die auf eine Zielgröße wirken: x, x,, x k y Dabei sind x, x,, x k die Werte gewisser Einflussgrößen und y ist der statistische Mittelwertwert einer interessierenden Zielgröße in dieser Situation Auch kategorielle Einflussgrößen können hier einbezogen sein, die dann in einer Dummy-Codierung als 0--wertige Variablen beschrieben werden

Kapitel 5: Lineare Regression 4 Beispiel: y = Mittlerer Umsatz eines Produkts; x = Preis des Produkts; x = Preis eines Konkurrenzprodukts am Markt; x 3 = Werbeaufwand in TV für das Produkt; x 4 = sonstiger Werbeaufwand für das Produkt; x 5 = Darbietungsform standard oder gehoben ) des Produkts Die Einlussvariablen x, x, x 3 und x 4 sind hier quantitative Variablen Werte in Geldeinheiten), während die Variable x 5 kategoriell mit zwei möglichen Stufen standard und gehoben ) ist Letztere wird als 0--wertige Variable kodiert: x 5 = 0, falls Darbietungsform gehoben standard Das multiple lineare Regressionsmodell beinhaltet den funktionalen Ansatz: yx) = β 0 + β x + β x + + β k x k, wobei x den Vektor der Werte x, x,, x k der Einflussvariablen bezeichnet und β 0 konstanter Term) und die Koeffizienten β, β,, β k reelle Parameter im Modell sind, deren wahre Werte unbekannt sind; sie sollen auf Grund von Beobachtungsdaten geschätzt werden, s unten) Im Folgenden wird etwas Matrizenrechnung verwendet, und wir führen als Spaltenvektoren ein: Den k-dim Spaltenvektor der Werte der Einflussgrößen und den k + )-dim Spaltenvektor der Regressionsparameter : x = x x x k und β = Mit der Operation des Transponierens schreiben wir Platz sparend: β 0 β β β k x = x, x,, x k ) t und β = β 0, β, β,, β k ) t Der Regressionsansatz lässt sich in Vektor-Notation auch so schreiben: yx) =, x t) β Seien jetzt Beobachtungsdaten gegeben, also n Paare bestehend jeweils aus einem Wert des Vektors x und dem dazu beobachteten Wert der Zielgröße: x, y ), x, y ),, x n, y n ) Der Vektor x i beinhaltet die Werte aller k Einflussvariablen im i-ten beobachteten Fall, x i = x i,, x i,,, x i,k ) t, i =,, n) Die Schätzung der Parameter wird wieder durch die Methode der kleinsten Quadrate engl Least Squares) vorgenommen

Kapitel 5: Lineare Regression 4 Methode der kleinsten Quadrate Die LS-Schätzung β = β0, β,, β k ) t In Matrix-Notation: minimiere engl Least Squares) ist die Optimallösung des folgenden Minimierungsproblems: y i ), x t i) β über β R k+ y i ), x t i) β = y Xβ) t y Xβ), wobei x t x X = t = x t n x, x, x,k x, x, x,k x n, x n, x n,k und y = Die LS-Schätzung lässt sich als Lösung eines linearen Gleichungssystems berechnen: X t X β = X t y, dh β = X t X) X t y, wobei wir voraussetzen, dass die k + ) k + ) Matrix X t X regulär also invertierbar) ist y y n Wir machen das multiple Regressionsmodell zu einem statistischen Modell, indem wir die beobachteten Werte der Zielgröße, y, y,, y n, als Werte von unabhängigen normalverteilten Zufallsvariablen Y, Y,, Y n auffassen Normalverteilungsmodell der multiplen Regression Y,, Y n unabhängige reelle ZV en, Y i N yx i ), σ ), yx i ) =, x t i) β, i =,, n), β = β 0, β,, β k ) t R k+ und σ die Parameter Die Likelihood-Funktion zu den Beobachtungsdaten x, y ),, x n, y n ) lautet: Lβ, σ) = = n f Yi,β,σy i ) = σ π n σ π exp σ y i, x t ) ) ] i β ) n exp σ y Xβ ) t y Xβ ) ), und die Log-Likelihood-Funktion: lβ, σ) = n lnπ) n lnσ) σ y Xβ)t y Xβ)

Kapitel 5: Lineare Regression 43 ML-Schätzungen Die ML-Schätzung β = β0, β,, β k ) t ist identisch mit der LS-Schätzung, β = X t X) X t y Die ML-Schätzung für σ ist: σy) = n RSS, wobei RSS = y X β ) t ) y X β Anmerkung: Statt der ML-Schätzung σ verwendet man oft die etwas andere Schätzung s = n k RSS Statistische Eigenschaften der Schätzer Die Schätzer aufgefasst als Zufallsvariablen) β0, β,, β k sind erwartungstreue Schätzer für die Regressionsparameter β 0, β,, β k ; für einen gegebenen Punkt x 0 = x 0,,, x 0,k ) t ist ŷx 0 ) =, x t 0) β ein erwartungstreuer Schätzer für yx 0 ) =, x t 0) β ; S = n k RSS ist ein erwartungstreuer Schätzer für σ Für die Verteilungen der Schätzer unter den Parameterwerten β 0, β,, β k und σ) gilt, wobei noch ein Vektor c = c 0, c,, c k ) t R k+, c 0 gegeben sei: c t β N c t β, q x c t ) σ ), wobei q x c t ) = c t X t X ) c 0 ; n k σ S = σ RSS χ n k und c t β c t β qx c t ) S t n k Konfidenzintervall für die Regressionsfunktion in einem Punkt Für einen gegebenen Punkt x 0 = x 0,,, x 0,k ) t von möglichen Werten x 0,j, j =,, k, der Einflussgrößen ist das α)-konfidenzintervall für yx 0 ) =, x t 0 ) β gegeben durch: ] ŷx 0 ) t n k, α q x, x t 0 ) s, ŷx 0) + t n k, α q x, x t0 ) s, wobei ŷx 0 ) =, x t 0) β und qx, x t 0 ) =, x t ) 0 X t X ) ) x0

Kapitel 5: Lineare Regression 44 t-tests für die einzelnen Regressionskoeffizienten Für ein gegebenes j 0,,, k} betrachte das zweiseitige) Testproblem H 0 : β j = 0 gegen H : β j 0 Der optimale α-signifikanztest für das Testproblem ist: ϕ j x, y,, x n, y n ) =, falls 0 wobei v j = X t X ) ] j,j βj vj s t n k, α, In der P-Wert-Darstellung lautet der Test: ϕ j x, y,, x n, y n ) = 0 βj ) ], falls F n k vj s < α, wobei F n k die Verteilungsfunktion der t n k -Verteilung bezeichnet