3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe der quadratischen Abweichungen in vertikaler Richtung zur Regressionsgeraden soll mimimal sein. Methode der kleinsten Quadrate Y = b 0 + b X Formeln zur Berechnung der Schätzwerte für b 0 und b siehe Formelsammlung bzw. Zusammenfassung der Formeln. 3. Güte der Anpassung Streuungszerlegung: SSY = n y i ȳ Gesamtstreuung Es gilt: SSY = SSŶ SSŶ = n ŷ i ȳ erklärte Streuung SSE = n y i ŷ i Reststreuung SSŶ + SSE = = SSY + SSE SSY Es ist B XY = SSŶ das Bestimmtheitsmaß. SSY B XY beschreibt den Anteil der durch die Regression erklärten Streuung an der Gesamtstreuung. Es gilt: 0 B XY B XY = r XY r XY empirischer Korrelationskoeffizient Formeln zur Berechnung der Schätzwerte für b 0 und b siehe Formelsammlung bzw. Zusammenfassung der Formeln. Test auf Modelladäquatheit : Nullhypothese: H 0 : Korrelationskoeffizient = 0 Testgröße: T = r XY n r XY Kritischer Bereich: K =, t n, t n,, Risiko 0 < < r XY empirischer Korrelationskoeffizient t n, -Quantil der t-verteilung n Freiheitsgraden
Test auf Modelladäquatheit : Globaltest aus der Streuungszerlegung analog zur Varianzanalyse Tabelle: Quadrat- Freiheits- tlere Testgröße summe grade Quadratsumme erklärte SSŶ MSŶ = SSŶ Rest SSE n MSE = SSE n T = MSŶ MSE gesamt SSY Nullhypothese: H 0 : eine lineare Regressionsfunktion erklärt den Zusammenhang zwischen X und Y nicht Testgröße: T = MSŶ MSE Kritischer Bereich: K = F,n,, Risiko 0 < < F,n, -Quantil der F-Verteilung,n Freiheitsgraden 3.3 Konfidenzintervalle und Tests für b 0 und b Konfidenzintervall für b : und Konfidenzintervall für b 0 : ˆb Schätzwert für b ŝ b ŝ b = ŝ n = ŝ x i x s X ˆb0 Schätzwert für b 0 n x i ŝ b0 ŝ b 0 = ŝ n n = ŝ x i x ŝ ŝ = n s X s X = ˆb ŝ b t n, ; ˆb + ŝ b t n, ˆb0 ŝ b0 t n, ; ˆb 0 + ŝ b0 t n, n + x s X n y i ŷ i = MSE n n x i n x x i x =
Risiko 0 < < -Quantil der t-verteilung n Freiheitsgraden t n, Mit einer Sicherheit von liegt b bzw. b 0 in dem entsprechenden Intervall. Tests für die Regressionskonstante b 0 : Nullhypothese Alternativhypothese Kritischer Bereich H 0 : b 0 = b H : b 0 b K = ; t n ; t n ; ; H 0 : b 0 b H : b 0 < b K = ; t n ; H 0 : b 0 b H : b 0 > b K = t n ; ; dabei ist b R, 0 und in allen drei Fällen verwendet man die Testgröße Tests für den Regressionskoeffizienten b : T = ˆb 0 b ŝ b0 analog Testgröße T = ˆb b ŝ b 3.3 Konfidenzintervalle für die Regressionsgerade Konfidenzintervall für die Regressionsgerade an fester Stelle x d.h. Konfidenzintervall für EY = b 0 + b x für festes x: ˆb0 + ˆb x ŝ Y t n, ; ˆb 0 + ˆb x + ŝ Y t n, Simultaner Konfidenzbereich für die gesamte Regressionsgerade ˆb0 + ˆb x ŝ Y F,n, ; ˆb 0 + ˆb x + ŝ Y F,n, Konfidenzintervall für Y für festes x d.h. Vorhersage- oder Prognoseintervall für die Zielgröße an der Stelle x: ˆb0 + ˆb x ŝ V t n, ; ˆb 0 + ˆb x + ŝ V t n, 3
Risiko 0 < < ŝ Y ŝ Y = ŝ n + ŝ V ŝ V = ŝ t n, + n + x x n x i x x x n x i x -Quantil der t-verteilung n Freiheitsgraden F,n, -Quantil der F-Verteilung,n Freiheitsgraden 3.4 Linearitätstest nach Fisher Voraussetzung: Mehrfachmessungen, d.h. für einige x-werte liegen mehrere y-werte vor. Idee: Streuungszerlegung wird weiter verfeinert, indem die Reststreuung SSE weiter zerlegt wird. Bezeichnungen: Meßwerte an der Stelle x i : y i,...,y ini i =,...,m und n +...n m = n Zerlegung der Reststreuung SSE: : SSE = m n i j= n i y ij ŷ i SSM = m ȳ i ŷ i = m n i ȳ i ŷ i j= n i SSE = m y ij ȳ i j= SSE = SSM + SSI bilden da: MSI = SSI Streuung der y-werte an den Meßstellen n m MSM = SSM Abweichung von der Linearität m Abweichung Gruppentel vom Prognosewert Linearitätstest nach Fisher: Nullhypothese: H 0 : es besteht ein linearer Zusammenhang Testgröße: T = MSM MSI Kritischer Bereich: K = F m,n m, ; m Anzahl x-werte Meßstellen Risiko 0 < < MSM, MSI siehe oben F m,n m, -Quantil der F-Verteilung m,n m Freiheitsgraden 4
3.5 Zusammenfassung der verwendeten Formeln einschließlich alternativer Berechnungsmöglichkeiten Hinweis: Das - Zeichen steht in allen Formeln für n. Grundlegende Formeln: Formel Quadratsumme s X s X = xi x = x i n x = x i x = x i n x s Y s Y = yi ȳ = yi nȳ SSY = y i ȳ = yi nȳ s XY s XY = xi xy i ȳ SXY = x i xy i ȳ = x i y i n xȳ = x i y i n xȳ xi xy i ȳ r XY r XY = r XY = xi x yi ȳ = s XY s X s Y SXY SSY Weitere Größen für Konfidenzintervalle, Tests und Prognosen: Regressionsparameter ˆb = n x i y i x i y i n x i x i x ˆb0 = i y i x i x i y i n x i x i s X, s Y, s XY, r XY ˆb = r XY s Y s X = s XY s X ˆb0 = ȳ ˆb x Restvarianz ŝ = n y i ŷ i ŝ = s Y r XY n n Streuungszerlegung Quadratsummen ˆb = SXY ŝ = SSY ˆb SXY n Total: SSY = y i ȳ SSY = s Y SSY Rest: SSE = y i ŷ i SSE = s Y r XY SSE = SSY ˆb SXY Erklärt: SSŶ = ŷ i ȳ SSŶ = s Y n ŝ SSŶ = ˆb SXY Streuungen für KI, Tests Anstieg: ŝ b = ŝ Absolutglied: ŝ b 0 = ŝ xi x ŝ b = ŝ s X x i n ŝ x i x b 0 = ŝ n + x s X ŝ b = ŝ ŝ b 0 = ŝ n + x 5