Als lineare Regressionsaufgabe, d. h., Regression von Y auf X, ergibt sich nun:

Transkript

1 5 Regression Oft interessiert uns der Zusammenhang zwischen zwei Merkmalen X und Y einer Einheit, etwa, wie Gewicht und Größe von Menschen voneinander abhängen. Einfach zu sagen, je größer, desto schwerer genügt wohl nicht, obwohl dies eine Hypothese sein könnte. Der einfachste Zusammenhang, den wir kennen, ist der lineare, d. h., eine Größe wächst oder fällt linear mit der anderen, etwa Y = a + bx. Als lineare Regressionsaufgabe, d. h., Regression von Y auf X, ergibt sich nun: (X, Y ) gemeinsame Verteilung Finde Konstanten a und b so, dass E(Y (a + bx)) minimal ist. Wir sprechen von Einfachregression, im Unterschied zur multiplen oder Mehrfachregression, bei der die Beziehung zwischen drei oder mehr Variablen erklärt werden soll. Bemerkung 5.1 Die Lösung der Regression erhalten wir durch folgende Optimierungsaufgabe a E(Y (a + bx)) = = E(Y (a + bx)) = 0 E(Y ) a be(x) =0 a + be(x) =E(Y ) (I) b E(Y (a + bx)) = = E(X(Y (a + bx))) = 0 E(X Y ) ae(x) be(x )=0 ae(x)+be(x )=E(XY ) (II) ae(x)+b[e(x)] = E(X) E(Y ) b[e(x ) [E(X)] ]=E(X Y ) E(X) E(Y ) (I) E(X) (II) (I) Lösung: b = Cov(X, Y ) Var(X) a = E(Y ) Cov(X, Y ) E(X) Var(X) Die Gleichungen (I) und (II)heißenauchNormalengleichungen. Bemerkung 5. (MSE) Wir sprechen auch davon, dass die Summe der Abweichungsquadrate minimiert wird, d. h., der sogenannte MSE (mean square error) wird minimiert. Daher sprechen wir auch von der sogenannten Least squares-approximation. Definition 5.1 (Regression) Sind X und Y identisch verteilt, so ist die Regressionsgerade Ŷ = a + bx 1

2 gegeben durch den Regressionskoeffizienten b = b Y ;X (regression coefficient) und den Interzept a = a Y ;X (intercept). X heißt auch unabhängige Variable, Regressor oder erklärende Variable, Y abhängige Variable, Regressand oder zu erklärende Variable. b = b Y ;X = Cov(X, Y ) Var(X) a = a Y ;X = E(Y ) Cov(X, Y ) E(X). Var(X) Die Ŷ heißen Vorhersagen (predicted values). Die Fehler e i = Ŷi Y i heißen Residuen (es gilt: n e i =0). Für eine mögliche Implementation ist wieder die Vektorschreibweise sinnvoll: x =(x 1,...,x n ) t, y =(y 1,...,y n ) t und x = x x 1I, ỹ = y y 1I b Y ;X = xt ỹ x, a Y ;X = y bx. Beispiel 5.1 (Größe und Gewicht) Größe X X = 17 Gewicht Y Y = 75 X Var(X) =53.5 Ỹ Var(Y ) = Cov(X, Y ) = 4 1 (( 1)( 3) + ( 4)( 15) + (10)(1) + (4)(8) + ( 9)( )) = = 58.5 Corr(X, Y ) = = ρ XY = Corr(X, Y ) = b Y ;X = = und a Y ;X = = Ŷ = X

3 Abb. 1: Regressionsgerade, Erklärung siehe Text Wenn wir nun die Regressionsgerade betrachten, fällt uns auf, dass 0= X, d. h., bei einer Größe von cm würden 0 kg als Gewicht vorausgesagt! Wir sehen also, dass dies nicht stimmen kann. Einerseits liegen für die lineare Regression in diesem Bereich keine Daten vor, d. h., wir haben extrapoliert, etwas das bei der Regression meistens nicht funktioniert, andererseits muss der Trend der Daten nicht linear sein. Im Abschnitt 5.1 werden wir darauf näher eingehen, indem wir Vertrauensbereiche für die Schätzungen berechnen und kurz die Residualanalyse betrachten. Beispiel 5. (Breakdown) Betrachten wir den einfachen Datensatz X Y so ist der lineare Zusammenhang Ŷ =0+1 X offensichtlich. 3

4 Abb. : Breakdown bei Regression Verändern wir jedoch nur einen Wert, X Y so erhalten wir die völlig andere Regressionsgerade Ŷ =3.+0. X. Wir sprechen von einem sogenannten Regression Breakdown, oder davon, dass die lineare Regression einen Breakdown Wert von 1 hat, oder, mit n, einen Breakdown Wert von 0 % hat. Es n genügt also ein einziger falscher Wert, um die Regression zusammenbrechen zu lassen. Wir betrachteten bisher die Regression von Y auf X. Wir können natürlich auch die Rollen von erklärender Variable x und zu erklärender Variable y vertauschen, und die Regression von X auf Y betrachten. Beispiel 5.3 (Größe und Gewicht) Vertauschen wir nun die Regressionsvariablen, belassen aber die Bezeichnungen, so erhalten wir: b X;Y = =0.54 und a X;Y = = und damit X = Y oder Y = X =1.914 X Beide Regressionsgeraden gehen durch den Schwerpunkt (X,Y ). 4

5 (17,75) Abb. 3: Regression von Y auf X (dünn) und umgekehrt (dick). Die Gerade passt anscheinend besser zu den Werten. Aus b Y ;X b X;Y = Cov(X, Y ) Cov(X, Y ) = [Corr(X, Y )] Var(X) Var(Y ) folgt, dass die Korrelation das geometrische Mittel aus den beiden Regressionskoeffizienten ist, d. h., Corr(X, Y ) = by ;X b X;Y. Weiters ist Var(X) b Y ;X = Corr(X, Y ) Var Y d. h., aus der Korrelation kann der Steigungsparameter b Y ;X der Regression geschätzt werden. Die Korrelation Corr(X, Y ) wird im Zusammenhang mit der Regression oft auch Korrelationskoeffizient genannt und mit ρ oder ρ XY bezeichnet. (Yi B XY = ρ = Corr (X, Y )= Ŷi) (Yi Y ) = s Ŷ s Y ist dann das Bestimmtheitsmaß (coefficient of determination), das 0 ist, falls kein Zusammenhang zwischen den Variablen besteht, und 1, falls ein linearer Zusammenhang besteht. ρ = 0 bedeutet, dass die Regressionsgeraden für ŷ und x achsenparallel sind und normal aufeinander stehen, ρ =1,dassdieseübereinstimmen, und 0 <ρ < 1, dass diese eine Schere bilden (siehe Beispiel 5.3). ρ = Corr ist der Cosinus des Winkels α, den die beiden Geraden zueinander haben. Interpretation: ρ = 1 n (Y i Y ) 1 (Y i n Ŷi) = 1 (Y i Y ) n Var(Y ) σ Ŷ Var(Y ) 5

6 gibt den Anteil der Varianz von Y an, der durch die Regressionsbeziehung erklärt wird. Der unerklärte Teil (Residualteil) der Varianz ist 1 ρ = 1 n 1 n (Y i Ŷi) = (Y i Y ) σ Ŷ σ Y. Bemerkung 5.3 Um die Nachteile der linearen Regression bezüglich des MSE zu umgehen, gibt es verschiedene andere Regressionsverfahren, die auf einer geraden (symmetrischen) Funktion r(x) basieren und i r(e i) minimieren. Es seien nur RM-Schätzer (repeated median), LMS- Schätzer (least median of squares) oder LTS-Schätzer (least trimmed squares) genannt, die alle einen Breakdown Wert von 50 % haben, d. h., selbst dann noch funktionieren, wenn fast die Hälfte der Datensätze falsch ist. Bemerkung 5.4 Viele Größen haben keinen linearen Zusammenhang, etwa Geschwindigkeit und Bremsweg (quadratischer Z.). Hier helfen wir uns, indem wir zuerst die Variablen so transformieren, dass ein linearer Zusammenhang möglich ist (etwa logarithmieren der Daten bei exponentiellen Wachstumsprozessen), dann eine lineare Regression durchführen, und das Ergebnis rücktransformieren. Folgende Tabelle enthält einige Transformationen, die notwendig sind, um ŷ = a + bx über die entsprechend transformierten Variablen y und x und die zu diesen gehörigen Regressionskoeffizienten a und b aus ŷ = a + b x zu berechnen (Quellen [?,?]). Zusammenhang Transformation Rücktransformation y = x = a = b = y = a + x b y 1 x a b y = b + a 1 x y x b 1 a a y = a bx y x a b y = a + x x bx y x a b y = ab x log y x log a log b y = ax b log y log x log a b y = ae bx log y x log a b y = ae b/x log y 1 x log a b y = 1 1 a + be x y exp x a b y = a + bx n y x n a b 6

7 5.1 Test der Regressionsparameter Nach einer kurzen Wiederholung der Einfachregression und einer leichten Erweiterung der Notation dieses Schätzers werden wir die geschätzten Parameter testen und Konfidenzintervalle für diese angeben und berechnen. Wir haben Werte Y 1,...,Y n N(a + bx i,σ ) i.i.d., d. h., Ŷ = a + bx. Wir kennen bereits die folgenden Schätzwerte für die unbekannten Parameter Regressionskoeffizient b und Interzept a b = by,x = Cov(Y,X) Var(X) = (Y i Y )(X i X) (X i X) â = a Y,X = Y b Y,X X = E(Y ) Cov(X, Y ) Var(X) E(X) Außerdem kennen wir den Korrelationskoeffizienten ρ = ρ X,Y bzw. das Bestimmtheitsmaß ρ (siehe Seite 5). Cov(Y,X) ρ Corr(X, Y )=. Var(Y ) Var(X) Als Schätzer erhalten wir ρ = (Y i Y )(X i X) n (Y i Y ) (X i X) Die Regressionsparameter Es wird angenommen, dass die Residuen e i unabhängig nach N(0,σ ) verteilt sind. Dann sind auch â N(a, σ a) und b N(b, σ b ) normalverteilt. Der Schätzer für die Varianz der Residuen ist s e = 1 n (Y i Ŷ ) = 1 n (Y i a bx i ) 7

8 Bemerkung 5.5 Aus s e können wieder die Parameter â und b berechnet werden. s e b = X i (Y i a bx i )=0 â = Y bx s e a = (Y i a bx i )=0 b = (X i X)(Y i Y ) (Xi X) Ein Konfidenzintervall für σ ergibt sich zu Î =[ (n )s e χ ; (n )s e n,1 α/ χ ]. n,α/ Die Varianz der Residuen hängt wiederum mit dem Bestimmtheitsmaß zusammen. Theorem 5.1 Es gilt: s e = σ =[1 ρ 1 ] n (Y i Y ) Beweis. ˆσ = 1 n = 1 n = 1 n = 1 n = 1 n (Y i Ŷi) = 1 (Y n i â bx i ) [Y i Y b(x i X)] (Y i Y ) (Y i Y )(X i X)+ 1 (Y i Y ) n b n n (Y i Y ) [1 ρ ] [ n (Y i Y )(X i X)] (X i X) + 1 n n b n (X i X) [ n (Y i Y )(X i X)] (X i X) Wir wollen nun testen, ob überhaupt ein Zusammenhang zwischen den Zufallsvariablen X i und Y i besteht, oder ob diese unabhängig sind. Dazu testen wir, ob der Regressionskoeffizient b signifikant von 0 verschieden ist oder nicht. H 0 : b =0 H A : b 0 Var(X) Da b = ρ Var(Y ist, können wir für dieses Problem denselben Test wie für das Prüfen ) auf Unabhängigkeit verwenden (F -Test). 8

9 F -Test auf Unabhängigkeit (verb. Stichproben) Seien (X 1,Y 1 )...(X n,y n ) Paare von Beobachtungen, wobei die X i N(µ X,σX ) und die Y i N(µ Y,σY ) jeweils i.i.d. sind. Der Korrelationskoeffizient ρ XY = Corr(X, Y )= (Xi X)(Y i Y ) (Xi X) (Yi Y ) = Cov(X, Y ) Var(X) Var(Y ) hängt nicht mehr von µ 1,µ,σ 1,σ,sondernnurmehrvonn ab. Wie sieht die Verteilung von ρ =cosβ aus? Dazu führen wir die Cotangenstransformation β 1I cos β sin β = 1 cos β cot β = cot(arccos ρ) = cos β 1 cos β = ρ 1 ρ durch. Theorem 5. Falls X i und Y i unabhängig sind, so gilt: ρ n t(n ) Verteilung 1 ρ oder (n ) ρ 1 ρ F (1,n ) Verteilung Daraus entwickeln wir den F -Test auf Unabhängigkeit der beiden Stichproben F -TEST auf Unabhängigkeit Voraussetzung: X 1,...,X n N(µ x,σx ) i.i.d. Y 1,...,Y n N(µ y,σy ) i.i.d. ρ Testgröße: T =(n ) 1 ρ F (1,n ) Hypothesen: H 0 : X i, Y i unabhängig, H A : X i, Y i abhängig H 0 ablehnen, falls T>F 1,n 1;1 α 9

10 Wir testen also, ob der Regressionskoeffizient b signifikant von 0 verschieden ist oder nicht. H 0 : b =0 H A : b 0 Unsere Testgröße ist: T = ρ n t(n ) oder T =(n ) 1 ρ F (1,n ) 1 ρ ρ H 0 wird abgelehnt, falls T>t n,1 α oder T >F 1,n ;1 α. Eine andere Methode stützt sich direkt auf die Verteilung des Regressionskoeffizienten. Sie dient auch gleichzeitig dazu, ein Konfidenzintervall für b anzugeben. Regressionskoeffizient b Varianz s b = s 1 e (Xi X) Testgröße Kritischer Wert Konfidenz-I. b b0 s b t(n ) zweiseitig: c α = t n,1 α einseitig: c α = t n,1 α Î =[ b s b t n,1 α ; b + s b t n,1 α ] Interzept a Varianz Testgröße Kritischer Wert Konfidenz-I. X s a = s i e n (X i X) â a 0 s a t(n ) zweiseitig: c α = t n,1 α einseitig: c α = t n,1 α Î =[â s a t n,1 α ; â + s a t n,1 α ] Ein äquivalenter zweiseitiger Test für den Interzept gegen 0 ist folgender H 0 : a =0 H A : a 0 Mit der F -verteilten Testgröße T = nâ s a F (1,n ) der sich direkt aus obigem zweiseitigen Test ableitet. H 0 wird abgelehnt, falls T>F 1,n ;1 α ist. Beispiel 5.4 (Düngemittel) Zusammenhang zwischen Düngemitteleinsatz X und Ertrag Y 10

11 X i Y i X i X Y i Y X =5. Y =8.0 Var(X) =0.895 Var(Y )=0.115 (Xi X) =3.58, (Y i Y ) =0.46 (Xi X)(Y i Y )=( ) = 1.15 Cov(X, Y )=0.875 ρ = 1.15 = ρ = = b = = =0.31 a = =6.396 Die Regressionsgleichung lautet daher Ŷ = X X i Y i Ŷ i e i = Y i Ŷi Die Summe der Residuen Y i Ŷi muss gleich 0 sein, Rundungsungenauigkeiten können aber auftreten. Die Varianz der Residuen ist s e = 1 3 (Yi Ŷi) = Wir testen, ob b =0 T = ρ n = =3.46 <t 3;0.99 =4.5404, 1 ρ daher kann H 0 nicht abgelehnt werden, d. h., b ist nicht signifikant von 0 verschieden, es ist daher anzunehmen, dass X i und Y i unabhängig sind. Wir testen nun, ob a =0: T =5 (6.396) = 13064, 94 F 1,3;0.99 =34.116, daher wird H 0 abgelehnt. a ist hochsignifikant von 0 verschieden. 11

12 Abb. 4: Spreadsheet: Lineare Einfachregression 5.1. Prognoseintervalle Wie wir Konfidenzintervalle für die Regressionsparameter angeben können, so können wir auch Konfidenz- und Prognoseintervalle für die Prognosen angeben. Prognoseintervall für Y 0 : Konfidenzintervall für E(Y 0 ): s Y = s e( (X 0 X) n (X i X) ) i Î = [Ŷ0 s Y t n,1 α ; Ŷ0 + s Y t n,1 α ] s EY = s e( 1 n + (X 0 X) i (X i X) ) Î = [Ŷ0 s EY t n,1 α ; Ŷ0 + s EY t n,1 α ] Wir sehen leicht, dass das Prognoseintervall für Y 0 größer ist, als das das Konfidenzintervall für E(Y 0 ). Simultanes Konfidenzintervall das zugleich an allen Stellen X 0 den Erwartungswert E(Y X 0 )vony mit der Wahrscheinlichkeit 1 α überdeckt. Y 0 ± s e F,n ;1 α ( 1 n + (X X 0) (Xi X) ) 1

13 Abb. 5: Konfidenz- und Prognoseintervalle bei der Regression Regression durch einen gegebenen Punkt Oft ist es notwendig, dass die Regressionsgerade durch einen bestimmten Punkt (X 0,Y 0 ) verläuft (oft ist dies der Ursprung). Wir wissen, dass die Regressionsgerade immer durch den Schwerpunkt (X,Y ) verläuft, wir brauchen daher in den Regressionsgleichungen nur die Koordinaten der Mittelwerte durch die des Fixpunktes zu ersetzen, um das Gewünschte zu erhalten. Wir haben daher b = (Yi Y 0 )(X i X 0 ) (Xi X 0 ) und â = Y 0 bx Residualanalyse Wir müssen überprüfen, ob unsere Annahme, dass die Residuen N(0,σ e)-verteilt sind, auch stimmt auf ihr basieren alle Tests der Parameter. Dazu bedienen wir uns standardisierter Tests. Oft genügt auch schon ein sogenannter Indexplot der Residuen die Residuen e i = Ŷ Y i werden gegen ihren Index i geplottet um zu sehen, ob die Residuen nicht normalverteilt sind, sondern dass es gewisse Regelmäßigkeiten gibt. Dies lässt auf einen anderen als einen 13

14 linearen Zusammenhang schließen. Oft hilft dann eine entsprechende Transformation der Daten. Weiters hilft der Indexplot, Ausreißer zu eliminieren. Wenn wir die standardisierten Residuen d i = e i s e verwenden, so können etwa Punkte mit d i > 3 als Ausreißer eliminiert werden, sie liegen zu weit von der Geraden weg. 14

15 5. Mehrfachregression Dieser Abschnitt wurde bereits ausführlich in der Mathematik 1 (Abschnitt Regression) behandelt und kann somit als bekannt vorausgesetzt werden. Er wird hier nur nochmals wiedergegeben, um ein vollständiges Skriptum zu liefern. Seien n Datensätze (y (i),x (i) 1,...,x (i) k ), i =1,...,n, gegeben, mit k<n,wobeidieerste Koordinate y (i) jeweils von den restlichen Einträgen, den sogenannten unabhängigen Variablen, x (i) 1,...,x (i) k abhängt. Es soll eine lineare Approximation in x (i) j gefunden werden, sodass y (i) erklärt werden kann, d. h., y (i) = β 0 + β 1 x (i) β k x (i) k, i =1,...,n, und gleichzeitig der Fehler der Approximation (Abstand von den tatsächlichen Werten) minimiert wird, d. h. [y (i) (β 0 + β 1 x (i) β k x (i) k )] min. Das ist der sogenannte kleinste Quadrate Schätzer oder die Gauss-Approximation der Daten. Wir suchen also eine Lösung des überbestimmten Gleichungssystems Xβ = y und Xβ y min mit den Bezeichnungen X =. 1 x (1) 1 x (1) k 1 x () 1 x () k... 1 x (n) 1 x (n) k β = β 0 β 1. β k y = y (1) y (). y (n). y Xβ y Xβ X-Raum 15

16 Da (Xβ y) normal auf alle Vektoren Xz im X-Raum steht, gilt Xz, (Xβ y) =(Xz) t (Xβ y) =0 und da (Xz) t = z t X t, gilt auch (z t X t )(Xβ y) =z t (X t Xβ X t y)=0. Da dies für alle z gilt, muss der zweite Faktor gleich null sein, es gilt also (X t X)β = X t y bzw. β =(X t X) 1 X t y. Bemerkung 5.6 Wir wollten Xβ = y lösen. Mit obigen Ausführungen gilt nun: und somit gilt auch Xβ = X(X t X) 1 X t y X = (X(X t X) 1 X t ) =(X(X t X) 1 X t )(X(X t X) 1 X t ) = X(X t X) 1 (X t X)(X t X) 1 X t = X(X t X) 1 X t = X. Wir sagen: y wird auf Xβ projiziert, mittels der Projektion X(X t X) 1 X t. Definition 5. Eine Projektion P erfüllt P = P und damit auch P n = P, n>0. Falls kein Designfehler (Messdaten) vorliegt, ist die (k +1) (k + 1)-Matrix (X t X) invertierbar, sodass dieses Regressionsproblem lösbar ist. Bemerkung 5.7 Das Verfahren heißt lineare Regression, weil die Koeffizienten β j Konstante sind und y (i) = β 0 + β 1 x (i) β k x (i) k eine Linearkombination von Funktionen 1 und x j,nichtjedoch die Funktionen linear sind. Im Folgenden werden wir sehen, dass statt der Funktionen x j beliebige Funktionen genommen werden können Moore-Penrose-Inverse oder Pseudoinverse Wie lösen wir das System (X t X)β = X t y? Existiert die Inverse von X t X,soistdaskeinallzugroßesProblem: β =(X t X) 1 X t y. 16

17 Da (X t X) 1 X t y das System Xβ = y im obigen Sinn (Gauss Approximation) löst, heißt die Matrix (X t X) 1 X t die Pseudoinverse zu X und wird mit X + bezeichnet. Die Pseudoinverse D + einer Diagonalmatrix D: d 1... D = d k D + = 1 d d k 0 Bei allgemeineren m n-matrizen A wird die Pseudoinverse über die sogenannte Singulärwertzerlegung (siehe später) berechnet. Definition 5.3 Sei A eine m n-matrix und ihre Singulärwertzerlegung A = UDV t. Dann ist die Pseudoinverse oder Moore-Penrose Inverse A + gegeben durch A + = VD + U t, wobei die Pseudoinverse D + der Diagonalmatrix D wie oben gebildet wird. Zur Berechnung der Singulärwertzerlegung siehe Abschnitt??. Die Pseudoinverse A + erfüllt folgende Identitäten AA + A = A, A + AA + = A +, (AA + ) t = AA +, (A + A) t = A + A. Ist die Matrix A invertierbar, so gilt A + = A Regression bezüglich beliebiger Basisfunktionen Es gebe wie oben einen funktionalen Zusammenhang y = f(x 1,...,x n )=β 0 g 0 (x 1,...,x n )+ + β k g k (x 1,...,x n ), wobei die g j bekannte Funktionen sind, und die Koeffizienten β j wie oben konstant sind. Wir wollen die Funktion f(x) =f(x 1,...,x n ) durch die bekannten Funktionen g j (x) approximieren. Durch Messung kennen wir die Funktionswerte von y (i) = f(x) anden Stellen x (i) =(x (i) 1,...,x (i) n ), i = 1,...,n. Mit den Bezeichnungen g 0 (x (1) ) g 1 (x (1) ) g k (x (1) ) β 0 y (1) g 0 (x () ) g 1 (x () ) g k (x () ) β 1 y () X =.... g 0 (x (n) ) g 1 (x (n) ) g k (x (n) ) 17 β =. β k y =. y (n),

18 analog zu oben, erhalten wir das Regressionsproblem Xβ = y und Xβ y min. Falls die Lösung existiert, ist sie wiederum gegeben durch (X t X)β = X t y bzw. β =(X t X) 1 X t y. Beispiel 5.5 Sei f(x 1,x )=β 0 + β 1 x 1 + β x + β 3 x 1 + β 4 x + β 5 x 1 x, so ist g 0 (x) =1,g 1 (x) =x 1, g (x) =x, g 3 (x) =x 1, g 4 (x) =x und g 5 (x) =x 1 x. Beispiel 5.6 Sei f(x 1,x )=β 0 + β 1 x 1 + β x und x x f(x 1,x ) und damit Es folgt somit β = β 0 β 1 β y = X = β =(X t X) 1 X t y β =

19 Aufgaben zur Regressionsanalyse 5.1 Im Rahmen einer Studie soll der Zusammenhang zwischen diastolischem Blutdruck X (mmhg) und Herzgewicht Y (g) von 10 an Gehirnblutung verstorbenen Männern geschätzt werden. X Y Berechne die Regressionsgleichung und das Bestimmtheitsmaß! Stelle die Daten graphisch dar und zeichne die geschätzte Regressionsgerade! 5. In der Grazer Universitäts-Frauenklinik wurden die Länge X und der Kopfumfang Y neugeborener Knaben gemessen. X Y a) Berechne die Regressionsgleichung! b) Teste, ob b signifikant von 0 verschieden ist! c) Berechne das Bestimmtheitsmaß! d) Berechne ein 95 % Konfidenzintervall für Y 0,wennX 0 =49! e) Berechne ein 95 % Konfidenzintervall für E(Y 0 ), wenn X 0 =49! f) Vergleiche d und e! 5.3 Nachstehende Tabelle enthält die Belastbarkeit eines Materials in Abhängigkeit seines Alters in Jahren: Belastbarkeit y Alter x a) Schätze die Regressionsgleichung y = b 1 + b x! b) Gib ein 95 % Konfidenzintervall für den Regressionskoeffizienten β an! c) Prüfe, ob der Stichprobenregressionskoeffizient b statistisch gegen Null gesichert ist (α =0.05)! d) Gib ein 95 % Konfidenzintervall für den Erwartungswert der Belastbarkeit bei einem Alter von 10 Jahren! e) Berechne den Korrelationskoeffizienten und das Bestimmtheitsmaß! 19

20 5.4 Gegeben ist eine Stichprobe folgender Wertepaare: x y a) Berechne die lineare Regressionsfunktion! b) Berechne ein 95 % Konfidenzintervall für die Steigung der Regressionsgeraden! c) Überprüfe, ob die Abweichungen von der Regressionsgeraden normalverteilt sind! 5.5 Gegeben sind folgende, an freiwilligen Versuchspersonen gemessene Daten Armlänge Beinlänge a) Berechne für die Armlänge 60 die zugehörige geschätzte Beinlänge y 60! b) Umgekehrte Regression: Berechne die zur Beinlänge y 60 (wie berechnet) gehörige Armlänge! Warum ist diese nicht gleich 60? c) Zeichne beide Regressionsgleichungen aus (a) und (b) in ein gemeinsames Schaubild! 5.6 Die folgende Tabelle zeigt, wie die Stückkosten eines bestimmten Produktes von der Menge abhängen: Menge (x) Stückkosten (y) a) Bestimme die lineare Regressionsgleichung y = a + bx! b) Wie ändern sich a und b, wenn sämtliche x-werte um 0 % erhöht und sämtliche y-werte um 5 % vermindert werden? c) Bestimme für die Regressionsgleichung y = cx zunächst die Normalengleichungen und wende diese dann auf die obigen Daten an! 0

21 5.7 Es sei x 1 die Anzahl der in Gebrauch befindlichen Autos (in Millionen), x die Anzahl der in Gebrauch befindlichen Lastwagen (in Millionen) und y der Benzinverbrauch in Millionen Barrel. Wir möchten die Regression von y auf x 1 und x ermitteln, d.h., a) Schätze a, b 1, b! b) Schätze σ! c) Schätze Var(b 1 ) und Var(b )! y = a + b 1 x 1 + b x x 1 x y Gegeben sind folgende Werte: Berechne: a) Bestimmtheitsmaß, x y b) Konfidenzintervall für die Regressionskoeffizienten der Grundgesamtheit! c) Teste in a) mit Hilfe eines t-tests die Hypothese, dass in der Grundgesamtheit kein Zusammenhang zwischen den Variablen x und y besteht! 5.9 In einer sehr kleinen Stichprobe (n = 17) korrelieren zwei quantitative Variablen mit r =0.61. Kann der Koeffizient durch Zufall entstanden sein (α =0.05)? 5.10 In einer Stichprobe von n = 59 korrelieren zwei Variable mit r =0.58. Gib ein 95 % Konfidenzintervall für ρ an! 1

22 5.11 Gegeben ist folgende Datenreihe: a) Bestimme ŷ = a + bx! x y b) Prüfe, ob der Stichprobenregressionskoeffizient b gegen 0 gesichert ist (α =0.01)! 5.1 X... Produktmenge Y... Gesamtkosten Bestimme: X Y a) Ŷ = a + bx, b) das Bestimmtheitsmaß, c) ein 99 % Konfidenzintervall für die durchschnittlichen Gesamtkosten mit einer Produktionsmenge von X 0 =5Stück, d) ein 95 % Prognoseintervall für die Gesamtkosten mit einer Produktionsmenge x 0 =70Stück! 5.13 Bei der Messung von Hämoglobingehalt im Blut (X) und mittlerer Oberfläche der Erythrozyten (Y ) bei 1 Personen ergaben sich folgende Daten: Person Hämoglobin- mittl. Oberfläche gehalt (X) d. Erythrozyten (Y) Frauen Männer

23 a) Berechne die Korrelation für alle Daten! b) Berechne die Korrelation für Männer und Frauen getrennt! c) Stelle die Daten grafisch dar! 3