Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen betrachtetdie gemeinsame Verteilungvon zwei Variablen, von denenkeine durchden Experimentator fixiert wird, beide sind also zufällig. Typische Regressionsprobleme sind z.b. beim tudiumdes Ernteertrages mit verschiedenen Mengen von Dünger, bei der Lebensdauer von Tieren bei verschiedenen trahlungsdosen etc., zu finden. Dabei werden immer die Werte einer Variablen festgehalten, und diese unterliegen keiner zufälligen Variation. Ein typisches Korrelationsproblem wäre das tudium des Zusammenhangs zwischen Intelligenzquotienten und chulleistung von Kindern. 7.1 Das Regressionsproblem Als einfaches Beispiel wollen wir den Zusammenhang der Verteilung des Gewichts von Männern mit ihrer Größe studieren. Dann wählen wir zu vorgegebenen Körpergrößen Männer aus und erhalten z.b. folgende Daten (siehe Abbildung 7.1). Fürjede gewählte Größex bekommenwir eine gewisse VerteilungderGewichte Y der Männer mit dieser Größe. Von dieser können eventuell Mittel µ y.x und Varianz σ y.x angegeben werden. Weil die Verteilung von Y von den Werten von x abhängt, wird Y auch als abhängige und x als unabhängige Variable bezeichnet. Es muß aber festgehalten werden, daß x hier keine Zufallsvariable darstellt. Normalerweise wird die Varianz σ y.x als konstant über x angenommen. In vielen Anwendungsbeispielen der Regressionsanalyse kann die Abhängigkeit der Mittelwerte von Y (µ y.x ) von x im Bereich der x-werte durch eine gerade Linie angegeben werden. Man spricht von einfacher, linearer Regression und schreibt z.b. µ y.x = a + b(x x), wobei a und b feste Parameter darstellen. 110
7.. chätzung der Parameter 111 x [cm] y = Y (ω) [kg] 150 55 150 67.5 150 60 155 60 155 70 155 65 155 67.5 160 75 160 7.5 175 85 175 9.5 175 80 Y (in kg) 95 90 85 80 75 70 65 60 55 150 160 170 180 x (in cm) Abbildung 7.1: Körpergewichte über den Größen. 7. chätzung der Parameter Die Parameter der Regressionsgeraden müssen aus den Daten geschätzt werden. Dies geschieht zumeist mit der Methode der kleinsten Quadrate. Eine lineare, erwartungstreue chätzung für a ist dann das arithmetische Mittel der Y -Werte, und für b wobei s x = 1 n 1 ˆb = s xy s x = â = ȳ, (xi x)(y i ȳ) (xi x), (xi x) die empirische Varianz der x-werte und s xy = 1 (xi x)(y i ȳ) n 1 die empirische Kovarianz (siehe später) zwischen x und Y bezeichnet. (Praktisch wird s xy häufig durch die äquivalente Formel s xy = 1 [ xi y i n xȳ ] n 1 berechnet.) ei ŷ x der geschätzte mittlere Wert von Y an der telle x (also von µ y.x ). Dann gilt ŷ x = â + ˆb(x x).
7.. chätzung der Parameter 11 Eine erwartungstreue chätzung für σ = σ y.x ist s = 1 (yi ŷ i ) = 1 [yi â n n ˆb(x i x)] mit der algebraisch äquivalenten Formel s = n 1 n (s y ˆb s x). s heißt auch mittlerer Fehler tandardfehler der Beobachtungen. Bei der Berechnung der Werte für das obige Beispiel der Körpergewichte von Männern ergibt sich folgendes: xi = 1 915 x = 159.58 yi = 850 ȳ = 70.83 xi y i = 136 75 x i = 306 675 y i = 61 55 s x = 1 (306675 1 11 159.58 ) = 97.54 s y = 1 (6155 1 11 70.83 ) = 119.70 s xy = 1 (13675 1 159.38 70.83) = 98.11 11 ˆb = 98.11/97.54 = 1.01 s = 11(119.70 10 1.01 97.54) = 3.1 ŷ x = 70.83 + 1.01(x 159.58) Y (in kg) 95 90 85 80 75 70 65 60 55 Y (in kg) 95 90 85 80 75 70 65 60 55 150 160 170 180 x (in cm) 150 160 170 180 x (in cm) Abbildung 7.: Regression der Körpergewichte über den Größen. In der rechten kizze der Abbildung 7. sind auch die Residuen y i ŷ i, also die Differenzenzwischen dengemessenenundgeschätztenwerten, angedeutet. Die Art
7.3. chätzungen und Tests bei Normalverteilung 113 der obigen Berechnung der Parameter â und ˆb ergibt sich auch aus dem Prinzip der kleinsten Quadrate, das heißt, die Gerade wird so gewählt, daß die umme der quadrierten Residuen minimal wird. Die Motivierung kommt auch aus der Ausgleichsrechnung. 7.3 chätzungen und Tests bei Normalverteilung 7.3.1 Konfidenzintervalle der Parameter Bis jetzt wurde nur angenommen, daß die Varianz σ y.x = σ für alle Werte von x gleich und daß die Regression linear ist. Wenn wir nun zusätzlich die Verteilung von Y bei jedem Wert x als normal annehmen, können wir Konfidenzintervalle für die Parameter a,b, σ und µ y.x angeben. Es gilt dann, daß die tatistiken und T a = (Ȳ a) n T b = (ˆb b)s x n 1 eine t-verteilung mit n Freiheitsgraden besitzen, die Verteilung von (n ) σ ist χ n mit n Freiheitsgraden. Konfidenzintervalle mit der Konfidenzzahl erhält man folglich sofort als Ȳ t n ;1 n < a < Ȳ + t n ;1 n, und ˆb tn ;1 (n ) < b < s ˆb + t n ;1 x n 1 χ n ;1 < σ < (n ) χ n ; s x n 1. Für unser obiges Beispiel ergeben sich 90%-Konfidenzintervalle als 70.83 1.81 3.1 1 < a < 70.83 + 1.81 3.1 1 68.3 < a < 73.34,
7.3. chätzungen und Tests bei Normalverteilung 114 für b 3.1 3.1 1.01 1.81 < b < 1.01 + 1.81 97.54 11 97.54 11.74 < b < 1.8, und für σ 10 3.1 18.31 < σ < 10 3.1 3.94 1.63 < σ < 58.68. 7.3. chätzung der Mittelwerte und zukünftiger Beobachtungen Ein Konfidenzintervall für den Mittelwert µ y.x an der telle x erhält man mit der Formel ŷ x t n ;1 1 (x x) + < µ n (n 1)s y.x < ŷ x + t n ;1 1 (x x) +. x n (n 1)s x In unserem Beispiel erhalten wir für Männer mit x = 16.5 cm Körpergröße einen geschätzten mittleren Wert für das Körpergewicht und ein 95%-Konfidenzintervall 73.78.3 3.1[ 1 1 ŷ 16.5 = 70.83 + 1.01(16.5 159.58) = 73.78 < 73.78 +.3 (16.5 159.58) + ] < µ y.16.5 11 97.54 3.1[ 1 1 70.54 < µ y.16.5 < 77.0. (16.5 159.58) + ] 11 97.54 Wollen wir eine Aussage über eine zukünftige Beobachtung y an der telle x machen, so kommt zur Varianz von ŷ x noch ein σ dazu und wir erhalten ŷ x t n ;1 < ŷ x + t n ;1 1 + 1 n 1 + 1 n + (x x) (n 1)s x + (x x) (n 1)s x < y.
7.3. chätzungen und Tests bei Normalverteilung 115 Dies ist ein Toleranzintervall für einen an dertelle x zu beobachtendenwert, das auf Grund der Information aus der tichprobe gefunden wurde. Für unser Beispiel erhalten wir an der telle x = 16.5 ( =.05) 73.78.3 3.1[1 + 1 1 7.3.3 Test auf Abhängigkeit (16.5 159.58) + ] < y x <... 11 97.54 6.58 < y x < 84.98. Eine häufig aufgestellte Hypothese ist die der Abhängigkeit der Variablen Y von x. Eine Methode, diese zu testen, ist auf Gleichheit der Mittelwerte von Y bei allen Werten von x zu testen. Dieser Fall bedeutet aber in der betrachteten linearen Regression H o : b = 0. Algorithmisch würde ein Test so aussehen: 1. Die Hypothese b = 0 wird getestet. Wird sie verworfen, so gibt dies genügend Grund zur Annahme, daß Y von x abhängt.. H o : b = 0 mit der Alternative b 0. 3. Man wähle ein. 4. Die Teststatistik sei T = (ˆb 0)s x n 1 5. Wenn die Verteilung von Y normal mit gleichem Mittel und Varianz für jedes x ist, so besitzt T eine t-verteilung mit n Freiheitsgraden. 6. Der kritische Bereich wird dann als (, t n ;1 ) (t n ;1, ) berechnet. 7. Man berechne den Wert für T und sehe nach, ob er in den kritischen Bereich fällt. 8. Man verwerfe akzeptiere entsprechend die Nullhypothese. 9. Man ziehe die chlußfolgerung über die Abhängigkeit Unabhängigkeit zwischen Y und x..
7.4. Das Korrelationsproblem 116 In unserem numerischen Beispiel ergibt sich ein Wert für T als 97.54 11 1.01 = 6.88, 3.1 wobei der kritische Bereich (bei =.05) mit T <.3 und T >.3 gegeben ist, sodaß wir auf Abhängigkeit des Körpergewichts von der Körpergröße schließen müssen. 7.4 Das Korrelationsproblem Im Gegensatz zur Abhängigkeit einer Zufallsvariablen von einer deterministischen Größe betrachten wir jetzt den Zusammenhang zwischen zwei zufälligen Größen. In einer tichprobe müssen hier immer paarweise Messungen vorliegen. Meistens werden Analysen unter der Annahme, daß das Paar der betrachteten Zufallsvariablen (X,Y ) eine bivariate Normalverteilung aufweist, durchgeführt. Diese ist in Abbildung 7.3 dargestellt. Es ist keine der Variablen ausgezeichnet. Bei jedem fixen Wert von X besitzt Y eine Normalverteilung und umgekehrt. Neben den Mittelwerten µ X, µ Y und den Varianzen σ X = E(X µ X ), σ Y = E(Y µ Y ) dient zur Charakterisierungdieserbivariaten Verteilungals MaßderAbhängigkeit zwischen X und Y noch die Kovarianz σ XY = E[(X µ X )(Y µ Y )]. z x y Abbildung 7.3: Dichte der bivariaten Normalverteilung. Als relative (dimensionslose) Größe ist die Korrelation zwischen X und Y als ρ XY = σ XY σ X σ Y
7.4. Das Korrelationsproblem 117 definiert. Ihr Wert liegt zwischen -1 und +1. Unabhängigkeit der beiden Variablen bedeutet σ XY = 0 und damit ρ XY = 0. Als chätzung für ρ dient meistens der empirische Korrelationskoeffizient r XY = 1 1 (xi x)(y i ȳ). s X s Y n 1 Das am Anfang des Kapitels angeführte Beispiel der Körpergrößen und Gewichte kann natürlich auch als Korrelationsproblem interpretiert werden. Als empirischen Korrelationskoeffizient errechnen wir r XY = 98.11 97.54 119.70 =.91. Test auf Unkorreliertheit ind die beiden Zufallsvariablen X und Y voneinander unabhängig und normalverteilt, so besitzt die tatistik T = R n 1 R eine t n -Verteilung, wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten r XY annimmt. T kann sofort als Teststatistik zum Testen der Nullhypothese H o : ρ = 0 verwendet werden. Bei pezifizierung der Gegenhypothese H 1 : ρ 0 ergibt sich als kritischer Bereich T > t n ;1. Beispiel 7.1: Betrachten wir die Abhängigkeit des Eisengehaltes Y (in %) kieseliger Hämatiterze von der Dichte X (g/cm 3 ), wie im Beispiel auf eite 69. Nun testen wir H o : ρ = 0 gegen H 1 : ρ 0 mit =.05. Der Wert des empirischen Korrelationskoeffizienten R beträgt r =.69. Mit n = 9 ergibt sich der Wert der Teststatistik T als n 7 t = r 1 r =.69 1.69 =.5, was absolut größer als t n ;1 = t 7;.975 =.365 ausfällt. Die Hypothese der Unkorreliertheit muß daher verworfen werden.