Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Größe: px

Ab Seite anzeigen:

Download "Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem"

Berndt Schäfer
vor 7 Jahren
Abrufe

1 Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen betrachtet die gemeinsame Verteilung von zwei Variablen, von denen keine durch den Experimentator fixiert wird, beide sind also zufällig. Typische Regressionsprobleme sind z.b. beim tudium des Ernteertrages mit verschiedenen Mengen von Dünger, bei der Lebensdauer von Tieren bei verschiedenen trahlungsdosen etc., zu finden. Dabei werden immer die Werte einer Variablen festgehalten, und diese unterliegen keiner zufälligen Variation. Ein typisches Korrelationsproblem wäre das tudium des Zusammenhangs zwischen Intelligenzquotienten und chulleistung von Kindern. 7.1 Das Regressionsproblem Als einfaches Beispiel wollen wir den Zusammenhang der Verteilung des Gewichts von Männern mit ihrer Größe studieren. Dann wählen wir zu vorgegebenen Körpergrößen Männer zufällig aus und erhalten z.b. folgende Daten (siehe Abbildung 7.1). Für jede gewählte Größe x bekommen wir eine gewisse Verteilung der Gewichte Y der Männer mit dieser Größe. Von dieser können eventuell Mittel µ y.x und Varianz σ y.x angegeben werden. Weil die Verteilung von Y von den Werten von x abhängt, wird Y auch als abhängige und x als unabhängige Variable bezeichnet. Es muss aber festgehalten werden, dass x hier keine Zufallsvariable darstellt. Normalerweise wird die Varianz σ y.x als konstant über x angenommen. In vielen Anwendungsbeispielen der Regressionsanalyse kann die Abhängigkeit der Mittelwerte von Y (µ y.x ) von x im Bereich der x-werte durch eine gerade Linie angegeben werden. Man spricht von einfacher, linearer Regression und schreibt z.b. µ y.x = a + b(x x), wobei a und b feste Parameter darstellen. 101

2 7.. chätzung der Parameter 10 x [cm] y = Y (ω) [kg] Y (in kg) x (in cm) Abbildung 7.1: Körpergewichte über den Größen. 7. chätzung der Parameter Die Parameter der Regressionsgeraden müssen aus den Daten geschätzt werden. Dies geschieht zumeist mit der Methode der kleinsten Quadrate. Eine lineare, erwartungstreue chätzung 1 für a ist dann das arithmetische Mittel der Y -Werte, und für b wobei s x = 1 n 1 ˆb = s xy s x = â = ȳ, (xi x)(y i ȳ) (xi x), (xi x) die empirische Varianz der x-werte und s xy = 1 (xi x)(y i ȳ) n 1 die empirische Kovarianz (siehe später) zwischen x und Y bezeichnet. ei ŷ x der geschätzte mittlere Wert von Y an der telle x (also von µ y.x ). Dann gilt ˆµ y.x = ŷ x = â + ˆb(x x). Eine erwartungstreue chätzung für σ = σ y.x ist s = 1 (yi ŷ i ) = 1 [yi â n n ˆb(x i x)]. 1 : lm(y x), aber Vorsicht: In wird x nicht abgezogen!

3 7.3. chätzungen und Tests bei Normalverteilung 103 s heißt auch mittlerer Fehler tandardabweichung der Beobachtungen. Bei der Berechnung der Werte für das obige Beispiel der Körpergewichte von Männern ergibt sich folgendes: xi = x = yi = 850 ȳ = xi y i = x i = y i = s x = 1 ( ) = s y = 1 ( ) = s xy = 1 ( ) = ˆb = 98.11/97.54 = 1.01 s = 11( ) = 3.1 ŷ x = (x ) Y (in kg) Y (in kg) x (in cm) x (in cm) Abbildung 7.: Regression der Körpergewichte über den Größen. In der rechten kizze der Abbildung 7. sind auch die Residuen y i ŷ i, also die Differenzen zwischen den gemessenen und geschätzten Werten, angedeutet. Die Art der obigen Berechnung der Parameter â und ˆb ergibt sich auch aus dem Prinzip der kleinsten Quadrate, das heißt, die Gerade wird so gewählt, dass die umme der quadrierten Residuen minimal wird. Die Motivierung kommt auch aus der Ausgleichsrechnung. 7.3 chätzungen und Tests bei Normalverteilung Konfidenzintervalle der Parameter Bis jetzt wurde nur angenommen, dass die Varianz σ y.x = σ für alle Werte von x gleich und dass die Regression linear ist. Wenn wir nun zusätzlich die Verteilung : summary(lm(y x))

4 7.3. chätzungen und Tests bei Normalverteilung 104 von Y bei jedem Wert x als normal annehmen, können wir Konfidenzintervalle für die Parameter a, b, σ und µ y.x angeben. Es gilt dann, dass die tatistiken und T a = (Ȳ a) n T b = (ˆb b)s x n 1 eine t-verteilung mit n Freiheitsgraden besitzen, die Verteilung von (n ) σ ist χ n mit n Freiheitsgraden. Konfidenzintervalle 3 mit der Konfidenzzahl erhält man folglich sofort als Ȳ t n ;1 n < a < Ȳ + t n ;1 n, und ˆb tn ;1 (n ) < b < s ˆb + t n ;1 x n 1 χ n ;1 < σ < (n ) χ n ; s x n 1. Für unser obiges Beispiel ergeben sich 90%-Konfidenzintervalle als < a < für b 68.3 < a < 73.34, < b < < b < 1.8, und für σ < σ < < σ < : confint(lm(y x))

5 7.3. chätzungen und Tests bei Normalverteilung chätzung der Mittelwerte und zukünftiger Beobachtungen Ein Konfidenzintervall 4 für den Mittelwert µ y.x an der telle x erhält man mit der Formel ŷ x t n ;1 1 (x x) + < µ n (n 1)s y.x < ŷ x + t n ;1 1 (x x) +. x n (n 1)s x In unserem Beispiel erhalten wir für Männer mit x = 16.5 cm Körpergröße einen geschätzten mittleren Wert für das Körpergewicht und ein 95%-Konfidenzintervall ŷ 16.5 = ( ) = < [ 1 1 ( ) + ] < µ y [ < µ y.16.5 < ( ) + ] Wollen wir eine Aussage über eine zukünftige Beobachtung y an der telle x machen 5, so kommt zur Varianz von ŷ x noch ein σ dazu und wir erhalten ŷ x t n ;1 < ŷ x + t n ; n n + (x x) (n 1)s x + (x x) (n 1)s x Dies ist ein Toleranzintervall für einen an der telle x zu beobachtenden Wert, das auf Grund der Information aus der tichprobe gefunden wurde. Für unser Beispiel erhalten wir an der telle x = 16.5 ( =.05) [ < y ( ) + ] < y x < < y x < : predict(lm(y x), interval= confidence ) 5 : predict(lm(y x), interval= prediction ).

6 7.3. chätzungen und Tests bei Normalverteilung Test auf Abhängigkeit Eine häufig aufgestellte Hypothese ist die der Abhängigkeit der Variablen Y von x. Eine Methode, diese zu testen, ist auf Gleichheit der Mittelwerte von Y bei allen Werten von x zu testen. Dieser Fall bedeutet aber in der betrachteten linearen Regression H o : b = 0. Algorithmisch würde ein Test so aussehen: 1. Die Hypothese b = 0 wird getestet. Wird sie verworfen, so gibt dies auf Grund der tichprobe genügend Grund zur Annahme, dass Y von x abhängt.. H o : b = 0 mit der Alternative b 0 ( > 0 < 0 ). 3. Man wähle ein. 4. Die Teststatistik sei T = (ˆb 0)s x n 1 5. Wenn die Verteilung von Y normal mit gleichem Mittel und Varianz für jedes x ist, so besitzt T eine t-verteilung mit n Freiheitsgraden. 6. Der kritische Bereich wird dann als (, t n ;1 ) (t n ;1, ) berechnet. 7. Man berechne den Wert für T und sehe nach, ob er in den kritischen Bereich fällt. 8. Man verwerfe akzeptiere entsprechend die Nullhypothese. 9. Man ziehe die chlussfolgerung über die Abhängigkeit Unabhängigkeit zwischen Y und x. In unserem numerischen Beispiel ergibt sich ein Wert für T als = 6.88, wobei der kritische Bereich (bei =.05) mit T <.3 und T >.3 gegeben ist, sodass wir auf Abhängigkeit des Körpergewichts von der Körpergröße schließen müssen.

7 7.4. Das Korrelationsproblem Das Korrelationsproblem Im Gegensatz zur Abhängigkeit einer Zufallsvariablen von einer deterministischen Größe betrachten wir jetzt den Zusammenhang zwischen zwei zufälligen Größen. In einer tichprobe müssen hier immer paarweise Messungen vorliegen. Meistens werden Analysen unter der Annahme, dass das Paar der betrachteten Zufallsvariablen (X, Y ) eine bivariate Normalverteilung aufweist, durchgeführt. Diese ist in Abbildung 7.3 dargestellt. Es ist keine der Variablen ausgezeichnet. Bei jedem fixen Wert von X besitzt Y eine Normalverteilung und umgekehrt. Neben den Mittelwerten µ X, µ Y und den Varianzen σ X = E(X µ X ), σ Y = E(Y µ Y ) dient zur Charakterisierung dieser bivariaten Verteilung als Maß der Abhängigkeit zwischen X und Y noch die Kovarianz σ XY = E[(X µ X )(Y µ Y )]. y Abbildung 7.3: Dichte der bivariaten Normalverteilung. Als relative (dimensionslose) Größe ist die Korrelation zwischen X und Y als ρ XY = σ XY σ X σ Y definiert. Ihr Wert liegt zwischen -1 und +1. Unabhängigkeit der beiden Variablen bedeutet σ XY = 0 und damit ρ XY = 0. Als chätzung für ρ dient meistens der empirische Korrelationskoeffizient r XY = 1 1 (xi x)(y i ȳ). s X s Y n 1 Das am Anfang des Kapitels angeführte Beispiel der Körpergrößen und Gewichte kann natürlich auch als Korrelationsproblem interpretiert werden. Als em-

8 7.4. Das Korrelationsproblem 108 pirischen Korrelationskoeffizient errechnen wir r XY = =.91. Test auf Unkorreliertheit ind die beiden Zufallsvariablen X und Y voneinander unabhängig und normalverteilt, so besitzt die tatistik T = R n 1 R eine t n -Verteilung, wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten r XY annimmt. T kann sofort als Teststatistik zum Testen der Nullhypothese H o : ρ = 0 verwendet werden. Bei pezifizierung der Gegenhypothese H 1 : ρ 0 ergibt sich als kritischer Bereich T > t n ;1 Beispiel 7.1: Betrachten wir die Abhängigkeit des Eisengehaltes Y (in %) kieseliger Hämatiterze von der Dichte X (g/cm 3 ), wie im Beispiel auf eite 67. Nun testen wir H o : ρ = 0 gegen H 1 : ρ 0 mit =.05. Der Wert des empirischen Korrelationskoeffizienten R beträgt r =.69. Mit n = 9 ergibt sich der Wert der Teststatistik T als 6. n 7 t = r 1 r = =.5, was absolut größer als t n ;1 = t 7;.975 =.365 ausfällt. Die Hypothese der Unkorreliertheit muss daher verworfen werden. 6 : cor.test(daten1, Daten)

Ähnliche Dokumente

Regression und Korrelation

Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen