TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN WS / MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Biometrische und Ökonometrische Methoden I Lösungen 4. a) MTB > name c 'H2O' c2 'N' MTB > set c DATA> 3:/5 DATA> end MTB > set c2 DATA> 2 3 9 59 75 26 33 8 49 6 28 25 75 53 29 DATA> end MTB > save 'I:\NH2O.MTW' Saving worksheet in file: I:\NH2O.MTW MTB > Plot 'N'*'H2O'; SUBC> Symbol; SUBC> Type ; SUBC> Data.2.9.2.9; SUBC> EType ; SUBC> Axis ; SUBC> Label "Beregnung [mm]"; SUBC> Axis 2; SUBC> Label "N-Auswaschung [kg/ha]"; SUBC> Tick ; SUBC> TSize.25; SUBC> Tick 2; SUBC> TSize.25. Lineares Modell erscheint vernünftig. Punkte streuen recht schön um eine Gerade. N-Auswaschung [kg/ha] 2 3 4 5 6 7 8 Beregnung [mm] 9
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 4 Seite 2 b) MTB > Regress 'N' 'H2O'; SUBC> Fits 'FITS'; SUBC> Residuals 'RESI'; SUBC> SResiduals 'SRES'; SUBC> Constant. The regression equation is N = - 26.2 +.2 H2O Predictor Coef StDev T P Constant -26.25 2.6 -.22.246 H2O.297.354 6.65. S = 26.39 R-Sq = 77.3% R-Sq(adj) = 75.5% Analysis of Variance Source DF SS MS F P Regression 3786 3786 44.22. Error 3 95 696 Total 4 39837 c) Vertrauensintervalle der Regressionskoeffizienten: { b ± t # s } = { b ± t # s } (b und s bei Coef und StDev ablesen.) i n2;/2 bi i 3;.975 bi i bi MTB > InvCDF.975; SUBC> T 3. Inverse Cumulative Distribution Function Student's t distribution with 3 DF P( X <= x) x.975 2.64 VI für : { 26.25 ± 2.64 # 2.6 } = { 72.9, 2.4 } 95% 95% VI für : {.297 ± 2.64 #.354 } = {.46,.2778 } 95% 95%
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 4 Seite 3 d) Test der Regressionskoeffizienten: * Testgröße t = (b i i) / sbi H : t <> Fraktile / p-wert *signifikant (i) = 6.65 (T) > 2.6 / p =. * (ii) =. 3.48 (berechnen) > 2.6 * (iii) =.2.3 (berechnen) < 2.6 n.s. (l) =.22 (T) < 2.6 / p =.246 n.s. (ll) = 26 2.42 (berechnen) > 2.6 * (lll) = 26.2 (berechnen) < 2.6 n.s. In den Fällen (i), (ii) und (ll) ist H abzulehnen. Man kann dieses Ergebnis auch gleich - ohne Rechnung - aus den Vertrauensintervallen in c) ablesen. Wenn der jeweilige Wert außerhalb des Vertrauensintervalls liegt, ist die Nullhypothese abzulehnen, wenn er darin enthalten ist, nicht. e) Verkürzter Output: MTB > Regress 'N' 'H2O'; SUBC> Constant; SUBC> Predict 'H2O'. [... ] Fit StDev Fit 95.% CI 95.% PI 36.67 2.97 ( 8.64, 64.7) ( -26.87,.2) 47.5.66 ( 2.96, 72.35) ( -5.8, 9.49) 57.64.42 ( 35.2, 8.5) ( -3.66, 8.94) 68.2 9.28 ( 48.6, 88.9) ( 7.68, 28.57) 78.6 8.29 ( 6.69, 96.53) ( 8.84, 38.38) 89. 7.5 ( 72.87, 5.32) ( 29.8, 48.38) 99.58 6.99 ( 84.47, 4.69) ( 4.59, 58.57).7 6.8 ( 95.34, 24.79) ( 5.8, 68.95) 2.55 6.99 ( 5.44, 35.66) ( 6.57, 79.54) 3.4 7.5 ( 4.82, 47.26) ( 7.76, 9.32) 4.52 8.29 ( 23.6, 59.45) ( 8.76, 2.29) 52. 9.28 ( 3.95, 72.7) ( 9.56, 22.45) 62.5.42 ( 39.98, 85.) (.9, 223.8) 72.98.66 ( 47.79, 98.7) (.64, 235.32) 83.47 2.97 ( 55.44, 2.5) ( 9.93, 247.) Die Vertrauensintervalle für die Erwartungswerte E(y(x i)) sind in der Spalte 95.% CI (Confidence Interval). Dies ist das Intervall, in dem mit 95%-iger Wahrscheinlichkeit der Erwartungswert E(y(x i)) der Schätzung liegt. Die Spalte 95.% PI (Prediction Interval) gibt das sog. Prognoseintervall an, d.h. das Intervall, in dem mit 95% Wahrscheinlichkeit der wahre y(x i)-wert liegt. Dieses Intervall ist natürlich größer.
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 4 Seite 4 Die Auswaschung ohne Beregnung ( mm) ist der Achsenabschnitt der Regressionsgeraden (26.2 kg/ha). Man kann Schätzwerte für beliebige x-werte berechnen, wenn man in der Dialogbox Options... unter Prediction intervals for new observations: Werte oder ganze Spalten mit Werten angibt. Nun soll der Schätzwert bei berechnet werden. MTB > Regress 'N' 'H2O'; SUBC> Constant; SUBC> Predict. [... ] Fit StDev Fit 95.% CI 95.% PI -26.25 2.6 (-72.93, 2.43) (-99.94, 47.44) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Bei Beregnung erhält man formal eine Stickstoffauswaschung von 26.25 kg/ha. Eine negative Auswaschung würde aber einen Stickstoffeintrag bedeuten. MINITAB gibt auch eine Warnung aus, daß der x-wert sehr weit vom Regressionszentrum entfernt ist. Eine Regressionsgerade ist streng genommen nur im Bereich zwischen dem kleinsten und dem größten x-wert gültig, um die Abhängigkeit zwischen x und y zu beschreiben. Um Prognosen zu bekommen, wird in Anwendungen häufig über die Grenzen hinaus extrapoliert, wenn man z.b. die Bergnungsmenge schätzen will, bei der keine Auswaschung stattfindet (x = 25 mm). Dies ist allerdings nur in einem sehr beschränkten Bereich sinnvoll, da zum einen die Modellannahmen (z.b. die Linearität) nicht mehr gültig sind, und zum anderen die Streuung umso größer wird, je weiter der x-wert vom Mittelpunkt entfernt ist. f) MTB > %Fitline 'N' 'H2O'; SUBC> Confidence 95.; SUBC> Ci; SUBC> Pi. Regression Plot Y = -26.2476 +.2974X R-Sq =.773 2 N Regression 95% CI 95% PI 3 4 5 6 H2O 7 8 9 Die durchgezogene Linie ist die Regressionsgerade, die gepunkteten Hyperbeläste stellen den 95% -Vertrauensbereich der Regression dar, also die Vertrauensintervalle für E(y(x i)). Die gestrichelten Hyperbeläste bezeichnen das Prognoseintervall der Schätz- werte y(x i).
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 4 Seite 5 g) MTB > Regress 'N' 'H2O'; SUBC> NoConstant. The regression equation is N =.73 H2O Predictor Coef StDev T P Noconstant H2O.7335. 7.4. S = 26.83 Analysis of Variance Source DF SS MS F P Regression 2478 2478 293.76. Error 4 79 72 Total 5 22557 MTB > Plot 'N'*'H2O'; SUBC> Symbol; SUBC> Type ; SUBC> Line 73; SUBC> Type 2; SUBC> Line 3 36.8 83.8; SUBC> Data.2.9.2.9; SUBC> EType ; SUBC> Minimum ; SUBC> Maximum ; SUBC> Minimum 2 ; SUBC> Maximum 2 2; SUBC> Axis ; SUBC> Label "Beregnung [mm]"; SUBC> Axis 2; SUBC> Label "N-Auswaschung [kg/ha]"; SUBC> Tick ; SUBC> TSize.25; SUBC> Tick 2; SUBC> TSize.25. Die Regressionsgleichung lautet nun N =.73 # H2O und geht offensichtlich durch den Nullpunkt. Im Vergleich zur normalen Regressionsgeraden (durchgezogene Linie) verläuft die Gerade, die durch den Ursprung geht (gestrichelte Linie) etwas flacher. N-Auswaschung [kg/ha] 2 5 Beregnung [mm]
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 4 Seite 6 2. a) MTB > MatrixPlot c6-c8; SUBC> Symbol. Es besteht ein offensichtlicher linearer Zusammenhang zwischen allen drei Variablen, so daß ein lineares Regressionsmodell sinnvoll ist. 749.75 65.25 5.75 36.25 Gew_kg KH_cm 2.5 89.5 BU_cm 65.25 749.75 36.25 5.75 89.5 2.5 MTB > MatrixPlot c2-c5; SUBC> Symbol. Zwischen den Fett-% und Eiweiß-% ist kein linearer Zusammenhang erkennbar. Bei den anderen Variablen scheint ein linearer Zusammenhang in Untergruppen möglich. Man gruppiert die Variablen deshalb nach Rassen auf. 4.6 3.6 ML_kg Fett_% Eiw_% 25.25 94.75 3.6 4.6 Fett_kg 94.75 25.25 MTB > MatrixPlot c2-c5; SUBC> Symbol 'Rasse'. Sinnvoll ist offensichtlich eine Regressionsanalyse nach Rassen getrennt. 4.6 3.6 ML_kg Fett_% 2 3 4 Eiw_% 25.25 94.75 Fett_kg 3.6 4.6 94.75 25.25
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 4 Seite 7 b) Correlations (Pearson) Gew_kg KH_cm KH_cm.857 BU_cm.838.797 Die Korrelation zwischen den Variablen ist relativ hoch. Am einfachsten zu messen ist wahrscheinlich die Kreuzhöhe, so daß man die beiden anderen Variablen aus der Kreuzhöhe schätzt. Die Regressionsanalyse liefert: Gew_kg = -39 + 7. KH_cm BU_cm = 96.6 +.74 KH_cm c) Die Gruppierung wird exemplarisch an den Schwarzbunten demonstriert. MTB > name c9 'SB ML_kg' c 'SB Fett_%' MTB > Copy 'ML_kg' 'Fett_%' 'SB ML_kg' 'SB Fett_%'; SUBC> Use 'Rasse' =. Die Korrelationsanalyse für alle Rassen und getrennt nach Rassen liefert: Correlation of ML_kg and Fett_% = -.276 alle 2 Correlation of SB ML_kg and SB Fett_% = -.63 4 Schwarzbunte Correlation of FV ML_kg and FV Fett_% = -.79 5 Fleckvieh Correlation of BV ML_kg and BV Fett_% = -.8 2 Braunvieh Correlation of GV ML_kg and GV Fett_% = -.849 Gelbvieh Die Regressionsanalyse für alle Rassen und getrennt nach Rassen liefert: Fett_% = 4.45 -.78 ML_kg alle 2 SB Fett_% = 6.78 -.462 SB ML_kg 4 Schwarzbunte FV Fett_% = 7.6 -.72 FV ML_kg 5 Fleckvieh BV Fett_% = 7.23 -.495 BV ML_kg 2 Braunvieh GV Fett_% = 7.39 -.755 GV ML_kg Gelbvieh Die Regressionsgerade für alle Rassen ist deutlich flacher als die Geraden nach Rassen getrennt. d) Auflösen der Gleichung nach der Kreuzhöhe (Umkehrfunktion) liefert: Gew_kg = -39 + 7. KH_cm < KH_cm = /.7 Gew_kg + 39/7. KH_cm = 43.5 +.4 Gew_kg Die Regression der Kreuzhöhe auf das Gewicht liefert jedoch: KH_cm = 69.7 +.3 Gew_kg Diese Gerade ist viel flacher als die Umkehrfunktion. Die beiden Geraden stimmen nur im Fall exakter linearer Abhängigkeit überein (r = ). Der Grund liegt in der Minimierung der Summe der Abweichungsquadrate senkrecht zur y-achse. Bei Vertauschung der Achsen resultieren daher andere Abweichungsquadrate. Will man daher das umgekehrte Modell bestimmen, so muß eine neue Regression berechnet werden.