TECHNISCHE UNIVERSITÄT MÜNCHEN - WEIHENSTEPHAN WS 97/98 MATHEMATIK UND STATISTIK, INFORMATIONS- UND DOKUMENTATIONSZENTRUM Biometrische und Ökonometrische Methoden I! Lösungen 6 1. a) MTB > Read "H:\STUDENT\MINITAB\CNP.DAT" c1-c3. Entering data from file: H:\STUDENT\MINITAB\CNP.DAT 306 rows read. MTB > name c1 'C' c2 'N' c3 'P' MTB > Save 'I:\CNP.MTW'; SUBC> Replace. Saving worksheet in file: I:\CNP.MTW MTB > Describe 'C'-'P'. Descriptive Statistics Variable N Mean Median Tr Mean StDev SE Mean C 306 15.275 14.650 14.770 4.562 0.261 N 306 1.5343 1.4800 1.4930 0.4294 0.0245 P 306 9.060 7.900 8.423 6.013 0.344 Variable Min Max Q1 Q3 C 6.800 51.100 13.100 16.025 N 0.7700 4.3500 1.3000 1.6300 P 0.400 41.500 5.700 10.500 b) MTB > MatrixPlot 'C'-'P'; SUBC> Symbol. C und N sind eng korreliert, C und P sowie N und P dagegen nicht. Dies sieht man auch die Korrelationsmatrix unten. 40.025 17.875 3.455 C N 1.665 31.225 10.675 P 17.875 40.025 1.665 3.455 10.675 31.225 MTB > Correlation 'C'-'P'. Correlations (Pearson) C N N 0.960 P -0.029-0.044
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 2 c) MTB > Regress 'C' 2 'N' 'P'; C = - 0.486 + 10.2 N + 0.0107 P Constant -0.4865 0.2962-1.64 0.102 N 10.2092 0.1698 60.13 0.000 P 0.01072 0.01212 0.88 0.377 S = 1.272 R-Sq = 92.3% R-Sq(adj) = 92.2% Analysis of Variance Source DF SS MS F P Regression 2 5856.3 2928.1 1809.67 0.000 Error 303 490.3 1.6 Total 305 6346.5 d) Test des Bestimmtheitsmaßes H 0 : B = 0 gegen H 1 : B > 0. Der globale F-Test mit der Testgröße F 0 = MS Regression / MS Error = 1809.67 und p = 0.000 auf drei Nachkommastellen liefert Signifikanz auf " = 1%, d.h. es liegt eine hochsignifikante Regression vor. e) Test der partiellen Regressionskoeffizienten H 0 : $ i = 0 gegen H 1 : $ i 0 für i = 0,1,2. t- Test mit der Testgröße t 0 = t-ratio = Coef/StDev. Für $ 0 ist t 0 =!1.64 bei einem p-wert von 0.102. H 0 kann auf " = 1% nicht abgelehnt werden, d.h. der Kohlenstoffgehalt bei fehlendem Stickstoff und Phosphor ist nicht signifikant verschieden von 0. Für $ 1 ist t 0 = 60.13 bei einem p-wert von 0.000 auf drei Nachkommastellen. H 0 wird auf " = 1% abgelehnt, d.h. der N-Gehalt hat signifikanten Einfluß auf den C-Gehalt. Für $ 2 ist t 0 =!0.88 bei einem p-wert von 0.377. H 0 kann auf " = 1% nicht abgelehnt werden. Aufgrund des hohen p-werts kann man schließen, daß der C-Gehalt praktisch nicht vom P-Gehalt abhängt. f) B = R-Sq = 92.3%. g) Die Koeffizienten und das Bestimmtheitsmaß werden sich kaum verändern, da der P- Gehalt im zweidimensionalen Modell praktisch keinen Einfluß auf den C-Gehalt hat. MTB > Regress 'C' 1 'N'; C = - 0.379 + 10.2 N Constant -0.3791 0.2701-1.40 0.161 N 10.2026 0.1695 60.18 0.000 S = 1.272 R-Sq = 92.3% R-Sq(adj) = 92.2%
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 3 h) Der Regressionskoeffizient b 1 = 10.2 kann als das durchschnittliche C/N-Verhältnis interpretiert werden. Er unterscheidet sich vom mittleren C/N-Verhältnis der Einzelwerte von 9.98. MTB > name c4 'C/N' MTB > Let 'C/N' = C / N MTB > Describe 'C/N'. Descriptive Statistics Variable N Mean Median Tr Mean StDev SE Mean C/N 306 9.9834 9.8400 9.9098 0.9247 0.0529 Variable Min Max Q1 Q3 C/N 7.8481 16.8293 9.5077 10.2735 Läge ein N-Gehalt von 0 vor, so würde bei der Berechnung der einzelnen C/N-Verhälnisse eine Division durch 0 auftreten. Bei beiden Berechnungsarten liegt das C/N-Verhältnis jedoch bei ca. 10. 2. a) MTB > Retrieve 'H:\STUDENT\MINITAB\ALTER.MTW'. Retrieving worksheet from file: H:\STUDENT\MINITAB\ALTER.MTW Worksheet was saved on 12/ 5/1996 MTB > MatrixPlot 'Alter' 'Groesse' 'Gewicht'; SUBC> Symbol. Es ist ein linearer Trend von höheren Lebensdauern in Richtung geringerer Gewichte zu erkennen. 77 71 Alter 181 175 Groesse 90.5 81.5 Gewicht 71 77 175 181 81.5 90.5
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 4 b) MTB > Regress 'Alter' 2 'Groesse' 'Gewicht'; Alter = 129-0.046 Groesse - 0.538 Gewicht Constant 128.98 35.71 3.61 0.009 Groesse -0.0464 0.2227-0.21 0.841 Gewicht -0.5384 0.1864-2.89 0.023 S = 2.680 R-Sq = 61.4% R-Sq(adj) = 50.4% Analysis of Variance Source DF SS MS F P Regression 2 80.114 40.057 5.58 0.036 Error 7 50.286 7.184 Total 9 130.400 c) MTB > Correlation 'Groesse'-'Alter'. Correlations (Pearson) Groesse Gewicht Gewicht 0.447 Alter -0.393-0.782 Die einfache Korrelation gibt die Abhängigkeit der Zielgröße von einer Einflußgröße an, ohne die Einflüsse aller anderen Variablen auf die Einflußgröße zu beachten. Nach obiger Korrelationsmatrix ist die Lebensdauer negativ mit dem Gewicht korreliert, d.h. mit steigendem Gewicht sinkt die Lebensdauer. Auch zwischen Lebensdauer und Größe besteht eine negative Korrelation. Diese ist jedoch mit der positiven Korrelation der Größe zum Gewicht zu erklären, was auch logisch ist, da größere Menschen i.a. auch schwerer sind. Die multiple Korrelation beschreibt die Abhängigkeit der Zielgröße von mehreren Einflußgrößen zusammen. Sie ist die Wurzel aus dem Bestimmtheitsmaß B = R-sq = 0.614, also betragsmäßig gleich 0.784. Dies ist gleichzeitig die Korrelation zwischen der Zielgröße und den Schätzwerten, also Alter und FITS. d) Die partielle Korrelation ist ein Maß für die Abhängigkeit der Zielgröße von einer Einflußgröße bei Elimination der eventuellen Einflüsse anderer Variablen auf die Einflußgröße. r(y,x 1.x 2 ) '!0.782%0.393 0.447 (1!0.393 2 ) (1!0.447 2 ) '!0.737 Die partielle Korrelation zwischen Alter und Gewicht nach Elimination der Größe ist also etwas geringer als die einfache Korrelation zwischen Alter und Größe. e) Test des der Nullhypothese H 0 : B = 0 gegen die Alternativhypothese H 1 : B > 0. Der globale F-Test mit der Testgröße F 0 = MS Regression / MS Error = 5.58 und dem zugehörigen p-wert von 0.036 liefert Signifikanz auf " = 5% aber keine Signifikanz auf " = 1%, d.h. es liegt eine signifikante, aber keine hochsignifikante Regression vor.
Biometrische und Ökonometrische Methoden I Lösungen zu Aufgabenblatt 6 Seite 5 f) Test der partiellen Regressionskoeffizienten H 0 : $ i = 0 gegen H 1 : $ i 0 für i = 1,2. t-test mit Testgröße t 0 = t-ratio = Coef/StDev. Für $ 1 ist t 0 =!0.21 bei einem p-wert von 0.841. H 0 kann auf " = 5% nicht abgelehnt werden. Aufgrund des hohen p-werts kann man schließen, daß die Körpergröße praktisch überhaupt keinen Einfluß auf die Lebensdauer hat. Für $ 2 ist t 0 =!2.89 bei einem p-wert von 0.023. H 0 wird auf " = 5% abgelehnt, d.h. das Gewicht hat einen signifikanten Einfluß auf die Lebensdauer. Diese Testergebnisse entsprechen durchaus den Tatsachen. Während Übergewicht durchaus die Lebensdauer negativ beeinflussen kann, hat die Körpergröße i.a. keinen Einfluß. g) MTB > Regress 'Alter' 2 'Groesse' 'Gewicht'; SUBC> Constant; SUBC> Predict 180 40. [... ] Fit StDev Fit 95.0% CI 95.0% PI 99.099 8.652 (78.634, 119.565) (77.674, 120.524) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Ein 1.80 m großer und 40 kg schwerer Mann würde also nach dieser Schätzgleichung etwa 99 Jahre alt werden. Dies ist sicherlich unrealistisch, denn erstens wird sowieso kaum jemand so alt und zweitens schon gar nicht so ein federleichter Hüne. Dieses Ergebnis zeigt wieder deutlich, daß eine Regressionsgleichung nur in einem bestimmten Bereich ein sinnvolles und erlaubtes Modell für natürliche Sachverhalte und Abhängigkeiten darstellt. Man beachte die Warnungen X und XX, die von MINITAB ausgegeben werden.