GRUNDAUFGABEN ZUR KORRELATION UND REGRESSION 1. An bestimmten von sechs verschiedenen Grasarten stammenden Chromosomen wurden die Teillängen E und H des C-Band Euchromatins bzw. Heterochromatins gemessen (Angaben in µm; aus H.M. Thomas, Heredity, 46: 263-267, 1981). Man berechne die Produktmomentkorrelation r EH. Ist die Produktmomentkorrelation signifikant von null verschieden? (α = 5%) E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25 2. In einer Studie wurde untersucht, ob zwischen der Mortalität in der Perinatalperiode (Merkmal Y, Werte ja/nein) und dem Rauchen während der Schwangerschaft (Merkmal X, Werte ja/nein) ein Zusammenhang besteht. Zu diesem Zweck wurden Daten in einer Geburtenstation erhoben. Man berechne den Phi-Koeffizienten und das Odds-Ratio. Ist der Phi-Koeffizient auf 5%igen Testniveau von null verschieden? Raucher X Mortalität Y ja nein Σ (Zeilen) ja 246 264 510 nein 8160 10710 18870 Σ (Spalten) 8406 10974 19380 3. Von einem Gebiet der Schweiz liegen aus 10 Wintern (Dezember bis März) die in der folgenden Tabelle angeführten Werte der Schneehöhe X (in cm) und der Lawinenabgänge Y vor. Man stelle die Abhängigkeit der Anzahl der Lawinenabgänge von der Schneehöhe durch ein lineares Regressionsmodell dar. (α=5%) X 80 300 590 170 302 515 609 843 221 616 Y 31 44 78 65 75 38 51 104 37 91 4. Der Energieumsatz E (in kj pro kg Körpergewicht und Stunde) wurde in Abhängigkeit von der Laufgeschwindigkeit v (in m/s) gemessen. Man stelle die Abhängigkeit des Energieumsatzes von der Laufgeschwindigkeit durch ein geeignetes Regressionsmodell dar und prüfe, ob im Rahmen des Modells überhaupt ein signifikanter Einfluss der Geschwindigkeit auf den Energieumsatz besteht (α=5%). Hinweis: Logarithmiert man den Energieumsatz und die Laufgeschwindigkeit ergibt sich im Streudiagramm eine Punkteverteilung mit einem linearen Trend. v 3,1 4,2 5,0 5,4 6,6 E 27,6 50,6 62,7 147,1 356,3 Musterbeispiele_STAT6_mit_Loesungen 1
LÖSUNGEN MIT R Aufgabe 1 (Grundaufgabe KR1, Produktmomentkorrelation) Präzisierung der Aufgabe: Die Aufgabe beinhaltet die rechnerische Bestimmung der Pearson-Korrelation r EH zwischen den Teillängen E und H sowie die Prüfung, ob der Korrelationskoeffizient auf dem Testniveau 5% signifikant von null verschieden ist, also eine Abhängigkeit zwischen den Teillängen besteht. Für die Interpretation und den Test ist nachzuweisen, dass die Verteilung von E und H nicht wesentlich von der bivariaten Normalverteilung abweicht. Eine notwendige Voraussetzung hierfür ist, dass die univariaten Verteilungen von E und H mit der Normalverteilungsannahme verträglich sind. Lösungsansatz: Die Lösung umfasst zunächst eine univariate Datenbeschreibung und die Überprüfung der Normalverteilungsannahme für E und H; hierbei lautet die Alternativhypothese H1 jeweils: Die Grundgesamtheit ist nicht normalverteilt. Für den Abhängigkeitstest lautet die Alternativhypothese H1: Korrelationskoeffizient ρ EH <> 0, die Nullhypothese H0: Korrelationskoeffizient ρ EH = 0. Die Nullhypothese ist zu verwerfen, wenn der P-Wert kleiner als das vorgegebene Testniveau ist. Rechnerische Lösung (mit R): > E <- c(71, 74, 67.5, 62.5, 52.75, 53) > H <- c(6, 5, 5, 3, 2.75, 4.25) > options(digits=4) > # univariate Statistiken > n_e <- length(e) > n_h <- length(h) > m_e <- mean(e) > m_h <- mean(h) > s_e <- sd(e) > s_h <- sd(h) > print(cbind(n_e, m_e, s_e)) n_e m_e s_e [1,] 6 63.46 9.048 > print(cbind(n_h, m_h, s_h)) n_h m_h s_h [1,] 6 4.333 1.262 > # Überprüfung der Normalverteilung > shapiro.test(e) Shapiro-Wilk normality test data: E W = 0.8966, p-value = 0.3545 > shapiro.test(h) Shapiro-Wilk normality test data: H W = 0.9278, p-value = 0.563 > # Schätzwert für die Pearson-Korrelation > # Test auf Abweichung von Nullkorrelation > cor.test(e, H, alternative="two.sided") Pearson's product-moment correlation data: E and H t = 2.107, df = 4, p-value = 0.1028 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.2097 0.9674 sample estimates: cor 0.7253 Musterbeispiele_STAT6_mit_Loesungen 2
Ergebnis: Die (univariate) Überprüfung der Normalverteilung ergibt auf Grund der P-Werte (0.3545 >=5% bzw. 0.563 >= 5%), dass die Daten nicht in Widerspruch zur jeweiligen Normalverteilungsannahme stehen. Da der P-Wert im Abhängigkeitstest >= 5% ist, kann die Nullhypothese (Korrelation zwischen E und H ist null) nicht abgelehnt werden; obwohl der Schätzwert der Pearsonkorrelation r EH =0,7253 deutlich von null abweicht, ergibt die Abhängigkeitsprüfung ein nichtsignifikantes Resultat! Aufgabe 2 (Grundaufgabe KR2, Phi-Koeffzient, Odds-Ratio) Präzisierung der Aufgabe: Während in Aufgabe 1 der Zusammenhang zwischen zwei metrischen Variablen zu untersuchen war (der übliche Kennwert dafür ist die Pearson-Korrelation) geht es in Aufgabe 2 um den Zusammenhang zwischen zwei 2-stufig skalierten Variablen. Ein Maß zur Beschreibung des Zusammenhangs zwischen zwei 2-stufig skalierten Merkmalen ist der PHI-Koeffizient. Neben der numerischen Bestimmung des PHI-Koeffizienten ist zu untersuchen, ob dieser auf dem Testniveau 5% signifikant von null abweicht. Zusätzlich ist das sogenannte Odds-Ratio zu berechnen. Lösungsansatz: Die Prüfung, ob der PHI-Koeffizient signifikant von null abweicht, erfolgt mit dem Chiquadrat-Test; ist der ausgewiesene P-Wert kleiner als 5%, wird die Nullhypothese (keine Abhängigkeit, d.h. PHI- Koeffizient=0) abgelehnt (signifikanter Testausgang). Im Rahmen des Tests wird u.a. auch die Chiquadratsumme (Goodness of Fit - Statistik) GF bestimmt, mit der der PHI-Koeffizient (= Quadratwurzel aus GF/n) bestimmt wird; hier ist n der Umfang der bivariaten Stichprobe. Das Odds- Ratio ist gleich dem Verhältnis der Chancen Sterben:Überleben mit und ohne Risikofaktor (Rauchen), d.h. gleich dem Verhältnis (246:8160)/(264:10710). Rechnerische Lösung (mit R): > options(digits=4) > freq <- matrix(c(246, 8160, 264, 10710), nrow=2, ncol=2, byrow=f, + dimnames=list(mortalität=c("ja", "nein"), Raucher=c("ja", "nein"))) > # Wiedergabe der Matrix der beobachteten Häufigkeiten > freq Raucher Mortalität ja nein ja 246 264 nein 8160 10710 > # Prüfung auf Abhängigkeit > # H1: Abhängigkeit vs. H0: keine Abhängigkeit > testergebnis <- chisq.test(freq, correct=true) > testergebnis Pearson's Chi-squared test with Yates' continuity correction data: freq X-squared = 4.837, df = 1, p-value = 0.02785 > # Bestimmung des PHI-Koeffizienten > summary(testergebnis) Length Class Mode statistic 1 -none- numeric parameter 1 -none- numeric p.value 1 -none- numeric method 1 -none- character data.name 1 -none- character observed 4 -none- numeric expected 4 -none- numeric residuals 4 -none- numeric > testergebnis[1] $statistic X-squared 4.837 > chi2sum <- testergebnis[[1]] # Auswahl des numerischen Elementes der Liste > chi2sum X-squared 4.837 Musterbeispiele_STAT6_mit_Loesungen 3
> phi <- sqrt(chi2sum/sum(freq)) > phi X-squared 0.0158 > # Bestimmung des Odds-Ratio (Chancenverhältnis) > OR <- (freq[1,1]/freq[2,1])/(freq[1,2]/freq[2,2]) > OR [1] 1.223 Ergebnis: Die Prüfung auf Abhängigkeit (bzw. Abweichung des PHI-Koeffizienten von null) ist wegen p-value = 0.02785 < 0.05 signifikant, d.h. es gilt H1 (Die Mortalität ist vom Raucherverhalten abhängig). Der PHI-Koeffizient ist in der Ergebnisdarstellung des Chiquadrat-Tests (testergebnis) das erste Element, auf dessen numerischen Inhalt mit testergebnis[[1]] zugegriffen werden kann; es folgt für den PHI- Koeffizienten der Wert 0,0158; für das Odds-Ratio ergibt sich 1.223 > 1, d.h. die Sterbechancen des Kindes einer rauchenden Mutter sind größer als jene einer nichtrauchenden. Aufgabe 3 (Grundaufgabe KR3, Lineare Regression) Präzisierung der Aufgabe: Es ist die Anzahl Y der Lawinenabgänge in Abhängigkeit von der Schneehöhe X durch ein lineares Regressionsmodell darzustellen. Die Angabe der Regressionsgleichung ist nur dann sinnvoll, wenn nachgewiesen wurde, dass Y tatsächlich (linear) von X abhängt. Dies erfolgt so, indem gezeigt wird, dass die Pearson-Korrelation zwischen X und Y auf dem Testniveau 5% (angenommen) von null abweicht. Lösungsansatz: In einem ersten Schritt wird die Adäquatheit des linearen Modells zur Beschreibung der Abhängigkeit untersucht. Zu diesem Zwecke erstellt man ein Streudiagramm (X horizontal, Y vertikal). Folgen die Datenpunkte einem linearen Trend ist das lineare Modell anwendbar. Es ist dabei zweckmäßig, die Regressionsgerade in das Streudiagramm einzuzeichnen. Bei der folgenden Abhängigkeitsprüfung lautet die Alternativhypothese H1: Y hängt von X (linear) ab, die Nullhypothese ist H0: Y hängt von X nicht ab (zumindest nicht linear). Bei signifikantem Testausgang (Abhängigkeit) wird die Gleichung der Regressionsgeraden angegeben. Rechnerische Lösung (mit R): > options(digits=4) > x <- c(80, 300, 590, 170, 302, 515, 609, 843, 221, 616) > y <- c(31, 44, 78, 65, 75, 38, 51, 104, 37, 91) > daten <- data.frame(x, y) > daten x y 1 80 31 2 300 44 3 590 78 4 170 65 5 302 75 6 515 38 7 609 51 8 843 104 9 221 37 10 616 91 > # univariate Statistiken > n_x <- length(x) > n_y <- length(y) > m_x <- mean(x) > m_y <- mean(y) > s_x <- sd(x) > s_y <- sd(y) > print(cbind(n_x, m_x, s_x)) n_x m_x s_x [1,] 10 424.6 244.2 > print(cbind(n_y, m_y, s_y)) n_y m_y s_y Musterbeispiele_STAT6_mit_Loesungen 4
[1,] 10 61.4 25.04 > # Streudiagramm mit Regressionsgeraden > plot(x, y) > abline(lm(y~x)) y 40 60 80 100 200 400 600 800 x > # Schätzung der Regressionsparameter einschl. Abhängigkeitsprüfung) > modell <- lm(formula=y~x, data=daten) > summary(modell) Call: lm(formula = y ~ x, data = daten) Residuals: Min 1Q Median 3Q Max -29.670-9.899-0.686 15.640 22.103 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 31.9522 12.9125 2.47 0.038 * x 0.0694 0.0267 2.60 0.032 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 19.6 on 8 degrees of freedom Multiple R-squared: 0.458, Adjusted R-squared: 0.39 F-statistic: 6.75 on 1 and 8 DF, p-value: 0.0317 Ergebnis: Aus dem Streudiagramm entnimmt man, dass die Datenpunkte durch eine Gerade ausgeglichen werden können. Die Abhängigkeitsprüfung ergibt den p-value = 0.0317 < 0.05; es folgt, dass H0 (keine lineare Abhängigkeit) abgelehnt werden kann, d.h. Y kann tatsächlich durch eine lineare Regressionsgleichung in Abhängigkeit von X dargestellt werden. Der Anstieg k der Regressionsgeraden ist 0.0694 (siehe unter Coefficients, bei x) und der y-achsenabschnitt (Intercept) d = 31.9522; somit lautet die Regressionsgerade: y = kx + d = 0.0694x + 31.9522. Man beachte, dass eine allfällige Hochschätzung von der Schneehöhe X auf die erwartete Zahl von Lawinenabgängen mit der Regressionsgleichung nur innerhalb des Variationsbereichs von X also von etwa X = 80 bis X= 850 - möglich ist; die Abhängigkeit der Variablen Y von X ist offensichtlich nichtlinear (für X=0 müsste sich Y=0 ergeben), kann aber in einem begrenzten Bereich durch ein lineares Modell approximiert werden. Musterbeispiele_STAT6_mit_Loesungen 5
Aufgabe 4 (Grundaufgabe KR4, Nichtlineare Regression log/log-transformation) Präzisierung der Aufgabe: Es ist der Energieumsatz E in Abhängigkeit von der Laufgeschwindigkeit v durch ein geeignetes Regressionsmodell darzustellen. Man überzeugt sich durch ein Streudiagramm, dass sich mit den beobachteten Daten keine Punkteverteilung mit linearem Trend ergibt. Zum Zwecke der Linearisierung werden entsprechend dem Hinweis sowohl die E- als auch die v-werte logarithmiert (man nehme z.b. natürliche Logarithmen). Wir bezeichnen die logarithmierten Variablen mit E =ln(e) und v =ln(v). Man überzeuge sich, dass das mit v und E gebildete Streudiagramm ein lineares Regressionsmodell zur Beschreibung der Abhängigkeit der Variablen E von v rechtfertigt. Die Angabe der Regressionsgleichung E = k v + d ist nur dann sinnvoll, wenn nachgewiesen wurde, dass E tatsächlich (linear) von v abhängt. Dies erfolgt, in dem gezeigt wird, dass die Pearson-Korrelation zwischen v und E auf dem Testniveau 5% (angenommen) von null abweicht. Lösungsansatz: Die Lösungsschritte sind: Erstellung eines Streudiagramms mit den beobachteten Daten und der Erkenntnis daraus, dass die Punkteverteilung keinen linearen Trend besitzt. Logarithmische Transformation der Variablen E und v in E =ln(e) bzw. v =ln(v) und Erstellen eines Streudiagramms mit den logarithmierten Messwerten (die Punkteverteilung sollte nun durch ein lineares Regressionsmodell darstellbar sein). Prüfung der (linearen) Abhängigkeit der Variablen E von v. Die Alternativhypothese lautet H1: E hängt von v (linear) ab, die Nullhypothese ist H0: E hängt nicht von v ab (zumindest nicht linear). Bei signifikantem Testausgang (Abhängigkeit) wirddie Gleichung der Regressionsgeraden angegeben. Rechnerische Lösung (mit R): > options(digits=4) > v <- c(3.1, 4.2, 5, 5.4, 6.6) > E <- c(27.6, 50.6, 62.7, 147.1, 356.3) > print(cbind(v, E)) v E [1,] 3.1 27.6 [2,] 4.2 50.6 [3,] 5.0 62.7 [4,] 5.4 147.1 [5,] 6.6 356.3 > # Überprüfung der Adäquatheit > # des linearen Modells > plot(v, E) > abline(lm(e ~ v)) E 50 100 150 200 250 300 350 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 v Musterbeispiele_STAT6_mit_Loesungen 6
> # Überprüfung der Wirkung der log/log-transformation > plot(v_strich, E_strich) > abline(lm(e_strich ~ v_strich)) > # Abhängigkeitsprüfung & Parameterschätzung > daten <- data.frame(v_strich, E_strich) > daten v_strich E_strich 1 1.131 3.318 2 1.435 3.924 3 1.609 4.138 4 1.686 4.991 5 1.887 5.876 E_strich 3.5 4.0 4.5 5.0 5.5 1.2 1.4 1.6 1.8 v_strich > lm.energie <- lm(formula= E_strich ~ v_strich, data=daten) > summary(lm.energie) Call: lm(formula = E_strich ~ v_strich, data = daten) Residuals: 1 2 3 4 5 0.250-0.146-0.508 0.091 0.313 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.667 1.066-0.63 0.576 v_strich 3.301 0.679 4.86 0.017 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.386 on 3 degrees of freedom Multiple R-squared: 0.887, Adjusted R-squared: 0.85 F-statistic: 23.7 on 1 and 3 DF, p-value: 0.0166 Ergebnis: Aus dem mit den E- und v-werten gezeichneten Streudiagramm entnimmt man, dass die Datenpunkte nicht durch eine Gerade ausgeglichen werden können, es liegt eine eindeutig gekrümmte Anordnung der Datenpunkte vor. Nach Übergang zu den Variablen E =ln(e) und v =ln(v) erkennt man im (v,e )- Diagramm, dass nunmehr den Datenpunkten eine Gerade angepasst werden kann. Die Abhängigkeitsprüfung ergibt den p-value = 0.0166 < 0.05; es folgt, dass H0 (keine lineare Abhängigkeit) abgelehnt werden kann, d.h. E kann tatsächlich durch eine lineare Regressionsgleichung in Abhängigkeit von v dargestellt werden. Der Anstieg k der Musterbeispiele_STAT6_mit_Loesungen 7
Regressionsgeraden ist 3,301 (siehe unter Coefficients, bei v_strich) und der y-achsenabschnitt (Intercept) d = -0,667; somit lautet die Regressionsgerade: E = kv + d = 3,301v 0,667; setzt man hier die Originalvariablen ein, folgt lne = 3,301lnv 0,667, Potenzieren mit der Basis e ergibt schließlich E = e -0,667 v 3,301 = 0,513 v 3,301. Musterbeispiele_STAT6_mit_Loesungen 8