1 Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS Statistics 20.0 Text: grund1_spss20.doc Daten: grund1_?.sav Lehrbuch: W. Timischl, Biostatistik. Wien - New York: Springer 2000 Problem 1.1: Abhängigkeitsanalysen - mehrfach lineare Regression Die folgenden Daten sind einer Studie entnommen, in der u.a. das Gesamtcholesterin Y (in mg/dl), das Gewicht X1 (in kg) und das Alter X2 (in a) bestimmt wurden. Es sollen (mit den von 12 Probanden stammenden Daten) im Rahmen eines zweifach-linearen Modells folgende Fragen untersucht werden: i) Hängt Y global von X1 und X2 ab? (globale Abhängigkeitsprüfung, α = 5%). Wenn ja, wie lautet das Regressionsmodell? ii) Ist eine Reduktion auf ein lineares Modell mit nur einem Regressor möglich? (partielle Abhängigkeitsprüfung, α = 5%) Daten: grund1_1.sav i1) Daten, einfache Statistiken Analysieren - Berichte - Fälle zusammenfassen... i2) Schätzung der Modellparameter, globale Abhängigkeitsprüfung Analysieren - Regression - linear...
2 Regressionsfunktion: Y(erwartet) = 73,394 + 1,686 X1 + 3,445 X2 Anpassungsgüte: Es empfiehlt sich, die Modelladäquatheit an Hand eines mit den erwarteten und beobachteten Y-Werten gezeichneten Streudiagramms zu überprüfen. Ein Kennwert für die Anpassungsgüte ist das multiple Bestimmtheitsmaß (=Quadrat der Produktmomentkorrelation zwischen den erwarteten und beobachteten Y- Werten; im Beispiel ist R 2 =78,9%).
3 ii1) partielle Abhängigeitsprüfung: Ist X1 (Gewicht) redundant? (reduziertes Modell: einfache lineare Regression von Y auf X2) Statistik - Regression - linear... Partieller F-Test: TGs(X1 X2) = [SQRes(X2) - SQRes(X1,X2)]/MQRes(X1,X2) = (16318,154 11510,986)/1278,998 = 3,759; Testgröße ist F-verteilt mit dem Zählerfreiheitsgrad 1 und dem Nennerfreiheitsgrad 9 P(TG > 3,759) = 8,45% α =5% Verkleinerung von SQRes ist nicht signifikant! (dass X2 redundant ist, sieht man auch aus der Tabelle "Koeffizienten" unter i2) ii2) partielle Abhängigkeitsprüfung: Ist X1 redundant? nein! (siehe Tabelle "Koeffizienten" unter i2) Problem 1.2: Abhängigkeitsanalysen - polynomiale Regression Mit Hilfe angegebenen Daten soll die Photosynthese Y (in mmol CO2 pro m2 und s) einer Pflanze als Funktion der Temperatur X (in oc) bei konstant gehaltener (hoher) Lichintensität dargestellt werden. Man prüfe die Abhängigkeit der Variablen Y von X im Rahmen eines quadratischen Modells (α = 5%). Für welche Temperatur ist der Y maximal? Daten: grund1_2.sav i) Grafische Untersuchung des Modelltyps (Art der Regressionsfunktion) Diagramme - Diagrammerstellung Streudiagramm quadratische Regressionsfunktion: Y(erwartet) = b0 + b1*x1 + b2*x2 mit X1 = X, X2 = X*X
4 ii) Daten, einfache Statistiken Analysieren Berichte - Fälle zusammenfassen iii) Schätzung der Modellparameter, Abhängigkeitsprüfungen (global, partiell) Analysieren - Regression - linear... Globaler F-Test: Signifikanz < α =5% Y hängt (im Rahmen des Modells) signifikant von X (und X*X) ab.
5 Partieller F-Test: Wegen Sign. < α ist weder X (TEMP) noch X2=X*X im Modell redundant. Regressionsmodell: Y(erwartet) = -21,875 + 4,010 X 0,088 X*X Optimale Temperatur: dy/dx = 4,010-2 x 0,088 X = 0 X(opt.) = 22,8 Problem 1.3: Vergleich von Regressionsgeraden In einem Placebo-kontrollierten Parallelversuch wurde eine Größe vor Gabe des Präparates (Variable X1) und danach (Variable X2) gemessen. Die Präparatwirkung Y wird durch die Differenz X1 - X2 ausgedrückt. Jeweils zehn Versuchspersonen erhielten das Testpräparat, andere zehn das Kontrollpräparat (Placebo). i) Man zeige auf der Grundlage von linearen Regressionsmodellen, dass in jeder Präparatgruppe die Wirkung Y vom Anfangswert X1 abhängt (Prüfung auf Abhängigkeit). ii) Man zeige, dass sich die Anstiege der Regressionsgeraden nicht signifikant unterscheiden (Prüfung auf Abweichung von der Parallelität). iii) Man zeige, dass die Regressionsgeraden nicht zusammenfallen (Prüfung auf Koinzidenz). Als Testniveau sei für jede Einzelprüfung 5% angenommen. Daten: grund1_3.sav i1) Daten, einfache Statistiken Analysieren - Berichte - Fälle zusammenfassen... Tabelle: siehe nächste Seite i2) Grafische Überprüfung der Modelladäquatheit (lineares Modell) Diagramme Diagrammerstellung
6 i3) Lineare Regression von Y auf X1 (getrennt nach Präparatgruppen) Aufteilung der Datei nach Gruppen: Daten Datei aufteilen... Regressionsprozedur: Analysieren - Regression - Linear.. Präparat = A
7 Präparat = Placebo Ergebnisse: Regressionsmodell 1 (Präparat A): Y = b11 X1 + b10 + Fehler mit b11 = 0.808 (sign. <> Null, P =0.003), b10 = -27.434; Regressionsmodell 2 (Placebo): Y = b21 X1 + b20 + Fehler mit b1 = 0.667 (sign. <> Null, P = 0.001), b0 = -47.442.
8 ii) Gibt es zwischen den Geradenanstiegen b11 und b21 einen signifikanten Unterschied (α=5%)? ii1) Vergleich von b11 und b21 mit dem t-test Voraussetzungen: b11 (Stichprobenfunktion, Anstieg - Präparat A) ist normalverteilt, Schätzwerte: Mittelwert = 0.808, Standardabweichung = 0.188 (Freiheitsgrad = n-2=8) b21 (Stichprobenfunktion, Anstieg - Placebo) ist normalverteilt, Schätzwerte: Mittelwert = 0.667, Standardabweichung = 0.125, (Freiheitsgrad = n-2=8) Manuelle Durchführung des t-tests: F-Test: Varianzverhältnis (0.188/0.125)^2 = 2.258 <= F(8, 8, 0.975) = 4.43 spricht nicht gegen die Gleichheit der Varianzen. 2-Stichproben-t-Test (unabhängige Stichproben): mittlere (gepoolte) Varianz = (0.188^2 + 0.125^2)/2 = 0.04317 Testgröße = (0.808-0.667)/0.04317^(1/2)* (64/16)^(1/2) = 1.358 <= t(16, 0.975) = 2.120 Unterschied der Anstiegswerte ist auf dem Testniveau 5% nicht signifikant. ii2) Vergleich der Anstiege im Rahmen eines mehrfach-linearen Regressionsmodells mit einer Indikatorvariablen ("dummy variable") Prinzip: Die zwei einfach-linearen Regressionsmodelle werden mit Hilfe der Indikatorvariablen z in ein mehrfach-lineares Regressionsmodell zusammengefasst. Der Hilfsvariablen z wird für alle Beobachtungen der Präparatgruppe A der Wert Null und für alle Beobachtungen der Placebo-Gruppe der Wert eins zugewiesen. Setzt man die abhängige Variable Y als multiples lineares Modell mit den Regressorvariablen u1=x1, u2=z und u3=x1*z in der Gestalt (*) Y = b0 + b1*u1 + b2*u2 + b3*u3 + Fehler an, so geht diese Modellgleichung für z=0 (Gruppe A) über in (**) Y = b0 + b1*x1 + Fehler und für z=1 (Placebo-Gruppe) über in (***) Y = (b0+b2) + (b1+b3)*x1 + Fehler. Die Anstiege in den einfach-linearen Regressionsmodellen (**) und (***) sind genau dann verschieden, wenn im dreifach-linearen Regressionsmodells (*) der Koeffizient b3 ungleich Null ist, d.h. die Zielvariable von u3 abhängt. Die Abhängigkeitsprüfung von u3 erfolgt mit dem partiellen F-Test. Datenorganisation: Datenmatrix durch z-spalte (=u2) und z*x1-spalte (=u3) ergänzen.
9 Hypothesen: H0: Koeffizient von u3 in (*) ist Null (Nullmodell), H1: Koeffizient von u3 in (*) ist ungleich Null (Alternativmodell). Durchführung des partiellen F-Tests: Schritt 1: Fehlerquadratsumme SQRes(H1)=4295.453 und Freiheitsgrade FG(H1)= 16 aus dem Alternativmodell bestimmen (Statistik - Regression - Linear... ; abhängige Variable = Y, unabhängige Variable = u1, u2, u3). Schritt 2: Fehlerquadratsumme SQRes(H0)=4404.569 und Freiheitsgrade FG(H0)= 17 aus dem Alternativmodell bestimmen (Statistik - Regression - Linear... ; abhängige Variable = Y, unabhängige Variable = u1, u2). Schritt 3: Testentscheidung Mittlere Reduktion der Fehlerquadratsumme bei Übergang vom Nullmodell zum Alternativmodell = MQRes(H1 H0) = [SQRes(H0) - SQRes(H1)]/[FG(H0)-FG(H1)] = (4404.569-4295.453)/(17-16) = 109.116. Schätzung der Fehlervarianz aus dem Alternativmodell durch MQRes(H1) = 268.466 mit FG(H1) = 16. Testgröße = MQRes(H1 H0)/MQRes(H1) = 0.406 <= F(1,16,0.95) = 4.49 Unterschied zwischen den Anstiegen nicht signifikant. iii) Sind die Regressionsgeraden überhaupt verschieden? (hinsichtlich Anstiege und y-achsenabschnitte) Prüfung im Rahmen des mehrfach-linearen Regressionsmodells (*) mit den Regressorvariablen u1 (=X1), u2 (=z) und u3 (=z*x1) durch Übergang vom Vollmodell (Alternativmodell) zum Nullmodell (Koeffizienten von u2 und u3 sind Null). Hypothesen: H0: Y hängt nicht von u2 und u3 ab (Nullmodell), H1: Y hängt von u1, u2 und u3 ab (Alternativmodell). Durchführung des partiellen F-Tests: Schritt 1: SQRes(H1) = 4295.453, FG(H1) = 16, MQRes(H1) = 268.466. Schritt 2: SQRes(H0) = 9292.591, FG(H0) = 18.
10 Schritt 3: MQRes(H1 H0) = (9292.591-4295.453)/(18-16)=2498.569. Testgröße = MQRes(H1 H0)/MQE(H1) = 9.307 > F(2,16,0.95) = 3.63 Regressionsgeraden fallen nicht zusammen! Problem 1.4: Abhängigkeitsanalysen - Versuche mit einem Haupt- und einem Blockfaktor Die folgende Datentabelle zeigt die an einer Messstelle der Donau erhaltenen monatlichen Messwerte des Gesamtphosphors (gesp_3) für die Jahre 1986 bis 1988. Man vergleiche die Jahresmittelwerte und verwende dabei den Monat als Blockfaktor. Das Testniveau ist mit 5% vorgegeben. Daten: grund1_4.sav Datenorganisation: monat jahr gesp_3 1 86 0.282 2 86 0.308...... 12 88 0.251 i) Problemlösung mit der Prozedur Allgemeines lineares Modell Modell: Messwert = Basiswert + Faktor(=Jahres)-Effekt + Block (=Monats)-Effekt + Versuchsfehler i1) Globaltest (H0: kein Jahres-Effekt), Power Analysieren - Allgemeines lineares Modell Univariat... Geschätzte Randmittel:
11 i2) Multiple Vergleiche (nach Scheffe und Dunnett): ii) Rangvarianzanalyse für verbundene Stichproben (Friedman-Test) Analysieren - Nichtparametrische Tests Alte Dialogfelder - K verbundene Stichproben... Datenorganisation: Monat gesp86 gesp87 gesp88 1 0.282 0.365 0.179 2 0.308 0.202 0.189 3 0.381 0.192 0.241 4 0.282 0.170 0.160 5 0.199 0.111 0.150 6 0.211 0.085 0.130 7 0.137 0.274 0.170 8 0.254 0.183 0.251 9 0.224 0.186 0.231 10 0.252 0.166 0.209 11 0.262 0.218 0.231 12 0.271 0.209 0.251
12 Problem 1.5: Abhängigkeitsanalysen - Einfaktorielle Versuche mit Messwiederholungen Um die Wirkung einer Behandlung auf eine Zielvariable Y zu untersuchen, wurden 10 Probanden der Behandlung unterzogen und die Zielvariable am Beginn und am Ende der Behandlung (Zeitpunkte 1 bzw. 2) sowie nach einem längeren zeitlichen Intervall (Zeitpunkt 3) gemessen. Die Messwerte sind in der folgenden Tabelle protokolliert. Es soll auf dem 5%-Niveau geprüft werden, ob sich die Zielvariable im Mittel verändert hat. Daten: grund1_4.sav Pers. Zeitp. 1 Zeitp. 2 Zeitp. 3 1 568 728 713 2 668 849 820 3 441 440 465 4 466 681 340 5 521 621 611 6 696 779 555 7 761 754 640 8 605 837 696 9 504 756 297 10 469 586 520 i) Datenorganisation: wie in der Tabelle. ii) Problemlösung mit ALM Messwiederholungen: Analysieren - Allgemeines lineares Modell Messwiederholung... ii1) Lösung im Rahmen einer multivariaten Varianzanalyse ii1) Lösung im Rahmen einer Blockvarianzanalyse mit Korrektur der Fehlerfreiheitsgrade
13 Problem 1.6: Abhängigkeitsanalysen - Einfaktorielle Versuche mit einer Kovariablen In einem Placebo-kontrollierten Parallelversuch wurde eine Größe vor Gabe des Präparates (Variable X) und danach (Variable X') gemessen. Jeweils zehn Versuchspersonen erhielten das Testpräparat, andere zehn das Kontrollpräparat (Placebo). Die Messergebnisse sind in der folgenden Tabelle zusammengestellt. Es ist das Ziel des Versuches, das Testpräparat mit dem Kontrollpräparat hinsichtlich der Wirksamkeit zu vergleichen. Dabei ist die Wirksamkeit durch die Differenz Y=X-X' erfasst und eine allfällige Abhängigkeit vom Anfangswert zu berücksichtigen. Als Testniveau sei α = 5% vereinbart. Daten: grund1_6.sav Behandlungsfaktor (Präparat) Stufe 1 (Test) Stufe 2 (Placebo) X X' X X' Wieder- 62 32 57 83 holungen 84 21 146 79 49 31 163 92 56 49 158 122 110 28 68 68 91 29 112 76 126 72 77 68 44 52 136 98 132 56 74 56 94 67 110 99 i) Datenorganisation Y-Spalte mit "Transformieren - Berechnen..." erzeugen: Präparat X X' Y(=X-X') 1 62 32 30... 1 94 67 27 2 57 83-26... 2 110 99 11 ii) Vergleich der Präparateffekte ohne Berücksichtigung des Anfangswertes Analysieren - Allgemeines lineares Modell Univariat... (ohne Anfangswert als Kovariable)
14 Ergebnis: Präparateffekt ns (Power nur 18,5%), höhere Power kann erreicht werden durch größere Stichproben oder Verkleinerung des Versuchsfehlers (Kovarianzanalyse). iii) Kovarianzanalyse - Test auf signifikante Präparateffekte Analysieren - Allgemeines lineares Modell Univariat... (mit Anfangswert als Kovariable)
15 iv) iv1) Kovarianzanalyse - Überprüfung der Voraussetzungen (Linerarität, Parallelität) Grafisch an Hand des Streudiagramms Diagramme Diagrammerstellung - Streudiagramm... (mit eingezeichneten Regressionsgraden) iv2) Überprüfung der Parallelität im Rahmen von Allgemeines lineares Modell Univariat... (Prüfung auf signifikante Wechselwirkung Faktor*Kovariable)
16 Ergebnis: Wechselwirkung Faktor*Kovariable ns (vgl. auch Problem 1.3) Problem 1.7: Abhängigkeitsanalysen - Zweifaktorielle Versuche Im Zusammenhang mit einer Untersuchung des Wasserhaushaltes einer Pflanze wurde unter verschiedenen Nährstoff- und Lichtbedingungen die mittlere Spaltöffnungsfläche (Zielvariable Y) auf bestimmten Blättern gemessen. Die Nährstoffgaben bestanden in einer als Kontrolle verwendeten "Volllösung" sowie zwei weiteren Lösungen mit einem Mangel bzw. Überschuss an Kalium (im Vergleich zur Kontrolle). Die unterschiedlichen Lichtbedingungen simulierten eine "Langtag-Situation" (16 Stunden Helligkeit und 8 Stunden Dunkelheit) und eine "Kurztag-Situation" (8 Stunden Helligkeit und 16 Stunden Dunkelheit). Das in der folgenden Tabelle zusammengestellte Datenmaterial stellt eine Kreuzklassifikation der "durchschnittlichen Spaltöffnungsfläche" nach den betrachteten Faktoren dar. Zu jeder Kombination einer Nährstoff- und Licht-Faktorstufe sind fünf Messwerte des Untersuchungsmerkmals angeschrieben, die von fünf verschiedenen, unter der jeweiligen Bedingung kultivierten Pflanzen stammen. Es soll untersucht werden, ob die Haupteffekte (Licht, Nährstoff) signifikant sind und ob es eine signifikante Faktorwechselwirkung gibt (Testniveau = 5%). Daten: grund1_7.sav Faktor A (Nährstoff) Faktor B (Licht) 1/Kontrolle 2/K-Mangel 3/K-Übersch. 1 (Langtag) 13.8 57.7 29.9 25.3 42.2 30.8 17.4 26.8 36.7 17.7 29.1 24.8 39.8 23.9 17.3 2 (Kurztag) 27.7 41.8 34.0 19.5 49.5 33.1 33.2 46.7 15.7 41.3 30.8 23.3 37.6 28.6 19.6 i) Datenorganisation nährstoff licht y 1 1 13.8... 1 1 39.8 1 2 27.7... 1 2 37.6 2 1 57.7 usw. ii) Test auf signifikante Haupt- und Wechselwirkungseffekte Analysieren - Allgemeines lineares Modell Univariat...
17
18 Ergebnis: Nährstofffaktor sign.; Lichtfaktor, Faktorwechselwirkung ns.