Interaktion unter Berücksichtigung des Skalenniveaus der Prädiktoren Dr. Markus Stöcklin, Universität Basel, Fakultät für Psychologie

Ähnliche Dokumente
Tutorial: Regression Output von R

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Lineare Modelle in R: Einweg-Varianzanalyse

V A R I A N Z A N A L Y S E

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Regression mit Faktoren, Interaktionen und transformierten Variablen

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

Kapitel 4: Binäre Regression

Varianzanalyse * (1) Varianzanalyse (2)

Kapitel 3: Interpretationen

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS (ab V. 11.0)

VS PLUS

Lösung zu Kapitel 11: Beispiel 1

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS Statistics 20.0

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Webergänzung zu Kapitel 10

Log-lineare Analyse I

Analysis of Variance (ANOVA) in R

Kapitel 4: Merkmalszusammenhänge

Varianzanalyse (ANOVA: analysis of variance)

Teil II: Einführung in die Statistik

Korrelation - Regression. Berghold, IMI

10. Übung (Korrelation und lineare Regressionsanalyse)

Statistik Einführung // Lineare Regression 9 p.2/72

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Auswertung mit dem Statistikprogramm SPSS:

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Fortgeschrittene Statistik Logistische Regression

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Kapitel 4: Merkmalszusammenhänge

Varianzanalyse. Seminar: Multivariate Verfahren Dr. Thomas Schäfer. Datum: 25. Mai 2010

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Grundlagen Statistik Angewandte Statistik 3. Semester

Statistik II Übung 2: Multivariate lineare Regression

Willkommen zur Vorlesung Statistik

fh management, communication & it Constantin von Craushaar FH-management, communication & it Statistik Angewandte Statistik

Musterlösung zu Serie 14

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Statistik I. Übungklausur. Prof. Dr. H. Toutenburg

I Einführung 1. 1 Über den Umgang mit Statistik 3

Constantin von Craushaar FH-Management & IT Statistik Angewandte Statistik (Übungen) Folie 1

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Prof. Dr. Karl-Werner Hansmann

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Biostatistik Erne Einfuhrung fur Biowissenschaftler

Kapitel 7: Varianzanalyse mit Messwiederholung

Statistik für Psychologen und Sozialwissenschaftler

Inferenzstatistik Vergleich mehrerer Stichproben - Varianzanalyse

Nichtparametrische statistische Verfahren

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des.

Methodik der multiplen linearen Regression

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

2.Tutorium Generalisierte Regression

Aufgaben zu Kapitel 7:

Unsystematische Störvariablen

Grundlagen der Datenanalyse am Beispiel von SPSS

(GENERAL FULL FACTORIALS)

Inhaltsverzeichnis. Vorwort 1. Kapitel 1 Einführung 3. Kapitel 2 Messtheorie und deskriptive Statistik 13

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

4 Binäre Regressionsmodelle, Folien 2

15 Mehr-Weg-Varianzanalyse (Für SPSS 6.x)

Angewandte Statistik 3. Semester

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav)

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

Sonderanhang: Manuelle Berechnungen der Statistikaufgaben

BIOL, HST HS 2014 Dr. M. Kalisch. MC-Quiz 1. Einsendeschluss: Dienstag, der :59 Uhr

Mehrebenenanalyse. Seminar: Multivariate Analysemethoden Referentinnen: Barbara Wulfken, Iris Koch & Laura Früh

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

6.1 Grundbegriffe und historischer Hintergrund

Marketing III - Angewandte Marktforschung (SS 2016)

Einfache statistische Auswertungen mit dem Programm SPSS

Modul G.1 WS 07/08: Statistik

Transkript:

Interaktion unter Berücksichtigung des Skalenniveaus der Prädiktoren Dr. Markus Stöcklin, Universität Basel, Fakultät für Psychologie 1 Einleitung 3 2 Modell mit 0-1 kodierten nominalen Prädiktoren X 1 und X 2 sowie X 1. X 2 7 2.1 Regressionsanalytische Berechnung der ANOVA mit Typ III Quadratsummen 9 2.2 Variante mit Kontrastkodierung 10 3 Modell mit 0-1 kodiertem nominalem Prädiktor X 1, intervallskaliertem Prädiktor X 2 sowie X 1. X 2 11 3.1 Regressionsanalytische Berechnung der ANOVA mit Typ III Quadratsummen 14 4 Modell mit intervallskalierten Prädiktoren X 1 und X 2 sowie X 1. X 2 15 5 Variablentransformation ohne Einfluss auf den Regressionskoeffizienten der Interaktion 21 6 Statistische Gleichheit von Interaktionen 23 6.1 Varianzanalyse 23 6.2 Kovarianzanalyse 27 6.3 Multiple Regression mit intervallskalierten Prädiktoren 30 1" 2"

1 Einleitung Modelle mit Interaktion enthalten Produkte von Prädiktoren. Jeder an einem Produkt beteiligte Prädiktor muss auch einzeln im Modell enthalten sein. Ausgehend vom einfachst möglichen Modell mit den Prädiktoren X 1, X 2 und X 1. X 2 soll untersucht werden, was Interaktionen bedeuten. Modellgleichung: umgeformt: ŷ = B 0 + + ŷ = B 0 + + ( ) ŷ = B 0 + ( ) + Die umgeformten Regressionsgleichungen zeigen, dass die Stärke des Einflusses von X 2 linear von X 1 und die Stärke des Einflusses von X 1 linear von X 2 abhängt. 3" Die Darstellung und die Interpretation von Interaktionen hängt vom Skalenniveau der Prädiktoren ab. Die Grafiken zeigen die Bedeutung der Regressionskoeffizienten. Es ist zu beachten, dass diese Bedeutung von der Kodierung der Faktoren abhängt. Die in den folgenden Beispielen verwendeten nominalen Prädiktoren (Faktoren) enthalten nur zwei Stufen, die mit 0 und 1 kodiert sind (Dummy-Kodierung). Varianzanalytische Designs mit mehr als zwei Stufen pro Faktor werden in den Folien "Regressionsanalytische Darstellung von Kontrasten" behandelt. X 1 und X 2 Faktoren mit Stufen (0, 1) X 1 Faktor mit Stufen (0, 1) X 2 intervallskaliert X 1 und X 2 intervallskaliert X 1 : = 0 = 1 X 1 : 0 1 +B 3 Steigung: +B 3 X 1 +B 3 +B 3 Steigung B 0 0 1 B 0 + B 0 X 2 X 2 B 0 - /B 3 B 0 + X 1 - / X 2 4"

Jeden dieser drei Fälle gehen wir anhand eines Beispieldatensatzes durch. Zuerst werden mit Hilfe der multiplen Regression die Regressionskoeffizienten geschätzt und auf Signifikanz getestet. Die Bedeutung der Regressionskoeffizienten wird anhand des Interaktionsplots illustriert. Um die inhaltsbezogene Interpretation der Effekte intuitiver zu gestalten, geben wir den Variablen nachvollziehbare Bedeutungen. Wenn das Modell nominale Prädiktoren enthält, werden die Effekte in der Praxis häufig varianzanalytisch getestet. Aus diesem Grund rechnen wir für diese Fälle auch eine ANOVA. Der direkte Vergleich der Signifikanztests zeigt, dass die Ergebnisse der Haupteffekte zum Teil nicht übereinstimmen. Dies hängt mit der Kodierung der nominalen Variablen zusammen. Bei intervallskalierten Prädiktoren macht es einen Unterschied, ob sie mittelwertzentriert sind oder nicht. Es lässt sich zeigen, dass sich die Quadratsummen der ANOVA durch geeignete Vergleiche von Regressionsmodellen berechnen lassen. Die ANOVAs werden mit Quadratsummenzerlegung Typ III gerechnet. Bei dieser Variante werden bei der Berechnung der Quadratsumme eines Effektes zuerst alle andern Effekte herauspartialisiert. Interaktionen können sehr verschieden aussehen und trotzdem statisch gleich sein. Wir werden dies an einigen Beispielen illustrieren. Der Vergleich von Interaktionen ist bei dreifaktoriellen ANOVAs wichtig. Wenn die Interaktion zweiter Ordnung signifikant ist, unterscheiden sich gewisse Interaktionen erster Ordnung. Es kann aber auch sein, dass die Interaktion zweiter Ordnung nicht signifikant ist, obwohl die Interaktionen erster Ordnung sehr verschieden aussehen. 5" 6"

2 Modell mit 0-1 kodierten nominalen Prädiktoren X 1 und X 2 sowie X 1. X 2 # Datensatz X1 <- rep(c(0,1,0,1), each=8) X2 <- rep(c(0,1), each=16) <- c(14.35685, 13.74848, 12.61719, 15.22527, 16.67183, 18.18549, 14.48549, 14.70942, 15.12800, 15.56695, 15.83018, 19.83359, 16.10551, 14.61445, 14.27445, 16.64687, 15.01022, 17.63481, 19.58526, 15.62935, 19.20522, 16.55871, 15.26631, 17.11012, 22.26992, 24.28889, 20.26836, 21.31632, 19.78841, 21.11188, 18.52355, 20.43266) data <- data.frame(x1, X2, ) # Signifikanzteststs # Regressionsanalytisch getestete Effekte # Interaktionsterm data$x1.x2 <- data$x1*data$x2 # Multiple Regression m <- lm(~x1+x2+x1.x2, data) summary(m) # Varianzanalyse mit Typ III Quadratsummen data$block <- 1:nrow(data) library(afex) aov_ez(id="block", dv="", data=data, between=c("x1","x2"), return="anova") Hinweis: Der Unterschied in den p-werten für X 1 und X 2 kommt daher, dass bei der Regressionsanalyse der Effekt von X 1 ( ) für Stufe 0 von X 2 und der Effekt von X 2 ( ) für Stufe 0 von X 1 getestet wird, vgl. Folie 8. Bei der ANOVA wird der mittlere Effekt von X 1 über beide Stufen von X 2 und der mittlere Effekt von X 2 über beide Stufen von X 1 getestet. Wenn man für die nominalen Variablen die Kontrastkodierung wählt, stimmen die p-werte überein. Multiple Regression Call: lm(formula = ~ X1 + X2 + X1.X2, data = data) Residuals: Min 1Q Median 3Q Max -2.4764-1.2216-0.3618 0.6378 3.8336 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 15.0000 0.6124 24.495 <2e-16 *** X1 1.0000 0.8660 1.155 0.2580 X2 2.0000 0.8660 2.309 0.0285 * X1.X2 3.0000 1.2247 2.449 0.0208 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.732 on 28 degrees of freedom Multiple R-squared: 0.664, Adjusted R-squared: 0.628 F-statistic: 18.44 on 3 and 28 DF, p-value: 8.392e-07 Varianzanalyse Anova Table (Type III tests) Response: dv (Intercept) 9522 1 3174.000 < 2.2e-16 *** X1 50 1 16.667 0.0003367 *** X2 98 1 32.667 3.946e-06 *** X1:X2 18 1 6.000 0.0208206 * Residuals 84 28 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 7" ŷ = B 0 + + Regressionsanalyse: ŷ = B 0 + + ( ) Interpretation: X 2 (0=Placebo, 1=Medikament), ŷ = B 0 + ( ) + X 1 (0=Kontroll, 1=Therapie), =Wirkung Regressionsanalyse: Für die Probanden in der Placebobedingung (X 2 =0) beträgt der Unterschied y 11 zwischen den Therapierten und den Nicht-Therapierten 20 =1. Für die Probanden in der Kontrollgruppe (X 1 =0) beträgt der Unterschied zwischen denjenigen mit Medikament und denjenigen mit Placebo =2. Mit B Medikament (X 2 =1) ist der Unterschied zwischen 1 +B 3 B Therapie- und Kontrollbedingung um B X1 3 =3 grösser als in 2 +B 3 18 0 der Placebobedingung (X 2 =0). Oder: In der 1 Therapiebedingung (X 1 =1) ist der Unterschied zwischen y Medikament und Placebo um B 3 =3 grösser als als in der 01 Kontrollbedingung (X 1 =0). ANOVA: Die Mittelwerte der Placebo- und der y 10 Medikamentengruppe sind verschieden (QS 16 X2 ). Die Mittelwerte der Kontroll- und der Therapiegruppe sind y verschieden (QS X1 ). Der Unterschied zwischen Placebo- 00 B und Medikamentengruppe ist für die Kontrollgruppe 0 0 1 nicht gleich wie für die Therapiegruppe. Oder: Der X2 Unterschied zwischen Kontroll- und Therapiegruppe ist für die Placebogruppe nicht gleich wie für die y 00 = B 0 B 0 = y 00 Medikamentengruppe (QS X1X2 ). y 01 = B 0 + = y 10 y 00 y 10 = B 0 + y 11 = B 0 + + = y 01 y 00 B 3 = y 11 y 10 y 01 + y 00 8"

2.1 Regressionsanalytische Berechnung der ANOVA mit Typ III Quadratsummen Nominale Variablen müssen vom Typ "factor" sein. Nominale Variablen müssen durch Kontrast-Indikatorvariablen ersetzt werden. Der Ausdruck "X1*X2" bedeutet "X1 + X2 + X1:X2", d.h. Haupteffekt "X1" + Haupteffekt "X2" + Interaktion "X1:X2". Die Funktion "dropl" rechnet folgende drei Modelle: (1) lm(~x2 + X1:X2, data) (2) lm(~x1 + X1:X2, data) (3) lm(~x1 + X2, data) Jedes dieser Modelle wird gegen das Gesamtmodell "lm(~x1*x2, data)" getestet. Modell (1) vs. Gesamtmodell ergibt den Test für "X1", Modell (2) vs. Gesamtmodell den Test für "X2" und Modell (3) vs. Gesamtmodell den Test für "X1:X2". data$x1 <- as.factor(data$x1) data$x2 <- as.factor(data$x2) options(contrasts = c("contr.sum","contr.poly")) model <- lm(~x1*x2, data=data) drop1(model,.~., test="f") Regressionsanalytisch berechnet Single term deletions Model: ~ X1 * X2 Df Sum of Sq RSS AIC F value Pr(>F) <none> 84 38.883 X1 1 50 134 51.827 16.667 0.0003367 *** X2 1 98 182 61.625 32.667 3.946e-06 *** X1:X2 1 18 102 43.096 6.000 0.0208206 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 Vergleich mit Varianzanalyse (Intercept) 9522 1 3174.000 < 2.2e-16 *** X1 50 1 16.667 0.0003367 *** X2 98 1 32.667 3.946e-06 *** X1:X2 18 1 6.000 0.0208206 * Residuals 84 28 9" 2.2 Variante mit Kontrastkodierung X 2 (-1=Placebo, 1=Medikament), X 1 (-1=Kontroll, 1=Therapie), =Wirkung # Datensatz X1 <- rep(c(-1,1,-1,1), each=8) X2 <- rep(c(-1,1), each=16) <- c(14.35685, 13.74848, 12.61719, 15.22527, 16.67183, 18.18549, 14.48549, 14.70942, 15.12800, 15.56695, 15.83018, 19.83359, 16.10551, 14.61445, 14.27445, 16.64687, 15.01022, 17.63481, 19.58526, 15.62935, 19.20522, 16.55871, 15.26631, 17.11012, 22.26992, 24.28889, 20.26836, 21.31632, 19.78841, 21.11188, 18.52355, 20.43266) data <- data.frame(x1, X2, ) # Signifikanzteststs # Regressionsanalytisch getestete Effekte # Interaktionsterm data$x1.x2 <- data$x1*data$x2 # Multiple Regression m <- lm(~x1+x2+x1.x2, data) summary(m) Regressionsanalyse: B 0 =17.25 entspricht dem Gesamtmittelwert, =1.25 der Hälfte des Unterschiedes zwischen Therapie- und Kontrollgruppe und =1.75 der Hälfte des Unterschiedes zwischen Medikamenten- und Placebogruppe. B 3 =0.75 entspricht der Hälfte des Unterschiedes der Nützlichkeit des Medikaments gegenüber Placebo in der Therapiegruppe verglichen mit der Kontrollgruppe. Oder: Die Hälfte des Unterschiedes der Nützlichkeit der Therapiegegenüber der Kontrollbedingung in der Medikamentengruppe verglichen mit der Placebogruppe. Die p-werte stimmen mit denjenigen der ANOVA überein. Multiple Regression Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 17.2500 0.3062 56.338 < 2e-16 *** X1 1.2500 0.3062 4.082 0.000337 *** X2 1.7500 0.3062 5.715 3.95e-06 *** X1.X2 0.7500 0.3062 2.449 0.020821 * 20 Mittelwert Therapie 18 Gesamtmittelwert: B 0 16 Mittelwert Placebo y 1 1 y 1 1 y 1 1 = B 0 y 11 = B 0 + B 3 y 1 1 = B 0 + B 3 y 11 = B 0 + + -1 0 1 X2 y 11 y 11 B 3 Mittelwert Medikament X1 ( ) 4 ( ) 4 ( ) 4 ( ) 4 B 0 = y 1 1 + y 11 + y 1 1 + y 11 = y 1 1 y 11 + y 1 1 + y 11 = y 1 1 + y 11 y 1 1 + y 11 B 3 = y 1 1 y 11 y 1 1 + y 11-1 Mittelwert Kontroll 1 10"

3 Modell mit 0-1 kodiertem nominalem Prädiktor X 1, intervallskaliertem Prädiktor X 2 sowie X 1. X 2 Damit und eine sinnvolle Bedeutung haben, sollte man im Rahmen einer Regressionsanalyse mit Interaktionen die intervallskalierten Prädiktoren mittelwertzentrieren. In unserem Beispiel sollte X 2 mittelwertzentriert sein. Ohne Mittelwertzentrierung gibt an, um wie viel ändert, wenn X 1 um 1 zunimmt und X 2 =0 ist, d.h. ist die Stärke des Effektes von X 1 wenn X 2 =0 ist. In den Sozialwissenschaften haben intervallskalierte Prädiktorvariablen häufig keinen sinnvoll interpretierbaren Nullpunkt. In solchen Fällen hat keine praktische Bedeutung. Eine Variable wird mittelwertzentriert, indem man von jedem Messwert den Mittelwert der Variable subtrahiert. Das hat zur Folge, dass der Mittelwert von mittelwertzentrierten Variablen Null ist. Mit Mittelwertzentrierung gibt an, um wie viel ändert, wenn X 1 um 1 zunimmt und X 2 gleich dem Mittelwert von X 2 ist. entspricht dem über alle Werte von X 2 gemittelten Regressionskoeffizienten für den Zusammenhang zwischen X 1 und. Wenn man standardisierte Regressionskoeffizienten berechnen will, muss man die Prädiktoren zuerst standardisieren und für die Interaktionen Variablen mit den Produkten der entsprechenden standardisierten Prädiktoren bilden. Das mit diesen Variablen spezifizierte Modell liefert die korrekten standardisierten Regressionskoeffizienten für die Interaktionsterme. Gewisse Statistikprogramme (z.b. SPSS) geben nebst den unstandardisierten auch die standardisierten Regressionskoeffizienten aus. Für die Berechnung der standardisierten Regressionskoeffizienten wird jeder Prädiktor standardisiert, also auch die aus den Produkten der Originalvariablen gebildeten Interaktionsterme, was jedoch nicht korrekt ist. 11" # Datensatz X2 <- c(87.30280, 104.07412, 100.20962, 98.29341, 71.60009, 81.49222, 110.64615, 101.13073, 94.85313, 99.15967, 130.23578, 91.92338, 97.84737, 91.91516, 100.20589, 125.63846, 100.98738, 119.22938, 77.87900, 115.37627, 100.93141, 102.91485, 97.33625, 94.34320, 104.04154, 125.59118, 106.76126, 96.39701, 99.21624, 93.59477, 98.61159, 74.28981, 109.64116, 111.58966, 71.78056, 88.62236, 94.91484, 121.48190, 80.30477, 127.63561) X1 <- rep(c(0,1), each=20) <- c(19.80054, 17.78458, 17.04787, 26.66645, 19.97571, 20.48199, 21.52774, 20.19014, 16.72677, 23.90171, 18.83798, 15.15968, 24.21491, 18.12976, 19.83765, 23.44297, 18.65987, 23.09172, 17.45235, 17.06961, 23.61319, 24.06475, 23.40409, 24.60999, 28.06003, 27.05986, 25.73039, 23.16969, 25.28021, 22.47782, 21.33091, 22.93409, 24.93271, 22.68932, 18.12976, 18.98208, 23.97297, 29.58501, 20.92419, 29.04893) data <- data.frame(x1, X2, ) # Signifikanzteststs # Regressionsanalytisch getestete Effekte # Mittelwertzentrierung von X2 data$x2 <- data$x2-mean(data$x2) # Interaktionsterm data$x1.x2 <- data$x1*data$x2 # Multiple Regression m <- lm(~x1+x2+x1.x2, data) summary(m) # Kovarianzanalyse mit Typ III Quadratsummen data$x1 <- as.factor(data$x1) library(car) Anova(lm(~X1*x2, data=data, contrasts=list(x1=contr.sum)), type=3) Multiple Regression Call: lm(formula = ~ X1 + x2 + X1.x2, data = data) Residuals: Min 1Q Median 3Q Max -4.5173-1.5758-0.1701 1.2681 6.7347 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 20.00000 0.55991 35.720 < 2e-16 *** X1 4.00000 0.79183 5.052 1.28e-05 *** x2 0.04000 0.03830 1.044 0.3032 X1.x2 0.12000 0.05416 2.216 0.0331 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 2.504 on 36 degrees of freedom Multiple R-squared: 0.5504, Adjusted R-squared: 0.5129 F-statistic: 14.69 on 3 and 36 DF, p-value: 2.089e-06 Kovarianzanalyse Mit der Funktion aov_ez() lassen sich keine Interaktionen zwischen Faktoren und Kovariablen testen. Deshalb verwenden wir die Funktion Anova(). Hinweis: Anova Table (Type III tests) Da bei der Regressionsanalyse der Response: Effekt von X 2 für Stufe 0 von X 1 (Intercept) 19360.0 1 3087.7210 < 2.2e-16 *** und bei der ANCOVA der mittlere X1 160.0 1 25.5184 1.283e-05 *** Effekt von X 2 über beide Stufen von x2 85.5 1 13.6364 0.0007312 *** X X1:x2 30.8 1 4.9091 0.0331268 * 1 getestet wird, sind die p-werte Residuals 225.7 36 für X 2 verschieden. 12"

Interpretation für: X 2 = IQ, X 1 (0=kontroll, 1=treatment), =Leistung Regressionsanalyse: Beim Gesamtmittelwert des IQ (X 2 =0) ist die Leistung der Treatment-Gruppe (X 1 =1) um =4 höher als die Leistung der Kontrollgruppe (X 1 =0). Für die Probanden in der Kontrollgruppe (X 1 = 0 ) b e t r ä g t d e r Regressionskoeffizient für den Zusammenhang zwischen IQ und Leistung =0.04. Bei der Treatment-Gruppe (X 1 =1) ist der Regressionskoeffizient um B 3 =0.12 höher als bei der Kontrollgruppe (X 1 =0). Oder: Der Unterschied zwischen Treatment- und Kontrollgruppe nimmt mit dem IQ zu (4+0.04. X 2 ). X 1. ANCOVA: Es besteht ein über die beiden Gruppen gemittelter Zusammenhang zischen IQ und Leistung (QS X2 ). Beim Gesamtmittelwert des IQ sind die Mittelwerte der Kontroll- und der Treatment-Gruppe verschieden (QS X1 ). Der Zusammenhang zwischen IQ und Leistung ist für die beiden Gruppe verschieden. Oder: Der Unterschied zwischen den beiden Gruppen hängt vom IQ ab (QS X1X2 ). Regressionsanalyse: 30 25 20 15 ŷ = B 0 + + ŷ = B 0 + + ( ) ŷ = B 0 + ( ) + -30-20 -10 0 10 20 30 X2 X 2 mittelwertzentriert +B 3 Steigung X1 0 1 13" 3.1 Regressionsanalytische Berechnung der ANCOVA mit Typ III Quadratsummen Nominale Variablen müssen vom Typ "factor" sein. Nominale Variablen müssen durch Kontrast-Indikatorvariablen ersetzt werden. Der Ausdruck "X1*x2" bedeutet "X1 + x2 + X1:x2", d.h. Haupteffekt "X1" + Haupteffekt "x2" + Interaktion "X1:x2". Die Funktion "dropl" rechnet folgende drei Modelle: (1) lm(~x2 + X1:x2, data) (2) lm(~x1 + X1:x2, data) (3) lm(~x1 + x2, data) Jedes dieser Modelle wird gegen das Gesamtmodell "lm(~x1*x2, data)" getestet. Modell (1) vs. Gesamtmodell ergibt den Test für "X1", Modell (2) vs. Gesamtmodell den Test für "x2" und Modell (3) vs. Gesamtmodell den Test für "X1:x2". options(contrasts = c("contr.sum","contr.poly")) model <- lm(~x1*x2, data=data) drop1(model,.~., test="f") Regressionsanalytisch berechnet Single term deletions Model: ~ X1 * x2 Df Sum of Sq RSS AIC F value Pr(>F) <none> 225.72 77.217 X1 1 160.00 385.72 96.649 25.5184 1.283e-05 *** x2 1 85.50 311.22 88.065 13.6364 0.0007312 *** X1:x2 1 30.78 256.50 80.330 4.9091 0.0331268 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Vergleich mit Kovarianzanalyse (Intercept) 19360.0 1 3087.7210 < 2.2e-16 *** X1 160.0 1 25.5184 1.283e-05 *** x2 85.5 1 13.6364 0.0007312 *** X1:x2 30.8 1 4.9091 0.0331268 * Residuals 225.7 36 14"

4 Modell mit intervallskalierten Prädiktoren X 1 und X 2 sowie X 1. X 2 Damit und eine sinnvolle Bedeutung haben, sollte man im Rahmen einer Regressionsanalyse mit Interaktionen die Prädiktoren mittelwertzentrieren. Ohne Mittelwertzentrierung gibt an, um wie viel ändert, wenn X 1 um 1 zunimmt und X 2 =0 ist, d.h. ist die Stärke des Effektes von X 1 wenn X 2 =0 ist. In den Sozialwissenschaften haben intervallskalierte Prädiktorvariablen häufig keinen sinnvoll interpretierbaren Nullpunkt, so dass keine praktische Bedeutung hat. Eine Variable wird mittelwertzentriert, indem man von jedem Messwert den Mittelwert der Variable subtrahiert. Das hat zur Folge, dass der Mittelwert von mittelwertzentrierten Variablen ist Null ist. Für mittelwertzentrierte Prädiktoren ist die Stärke des Effektes von X 1 beim Mittelwert von X 2 oder der mittlere Effekt von X 1 über alle Werte von X 2. Entsprechend für. Diese Interpretation hat eine praktische Bedeutung. Für mittelwertzentrierte Prädiktoren erhält man in der Regel andere Werte für und und auch andere Signifikanztests als für nicht mittelwertzentrierte. Der Regressionskoeffizient und der Signifikanztest der Interaktion höchster Ordnung ändern nicht. Wenn im Modell keine Interaktionen vorhanden sind, muss nicht mittelwertzentriert werden, da beide Varianten - ausser dem Schätzwert für B 0 - übereinstimmen. Wenn man standardisierte Regressionskoeffizienten berechnen will, muss man die Prädiktoren zuerst standardisieren und für die Interaktionen Variablen mit den Produkten der entsprechenden standardisierten Prädiktoren bilden. Das mit diesen Variablen spezifizierte Modell liefert die korrekten standardisierten Regressionskoeffizienten für die Interaktionsterme. Gewisse Statistikprogramme (z.b. SPSS) geben nebst den unstandardisierten auch die standardisierten Regressionskoeffizienten aus. Für die Berechnung der standardisierten Regressionskoeffizienten wird jeder Prädiktor standardisiert, also auch die aus den Produkten der Originalvariablen gebildeten Interaktionsterme, was jedoch nicht korrekt ist. Die Mittelwertzentrierung reduziert Multikollinearitätseffekte. Es wird stark empfohlen, im Fall von Interaktionen mittelwertzentrierte Prädiktoren zu verwenden. 15" # Datensatz X2 <- c(97.78634, 82.70150, 123.35425, 110.73916, 86.74221, 114.35447, 97.16108, 99.40988, 111.39310, 84.83547, 72.50773, 134.35677, 87.08602, 86.37060, 107.31552, 86.20051, 107.66381, 76.69425, 105.09519, 100.50593, 103.48352, 111.04708, 101.00862, 124.52057, 81.19821, 89.06296, 108.57443, 81.61323, 113.14886, 94.39738, 91.60749, 95.86320, 127.88415, 119.21521, 75.77710, 117.88602, 85.05534, 101.39443, 111.11322, 88.33349, 90.24535, 85.25735, 106.43944, 127.63848, 83.98278, 111.90409, 103.96510, 101.19880, 88.74324, 106.16707) X1 <- c(15.89729, 23.83461, 16.37460, 22.66057, 20.40117, 26.32314, 22.60665, 20.19247, 19.46453, 18.17278, 18.24792, 21.99374, 22.39249, 21.64119, 21.44831, 15.95312, 23.37690, 23.25310, 15.37102, 24.31076, 16.25121, 12.87903, 16.03826, 19.18990, 19.30322, 19.24210, 20.00079, 19.76906, 20.54368, 22.65984, 19.60431, 21.69201, 18.48536, 20.00247, 20.80874, 15.83961, 15.06372, 23.72950, 21.39496, 20.77334, 21.72895, 19.32825, 17.13817, 25.98396, 21.81129, 22.13863, 19.10559, 14.46703, 21.47488, 19.63579) <- c(26.27681, 19.45098, 21.89358, 32.07072, 25.21847, 33.99183, 29.09117, 26.97931, 22.80475, 28.85797, 26.08774, 29.84788, 29.07763, 18.80658, 26.93771, 29.60495, 31.77877, 13.97510, 26.85150, 23.07098, 16.36209, 14.56545, 23.54181, 24.91250, 23.87899, 24.22544, 23.18086, 20.98073, 30.20406, 33.83083, 26.07314, 24.71260, 26.85237, 28.64695, 22.38178, 18.58043, 23.34524, 29.10341, 27.10777, 25.66175, 22.98929, 25.67819, 25.32834, 42.23235, 25.43401, 26.65495, 24.42664, 21.95442, 24.44107, 25.03811) data <- data.frame(x1, X2, ) # Signifikanzteststs # Mittelwertzentrierte Prädiktoren data$x1 <- data$x1 - mean(data$x1) data$x2 <- data$x2 - mean(data$x2) # Interaktionsterm data$x1.x2 <- data$x1*data$x2 # Multiple Regression summary(lm(~x1+x2+x1.x2, data)) Multiple Regression mit mittelwertzentrierten Prädiktoren Call: lm(formula = ~ x1 + x2 + x1.x2, data = data) Residuals: Min 1Q Median 3Q Max -6.7768-1.7084-0.1082 2.1016 8.5753 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 25.50000 0.43420 58.728 < 2e-16 *** x1 0.45862 0.15351 2.988 0.0045 ** x2 0.07642 0.02952 2.589 0.0129 * x1.x2 0.06953 0.01078 6.452 6.07e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 3.07 on 46 degrees of freedom Multiple R-squared: 0.6377, Adjusted R-squared: 0.6141 F-statistic: 26.99 on 3 and 46 DF, p-value: 3.199e-10 Interpretation für: X 2 = IQ, X 1 Motivation, =Leistung Beim Mittelwert der Motivation (X 1 =0) beträgt der Regressionskoeffizient für den Zusammenhang zwischen IQ und Leistung =0.076. Beim Mittelwert des IQ (X 2 =0) beträgt der Regressionskoeffizient für den Zusammenhang zwischen Motivation und Leistung =0.459. Der Regressionskoeffizient für den Zusammenhang zwischen IQ und Leistung nimmt mit der Motivation zu (0.076+0.070. X 1 ). X 2. Oder: Der Regressionskoeffizient für den Zusammenhang zwischen Motivation und Leistung nimmt mit dem IQ zu (0.459+0.070. X 2 ). X 1. 16"

3D-Streudiagramm mit Plot der Regressionsfunktion (mittelwertzentrierte Prädiktoren) Die Linien sind Regressionsgeraden für den Zusammenhang zwischen X 2 und gegeben X 1 und den Zusammenhang zwischen X 1 und gegeben X 2. Zusätzlich sind die Regressionskoeffizienten für X 1 gegeben X 2 und X 2 gegeben X 1 angegeben. +B 3. X 1 +B 3. X 2 +B 3. X 1 +B 3. X 2 X 2 mittelwertzentriert X 1 mittelwertzentriert 17" # Signifikanzteststs # Nicht mittelwertzentrierte Prädiktoren data$x1.x2 <- data$x1*data$x2 summary(lm(~x1+x2+x1.x2, data)) Multiple Regression mit nicht mittelwertzentrierten Prädiktoren Call: lm(formula = ~ X1 + X2 + X1.X2, data = data) Residuals: Min 1Q Median 3Q Max -6.7768-1.7084-0.1082 2.1016 8.5753 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 147.74917 23.27021 6.349 8.66e-08 *** X1-6.49454 1.13399-5.727 7.41e-07 *** X2-1.31421 0.22154-5.932 3.66e-07 *** X1.X2 0.06953 0.01078 6.452 6.07e-08 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 3.07 on 46 degrees of freedom Multiple R-squared: 0.6377, Adjusted R-squared: 0.6141 F-statistic: 26.99 on 3 and 46 DF, p-value: 3.199e-10 18"

3D-Streudiagramm mit Plot der Regressionsfunktion (nicht mittelwertzentriert) Die Linien sind Regressionsgeraden für den Zusammenhang zwischen X 2 und gegeben X 1 und den Zusammenhang zwischen X 1 und gegeben X 2. X2 X1 19" 20"

5 Variablentransformation ohne Einfluss auf den Regressionskoeffizienten der Interaktion Wenn man die Werte eines Prädiktors um einen konstanten Wert erhöht oder verringert, ändert dies nichts am Regressionskoeffizienten der Interaktion höchster Ordnung. Dies lässt sich anhand der Regressionsgleichung zeigen: ŷ = B 0 + + (1) Nun generieren wir eine neue Regressionsgleichung, indem wir anstelle von X 1 X 1 +k einsetzen: ŷ = B 0 + ( X 1 + k) + ( X 1 + k) (2) Durch Umformung erhalten wir: ŷ = B 0 + k + + ( k) (3) Aus (3) erhalten wir die neuen Regressionskoeffizienten b 0 =B 0 +. k, b 1 =, b 2 = +B 3. k und b 3 =B 3. ŷ = b 0 + b 1 + b 2 + b 3 (4) Die Regressionskoeffizienten von X 1 und X 1. X 2 haben nicht geändert. Wenn zugleich auch X 2 additiv transformiert wird, ändern die Regressionskoeffizienten von X 1 und X 2, derjenige der Interaktion X 1. X 2 jedoch nicht. Die Mittelwertzentrierung ist ein Beispiel für diese Transformation. 21" 22"

6 Statistische Gleichheit von Interaktionen 6.1 Varianzanalyse Interaktionen können zwar auf den ersten Blick sehr verschieden aussehen, statistisch aber gleiche F-Werte und gleiche p-werte haben. Der F- und der p-wert der Interaktion eines ausbalancierten zweifaktoriellen Designs ändert nicht, wenn man die Mittelwerte einer Stufe eines Faktors um einen konstanten Wert erhöht oder verringert. Der Interaktionseffekt (ab) jk für Zelle jk des Designs ergibt sich aus dem Zelleffekt [ab] jk abzüglich der Haupteffekte von für Stufe j von Faktor A und Stufe k von Faktor B. ( ab) jk = [ ab] jk a j b k = ( jk.. ) ( j... ) (.k.. ) = jk j..k +.. Nun schauen wir, wie sich die Interaktionseffekte verhalten, wenn wir zu jedem Zellmittelwert der Stufe k von Faktor B die Konstante C addieren.! B k! B K Randmittel A 1 11 12! 1k + C! 1K 1. + C A 2 21 22! 2k + C! 2K 2. + C " " " " " " A j j1 j2! jk + C! jk j. + C " " " " " " A J J1 J1! Jk + C! JK K. + C Randmittel.1.2.k + C.K.. + C ' ( ) jk ( ) ( j. + C).k + C ( ) + (.. + C) = jk j..k +.. = ab ( ) jk Interaktionseffekte: ab = jk + C Daraus folgt: Die Interaktionseffekte ändern nicht. 23" Wir illustrieren diesen Sachverhalt anhand von drei Datensätzen. Zuerst vergleichen wir die Interaktionsplots und anschliessend die varianzanalytischen Ergebnisse. # Datensätze # Datensatz 1 A <- rep(rep(c("a1","a2","a3"), each=6), 2) B <- rep(c("b1","b2"), each=18) <- c(1.8033014, 1.8272082, 0.7075432, 2.1024079, 0.9043445, 4.6551949, 4.1715753, 1.7373133, 2.2590679, 3.3513006, 1.4732999, 5.0074431, 2.3428965, 4.7035223, 3.3984258, 3.8142223, 6.4272638, 3.3136693, 4.9460417, 2.3020907, 2.1425061, 3.6704322, 3.8798075, 1.0591219, 5.8928368, 5.6351267, 4.5592770, 4.5540099, 7.8346387, 7.5241109, 3.0618766, 6.9286257, 3.6399017, 5.2867989, 5.4878500, 5.5949470) data1 <- data.frame(block=1:36, A, B, ) # Datensatz 2 A <- rep(rep(c("a1","a2","a3"), each=6), 2) B <- rep(c("b1","b2"), each=18) <- c(3.803301, 3.827208, 2.707543, 4.102408, 2.904345, 6.655195, 4.171575, 1.737313, 2.259068, 3.351301, 1.473300, 5.007443, 2.342897, 4.703522, 3.398426, 3.814222, 6.427264, 3.313669, 6.946042, 4.302091, 4.142506, 5.670432, 5.879807, 3.059122, 5.892837, 5.635127, 4.559277, 4.554010, 7.834639, 7.524111, 3.061877, 6.928626, 3.639902, 5.286799, 5.487850, 5.594947) data2 <- data.frame(block=1:36, A, B, ) # Datensatz 3 A <- rep(rep(c("a1","a2","a3"), each=6), 2) B <- rep(c("b1","b2"), each=18) <- c(5.303301, 5.327208, 4.207543, 5.602408, 4.404345, 8.155195, 5.671575, 3.237313, 3.759068, 4.851301, 2.973300, 6.507443, 3.842897, 6.203522, 4.898426, 5.314222, 7.927264, 4.813669, 5.446042, 2.802091, 2.642506, 4.170432, 4.379807, 1.559122, 4.392837, 4.135127, 3.059277, 3.054010, 6.334639, 6.024111, 1.561877, 5.428626, 2.139902, 3.786799, 3.987850, 4.094947) data3 <- data.frame(block=1:36, A, B, ) # Zusammengefügter Datensatz data <- rbind(data1, data2, data3) data$block <- 1:nrow(data) C <- rep(c("c1", "C2", "C3"), each=36) data$c <- C 24"

Interaktionsplots Obwohl die Interaktionen sehr verschieden aussehen, sind ihre Signifikanztests identisch. Im Plot links ist jeweils rot angedeutet, durch welche Transformation man zum Plot rechts kommt. Bei der ersten Transformation werden die Mittelwerte von Stufe A1 um 2 erhöht. Bei der zweiten Transformation werden die Mittelwerte von um 1.5 erhöht und diejenigen von um 1.5 verringert. Die Transformationen können auch verkettet werden. 6 Datensatz 1 Datensatz 2 Datensatz 3 C1 C2 C3 5 4 B B1 B2 3 2 A1 A2 A3 A1 A2 A3 A1 A2 A3 A 25" Varianzanalysen Die Signifikanztests für die Interaktion sind bei allen zweifaktoriellen ANOVAs identisch. Deshalb ist die Interaktion zweiter Ordnung der dreifaktoriellen ANOVA nicht signifikant: p-wert=1, was auf den ersten Blick erstaunt. # Datensatz 1 library(afex) aov_ez(id="block", dv="", data=data1, between=c("a", "B"), return="anova") # Datensatz 2 aov_ez(id="block", dv="", data=data2, between=c("a", "B"), return="anova") # Datensatz 3 aov_ez(id="block", dv="", data=data3, between=c("a", "B"), return="anova") # Zusammengefügter Datensatz aov_ez(id="block", dv="", data=data, between=c("a", "B", "C"), return="anova") Ergebnisse Datensatz 1 (Intercept) 529 1 264.5 < 2.2e-16 *** A 32 2 8.0 0.001642 ** 5 1 12.5 0.001344 ** A:B 8 2 2.0 0.152980 Residuals 60 30 Datensatz 2 (Intercept) 729 1 364.5 < 2.2e-16 *** A 0 2 0.0 1.000000 5 1 12.5 0.001344 ** A:B 8 2 2.0 0.152980 Residuals 60 30 Datensatz 3 (Intercept) 729 1 364.5 < 2.2e-16 *** A 0 2 0.0 1.000000 6 1 8.0 0.008257 ** A:B 8 2 2.0 0.152980 Residuals 60 30 Dreifaktorielle ANOVA (Intercept) 1976.33 1 988.1667 < 2.2e-16 *** A 10.67 2 2.6667 0.07497. 2.00 1 6.0000 0.01624 * C 10.67 2 2.6667 0.07497. A:4.00 2 6.0000 0.00358 ** A:C 21.33 4 2.6667 0.03733 * B:C 54.00 2 13.5000 7.457e-06 *** A:B:C 0.00 4 0.0000 1.00000 Residuals 180.00 90 26"

6.2 Kovarianzanalyse Bei der einfaktoriellen ANCOVA ändert die Interaktion nicht, wenn man die Zellmittelwerte ändert und sonst alles gleich lässt, oder wenn die Regressionskoeffizienten um einen konstanten Wert erhöht oder verringert werden und die Residuen gleich bleiben. Wir illustrieren diesen Sachverhalt anhand von drei Datensätzen. # Datensätze # Datensatz 1 X2 <- c(87.30280, 104.07412, 100.20962, 98.29341, 71.60009, 81.49222, 110.64615, 101.13073, 94.85313, 99.15967, 130.23578, 91.92338, 97.84737, 91.91516, 100.20589, 125.63846, 100.98738, 119.22938, 77.87900, 115.37627, 100.93141, 102.91485, 97.33625, 94.34320, 104.04154, 125.59118, 106.76126, 96.39701, 99.21624, 93.59477, 98.61159, 74.28981, 109.64116, 111.58966, 71.78056, 88.62236, 94.91484, 121.48190, 80.30477, 127.63561) X1 <- rep(c(0,1), each=20) <- c(19.80054, 17.78458, 17.04787, 26.66645, 19.97571, 20.48199, 21.52774, 20.19014, 16.72677, 23.90171, 18.83798, 15.15968, 24.21491, 18.12976, 19.83765, 23.44297, 18.65987, 23.09172, 17.45235, 17.06961, 23.61319, 24.06475, 23.40409, 24.60999, 28.06003, 27.05986, 25.73039, 23.16969, 25.28021, 22.47782, 21.33091, 22.93409, 24.93271, 22.68932, 18.12976, 18.98208, 23.97297, 29.58501, 20.92419, 29.04893) data1 <- data.frame(x1, X2, ) # Mittelwertzentrierung von X2 data1$x2 <- data1$x2-mean(data1$x2) # Datensatz 2 X2 <- c(87.30280, 104.07412, 100.20962, 98.29341, 71.60009, 81.49222, 110.64615, 101.13073, 94.85313, 99.15967, 130.23578, 91.92338, 97.84737, 91.91516, 100.20589, 125.63846, 100.98738, 119.22938, 77.87900, 115.37627, 100.93141, 102.91485, 97.33625, 94.34320, 104.04154, 125.59118, 106.76126, 96.39701, 99.21624, 93.59477, 98.61159, 74.28981, 109.64116, 111.58966, 71.78056, 88.62236, 94.91484, 121.48190, 80.30477, 127.63561) X1 <- rep(c(0,1), each=20) <- c(19.80054, 17.78458, 17.04787, 26.66645, 19.97571, 20.48199, 21.52774, 20.19014, 16.72677, 23.90171, 18.83798, 15.15968, 24.21491, 18.12976, 19.83765, 23.44297, 18.65987, 23.09172, 17.45235, 17.06961, 19.61319, 20.06475, 19.40409, 20.60999, 24.06003, 23.05986, 21.73039, 19.16969, 21.28021, 18.47782, 17.33091, 18.93409, 20.93271, 18.68932, 14.12976, 14.98208, 19.97297, 25.58501, 16.92419, 25.04893) data2 <- data.frame(x1, X2, ) # Mittelwertzentrierung von X2 data2$x2 <- data2$x2-mean(data2$x2) # Datensatz 3 X2 <- c(87.30280, 104.07412, 100.20962, 98.29341, 71.60009, 81.49222, 110.64615, 101.13073, 94.85313, 99.15967, 130.23578, 91.92338, 97.84737, 91.91516, 100.20589, 125.63846, 100.98738, 119.22938, 77.87900, 115.37627, 100.93141, 102.91485, 97.33625, 94.34320, 104.04154, 125.59118, 106.76126, 96.39701, 99.21624, 93.59477, 98.61159, 74.28981, 109.64116, 111.58966, 71.78056, 88.62236, 94.91484, 121.48190, 80.30477, 127.63561) X1 <- rep(c(0,1), each=20) <- c(21.83209, 17.13272, 17.01433, 26.93950, 24.51970, 23.44323, 19.82436, 20.00922, 17.55027, 24.03616, 14.00026, 16.45194, 24.55933, 19.42333, 19.80471, 19.34082, 18.50189, 20.01502, 20.99171, 14.60941, 19.46416, 19.59837, 19.83029, 21.51508, 23.41338, 18.96527, 20.64859, 19.74617, 21.40561, 19.50266, 17.55306, 23.04772, 19.39012, 16.83497, 18.64487, 16.80250, 20.78660, 22.14791, 20.07543, 20.62723) data3 <- data.frame(x1, X2, ) # Mittelwertzentrierung von X2 data3$x2 <- data3$x2-mean(data2$x2) 27" Interaktionsplots Veränderung von Datensatz 1 zu 2: Der Mittelwert der Gruppe X 1 =1 wird auf 20 gesetzt, die Residuen bleiben gleich. Veränderung von Datensatz 2 zu 3: Die beiden Regressionskoeffizienten werden um 0.16 reduziert, die Residuen bleiben gleich. Datensatz 1 Datensatz 2 Datensatz 3 30 24 24 25 X1 20 20 0 1 20 16 16 15-30 -20-10 0 10 20 30 X2-30 -20-10 0 10 20 30 X2-30 -20-10 0 10 20 30 X2 X 2 mittelwertzentriert X 2 mittelwertzentriert X 2 mittelwertzentriert 28"

Varianzanalysen # Datensatz 1 data1$x1 <- as.factor(data1$x1) library(car) Anova(lm(~X1*x2, data=data1, contrasts=list(x1=contr.sum)), type=3) # Datensatz 2 data2$x1 <- as.factor(data2$x1) Anova(lm(~X1*x2, data=data2, contrasts=list(x1=contr.sum)), type=3) # Datensatz 3 data3$x1 <- as.factor(data3$x1) Anova(lm(~X1*x2, data=data3, contrasts=list(x1=contr.sum)), type=3) Ergebnisse Datensatz 1 (Intercept) 19360.0 1 3087.7210 < 2.2e-16 *** X1 160.0 1 25.5184 1.283e-05 *** x2 85.5 1 13.6364 0.0007312 *** X1:x2 30.8 1 4.9091 0.0331268 * Residuals 225.7 36 60 30 Datensatz 2 (Intercept) 16000.0 1 2551.8356 < 2.2e-16 *** X1 0.0 1 0.0000 0.9999997 x2 85.5 1 13.6364 0.0007312 *** X1:x2 30.8 1 4.9091 0.0331268 * Residuals 225.7 36 Datensatz 3 (Intercept) 16000.0 1 2551.8356 < 2e-16 *** X1 0.0 1 0.0000 1.00000 x2 30.8 1 4.9091 0.03313 * X1:x2 30.8 1 4.9091 0.03313 * Residuals 225.7 36 29" 6.3 Multiple Regression mit intervallskalierten Prädiktoren Der Regressionskoeffizient für die Interaktion ändert nicht, wenn entweder +B 3. X 2 und/oder +B 3. X 1 additiv um einen konstanten Wert erhöht oder verringert werden und die Residuen gleich bleiben (vgl. Folie 31). # Datensätze # Datensatz 1 X2 <- c(97.78634, 82.70150, 123.35425, 110.73916, 86.74221, 114.35447, 97.16108, 99.40988, 111.39310, 84.83547, 72.50773, 134.35677, 87.08602, 86.37060, 107.31552, 86.20051, 107.66381, 76.69425, 105.09519, 100.50593, 103.48352, 111.04708, 101.00862, 124.52057, 81.19821, 89.06296, 108.57443, 81.61323, 113.14886, 94.39738, 91.60749, 95.86320, 127.88415, 119.21521, 75.77710, 117.88602, 85.05534, 101.39443, 111.11322, 88.33349, 90.24535, 85.25735, 106.43944, 127.63848, 83.98278, 111.90409, 103.96510, 101.19880, 88.74324, 106.16707) X1 <- c(15.89729, 23.83461, 16.37460, 22.66057, 20.40117, 26.32314, 22.60665, 20.19247, 19.46453, 18.17278, 18.24792, 21.99374, 22.39249, 21.64119, 21.44831, 15.95312, 23.37690, 23.25310, 15.37102, 24.31076, 16.25121, 12.87903, 16.03826, 19.18990, 19.30322, 19.24210, 20.00079, 19.76906, 20.54368, 22.65984, 19.60431, 21.69201, 18.48536, 20.00247, 20.80874, 15.83961, 15.06372, 23.72950, 21.39496, 20.77334, 21.72895, 19.32825, 17.13817, 25.98396, 21.81129, 22.13863, 19.10559,14.46703, 21.47488, 19.63579) <- c(26.27681, 19.45098, 21.89358, 32.07072, 25.21847, 33.99183, 29.09117, 26.97931, 22.80475, 28.85797, 26.08774, 29.84788, 29.07763, 18.80658, 26.93771, 29.60495, 31.77877, 13.97510, 26.85150, 23.07098, 16.36209, 14.56545, 23.54181, 24.91250, 23.87899, 24.22544, 23.18086, 20.98073, 30.20406, 33.83083, 26.07314, 24.71260, 26.85237, 28.64695, 22.38178, 18.58043, 23.34524, 29.10341, 27.10777, 25.66175, 22.98929, 25.67819, 25.32834, 42.23235, 25.43401, 26.65495, 24.42664, 21.95442, 24.44107, 25.03811) data1 <- data.frame(x1, X2, ) # Mittelwertzentrierte Prädiktoren data1$x1 <- data1$x1 - mean(data1$x1) data1$x2 <- data1$x2 - mean(data1$x2) # Interaktionsterm data1$x1.x2 <- data1$x1*data1$x2 # Datensatz 2 X2 <- c(97.78634, 82.70150, 123.35425, 110.73916, 86.74221, 114.35447, 97.16108, 99.40988, 111.39310, 84.83547, 72.50773, 134.35677, 87.08602, 86.37060, 107.31552, 86.20051, 107.66381, 76.69425, 105.09519, 100.50593, 103.48352, 111.04708, 101.00862, 124.52057, 81.19821, 89.06296, 108.57443, 81.61323, 113.14886, 94.39738, 91.60749, 95.86320, 127.88415, 119.21521, 75.77710, 117.88602, 85.05534, 101.39443, 111.11322, 88.33349, 90.24535, 85.25735, 106.43944, 127.63848, 83.98278, 111.90409, 103.96510, 101.19880, 88.74324, 106.16707) X1 <- c(15.89729, 23.83461, 16.37460, 22.66057, 20.40117, 26.32314, 22.60665, 20.19247, 19.46453, 18.17278, 18.24792, 21.99374, 22.39249, 21.64119, 21.44831, 15.95312, 23.37690, 23.25310, 15.37102, 24.31076, 16.25121, 12.87903, 16.03826, 19.18990, 19.30322, 19.24210, 20.00079, 19.76906, 20.54368, 22.65984, 19.60431, 21.69201, 18.48536, 20.00247, 20.80874, 15.83961, 15.06372, 23.72950, 21.39496, 20.77334, 21.72895, 19.32825, 17.13817, 25.98396, 21.81129, 22.13863, 19.10559,14.46703, 21.47488, 19.63579) <- c(27.826372, 31.559930, 5.545605, 24.553308, 34.498923, 23.943701, 31.078414, 27.392394, 14.829580, 39.473141, 45.332329, 5.798141, 38.117416, 28.347160, 21.816846, 39.264593, 26.414103, 30.289125, 23.284867, 22.716829, 13.923626, 6.832494, 22.835776, 7.748101, 37.040243, 31.881368, 17.178759, 33.851469, 20.999858, 37.752664, 31.947897, 27.608360, 7.333465, 15.196303, 39.337810, 6.060216, 33.806502, 28.127309, 19.328516, 33.828307, 29.817545, 35.998045, 20.820732, 22.885414, 36.646064, 18.322087, 21.651070, 21.115260, 32.320802, 20.721161) data1 <- data.frame(x1, X2, ) # Mittelwertzentrierte Prädiktoren data2$x1 <- data2$x1 - mean(data2$x1) data2$x2 <- data2$x2 - mean(data2$x2) # Interaktionsterm data2$x1.x2 <- data2$x1*data1$x2 30"

Veränderung von Datensatz 1 zu 2: +B 3. X 1 wird um 0.7 verringert, die Residuen bleiben gleich. Die Linien sind Regressionsgeraden für den Zusammenhang zwischen X 2 und gegeben X 1 und den Zusammenhang zwischen X 1 und gegeben X 2. Zusätzlich sind die Regressionskoeffizienten für X 1 gegeben X 2 und X 2 gegeben X 1 angegeben. Datensatz 1 Datensatz 2 +B 3. X 1 +B 3. X 2 +B 3. X 2 X 2 mittelwertzentriert X 2 mittelwertzentriert 31" Multiple Regressionen # Datensatz 1 summary(lm(~x1+x2+x1.x2, data1)) # Datensatz 2 summary(lm(~x1+x2+x1.x2, data2)) Ergebnisse Datensatz 1 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 25.50000 0.43420 58.728 < 2e-16 *** x1 0.45862 0.15351 2.988 0.0045 ** x2 0.07642 0.02952 2.589 0.0129 * x1.x2 0.06953 0.01078 6.452 6.07e-08 *** Datensatz 2 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 25.50000 0.43420 58.728 < 2e-16 *** x1 0.45862 0.15351 2.988 0.0045 ** x2-0.62358 0.02952-21.124 < 2e-16 *** x1.x2 0.06953 0.01078 6.452 6.07e-08 *** 32"