Die Mehrebenenanalyse als Regressionsmodell für hierarchische Daten

Transkript

1 D:\eigene Dateien\windzio\lehre\ml_workshop\mehrebenen\tuto_mlw_workshop.doc Die Mehrebenenanalyse als Regressionsmodell für hierarchische Daten Michael Windzio 1 Einleitung: Mehrebenenanalyse als Regression für hierarchische Daten 1.1 Terminologie Der in den Sozialwissenschaften gebräuchliche Terminus der Mehrebenenanalyse bezieht sich auf die Unterscheidung zwischen unterschiedlichen Analyseebenen. Man kann z.b. Gewalt an 00 Schulen auf unterschiedlichen Ebenen betrachten. Man kann zum einen für jede Schule den Anteil der Täter unter den Schülern berechnen und untersuchen, ob diese Anteile z.b. durch den Migrantenanteil der Schüler zu erklären sind. Die Aussageeinheiten wären dabei die Schulen, und die beiden Variablen Täterquote und Migrantenanteil wären aggregierte Maße, die also durch Aggregation der Schülermerkmale ermittelt werden. Man befände sich somit auf der Aggregatebene. Der Terminus für eine solche Untersuchung ist darum auch die Aggregatdatenanalyse. Zum anderen kann man die Untersuchung auf der Individualebene ansetzen. Man erhebt und analysiert dabei die individuellen Angaben aller 00 x 90 = Schüler der 9. Klassen. Dabei schätzt man z.b. den Effekt des Merkmals Migrant auf das Gewalthandeln und kann feststellen, ob es tatsächlich die Gruppe der Migranten ist, die eine höhere Gewaltbelastung aufweist. Allein auf Basis einer Aggregatdatenanalyse ist dies nicht möglich, denn es kann ja sein, dass gerade in Schulen mit hohem Migrantenanteil die deutschen Schüler eher zu Gewalt neigen. Wollte man anhand der Aggregatdatenanalyse den Schluss ziehen, es seien die Migranten, die Gewalt ausüben, obwohl man nur Effekt des Migrantenanteils auf der Schulebene auf die Täterquote (ebenfalls auf der Schulebene) schätzt, unterläge man der Gefahr eines ökologischen Fehlschlusses. Der Idealfall einer Datenerhebung integriert beide Ebenen und erzeugt damit eine hierarchische Datenstruktur: oben die Schulen, unten die Schüler. Dabei werden Merkmale der Schüler auf der Individualebene erfasst und diese zugleich der Aggregateinheit Schule zugeordnet werden können. Als Prädiktoren für outcomes (Werte der abhängigen Variablen) können dabei sowohl Merkmale der Schüler (Individualebene) als auch Merkmale der Aggregat-, man sagt auch: Kontextebene (Schulen) modelliert werden. Überdies können auch cross-level - Interaktionseffekte möglich, indem also Effekte individueller Merkmale 1

2 auf die AV durch Schulmerkmale moderiert werden. Und genau dieses leistet das Verfahren der Mehrebenenanalyse. Für statistische Analyseverfahren, die mit dem Begriff der Mehrebenenanalyse bezeichnet werden, gibt es in der Statistik und der Ökonometrie verschiedene Synonyme, die man kennen sollte, um die Verfahren in der Literatur richtig zuzuordnen. Das mittlerweile klassische Buch von Bryk und Raudenbush (199) trägt den Titel hierarchical linear models, wobei das Hierarchische auf die Struktur der Daten bezogen ist, und nicht etwa auf die sukzessive Erweiterung eines Regressionsmodells um neue erklärende Variablen. In der Agrarwissenschaft, der Biologie oder der Medizin findet man auch die Bezeichnung Models for clustered data oder Ähnliches, was ebenfalls auf die Struktur der Daten bezogen ist. Wird beispielsweise das Wachstum von Hundewelpen untersucht, werden nicht Stichproben einzelner Welpen gezogen, sondern Stichproben von Hundemüttern, die jeweils mehrere Welpen haben, die Welpen also Cluster (Klumpen) darstellen. Statistiker sprechen von mixed models, entweder als linear mixed models oder als generalized mixed models. Gemischt sind die Modelle, weil sie sowohl feste Koeffizienten ( fixed effects ) als auch zu zufällige Koeffizienten (random effects/coeffcients) umfassen, also eine Mischung unterschiedlicher Effektarten beinhalten. Diese Schlüsselbegriffe werden uns später hauptsächlich beschäftigten. In der Evaluationsforschung, insbesondere in der Medizin, ist häufig von clustered oder group randomized trials die Rede und der Charakter der Mehrebenenstruktur der Daten bleibt eher implizit. Schließlich sind in der Ökonometrie, vor allem in der Längsschnittforschung, die Konzepte der fixed effects, random effects sowie der random coefficient Modelle sehr etabliert. Ein schönes Wortkonstrukt liefern auch Sophia Raabe-Hesketh und Anders Skrondal (005), die für STATA das Modul gllamm programmiert haben. gllamm steht für generalized linear latent and mixed models und integriert die Mehrebenenanalyse mit allgemeinen latenten Variablen Modellen wie SEM (structural equation modeling) oder der latenten Klassenanalyse. 1 Bei den latenten Variablen Modellen geht es zwar in erster Linie um Messprobleme und unbeobachtete, nicht direkt gemessene Konstrukte sowie um den Umgang mit Fehlertermen. Aber im Laufe dieser kleinen Einführung sollte deutlich werden, dass in der Mehrebenenanalyse ebenfalls vor allem komplexe Fehlerstrukturen im Mittelpunkt stehen, die entweder aufgeklärt werden sollen, oder zumindest in der Analyse als Fehler adäquat 1 Bekanntermaßen steht ja STATA für schön, traumhaft, anbetungswürdig, toll, absolut

3 berücksichtigt werden. Aufgrund dieser komplexen Fehlerstrukturen besteht ein enger Zusammenhang zwischen der Mehrebenenanalyse und SEM. Übrigens: Liegen keine hierarchischen Daten vor, und auch keine Längsschnittdaten (die sich als hierarchische Daten darstellen lassen), benötigt man auch das Verfahren der Mehrebenenanalyse nicht. Hierarchische Datenstrukturen Bei der Mehrebenenanalyse handelt es sich um eine Erweiterung der verallgemeinerten Regressionsanalyse. Verallgemeinert bedeutet, dass sich die Schätzmodelle nicht auf lineare Zusammenhänge metrischer und kontinuierlicher Daten beschränken, wie es in der gewöhnlichen Kleinste-Quadrate Regression (OLS) zumeist der Fall ist. Auch nicht-lineare Zusammenhänge, die insbesondere bei der Analyse kategorialer Daten zugrunde gelegt werden, fallen unter das verallgemeinerte Regressionsmodell also auch die logistische Regression. Regression bedeutet einfach nur, dass unabhängig vom Skalenniveau der abhängigen Variablen Werte dieser abhängigen Variablen durch eine oder mehrere unabhängige Variablen erklärt werden. Genau dies tut auch die Mehrebenenanalyse. Die Mehrebenenanalyse kommt zur Anwendung, wenn die Datenstruktur eine Hierarchie aufweist, bei der Beobachtungen einer unteren Ebene (z.b. Schüler) in Beobachtungen einer übergeordneten Ebene eingebettet sind (z.b. Schulen oder Klassen). Ist dies der Fall, sind zentrale Annahmen aller klassischen Ein-Ebenen Regressionsmodelle verletzt. Man darf sie dann also streng genommen nicht in der üblichen Variante schätzen. Diesen sehr wichtigen Punkt werden wir weiter unten wieder aufgreifen. Abb. 1: Hierarchische Struktur der Mehrebenenanalyse Region 1 Region Ebene 3: Regionen Ebene : Schulen Ebene 1: Schüler 3

4 Ein Beispiel für eine hierarchische Datenstruktur ist in Abb. 1 schematisch dargestellt. In diesem fiktiven Fall wurden beispielsweise 100 Kreisregionen zufällig ausgewählt, innerhalb jeder Region zufällig fünf Schulen, an denen jeweils sämtliche Schüler befragt wurden. Dadurch erhält man ein Drei-Ebenen-Design. Die Mehrebenenanalyse ermöglicht, dass auch bei hierarchischen Datenstrukturen, in denen die einzelnen Beobachtungen nicht unabhängig voneinander sind, Regressionsmodelle geschätzt werden können. Sowohl die Regressionskonstante als auch die Regressionskoeffizienten können dabei zwischen den Kontexten variieren. Das ist im Prinzip der Kern der Mehrebenenanalyse. Eine Abhängigkeit der Individuen innerhalb eines Kontextes, also einer Einheit der höheren Ebene, entsteht dadurch, dass Merkmale dieser Kontext- Einheit, etwa der Schule, einen Einfluss auf die abhängige Variable ausüben. So kann eine Schule erfolgreich ein besonderes Lehrkonzept verfolgen, wodurch der mittlere Wert eines Leistungstests höher ist, als in anderen Schulen. Diesem Kontexteffekt sind dann alle Schüler der Schule ausgesetzt. Wegen dieses Kontexteffektes des Lehrkonzepts (von dem wir also annehmen, dass es effizient funktioniert) sind die Testwerte von Schülern innerhalb derselben Schule korreliert: Im Durchschnitt haben jene Schüler höhere Testwerte, die Schulen angehören, in denen das neue Lehrkonzept praktiziert wird. Innerhalb einer Schule haben wir darum aufgrund des Kontexteffektes Lehrkonzept eine leichte Tendenz zu der Situation kennst du einen, dann kennst du alle. In seriöser Terminologie drückt man denselben Sachverhalt folgendermaßen aus: die zentrale Annahme der stochastischen Unabhängigkeit der Beobachtungen voneinander ist verletzt. Ist diese Annahme verletzt, bekommt man ein großes Problem, weil die Schüler nicht jeweils mit einer vollwertigen, eigenständigen Information zu der Schätzung beitragen. Wären alle Schüler statistisch unabhängig voneinander, hätte jeder Schüler bei der Schätzung ein Gewicht von 1. Aufgrund der statistischen Abhängigkeit müsste man jeden Schüler mit einem Wert < 1 gewichten. Wie groß dieser Gewichtungsfaktor sein müsste, hängt von einem Wert ab, der uns noch interessieren wird: der Intraklassenkorrelation. Das bedeutet mit anderen Worten, dass die Schätzung bei Vorliegen der Intraklassenkorrelation nicht auf einem N von Schülern basiert, sondern faktisch auf einer geringeren Fallzahl. Da jedoch der Standardfehler der Parameterschätzung von der Fallzahl abhängt, entsteht die Gefahr, scheinbar signifikante Effekte zu finden obwohl sie faktisch nicht signifikant sind. Die Mehrebenenanalyse umgeht das Problem, indem sie die erklärbare Varianz zwischen die Einheiten der Kontextebene (Schulen) und Individualebene (Schüler) zerlegt. 4

5 3 Die Grundidee der Mehrebenenanalyse: -Ebenenmodell mit Schülern in Schulen Sagt man in einem Regressionsmodell das Testergebnis von Schülern im Alter von 16 (y) durch einen (altersadäquaten) Testscore im Alter von 11 (x) vorher, bedeutet die oben erwähnte Kontextabhängigkeit, dass sowohl die Regressionskonstante β 0 als auch der Regressionskoeffizient von x (häufig slope genannt) β 1 zwischen den Kontexten variieren können. Das könnte daran liegen, dass in Schulen, die das neue Lehrkonzept implementiert haben, der Zusammenhang zwischen beiden Variablen geringer ist, weil durch das neue Lehrkonzept insbesondere jene Schüler profitieren, die mit 11 Jahren sehr schlechte Schüler waren. In Schulen >mit< dem neuen Lehrkonzept ist darum der Zusammenhang zwischen dem Testwert im Alter von 11 und Testwert im Alter von 16 gering, weil das Lehrkonzept kompensatorisch wirkt und damit Aufstiegsmobilität in der Leistung erzeugt. In Schulen, die das kompensatorische Lehrkonzept nicht verwenden, finden wir hingegen erwartungsgemäß einen stärkeren Zusammenhang zwischen x und y. Demzufolge lässt sich die Realität also nicht durch ein einfaches Regressionsmodell der Form y + e i = β 0 + β 1 x1 i ij abbilden, wie wir es gewohnt sind. Nehmen wir an, die Werte von y und x sind standardisiert mit einem Mittelwert von 0 und einer Standardabweichung von 1. Dann ist β 0 der Mittelwert des Testscores (=0) und β 1 die durch die x-variable (testscore im Alter von 11) induzierte Abweichung vom Mittelwert. Wenn aufgrund der Kontexteinflüsse der Schule sowohl β 0 als auch β 1 in jeder Schule spezifische Werte annehmen, könnte die Gleichung folgendermaßen lauten (achtet auf die Subskripte): y + e ij = β 0 + β x j 1 j 1ij ij Das bedeutet: ein Wert der abhängigen Variablen y eines Schüler i in Schule j ist eine Funktion von 1. der spezifischen Regressionskonstanten β 0 innerhalb des Kontexts, also in der j Schule j,. sowie des spezifischen Regressionskoeffizienten β1 j innerhalb des Kontexts, also innerhalb der Schule j, 3. sowie eines Schätzfehlers, eines Residuums e ij als Differenz des durch das Modell vorhergesagten Wertes der abhängigen Variablen y. ŷ und des empirischen Wertes von 5

6 Das ist aber noch nicht alles. Das Residuum e ij stellt einen personenspezifischen Schätzfehler dar, nämlich einen Fehler der Person i im Kontext (Schule) j. Die hierarchische Datenstruktur impliziert darüber hinaus auch für die Ebene der Schulen einen Messfehler. Wenn zuvor gesagt wurde, dass jede Schule einen eigenen Intercept, also eine eigene Regressionskonstante aufweist, würde das ja bedeuten, dass man k Intercepts in das Modell aufnehmen müsste, wenn man Schüler in k unterschiedlichen Schulen untersucht. In einer Studie mit 00 Schulen hätte man dann 00 Intercepts in einem Regressionsmodell, was eine sehr umfangreiche Schätzgleichung darstellen würde. In der Praxis existieren derartige Modelle tatsächlich unter dem Namen fixed effects models. Man fixiert quasi die Einflüsse der Kontexteinheiten durch k 1 Dummyvariablen. Dabei sind häufig die geschätzten Werte der einzelnen Intercepts kaum von Interesse, sondern man möchte die Kontextfaktoren explizit auspartialisieren, um die reinen Effekte innerhalb der Kontexte zu ermitteln. Angenommen man zieht die Schulen als Zufallsstichprobe. Dann wären auch die mittleren Testwerte jeder Schule, wie in der Population, normalverteilt. Und wenn jede Schule ihre eigene spezielle Unterrichtspraxis verfolgt und das mittlere Schulniveau normalverteilt ist, gilt dies ebenso für die Stichprobe. Man könnte nun über alle Schulen hinweg den Mittelwert aller schulspezifischen Mittelwerte der Leistungstests bilden, um einen sehr groben Schätzer für den Leistungsmittelwert in einer Schule j (z.b. IGS Linden) zu erhalten. Die Vorhersage des Mittelwertes der Schule j durch diesen grand mean aller Schulen wäre dann aber wiederum mit einem Schätzfehler, einem Residuum, behaftet, welches im Folgenden als u 0j bezeichnet wird. Abb. : Grand mean: Mittelwert aller Schulmittelwerte β 0 (=0) als grober Schätzer für den Schulmittelwert einer Schule j (IGS Linden) IGS Linden u 0 : random effect der Konstanten β 0 : E(u 0 ) = 0 var( u0) = σ u0 grand mean = β 0 =0 => grober Schätzer für IGS Linden u 0 j Mittelwert IGS Linden = β = β 0 j 0 + u 0 j β 0 =0 6

7 Der Wert für u 0j kann sowohl positiv als auch negativ sein, wenn für u 0j eine Normalverteilung mit einem Mittelwert von Null angenommen wird. Dabei bezeichnet j wieder die Schule. Das Subskript 0 bedeutet, dass es dabei um die Regressionskonstante geht. Der Mittelwert der Schule j auf Ebene der Schulen wäre also eine Funktion des grand mean und des Residuums u 0j, also der Differenz aus dem Mittelwert der Schule j und dem grand mean. Wir erhalten damit unsere erste Ebene- - Gleichung: β 0 j = β 0 + u 0 j Dasselbe gilt für den Zusammenhang zwischen y und x, also β 1. Wenn β 1 aufgrund von (unbeobachteten) schulspezifischen Lehrmethoden zwischen den Schulen variiert, dann ist der Regressionskoeffizient β1 eine Funktion des Mittelwertes aller Regressionskoeffizienten β1 und dem Residuum u 1j, also der Abweichung zwischen dem Koeffizienten im Kontext (der Schule) j vom Mittelwert aller Koeffizienten. Wir schreiben darum: β 1 j = β 1 + u 1 j Demnach impliziert unsere Gleichung für schulspezifische Effekte y + e ij = β 0 + β x j 1 j 1ij ij die Schätzfehler der Ebene der Schulen. Man unterscheidet daher auch zwischen Gleichungen der Ebene 1 und Gleichungen der Ebene. Im Mehrebenenmodell werden beide Gleichungen integriert. Unsere Gleichung der Ebene 1 kennen wir mittlerweile: y + e ij = β 0 + β x j 1 j 1ij Und wir wissen auch bereits, dass ij β0 j der Schulen, u 0j, resultiert, sowie, dass sich aus dem grand mean und dem Schätzfehler der Ebene β 1 j aus dem Mittelwert der slopes β 1 über alle Schulen plus dem Residuum u 1j ergibt. Wir setzen die Gleichungen der Ebene ( 0 j = β 0 + u 0 j β und β 1 j = β 1 + u 1 j ) für β0 j und β1 j ein. Also schreiben wir: y β u u x + e i=1,,...n j=1,,...,j ij = ( j ) + ( β1 + 1 j ) 1ij ij Dabei dienen die ersten Klammern einfach nur der optischen Abgrenzung. Diese Gleichung stellt ein sogenanntes random slope model dar, bei dem sowohl der Intercept als auch der slope zwischen den Schulen variiert, wenn tatsächlich anhand der Daten signifikante Varianzen von u 0j und u 1j geschätzt werden. Dies zeigt Abbildung 4, während 7

8 Abbildung 3 ein random intercept model darstellt, in dem nur die Intercepts zwischen den Schulen variieren, nicht aber die Zusammenhänge zwischen x und y. Abb.3: random intercept model Abb. 4: random slope model z- scores: AV: normexam: test score at age 16 UV: standlrt: London reading test score at age 11 Das Modell in Abbildung 3 lautet: y u x + e ij = ( β j ) + β1 1ij ij weil in Abb. 3 kein random effect für den slope beta 1 vorliegt. Oben wurde kurz das sogenannte fixed effects Modell erwähnt, bei dem, vereinfacht ausgedrückt, k 1 Dummyvariablen für die k Schulen in das Modell eingehen, also jede Kontexteinheit bis auf eine durch Dummyvariablen konstant gehalten wird. Wenn wir aber annehmen können, dass die Residuen u 0j und u 1j normalverteilt sind, lässt sich das Modell wesentlich sparsamer schätzen. Man schätzt die Varianz der Verteilung der Fehler und hat dadurch für jeden Fehler eine eindeutig bestimmte Glockenkurve. Die Fehler u 0j und u 1j werden dann ihrer jeweiligen durch die empirische Varianz festgelegten Verteilung entnommen. Das geht aber nur, wenn die Fehler wirklich einer Normalverteilung entstammen, weshalb die Regressionsdiagnostik in der Mehrebenenanalyse sogar noch wichtiger ist, als in der single-level -Regression. 8

9 Abb. 5: Normalverteilungsannahme der Ebene Fehler u 0j und u 1j u 0 : random effect der Konstanten beta 0: E(u 0 ) = 0 var( u0) = σ u0 u 1 : random effect des slopes beta 1: E(u 1 ) = 0 var( u1) = σ u1 u 0j =0 Unter der Annahme der Normalverteilung von u 0 ist das Mehrebenenmodell wesentlich sparsamer als das fixed effects model, weil nicht k-1 weitere Parameter geschätzt werden müssen, sondern nur sage und schreibe >ein< weiterer Parameter: die Varianz der normalverteilten Residuen der Ebene u 0, die als bezeichnet wird. Es ist allerdings eine empirische Frage, ob diese sogenannte Residualvarianz der Ebene auch signifikant von Null verschieden ist. Sollte sie es nicht sein, dann benötigte man auch kein Mehrebebenmodell. Ist sie signifikant, erhält man ein Bild wie in Abb. 3. Gehen wir einen Schritt weiter: wir haben theoretisch begründete Argumente dafür, dass auch der Zusammenhang zwischen dem Testwert im Alter von 11 und dem Wert im Alter von 16 in den Schulen unterschiedlich stark ist. Das prüfen wir, indem wir auch für den slope einen random effect einführen, was konsequenterweise als random coefficient bezeichnet wird. Wir nehmen ebenfalls eine Normalverteilung für die Werte u 1 an, die die schulspezifische Abweichung des slopes von Mittelwert aller slopes anzeigen. Ergibt sich empirisch eine signifikante Varianz als auch σ u1 σ u1 signifikant sind. σ u0 der u1-werte, erhält man ein Bild wie in Abb. 4, wenn sowohl Die Schätzung der Mehrebenenmodelle erfolgt über spezielle Algorithmen, die erst seit den 1990er Jahren einem breiterem Anwenderkreis zugänglich sind. Doch warum kann man auch bei hierarchischen Datenstrukturen nicht einfach z.b. ein klassisches Ein-Ebenen-OLS- Modell schätzen? Das hängt mit den Annahmen des OLS Modells zusammen, die durch die hierarchische Datenstruktur verletzt werden. Gehen wir also zunächst einen Schritt zurück. σ u0 Die Normalverteilung ist durch Parameter determiniert: durch den Mittelwert und durch die Varianz. Weil in unserem Fall die Residuen aller Kontexte/Schulen um den Mittelwert Null zentriert sind, benötigt man nur einen Parameter eben die Varianz. 9

10 4 Ein Schritt zurück: Das lineare Ein-Ebenen Regressionsmodell und dessen Annahmen Das klassische Ein-Ebenen-Regressionsmodell hat folgende Form: y = β 0 + β1x + βx β x + e i=1,,..., n i 1i i k ki i Der Fehler e i speist sich aus zwei Quellen: erstens als Messfehler von y und x, zweitens als Fehler der Spezifikation des Effektes von x auf y. Das Modell basiert auf folgenden Annahmen (Maddala 001: 18): 1 E(e i ) = 0 Der Erwartungswert, hier der Mittelwert des Fehlers, ist null var( i) = σ e Die Varianz des Fehlers e ist für alle n Beobachtungen gleich. Das bedeutet auch, dass die Varianz des Fehlers nicht mit Werten erklärender Variablen zuoder abnehmen darf, sondern homoskedastisch sein muss. 3 e i und e i+1 sind unabhängig voneinander 4 e i und x i sind unabhängig voneinander Der Fehler einer Beobachtung i ist unkorreliert mit dem Fehler einer Beobachtung i +1 Das Residuum hängt nicht von Werten der erklärenden Variablen ab, was oben bereits durch den Begriff der Homoskedastizität beschrieben ist. 5 Die Fehler e i sind normalverteilt 6 Es gibt keine lineare Abhängigkeit zwischen den erklärenden Variablen. Keine der erklärenden Variablen lässt sich perfekt durch alle anderen erklärenden Variablen vorhersagen, es existiert also keine perfekte Kollinearität. Allerdings dürfen die erklärenden Variablen ansonsten hoch untereinander korreliert sein. Man ist ja an den partialen Effekten interessiert. Betrachten wir Annahmen 3 und 4 genauer. Annahme 3 unterstellt die Unabhängigkeit der Fehler voneinander. Haben wir aber eine hierarchische Datenstruktur, bei der das Residuum einer ganzen Schule aufgrund schulspezifischer Lehrkonzepte im Betrag hoch ist, ist diese Annahme verletzt, denn zwei Schüler einer Schule sind demselben Kontexteinfluss ausgesetzt. Mit anderen Worten: zwei individuelle Schüler weichen stark vom Schätzwert des grand mean ab, weil die gesamte 10

11 Schule beispielsweise aufgrund ihres Lehrkonzeptes einen hohen mittleren Leistungswert aufweist. Abb. 6: Der Zusammenhang zwischen Testwert Schüler und Berufsprestige Vater: Korrelierte Residuen aufgrund der Intraklassenkorrelation Residuum + 10,00 8,00 Residuum + schule 1,00,00 Anpassungslinie bei Gesamtwert Testscore 6,00 4,00 Residuum - Grand mean,00 Residuum - R-Quadrat linear = 0,16 0,00 90,00 95,00 100,00 105,00 Berufsprestige Vater 110,00 Möglicherweise unterscheiden sich die beiden Schüler auch aufgrund ihrer individuellen Voraussetzungen in ihren Leistungen voneinander. Dennoch sind ihre Leistungen aufgrund der Eigenheiten der Schule korreliert. Man spricht in diesem Fall von Intraklassenkorrelation. Diese ist zu Unterscheiden von der Korrelation der individuellen Residuen e i untereinander (Autokorrelation). Aber zwischen beiden Phänomenen besteht ein Zusammenhang, wie anhand der Abbildung 6 deutlich werden sollte: die individuellen Residuen e i, also die Abweichung von der Regressionsgerade, ist in Schule stets positiv, in Schule 1 stets negativ. Die individuellen Residuen e i sind also innerhalb der Kontexte korreliert und die zentrale Annahe 3 der OLS-Regression ist verletzt. Der Grund für diese Korrelation liegt in Tatsache, dass die Testwerte der Schüler untereinander korreliert sind: kennt man einen Schüler aus der IGS Linden, kennt man zumindest tendenziell damit alle Schüler der IGS Linden zumindest das die Testwerte betrifft. Was diese Intraklassenkorrelation bedeutet und wie sie berechnet, werden wir uns noch ansehen. Zunächst aber zur Annahme 4. Annahme 4 unterstellt eine Homoskedastizität, also eine Unabhängigkeit der Fehlerkomponente von Ausprägungen der erklärenden Variablen. Wie verhält sich diese Annahme im Mehrebenenmodell? Ausgegangen sind wir ja von folgender Gleichung: 11

12 y β u u x + e i=1,,...n j=1,,...,j ij = ( j ) + ( β1 + 1 j ) 1ij ij Wir stellen diese Gleichung nun durch ganz einfache Algebra (Ausmultiplizieren und Umschieben) um: y β u x u x + e <=> ij = j + β1 1ij + 1 j 1ij y β x u u x + e ij = 0 + β 1 1ij + 0 j + 1 j 1ij ij ij fixed part random part Durch die Umstellung hat sich substanziell nichts geändert, aber es wird nun deutlicher, dass die Gleichung zwei Komponenten aufweist: eine fixe Komponente, wie man sie in der klassischen Regressionsanalyse gewohnt ist, und eine zufällige Komponente, die den komplexen Fehlerterm des Mehrebenenmodells umfasst. Zum anderen ist nun offensichtlich, dass das Residuum der Ebene von den Werten unabhängigen Variablen x anhängig ist, wodurch die Annahme 4 verletzt ist denn auch ist ein Fehlerterm und der Term erzeugt im klassischen Modell verbotene Heteroskedastizität. Diese ist eine Folge der hierarchischen Datenstruktur, die man auch aus diesem Grund nicht mit dem klassischen OLS Regressionsmodell schätzen darf (Hox 00). Die Mehrebenenanalyse basiert auf besonderen iterativen Schätzverfahren, in denen die korrelierten Fehler sowie die Intraklassenkorrelation explizit in das Modell eingehen, indem die Varianz zwischen den einzelnen Analyseebenen aufgegliedert wird. Dazu kommen wir gleich. Aus den bisherigen Erörterungen wird der erste Vorteil der Mehrebenenanalyse deutlich: liegen hierarchische Datenstrukturen vor, in denen auch tatsächlich eine Intraklassenkorrelation zu beobachten ist, müssen wir dieses Verfahren anwenden, sonst würden wir einen Fehler machen. Ob überhaupt eine hierarchische Datenstruktur vorliegt, ist entweder offensichtlich oder eine Frage der inhaltlichen Theorie. Ob aber eine Intraklassenkorrelation vorliegt, die im klassischen OLS zu Fehlern führt, wenn sie unberücksichtigt bleibt, kann nur durch einen statistischen Test geprüft werden. Möglicherweise ist die Datenstruktur zwar hierarchisch, aber weil keine Intraklassenkorrelation vorliegt (da es keine signifikanten Kontexteffekte gibt), benötigt man keine Mehrebenenanalyse. Aus der Perspektive der Fehlervermeidung folgt, dass die hierarchische Datenstruktur als Ärgernis (clustering as a nuisance) angesehen wird, welches man durch die Mehrebenenanalyse beheben kann. u 1 j u 1 j x 1ij 1

13 Aus einer erweiterten Perspektive sieht man die Clusterung nicht als Ärgernis an, sondern als hoch interessantes Phänomen, bei dem simultan mikro- und makrosoziale Wirkungen auf das individuelle outcome geschätzt werden. Man fragt zum Beispiel: wenn auch Faktoren auf der Ebene der Schule die Testwerte beeinflussen, also Faktoren, die unabhängig von Merkmalen des einzelnen Schülers sind (soziale und ethnische Herkunft sind dann natürlich kontrolliert): wie wichtig sind diese Schulfaktoren im Verhältnis zu den individuellen Merkmalen des Schülers? Aus dieser erweiterten Perspektive wird die Frage der Clusterung der Schüler in Kontexte selbst richtig interessant. 5 Fehlervarianzen im Mehrebenenmodell Nun sehen wir uns die Fehlervarianzen im Mehrebenenmodell genauer an. Wir nehmen einen Datensatz mit 4059 Schülern in 65 Schulen und schätzen ein sogenanntes empty model, ein leeres Modell, in das nur der Intercept, aber keine erklärende Variable eingeht. Als alternative Bezeichnung findet man häufig auch die präzise Bezeichnung intercept-only model. Das ist übrigens eine einfaktoriellen Varianzanalyse mit zufälligem Effekt! Die abhängige Variable normexam ist ein z-standardisierter Wert des Examensergebnisses im Alter von 16. Das Ergebnis ist folgendes: Abb. 7: Schätzergebnis eines empty models Wir sehen in Abb. 7, dass der mittlere geschätzte Wert tatsächlich nahe bei Null liegt ( ). In diesem empty model haben wir erlaubt, dass der Intercept β 0 zwischen den 13

14 Kontexten variieren darf. Das haben wir ermöglicht, indem wir zu jeder Konstante einen Zufallseffekt u 0 addieren, den wir einer Normalverteilung entnommen haben (vgl. Abb. 5). Wir haben also mit dem Zufallseffekt u 0 einen weiteren Parameter in das Modell eingeführt haben. Ob dieser Parameter überhaupt erforderlich ist, ist eine empirische Frage, die anhand der Varianz des Zufallseffektes der Ebene, also der Varianz von u 0 beantwortet wird. Ist diese Varianz signifikant von Null verschieden, dann brauchen wir diesen Term und damit eben auch die Mehrebenenanalyse. Andernfalls können wir auf das gute alte Ein-Ebenen- OLS Regressionsmodell zurückgreifen. Was sehen wir in Abb. 7? In der drittletzten Zeile ist die empirisch geschätzte Varianz samt ihrem Standardfehler angegeben. Sie beträgt Dividiert durch (den Standardfehler der Schätzung) ergibt das eine z-wert von Ist das signifikant? Spontan würde man diese Frage bejahen, denn der Wert ist größer als der Schwellenwert von 1.96, der für eine 5% Irrtumswahrscheinlichkeit anzeigt. Weil Varianzen niemals negativ sein können, haben wir einen der seltenen Fälle für eine einseitige Fragestellung. Abb. 8: Für die Signifikanz von Varianzen nimmt man einseitige Tests! Wie in Abb. 8 dargestellt ist, nimmt man bei einer einseitigen Fragestellung nicht einen z- Wert von 1.96, sondern bereits einen z-wert von 1.64 als Schwellenwert für das 5% Signifikanzniveau. Unsere Varianz der Ebene ist also mit einem z-wert von weit im signifikanten Bereich. Daraus folgt: wir brauchen für die vorliegenden Daten tatsächlich die Mehrebenenanalyse. 14

15 5.1 Varianzenzerlegung In Abbildung 7 wurde zudem die Fehlervarianz auf der Ebene 1 der Individuen geschätzt. Gemäß einem empty model mit zwei Ebenen (wie hier der Fall) ergibt sich eine Gesamtvarianz von (Ebene ) plus (Ebene1) = Im empty model ist die gesamte unerklärte Varianz damit über die beiden Ebenen verteilt. Verglichen mit dem klassischen Regressionsmodell ist das ein neuer, spannender Aspekt: Es gibt sowohl Varianz der Schülerleistungen (Testwert), die durch Merkmale der Schüler auf der Ebene erklärbar ist, als auch Varianz, die durch Merkmale der Schulen auf der Ebene erklärt werden kann. Ob und wie man diese Varianz erklären kann, lassen wir zunächst außen vor. Wenn wir aus der Summe der Varianz der Ebene 1 und der Varianz der Ebene die Gesamtvarianz so einfach berechnen können, dann ist es auch kein Problem, die erklärbare Varianz über die beiden Ebenen zu verteilen. Betrachten wir wieder Abb % ist immer die Gesamtvarianz, die hier beträgt. Das bedeutet, dass der Anteil der Varianz, die durch die Ebene der Schulen erklärt werden kann, immerhin / * 100 =17% beträgt. Komplementär dazu beträgt die durch individuelle Merkmale der Schüler erklärbare Varianz / * 100 = 83%. Ein erster Schritt in der Mehrebenanalyse besteht also immer darin, dass man zunächst ein empty model, ein Modell ohne Kovariaten, schätzt und anschließend anhand der für die jeweilige Ebene ermittelten Varianz den Anteil der durch die jeweilige Ebene zu erklärenden Varianz berechnet. 5. Intraklassenkorrelation In der Literatur wird häufig die Varianz der Ebene formal als σ u0 bezeichnet, die Varianz der Ebene 1 als σ e. Daraus berechnen wir die Intraklassenkorrelation ρ (sprich: rho), die ja nicht anderes Darstellt als der durch die Ebene der Schulen erklärbare Varianzanteil (siehe oben). σ u ρ = = = σ + σ u0 e Die Intraklassenkorrelation ist ebenso einfach wie wichtig, denn nur auf deren Basis lassen sich statistische Vorhersagen auf Basis der Mehrebenenanalyse und die darin liegenden Probleme verstehen. Auf der Intraklassenkorrelation basiert das Konzept der Reliabilität, welches wir kennen müssen, um die sogenannten Empirical Bayes estimates verstehen zu können. 15

16 5.3 Empirical Bayes estimates Eines der zentralen Stärken der Mehrebenenanalyse ist die Tatsache, dass es nicht erforderlich ist, in jedem Kontext der Ebene (in jede Schule) dieselbe Anzahl der Beobachtungen der Ebene 1 vorzufinden. Wenn wir aber z.b. eine Schule mit 198 Schülern und eine Schule mit nur 30 Schülern der 9. Klassen haben, wird bei statistischen Vorhersagen dieser Unterschied durch Verwendung sogenannter empirical bayes estimates berücksichtigt. Um die Idee dieser Schätzer zu verstehen, schauen wir uns die bereits bekannten Abbildungen 9 und 10 an. Abb.9: random intercept model Abb. 10: random slope model In diesen Abbildungen sieht es so aus, als hätten wir für jede unserer 65 Schulen eine separate Regressionsanalyse durchgeführt. In Abbildung 9 haben wir 65 verschiedene Intercepts, in Abbildung 10 zudem 65 verschiedene slopes. Die Idee, einfach für jeden Kontext eine separate Regression zu schätzen, ist auch ganz und gar nicht absurd. Dann hätte man auch das Problem der Intraklassenkorrelation bzw. der Abhängigkeit der Beobachtungen voneinander nicht mehr, da man ja einfach 65 mal nur jeweils einen Kontext untersucht. Im Prinzip bräuchte man dann auch die Mehrebenenanalyse nicht. Sind allerdings die Fallzahlen innerhalb der Kontexte unterschiedlich groß, ist auch die Schätzung sowohl des Intercepts als auch der Konstanten nicht in gleichem Maße zuverlässig, wir sagen natürlich: nicht in gleichem Maße reliabel! Vielen ist ein ähnliches Problem aus der Skalenanalyse bekannt: Cronbach s alpha wird umso schlechter, je geringer die Item-Interkorrelationen sind, aber auch, je geringer die Zahl der Items ist. Cronbach s alpha errechnet sich aus 1 minus dem Verhältnis der Summe aller Varianzen der Einzelitems dividiert durch die Varianz der Skala- und dieser Wert wird noch heraufgewichtet, je kleiner die Anzahl der Items p ist. 16

17 p α = p 1 p σ Item _ i i= 1 1 σ skala Wenn wir über die Zufallseffekte u 0j und u 1j die Intercepts und die slopes separat für jeden Kontext (jede Schule) schätzen, müssen wir ebenfalls eine Gewichtung vornehmen (lassen). Wir müssen berücksichtigen, dass Reliabilität eines geschätzten Parameters umso geringer ist, je weniger Beobachtungen innerhalb eines Kontexts vorliegen. Es leuchtet ein, dass man einer Schätzung auf Basis von nur N j =30 weniger trauen kann als auf der Basis von N j =198. Möchte man aufgrund eines geschätzten Mehrebenenmodells Informationen über spezifische Kontexte erhalten, kann man dies nur einer speziell gewichteten Form den Empirical Bayes estimates. Im empty model entspricht der kontextspezifische Intercept dem Mittelwert des Testscores innerhalb der Schule. Dieser Mittelwert ist die Summe aus dem grand mean β 0 und dem Zufallseffekt für die spezifische Schule u 0j : β 0 j = β 0 + u 0 j Wie wir bereits wissen, ergibt sich die Besonderheit der Schule j, z.b. der IGS Linden, aus dem Wert des Zufallseffektes u 0j. Abb. 11: Grand mean: Schulmittelwert der Schule j (IGS Linden) IGS Linden Mittelwert IGS Linden: u 0 j β 0 => u 0j = 0 β 0 j = β 0 + u 0 j leider ist u 0j für die IGS Linden negativ, was vielleicht an der besonderen Zusammensetzung der Schülerschaft in diesem Stadtteil liegt. Woher aber kommt der spezifische Wert u 0j für die IGS Linden? Der Wert ergibt sich aus dem durch die OLS Regression geschätzten Mittelwert dieser Schule ˆβ OLS 0 j, der Reliabilität λ i 17

18 der Schätzung aufgrund von Fallzahl und Intraklassenkorrelation in Kontext j (IGS Linden) sowie dem grand mean β 0 : ˆ β ˆ EB OLS 0 j = λ jβ0 j + (1 λ j ) β 0 Um dies zu verstehen, müssen wir die Reliabilität λ i kennen. Die berechnet sich folgendermaßen: λ j = σ u0 σ + σ u0 e / n j Es handelt hierbei fast wieder um die Intraklassenkorrelation, jedoch mit der Modifikation, dass die Fallzahl im Kontext j den Nenner heruntergewichtet und damit die Reliabilität λ i erhöht. In der Regel ist der Varianzanteil auf der Ebene der Individuen i ja sehr hoch (oben waren es immerhin 83% vs. 17%) und daher hat die Varianz ein hohes Gewicht im Nenner. Dieses Gewicht wird enorm reduziert, indem durch die Anzahl der Fälle im Kontext dividiert wird und dies in umso stärkerem Maße, je größer die Fallzahl. Daher steigt die Reliabilität mit steigendem Varianzanteil der Ebene (also steigendem σ e ). Dieses im Gedächtnis betrachten wir nun die Empirical Bayes estimates: ˆ β ˆ EB OLS 0 j = λ jβ0 j + (1 λ j ) β 0 σ e σ u0 im Verhältnis zu Angenommen in der Schule ist die Reliabilität λ i sehr hoch, mit 0.99 nahezu bei 1. Dann ist für die Vorhersage des Mittelwertes in Schule i fast ausschließlich der durch OLS geschätzte Wert von Bedeutung, während hintere Teil rechten Seite der Gleichung nahezu verschwindet. Was passiert bei geringer Reliabilität? Beträgt sie 0.5, dann ist der geschätzte Mittelwert in Schule i zu gleichen Teilen sowohl durch den OLS geschätzten Wert bestimmt als auch durch den grand mean, also den mittleren Testwert über alle Schüler in allen Schulen. Beträgt die Reliabilität nur 0.1, wird der geschätzte Mittelwert der Schule i weiter gegen den grand mean gerückt. In der Literatur wird dies als Schrumpfung zum Mittelwert bezeichnet (shrinkage estimators). Anders ausgedrückt: mit abnehmender Reliabilität verlässt man sich bei der Vorhersage eines spezifischen Schulmittelwertes i zunehmend stärker auf den Gesamtmittelwert über alle Kontexte (=Mittelwert der Mittelwerte) und weniger auf die OLS- Schätzung innerhalb des Kontexts. Diese Schrumpfung zum Mittelwert hat Folgen: Die Abb. 9 und 10 resultieren aus Vorhersagen auf Grundlage vom Emprical Bayes estimates. In der Population sind die Intercepts eher etwas unterschiedlicher, als in Abb. 9 gezeigt. Wir haben also verzerrte 18

19 Schätzungen. Dagegen besteht der Vorteil darin, dass die Standardfehler der Schätzungen kleiner sind, weil mehr Information ausgeschöpft wird. In Abbildung 7 hatten wir ja bereits eine rudimentäre Mehrebenenanalyse durchgeführt. Anhand der folgenden Grafik lernen wir eine andere schöne Art der Darstellung von Empirical Bayes estimates, die in der Mehrebenenanalyse überaus beliebt ist. Nämlich die Rankings. Abb. 1: Zufallseffekte des Intercepts u 0j und deren Standardfehler über dem Rang der Schule β 0 j = β 0 + u 0 j Abbildung 1 stellt im Prinzip ein Ranking der Schulen hinsichtlich der mittleren Schülerleistung dar. Zu bedenken ist aber, dass die Schätzung aufgrund eines empty models erfolgte und keine individuellen Merkmale kontrolliert sind. Somit können die Effekte einzig und allein aus Sortierungen von Schülern (z.b. nach sozialer Herkunft) in die jeweiligen Schulen resultieren. Erst wenn man man die relevanten Faktoren kontrolliert hat, kann man das Verfahren der Emprical Bayes estimates verwenden, um sinnvolle Rankings der Kontexte zu bilden, um beispielsweise die Leistungen der Kontexte (in der Regel sind das Organisationen wie Schulen oder Universitäten) zu evaluieren. Aber an der Frage nach der 19

20 Kontrolle aller relevanten Individualmerkmale entzünden sich bei Rankings immer Debatten, weil es natürlich handfeste Interessen berührt. 6 Erklärende Variablen auf Ebene 1 Bisher haben wir nur ein empty model geschätzt. Nun erweitern wir das Modell um eine erklärende Variable der Individualebene: standlrt, also den standardisierten Testwert im Alter von 11 (jetzt sind die Schüler 16 Jahre alt). Wir können dies dadurch tun, indem wir in dem Programm MlwiN die Gleichung angeben, die wir schätzen wollen. Die Gleichung sieht folgendermaßen aus: Als Ergebnis erhalten wir: Man beachte, dass die Residualvarianz der Ebene 1, also die nicht erklärte Varianz auf der Individualebene, von auf zurückgegangen ist was logisch ist, weil wir nun einen starken Prädiktor eingeführt haben. Allerdings ist auch die unerklärte Level Varianz zurückgegangen, obwohl unsere UV doch auf der Individualebene angesiedelt war. Das liegt daran, dass wir unterschiedliche Schulen haben. Denn die Standardabweichung der mittleren 0

21 Testwerte der 11 Jährigen zwischen den Schulen beträgt bei einem Mittelwert vom 0 immerhin Aber prüfen wir zunächst, ob auch der slope von standlrt signifikant zwischen den Schulen variiert. Wir erweitern darum unsere Gleichung um u 1j. Das bedeutet, dass nun auch die slopes der Regressionsgeraden zwischen den Kontexten variieren dürfen, allerdings auch wieder mit einem bias hin zum Mittelwert der slopes über alle Kontexte. Wir sehen innerhalb des eingerahmten Feldes die sogenannte Varianz-Kovarianz-Matrix der Ebene Residuen, die in dieser Form wiederum ein Spezifikum der Mehrebenenanalyse darstellt. In der Hauptdiagonalen sehen wir die Varianzen der beiden Zufallseffekte u 0j und u 1j. Beide sind signifikant. Die dritte Zelle dieser Matrix stellt die Kovarianz der Zufallseffekte dar. Aus diesen Werten lässt sich eine Korrelation der beiden Zufallseffekte berechnen: /sqrt( * ) = Das bedeutet: Schulen mit einem höheren Intercept 1

22 haben auch einen stärkeren Zusammenhang zwischen dem Testwert im Alter von 11 und dem normierten Examenswert im Alter von 16. Abb. 13: Zufallseffekte u 0j (Konstante) und u 1j (Testscore mit 11) β 0 j = β 0 + u 0 j β 1 j = β 1 + u 1 j 7 Erklärende Variablen auf Ebene Im vorangegangenen Abschnitt wurde eine erklärende Variable auf der Individualebene eingeführt, um den Schulleistungstestwert der Schüler im Alter von 16 zu erklären. Das war der Testscore, den die Schüler im Alter von 11 hatten. Interessant ist nun, dass die Mehrebenanalyse es ermöglicht, zwischen erklärenden Variablen auf der Individualebene (Schüler) und erklärenden Variablen auf der Kontextebene (Schulen) zu trennen. Um dies zu demonstrieren, wird nun die Variable avslrt in das Modell eingeführt, die den durchschnittlichen Testwert der Schüler einer Schule im Alter von 11 misst. Eine Hypothese wäre, dass unabhängig vom individuellen Testwert im Alter 11 in Schulen mit guten Schülern (die also schon im Alter von 11 gute waren), bessere Examina bei den 16- jährigen hervorgebracht werden. Unsere Gleichung sieht folgendermaßen aus:

23 Man beachte das Subskript der Variable avslrt: hier steht nur ein j, kein ij, weil die Variable auf der Schulebene gemessen wurde und darum nur zwischen Schülern unterschiedlicher Schulen j variiert, nicht jedoch zwischen Schülern i innerhalb derselben Schule. Die Schätzung führt zu folgendem Ergebnis: Zu sehen ist, dass mit einem T-Wert von.79 (=0.9478/ ) der Effekt des mittleren Testwertes im Alter von 11 das Examensergebnis verbessert unabhängig davon, welchen Wert ein individueller Schüler hatte. Man kann daraus schließen, dass man sein Kinder auf eine Schule schicken sollte, in denen die anderen Kinder im Alter von 11 im Mittel hohe Werte Testergebnisse hatten vielleicht, weil das Arbeits- und Lernklima in diesen Schulen besser ist. Möglicherweise verbergen sich dahinter schichtungsbedingte Verhaltensweisen, die den Unterricht erleichtern. Obwohl dieser Effekt signifikant ist, erklärt er jedoch nicht viel, da die Residualvarianz von u 0j der Ebene nur von auf zurückgegangen ist. Der größere Ebene- Varianzanteil wurde interessanterweise durch einen Prädiktor der Ebene 1 erklärt. Das deutet darauf hin, dass ein großer Teil der auf der Ebene der Schulen erklärbaren Varianz daraus resultierte, dass gute Schüler sich nicht zufällig über die Schulen verteilen, 3

24 sondern systematisch in bestimmten Schulen zu finden sind. Üblicherweise ist in der Mehrebenenanalyse die Residualvarianz der Ebene drastisch reduziert, wenn ein guter Prädiktor der Ebene in das Modell eingeführt wird und nicht-erklärte in erklärte Varianz umwandelt. Besonders spannend ist nun die Frage, ob es cross-level Interaktionseffekte gibt. Liegen cross-level Interaktionen vor, wird der Effekt einer Variable der Individualebene durch Merkmale der Kontextes moderiert (oder umgekehrt, das ist eine theoretische Frage). Es könnte z.b. sein, dass der Zusammenhang zwischen dem Testwert im Alter von 11 und dem Examenswert in jenen Schulen besonders stark ausfällt, deren Schülerschaft sich zu höheren Anteilen aus Schülern zusammensetzt, die im Alter von 11 gut hohe Testwerte hatten. Das Modell zeigt die folgende Gleichung. Die Variable crossint wurde als Produkt aus standlrt und avslrt gebildet, wobei avslrt eine erklärende Variable der Schulebene und standlrt eine erklärende Variable der Schülerebene darstellt. Das Ergebnis zeigt, dass wirklich ein cross-level Interaktionseffekt vorliegt. 4

25 Demzufolge ist das von den Schülern mitgebrachte Kompetenzniveau, welches sie im Alter von 11 hatten, für den Examenswert im Alter von 16 umso wichtiger, je besser die Schule ist, also je höher der mittlere Testwert im Alter von 11 in der jeweiligen Schule ist. Cross-level Interaktionen führen dazu, dass die aufgrund der Residualvarianz von u 1j existierende Unterschiedlichkeit der slopes nun zumindest teilweise durch die Ebene Prädiktor erklärt ist. Abb.14: random solpe model ohne cross-level Interaktion Abb. 15: random solpe model mit cross-level Interaktion 5

26 Wenn man die oberen Abbildungen genau vergleicht, sieht man kleine Unterschiede in den Steigungen der Geraden, die durch den Cross-level Interaktionseffekt erzeugt sind. 8 Zentrierung der Variablen In der Regressionsanalyse findet man häufig, dass die geschätzten Koeffizienten auf transformierten Variablenwerten basieren. Manchmal sind die Variablen z-transformiert, man sagt auch standardisiert, so dass zuvor normalverteilte Zufallsvariablen nun einer Standardnormalverteilung mit einem Mittelwert von Null und einer Varianz von 1 entsprechen. Der Z-Wert einer (annähernd) normalverteilten Variablen x errechnet sich für eine Person i aus: z xi xi x = s x Dabei bezeichnet x i den Messwert der Person i bei der Variablen x, x ist der Mittelwert dieser Variablen und s x deren Standardabweichung. Der Vorteil der Standardisierung besteht darin, dass die geschätzten Effekte als standardisierte Koeffizienten interpretiert werden können und die Einflussgrößen hinsichtlich ihrer Betragswerte miteinander vergleichbar sind. Nachteilig ist hingegen, dass die geschätzten Effekte nur noch als Veränderungen der AV in der Maßeinheit Standardabweichungen interpretiert werden können: erhöht sich x um eine Standardabweichung, erhöht sich y um β x Standardabweichungen. Insbesondere in den Lehrbüchern zur Mehrebenenanalyse wird auf das Verfahren der Zentrierung um den Mittelwert hingewiesen. Dabei existieren zwei Varianten der Mittelwert-Zentrierung: entweder die Zentrierung um den Gesamtmittelwert, also um den grand mean. Oder die Zentrierung um den Gruppenmittelwert, den Mittelwert z.b. der Schule. Dies sind zwei völlig unterschiedliche Perspektiven, die in der Regel auch zu völlig unterschiedlichen Ergebnissen führen. Wie aber zentriert man überhaupt? Am Beispiel der Zentrierung um den grand mean sieht das folgendermaßen aus: x centered _ grand = x ij x Es wird einfach für die Variable x die Differenz des Messwertes der Person i in Kontext j und dem grand mean der Variablen x gebildet. Zentriert man um den Gruppenmittelwert, subtrahiert man einfach den Gruppenmittelwert (der Schule) vom Messwert der Person i: x centered _ group = x ij x j Aber Achtung: durch die Zentrierung um den Gruppenmittelwert hat man die Varianz zwischen den Kontexten/Schulen hinsichtlich der zentrierten Variablen eliminiert. Um den 6

27 Gruppenmittelwert vorgenommene Zentrierungen werden in der Regel nur für sehr spezifische Hypothesen eingesetzt, die einen sogenannten Froschteicheffekt (Hox 00: 6) untersuchen. Ein Froschteicheffekt liegt vor, wenn es für ein und denselben Frosch einen Unterschied ausmacht, ob er sich in einem Teich mit kleinen Fröschen oder in einem Teich mit großen Fröschen befindet (z.b. für die ökologische Fitness als abhängige Variable). Übersetzt für eher sozialwissenschaftliche Fragestellungen bedeutet das für einen durchschnittlich leistungsfähigen Schüler, dass es einen Effekt für seine Lernentwicklung haben könnte, wenn er entweder in einer Klasse mit besonders guten oder besonders schlechten Schülern ist. Im Durchschnitt besonders gute Schüler könnten ihn entmutigen und sein Selbstwertgefühl beeinträchtigen, was seine weitere Entwicklung blockiert. Eher schlechte Schüler als Umfeld könnten dazu führen, dass der durchschnittlich begabte Schüler durch Anerkennung in seinem Lernen bestärkt wird, was sich günstiger auf seine weitere Entwicklung auswirken kann. Wie realistisch auch immer derartige Froschteichhypothesen sein mögen: man untersucht die Effekte der relativen Position eines Schülers in der Leistungshierarchie der Klasse, wenn man eine Zentrierung um den Gruppenmittelwert durchführt. Nur in solchen Fällen, in denen also eine spezielle Theorie auf Froschteicheffekte oder Ähnliches fokussiert, sollte eine Zentrierung um den Gruppenmittelwert durchgeführt werden. Ansonsten sollten gerade Neueinsteiger in die Mehrebenenanalyse die Zentrierung immer um den grand mean durchführen. Um den grand mean zentrierte Variablen sind wiederum unbedingt zu empfehlen, wenn man random slopes im Modell hat. Warum? Abb. 16: random intercept model Abb. 17: random slope model var( u ) 0 j = σ u 0 j var( u ) 0 j = σ u0 j hängt von x=0 ab X*=0 X=0 X**=0 X=0 X*=0 7

28 In den Abbildungen 16 und 17 sieht man, was mit der Varianz von u 0j passiert, wenn man eine Transformation der x-variablen mittels Zentrierung durchgeführt wird. Schätzt man nur ein random intercept model, hat die Zentrierung oder Standardisierung keinerlei Konsequenzen für die Varianz von u 0j (Abb. 16). Erlaubt man in seinem Modell jedoch auch zufällig variierende slopes, hat das für die Varianz von u 0j erhebliche Konsequenzen, wie in Abb. 17 zu sehen ist. Zu Erinnerung: u 0j ist der Zufallseffekt des Intercept, also der Regressionskonstanten. Diese Konstante stellt den Schnittpunkt der Regressionsgeraden mit der Ordinate dar, wo sich stets der Nullpunkt der unabhängigen x-variablen befindet. Durch die Transformation ändert sich jedoch die Lagerung dieses Nullpunktes. Je nachdem, an welche Stelle von x der Nullpunkt aufgrund der Transformation geschoben wird, ist die Varianz von u 0j eine andere. Demzufolge sind zentrierte und nicht-zentrierte random slope Modelle mathematisch nicht äquivalent, obwohl man spontan zur der Auffassung neigt, dass lineare Transformationen (nichts Anderes stellt die Zentrierung dar) an den geschätzten Varianzen nichts ändern. Ein wesentlicher Vorteil der Mittelwertzentrierung besteht darin, dass die Regressionskonstanten (die Intercepts) sinnvolle Werte darstellen. Schätzt man z.b. in einem Sample von Erwerbstätigen den Einfluss der Bildung (gemessen als für einen Abschluss mindestens notwendige Ausbildungsjahre) auf das Einkommen, erhält man für den Intercept häufig einen negativen Wert, wenn der Minimalwert der Ausbildungsjahre z.b. bei 8 liegt (Sample in einem Land mit Schulpflicht). Verfolgt man in diesem Sample die Regressionsgerade weiter nach hinten zu den kleineren Bildungswerten bis hin zu der Null, ist man bei Null Bildungsjahren (x) im negativen Bereich des Einkommens (y), wenn Personen mit 8 Ausbildungsjahren EUR verdienen (Abb. 18). 8

29 Abb. 18: kein sinnvoller Intercept y = Einkommen EUR x = Bildungsjahre EUR Eine Person hätte z.b Einkommen, wenn sie 0 Ausbildungsjahre absolviert hätte. Dabei ist diese Extrapolation ein Artefakt der linearen Regression und (zumindest bislang) existieren keine Personen mit 45.- EUR Einkommen infolge von Null Ausbildungsjahren. Hätte man aber die erklärende Variablen zentriert, läge der Intercept an der Stelle des Mittelwertes, was durchaus eine sinnvolle Interpretation des Intercepts gewährleisten würde. Bedeutsam ist die Zentrierung darüber hinaus, wenn Interaktionseffekte zwischen metrischen Prädiktoren eingeführt werden. In einigen sehr prominenten Lehrbüchern wird dies generell für metrische Interaktionen empfohlen, weil durch die Zentrierung die Multikollinearität, also die Interkorrelation der erklärenden Variablen, reduziert wird. Das trifft zu, aber der Stellenwert der Zentrierung ist umstritten. Aber wie gesagt, in Mehrebenenmodellen mit random slopes ist eine grand mean Zentrierung immer zu empfehlen. 9 Maximum Likelihood Auch in einem Mehrebenenmodell möchte man gerne wissen, wie gut das theoretisch wohldurchdachte und mühselig spezifizierte Modell zu den der empirischen Wirklichkeit entnommenen Daten passt. Wir wissen aber bereits, dass Mehrebenenmodelle gegen die Modellvoraussetzungen der OLS-Regression verstoßen, woraus folgt, dass sie nicht nach 9