Mehrebenenmodelle. Manuela Pötschke. Inhalt

Transkript

1 Mehrebenenmodelle Manuela Pötschke Inhalt 1 Einleitung Mehrebenenmodelle im Kanon quantitativer Analyseverfahren Anwendungen in der Politikwissenschaft Voraussetzungen Formalisierung der Modelle Systematisches Vorgehen zur Modellentwicklung Spezifische Aspekte in der praktischen Anwendung Möglichkeiten und Grenzen Kommentierte Literaturhinweise Literatur Zusammenfassung Zur Erklärung sozialer Phänomene kann immer dann auf hierarchische Mehrebenenmodelle zurückgegriffen werden, wenn Kontexteffekte theoretisch abgeleitet werden oder wenn Daten aus komplexen Stichproben vorliegen. Der große Vorteil dieser Modelle besteht darin, die Strukturen unterschiedlicher Ebenen gleichzeitig schätzen zu können. Im vorliegenden Beitrag wird die Mehrebenenanalyse grundlegend eingeführt und eine weithin akzeptierte Strategie der Modellentwicklung nach Hox (2010, Multilevel analysis. New York/Hove: Routledge) vorgestellt. Danach werden ausgewählte spezifische Themen im Zusammenhang mit der Anwendung von Mehrebenenmodellen diskutiert. Ich bedanke mich bei Sebastian Jäckle für seine inspirierenden und konstruktiven Anmerkungen einer ersten Fassung des Beitrages. Conrad Ziller sei für seine Vorschläge zur Abstimmung unserer Beiträge gedankt. M. Pötschke (*) Fachbereich 05 Gesellschaftswissenschaften, Universität Kassel, Kassel, Deutschland manuela.poetschke@uni-kassel.de Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 C. Wagemann et al. (Hrsg.), Handbuch Methoden der Politikwissenschaft,Springer Reference Sozialwissenschaften, 1

2 2 M. Pötschke Schlüsselwörter Mehrebenenanalyse Maximum Likelihood Kontext Geclusterte Daten Hierarchische Datenstruktur 1 Einleitung Die hierarchisch lineare Modellierung wird häufig auch als Mehrebenenanalyse bezeichnet. Sie gewinnt auch in der Politikwissenschaft in zwei Hinsichten zunehmend an Bedeutung. Einerseits nimmt die Zahl ihrer Anwendungen zu, denn Mehrebenenmodelle erlauben in vielen Themenbereichen angemessene methodische und statistische Spezifizierungen für soziale Sachverhalte und in Fällen komplexer Stichprobenziehungen sind ihre Schätzungen denen einfacher Modelle überlegen. Andererseits sind sie mittlerweile selbstverständliche Bestandteile auch der Methodenlehr- und Handbücher (z. B. Hildebrandt et al. 2015; Wenzelburger et al. 2014; Langer 2010; Pötschke 2014a). Im folgenden Beitrag werden nach einer Verortung der Mehrebenenanalyse in den Kanon quantitativer statistischer Analysemodelle (Abschn. 1) politikwissenschaftliche Themenfelder beschrieben, die besonders von der Methode profitieren (Abschn. 2). Aus dieser Darstellung wird bereits das Potenzial des Analyseverfahrens deutlich werden. Abschn. 3 beschäftigt sich mit den Voraussetzungen und konzeptionellen Vorüberlegungen einer Mehrebenenanalyse, gefolgt von der formalen Formulierung der Modelle in Abschn. 4. Danach (Abschn. 5) wird der Vorschlag einer systematischen Entwicklung und Interpretation von Mehrebenenmodellen vorgestellt, der auf Hox (2010, S ) zurückgeht und allgemeine Verbreitung gefunden hat. Im Abschn. 6 werden spezifische Aspekte der Schätzung und Interpretation von Mehrebenenmodellen angerissen. Abschließend werden die Potenziale dieser Verfahren zusammengefasst, so dass die Lesenden ermutigt werden, selber Mehrebenenmodelle anzuwenden und von ihren Möglichkeiten zu profitieren. Daneben sollen aber auch Grenzen deutlich gemacht werden, die bei einer Anwendung zu beachten sind. 2 Mehrebenenmodelle im Kanon quantitativer Analyseverfahren Für die Anwendung von Mehrebenenanalysen spielen zwei Motive eine Rolle: Erstens sind sie einzusetzen, sofern die Forschungsfrage eine Überprüfung spezifischer Wirkungen unterschiedlicher Analyseebenen erfordert. Mehrebenenmodelle können dann als statistische Umsetzungen der lange bekannten konzeptionellen Idee verstanden werden, dass das Agieren von Individuen oder Institutionen nicht nur von ihren eigenen Eigenschaften, sondern auch vom Kontext abhängt, in dem das Handeln realisiert wird.

3 Mehrebenenmodelle 3 Darüber hinaus stammen sozialwissenschaftliche Daten häufig aus komplexen Stichprobenziehungen. 1 Für ihre Analyse werden Modelle benötigt, die den geclusterten Daten aus geschichteten oder gestuften Stichproben gerecht werden. Dazu wurden in der Vergangenheit die Schätzungen auf der Basis von Individualdaten aus komplexen Stichprobenziehungen um den Designeffekt gewichtet. Aber es gab noch keine etablierte Methode, die ebenenspezifischen Aspekte in die Schätzungen direkt einzubeziehen, so dass es zu verzerrten Schätzungen und unangemessenen Schlussfolgerungen kam (Heck und Thomas 2009, S. 45). Mehrebenenmodelle stellen nun das Ergebnis von Problemlösungen für vielfältige Modelle 2 dar: Varianzanalyse, Erklärung auf der Basis von Regressionsmodellen, Analyse latenter Konstrukte. Die Verortung der Mehrebenenanalyse im Kanon statistischer Konzepte zur Analyse von sozialen Sachverhalten ist deshalb auch nicht eindeutig. Vielmehr liegt der Ansatz quer zu anderen systematischen Unterscheidungen. Hox (2010) und Snijders und Bosker (2012) oder Bickel (2007) führen die Mehrebenenanalyse als Erweiterung des linearen Regressionsmodells für Querschnittsanalysen ein. Mehrebenenanalysen können dann sowohl für metrische (Gelman und Hill 2007) als auch für dichotome (Guo und Zhao 2000; Hedecker 2008) oder kategoriale (Fielding et al. 2003) zu erklärende Sachverhalte geschätzt werden. Dagegen gehen Heck und Thomas (2009) von der grundlegenden Unterscheidung zwischen Modellen mit einer oder mehreren abhängigen Variablen aus und kommen darüber zu latenten Konstrukten und Strukturgleichungsmodellen (Bovaird 2007; Du Toit und Du Toit 2008). Andere Autoren stellen die Beziehung zwischen Zeitverlauf und mehreren Ebenen in den Mittelpunkt der Betrachtung (Skrondal und Rabe-Hesketh 2008; Rabe-Hesketh und Skrondal 2012; Little et al. 2007). Aus der Perspektive der Voraussetzungen für gute Schätzungen stellen Mehrebenenanalysen eine Möglichkeit dar, mit abhängigen Beobachtungen und Residuen umzugehen (vgl. zu weiteren Modellen zur Analyse von Daten mit abhängigen Beobachtungen den Beitrag von Ziller in diesem Band). 3 Anwendungen in der Politikwissenschaft Heute finden sich Beispiele für Mehrebenenanalysen in zahlreichen Disziplinen. Über eine besonders lang zurückreichende Tradition verfügt die Bildungsforschung. Konzeptionell gehen die Überlegungen darüber, dass der Lernerfolg nicht nur vom 1 Der Schwerpunkt der Betrachtungen hier bezieht sich implizit auf die Analyse von Befragungsdaten aus Surveys. Die Anwendung der Mehrebenenanalyse als konzeptionelles Raster ist aber ebenso für Vollerhebungen denkbar, wie sie beispielweise in Analysen auf der Basis von Beiträgen aus Zeitschriften realisiert werden, solange die Daten numerisch sind. Lediglich die Interpretation der Standardfehler und Signifikanzen unterscheidet sich dann. 2 Die unterschiedlichen Quellen zeigen sich heute noch in unterschiedlichen Notationen im Feld der Mehrebenenmodelle. Hier wird später der Notation von Hox (2010) bzw. Snijders und Bosker (2012) gefolgt.

4 4 M. Pötschke individuellen Vermögen der einzelnen Schüler abhängt, sondern auch den strukturellen Bedingungen von Klassen und Schulen eigenständige Einflüsse zukommen, zurück bis in die frühen 1960er-Jahre (Coleman et al. 1966, 1982). In der aktuellen Bildungsforschung wird die Perspektive inhaltlich erweitert 3 und es werden weitere Kontexte 4 in den Blick genommen. Auch für statistische Einführungen in die Mehrebenenmodelle wird häufig auf Beispiele aus der Bildungsforschung zurückgegriffen (Bickel 2007; Goldstein et al. 2007). Neben der fachlichen Affiliation der Autoren kann als ein Grund die große Plausibilität und Verständlichkeit der konzeptionellen Überlegungen zu Wirkungen von Kontexten in Lernprozessen angesehen werden. Verbreitete Anwendungen finden sich ebenfalls in der Gesundheitsforschung, 5 den Wirtschaftswissenschaften 6 und der Psychologie 7 oder Soziologie. 8 Zwar werden Mehrebenenanalysen, so wie sie hier beschrieben werden, in anderen Wissenschaftsgebieten schon deutlich länger als in der politikwissenschaftlichen Forschung genutzt, aber auch hier gewinnen entsprechende Ansätze an Bedeutung. Mit der sehr aufschlussreichen Metaanalyse von Jäckle und Schärdel (2013, 2017) liegt für die Politikwissenschaft sogar eine empirisch basierte Einschätzung der Bedeutung der Mehrebenenanalyse im Vergleich zur Soziologie vor. Jäckle und Schärdel (2013, S. 16) konnten für den Zeitraum von 1990 bis 2012 die zunehmende Verbreitung der Methode vor allem für die Themenfelder Einstellungsforschung 9 und Wahl- und Partizipationsforschung 10 zeigen. Einstellungsforschung bezieht sich dabei auf drei Schwerpunkte: die Untersuchung der Einstellung der Bürger zu Policies, zur europäischen Integration und 3 Lintorf (2012) findet beispielsweise auf der Basis der TIMSS-Daten 2007 lehrerspezifische Effekte auf Mathematik- und Sachkundenoten in Grundschulen. 4 Sixt (2013) untersucht regionale Kontexte zur Erklärung von Bildungsentscheidungen und kann zeigen, dass das regionale Schulangebot und die Erreichbarkeit von Gymnasien einen eigenständigen Einfluss darauf haben, ob Kinder das Gymnasium besuchen oder nicht. 5 Vgl. beispielsweise zum Zusammenhang von Gesundheit und Lebenszufriedenheit Subramanian et al. (2005) oder zu Fragen der Prävention Dunn et al. (2015). Auch für die Qualitätsbeurteilung von Krankenhäusern bieten sich mehrebenenanalytische Ansätze an (vgl. für ein Beispiel aus Deutschland Loos 2003). 6 Vgl. beispielsweise Farla (2014). 7 Vgl. Görzig und Olafsson (2013) zur Analyse von tyrannischem Schülerverhalten im Ländervergleich. 8 Fairbrother und Martin (2013) überprüfen zentrale soziologische Argumente zur Wirkung zunehmender Ungleichheit auf Vertrauen und finden im Vergleich US-amerikanischer Staaten lediglich Zusammenhänge im Querschnitt aber nicht im Längsschnitt. Mit Blick auf die Ebene der Counties werden weder Zusammenhänge im Längsschnitt noch im Querschnitt beobachtet. 9 Als Beispiele sei auf die Untersuchung von Jäckle und Wenzelburger (2011) zum Zusammenhang zwischen Religiosität und Homophobie hingewiesen. Dülmer und Ohr (2008) untersuchen in ihrer Studie die Wirkung von Milieus auf extremistische Einstellungen im 3-Ebenen-Design. 10 Klein und Pötschke (2005) untersuchten z. B. den Effekt der TV-Duelle im Rahmen des Bundestagswahlkampfes auf die Wahlentscheidung.

5 Mehrebenenmodelle 5 zum Vertrauen in politische Institutionen, politische Entscheidungsträger und andere Menschen. Die Vorteile der Mehrebenenanalyse liegen dabei auf der Hand. Der Ansatz erlaubt, die Einstellungen der Bürger in Abhängigkeit von individuellen Merkmalen und gleichzeitig im regionalen Vergleich zu analysieren. Dadurch können kulturelle, strukturelle und individuelle Effekte gleichzeitig in den Blick genommen werden. Durch die Anwendungen konnte überzeugend gezeigt werden, dass komplexere Erklärungen sozialer Phänomene der Wirklichkeit angemessener sind und deshalb auch inhaltlich gehaltvollere Antworten geben können als einfache Modelle, welche die hierarchische Datenstruktur nicht oder nur unzureichend wiederspiegeln. Darüber hinaus speist sich die zunehmende Beliebtheit von Mehrebenenmodellen aus der Erweiterung an Erfahrungswissen mit den Methoden und den Konsequenzen von Verletzungen der Modellannahmen (vgl. Abschn. 6), sowie der Entwicklung anwenderorientierter Softwarelösungen. Dadurch konnten Unsicherheiten in der Interpretation von Modellergebnissen und fehlende Informationen sukzessive beseitigt werden. 4 Voraussetzungen 4.1 Datenstruktur Die Daten einer Mehrebenenanalyse entstammen mindestens zwei Analyseebenen. Die Definition der Ebenen obliegt dem Forscher. Sie ergibt sich theorie- oder empiriegeleitet aus den angenommenen Mechanismen der Einflussnahme der einzelnen Ebenen oder aus der Datenstruktur, die der komplexen Stichprobenziehung geschuldet ist. Der zu erklärende Sachverhalt ist immer ein Merkmal der ersten Ebene. 11 Wird beispielsweise das Wahlverhalten der Bürgerinnen und Bürger in den Blick genommen und soll untersucht werden, ob es neben den politischen Einstellungen, dem Interesse an Politik und weiteren individuellen Merkmalen spezifische Einflüsse der sozialen Zusammensetzung der Wohngebiete gibt, in denen die Befragten leben, muss theoretisch plausibel entwickelt werden, wie sich solche Zusam- 11 Jäckle und Schärdel (2017, S.159)schreiben: Bei allen MEAs liegt die zu erklärende Variable auf der Individualebene. In der überwiegenden Zahl der Anwendungen sind tatsächlich Individuen als Elemente der Ebene anzutreffen. Deshalb wird hier wie in den meisten Einführungen zum Verfahren dieser Fall behandelt. Jäckle und Schärdel (2017, S. 148) weisen aber zu Recht darauf hin, dass die unterste Ebene eines Mehrebenenmodells ebenso durch andere Elemente wie z. B. Kommunen in Regionen oder Kreistage in Kreisen und Bundesländern (Jäckle und König 2017) gebildet werden kann. Auch Panelanalysen können mit Mehrebenenmodellen realisiert werden. Dann bestehen die Elemente der untersten Ebene aus den Messungen zu unterschiedlichen Zeitpunkten für Personen (zweite Ebene) (vgl. z. B. Hosoya et al. 2014).

6 6 M. Pötschke mensetzungen auswirken könnten. 12 Im Unterschied zum Verständnis, das lediglich verschiedene Akteure (staatliche versus nicht staatliche Ebene; kommunale versus zentrale Ebene) oder Gegenstände (politische versus wirtschaftliche Ebene) unterscheidet, ist der Kern des Ebenenverständnisses in der Mehrebenenanalyse immer die Vorstellung einer hierarchischen Ordnung. Hierarchische Ordnung bedeutet, dass die Beziehung der Ebenen zueinander durch das Inklusionsprinzip zu beschreiben ist. Das heißt, dass ein Element der ersten Ebene immer eineindeutig einem Element der zweiten Ebene zuzuordnen ist und kein Element der zweiten Ebene leer bleibt. 13 Das klassische Beispiel für diese Struktur findet sich in der Schulforschung. Hier ist jeder Schüler (Elemente der ersten Ebene) genau einer Klasse (Elemente der zweiten Ebene) zugeordnet und im Modell sind keine Klassen ohne Schüler enthalten. In Wahlstudien werden Bürgerinnen und Bürger (Elemente der ersten Ebene) z. B. den Wahlkreisen (Elemente der zweiten Ebene) oder anderen regionalen Strukturen zugeordnet. Mit ihrer Datenstruktur knüpfen Mehrebenenmodelle an das klassische Badewannenmodell von Coleman (1990) an. Die Umsetzung ist dabei jedoch typischerweise nicht vollständig, da zum einen der Pfad von der Mikro- zur Makroebene (vgl. fehlender Pfeil von Y auf W in Abb. 1) bei Coleman durch die Methode der Mehrebenenanalyse nicht abgedeckt wird (vgl. Snijders und Bosker 2012, S. 12). 14 Zum anderen wird die Beziehung zwischen Elementen auf der Aggregatebene üblicherweise mit Aggregatanalysen und nicht mit Mehrebenenmodellen untersucht (vgl. fehlender Pfad zwischen Z und W in Abb. 1). Eine Ausnahme ist dann gegebenen, wenn die aggregierten Daten aus Individualdaten einer mehrstufigen Stichprobe gewonnen werden. In Abb. 1 werden die unterschiedlichen möglichen Effekte, die in einer Mehrebenenanalyse konzipiert werden können, zusammengefasst dargestellt. Die in das Modell aufgenommenen Variablen haben dabei unterschiedliche Eigenschaften und Funktionen im Modell. Die unabhängigen Variablen auf der ersten Ebene (X) werden wie in einem klassischen Regressionsmodell als erklärende Variablen eingeführt. Sie können nach der Systematisierung von Lazarsfeld und Menzel (1961) absolute, komparative, relationale oder kontextuelle Merkmale beschreiben. Die erklärenden Variablen der zweiten Ebene (Z) beschreiben die 12 Der Verweis auf die notwendige theoretische Grundlegung scheint banal. In der Forschungspraxis ist aber nicht selten zu beobachten, dass sich die Ebenenstruktur aus der Verfügbarkeit der Daten ergibt und nicht aus theoretischen Überlegungen. Das wird z. B. beim Ländervergleich deutlich. Zu selten wird ausgeführt, was den spezifischen Ländereinfluss auf individuelle Einstellungen oder Verhaltensweisen ausmacht. Selbst in Vorhaben, die stärker auf die Modellanpassung der Daten orientiert sind, wird an das Ergebnismodell der Anspruch zu richten sein, dass die Mechanismen nachvollziehbar beschrieben werden können. 13 Vgl. Abschn. 6 zu Verletzungen dieser Anforderung in Cross Classified Strukturen. 14 Die Erklärung von Merkmalen der Makroebene durch Merkmale der Individualebene ist in vielen Softwares nicht zu modellieren und stellt nach wie vor auch ein theoretisch zu reflektierendes Problem dar. Vgl. für den Versuch, aggregierte Variablen durch Individualvariablen zu erklären Croon und van Veldhofen (2007).

7 Mehrebenenmodelle 7 Abb. 1 Effekte in einem 2-Ebenen-Modell 2.Ebene Z W cross level lnteraktion direkter Effekt Z Y 1.Ebene X eindimensionaler Effekt X Y Y Elemente entweder global, strukturell oder analytisch. Im Zentrum der Erklärung steht Y als abhängige Variable, wobei sie sowohl manifest als auch latent sein kann. Wir können nun drei Einflüsse unterscheiden. Die Effekte von X auf Y bilden das klassische Einebenenregressionsmodell ab. Im Falle der gestuften Stichprobenziehung würden aber auch hier Mehrebenenmodelle zum Einsatz kommen, um dem Designeffekt zu begegnen. Darüber hinaus können aber spezifische Wirkungen von Z auf Y modelliert werden. Das heißt, dass die Merkmale der Aggregate sich direkt auf individuelle Merkmale auswirken. Weiter kann Z einen spezifischen Einfluss auf die Beziehung zwischen X und Y ausüben (Cross Level Interaktion). 15 Der große Vorteil von Mehrebenenanalysen besteht nun darin, dass diese Effekte simultan in einem Modell geschätzt werden können Fallzahlen Die Frage der notwendigen Fallzahlen für ausreichend gute Schätzungen spielt seit den Anfängen der Entwicklung von Mehrebenenmodellen eine Rolle. 17 Während Kreft (1996) noch aus der empirischen Erfahrung die 30:30 Regel aufstellen konnte, d. h. 30 Individuen in 30 Gruppen, führten die Entwicklung spezifischer Mehrebenenanalysesoftware und die Chance zur zeitnahen Durchführung umfangreicher Simulationsstudien Anfang der 2000er-Jahre (vgl. Maas und Hox 2005; Moineddin et al. 2007) zu differenzierteren Bewertungen der Anforderungen an Fallzahlen auf den einzelnen Ebenen und der Konsequenzen für kleine Fallzahlen. Als vorläufiger Stand der Diskussion lässt sich festhalten, dass die Anzahl der Elemente der zweiten Ebene für die korrekte Schätzung von Interaktionseffekten und Varianzkomponenten wichtiger ist als die Anzahl der Elemente der ersten Ebene. Gelman und Hill (2007, S. 276) gehen davon aus, dass selbst zwei Elemente auf der ersten Ebene pro 15 Jäckle und Schärdel (2017, S. 152; Abb. 3f) nehmen in ihre Darstellung zusätzlich einen möglichen Effekt der Individualvariable X auf den Effekt auf, der von Z auf Y wirkt. 16 Ältere Wege des Umgangs mit hierarchischen Daten werden in Raudenbusch und Bryk (2002, S. 23 ff.); Heck und Thomas (2009, S. 76) und ausführlicher in Pötschke (2014a, S ) vorgestellt. 17 Vgl. für eine kritische Reflexion von Daumenregeln für Fallzahlen in der Mehrebenenanalyse Tonidandel et al. (2014).

8 8 M. Pötschke Gruppe für eine korrekte Schätzung ausreichen. Hox (2010, S. 233 ff.) schlägt dagegen neben der 30:30-Regel (für die Schätzung von fixen Effekten) die Anforderung von je 20 Elementen in 50 Gruppen (für Cross-Level-Interaktionseffekte) bzw. von 10 Elementen in mindestens 100 Gruppen (für Varianzkomponenten) vor. 18 Für komplexe Anwendungen werden die notwendigen Fallzahlen im Zusammenhang mit dem verwendeten Schätzverfahren diskutiert. So konnten Hox et al. (2010) zeigen, dass in komplexen Strukturgleichungsmodellen die Parameterschätzung und die Schätzung der Standardfehler für die erste Ebene unabhängig vom verwendeten Schätzverfahren und unterschiedlicher Fallzahlvoraussetzungen in den Gruppen unverzerrt ausfallen. 19 Unterschiedlich gute Ergebnisse waren dagegen für die Schätzungen auf zweiter Ebene und die Modellgütewerte zu beobachten. Dabei bleibt festzuhalten, dass die Ergebnisse selbst mit einer Fallzahl von mehr als 200 Gruppen für einige Teststatistiken unbefriedigend bleiben. Für ländervergleichende, politikwissenschaftliche Anwendungen spielen die Anforderungen an die Fallzahlen der zweiten Ebene eine besondere Rolle. Denn in diesen Fällen ist das inhaltliche Forschungsinteresse auf die entsprechenden Effekte gerichtet (Jäckle und Schärdel 2017, S. 165), die Fallzahlen sind aber real (z. B. beim Vergleich der deutschen Bundesländer) oder aus erhebungspraktischen Gründen (z. B. beim Ländervergleich in der EU) begrenzt. Bryan und Jenkins (2016) konnten mit Monte Carlo Simulationen zeigen, dass Individualeffekte unverzerrt geschätzt werden können, wenn zwar wenige Länder aber viele Individuen in jedem Land beobachtet werden. Die Effekte der zweiten Ebene sind in diesen Fällen jedoch unzuverlässig. Die Autoren empfehlen eine Mindestanzahl von 25 Ländern für lineare Modelle und 30 Ländern für logistische Modelle. Wenn weniger Fälle gegeben sind, schlagen die Autoren (Bryan und Jenkins 2016, S. 20) drei Strategien vor: a) das Vorgehen in zwei Schritten (Ausbau der Deskription zu Länderunterschieden und erst danach das Schätzen von Regressionsmodellen), b) die Verwendung robuster Schätzer oder Schätzkorrekturen, beispielsweise RML 20 anstatt von MLE oder c) die Verwendung einer bayesianischen Schätzung. Die letzte Empfehlung wird auch durch die Analysen von Stegmüller (2013) bestärkt, der Maximum Likelihood-basierte und bayesianische Schätzungen für Modelle mit geringer Fallzahl auf der zweiten Ebene vergleicht. Er kann zeigen, dass selbst in wenig komplexen ML-Modellen eine geringe Fallzahl unter 20 zu inakzeptablen Schätzungen führt. Das gilt für Schätzer aus einem bayesianischen Ansatz erst bei einer Fallzahl von unter 10 und die Verzerrung ist deutlich geringer als in der ML-Variante (Stegmüller 2013, S. 758). Elff et al. (2016) replizieren und erweitern Stegmüllers Ansatz um den Vergleich mit einer RML-Schätzung. Sie kommen auf der Basis ihrer 18 Die meisten Autoren beziehen sich heutzutage auf die Empfehlungen von Maas und Hox (2005) (vgl. beispielsweise Braun et al. 2010; Jäckle und Schärdel 2017; Pötschke 2014b). Ältere Empfehlungen für kleinere Fallzahlen (vgl. Pötschke 2006) würden heute als problematisch angesehen werden. 19 Simuliert wurde hier für den Fall, das in den Gruppen jeweils verschieden viele Elemente enthalten sind. 20 Restricted Maximum Likelihood.

9 Mehrebenenmodelle 9 Ergebnisse zu dem Schluss, dass eine akkurate ML-Schätzung auch mit wenig Fällen auf der zweiten Ebene möglich ist und dass die Empfehlung einer umfassenden Hinwendung zur bayesianischen Schätzung verfrüht sei. Ungeachtet der Diskussion um die angemessene Schätzprozedur bleibt als Fazit festzuhalten, dass die Fallzahlen und Gruppengrößen möglichst groß ausfallen sollen und dass bei kleineren Anzahlen von Gruppen die Analysen mit besonderer Sorgfalt zu beurteilen sind. 5 Formalisierung der Modelle Die Darstellung der formalen Modelle erfolgt auf der Basis des Regressionsansatzes mit zwei Ebenen. Der Bezug zur linearen Regression ist ein weit verbreiteter Zugang (vgl. Hox 2010; Snijders und Bosker 2012; Bickel 2007), da für dieses grundlegende Verfahren auch mit Blick auf die verwendeten Schätzverfahren die besten Vorkenntnisse zu erwarten sind. Auch für das logistische Modell ist die Erweiterung um die Kontextebene leicht nachvollziehbar zu präsentieren. Durch die Fokussierung auf das Zweiebenenmodell soll die Einführung in die Modelle so wenig komplex wie möglich ausfallen. Außerdem konnten Jäckle und Schärdel (2017, S. 165) zeigen, dass sich die meisten publizierten Mehrebenenanalysen in der Politikwissenschaft auf Zweiebenenmodelle beziehen. Die Adaption auf Modelle mit mehr als zwei Ebenen ist daraus problemlos möglich. Für das zugrunde liegende Einebenenmodell, ergeben sich folgende formale Beschreibungen und grafische Abbildungen: Lineares Modell Logistisches Modell y i = β 0 +β 1 x 1i +e i p ¼ eð β 0 þβ 1 x 1Þ 1þeð β 0 þβ 1 x 1Þ wobei: β 0 den geschätzten Wert angibt, wenn die Ausprägung in x Null ist, β 1 die Veränderung in der Schätzung der abhängigen Variable zum Ausdruck bringt, wenn sich die unabhängige Variable um eine Einheit verändert, e i die individuelle Abweichung des empirischen zum geschätzten Wert der abhängigen Variable, y i den Wert der abhängigen Variable für die Person i und p die Wahrscheinlichkeit für die Ausprägung 1 in der abhängigen Variable angibt (Abb. 2 und 3). Um die spezifische Datenstruktur in Mehrebenenmodellen auch formal abbilden zu können, werden die Subskripte i für die Person und j für die Gruppe, in der sich die Person befindet, unterschieden. Eine erste Erweiterung des Einebenenmodells besteht darin, dass für die Regressionskonstante nicht mehr unterstellt wird, dass sie in allen Gruppen gleich ausfällt, sondern dass sie zwischen den Gruppen variiert. Formal lässt sich die Zerlegung der Schätzung der Konstanten folgendermaßen schreiben:

10 10 M. Pötschke 800 Einebenenmodell 700 abhängige Variable unabhängige Variable Abb. 2 Lineares Einebenenmodell 1 Logistisches Einebenenmodell.9.8 Probability für Y= unabhängige Variable 800 Abb. 3 Logistisches Einebenenmodell

11 Mehrebenenmodelle 11 β 0j ¼ γ 00 þ u 0j wobei: γ 00 für die mittlere Schätzung der Konstanten über alle Gruppen hinweg und u 0j für die Varianz der Schätzungen aller Konstanten der Gruppen steht. Wenn in einem Regressionsmodell lediglich die Konstante zwischen den Gruppen variiert, der Effekt der unabhängigen Variablen dagegen für alle Gruppen als gleich unterstellt wird, können wir von einem random intercept model sprechen. 21 Das Prinzip der Erweiterung der Schätzung um eine Varianzkomponente kann nun auch auf den Regressionskoeffizienten angewandt werden. Es ergibt sich β 1j ¼ γ 10j þ u 1j wobei: γ 10j der mittleren Schätzung des Effekts der unabhängigen auf die abhängige Variable entspricht und u 1j die gruppenspezifische Abweichung von der mittleren Effektschätzung zum Ausdruck bringt. Modelle, in denen nur der Effekt variiert, werden als random slope model bezeichnet. Wenn beide Parameter variieren dürfen, können Bezeichnungen wie random interept and slope model, oder random coefficient model genutzt werden. 22 Im Ergebnis erhalten wir als formale Beschreibungen und grafische Abbildungen für lineare und logistische Mehrebenenmodelle: Lineares Modell y ij = γ 00 +γ 10j x 1ij +u 0j +u 1j x 1ij +e ij Logistisches Modell p ¼ e ð γ 00 þγ 10 x 1 þu 0j þu 1j x 1ijÞ ð Þ 1þe γ 00 þγ 10 x 1 þu 0j þu 1j x 1ij wobei: y i dem beobachteten Wert für Person i in Gruppe j in der abhängigen Variable, γ 00 dem geschätzten mittleren Wert über alle Personen in allen Gruppen hinweg,γ 10 dem Effekt der Variable x 1, 21 Zu beachten ist, dass in den Bezeichnungen hier spezifische Modellbausteine als zufällig (random) oder für alle gleich (fixe) beschrieben werden. Es handelt sich dabei nicht um Modellklassen wie im Beitrag von Ziller in diesem Band beschrieben. Auch wenn es eine enge Verbindung zwischen der Mehrebenenanalyse und anderen Verfahren für abhängige Beobachtungen gibt, ist die dort häufig verwendete Unterscheidung in Fixed-Effects-Modelle und Random-Effects- Modelle nicht vollständig auf die Modelldifferenzierung in der Mehrebenenanalyse zu übertragen. Allerdings entspricht das Ergebnis eines Random-Effects-Modells einem random intercept model der Mehrebenenanalyse, wenn für beide ML-Schätzungen unterstellt werden. 22 Die unterschiedlichen Bezeichnungen der Modelle gehen auf die verschiedenen Quellen der Entwicklung statistischer Anwendungen hin zum Mehrebenenmodell zurück. Reine random slope Modelle sind zudem sehr selten. Oft wird der Begriff auch, nicht ganz stringent, für random coefficient Modelle verwendet.

12 12 M. Pötschke 700 Mehrebenenmodell 600 abhängige Variable unabhängige Variable Abb. 4 Lineares Mehrebenenmodell u 0j den Abweichungen der Gruppenmittelwerte in der abhängigen Variable zum Gesamtmittelwert, u 1j der Variation des Effektes ß 1 zwischen den Gruppen und e ij der Residualabweichung auf der erste Ebene entspricht (Abb. 4 und 5). Ein Mehrebenenmodell besteht demnach immer aus einem fixed Part und einem random Part. Im fixed Part sind die formalen Regressionsparameter analog zu einer Einfachregression enthalten. Sie werden analog als mittlere Schätzungen von Intercept und Slope über alle Gruppen hinweg verstanden. Der random Part enthält die Informationen zur Streuung der mittleren Schätzungen zwischen den einzelnen Kontexten. Fällt der Wert dafür klein aus, unterscheiden sich die Gruppen der zweiten Ebene nicht sehr stark voneinander, fällt der Wert sehr groß aus, sind die Unterschiede in den Modellparametern größer. Die Zufallsterme können darüber hinaus korrelieren. Dieses Modell kann nun um weitere Effekte unabhängiger Variablen ergänzt werden, die jeder für sich entweder als konstant (fixe) oder zwischen den Gruppen variierend (random) zu modellieren sind.

13 Mehrebenenmodelle 13 1 Logistisches Mehrebenenmodell.9.8 Probability für Y= unabhängige Variable Abb. 5 Logistisches Merhebenenmodell 6 Systematisches Vorgehen zur Modellentwicklung Das systematischen Vorgehen bei der Modellentwicklung nach Hox (2010, S ) hat sich bewährt, weil durch den sukzessiven Einbezug komplexerer Strukturen in das Grundmodell eine präzise Darstellung und Interpretation der wesentlichen Modellelemente möglich wird. 6.1 Das Nullmodell An erster Stelle steht die Schätzung eines Nullmodells ( intercept only model oder empty model ), in das noch keine erklärenden Variablen aufgenommen werden. Es dient der Zerlegung der Gesamtvarianz der abhängigen Variable in einen Teil, der auf der ersten Ebene und einen Teil, der auf der zweiten Ebene angesiedelt ist. Formal lässt sich dafür schreiben: Lineares Modell y ij = γ 00 +u 0j +e ij Logistisches Modell p ¼ e ð γ 00 þu 0jÞ ð Þ 1þe γ 00 þu 0j wobei: y ij dem beobachteten Wert für Person i in Gruppe j in der abhängigen Variable,

14 14 M. Pötschke γ 00 dem geschätzten mittleren Wert über alle Personen in allen Gruppen hinweg, u 0j den Abweichungen der Gruppenmittelwerte in der abhängigen Variable zum Gesamtmittelwert, e ij der Residualabweichung auf der erste Ebene entspricht Das Verhältnis zwischen der Varianz auf der Aggregatebene und der Gesamtvarianz wird als Intraklassenkorrelationskoeffizient Rho (alternativ ICC) bezeichnet. Er drückt aus, welcher Anteil der Gesamtvarianz darauf zurückzuführen ist, dass die Befragten unterschiedlichen Gruppen angehören. Der Intraklassenkorrelationskoeffizient gibt darüber hinaus einen Hinweis auf die Angemessenheit einer Mehrebenenanalyse. Wenn keine gestufte Stichprobenziehung und keine Varianz auf der zweiten Ebene vorliegen, kann auch ein Einebenenmodell Anwendung finden (Kreft und de Leeuw 1998, S. 10). Für das logistische Modell wird keine Varianz der ersten Ebene geschätzt (Gelman und Hill 2007, S. 86), denn die Varianz ist im dichotomen Fall eine Funktion des Anteils der Ausprägung y = 1 (Snijders und Bosker 2012, S. 293). In der Berechnung der Intraklassenkorrelation findet sich deshalb die standardisierte Varianz des Logits mit π 2 /3 wieder (Guo und Zhao 2000, S. 451; Hox 2010, S. 128). Lineares Modell ρ ¼ σ2 u σ 2 u þσ2 e Logistisches Modell ρ ¼ σ2 u σ 2 u þπ2 3 wobei: σ 2 u die Varianz auf der zweiten Ebene und die Varianz auf der ersten Ebene beinhaltet σ 2 e Neben der Varianzzerlegung auf die Ebenen besteht die zweite zentrale Funktion des Nullmodells in der Bereitstellung eines Devianzwertes als Referenz in zwei Hinsichten. Auf der Basis eines Likelihood-Ratio-Tests kann entschieden werden, ob der Mehrebenenansatz zu angemesseneren Schätzungen führt als das Einebenenmodell. Darüber hinaus findet der Devianzwert für die Beurteilung der Erklärungskraft von nachfolgenden Modellen mit erklärenden Variablen Anwendung. 6.2 Erklärungsmodelle mit Variablen der ersten Ebene Nach der Varianzzerlegung auf der Basis des Nullmodells können in das Modell unabhängige Variablen der Individualebene aufgenommen werden, die allerdings in einem ersten Schritt noch als fixe Effekte (also ohne Variation zwischen den Gruppen) modelliert werden. Die Interpretation der Koeffizienten erfolgt analog zur Interpretation im Einebenenregressionsmodell. Die Konstante gibt den mittleren geschätzten Wert für die abhängige Variable für alle Personen und über alle Gruppen hinweg an. Die Regressionskoeffizienten geben die mittlere erwartete Veränderung in der abhängigen Variable an, wenn sich die Unabhängige um eine Einheit erhöht. Die Modellkonstruktion entspricht einer Kovarianzanalyse mit Zufallseffekten

15 Mehrebenenmodelle 15 (Raudenbush und Bryk 2002, S. 25), allerdings können sich einzelne Schätzergebnisse aufgrund unterschiedlicher Schätzverfahren (OLS vs. ML-Schätzung) voneinander unterscheiden, wenn die Gruppengrößen unterschiedlich ausfallen (Hox 2010, S. 57). Für die Interpretation der Modellgüte kann auf die Devianz zurückgegriffen werden. Je kleiner der Wert der Devianz, desto besser kann das Modell die Beobachtungen schätzen. Ein Devianzwert von 0 spräche für eine perfekte Modellanpassung. Darüber hinaus kann ein Devianzwert jedoch nicht ohne Vergleich zu anderen Devianzwerten sinnvoll interpretiert werden. 23 Klassische Ansätze der Beurteilung der Modellgüte über Anteile erklärter Varianzen sind in Mehrebenenmodellen zum Teil problematisch, weil sich mit dem Einbezug von komplexen Varianzkomponenten manchmal überraschend größere Varianzen ergeben. In der Konsequenz führt das zu negativen R 2 -Werten (Snijders und Bosker 2012: 109, 110). Als Gründe dafür werden Fehlspezifikationen des Modells im fixen Part oder Zufallsschwankungen (Snijders und Bosker 2012, S. 113; Kreft und de Leeuw 1998) bzw. die Skalierung der beteiligten Variablen (Hox 2010, S. 73) angeführt. Da die Varianzkomponenten auf die einzelnen Ebenen verteilt sind, werden ebenenspezifische R 2 -Maße als instruktiver angesehen (Raudenbush und Bryk 2002; Snijders und Bosker 2012, S. 110 f.; Hox 2010, S. 71 f.). Eine Möglichkeit der Information über Anteile erklärter Varianz ohne den direkten Rückgriff auf die Varianzkomponenten der Modelle bietet Maddalas R 2 (Langer 2010, S. 756). R 2 M ¼ 1 e ð 2log ð lhþ M0 ð 2logðlhÞ M1 n ij wobei: 2log(lh)M 0 dem Devianzwert des Nullmodells, 2log(lh)M 1 dem Devianzwert des Erklärungsmodells und n ij dem Stichprobenumfang entspricht. Auch für die Interpretation der Modellgüte logistischer Mehrebenenanalysen werden analog zu den Pseudo-R 2 -Maßen der Einebenenregression Berechnungen genutzt, die den Devianzwert einbeziehen. Snijders und Bosker (2012, S. 305, 306) präferieren jedoch einen Ansatz, der auf McKelvey und Zavoina (1975, S. 111) zurückgeht und die Idee erklärter Varianzen in latenten Konstrukten aufgreift. 24 Danach wird das Logit als latentes Konstrukt verstanden, dessen Varianz sich aus der standardisierten Residualvarianz der ersten Ebene, der Residualvarianz der Konstanten im Regressionsmodell und der systematischen Varianz der einbezogenen Regressionskoeffizienten zusammensetzen lässt. Für den Anteil erklärter Varianz lässt sich dann formulieren: 23 Devianzwerte werden für den Vergleich verschiedener Mehrebenenmodelle herangezogen und für die Beurteilung sukzessive aufzunehmender Variablen im Rahmen der Modellentwicklung. 24 Auch Long (1997) konstatierte bereits das besondere Potential des Ansatzes von McKelvey und Zavoina (1975).

16 16 M. Pötschke R 2 MZ ¼ σ 2 10 σ 2 10 þ σ2 u0 þ σ2 e wobei: σ 2 10 der Varianz des Regressionskoeffizienten, σ 2 u0 der Varianz der Konstanten zwischen den Gruppen und σ 2 e der Residualvarianz auf der ersten Ebene entspricht. 6.3 Erweiterte Erklärungsmodelle mit Variablen auf der zweiten Ebene Nachdem die signifikanten Effekte der ersten Ebene 25 im Modell verbleiben, können weitere erklärende Variablen der zweiten Ebene aufgenommen werden. Modelle mit fixen Effekten der unabhängigen Variablen auf der ersten und zweiten Ebene werden auch als variance component models bezeichnet (Hox 2010, S. 57). Die Interpretation kann analog zur Interpretation der Effekte der ersten Ebene erfolgen. Sie geben jeweils den mittleren erwarteten Unterschied für zwei Personen in dem zu erklärenden Sachverhalt an, wenn die Personen zu Gruppen gehören, die sich in der erklärenden Variable um eine Merkmalsausprägung unterscheiden. 6.4 Einbezug variierender Effekte in das Erklärungsmodell Nach Hox (2010, S. 57) sollen erst dann Varianzen der Effekte freigesetzt werden, wenn der fixed Part des Modells ausreichend modelliert ist. Durch die Freisetzung der Varianzen der Effekte wird das Potenzial des Mehrebenenansatzes ausgeschöpft ( random coefficient model ). Es wird nun davon ausgegangen, dass Effekte gruppenspezifisch variieren und nicht für alle Personen in allen Gruppen als gleich anzusehen sind. Darüber hinaus kann die Kovarianz zwischen Slope und Intercept modelliert werden (vgl. für schematische Beispiele Jäckle 2015, S. 150). Für die Interpretation der Signifikanz der Varianzen liegen unterschiedliche Vorschläge auch in Abhängigkeit der verwendeten Schätzverfahren für das Gesamtmodell vor (vgl. für einen Überblick Hox 2010, S. 156; Leckie et al. 2014). 6.5 Einbezug von Cross-Level-Interaktionseffekten Im letzten Schritt können die Modelle durch Cross Level Interaktionen ergänzt werden. Die Effekte werden zumeist als Moderation eines Individualeffektes durch eine spezifische Ausprägung der zweiten Ebene interpretiert (Hox 2010, S. 66). 25 Vgl. ausführlicher zur Hypothesenprüfung über die Effekte Raudenbush und Bryk (2002, S. 56 ff.).

17 Mehrebenenmodelle 17 Die Interpretation von Interaktionstermen ist bereits in weniger komplexen Modellen nicht trivial. Brambor et al. (2006) verweisen auf eine Inhaltsanalyse relevanter empirischer Fachbeiträge, die häufig Fehlinterpretationen beinhalteten. Sie leiten daraus Empfehlungen ab, die auch für Mehrebenenanalysen gelten. Hervorzuheben sind hier die Forderung, für die Interpretation der Interaktionsterme nicht auf die Standardausgabe der Koeffizienten zu setzen, sondern marginale Effekte für die einzelnen Konstellationen der bedingenden Variable zu berichten und vor allem für metrische Variablen grafische Darstellungen einzubeziehen (vgl. Brambor et al. 2006). 6.6 Modellvergleich Für den Modellvergleich kann in einem ersten Schritt die Devianz herangezogen werden. Berechnet als -2LogLikeihood enthält sie eine Information über den Abstand zwischen den modellgenerierten Werten und den empirischen Beobachtungen. Die Differenz aus zwei Devianzen ist Chi-Quadrat-verteilt, die Freiheitsgrade ergeben sich aus der Differenz der Anzahl der einbezogenen Parameter (wobei auch die Varianzkomponenten und Kovarianzen dazu zählen!). Beim Modellvergleich ist auf die verwendete Schätzmethode zu achten. Wenn die Full Maximum Likelihood Methode zur Anwendung kommt, können Differenzen aus Devianzen mit einem Chi-Quadrat-basierten Likelihood-Ratio-Test beurteilt werden (vgl. Hox 2010, S ). Modelle auf der Basis der Restricted Maximum Likelihood-Schätzung können dagegen nur dann miteinander verglichen werden, wenn der fixe Modellpart gleich bleibt. 26 Als weitere Maße für den Modellvergleich finden die Fitmaße AIC (Akaikes Information Criterion) und BIC (Schwarzes Bayesian Information Criterion) Anwendung. Beide beziehen die Komplexität des Modells in Form der Fallzahl und der Anzahl der zu schätzenden Parameter in die Berechnung mit ein. BIC ¼ d þ qlnðnþ AIC ¼ d þ 2q wobei: d=devianz q=anzahl der geschätzten Parameter N=Stichprobenumfang Diese Maße sind nicht explizit für die Mehrebenenanalyse entwickelt, aber mit ihrer Hilfe können multiple Modellvergleiche simultan erfolgen und so eine bessere Entscheidung über das beste der gefundenen Modelle getroffen werden. Sie basieren 26 Wenn sich der fixe Part zwischen den Modellen unterscheidet, soll die FML-Schätzung Verwendung finden. Hier werden alle Modellteile in die Maximierung der Likelihoodfunktion einbezogen.

18 18 M. Pötschke auf umfassenden Konzepten der Informationstheorie (AIC) oder des Bayesianischen Ansatz (BIC) (Hamaker und Klugkrist 2011, S. 232). Für ihre Interpretation ist nicht der Wert des Information Criterions per se interessant, sondern die Differenz zwischen zwei Werten. 27 Bei der Entscheidung für eines der beiden Maße sind ihre unterschiedlichen Hintergründe zu beachten (vgl. Hamaker und Klugkrist 2011), obwohl sie in der Praxis zu ähnlichen Ergebnissen kommen. Bei unterschiedlichen Ergebnissen der beiden Maße bezüglich des besten Modells sind mehrere Modelle als Ergebnis zu berichten (Hamaker und Klugkrist 2011, S. 253, 254). 7 Spezifische Aspekte in der praktischen Anwendung Neben der generellen Beschreibung der Modellspezifikation und der Interpretationsmöglichkeiten der erhaltenen Schätzungen spielen in der praktischen Anwendung spezifische Teilfragen eine Rolle. Dieser Abschnitt widmet sich typischen solcher Fragen. 7.1 Zentrierung Nach wie vor wird bei der Anwendung von Mehrebenenanalysen die Datenzentrierung thematisiert. Damit ist gemeint, dass die erhobenen Daten unter bestimmten Voraussetzungen nicht in ihrer originalen Form sondern als Abweichungen von Mittelwerten 28 in die Analysen eingehen (sollten). Dadurch kann Multikollinearität zwischen Individualdaten und Kontextmerkmalen aufgehoben, die Kovarianzen zwischen Regressionskoeffizienten und Konstanten reduziert und iterative Prozesse beschleunigt werden (Langer 2010, S. 760). Die Entscheidung über eine Zentrierung kann nur aus inhaltlichen Gründen im Anschluss an das Forschungsinteresse begründet werden (Enders und Tofighi 2007, S. 122; Kreft und de Leeuw 1998, S. 114). Paccagnella (2006) betont differenzierter, dass sie von drei Sachverhalten abhänge: der Art der Zentrierung, der Spezifizierung von Cross Level Interaktionen und vom Analyseziel. Prinzipiell können Differenzen zwischen dem beobachteten Wert einer Person und dem generellen Mittelwert über alle Gruppen hinweg (Grand Mean Centering) oder die Differenzen zwischen dem beobachteten Wert einer Person und dem jeweiligen Gruppenmittelwert (Group Mean Centering) betrachtet werden. 27 Hamaker und Klugkrist (2011, S. 233, 234) stellen zwei Transformationen vor, die eine anschauliche Interpretation der Werte erlauben. 28 Paccagnella (2006) verweist auf unterschiedliche Bezugspunkte für die Zentrierung wie den Median oder das arithmetische Mittel.

19 Mehrebenenmodelle 19 Die Zentrierung am generellen Mittelwert erleichtert insbesondere die Interpretation der Regressionskonstanten, weil die Zentrierung für sie eine inhaltliche Bedeutung für die Merkmalsausprägung Null der unabhängigen Variablen sicherstellt. Ein Effekt kann vor dem Hintergrund mittlerer Ausprägungen in allen anderen zu kontrollierenden Variablen interpretiert werden. Enders und Tofighi (2007, S. 136) resümieren, dass die Zentrierung am generellen Mittelwert dann angezeigt sei, wenn die Forschungsfrage auf Effekte der zweiten Ebene unter Kontrolle der Zusammenhänge der ersten Ebene gerichtet ist und wenn Interaktionseffekte der zweiten Ebene einbezogen werden (so auch Langer 2010, S. 760). Erfolgt die Zentrierung am Gruppenmittelwert, dann wird die Konstante als Schätzung für die abhängige Variable bei einer Person geschätzt, die in den unabhängigen Variablen jeweils mittlere Ausprägung bezogen auf ihre eigene Gruppe aufweist. Mit der Relativierung absoluter Werte an der für eine Gruppe typischen Gruppenkonstellation soll dem so genannten Froschteicheffekt begegnet werden. Damit ist gemeint, dass eine spezifische Ausprägung in Abhängigkeit von der Komposition der Gruppe unterschiedliche Bedeutung haben kann. Es macht einen Unterschied, ob man ein großer Frosch in einem Teich mit anderengroßenfröschenistoderobmanalsgroßerfroschineinemteichmit vielen kleinen Fröschen lebt (Hox 2010, S.68).EndersundTofighi (2007, S. 136) empfehlen die Verwendung von Gruppenmittelwerten, wenn Zusammenhänge auf der Individualebene von zentralem Forschungsinteresse sind oder wenn Interaktionseffekte auf der ersten Ebene oder Cross Level Interaktionen in das Modell einbezogen werden. Paccagnella (2006, S. 72, 73) zeigt jedoch, dass die Zentrierung am Gruppenmittelwert das zu schätzende Modell derart verändert, sodass von einer Äquivalenz der Modelle ohne und mit Zentrierung nicht mehr auszugehen ist. 29 Auch Jäckle und Schärdel (2017, S. 162) resümieren aus der Literatur eher Vorbehalte gegen das gruppenspezifische Zentrieren. Ob Daten zentriert eingehen sollen, muss also tatsächlich für die jeweilige Forschungsfrage separat begründet und entschieden werden. Wenn Veränderungen im Zeitverlauf auf der Basis von Mehrebenenmodellen geschätzt werden, sind Zentrierungen gut denkbar. Die Erklärungen auf der ersten Ebene basieren dann ausschließlich auf der Varianz innerhalb der Gruppen (siehe hierzu fixed-effects-modelle im Beitrag von Ziller im vorliegenden Band). Auch wenn die Gesamtkomposition der Kontexte sehr ungleich ist, bieten sich Zentrierungen an. Für die Interpretation ist wichtig, dass nach der Zentrierung keine absoluten Skalenwerte sondern Veränderungen zum Mittelwert im Mittelpunkt der Analyse stehen. 29 Ebenso argumentieren Kreft und de Leeuw (1998, S. 108, 109), wobei sie den Begriff der Äquivalenz präziser ausführen. Sind zwei Modelle äquivalent heißt das, dass ihre Parameter ineinander überführt werden können, nicht aber, dass sie die gleichen Parameter aufweisen.

20 20 M. Pötschke 7.2 Schätzverfahren Die Ergebnisse aus Mehrebenenanalysen resultieren in der Regel aus Maximum Likelihood Schätzungen. Dabei werden ausgehend von Startwerten aus Einebenenregressionen iterativ Anpassungen von geschätzten Populationsparametern so vorgenommen, dass die empirischen Daten möglichst gut auf der Basis der Modellparameter repliziert werden (Heck und Thomas 2009, S. 113, 114; Rabe-Hesketh und Skrondal 2012, S. 101; Hox 2010, S.43). 30 Im Rahmen der ML-Schätzungen 31 wird zwischen zwei grundsätzlichen Verfahren unterschieden: Full Maximum Likelihood (FML) und Restricted Maximum Likelihood (RML). Die FML bezieht alle zu schätzenden Regressionskoeffizienten und Varianzkomponenten in die iterative Anpassung ein. Dagegen gehen mit RML in einem ersten Schritt nur die Varianzkomponenten in die Anpassung ein und die Regressionskoeffizienten werden in einem zweiten, separaten Schritt geschätzt (Kreft und de Leeuw 1998, S. 131; Hox 2010, S. 41). In der Praxis sind FML-Schätzungen weit verbreitet, weil sie einfacher und schneller zu realisieren sind und weil sie den Modellgütevergleich mit Chi-Quadrat-basierten Tests erlauben. Für das RML spricht, dass damit geringere Verzerrungen der Varianzkomponenten auftreten. 32 Und es ist angemessener, wenn kleine Fallzahlen auf der zweiten Ebene vorliegen (Skrondal und Rabe-Hesketh 2004, S. 185; Hox 2010, S. 41; McNeish 2017). Die Entscheidung für das eine oder das andere Verfahren kann nicht prinzipiell gefällt werden, sondern ist von zahlreichen spezifischen Bedingungen abhängig (Skrondal und Rabe-Hesketh 2004, S. 185). In der praktischen Anwendung zeigt sich zudem, dass die Unterschiede in den gefundenen Schätzern häufig trivial sind (Hox 2010, S ; Kreft und de Leeuw 1998). Die Schätzung auf der Basis der Likelihood Maximierung kann in die sich zunehmender Verbreitung erfreuende Strategie des Bootstrapping eingebettet werden (Hox 2010, S ). Dabei werden aus dem bestehenden Sample wiederholt 30 Wenn zu viele Varianzparameter geschätzt werden sollen, die Werte nahe Null aufweisen, oder wenn die Modelle falsch spezifiziert sind oder wenn die Stichprobengröße klein ausfällt, können Konvergenzprobleme auftreten (Hox 2010, S. 42). In diesen Fällen kann auf die Generalized Least Square Methode zurückgegriffen werden. Als Verallgemeinerung des OLS-Ansatzes der linearen Regression führt ihre Anwendung bei großen Fallzahlen zu analogen Ergebnissen wie die ML-Schätzung. Allerdings sind die GLS-Schätzer weniger effizient und die resultierenden Standardfehler sind ungenau (Kreft 1996). 31 Die Algorithmen, die zur Maximierung des Likelihood herangezogen werden können, sind vielfältig. Skrondal und Rabe-Hesketh (2004, S. 159 ff.) diskutieren in einer umfassenden Übersicht neben dem EM-Verfahren weitere Maximierungsalgorithmen, die je nach der konkreten Zielrichtung der Analyse und der Qualität der verwendeten Daten anzuwenden sind. 32 Wenn die Gruppengrößen stark variieren, kann auch die RML-Schätzung verzerrt sein (Skrondal und Rabe-Hesketh 2004, S. 185).

21 Mehrebenenmodelle 21 Stichproben gezogen, 33 die Parameter unter Verwendung des FML oder RML Verfahrens geschätzt und dann eine Lösung über alle Bootstrappiterationen hinweg erzeugt. 34 Im Ergebnis entsteht eine Verteilung der synthetischen (Carpenter et al. 1999) Modellparameter, durch die bessere Punkt- und Standardfehlerschätzungen generiert werden können. Die Schätzung der logistischen Mehrebenenmodelle erfolgt auf der Basis von Taylorreihen als sogenannte Quasi-Likelihood-Verfahren. Dabei ist eine Entscheidung darüber zu treffen, ob in die Schätzung lediglich der fixe Part des Modells einbezogene wird (MQL: Marginal Quasi Likelihood) oder auch die Varianzkomponenten (PQL: Predictive Quasi Likelihood) eingehen (Hox 2010, S ). Insbesondere dann, wenn die Zufallseffekte groß und die Gruppengrößen klein sind, wären PQL Schätzungen zu präferieren. Da in diesen Fällen häufig Konvergenzprobleme auftreten, werden in der Forschungspraxis aber auch MQL Schätzungen genutzt. Bezogen auf beide Verfahren ist von einer Unterschätzung der Regressionskoeffizienten auszugehen. Deshalb zieht Hox (2010, S. 123) den Schluss, dass eine bessere Schätzung auf der Basis einer numerischen Integration im Rahmen des FML vorliegt. Rabe-Hesketh und Skrondal (2012, S. 541) empfehlen aus Rechenkapazitätsgründen die Spezifikation nach Laplace mit nur einem Integrationspunkt. 35 Ein Schätzverfahren, das sich zunehmend leichter umsetzen lässt, ist die Bayesianische Schätzung (Hamaker und Klugkrist 2011). 36 Hier werden Wahrscheinlichkeiten als Grad der Unsicherheit über die Populationsparameter (Hamaker und Klugkrist 2011, S. 137) und nicht als Maß der Replizierbarkeit empirischer Verteilungen aufgefasst. Die Populationsparameter werden als zufällige Größen mit einer bekannten Wahrscheinlichkeitsverteilung verstanden und auf der Basis der empirischen Beobachtungen mit ihrer Posteriori-Wahrscheinlichkeitsverteilung geschätzt (Hamaker und Klugkrist 2011; Kreft und de Leeuw 1998, S. 132). Die Festlegung der A-priori-Verteilung ist dabei eine große Herausforderung für den Forscher 33 Hox (2010, S. 264) verweist auf spezifische Studien, die zeigen, dass für eine erfolgreiche Schätzung auf der Basis von Bootstrappiterationen eine Fallzahl von mindestens 150 vorliegen muss. Die Zahl der Iterationen liegt üblicherweise zwischen 1000 (Hox 2010, S. 44) und In speziellen Verteilungen können aber auch 5000 Iterationen notwendig werden (Hox 2010, S. 264). Die Bootstrappsamples müssen die gleiche hierarchische Struktur aufweisen wie das originale Sample. Das ist bisher für das fallweise Bootstrapping nicht zu realisieren. Deshalb findet in Mehrebenenmodellen nur parametrisches oder nicht parametrisches Bootstrapping der Residuen Anwendung (Hox 2010, S. 268). Im ersten Fall werden die Parameterschätzungen auf der Basis des gesamten Modells generiert, im zweiten Fall auf der Basis der Residualmatrizen (vgl. Carpenter et al. 1999). 34 Für einen grundlegenden Überblick vgl. van der Leeden et al. (2008, S ). 35 Dafür schlagen Rabe-Hesketh und Skrondal (2012, S. 540, 541) vor, xtmelogit zu verwenden. Zur Optimierung empfehlen sie gllamm, wenn mehr als 5 Integrationspunkte Verwendung finden. Hox (2010, S. 123, 139) schlägt die Verwendung von Bayesianischen Schätzungen oder Bootstrapverfahren vor, wenn keine numerische Integration möglich ist. 36 Zwei sehr anschauliche grundlegende Zugänge zum bayesianischen Ansatz finden sich, allerdings fachfremd, u. a. bei Gigerenzer (2002) und Schweizer (2015).