MEHREBENENANALYSE: ANGEMESSENE MODELLIERUNG VON EVALUATIONSDATEN Potsdam 27. März 2009 Dr. Manuela Pötschke
HINTERGRUND Neue Anforderungen an Evaluation (hier aus Fachbereichssicht) - Berichterstattung - Mittelzuweisung - Flächendeckende Evaluationen - Konsequenzen? - Bezug der Beurteilung? - Kriterien der Beurteilung? - Komplexität der erhobenen Daten 2
HIERARCHISCHE DATENSTRUKTUR 3. Ebene: Dozent (N=60) Dozent 1 Dozent 1 2. Ebene: Veranstaltung 1 Veranstaltung 2 Veranstaltung 3 Veranstaltung 4 Veranstaltung (N=150) 1. Ebene: studentisches Urteil (N 2300) Eval1 Eval2 Eval3 Eval4 Eval5 Eval6 Eval7 Eval8 Eval9 Eval10 Eval11 Eval12 Eval13 Eval14 Eval15
DAS EMPIRISCHE BEISPIEL: ERKLÄRUNG INDIVIDUELLER LEHREVALUATIONSURTEILE Unabhängige Variablen Abhängige Variable Dozent (N=60) Geschlecht Statusgruppe: Professor, Promovierter Mitarbeiter, nicht promovierter Mitarbeiter Persönlichkeitseigenschaften: Sympathie, Kreativität, Offenheit, Attraktivität, Kompetenz (N=30) Veranstaltung (N=150) Fach: Soziologie, Politikwissenschaft, Geographie, Religionswissenschaft, Master Politik Veranstaltungstyp: Vorlesung, Seminar, Übung Studentisches Evaluationsurteil studentisches Urteil (N 2300) Aussagen zur Veranstaltung, dem Stoff und dem Dozent Aussagen zur Lernatmosphäre und dem Verhältnis zu anderen Eigene Leistungsbeurteilung Geschlecht, Fach
VERNACHLÄSSIGUNG DER DATENSTRUKTUR Beispiel: Wie wirkt sich die eigenen Leistungsbeurteilung auf die Veranstaltungsbeurteilung aus? Veranstaltungsbeurteilung: Alles in allem, wie beurteilen Sie die Qualität der Veranstaltung insgesamt? (1=sehr schlecht bis 11=sehr gut) Leistung: eigene Leistungsbeurteilung der Studierenden (1=sehr gut bis 5= sehr schlecht) Veranstaltungsbeurteilung 1 2 3 4 5 eigene Leistungsbeurteilung R 2 =0,0048 y=7,411-0,3082x+e (***) Probleme: Unterstellung der Unabhängigkeit aller Beurteilungen der Studierenden über die Veranstaltungen und Dozenten hinweg globales und wenig aussagekräftiges Bild, durch die ausschließliche Orientierung am Gesamtmittelwert über alle Veranstaltungen und alle Dozenten hinweg 5
AGGREGIERUNG DER INDIVIDUALDATEN 2 4 6 8 10 R 2 =0,0005 (n.s.) 2 2.5 3 3.5 mittelleist y=5,963+0,2235x+e Probleme: Durch die Aggregierung der Daten geht viel Information, insbesondere aber die Varianzen innerhalb der Aggregateinheiten verloren. Die Aggregate werden im Rahmen eines solchen Vorgehens als in sich homogen betrachtet, was extrem fragwürdig ist. Die Ergebnisse auf der Aggregatebene weichen von den Ergebnissen auf der Individualebene teilweise erheblich ab (sog. aggregation bias) Die Untersuchung des Zusammenwirkens von Individual- und Aggregatvariablen ist nicht möglich Die Ergebnisse einer Aggregatanalyse lassen sich theoretisch nur schwer interpretieren. Jede Kausalinterpretation muss eigentlich auf individueller Ebene argumentieren, die Information über diese wurde durch die Aggregation jedoch fallen gelassen. 6
DURCHFÜHRUNG SEPARATER REGRESSIONSANALYSEN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 20 21 22 26 27 29 30 31 32 34 35 36 37 38 39 40 41 42 43 44 45 46 48 51 52 53 54 55 57 58 60 61 62 63 64 66 67 68 69 70 71 72 73 74 75 76 79 80 81 82 83 85 86 87 88 89 90 92 93 96 97 98 100 101 102 103 104 106 107 108 110 111 112 113 114 115 116 117 118 119 120 121 122 123 125 128 130 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 3 3 3 3 3 3 3 3 3 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 147 149 150 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Graphs by Titlcode Leistung Probleme: Hier wird zwar zugelassen, dass in den verschiedenen Aggregateinheiten unterschiedliche Beziehungsstrukturen existieren, doch ist ein solches Vorgehen nur bei einer kleinen Zahl von Level-2- Einheiten praktikabel. Es ist im Rahmen dieses Vorgehens nicht möglich, den Einfluss von Aggregatvariablen auf die abhängige Variable (Kontexteffekt) und die Stärke des Effekts von Mikrovariablen (Cross- Level-Interaktion) zu untersuchen. 7
SLOPES AS OUTCOMES -ANALYSEN Modellidee: Nachdem für jede Einheit der 2. Ebene ein separates Regressionsmodell geschätzt wurde, werde die Regressionsparameter Intercept und Slope aus diesen Regressionsmodellen durch Merkmale der 2. Ebene erklärt. Probleme: Die Koeffizienten der Regressionsmodelle innerhalb der Aggregateinheiten basieren in der Regel auf sehr geringen Fallzahlen. Die Schätzwerte für Regressionskonstante und -koeffizienten sind daher nicht sehr reliabel. Wenige Ausreißer können eine erhebliche Fehlervarianz bewirken ( bouncing betas ) Angemessene Mehrebenenmodelle müssen daher die Stichprobengrößen, auf denen die Schätzer der Koeffizienten basieren, berücksichtigen. Keine Analyse von Cross-Level-Interaktionen möglich Die Slopes as Outcomes -Analyse ist in der Regel beschränkt auf die Analyse einer unabhängigen Mikro-Variablen. 8
BEGRIFF UND IDEE DER MEHREBENENANALYSE Mehrebenenanalysen als angemessenes Verfahren: spiegelt die Datenstruktur wieder und kommt deshalb zu korrekten Schätzungen erlaubt die Analyse und Darstellung komplexer Datenstrukturen Inhaltliche Begründung aus empirischen Studien und theoretischen Überlegungen Methodische Begründungen Man spricht immer dann von einer Mehrebenenanalyse, wenn Objekte verschiedener Ordnung gleichzeitig zum Gegenstand der Analyse werden (Hummell 1972: 13) und ihre Wirkung auf eine abhängige Variable simultan bestimmt wird. 9
LINEARE EINFACHREGRESSION y yi =β 0 +β 1x1i + ei τ 0 = 0 τ 1 = 0 x 1
RANDOM INTERCEPT y Rando m interce pt γ 00 wobe i: y + e = β 0 j + β 1 j x1 β 0j =γ 00+u0j τ0 0 τ 1 = 0 x 1 γ τ γ 00 + τ00 00 00 γ 00 11
RANDOM SLOPES y γ 10 Random slopes τ 0 = 0 τ1 0 wobe xi: 1 y + e = β 0 j + β 1 j x1 β =γ +u 1j 10 1j γ τ γ 10 + τ11 10 11 γ 10 12
RANDOM SLOPE AND RANDOM INTERCEPT y y + e = β 0 j + β 1 j x1 wobe i:und β =γ +u β =γ +u 0j 00 0j 1j 10 1j y τ0 0 τ1 0 τ 01 < 0 x 1 y + e = β 0 j + β 1 j x1 wob ei: und β =γ +u β =γ +u 0j 00 0j 1j 10 1j τ τ1 0 0 0 τ 01 > 0 x 1
MIXED FORM Einfügen von... β = β + u 0 j 0 0 j und β = β + u 1 j 1 1 j in... y + + = β β x 0 j 1 j 1 e i =1,...,n j = 1,..., J ergibt... y + = β + u j + β 0 0 1x1 + u1 j x1 e umgestellt: y + = β + β 0 1 x1 + u0 j + u1 j x1 e Fixed Part Random Part
MÖGLICHE EFFEKTE Effekte von Individualvariablen 3. Ebene 2. Ebene w z 1. Ebene x y 3. Ebene w Effekte von Aggregatvariablen 2. Ebene z 1. Ebene x y 3. Ebene w Cross-Level-Interaktionen 2. Ebene z 1. Ebene x y 15
WARUM MEHREBENENANALYSEN? POTENTIALE die Zerlegung der Gesamtvarianz in die durch die einzelnen Ebenen erklärbaren Varianzanteile. die gleichzeitige Untersuchung von Effekten unterschiedlicher Merkmale aus verschiedenen Aggregatebenen. den Einbezug von Wechselwirkungen über unterschiedliche Aggregatebenen hinweg (Cross-Level-Wechselwirkungen). die gleichzeitige Berücksichtigung zufälliger Variation auf unterschiedlichen Ebenen. die korrekte Schätzung von Standardfehlern in mehrstufigen Zufallsauswahlen. Empty Model Random Intercept Model Cross Level Effect Model Random Coefficient Model Designeffekt 16
NULLMODELL: EMPIRISCHES BEISPIEL Leeres Modell ohne erklärende Variable(n) Veranstaltungsevaluationk =β 0 + r0k + u0 jk + ek Varianzzerlegung auf die Ebenen: Dozent: 10,22 % Veranstaltung: 60,64 % Studierende: 29,14 % var(r) = 1,2609 τ 00 = 7,4835 σ 2 e = 3,5968 Mittlere Schätzung über alle Personen in allen Gruppen hinweg: 6,42 Modellgüte: -2ll=8822,3916 17
VORLÄUFIGE EMPIRISCHE ERGEBNISSE Erklärungen durch Variablen der ersten Ebene Über die Ziele wurde gut informiert. Die Basisliteratur verstehe ich gut. Die Studierenden wurden gut betreut. Atmosphäre insgesamt (fünfstufig: sehr gut sehr schlecht) 0,293*** 0,161*** 0,364*** -0,402*** var(r) = 0,8952 τ 00 = 8,7417 σ 2 e = 3,242 Ich bin schnell abgelenkt -0,250*** -2ll = 6712,437*** (zum Nullmodell)
VORLÄUFIGE EMPIRISCHE ERGEBNISSE Erklärungen durch Variablen der zweiten Ebene Über die Ziele wurde gut informiert. Die Basisliteratur verstehe ich gut. Die Studierenden wurden gut betreut. Atmosphäre insgesamt (fünfstufig: sehr gut sehr schlecht) Ich bin schnell abgelenkt Referenz Master Politik Soziologie Politikwissenschaft Geographie Religion 0,293*** 0,163*** 0,366*** -0,406*** -0,250*** 5,1*** 3,898*** 4,923* 3,533** var(r) = 1,5149 τ 00 = 7,6337 σ 2 e = 3,2415 Kein signifikanter Einfluss des Veranstaltungstyps, wenn um die Atmosphäre kontrolliert wird. -2ll = 6691,9616 *** (zum letzten Modell und zum Nullmodell)
VORLÄUFIGE EMPIRISCHE ERGEBNISSE Erklärungen durch Variablen der dritten Ebene Über die Ziele wurde gut informiert. Die Basisliteratur verstehe ich gut. Die Studierenden wurden gut betreut. Atmosphäre insgesamt (fünfstufig: sehr gut sehr schlecht) Ich bin schnell abgelenkt Referenz Master Politik Soziologie Politikwissenschaft Geographie Religion Referenz Assistent Professor Nicht promovierter Mitarbeiter 0,293*** 0,163*** 0,367*** -0,406*** -0,250*** 5,342*** 3,732*** 5,732** 3,58** 1,474* 0,627 var(r) = 1,2269 τ 00 = 7,7392 σ 2 e = 3,2412 Keine signifikanten Einflüsse des Geschlechts des Dozenten. Keine signifikanten Einflüsse der Persönlichkeitsmerkmale der Dozenten. -2ll = 6686,1536 *** (zum Nullmodell)
FAZIT Potentiale Mehrebenenmodelle sind der Evaluationsdatenstruktur angemessen Inhaltlich relevante zusätzliche Informationen für größere Einheiten Informationen sind übersichtlich zu präsentieren Einflüsse der Struktur und individueller Merkmale werden gleichzeitig einbezogen Probleme mit/ in Mehrebenenmodellen Hohe Anforderungen an die Struktur der Daten und die Stichprobenziehung Konsequenzen der Verletzung von Modellannahmen noch nicht ausreichend untersucht Inhaltliche gehaltvolle Variablen auf unterschiedlichen Aggregatebenen Komplexität der impliziten Modellbeziehungen Inhaltliche Schlussfolgerungen Hinweise auf angemessene Schätzungen durch Mehrebenenmodelle, die erweiterte Interpretationen zulassen Ambivalente Befunde zu den Einflüssen von Persönlichkeitseigenschaften der Dozenten bleiben bestehen Keine Unterschiede in der Beurteilung von Frauen und Männern 21