Modellbasierte Entwicklung und Analyse von Testaufgaben zur Erfassung der Kompetenz Musik wahrnehmen und kontextualisieren



Ähnliche Dokumente
Bildungsstandards konkret formulierte Lernergebnisse Kompetenzen innen bis zum Ende der 4. Schulstufe in Deutsch und Mathematik

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Kompetenzinventar im Prozess der Berufswegeplanung

Insiderwissen Hintergrund

Vom kompetenzorientierten Unterricht zur kompetenzorientierten Matura

Entwicklung eines Beratungsprogramms zur Förderung der emotionalen Intelligenz im Kindergarten

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Zwischenbericht der UAG NEGS- Fortschreibung

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Pilotierung von Unterrichtsbeispielen

Persönlichkeit und Persönlichkeitsunterschiede

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

II. Zum Jugendbegleiter-Programm

1 Mathematische Grundlagen

Leitfaden zur Anfertigung von Diplomarbeiten

Fortbildungsangebote für Lehrer und Lehrerinnen

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Änderung des IFRS 2 Anteilsbasierte Vergütung

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

2 Aufbau der Arbeit und wissenschaftliche Problemstellung

Statistische Auswertung:

Die DFG Projekte RU Bi Qua und KERK an der Humboldt Universität zu Berlin und der neue Rahmenlehrplan RU. Kern der gegenwärtigen Bildungsreform:

Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht

Rhetorik. 02. Mai Staatliches Schulamt im Landkreis Aichach-Friedberg l Dr. Klaus Metzger

2.1 Präsentieren wozu eigentlich?

Reputation von Fußball-Clubs Entwicklung und empirische Überprüfung eines Messkonzepts auf Basis der Reputation Quotient (RQ)

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Richtlinien der Osteopathie Schule Deutschland zur Abschlussarbeit für die Erlangung der Ausbildungsbezeichnung D.O.OSD.

Grundschule des Odenwaldkreises. Rothenberg. Fortbildungskonzept

Die vorliegende Arbeitshilfe befasst sich mit den Anforderungen an qualitätsrelevante

Informationsblatt Induktionsbeweis

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

20 Möglichkeiten und. Voraussetzungen technologiebasierter Kompetenzdiagnostik

Abschlußbericht der Fachkonferenzen Deutsch / Englisch/Mathematik mit der Auswertung der Erfahrungen der Lernstandserhebung 2008.

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Versetzungsregeln in Bayern

Programmmoduls für die CEMES-Plattform zur onlinebasierten Ermittlung der Leistungspunkte

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Wissenschaftlicher Bericht

Kommunikationskompetenz von Schulleiterinnen und Schulleitern

WP-Fach Informationen für Schülerinnen und Schüler der Jahrgangsstufe 5

Talentmanagement in Unternehmen gestalten. Suche und Bindung von technischen Fachkräften

Erfolg im Verkauf durch Persönlichkeit! Potenzialanalyse, Training & Entwicklung für Vertriebsmitarbeiter!

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

Neue Medien in der Erwachsenenbildung

Passung von Partnern: Der Einfluss von Persönlichkeitsmerkmalen auf Beziehungsqualitäten

1.4.1 Lernen mit Podcasts

Überprüfung der Bildungsstandards in den Naturwissenschaften. Chemie Marcus Mössner

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Welches Übersetzungsbüro passt zu mir?

Plümper, Thomas, 2003, Effizient Schreiben, München, Oldenbourg,

2. Psychologische Fragen. Nicht genannt.

WSO de. <work-system-organisation im Internet> Allgemeine Information

Stellungnahme der Bundesärztekammer

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Deutschland-Check Nr. 34

Kleine Anfrage mit Antwort

BeurkG 16, 13 Abs. 1 S. 1 Umfang der Übersetzung einer Niederschrift für einen Sprachunkundigen. I. Sachverhalt. II. Fragen

Anja Sachadä. Hochschule Mittweida-Roßwein. University of Applied Sciences. Fakultät Soziale Arbeit. Bachelorarbeit

Was sind Jahres- und Zielvereinbarungsgespräche?

Hrsg: VIS a VIS Agentur für Kommunikation GmbH, Köln

3.3 Befunde auf der Schulebene 3.4 Befunde auf Schulsystemebene Nachhilfequoten im internationalen Vergleich

Volksbank BraWo Führungsgrundsätze

Wärmebildkamera. Aufgabe 1. Lies ab, wie groß die Temperatur der Lippen (am Punkt P) ist. ca. 24 C ca. 28 C ca. 32 C ca. 34 C

Die Zukunft der Zukunftsforschung im Deutschen Management: eine Delphi Studie

Energetische Klassen von Gebäuden

2.1 An welchen Weiterbildungsmaßnahmen haben Sie bisher teilgenommen? Beurteilen Sie bitte rückblickend deren Relevanz für Ihr Tätigkeitsfeld?

Festigkeit von FDM-3D-Druckteilen

Mean Time Between Failures (MTBF)

Anhang A Fragebogen. Mapping Science Center Aktivitäten in Österreich BMBWK GZ 3.010/0027-VI/3/2006

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Weiterbildungen 2014/15

Was erwartet Sie beim Einstellungstest?

down-vorgehen bei Anforderungsanalysen als notwendige Ergänzung zum Bottom-up

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Mixed Leadership for More success.

h e l m u t h u b e r

AUFGABE 1. Sehen Sie das Schaubild über das deutsche Schulsystem an und und markieren Sie: richtig oder falsch.

Mobile Intranet in Unternehmen

Primzahlen und RSA-Verschlüsselung

offene Netzwerke. In diesem Sinn wird auch interkulturelle Kompetenz eher als Prozess denn als Lernziel verstanden.

Leseprobe. Thomas Konert, Achim Schmidt. Design for Six Sigma umsetzen ISBN: Weitere Informationen oder Bestellungen unter

1.1 Ausgangssituation 1

Es gilt das gesprochene Wort. Anrede

Vorgestellt von Hans-Dieter Stubben. BVW GmbH: Partner des Bundes-Versorgungs-Werk der Wirtschaft und der Selbständigen e.v.

6 Schulungsmodul: Probenahme im Betrieb

Planspiele in der Wirtschaft.

Ethik im Netz. Hate Speech. Auftraggeber: Landesanstalt für Medien Nordrhein-Westfalen (LfM)

Empathisches CRM. (Empathic CRM) Sven Bruck, die dialogagenten. die dialogagenten Agentur Beratung Service GmbH Katernberger Straße Wuppertal

Umfrage. Didaktischer Kommentar. Lernplattform

Eckpunkte Gymnasiale Oberstufe Saar

Unterrichtsentwurf. (Unterrichtsbesuch im Fach Informatik)

Bei der Tagung werden die Aspekte der DLRL aus verschiedenen Perspektiven dargestellt. Ich habe mich für die Betrachtung der Chancen entschieden,

Erfahrungen mit Hartz IV- Empfängern

Symposium Forschendes Lernen im kulturellen Bereich Möglichkeiten und Herausforderungen im Kontext von Schule 23. und 24. September 2010 in Berlin

Umfrage in den 5er-Klassen zu Hausaufgaben in den Nebenfächern im Schuljahr 2014/15

Portfolio zur Analyse der Personalqualität

MuP-Arbeitshilfen. Kreativität organisieren Der innovative Prozess. Problem-Phase

4. Das neue Recht der GmbH ein Überblick

Transkript:

Modellbasierte Entwicklung und Analyse von Testaufgaben zur Erfassung der Kompetenz Musik wahrnehmen und kontextualisieren Dissertation zur Erlangung der Doktorwürde durch den Promotionsausschuss Dr. phil. der Universität Bremen vorgelegt von Jens Knigge Bremen, den 15.03.2010

II Teile dieser Arbeit wurden bereits veröffentlicht unter: Jordan, A.-K. & Knigge, J. (2010). The development of competency models: An IRT-based approach to competency assessment in general music education. In T. S. Brophy (Hrsg.), The Practice of Assessment in Music Education: Frameworks, Models, and Designs. Proceedings of the 2009 Florida Symposium on Assessment in Music Education (S. 67-86). Chicago: GIA. Knigge, J. & Lehmann-Wermser, A. (2008). Bildungsstandards für das Fach Musik - Eine Zwischenbilanz. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bildungsstandards und Kompetenzmodelle für das Fach Musik?, 60-98. Verfügbar unter: http://www.zfkm.org/sonder08-kniggelehmannwermser.pdf [4.3.2010]. Knigge, J. & Lehmann-Wermser, A. (2009). Kompetenzorientierung im Musikunterricht. Musik & Unterricht (94), 56-60.

III Danksagung Verschiedene Personen haben zum Gelingen dieser Arbeit beigetragen. Für zahlreiche motivierende Gespräche, wertvolle Hinweise und kritische Kommentare möchte ich mich insbesondere bei Andreas Lehmann-Wermser, Andreas C. Lehmann und den Kolleginnen und Kollegen des Bremer Instituts für Musikwissenschaft und Musikpädagogik bedanken. Weiterhin zu danken ist den Kooperationslehrern des KoMus-Projekts und vor allem auch deren Schülerinnen und Schülern, ohne deren großes Engagement diese Arbeit nicht hätte entstehen können. Einen besonderen Dank möchte ich Anne Niessen und Klaudia Schulte aussprechen, für unermüdliche Diskussionen, unzählige Korrekturrunden und viel freundschaftliche Unterstützung. Bremen, im März 2010, Jens Knigge

IV Inhaltsverzeichnis Danksagung... III Inhaltsverzeichnis...IV Abbildungsverzeichnis... VII Tabellenverzeichnis...IX Abkürzungsverzeichnis... XII 1 Einleitung...1 A. HINTERGRUND UND THEORETISCHE GRUNDLAGEN...6 2 Bildungsstandards und Kompetenzorientierung...6 2.1 Zentrale Konzepte und Begriffe... 6 2.1.1 Bildungsstandards... 7 2.1.2 Kompetenzbegriff... 9 2.1.3 Kompetenzmodelle... 13 Exkurs: Kompetenzorientierung vs. Lernzieloperationalisierung... 16 2.2 Bildungsstandards, Kompetenzorientierung und das Fach Musik... 19 2.2.1 Curriculare Ebene... 19 2.2.2 Fachwissenschaftlicher Diskurs... 23 2.2.3 Das KoMus-Projekt... 28 3 Aufgaben als zentrales Moment der Kompetenzerfassung...32 3.1 Testaufgaben: Gütekriterien, Komponenten, Formate... 33 3.2 Tests und Aufgaben zur Erfassung musikalischer Kompetenz: Stand der Forschung.. 37 3.2.1 Musiktests... 39 3.2.2 Schulleistungsstudien... 42 B. EMPIRISCHE UNTERSUCHUNGEN...44 4 Modellbasierte Aufgabenentwicklung...44 4.1 Das theoretische Kompetenzmodell Musik wahrnehmen und kontextualisieren... 45 4.2 Testkonstrukt: Vom Modell zu den Testaufgaben... 48 4.2.1 Curriculare Analysen... 50 4.2.2 Musikpsychologische Forschung...52 4.3 Design und Prozess der Aufgabenentwicklung... 56

V 5 Methoden...63 5.1 Testtheoretischer Hintergrund... 63 5.1.1 Klassische und Probabilistische Testtheorie... 64 5.1.2 Verwendete probabilistische Testmodelle: dichotomes und ordinales Rasch-Modell... 67 5.2 Analyseverfahren... 73 5.2.1 Itemschwierigkeit... 73 5.2.2 Trennschärfe... 78 5.2.3 Distraktorenanalyse... 79 5.2.4 Itemfit... 80 5.2.5 Globaler Modelltest: Geltung des Rasch-Modells... 83 5.2.6 Differential Item Functioning (DIF)... 85 5.3 Durchführung der Erhebungen... 88 5.3.1 Stichprobe... 88 5.3.2 Testdurchführung... 90 6 Itemanalysen und -selektion...92 6.1 Statistische Überprüfung der Items und Tests... 92 6.1.1 Kriterien der Itemselektion... 93 6.1.2 Exemplarische Darstellung des Selektionsprozesses... 99 6.1.3 Itemselektion: Ergebnisse und Zusammenfassung... 119 6.2 Inhaltliche Itemanalysen aus fachwissenschaftlicher Perspektive... 124 6.2.1 Gute Multiple-Choice-Items: Eine Frage der Distraktoren... 125 6.2.2 Differential Item Functioning: unfaire Items... 136 6.2.3 Analyse und Interpretation von Itemschwierigkeiten... 140 7 Weiterführende Itemanalysen: Identifikation schwierigkeitsgenerierender Aufgabenmerkmale...153 7.1 Vertiefende Analysen der Items zur Rhythmuswahrnehmung... 157 7.2 Vertiefende Analysen der Items zur Formwahrnehmung... 180 7.3 Wissensbasierte Aufgabenmerkmale... 191 7.4 Merkmalsebene Aufgabe... 200 7.4.1 Aufgabenmerkmal Itemformat... 200 7.4.2 Aufgabenmerkmal sprachliche Anforderungen... 203

VI 7.5 Zusammenfassung und Systematisierung der Aufgabenmerkmale... 205 7.5.1 Systematisierung der Merkmale... 206 7.5.2 Ausprägung und Kodierung der Merkmale... 208 7.5.3 Kodierung einzelner Beispielitems... 214 7.6 Empirische Analyse der Zusammenhänge von Aufgabenmerkmalen und - schwierigkeiten... 219 7.6.1 Methodisches Vorgehen... 219 7.6.2 Datengrundlage... 221 7.6.3 Durchführung der Regressionsanalysen... 222 7.6.4 Ergebnisse... 228 8 Diskussion und Zusammenfassung...237 8.1 Zusammenfassung der Ergebnisse... 237 8.2 Grenzen der durchgeführten Analysemethoden und weiterführende methodische Überlegungen... 239 8.3 Testaufgaben zur Erfassung der Hörwahrnehmung: Technische Herausforderungen und mögliche Optimierungen... 243 8.4 Curriculare Validität der entwickelten Aufgaben... 245 8.5 Ausblick... 246 Literaturverzeichnis...250 Verzeichnis der verwendeten Curricula...265 Anhang A: Itemkennwerte... 268 Anhang B: Lehrerrückmeldebogen... 283 Anhang C: Schülerrückmeldebogen... 285

VII Abbildungsverzeichnis Abb. 1: Theoretisches Strukturmodell der DESI-Studie (in Anlehnung an: Beck & Klieme, 2007, S. 15 und Nold & Rossa, 2007)... 15 Abb. 2: Drei-Phasen-Design des KoMus-Projekts... 29 Abb. 3: Komponenten einer Testaufgabe am Beispiel eines Multiple-Choice-Items... 35 Abb. 4: Theoretisches Kompetenzmodell Musik wahrnehmen und kontextualisieren (basierend auf: Niessen et al., 2008, S. 20)... 46 Abb. 5: Zirkulärer Aufgabenentwicklungsprozess... 59 Abb. 6: Phasen der Aufgabenentwicklung... 61 Abb. 7: Zusammenhang von Personenmerkmal und Testverhalten (in Anlehnung an: Rost, 2004, S. 21)... 65 Abb. 8: Latente Variable und manifeste Merkmalsausprägungen... 65 Abb. 9: IC-Funktion des dichotomen Rasch-Modells für ein Item mit der Schwierigkeit i = 0 (entnommen aus: Rost, 2004, S. 120)... 68 Abb. 10: Lösungswahrscheinlichkeit für eine Person mit = 1 bei einem Item mit = 0... 69 Abb. 11: Itemfunktionen von drei Items mit den Parametern 1 = 0, 2 = 1 und 3 = 2 (entnommen aus: Rost, 2004, S. 120)... 70 Abb. 12: Kategorienfunktionen eines dreikategoriellen Items (entnommen aus: Rost, 2004, S. 203)... 71 Abb. 13: Beispiel einer Wright map...75 Abb. 14: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit gutem Itemfit... 81 Abb. 15: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit schlechtem Itemfit... 82 Abb. 16: Beispiel für eine grafische Kontrolle auf DIF; Vergleich der Itemschwierigkeiten für Jungen (J) und Mädchen (M)... 86 Abb. 17: Beispiel-Item mit starkem DIF... 87 Abb. 18: Beispiel-Item ohne DIF... 87 Abb. 19: Grafische Darstellung von Itemfit und Itemschwierigkeit für alle selektierten Items... 121 Abb. 20: Item D3-6a (Testheft 8)...126 Abb. 21: Item D1-1a (Testheft 1)...127 Abb. 22: Item D3-1e (Testheft 2)...129 Abb. 23: Item D3-1e (Testheft D3)... 129 Abb. 24: Item D4-1e-1 (Testheft 5)... 131 Abb. 25: Item D4-1f-3 (Testheft 5)... 132 Abb. 26: Item D3-7c (Testheft D3)... 134 Abb. 27: Item D4-3b-3/5 (Testheft 7)... 137 Abb. 28: IC-Funktionen des Items D4-3b-3/5 für Mädchen (blau) und Jungen (grün)... 137 Abb. 29: Item D2-7a (Testheft 7)...138

VIII Abb. 30: IC-Funktionen des Items D2-7a für Mädchen (blau) und Jungen (grün)... 139 Abb. 31: Item D3-7d (Testheft 3)...141 Abb. 32: Items D3-10-1 und D3-10-2 (Testheft 4)... 142 Abb. 33: Item D3-1b (Testheft D3)... 146 Abb. 34: Item D3-1c (Testheft D3)... 147 Abb. 35: Item D1-2a (Testheft D1)... 149 Abb. 36: Item D1-2b (Testheft D1)... 150 Abb. 37: Items D1-14a-2 und D1-14a-1 (Testheft 2)... 159 Abb. 38: Items D1-14a-3 und D1-14b (Testheft 3)... 161 Abb. 39: Item D1-14c (Testheft 3)... 163 Abb. 40: Items D3-7b und D3-7c (Testheft D3)... 167 Abb. 41: Items D3-7a und D3-7f (Testheft 2)... 169 Abb. 42: Items D3-7a und D3-7g (Testheft 2)... 170 Abb. 43: Items D3-7a, D3-7d und D3-7e aus Testheft D3... 172 Abb. 44: Mögliche figurale Darstellung des Rhythmus von Item D3-7a (Testheft D3)... 177 Abb. 45: Items D1-3a und D1-3b (Testheft 6)... 183 Abb. 46: Items D1-3a und D1-8 (Testheft D1)... 185 Abb. 47: Items D1-2a und D1-3b (Testheft D1)... 187 Abb. 48: Vergleich der A-Teile von Item D1-2a (oben) und D1-3b (unten)... 188 Abb. 49: Item D2-4e (Testheft 8)...189 Abb. 50: Item D2-4f (Testheft 8)...189 Abb. 51: Items D2-1c-1 und D2-1c-2 (Testheft 6)... 193 Abb. 52 Item D3-4a (Testheft 7)... 195 Abb. 53: Item D3-5 (Testheft 8)... 195 Abb. 54: Item D1-15c-1 (Testheft 3)... 196 Abb. 55: Item D1-15g (Testheft 3)... 196 Abb. 56: Item mit hohen sprachlichen Anforderungen... 203 Abb. 57: Item mit niedrigen sprachlichen Anforderungen... 203 Abb. 58: Prozessmodell der Bearbeitung einer Mathematik-Aufgabe (nach: Cohors- Fresenborg et al., 2004, S. 121)... 204 Abb. 59: Systematisierung der schwierigkeitsgenerierenden Aufgabenmerkmale... 208 Abb. 60: Beispielitem 1 (Item D2-4f, Testheft 8)... 214 Abb. 61: Beispielitem 2 (Item D3-9a,Testheft 7)... 216 Abb. 62: Beispielitem 3 (Item D1-5a, Testheft 6)... 217

IX Tabellenverzeichnis Tab. 1: Verwendete Item-Formate und -Typen (in Anlehnung an: Granzer et al., 2008, S. 20 und Hartig & Jude, 2007, S. 30)... 36 Tab. 2: Für die Aufgabenentwicklung berücksichtigte Bereiche und Inhalte der Hörwahrnehmung in bundesdeutschen Curricula... 52 Tab. 3: Entwicklungsstand musikalischer Wahrnehmungsfähigkeit bei Kindern im Alter von 12 Jahren (in Anlehnung an: Bähr, 2001, S. 35 ff.)... 53 Tab. 4: Logitdifferenzen und Lösungswahrscheinlichkeiten im Rasch-Modell (in Anlehnung an: Wilson, 2005, S. 98)... 70 Tab. 5: Beispiel einer Distraktorenanalyse... 80 Tab. 6: Stichprobengröße und Geschlechtsverhältnis nach Schulart für die realisierte Stichprobe... 89 Tab. 7: Zusammenfassung der psychometrischen Kriterien der Itemselektion... 98 Tab. 8: Itemselektion Testheft 7 Analyse 1 (alle Items des Testhefts)... 104 Tab. 9: Itemselektion Testheft 7 Analyse 2 (Analyse ohne die ausgeschlossenen Items aus Analyse 1 und mit zusammengefasstem Richtig-Falsch-Item; erster Modelltest)... 106 Tab. 10: Itemselektion Testheft 7 Analyse 3 (zweiter Modelltest und DIF-Analyse)... 107 Tab. 11: Itemselektion Testheft 7 Analyse 4 (abschließende Modelltestung)... 108 Tab. 12: Itemselektion Testheft 4 Analyse 1 (alle Items des Testhefts)... 114 Tab. 13: Itemselektion Testheft 4 Analyse 2 (Analyse ohne die ausgeschlossenen Items aus Analyse 1; erster Modelltest)... 116 Tab. 14: Itemselektion Testheft 4 Analyse 3 (zweiter Modelltest und DIF-Analyse)... 117 Tab. 15: Zusammenfassung der wichtigsten psychometrischen Kennwerte der selektierten Items... 123 Tab. 16: Überblick über Itemformat, Hörbeispiel-Genres und Verteilung auf die theoretischen Kompetenzdimensionen/-niveaus der selektierten Items... 123 Tab. 17: Distraktorenanalyse Item D3-6a (Testheft 8)... 126 Tab. 18: Distraktorenanalyse Item D1-1a (Testheft 1)... 128 Tab. 19: Distraktorenanalyse Item D3-1e (Testheft 2)... 130 Tab. 20: Distraktorenanalyse Item D3-1e (Testheft D3)... 130 Tab. 21: Distraktorenanalyse Item D4-1e-1 (Testheft 5)... 132 Tab. 22: Distraktorenanalyse Item D4-1f-3 (Testheft 5)... 133 Tab. 23: Distraktorenanalyse Item D4-1f-3 (Testheft D4)... 134 Tab. 24: Distraktorenanalyse Item D3-7c (Testheft D3)... 135 Tab. 25: Schülerantworten Item D3-10-2 (Testheft 4)... 143 Tab. 26: Auswahl der Items zur Rhythmuswahrnehmung... 158 Tab. 27: Vergleich der Itemschwierigkeiten von Item D1-14a-1 und D1-14a-2 (Testheft 2)... 160

X Tab. 28: Vergleich der Itemschwierigkeiten von Item D1-14a-3 und D1-14b (Testheft 3)... 162 Tab. 29: Vergleich der Itemschwierigkeiten von Item D1-14a, D1-14b und D1-14c (Testheft 3)... 164 Tab. 30: Vergleich der Itemschwierigkeiten von Item D3-7b und D3-7c (Testheft D3)... 168 Tab. 31: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7f (Testheft 2)... 169 Tab. 32: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7g (Testheft 2)... 171 Tab. 33: Vergleich der Itemschwierigkeiten der Items D3-7a, D3-7d und D3-7e (Testheft D3)... 174 Tab. 34: Kodierung und Deskriptoren des Aufgabenmerkmals Anwendung von Notationskenntnissen... 179 Tab. 35: Items zur Formwahrnehmung... 181 Tab. 36: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-3b (Testheft 6)... 183 Tab. 37: Auswahl der Items zur Formwahrnehmung... 185 Tab. 38: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-8 (Testheft D1)... 186 Tab. 39: Vergleich der Itemschwierigkeiten der Items D1-2a und D1-3b (Testheft D1)... 188 Tab. 40: Vergleich der Itemschwierigkeiten der Items D2-4e und D2-4f (Testheft 8)... 190 Tab. 41: Vergleich der Itemschwierigkeiten der Items D2-1c-1 und D2-1c-2 (Testheft 6)... 194 Tab. 42: Vergleich der Itemschwierigkeiten der Items D1-15c-1 und D1-15g (Testheft 3)... 198 Tab. 43: Verteilung der Item-Formate auf die einzelnen Testhefte... 201 Tab. 44: Punktbiseriale Korrelation von Itemformat und Itemschwierigkeit... 201 Tab. 45: Ausprägungen des Merkmals formalsprachliche Anforderungen... 205 Tab. 46: Ausprägungen und Deskriptoren der Aufgabenmerkmale M1-3 (Ebene Aufgabe )... 209 Tab. 47: Ausprägungen und Deskriptoren der Aufgabenmerkmale M4-5 (Ebene Wahrnehmung / Musikalisches Gedächtnis )... 211 Tab. 48: Ausprägungen und Deskriptoren der Aufgabenmerkmale M6-10 (Ebene Fachwissen )... 213 Tab. 49: Kodierung von Beispielitem 1... 215 Tab. 50: Kodierung von Beispielitem 2... 216 Tab. 51: Kodierung von Beispielitem 3... 218 Tab. 52: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der Itemschwierigkeiten von Testheft 4 durch Aufgabenmerkmale (N k = 23 Items)... 225 Tab. 53: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der Itemschwierigkeiten von Testheft 5 durch Aufgabenmerkmale (N k = 29 Items)... 226 Tab. 54: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der Itemschwierigkeiten von Testheft 6 durch Aufgabenmerkmale (N k = 24 Items)... 227 Tab. 55: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der Itemschwierigkeiten von Testheft 8 durch Aufgabenmerkmale (N k = 23 Items)... 228 Tab. 56: Selektierte Items Testheft 1... 269

XI Tab. 57: Selektierte Items Testheft 2... 270 Tab. 58: Selektierte Items Testheft 3... 271 Tab. 59: Selektierte Items Testheft 4... 272 Tab. 60: Selektierte Items Testheft 5... 274 Tab. 61: Selektierte Items Testheft 6... 276 Tab. 62: Selektierte Items Testheft 7... 278 Tab. 63: Selektierte Items Testheft 8... 279 Tab. 64: Selektierte Items Testheft 9... 281

XII Abkürzungsverzeichnis DESI DIF ICC IRT KoMus KTT MC MNSQ PISA PTT TH TIMSS Deutsch Englisch Schülerleistungen International Differential Item Functioning Item Characteristic Curve (IC-Funktion) Item-Response-Theorie Kompetenzmodell für das Fach Musik Klassische Testtheorie Multiple-Choice weighted mean square Programme for International Student Assessment Probabilistische Testtheorie Testheft Trends in International Mathematics and Science Study

1 1 Einleitung Schulleistungsmessungen und insbesondere die Erfassung und Modellierung von Kompetenzen sind zentrale Inhalte des bildungspolitischen und erziehungswissenschaftlichen Diskurses der letzten Jahre (z. B. Klieme, 2007; Klieme & Hartig, 2007; Weinert, 2001b). Besondere Bedeutung kommt in diesem Zusammenhang dem Thema Aufgaben zu (z. B. Thonhauser, 2008a): Aufgaben sollen u. a. Kompetenzanforderungen illustrieren, Kompetenzaufbau und -förderung unterstützen und nicht zuletzt die Kompetenzen von Schülerinnen und Schülern 1 einer empirischen Überprüfung zugänglich machen. Die große Relevanz der Themen Schulleistung und Kompetenz ist auch innerhalb der verschiedenen fachdidaktischen Diskurse auszumachen (z. B. Bayrhuber, 2007b) und wenngleich in deutlich geringerem Maße auch innerhalb der Musikpädagogik (z. B. Lütgert, 2001; Schäfer-Lembeck, 2008). Betrachtet man den musikpädagogischen Diskurs näher, so zeigt sich, dass hier bislang nur sehr wenige empirische Arbeiten zu dem betreffenden Themenfeld vorgelegt wurden. So sind z. B. kaum Testinstrumente zur Erfassung von musikalischen Kompetenzen oder ähnlichen Leistungskonstrukten vorhanden; dies gilt sowohl für den internationalen Kontext (z. B. Colwell, 1999b) als auch insbesondere für die deutsche Musikpädagogik. Oerter & Bruhn (1997) fassen diese Situation mit dem nach wie vor zutreffenden Satz zusammen: Der besondere Wert von Testverfahren für die musikpädagogische Forschung ist bisher noch nicht erkannt worden (S. 558). Dies verwundert zunächst, da es für die Musikpädagogik durchaus von Interesse sein dürfte, über welche fachspezifischen Kompetenzen Schüler verfügen, von welchen Variablen diese beeinflusst werden und wie eine Förderung derselben erfolgen kann bzw. welchen Erfolg entsprechende Fördermaßnahmen haben. Diese stichpunktartige Aufzählung ist zwar nur ein sehr kleiner Ausschnitt der Möglichkeiten, die mit einer empirischen Erfassung musikbezogener Leistungen einhergehen könnten. Es ist trotzdem direkt ersichtlich, dass auf einer konkreten Anwendungsebene (Lehreraus- und -fortbildung, Unterrichtsentwicklung, Evaluation von Unterrichtsmaßnahmen, Bildungsmonitoring etc.) eine Vielzahl von Möglichkeiten für die Verwendung entsprechender Testverfahren bestünde. Aber auch 1 Aus Gründen der leichteren Lesbarkeit wird im Folgenden auf die Nennung beider Geschlechter verzichtet.

2 auf der Ebene musikpädagogischer Grundlagenforschung wären die Konstruktion und der Einsatz von musikalischen Kompetenztests höchst interessant. Denn bis heute liegen nur wenige Erkenntnisse hinsichtlich der Strukturen (u. a. Dimensionalität und Graduierung) von Schülerkompetenzen und deren empirischer Erfassung vor. Im Rahmen aktueller bildungspolitischer Reformprozesse wird die Musikpädagogik nun verstärkt mit der Thematik der Erfassung und Modellierung von Kompetenzen konfrontiert. Die Ergebnisse von internationalen Schulleistungsstudien (u. a. PISA und TIMSS) 2 haben in Deutschland zu einem Umdenken in Bezug auf die Steuerung des Bildungssystems geführt. Unter einer Reihe von Maßnahmen ist es vor allem die Umstellung auf nationale Bildungsstandards, durch die eine am Output orientierte Qualitätssicherung erfolgen soll (Klieme et al., 2003). In den letzten Jahren wird zunehmend sichtbar, dass obwohl Bildungsstandards auf nationaler Ebene nur für die Kernfächer 3 implementiert werden auch das Fach Musik von diesen Reformprozessen betroffen ist und die Musikpädagogik sich einer Auseinandersetzung mit den damit verbundenen Konzepten nicht entziehen kann (Knigge & Lehmann-Wermser, 2008). Denn im Kontext der standard- und kompetenzorientierten Prozesse wird gerade den Fachdidaktiken eine zentrale Funktion zugewiesen (z. B. Bayrhuber, 2007a): Sie sollen sowohl die fachwissenschaftlichen Grundlagen für die Erstellung von Bildungsstandards bestimmen als auch Unterrichtskonzepte zur Kompetenzförderung entwickeln und evaluieren. Im Zentrum steht hierbei die empirisch basierte Erarbeitung von Kompetenzmodellen und darauf bezogener Testinstrumente. Vor diesem Hintergrund wurde mit dem KoMus-Projekt (z. B. Jordan, Knigge & Lehmann-Wermser, 2010), im Rahmen dessen die vorliegende Arbeit entstanden ist, erstmals der Versuch unternommen, ein Kompetenzmodell für einen Teilbereich des Musikunterrichts ( Musik wahrnehmen und kontextualisieren ) zu erstellen und empirisch zu validieren. Ein wichtiges Teilergebnis des KoMus-Projekts war der Entwurf eines theoretischen Kompetenzmodells (Niessen, Lehmann- Wermser, Knigge & Lehmann, 2008). 2 PISA = Programme for International Student Assessment ; TIMSS = Trends in International Mathematics and Science Study. 3 Deutsch, Mathematik, erste Fremdsprache und Naturwissenschaften (Biologie, Chemie, Physik).

3 Dieses Modell bildet die Grundlage für die vorliegende Arbeit, die den Prozess der Modelloperationalisierung in Form von Testaufgaben zum Inhalt hat. Im Rahmen der Arbeit wird als zentrale Fragestellung verfolgt, ob sich anhand eines theoretischen Modells zur Kompetenz des Wahrnehmens und Kontextualisierens von Musik Testaufgaben konstruieren lassen, die psychometrischen Qualitätskriterien genügen, eine hohe curriculare Validität aufweisen und differenzierende Aussagen über die Kompetenzen der Schüler ermöglichen. Auf Basis dieser übergeordneten Fragestellung ergeben sich die folgenden Ziele der Arbeit: Die Konzeption, Durchführung und Dokumentation eines Prozesses zur Entwicklung von Testaufgaben, der durch eine Verankerung auf unterrichtlicher und curricularer Ebene einen musikpädagogischen Fokus hat, dabei aber psychometrische Gütekriterien der Test- und Aufgabenentwicklung konsequent berücksichtigt. Die statistische Analyse der entwickelten Aufgaben (Itemselektion) unter Anwendung klassischer und probabilistischer Methoden, die in dieser Kombination bislang in der Musikpädagogik noch keine Verwendung fanden. Ziel ist hierbei die Generierung eines psychometrisch hochwertigen Itempools, der die Dimensionen, Facetten und Niveaus des theoretischen Kompetenzmodells abbildet. Die Identifikation schwierigkeitsgenerierender Aufgabenmerkmale mittels inhaltlicher und vergleichender Itemanalysen: Über die Absicherung der psychometrischen Qualität der Aufgaben hinaus soll in diesem Zusammenhang untersucht werden, welche Teilkompetenzen von einer Aufgabe konkret erfasst bzw. für deren Lösung benötigt werden. Anvisiertes Ziel ist die Systematisierung der gefundenen relevanten Aufgabenmerkmale sowie deren empirische Validierung. Die vorliegende Arbeit gliedert sich in einen theoretischen und einen empirischen Teil, deren inhaltlicher Aufbau sich wie folgt darstellt: Das zweite Kapitel skizziert zunächst die bildungspolitischen Hintergründe und führt hierbei insbesondere in die Themen Bildungsstandards und Kompetenzorientierung ein (2.1). Von zentraler Bedeutung für die Arbeit sind in diesem Zusammenhang der Kompetenzbegriff und die konzeptionellen Grundlagen von Kompetenzmodellen. Daran anschließend erfolgt eine Betrachtung der Situation

4 des Schulfaches Musik, wie sie sich im Kontext der standard- und kompetenzorientierten Reformprozesse darstellt (2.2). Im dritten Kapitel erfolgen einige grundlegende Ausführungen hinsichtlich der Gütekriterien, Komponenten und Formate von Testaufgaben sowie die Darstellung des Forschungsstandes in Bezug auf die Erfassung von musikalischen Kompetenzen mittels standardisierter Testverfahren. Der empirische Teil der Arbeit beginnt mit dem vierten Kapitel, in dem der Prozess der modellbasierten Aufgabenentwicklung vorgestellt wird. Grundlage ist hierfür das im KoMus-Projekt entwickelte theoretische Kompetenzmodell (4.1), dessen Operationalisierung im Rahmen eines Testkonstrukts auf curricularer Ebene verankert und durch musikpsychologische Forschungen theoretisch fundiert wird (4.2). Abschließend erfolgt an dieser Stelle die Darstellung von Design und Prozess der Aufgabenentwicklung (4.3). Die entwickelten Testaufgaben wurden einem umfassenden Analyseprozess unterzogen. Im fünften Kapitel sind die hierfür verwendeten Methoden dargestellt. Da Testkonstruktionen in der Musikpädagogik sehr selten sind und diese bislang ausnahmslos auf Basis der Klassischen Testtheorie durchgeführt wurden, erfolgen in einem einleitenden Teil grundlegende testtheoretische Ausführungen unter besonderer Berücksichtigung der Probabilistischen Testtheorie und des Rasch- Modells (5.1). Daran anschließend werden ausführlich die einzelnen Analyseverfahren dargestellt (5.2), bevor in einem abschließenden Abschnitt die Durchführung der Erhebungen beschrieben ist (5.3). Kapitel sechs enthält schließlich die Ergebnisse der Itemanalysen und stellt ausführlich den Prozess der Itemselektion dar. Nach detaillierten Ausführungen zu den statistischen Aspekten der Item- und Testanalyse (6.1) erfolgen im anschließenden Abschnitt verschiedene inhaltliche Itemanalysen, die eine fachwissenschaftliche Perspektive ins Zentrum stellen (6.2). Ausgehend von den Ergebnissen der Itemanalysen steht im Zentrum des siebten Kapitels die Frage nach den schwierigkeitsgenerierenden Merkmalen der entwickelten Testaufgaben. Mittels verschiedener vertiefender Analysen werden dabei eine Reihe von Aufgabenmerkmalen identifiziert (7.1-7.4), die anschließend systematisiert (7.5) und einer empirischen Überprüfung unterzogen werden (7.6).

5 Im abschließenden achten Kapitel werden die Ergebnisse der Arbeit noch einmal zusammengefasst und diskutiert. Es werden Probleme und Grenzen der modellbasierten Aufgabenentwicklung sowie weitergehende methodische Überlegungen dargestellt. Die Arbeit schließt mit Ausführungen zur curricularen Validität der entwickelten Testaufgaben und einem Ausblick in Bezug auf die Verwendungsmöglichkeiten der Aufgaben.

6 A. HINTERGRUND UND THEORETISCHE GRUNDLAGEN 2 Bildungsstandards und Kompetenzorientierung Im einleitenden Kapitel ist bereits angeklungen, dass die vorliegende Arbeit vor dem Hintergrund aktueller bildungspolitischer und erziehungswissenschaftlicher Diskurse entstanden ist. Im Zentrum stehen hierbei die Reformprozesse im Kontext der Diskussion um Bildungsstandards, die gerade auch den Fachdidaktiken zentrale Aufgaben wie die Erstellung von Kompetenzmodellen oder die Entwicklung von kompetenzorientierten Test- und Lernaufgaben zuweist. Zum besseren Verständnis der Arbeit erfolgen daher zunächst in Abschnitt 2.1 einige allgemeine und grundlegende Ausführungen zu Bildungsstandards und den dabei zentralen Komponenten (Kompetenzbegriff, Kompetenzmodelle). Daran anschließend erfolgt eine Betrachtung der Situation des Schulfachs Musik, wie sie sich im Kontext der standardorientierten Reformprozesse darstellt (2.2). Die Implementierung von Bildungsstandards bzw. daran orientierter Curricula und die Auswirkungen dieses Prozesses auf das Fach Musik sind der Ausgangspunkt des KoMus-Forschungsprojekts, dessen Ziel die Erstellung eines Kompetenzmodells für den Bereich des Wahrnehmens und Kontextualisierens von Musik ist. Die vorliegende Arbeit ist im Rahmen des KoMus-Projekts entstanden und inhaltlich sehr eng mit dem Projekt verbunden, weshalb eine kurze Einordnung der Arbeit in das Gesamtprojekt in Abschnitt 2.2.3 erfolgt. 2.1 Zentrale Konzepte und Begriffe Der erste Teil dieses Kapitels befasst sich mit den zentralen Konzepten und Terminologien von Bildungsstandards, insofern sie für die vorliegende Arbeit relevant sind. Es besteht hierbei nicht der Anspruch einer möglichst umfassenden und detaillierten Einführung oder Diskussion von Bildungsstandards und den damit verbundenen Konzepten. 4 Vielmehr soll in den folgenden Abschnitten der Hinter- 4 Es sei hierfür auf die überaus umfangreiche Literatur zur Thematik verwiesen: z. B. Böttcher, 2006; Criblez et al., 2009; Dubs, 2007; Klieme et al., 2003; Klieme, 2004a; 2009; Labudde, 2007; Oelkers & Reusser, 2008. Der erziehungswissenschaftliche und insbesondere der bildungstheoretische Diskurs sind dabei in Bezug auf Bildungsstandards höchst konträr. Es sind in diesem Zusammenhang u. a. die beiden folgenden Sammelbände zu nennen, die vor allem kritische Positio-

7 grund skizziert werden, vor dem die vorliegende Arbeit zu lesen ist. Von besonderer Bedeutung sind hierbei das im Rahmen von Bildungsstandards verwendete Konzept der Kompetenz sowie dessen theoretische und empirische Modellierung. 2.1.1 Bildungsstandards Bildungspolitischer Hintergrund Um das Jahr 2000 herum waren es vor allem zwei großangelegte internationale Schulleistungsstudien, die den Ausgangspunkt einer bis heute anhaltenden und sehr breiten Diskussion über die Qualität von Schule und Unterricht bilden: die TIMS-Studien (Baumert & Lehmann, 1997; Baumert, Bos & Lehmann, 2000) und vor allem PISA 2000 (Baumert et al., 2001). Beide Studien offenbarten dabei gravierende Mängel des deutschen Bildungssystems und nicht zuletzt große Disparitäten zwischen Regionen, zwischen Schülern unterschiedlicher sozialer Schichten und zwischen Schülern mit und ohne Migrationshintergrund. Darüber hinaus haben aber auch mehrere nationale Untersuchungen gezeigt, dass die in den bundesdeutschen Lehrplänen definierten Ziele häufig nicht erreicht werden und die Benotungsmaßstäbe zwischen den Bundesländern sehr stark variieren (Klieme et al., 2003, S. 13). Vor dem Hintergrund dieser Erkenntnisse hat in Deutschland ein Umdenken stattgefunden, das häufig als Paradigmenwechsel von der Input- zur Outputsteuerung bezeichnet wird. 5 Als zentrales Moment dieses Paradigmenwechsels beschloss die Ständige Konferenz der Kultusminister der Länder der Bundesrepublik Deutschland (KMK) am 25. Juni 2002 die Einführung nationaler Bildungsstandards für bestimmte Kernfächer und bestimmte Jahrgangsstufen. 6 nen enthalten: Pongratz, Reichenbach & Wimmer, 2007; Schlömerkemper, 2004. Zusammengefasst wird die Kritik an Standards z. B. bei Oelkers & Reusser, 2008, S. 52 ff. und Uhl, 2006. Eine Darstellung des musikspezifischen Diskurses erfolgt in Abschnitt 2.2.2. 5 Mit dem Input eines Bildungssystems sind im Allgemeinen Lehrpläne, Lehrmittel, Finanzen, Infrastruktur etc. gemeint. Der Output umfasst hingegen u. a. den Aufbau von Kompetenzen, Qualifikationen, Wissensstrukturen, Einstellungen, Überzeugungen, Werthaltungen also von Persönlichkeitsmerkmalen bei den Schülerinnen und Schülern, mit denen die Basis für ein lebenslanges Lernen zur persönlichen Weiterentwicklung und gesellschaftlichen Beteiligung gelegt ist (Klieme et al., 2003, S. 12). 6 In den Jahren 2003 und 2004 wurden daraufhin Bildungsstandards für den Primarbereich (Jahrgangsstufe 4, Fächer: Deutsch und Mathematik), den Hauptschulabschluss (Jahrgangsstufe 9, Fächer: Deutsch, Mathematik und Erste Fremdsprache) und den Mittleren Schulabschluss (Jahrgangsstufe 10, Fächer: Deutsch, Mathematik, Erste Fremdsprache, Biologie, Chemie und Physik) in Kraft gesetzt. Im Oktober 2007 hat die KMK darüber hinaus die Entwicklung von Bildungs-

8 Aufgrund mangelnder Erfahrungen mit der Entwicklung und Implementierung von Bildungsstandards wurde vom Bundesministerium für Bildung und Forschung eine Expertengruppe mit der Erstellung einer Expertise beauftragt. Die sogenannte Klieme-Expertise (Klieme et al., 2003) hatte die Zielsetzung, das Konzept der Bildungsstandards fachlich zu klären und eine Rahmenkonzeption dafür vorzustellen, wie Bildungsstandards für das deutsche Schulsystem angelegt sein sollten und wie sie entwickelt und genutzt werden könnten (S. 14). 7 Die Klieme- Expertise hat sich seither in weiten Teilen des wissenschaftlichen und politischen Diskurses als maßgeblich erwiesen in Bezug auf die konzeptionellen Grundlagen der Entwicklung von Bildungsstandards in Deutschland und liegt auch den Darstellungen im folgenden Abschnitt zugrunde. Konzeptionelle Grundlagen Bildungsstandards sollen als zentrales Gelenkstück zur Sicherung und Steigerung der Qualität schulischer Arbeit fungieren (Klieme et al., 2003, S. 9). Die Klieme- Expertise definiert auf grundsätzlicher, konzeptioneller Ebene Bildungsstandards wie folgt (Klieme et al., 2003): Bildungsstandards orientieren sich an Bildungszielen, denen schulisches Lernen folgen soll, und setzen diese in konkrete Anforderungen um. (S. 20) Bildungsstandards konkretisieren die Ziele in Form von Kompetenzanforderungen. Sie legen fest, über welche Kompetenzen ein Schüler, eine Schülerin verfügen muss, wenn wichtige Ziele der Schule als erreicht gelten sollen. Systematisch geordnet werden diese Anforderungen in Kompetenzmodellen, die Aspekte, Abstufungen und Entwicklungsverläufe von Kompetenzen darstellen. (S. 21) Bildungsstandards als Ergebnisse von Lernprozessen werden konkretisiert in Aufgabenstellungen und schließlich Verfahren, mit denen das Kompetenznistandards für die gymnasiale Oberstufe in den Fächern Deutsch, Mathematik, Englisch, Französisch, Biologie, Chemie und Physik beschlossen, die aktuell erarbeitet werden. 7 Die Entwicklung von Bildungsstandards ist kein spezifisch deutsches Phänomen. Vor allem die englischsprachigen Länder haben bereits eine längere Tradition der outputorientierten Steuerung von Bildungssystemen, die teilweise auch als Orientierung für die deutsche Entwicklung diente. Ausführliche Darstellungen der internationalen Situation finden sich z. B. bei van Ackeren, 2003; Arbeitsgruppe Internationale Vergleichsstudie, 2003; Criblez et al., 2009, S. 19 ff.; Huber, Späni, Schmellentin & Criblez, 2006; Oelkers & Reusser, 2008, S. 61 ff.

9 veau, das Schülerinnen und Schüler tatsächlich erreicht haben, empirisch zuverlässig erfasst werden kann. (S. 23) Bildungsstandards beziehen sich demgemäß auf drei Dimensionen: (1) Bildungsziele, (2) Kompetenzen und Kompetenzmodelle, (3) Aufgabenstellungen und Testverfahren (Kompetenztests). Mit dieser Konzeption sind vor allem zwei Erwartungen verbunden (Klieme et al., 2003, S. 9 f.): Einerseits soll dadurch eine höhere Zielklarheit erreicht werden. In diesem Sinne dienen Standards der Orientierung aller Beteiligten (Lehrkräfte, Schüler, Eltern, Administration) über die normativ gesetzten Ziele und schaffen so mehr Klarheit, größere Objektivität und höhere Verbindlichkeit als bisher (Blum, 2006, S. 16). Andererseits soll es durch Bildungsstandards ermöglicht werden, Lernergebnisse zu erfassen und zu bewerten. Im Zentrum stehen hierbei standardbasierte Evaluationsverfahren (u. a. Bildungsmonitoring und Schulevaluation). Die Entwicklung und Implementierung von Bildungsstandards ist ein sehr aufwendiges Verfahren und erfordert ein komplexes Zusammenspiel verschiedener Akteure. Die Klieme-Expertise beschreibt hierfür umfassend die verschiedenen Kriterien und Komponenten, die an dieser Stelle jedoch nicht weiter ausgeführt werden können. Es wird bereits auf Basis dieser ausschnitthaften Darstellung der Hintergründe und konzeptionellen Grundlagen von Bildungsstandards deutlich, dass vor allem der Kompetenzbegriff sowie die Modellierung von Kompetenzen im Rahmen fachspezifischer Kompetenzmodelle von zentraler Bedeutung sind. Beide Punkte stehen in direktem Zusammenhang mit dem Thema der vorliegenden Arbeit, weshalb in den folgenden beiden Abschnitten auf den Kompetenzbegriff und auf die Funktionen und Strukturen von Kompetenzmodellen eingegangen wird. 2.1.2 Kompetenzbegriff Der Kompetenzbegriff ist ein vielbenutzter und -diskutierter Terminus des sozialund erziehungswissenschaftlichen Diskurses der vergangenen Jahre (Klieme et al., 2007). Er bildet die konzeptionelle Grundlage für eine Vielzahl nationaler und internationaler Schulleistungsstudien (z. B. PISA, TIMSS, DESI) und steht nicht zuletzt im Zentrum der Konzeption von Bildungsstandards. Hierdurch ist der Kompetenzbegriff auch für die Fachdidaktiken zu einem wichtigen Begriff geworden, denn zentrale Fragen der Formulierung und Modellierung von Kompetenzen kön-

10 nen nur auf Basis fachdidaktischer Expertise geklärt werden (z. B. Klieme et al., 2003, S. 121 f.). Der im Folgenden explizierte Kompetenzbegriff liegt auch dem KoMus-Projekt (vgl. 2.2.3) und entsprechend der vorliegenden Arbeit zugrunde. Kompetenzbegriff im Rahmen von Bildungsstandards Der erziehungswissenschaftliche Kompetenz-Diskurs 8 geht in Deutschland u. a. auf Heinrich Roth zurück, der den Begriff sehr breit anlegt: Wenn er [Roth; dv] von Fähigkeiten spricht, sind nicht nur kognitive Leistungsdispositionen gemeint, sondern eine umfassende Handlungsfähigkeit, die auch den affektiv-motivationalen Bereich einschließt. In emanzipatorischer Absicht wird Kompetenz schließlich auch mit dem Anspruch an Zuständigkeit verbunden (Klieme & Hartig, 2007, S. 20). Als zentrales Ziel von Erziehung definiert Roth Mündigkeit, verstanden als verantwortliche und selbstbestimmte Handlungsfähigkeit und stellt sich damit in die Tradition eines aufgeklärten Bildungsbegriffs (Klieme & Hartig, 2007, S. 19). Besonders interessant ist vor diesem Hintergrund die Verbindung zum Kompetenzbegriff: Mündigkeit, wie sie von uns verstanden wird, ist als Kompetenz zu interpretieren (Roth, 1971, S. 180). Daran anschließend schlägt Roth drei Kompetenzbereiche vor: Selbstkompetenz, Sachkompetenz und Sozialkompetenz (ebd.). Der große Einfluss des von Roth eingeführten Kompetenzbegriffs lässt sich bis in die jüngste Vergangenheit verfolgen und wird nicht zuletzt innerhalb der Diskussion um Schlüsselkompetenzen auf OECD-Ebene deutlich (Rychen & Salganik, 2001; Weinert, 1999; 2001a; vgl. auch Klieme & Hartig, 2007, S. 20 f.). Das in diesem Kontext von Weinert ausgearbeitete Kompetenzkonzept ist mit dem Kompetenzbegriff nach Roth kompatibel, wenngleich es einen stärker psychologisch ausgerichteten Fokus aufweist (Klieme & Hartig, 2007, S. 21). Gleichzeitig bildet die von Weinert vorgeschlagene Kompetenzdefinition die konzeptuelle Grundlage für Bildungsstandards in Deutschland. Weinert versteht unter Kompetenzen die bei Individuen verfügbaren oder durch sie erlernbaren kognitiven Fähigkeiten und Fertigkeiten, um bestimmte Probleme zu lösen, sowie die damit verbundenen motivationalen, volitionalen und sozialen Bereitschaften und Fähigkeiten um die Problemlösungen in variablen Situationen erfolgreich und verantwortungsvoll nutzen zu können. (Weinert, 2001c, S. 27) 8 Auf den gesamten Kontext der sozialwissenschaftlichen Grundlagen wird an dieser Stelle nicht eingegangen; siehe hierzu z. B. Klieme & Hartig, 2007.

11 Darüber hinaus beschreibt Weinert verschiedene Facetten, die in Bezug auf die individuelle Ausprägung einer Kompetenz von Relevanz sind (Klieme et al., 2003, S. 73): Fähigkeit, Wissen, Verstehen, Können, Handeln, Erfahrung und Motivation. Auf Basis dieser Definition spricht sich die Klieme-Expertise für einen domänenspezifischen Kompetenzbegriff aus, d. h., Kompetenzen werden hier verstanden als Leistungsdispositionen in bestimmten Fächern oder Domänen (Klieme et al., 2003, S. 22). Diese eindeutige Stellungnahme gegen ein Konzept von übergreifenden Kompetenzen, wie es z. B. häufig in der Berufspädagogik anzutreffen ist, hat sowohl pragmatische als auch lernpsychologische Hintergründe (Klieme, 2004b, S. 12): Einerseits ist so eine Anschlussfähigkeit an die traditionelle Lehrplanarbeit, aber auch an die Ausbildungs- und Kompetenzstruktur der Lehrerschaft gegeben. Andererseits sprechen aber vor allem Erkenntnisse der Lernpsychologie für die fachspezifische Ausformulierung von Kompetenzen und gegen zu große Erwartungen an übergreifende Kompetenzen: Die Vorstellung, bereichsspezifische Kompetenzen könnten durch einen generischen Satz von hoch transferierbaren Schlüsselkompetenzen ersetzt werden, ist nach Befunden vor allem aus der Expertiseforschung illusionär (Klieme, 2004b, S. 12). Hartig & Klieme (2006) betonen vor allem zwei entscheidende konzeptionelle Eigenschaften des Kompetenzkonstrukts: die Kontextspezifität und die Erlernbarkeit von Kompetenzen. Hierdurch hebt sich der Kompetenzbegriff auch von anderen Leistungskonstrukten ab, im Speziellen von der Intelligenzforschung, die generalisierte, kontextunabhängige und nur begrenzt lernbare kognitive Dispositionen untersucht: Ein konzeptueller Unterschied zwischen Kompetenz und Intelligenz kann demnach in der Generalisierbarkeit der damit beschriebenen Leistungsdispositionen gesehen werden: Kompetenz ist stärker an spezifische Kontexte gebunden, während Intelligenz sich v. a. durch generalisierbare Leistungsdispositionen kennzeichnen lässt. [ ] Im Unterschied zur Erlernbarkeit und damit Veränderbarkeit von Kompetenzen wird Intelligenz als relativ stabil betrachtet. (Hartig & Klieme, 2006, S. 129 f.) Empirische Erfassung von Kompetenzen Die Kontextspezifität, aber auch die verschiedenen Facetten des Kompetenzkonstrukts haben direkte Auswirkungen auf eine empirische Umsetzung. Diese muss gemäß der Komplexität des Kompetenzbegriffs eine adäquate Erfassung von Kompetenzen gewährleisten:

12 Kompetenzen kann man nicht durch einzelne, isolierte Leistungen darstellen oder erfassen. Der Bereich von Anforderungssituationen, in denen eine bestimmte Kompetenz zum Tragen kommt, umfasst immer ein mehr oder weniger breites Leistungsspektrum. [ ] Eine eng gefasste Leistungserfassung kann dem Anspruch von Kompetenzmodellen nicht gerecht werden. Gerade wenn die [ ] genannten Facetten von Kompetenz berücksichtigt werden, wird erkennbar, dass die Erfassung von Kompetenz einen breiten Begriff von Aufgaben bzw. Tests erfordert, der nicht mit Wissensabfragen allein erschöpft ist. (Klieme et al., 2003, S. 74) Wenngleich der vielschichtige und komplexe Weinertsche Kompetenzbegriff aus theoretischer und vor allem pädagogischer Sicht sinnvoll und fruchtbar für die Entwicklung von Bildungsstandards erscheint, so herrscht doch innerhalb der empirischen Bildungsforschung mittlerweile weitgehend Konsens darüber, dass im Kontext konkreter empirischer Fragestellungen häufig eine einschränkende Verwendung des Begriffs notwendig ist. Im Rahmen von mehreren groß angelegten Forschungsvorhaben 9 hat sich daher in der jüngeren Vergangenheit eine Arbeitsdefinition durchgesetzt, die Kompetenzen als kontextspezifische kognitive Leistungsdispositionen, die sich funktional auf Situationen und Anforderungen in bestimmten Domänen beziehen (Klieme & Leutner, 2006a, S. 4; Hervorhebungen im Original) definiert (vgl. auch Hartig, 2008). Die Einschränkung des Kompetenzbegriffs auf den kognitiven Bereich geht dabei auf Weinert selbst zurück, der für empirische Untersuchungsdesigns empfiehlt, den kognitiven Bereich getrennt von den motivationalen, volitionalen und sozialen Facetten zu erfassen, weil nur so ihre Wechselwirkung analytisch dargestellt werden könne (Weinert, 2001a; vgl. auch Klieme et al., 2007, S. 18, 24 f.; Hartig, 2008, S. 19). Damit wird jedoch keinesfalls die Kompetenzdefinition nach Weinert, wie sie in Bildungsstandards Verwendung findet, auf grundlegender Ebene infrage gestellt. Auch geht damit nicht die Geringschätzung der nicht-kognitiven Facetten einher. Es handelt sich hierbei vielmehr um die Eingrenzung des Kompetenzbegriffs aus einer bestimmten Anwendungsperspektive (Hartig, 2008, S. 17), die sich der Komplexität des Konstrukts durchaus bewusst ist: Zu erwähnen ist, dass die Operationalisierung eines zu erfassenden Merkmals, auch einer Kompetenz, mit zunehmender Komplexität der inhaltlichen Definition immer schwieriger wird. Um bei der empirischen Untersuchung von Kompetenzen präzise Hypothesen formulieren zu können und inhaltlich aussagekräftige Messungen vornehmen zu können, ist es daher günstiger, mehrere präzise definierte Konstrukte zu unterscheiden und separat zu messen (z. B. kognitive Fähigkeiten und motivationale 9 U. a. innerhalb des DFG-Schwerpunktprogramms Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen (Klieme & Leutner, 2006b).

13 Dispositionen), als unterschiedliche Aspekte in einem breiten Konstrukt zusammenzufassen. (Klieme et al., 2007, S. 25) Im Rahmen von theoretischen Vorüberlegungen wurde dem KoMus-Projekt zunächst der umfassende Weinertsche Kompetenzbegriff zugrunde gelegt (Niessen et al., 2008, S. 9 f.). In Bezug auf die empirischen Projektphasen wurde jedoch auch dort beschlossen, eine Fokussierung auf den kognitiven Bereich vorzunehmen. Im Sinne einer psychometrischen Messung werden also im KoMus-Kontext ausschließlich die kognitiven Anteile der anvisierten Kompetenz erfasst. 10 2.1.3 Kompetenzmodelle Bildungsstandards konkretisieren Bildungsziele und machen sie durch Kompetenzformulierungen pädagogisch anwendbar (Criblez et al., 2009, S. 33). Kompetenzmodellen kommt dabei die Aufgabe zu, die Bildungsziele in konkrete Leistungsanforderungen zu transformieren. Hierfür beschreiben Kompetenzmodelle einerseits, welche Kompetenzen von Schülern in den einzelnen Fächern und zu einem bestimmten Zeitpunkt erwartet werden. Andererseits liefern Kompetenzmodelle wissenschaftlich begründete Vorstellungen darüber, welche Abstufungen eine Kompetenz annehmen kann bzw. welche Grade oder Niveaustufen sich bei den einzelnen Schülerinnen und Schülern feststellen lassen (Klieme et al., 2003, S. 74). Auf konzeptioneller Ebene lassen sich grundsätzlich zwei Formen von Modellen unterscheiden: Kompetenzniveaumodelle und Kompetenzstrukturmodelle (z. B. Hartig & Klieme, 2006). 11 Beide Modellformen fokussieren auf verschiedene Aspekte von Kompetenzstrukturen, die sich jedoch nicht ausschließen, sondern idealerweise ergänzen (Klieme et al., 2007, S. 11). Niveaumodelle befassen sich mit der inhaltlichen Beschreibung von Kompetenzen. Es geht hierbei vor allem um die Frage, wie sich Abstufungen einer Kompe- 10 Dass eine umfassende Erfassung des facettenreichen Kompetenzbegriffs prinzipiell durchaus möglich ist, gleichsam damit aber aufgrund der getrennten Operationalisierungen ein immenser methodischer Aufwand verbunden ist, zeigt z. B. die Dokumentation der PISA-Studie 2006 (PISA- Konsortium Deutschland, 2007; vgl. auch Köller, 2008, S. 165). 11 In verschiedenen fachdidaktischen Publikationen werden darüber hinaus weitere Klassifikationen von Kompetenzmodellen vorgeschlagen (z. B. Körber, 2007; Schecker & Parchmann, 2007), die für den vorliegenden Kontext jedoch nicht relevant sind.

14 tenz beschreiben lassen. 12 Auf Basis eines Niveaumodells lassen sich demnach Aussagen treffen über die Anforderungen, die Schüler bewältigen können. In psychometrischer Hinsicht entspricht die Formulierung eines Kompetenzniveaumodells der kriteriumsorientierten Interpretation einer Skala. Hierfür wird eine Kompetenzskala in unterschiedliche Abschnitte unterteilt und inhaltlich interpretiert (zum methodischen Vorgehen vgl. z. B. Hartig, 2004). Strukturmodelle befassen sich hingegen mit der Dimensionalität einer anvisierten Kompetenz. Dies kann auf verschiedenen Ebenen geschehen (vgl. Klieme et al., 2007, S. 12 f.): auf übergeordneter Ebene einer Domäne (Differenzierung von verschiedenen Kompetenzbereichen und deren Zusammenhänge) oder aber innerhalb eines einzelnen Kompetenzbereichs (Differenzierung von Teilkompetenzen und deren Zusammenhänge). Als eigenständige Dimensionen werden im Rahmen eines Strukturmodells diejenigen Kompetenzbereiche bzw. Teilkompetenzen ausgewiesen, die hinsichtlich ihrer korrelativen Zusammenhänge hinreichend unabhängig voneinander sind (Hartig & Klieme, 2006, S. 132). Die methodische Vorgehensweise bei der Erstellung bzw. Überprüfung von Strukturmodellen ist meist faktorenanalytisch. Zunehmend werden jedoch auch mehrdimensionale IRT- Modelle eingesetzt (z. B. Hartig & Höhler, 2008). 12 Es sei an dieser Stelle darauf hingewiesen, dass Kompetenzmodelle nicht notwendigerweise eine hierarchische Niveauabfolge aufweisen müssen: Vor allem in Kompetenzbereichen, die affektive Aspekte und Einstellungen einschließen, wie der sozialen Kompetenz oder interkultureller Kompetenz, gibt es möglicherweise keine klar abgrenzbaren und auf einer Skala von niedrig bis hoch bewertbaren Niveaus, sondern eher unterschiedliche Muster oder Typen (Klieme, 2004b, S. 13).

15 Abb. 1: Theoretisches Strukturmodell der DESI-Studie (in Anlehnung an: Beck & Klieme, 2007, S. 15 und Nold & Rossa, 2007). Abb. 1 verdeutlicht die Verbindung von Struktur- und Niveaumodellen am Beispiel der DESI-Studie (Beck & Klieme, 2007; DESI-Konsortium, 2008). Darüber hinaus ist in der Abbildung auf der rechten Seite unterhalb des Kompetenzniveaumodells für den Kompetenzbereich Hörverstehen auch der Prozess zur Erstellung und Überprüfung von Kompetenzmodellen angedeutet. Kompetenzmodelle werden in aller Regel zunächst als theoretische Konstrukte entworfen, die einer empirischen Überprüfung bedürfen (Klieme et al., 2003, S. 82), d. h., sie müssen in Form von Aufgabenstellungen und Testverfahren operationalisiert werden. Die Aufgaben operationalisieren einerseits die in einem theoretischen Model angenommenen Strukturen einer Kompetenz. Andererseits dienen die Aufgaben zur Illustration und Bildung von Kompetenzniveaus sowie zur weiteren Ausdifferenzierung des Modells. Dies entspricht auch der Vorgehensweise, die im KoMusProjekt gewählt wurde (vgl. 2.2.3).

16 Exkurs: Kompetenzorientierung vs. Lernzieloperationalisierung 13 Im Kontext von Bildungsstandards und Kompetenzorientierung wird oft auf die sogenannte Curriculumdiskussion in den 1960er und 70er Jahren verwiesen. Einige Beiträge konstatieren dann sinngemäß: Das hatten wir doch alles schon mal und auch damals hat s nicht funktioniert (z. B. Brügelmann, 2003; Rumpf, 2005). Ein Vergleich ist naheliegend. Auch um 1970 war die Unzufriedenheit mit dem Schulwesen groß Die deutsche Bildungskatastrophe (Picht, 1964) und die Erwartungen an eine wissenschaftlich fundierte Reform waren den heutigen z. T. sehr ähnlich. Wenngleich mit anderer Terminologie, so sollte auch damals vor allem der System-Output gesteigert werden, damit und auch das klingt bekannt Schule bei den Schülern Problemlösefähigkeiten für das spätere Leben aufbauen kann. Ein ebenso nach wie vor aktuelles Argument war die Unzufriedenheit mit der fehlenden Objektivität, Validität und (daraus resultierenden) Fairness von Zeugnisnoten (z. B. Oelkers & Reusser, 2008, S. 18 ff.). Im Folgenden sollen zwei zentrale Punkte skizziert werden, die verdeutlichen, dass beide Konzeptionen trotz einer ähnlichen Ausgangslage durch wichtige Unterschiede gekennzeichnet sind: 14 (1) Der erste Punkt betrifft die theoretische Basis. In der Erziehungswissenschaft hat sich ein Kompetenzbegriff durchgesetzt, der mittlerweile sowohl international (u. a. OECD, PISA) als auch national (u. a. Bildungsstandards, DESI-Studie, Projekt VERA) Anwendung findet. In Abschnitt 2.1.2 wurde bereits dargestellt, dass Kompetenz dabei als ein kontextspezifisches, komplexes Konstrukt definiert ist, das sich im Zusammenspiel verschiedener Facetten manifestiert. Nun könnte man argumentieren, dass eine ähnliche Konzeption auch den Lernziel-Taxonomien zugrunde liegt. Auch dort trifft man auf verschiedene Facetten bzw. Bereiche: Lernziele werden systematisiert in einen kognitiven, affektiven und psychomotorischen Bereich (Anderson, Krathwohl & Airasian, 2001; Bloom, 1956). Während 13 Dieser Exkurs basiert auf dem Abschnitt Kompetenzen vs. Lernzieloperationalisierung in Knigge & Lehmann-Wermser, 2009. 14 Ein systematischer und vor allem in historischer Hinsicht umfassender Vergleich von Lernzieloperationalisierung und Bildungsstandards kann an dieser Stelle nicht erfolgen. Aus musikpädagogischer Sicht sind hierfür vor allem die Ausführungen von Abel-Struth (1978, Kap. 3.2.2) und Füller (1974) interessant. Des Weiteren sei in diesem Zusammenhang auf erziehungswissenschaftliche Überblicksdarstellungen (z. B. Criblez et al., 2009, S. 58 ff.; Haft & Hopmann, 1987; Klieme, 2009) sowie einen sehr interessanten Beitrag aus der Geschichtsdidaktik (Borries, 2007) verwiesen.