Standard-Setting Mathematik

Transkript

1 Standard-Setting Mathematik Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, 2013 Claudia Bazinger Roman Freunberger Ursula Itzlinger-Bruneforth

2 Bundesinstitut für Bildungsforschung, Innovation & Entwicklung des österreichischen Schulwesens Alpenstraße 121 / 5020 Salzburg Standard-Setting Mathematik Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, 2013* BIFIE I Department Bildungsstandards & Internationale Assessments (BISTA), Salzburg 2013 * Der ursprüngliche Titel Publikation lautete: Standard-Setting Mathematik 4. Schulstufe. Technischer Bericht. Der Text sowie Aufgabenbeispiele dürfen für Zwecke des Unterrichts in österreichischen Schulen sowie von den Pädagogischen Hochschulen und Universitäten im Bereich Lehrer aus-, Lehrerfort- und Lehrerweiterbildung in dem für jeweilige Lehrveranstaltung erforlichen Umfang von Homepage ( heruntergeladen, kopiert und verbreitet werden. Ebenso ist Vervielfältigung Texte und Aufgabenbeispiele auf einem anen Träger als Papier (z. B. im Rahmen von Power-Point-Präsentationen) für Zwecke des Unterrichts gestattet.

3 Inhaltsverzeichnis 3 I Das Standard-Setting für Mathematik auf 4. Schulstufe 4 1 Verwendete Methoden Bookmark-Methode Item-Descriptor-Matching-Methode (IDM) 8 2 Die Expertengruppe 9 3 Training und Vorbereitung auf den Beurteilungsprozess 10 4 Runde Aufgabe und Instruktion Auswertung Ratingdaten 11 5 Runde Aufgabe und Instruktion Bestimmung Cut-Scores 13 6 Runde Setzung Schwelle zu Unter Level 1 Runden 4 und 5 15 II Validität und Post-Standard-Setting 15 8 Prozessevaluation und Evaluation Cut-Score-Urteile 16 9 Rating-Verhalten Interrater-Reliabilität Endgültige M4-Cut-Score-Werte aus IDM- und Bookmark-Methode 20 Literatur

4

5 Standard-Setting Mathematik, 4. Schulstufe 3 Teil I Das Standard-Setting für Mathematik auf 4. Schulstufe Im Rahmen Bildungsstandardüberprüfung in Österreich wurd beginnend mit 2012 für Mathematik auf 4. Schulstufe ein Standard-Setting durchgeführt, das insgesamt 3 Phasen umfasste. Phase III beschreibt das eigentliche Standard-Setting und wird im Weiteren näher erläutert. In Phase I und Phase II wurde durch Fachexpertinnen und Fachexperten ein Kompetenzstufenmodell entwickelt, das 4 Stufen (inkl. Stufe Bildungsstandards nicht erreicht, für keine Beschreibung entwickelt wurde) umfasst und in Abbildung 1 dargestellt ist. Inhaltliche Beschreibung einzelnen Kompetenzstufen Stufe 3 Bildungsstandards übertroffen Du verfügst über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und über erweiterte Wissensstrukturen, welche über Anforungen Stufe 2 hinausgehen, insbesone über stärker ausgeprägtes analytisches Denken und höhere Kombinationsfähigkeit. Du kannst se eigenständig in neuartigen Situationen flexibel einsetzen. Stufe 2 Stufe 1 unter 1 Bildungsstandards erreicht Du verfügst über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und kannst se flexibel nutzen. Du kannst geeignete Lösungsstrategien finden und umsetzen, gewählte Lösungswege beschreiben und begründen. Du kannst relevante Informationen aus unterschiedlich dargestellten Sachverhalten (z. B. Texten, Datenmaterialien, grafischen Darstellungen) entnehmen. Du kannst se Informationen zueinan in Beziehung setzen sowie mathematische Fragestellungen daraus ableiten und lösen. Bildungsstandards teilweise erreicht Du verfügst über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und kannst damit reproduktive Anforungen bewältigen und Routineverfahren durchführen. Bildungsstandards nicht erreicht Abbildung 1: Kopetenzstufenmodell Ziel Phase III war es, Schwellenwerte auf kontinuierlichen Kompetenzskala zu definieren, welche es erlauben, Schüler und Schülerinnen den einzelnen Stufen zuzuordnen. Hierzu wurde Methodik des Standard-Settings verwendet, was im weiteren Sinne einen komplexen Entscheidungsprozess beschreibt, möglichst standardisiert durchgeführt werden sollte, um valide Schwellenwertsetzungen zu ermöglichen. Der eigentliche Standard-Setting-Prozess mit einer Expertengruppe sollte in Domäne Mathematik auf 4. Schulstufe drei Schwellenwerte (Cut-Scores) hervorbringen. Daraus ergibt sich neben den drei definierten Stufen noch Stufe Unter Level 1. Die Cut-Scores wurden unter Anwendung einer modifizierten Item- Descriptor-Matching-Methode (Cizek, 1996; Cizek & Bunch, 2007; Ferrara, Perie & Johnson, 2002) und Bookmark-Methode (Mitzel, Lewis, Green & Patz, 1999) durch eine Expertengruppe bestimmt. Der Workshop zum Standard-Setting fand von bis am BIFIE Salzburg statt.

6 4 Standard-Setting Mathematik, 4. Schulstufe 1 Verwendete Methoden 1.1 Bookmark-Methode Die Bookmark-Methode ist eine am häufigsten eingesetzten Methoden in Standard-Settings (Karantonis & Sireci, 2006) und wurde von Mitzel et al. (1999) entwickelt. Im Zentrum Bookmark-Methode steht das sogenannte Ored-Item- Booklet, das Items enthält und welches im Folgenden beschrieben wird. Das Ored-Item-Booklet. Das gereihte Aufgabenheft (Ored-Item-Booklet, OIB) wurde urspünglich durch Bookmark-Methode eingeführt (Karantonis & Sireci, 2006; Mitzel et al., 1999). Bei Bookmark-Methode werden Items aufsteigend nach den empirisch ermittelten Schwierigkeiten von leicht bis schwierig in einem Aufgabenheft geordnet. Die Itemschwierigkeiten werden durch psychometrische Verfahren Item-Response-Theorie (IRT) aus den vorhandenen Daten geschätzt (meist durch das Rasch-Modell). Sowohl Selected-Response- (SR, z. B. Multiple-Choice-Items) Items als auch Constructed-Response- (CR, z. B. offene Antworten mit Punktevergabe) Items werden in einem Ored-Item-Booklet (OIB) zusammengefasst und den Panel-Teilnehmerinnen und -teilnehmern übergeben. Pro Seite wird ein Item mit dazugehörigen Schwierigkeit dargestellt. Die Teilnehmer/innen setzen nun unter Berücksichtigung Schwierigkeiten ein Lesezeichen (Bookmark) an jeweiligen Stelle, an sie Cut-Scores zwischen den unterschiedlichen Niveaustufen vermuten. Das OIB im Standard-Setting für M4. Für das Standard-Setting in M4 wurden aus dem gesamten Itempool durch ein internes Review 80 Items ausgewählt, das gesamte Schwierigkeitsspektrum bestmöglich repräsentierten. Aus Zeitgründen können nicht alle verfügbaren Items in den Standard-Setting-Prozess einbezogen werden. Die Items waren im Ored-Item-Booklet aufsteigend nach Schwierigkeit gereiht, wobei pro Seite nur ein Item gelistet wurde. Jede Seite enthielt den Itemtext (Itemstamm) und dazugehörige Abbildungen, den Itemnamen und Seitennummer. Zusätzlich zum OIB erhielten Teilnehmer/innen den Antwortschlüssel zu den einzelnen Items. In einer Online-Korsoftware trugen Rater anschließend Zuordnung Items zu den einzelnen Levels ein. Die daraus gewonnenen Daten nten wieum als Grundlage für Diskussionen im Plenum. Insgesamt wurden drei Rating-Runden mit IDM-Methode (siehe 1.2) für oberen beiden Cut-Scores und zwei Rating-Runden mit Bookmark-Methode für den untersten Cut-Score durchgeführt. Prozess in Bookmark-Methode. Wie bereits oben erwähnt, arbeiten Teilnehmer/innen bei Bookmark-Methode mit einem Ored-Item-Booklet, in dem Items Schwierigkeit nach aufsteigend gereiht sind. Die Frage, an Teilnehmer/innen gestellt wird, lautet (cf. Cizek & Bunch, 2007): Ist es wahrscheinlich, dass ein/e minimalqualizierte/r Schüler/in bzw. eine Testperson an Grenze zwischen den Levels X und Y ses Item richtig beantworten wird? Der Term wahrscheinlich wird meist mit einer 2/3- o 67 %-Wahrscheinlichkeit, das Item zu lösen, festgelegt (Response Probability, RP =.67). Der/ Teilnehmer/ in erhält somit Aufgabe jedes Item zu begutachten und sich Frage zu stellen, ob ein/e minimalqualizierte/r Schüler/in in 2 von 3 Fällen Aufgabe richtig beantworten würde. Kommt / Teilnehmer/in zu einem Item, bei dem Wahrscheinlichkeit unter 2/3 fallen würde, setzt er/sie dort eine Marke. Demnach könnten minimalqualizierte Testpersonen alle Items bis zu ser Bookmark lösen (mit

7 Standard-Setting Mathematik, 4. Schulstufe 5 ark lösen Bookmark (mit einer lösen 2/3-Wahrscheinlichkeit) (mit einer 2/3-Wahrscheinlichkeit) ark lösen Bookmark (mit einer lösen 2/3-Wahrscheinlichkeit) (mit einer 2/3-Wahrscheinlichkeit). Hier bleibt 1 1. zu Hier entscheiden, bleibt zu entscheiden, welche Responbabilitse Probability man festlegt, man dafestlegt, se Auswirkungen da se Auswirkungen auf welche Respon- Hier bleibt Cut-Scores auf zu Hier entscheiden, bleibt Cut-Scores hat zu (Wyse, entscheiden, welche hat 2011). Responbabilitse (Wyse, Das welche 2011). Respon- Das -Modell Rasch-Modell geht Probability man von festlegt, einer einer 2/3-Wahrscheinlichkeit) geht man da 50%igen von festlegt, se einer Auswirkungen Lösungswahrscheinlichkeit da 50%igen se 1. Hier Auswirkungen Lösungswahrscheinlichkeit auf bleibt zu Cut-Scores entscheiden, auf aus, was Cut-Scores hat welche bedeutet, (Wyse, aus, Response was hat 2011). dass, bedeutet, Probability man festlegt, da se Auswirkungen auf Cut-Scores hat (Wyse, 2011). Das (Wyse, wenn Das 2011). dass, wenn Das -Modell rsonenfähigkeit Rasch-Modell geht Personenfähigkeit von gleich einer geht 50%igen von Itemschwierigkeit gleich einer Lösungswahrscheinlichkeit 50%igen Itemschwierigkeit Lösungswahrscheinlichkeit ist, se Schüler/innen ist, aus, se was Schüler/innen bedeutet, das aus, Item wasdass, bedeutet, mit das wenn einer Item dass, mit wenn einer Rasch-Modell geht von einer 50%igen Lösungswahrscheinlichkeit aus, was bedeutet, dass, en rsonenfähigkeit Wahrscheinlichkeit 50%igen Personenfähigkeit Wahrscheinlichkeit gleich lösen Itemschwierigkeit gleich wenn können Personenfähigkeit lösen (Wang, Itemschwierigkeit können 2003). ist, (Wang, se Schüler/innen gleich 2003). ist, se Schüler/innen das Item mit daseiner Item mit einer en Wahrscheinlichkeit 50%igen Wahrscheinlichkeit lösen können lösen (Wang, können 2003). (Wang, 2003). Itemschwierigkeit ist, se Schüler/ innen das Item mit einer 50%igen Wahrscheinlichkeit lösen können (Wang, 2003). end auf Basierend Rasch-Gleichung, auf Rasch-Gleichung, in sich in Lösungswahrscheinlichkeit sich Lösungswahrscheinlichkeit p(x = 1) aus p(x = 1) aus end hwierigkeit auf Basierend Itemschwierigkeit β Rasch-Gleichung, Basierend auf Rasch-Gleichung, auf in Rasch-Gleichung, sich in Lösungswahrscheinlichkeit sich in sich Lösungswahrscheinlichkeit Lösungswahrscheinlichkeit p(x 1) aus p(x 1) aus j und βpersonenfähigkeit j und Personenfähigkeit θ i zusammensetzt, θ i zusammensetzt, setzt man p setzt =2/3 man undlöst p =2/3 undlöst hwierigkeit auf. Itemschwierigkeit nach Manβerhält auf. j p(x und Man aus = 1) aus erhält Personenfähigkeit j ursprünglichen und aus Itemschwierigkeit Personenfähigkeit ursprünglichen Gleichung i zusammensetzt, und i zusammensetzt, Personenfähigkeit setzt ᵦj Gleichung setzt man =2/3 zusammensetzt, man undlöst =2/3 undlöst ᶿi auf. nach Man erhält auf. setzt Man aus man erhält p = ursprünglichen 2=3 aus und löst ursprünglichen nach Gleichung ᵦ auf. Man Gleichung erhält aus ursprünglichen Gleichung p(x =1 θ i,βp(x j ) = =1 θ exp(θ i,β i j ) β= j )/[1 exp(θ + i exp(θ β j )/[1 i β+ j )] exp(θ i β j )] p(x =1 θ i,βp(x j =1 θ exp(θ i,β i j j )/[1 exp(θ i exp(θ j )/[1 i j )] exp(θ i j )] (1) (1) (1) (1) rm Form rm Form Form θ i = β j θ i = β j i j.708. i j.708. (2) (2) (2) (2) e Personenfähigkeit Um Personenfähigkeit Um θ zupersonenfähigkeit ermitteln, θ zu ermitteln, nötig ᶿ zu ist, ermitteln, umnötig ein Item ist, nötig umit einer ist, Item um 2/3-Wahrscheinlichkeit mit einer Item 2/3-Wahrscheinlichkeit mit einer en, Personenfähigkeit muss Um zu lösen, man Personenfähigkeit 2/3-Wahrscheinlichkeit mussitemschwierigkeit zu man ermitteln, Itemschwierigkeit zu ermitteln, zu nötig lösen, Konstante ist, muss umnötig ein man von Konstante Item ist,.708 umit Itemschwierigkeit hinzuadren. einer von 2/3-Wahrscheinlichkeit.708 mit hinzuadren. einer Im 2/3-Wahrscheinlichkeit Konstante Raschl würde Im Raschen, muss zu Modell sich lösen, man würde von muss Reihung.708 Itemschwierigkeit sich man hinzuadren. Reihung Items Itemschwierigkeit nicht Im Rasch-Modell Items änn, Konstante nicht egal, änn, von Konstante würde ob.708 man sich egal, hinzuadren. von ob Schwierigkeit Reihung.708 man hinzuadren. Im Schwierigkeit Items o Rasch- nicht Im o Rasch enfähigkeit würde Modell Personenfähigkeit sich als würde änn, Wert Reihung sich für egal, als ob Wert Reihung OIB-Generierung Items man für nicht Schwierigkeit OIB-Generierung Items änn, nicht verwendet. egal, o änn, ob man Personenfähigkeit verwendet. MacCann egal, ob Schwierigkeit und man MacCann Stanley als Wert Schwierigkeit o und (2006) für Stanley o (2006) enfähigkeit Personenfähigkeit alsoib-generierung Wert fürals Wert OIB-Generierung verwendet. für OIB-Generierung MacCann verwendet. und Stanley verwendet. MacCann (2006) und verwenden MacCann Stanley daher und (2006) Stanley an- den daher verwenden anstelle daher vonanstelle θ den Begriff von θ den Begriff Bookmark Difficulty BookmarkLocation Difficulty (BDL). Location Im (BDL). 2PL Im (2006) 2PL den daher verwenden anstelle daher vonanstelle ᶿ den denbegriff Begriff von den Bookmark Begriff Bookmark Difficulty Bookmark Location Location Difficulty (BDL). Im (BDL). Location 2PL o Im (BDL). 2PL 3PL PL kann oes3pl allerdings Im 2PL PL kann oes3pl allerdings kann kann kannes es es allerdings durchaus allerdings durchaus allerdings durchaus zudurchaus einer zudurchaus einerzu Änung Änung einer zu einer zu einer Änung Änung Reihenfolge Änung Reihenfolge Reihenfolge Reihenfolge kommen. Reihenfolge kommen. kommen. kommen. kommen. mschwierigkeiten Die Itemschwierigkeiten Die wurden Itemschwierigkeiten für wurden M4 durch wurden fürdas M4Rasch-Modell für durch das durch Rasch-Modell (Rasch, das Rasch-Modell 1960) (Rasch, ermittelt, (Rasch, 1960) wobei 1960) ermittelt, wobei mschwierigkeiten Die Lösungswahrscheinlichkeit Itemschwierigkeiten ermittelt, wurden wobei auf für 67% wurden M4 Lösungswahrscheinlichkeit gesetzt durch auf für 67% das M4 wurde. Rasch-Modell gesetzt durch Für das wurde. das Rasch-Modell bessere auf (Rasch, Für 67 das % allgemeine 1960) gesetzt bessere (Rasch, ermittelt, wurde. Verständnis allgemeine 1960) Für wobei ermittelt, das Verständnis wobei Mittelwert wurde Lösungswahrscheinlichkeit bessere Mittelwert Item- allgemeine auf und 67% Personenparameterverteilung Item- Verständnis gesetzt auf und 67% wurde. Personenparameterverteilung gesetzt FürMittelwert wurde. das bessere für Für das das allgemeine Item- Standard-Setting bessere für und das Personenparameterverteilung Mittelwert Verständnis allgemeine Standard-Setting auf Verständnis auf setzt. Mittelwert wurde 500 Dieser gesetzt. ist aufgrund Dieser Itemist und von aufgrund für internationalen Personenparameterverteilung Item- das Standard-Setting und von internationalen Personenparameterverteilung Schülerleistungsstun auf 500 Schülerleistungsstun gesetzt. für dasdieser Standard-Setting vertraut. für das aufgrund Standard-Setting vertraut. von auf auf setzt. 500 Dieser gesetzt. ist internationalen aufgrund Dieser ist von aufgrund Schülerleistungsstun internationalen von internationalen Schülerleistungsstun vertraut. Schülerleistungsstun vertraut. vertraut. em Nachdem Teilnehmer/innen Teilnehmer/innen ihre Markierungen ihre Markierungen (Bookmarks) (Bookmarks) gesetzt haben, gesetzt wirdhaben, jeweiite mit wird jeweilige em Nachdem Teilnehmer/innen ihre Markierungen (Bookmarks) gesetzt haben, Nachdem Teilnehmer/innen dem Seite dazugehörigen wird mit Teilnehmer/innen demjeweilige dazugehörigen ihre Fähigkeitswert Markierungen ihre Seite mit dem Fähigkeitswert Markierungen (Theta) (Bookmarks) dazugehörigen notiert. (Theta) (Bookmarks) gesetzt Fähigkeitswert Dieser notiert. haben, Theta-Wert gesetzt (Theta) Dieser wirdhaben, notiert. Theta-Wert stellt jeweiite mit lige Dieser Theta-Wert kann nun wird stellt jewei- nun ut-score den dem dar Seite Cut-Score dazugehörigen und mit dem darwie dazugehörigen und Fähigkeitswert stellt kann in nun einen wie Fähigkeitswert den Rohwert Cut-Score in (Theta) einen dar Rohwert notiert. entsprechenden (Theta) Dieser und kann notiert. wie entsprechenden Theta-Wert Test-Skala Dieser Theta-Wert stellt in einen Rohwert transforwerden. Test-Skala nun stellt transformiert Die nun ut-score den dar Cut-Score werden. individuellen und kann entsprechenden Die darwie individuellen und Cut-Scores kann in einen wie Test-Skala Cut-Scores Rohwert transformiert Teilnehmer/innen in einen Rohwert entsprechenden werden. Teilnehmer/innen Die können entsprechenden individuellen mittels Test-Skala können Cut-Scores Median mittels transforwerden. Test-Skala o Median transformiert o wert zu Mittelwert einem Diewerden. individuellen Teilnehmer/innen Gesamt-Cut-Score zu einem Die individuellen Gesamt-Cut-Score Cut-Scores können zusammengefasst Cut-Scores mittels Teilnehmer/innen zusammengefasst Median werden. o Teilnehmer/innen Mittelwert können werden. zu mittels einem können Median Gesamt-Cutmittels o Median o wert zu Mittelwert einem Gesamt-Cut-Score zu einem zusammengefasst Gesamt-Cut-Score zusammengefasst werden. zusammengefasst werden. werden. le Vorteile Bookmark-Methode Bookmark-Methode sind, dass sind, tatsächlich dass tatsächlich von den Schülerinnen von den Schülerinnen und Schülern und Schülern le iteten Vorteile bearbeiteten Bookmark-Methode Items mit Vorteile Bookmark-Methode den Items dazugehörigen mit sind, den dass dazugehörigen Test-Scores sind, tatsächlich dass sind, Test-Scores in dass den tatsächlich von Entscheidungsprozess den tatsächlich in Schülerinnen den von von Entscheidungsprozess den den Schülerinnen und einfließen Schülern und einfließen Schülern bearbeiteten und Items Schülern mitbearbeiteten den dazugehörigen Items mit Test-Scores den dazugehörigen in dentest-scores Entscheidungsprozess in den Entscheidungsprozess ie iteten Methode und Items sehr mit Methode einfließen und Methode einfach den dazugehörigen sehr in einfach sehr einfach einfließen Durchführung in Test-Scores und Durchführung Durchführung Methode ist. in Der den sehr Nachteil Entscheidungsprozess ist. ist. einfach Der besteht Derin Nachteil Nachteil Durchführung darin, besteht einfließen dassdarin, oft besteht darin, ist. dass oft ohe ie Methode Differenz eine hohe sehr dass oft eine hohe Der Differenz einfach Item-Schwierigkeiten Differenz Nachteil in besteht Item-Schwierigkeiten Durchführung Item-Schwierigkeiten darin, zwischen ist. dass oft eine benachbarten zwischen Der Nachteil zwischen hohe Differenz benachbarten Items besteht benachbarten bestehen darin, Item-Schwierigkeiten Items kann. dass bestehen Die oft kann. Die ohe Differenz Cut-Score-Bestimmung Items bestehen kann. Die zwischen ist Item-Schwierigkeiten dann benachbarten schwierig ist dann zwischen benachbarten Items bestehen kann. Die Items (diskutiert schwierig bestehen in (diskutiert kann. Cizek Die & Cut-Score-Bestimmung inbunch, Cizek 2007). & Bunch, Eine2007). ist weitere dann Eine weitere besteht Cut-Score-Bestimmung Kritik in dem besteht ist dann schwierig ist dann(diskutiert schwierig in (diskutiert Cizek inbunch, Cizek 2007). Bunch, Eine2007). weitereeine weitere schwierig Konzept in dem (diskutiert deskonzept minimalqualifizierten Cizek des minimalqualifizierten & Bunch, Schülers, 2007). Eine das Schülers, weitere manche Kritik das Teilnehmer/innen manche besteht in Teilnehmer/innen dem besteht hwierig Kritik sehr in finden schwierig dem besteht Konzept können, Konzept in finden dem des weshalb des können, Konzept minimalqualifizierten eineweshalb des genaue minimalqualifizierten eine Instruktion Schülers, genaue Schülers, Instruktion und das das manche Schülers, manche Diskussion und Teilnehmer/innen das Teilnehmer/innen manche des Diskussion Konzepts Teilnehmer/innen sehr des Konzepts nd hwierig des sehr während Workshops finden schwierig des schwierig können, Workshops wichtig finden finden weshalb ist können, (Cizek können, wichtig eineweshalb genaue & ist weshalb Bunch, (Cizek eine Instruktion eine 2007). genaue & Bunch, Instruktion und 2007). Diskussion und des Diskussion Konzepts des des Konzepts nd tonis des während Karantonis und Workshops Sireci des Konzepts (2006) und Workshops wichtig Sireci während weisen ist (2006) (Cizek wichtig des noch Workshops weisen auf ist Bunch, (Cizek einige noch wichtig 2007). bedeutsame auf Bunch, ist einige (Cizek 2007). bedeutsame Kritikpunkte & Bunch, 2007). Kritikpunkte hin, einer hin, einer tonis ren Untersuchung Karantonis genaueren und Sireci Untersuchung (2006) und bedürfen: Sireci weisen (2006) bedürfen: nochweisen auf einige nochbedeutsame auf einige bedeutsame Kritikpunkte Kritikpunkte hin, einer hin, einer ren Untersuchung genauerenkarantonis Untersuchung bedürfen: und Sireci bedürfen: (2006) weisen noch auf einige bedeutsame Kritikpunkte hin, m OIB kann Imeine OIB einer Item-Disordinalität kann genaueren eine Item-Disordinalität Untersuchung auftreten, bedürfen: auftreten, dem Prozess dem nicht Prozess nlich nicht ist. nlich ist. OIB kann Imeine OIBItem-Disordinalität kann eine Item-Disordinalität auftreten, auftreten, dem Prozess dem nicht Prozess nlich nicht ist. nlich ist. s konnte gezeigt Es konnte werden, Im OIB gezeigt kann dass werden, eine Item-Disordinalität Bookmark-Methode dass Bookmark-Methode auftreten, im Vergleich dem improzess zuvergleich anen nicht nlich Methoden zu anen ist. Methoden nd konnte zu simulierten gezeigt Es und konnte zu werden, Es simulierten Daten konnte gezeigt dass gezeigt Cut-Scores Daten werden, Bookmark-Methode dass Cut-Scores meist dass Bookmark-Methode etwas meist unterschätzt im Vergleich etwas unterschätzt im (negativer im zuvergleich anen Bias). (negativer Methoden zu anen Bias). Methoden nd zu simulierten und zumethoden simulierten Daten und Cut-Scores Daten zu simulierten Cut-Scores meistdaten etwas meist unterschätzt Cut-Scores etwas unterschätzt (negativer meist etwas Bias). (negativer unterschätzt Bias). (negativer Basis). sichtlich 1 Hinsichtlich Festlegung Festlegung RP herrscht kein RP klarer herrscht Konsens, kein klarer allerdings Konsens, scheinen allerdings Personen scheinen mit Personen dem Termmit dem Term sichtlich besser 2 umgehen von 1 Hinsichtlich 3Festlegung besser zu können. umgehen Festlegung RPzu herrscht können. kein RP klarer herrscht Konsens, kein klarer allerdings Konsens, scheinen allerdings Personen scheinen mit Personen dem Termmit dem Term 1 Hinsichtlich Festlegung RP herrscht kein klarer Konsens, allerdings scheinen Personen mit dem Term besser 2 umgehen von 3 besser zu können. umgehen zu können. 2 von 3 besser umgehen zu können. rd-setting Standard-Setting Mathematik Mathematik rd-setting Standard-Setting Mathematik Mathematik 4 4

8 6 Standard-Setting Mathematik, 4. Schulstufe Generell scheinen Panelisten Anforungen in Bookmark-Methode zu verstehen, das Ausmaß kognitiven Komplexität und inwiefern Urteile tatsächlich valide sind, ist allerdings unklar. Eine weitere Frage ist, ob Mittelwert o Median individuellen Bookmarks für Cut-Score-Berechnung verwendet werden sollte. Der Median ist zwar unabhängig von Ausreißern, allerdings könnten solche Ausreißer in Form von Extremmeinungen bezüglich Position des Bookmarks auch eine wichtige Bedeutung für den Prozess haben. 1.2 Item-Descriptor-Matching-Methode (IDM) Aufgrund genannten Nachteile Bookmark-Methode wurde beim Standard- Setting in M4 daher Item-Descriptor-Matching-Methode für beiden oberen Cut-Scores (zwischen Level 1 und Level 2 und zwischen Level 2 und Level 3) verwendet. Diese nutzt ebenfalls ein OIB und das Konzept Response Probability ist für Reihung Items notwendig, geht allerdings nicht in den Entscheidungsprozess ein. Dadurch sollte zumindest kognitive Aufwand für Teilnehmer/ innen etwas verringert werden. Die IDM-Methode wurde aus Motivation heraus entwickelt, eine bessere Verlinkung zwischen den PLDs (Performance Level Descriptors = Kompetenzstufenbeschreibungen) und den Cut-Scores zu gewährleisten, was wieum Validität Ergebnisse erhöht (Cizek & Bunch, 2007). Die Methode verwendet ebenfalls ein Ored-Item-Booklet und einzelnen Testitems werden den einzelnen PLDs zugeordnet (Ferrara et al., 2002). Die Frage, an das Experten-Panel gestellt wird, ist: Welcher PLD repräsentiert am besten Anforungen des Items? O genauer: Welcher PLD drückt am besten das Wissen, verlangte Fähigkeit und kognitiven Prozesse aus, zur Beantwortung des bestimmten Items gefort sind? Die Teilnehmer ordnen danach jedes Item einem bestimmten PLD zu und vermerken s auf dem Antwortbogen o in einer entsprechenden Software. Der Schwellenwert, zwei Kompetenzstufen voneinan trennt, wird dort gesetzt, wo / Teilnehmer/in kontinuierlich und systematisch von einem Level ins nächste wechselt. Dies spricht für eine sehr flexible Methode, nicht von einer strengen Sequenzierung (wie bei Bookmark-Methode) ausgeht und auch etwas Rauschen zulässt. Da Schwierigkeiten Items meist durch Schätzungen basierend auf IRT erfolgen, kann nicht davon ausgegangen werden, dass Item-Positionen im Booklet unveränlich sind, sonn auch einem Schätzfehler unterliegen; eine erlaubte Flexibilität entspricht also einem natürlicheren Matching-Prozess (Cizek & Bunch, 2007; Ferrara et al., 2002). In Regionen alternieren Item-PLD-Matches wird Threshold-Bereich festgelegt (Ferrara et al., 2002). Da es auch in den PLDs keine absolut festsetzbaren Grenzen gibt, sonn hier Übergänge eines PLDs zum nächsten fließend sind, wird ser Bereich als optimal zur Schwellenwertbestimmung angesehen. Mindestens drei aufeinanfolgende gleiche Klassifizierungen müssen vorliegen, um den Anfang und das Ende eines Grenzbereichs zu definieren. In sem Bereich wird Cut-Score ermittelt. Dies kann ähnlich wie bei einer Bookmark-Methode geschehen, indem man Teilnehmer/innen nochmals entscheiden lässt, wo genau sich in ser Region exakte Übergang zwischen den Kompetenzstufen befindet. Genauer kann man es mittels Median o Mittelwertberechnung erfassen. Im Falle Mittelwertbestimmung werden nur Schwierigkeiten jeweiligen Grenz- Items verwendet (N = 2). Es gibt auch Ansätze, in denen Schwellenwert mittels logistischer Regression bestimmt wird (Sireci & Clauser, 2001).

9 Standard-Setting Mathematik, 4. Schulstufe 7 Die Identifizierung Übergangsbereiche, in IDM zur Bestimmung Cut-Scores definiert sind, ist praktisch allerdings oft sehr schwierig umzusetzen. Bei größeren Item-Mengen können auch Ausreißer auftreten, laut Original-Methode bereits den Beginn o das Ende eines Grenzbereichs festlegen würden. Für das Standard-Setting in M4 wurde daher ursprüngliche Methode leicht modifiziert, wie weiter unten (siehe 7) nachzulesen ist. Die IDM wird grundsätzlich in mehreren Runden durchgeführt, wobei in Runde 1 Items den PLDs zugeordnet werden: Danach werden Schwellenwert-Regionen durch Organisatoren bzw. Psychometriker/innen des Standard-Settings ermittelt und rückgemeldet. Diese werden dann im Plenum o in Subgruppen diskutiert. In Runde 2 wird selbe Prozess nochmals durchgeführt, Änungen können vorgenommen werden und ein erster Cut-Score wird berechnet. In Runde 3 werden Werte diskutiert und es werden den Teilnehmerinnen und Teilnehmern zusätzlich Informationen über Konsequenzen, Mittelwerte, Verteilungen usw. vermittelt. Der endgültige Cut-Score wird danach festgelegt und nochmals zur Begutachtung präsentiert. Zusätzlich könnte IDM noch durch eine Item-Map ergänzt werden, da eine solche auch Item-Untergruppen besser darstellt (Schulz, Kolen & Nicewan, 1999; Schulz, Lee & Mullen, 2005). Die sogenannten Threshold Regions (TR) sind Bereiche, in denen Match zwischen Item-Anforung (Wissen, Fähigkeit etc.) und Anforungen des Descriptors (PLDs) nicht klar sind. Dies kann mehrere Gründe haben und Teilnehmer/innen müssen darauf sensibilisiert und trainiert werden. Gründe können sein: Item Oring Effects (inkl. methodische Aspekte OIB-Generierung) Unklarheit in Beschreibung PLDs Unsicherheit Teilnehmer/innen bzgl. Zuordnung Der wesentliche Vorteil Methode liegt darin, dass kognitive Anspruch an Teilnehmer/ innen gering gehalten wird (Ferrara et al., 2002). Die Items müssen lediglich den PLDs zugeordnet werden, es bedarf keiner zusätzlichen Instruktion, wie z. B. sich eine bestimmte Schülergruppe vorzustellen, einer gewissen Mindestanforung entspricht. Da Personen generell Probleme haben, Urteile auf Grund von Wahrscheinlichkeitsangaben zu machen (Impara & Plake, 1998; Plous, 1993), bietet se Methode auch den Vorteil, dass Antwortwahrscheinlichkeiten zwar in Generierung des OIB miteinfließen, für den Entscheidungsprozess allerdings irrelevant sind (im Gegensatz zur Bookmark-Methode).

10 8 Standard-Setting Mathematik, 4. Schulstufe 2 Die Expertengruppe Die insgesamt 14 Teilnehmer/innen setzten sich aus unterschiedlichen Teilgruppen (siehe Abb. 2) zusammen, ein bestimmtes Spektrum repräsentierten. Die direkte Auswahl geschah durch das BIFIE in Zusammenarbeit mit den verschiedenen Institutionen und Behörden. Unter den Teilnehmerinnen und Teilnehmern befanden sich Vertreter/innen Fachdidaktik, des Bundesministeriums für Unterricht, Kunst und Kultur (BMUKK), praktizierende Lehrer/innen für M4 und M8 sowie Personen aus Forschungseinrichtungen (BIFIE, Universitäten etc.). Laut Einführungsfragebogen waren zum Zeitpunkt des Standard-Settings 81 % Teilnehmer/innen 2 mit dem Prozess des Setzens von Standards und den Kompetenzstufen Bildungsstandards für Mathematik auf 4. Schulstufe vertraut. Alle Teilnehmer/innen stimmten zu, dass Gruppenzusammensetzung für das Standard-Setting passend war. BMUKK 7% Lehrpersonen 29% Forschung 43% Fachdidaktik 21% Abbildung 2: Zusammensetzung Teilnehmer/innen 2 Rücklaufquote Fragebögen 78 %

11 Standard-Setting Mathematik, 4. Schulstufe 9 3 Training und Vorbereitung auf den Beurteilungsprozess Die Teilnehmer/innen müssen eine umfassende Schulung erhalten, damit sie mit dem Material, Methode und dem Ablauf vertraut sind. Es ist von enormer Wichtigkeit, dass Aufgaben verstanden werden. Cizek und Bunch (2007) geben einen kleinen Leitfaden, an dem Ablauf des Standard-Settings für M4 ausgerichtet wurde. Am ersten Tag des Workshops wurden Teilnehmer/innen eingegeschult. Nach einer ausführlichen Einführung in Bildungsstandardüberprüfung sowie zum bisherigen Verlauf des Standard-Setting-Prozesses (Phase I und II) bekamen Experten einen Übungstest mit 10 Items vorgelegt. Dadurch sollte ihnen Testsituation vermittelt werden und ihnen zeitlicher Druck, in tatsächliche Bearbeitung Items miteinfließt, bewusst gemacht werden. Danach folgte eine Einführung in Standard-Setting-Methode und den Ratingprozess. Nach genauerer Erläuterung Kompetenzstufenbeschreibungen folgte eine kurze Diskussion in Kleingruppen, in denen Teilnehmer/innen auf Unterschiede zwischen den Stufenbeschreibungen achten und Unklarheiten bezüglich Begrifflichkeiten klären konnten. Anschließend wurde im Plenum nochmals über kritische Punkte diskutiert und erste Ratings anhand von einigen Items in Gesamtgruppe vorgenommen. Darauf folgten weiteren Runden.

12 10 Standard-Setting Mathematik, 4. Schulstufe 4 Runde Aufgabe und Instruktion In Runde 1 wurden Experten/innen aufgefort, Items den Kompetenzstufenbeschreibungen (= PLDs) zuzuordnen. Die genaue Instruktion lautete: Beantworten Sie folgende Fragen: Welche Kompetenzanforung stellt das Item an Schüler/innen? Welche Kompetenzstufenbeschreibung drückt das am besten aus? Die Teilnehmer/innen wurden aufgefort, das OIB individuell durchzuarbeiten und in Kor-Software einzutragen. % Häufigkeit Seiten Nr. (ITEM) % Häufigkeit Seiten Nr. (ITEM) % Häufigkeit Seiten Nr. (ITEM) % Häufigkeit Seiten Nr. (ITEM) Abbildung 3: Rating-Daten aus Runde 1, an Teilnehmer/innen rückgemeldet wurden. Pro Item wird prozentuelle Häufigkeit Zuordnung zu einem bestimmten Level dargestellt. Die Teilnehmer/innen können dadurch Items mit niedriger o hoher Übereinstimmung erkennnen und über se Items diskutieren (GRÜN = Level 1, BLAU = Level 2, ORANGE = Level 3) Auswertung Ratingdaten Aus Software erhält man eine Datenmatrix mit Panelisten x Items mit den Werten 1, 2 und 3 (Level-Ratings 1 3). Zur Auswertung wurde für jedes Item separat prozentuelle Häufigkeit einzelnen Kategorien ermittelt und grafisch aufbereitet (siehe Abb. 3). Dieses Datenblatt nte als Diskussionsgrundlage. Diskussionspunkte waren Items mit hoher Konvergenz bzw. Divergenz, augenscheinliche Übergänge zwischen Levels sowie Abschnitte, sich bereits als einzelne Levels herauskristallisierten. Zusätzlich erhielt jede/r Teilnehmer/in eine Auflistung seiner/ihrer individuellen Ratings.

13 Standard-Setting Mathematik, 4. Schulstufe 11 5 Runde Aufgabe und Instruktion Die Diskussion in Runde 1 nte dazu, Expertengruppe in bestimmten Diskussionspunkten, für den Entscheidungsprozess wichtig sind, zu homogenisieren. In Runde 2 arbeiteten Experten/innen erneut individuell das OIB durch und adjustierten ihre Item-PLD-Zuordnungen, und sie vermerkten ihre Urteile wieum in entsprechenden Software. Als Feedback zur Runde 2 wurden den Expertinnen und Experten Ratingdaten vorgelegt, in ähnlicher Weise wie in Runde 1 diskutiert wurden. Zusätzlich wurden hier auch Cut-Scores ermittelt und den Teilnehmerinnen und Teilnehmern rückgemeldet. 5.2 Bestimmung Cut-Scores Die Bestimmung Cut-Scores erfolgt in mehreren Analyseschritten. Wie bereits erwähnt, wurde im Standard-Setting für M4 eine alternative Strategie zur Auswertung des Ratingverhaltens und damit verbundenen Cut-Score- Bestimmung verwendet. Ziel Methode ist es, Übergänge zwischen den einzelnen Levels zu detektieren, was in drei Schritten vorgenommen wurde: 1. Als erster Schritt wird jede individuelle Ratingserie durch einen symmetrischen Moving Average geglättet (or = 1, Filterfenster ergibt sich aus 2 * or + 1, ungewichtet). Um in den Randbereichen keinen Datenverlust durch Filterung zu erleiden, wurden mittleren Ratingwerte dem Beginn und Ende Serie angefügt. Abbildung 4 zeigt Rating-Serie (series, obere Graphik) einer Person und gefilterte Funktion ser Serie darunter. Die individuelle Ratingserie besteht aus 80 Werten (pro Item ein Wert). Die Itemnummer entspricht exakt Seitenzahl im OIB, Items sind nach Schwierigkeit geordnet. 2. Die geglättete Funktion jedes Panelisten steigt mit zunehmen Kategorienzahl an. Es wurden zwei Schwellen definiert, jeweils erstenwerte, se Schwellen überschreiten, liefern den Seiten-Index für den jeweiligen Cut-Score. Die dazugehörige Schwierigkeit des Items auf jeweiligen Schwelle definiert des Weiteren den Cut-Score auf Theta-Metrik. Die Schwellenwerte wurden auf 1.7 für den ersten Cut und auf 2.4 für den zweiten Cut gesetzt. DieseWerte ergaben sich aus zusätzlich in einem Probelauf erhaltenen Daten Nach anschließen manueller Kontrolle erhält man pro Teilnehmer/in Index- Werte mit Angabe Seitenzahl des Cut-Score-Items sowie dazugehörigen Theta-Werte. Um einen Gruppen-Wert für jeweiligen Cut-Scores zu erhalten, wurde Mittelwert über alle individuellen Cut-Scores berechnet. Die Methode erbrachte bei allen Teilnehmerinnen und Teilnehmern reliable Werte Übergange zwischen den Levels. Zur Rückmeldung an Teilnehmer/innen wurde eine Tabelle präsentiert, in Cut-Scores mit dazugehöriger OIB-Seitennummer dargestellt wurde (Abb. 5). So konnten sich Teilnehmer/innen ein erstes Bild von den Cut-Scores machen. 3 Überschreitet wie in Abbildung 4 geglättete Funktion (filtered, mittlere Graphik) den ersten Schwellenwert von 1.7, definiert ser Punkt den Index für Seite im OIB. In sem Fall Seite 20. Dieses Item mit entsprechenden Schwierigkeit (auf Theta-Metrik) liefert den ersten Cut-Score für se/n Experten/in. Analog verfährt man mit dem zweiten Cut-Score.

14 12 Standard-Setting Mathematik, 4. Schulstufe residuals filtered series -10-0,5 0,0 0,5 1,0 1,0 1,5 2,0 2,5 3, Seiten-Nr (Item) Abbildung 4: Methodik Cut-Score-Bestimmung. Die oberste Grafik zeigt eine einzelne beispielhafte Ratingserie einer Person. Darunter ist geglättete Funktion ser Serie (unten: Filter-Residuen). Gestrichelte horizontale Linien zeigen beiden Schwellenwerte bei 1.7 und 2.4. Vertikale Linien stellen Schnittpunkte geglätteten Funktion mit den Schwellenwerten dar. Aus sen Punkten kann man auf X-Achse Seitennummer des Items ablesen, das den Cut-Score repräsentiert. 1,0 1,5 2,0 2,5 3,0 Seite-Cut1 Seite-Cut2 Diff-Cut1 Diff-Cut2 Mean 11 46,29 444,2 618,82 SD 3,88 9,91 36,54 47,62 SE 1,04 2,65 9,77 12,73 [1,444) [444,619) [619,900) Anz. Items pro Level MW ItemDiff pro Level 384,53 539,76 702,34 SD ItemDiff pro Level 47,47 48,4 52,06 Abbildung 5: Feedback in Runde 2: Deskriptive Statistiken zu den Cut-Scores sowie Anzahl Items pro Level.

15 Standard-Setting Mathematik, 4. Schulstufe 13 6 Runde 3 Nach Diskussion zu Runde 2 wurden Teilnehmer/innen gebeten, das OIB ein letztes Mal durchzuarbeiten, Zuordnungen zu adjustieren und sich auf endgültige Urteile festzulegen. Dann wurden Rückmelde- und Konsequenzdaten präsentiert, danach folgte eine abschließende Diskussion über Setzung Cut- Scores. Bookmarks Häufigkeit (Abs.) Stats Seite Theta Md 7 406,24 Mean 6,85 407,36 SD 1,77 15,44 Min 5 393,01 Max , Seite in Booklet Abbildung 6: Feedback in Runde 4 und 5: Deskriptive Statistiken zum Bookmark-Cut-Score sowie Häugkeit gewählter Bookmarks und Median (blaue gestrichelte Linie).

16 14 Standard-Setting Mathematik, 4. Schulstufe 7 Setzung Schwelle zu Unter Level 1 Runden 4 und 5 Nach einer endgültigen Entscheidung über Cut-Scores zu Level 1 2 und Level 2 3 wurde abschließend noch Grenze zu Unter Level 1 bestimmt. Dazu wurde Bookmark-Methode (siehe Abschnitt 1.1) verwendet. Die Teilnehmer/ innen mussten sich, beginnend beim ersten Item des OIBs folgende Frage stellen: Könnte ein/e minimalqualizierte/r Schüler/in bzw. eine Testperson an Grenze zwischen dem untersten Level und Level 1 das jeweilige Item in 2 von 3 Fällen beantworten? Falls Frage mit Ja beantwortet wurde, gingen Teilnehmer/innen zum nächsten Item über, war Antwort Nein, wurde hier ein Bookmark (Lesezeichen) gesetzt, welches den Cut-Score zwischen den Levels repräsentiert. 4 Nachdem Teilnehmer/innen ihre Markierungen gesetzt haben, wird jeweilige Seite mit dem dazugehörigen Fähigkeitswert (Theta) notiert. Dieser Theta-Wert ist nun Cut-Score und kann wie in einen Rohwert entsprechenden Test- Skala transformiert werden. Die individuellen Cut-Scores Teilnehmer/innen können nun mittels Mittelwert o Median zu einem Gesamt-Score zusammengefasst werden. Rückmeldung Bookmark-Methode. Den Teilnehmerinnen und Teilnehmern wurden deskriptive Statistiken zum Cut-Score präsentiert sowie in einer Grafik Häufigkeiten, mit denen bestimmte Seiten als Bookmark gewählt wurden und Median (siehe Abb. 6). Aufgrund ser Informationen konnte über Items auf den gewählten Seiten diskutiert werden. Finale Runde 5. Nach Diskussion des Feedbacks (siehe Abb. 6) setzten Teilnehmer/innen ihre finalen Bookmarks. Abschließend wurde ihnen erneut das Feedback für eine abschließende Diskussion über das Setzen des unteren Cut-Scores präsentiert. 4 Dabei wurde den Teilnehmerinnen und Teilnehmern erklärt, darauf zu achten, den Bookmark nicht an einem Ausreißer-Item festzusetzen, sonn stattdessen auch nächsten folgenden Items mit in Entscheidung einzubeziehen.

17 Standard-Setting Mathematik, 4. Schulstufe 15 Teil II Validität und Post-Standard-Setting 8 Prozessevaluation und Evaluation Cut-Score-Urteile Es ist von großer Bedeutung, am Ende wichtiger Entscheidungsrunden interne Evaluationen durchzuführen (Hambleton, 2001). Mit sen soll geklärt werden, ob Teilnehmer/innen alles verstanden haben, ob es Verbesserungsvorschläge für Vorgehensweise gibt und wie einig man sich bei den Ergebnissen ist (Raymond & Reid, 2001). Für Cizek, Bunch und Koons (2004) besteht Evaluation aus mehreren Teilen: Nach einer ersten Orientierung wird Grad des Bereitseins Experten erhoben (Training, Aufgabenverständnis, Überzeugung gegenüber Methode). Danach folgt eine Evaluation über das Ergebnis des Standard-Settings (Pitoniak, 2003). Für das M4-Standard-Setting wurden ein Eingangsfragebogen und ein Abschlussfragebogen verwendet sowie ein Fragebogen nach je Runde. Aus Evaluation durch Experten/innen konnte ebenfalls ein positives Bild des Standard-Setting-Prozesses hinsichtlich Methodik, Durchführung und Organisation gezeichnet werden. Alle Teilnehmer/innen 5 gaben an, dass sie von ihren Empfehlungen zur Schwellenwertsetzung überzeugt wären und sie ermittelten Cut-Scores als verlässlich einstufen würden. Die Teilnehmer/innen gaben großteils an (ca. 92 %), dass Cut-Scores von Politik, Lehrerinnen und Lehrern, Bevölkerung und Abnehmerinnen und Abnehmern aus Wirtschaft als verlässlich akzeptiert werden würden. Viele Personen waren ebenfalls Meinung, dass Verteilung, sich aus den Konsequenzdaten ergab, ein sehr gutes Abbild aus praktischen Erfahrung wispiegelt. 5 Rücklaufquote Fragebögen 85 %

18 16 Standard-Setting Mathematik, 4. Schulstufe 9 Rating-Verhalten Um Aufschluss über das Rating-Verhalten zu bekommen, wurde in Runde 3 für jedes Item Modalwert 6 berechnet. Jede individuelle Ratingserie eines Raters wurde anschließend mit Reihe an Modalwerten korreliert. Wie Abbildung 7 zeigt, sind Korrelationen generell hoch. Allerdings sind bei zwei Ratern (R16 und R19) Korrelationen niedriger als bei den anen se Rater zeigten auch bei anen Maßen Übereinstimmung Auffälligkeiten (siehe 9.1) und wurden daher von Analyse zur Berechnung Cut-Scores ausgeschlossen. 9.1 Interrater-Reliabilität Für jeden Rater wurde ein mittleres Kappa, also mittlere Übereinstimmung mit allen anen Ratern, sowie dazugehörige Standardabweichung berechnet (Abb. 8) 7. Ein niedriger Mittelwert zeigt hier eine geringe Übereinstimmung des Raters mit allen anen Ratern an. Ein niedriger Mittelwert und eine niedrige Standardabweichung würde ein konsistent abweichendes Rating-Verhalten bedeuten, d. h., o Teilnehmer/in würde konsistent von Gruppen-Meinung abweichen. Für Beurteilung des Verhaltens Rater folgte Orientierung an den Richtlinien von Landis und Koch (1977), zwischen 0.41 < κ < 0.60 von einer moaten Übereinstimmung sprechen, in sem Standard-Setting angestrebt wurde. Wenn mittlere Kappa-Koeffizient also unter 0.41 lag, wurde entsprechende Rater von Analyse ausgeschlossen. Dies betraf zwei Rater, auch bereits in einem anen Maß des Rating-Verhaltens (Abb. 7) Auffälligkeiten zeigten. Für Berechnung Cut-Scores (sowohl bei IDM- als auch bei Bookmark-Methode) wurden se Rater ausgeschlossen. Als weitere Analyse zur Übereinstimmung Raterurteile wurde von Fleiss vorgeschlagene Kappa-Koeffizient für dritte, finale IDM-Runde berechnet (Fleiss, 1971). Fleiss Kappa ist eine Erweiterung zu Cohen s Kappa (Cohen, 1960) bei mehr als 2 Raterurteilen, wobei κ = 1 perfekte Übereinstimmung bedeutet. Für Runde 3 ergab sich für 14 Teilnehmer/innen und 80 Items κ = 0.46, für 12 Teilnehmer/innen (unter Ausschluss beiden Rater mit auffälligem Rating- Verhalten) κ = Interpretiert man Werte nach Landis und Koch (1977), so liegt hier eine moate Übereinstimmung (0.41 < κ < 0.60) Expertenurteile vor. Die Intraklassen-Korrelation (intraclass correlation coefficient, ICC) kann auf Basis von verschiedenen Varianzanteilen sowohl zur Bestimmung von Konsens als auch für Konsistenz (siehe Abb. 9) 8 eingesetzt werden. Der ICC beschreibt das Verhältnis Varianz einer abhängigen Variable (z. B. Ratings) zur Gesamtvarianz. In einem idealen Fall wäre Varianz in den Ratings ausschließlich auf Items und nicht auf unterschiedlichen Rater zurückzuführen, dann würde ICC einen Wert von 1 (Bartko, 1966; McGraw & Wong, 1996) erreichen. 6 Der am häufigsten vorkommende Wert. 7 Für Berechnung Rater-Analysen wurden nur Daten aus IDM herangezogen, da bei Bookmark- Methode zu wenige Daten pro Rater vorliegen 8 Rater-Übereinstimmung (o Rater-Konsens) beschreibt hier exakte Übereinstimmung einzelnen Ratings zwischen den Ratern. Rater-Konsistenz hingegen gibt an, inwieweit Rater bestimmte Objekte (Personen, Items etc.) in eine ähnliche Reihung bringen.

19 Standard-Setting Mathematik, 4. Schulstufe 17 R14 Korr 0,70 0,75 0,80 0,85 0,90 R18 R07 R09 R10 R12 R03 R06 R05 R11 R13 R04 0,65 R19 R16 Experten-ID aufsteigend nach Höhe Korrelation Abbildung 7: Korrelation zwischen Modalwerten Items und individuellen Ratings Teilnehmer/innen. SDKappa Mittleres Kappa 0,08 0,12 0,16 0,0 0,2 0,4 R19 R03 R04 R05 R06 R07 R09 R10 R11 R12 R13 R14 R16 R18 R19 R16 R09 R18 R07 Rater R12 R10 0,35 0,40 0,45 0,50 0,55 Mittleres Kappa R03R05 R06 R13 R11 R14 R04 Abbildung 8: Mittleres Kappa und Standardabweichung pro Rater.

20 18 Standard-Setting Mathematik, 4. Schulstufe ICC N Agreement Consistency Runde Runde Abbildung 9: Analyse zur Übereinstimmung und Konsistenz Ratings. ICC = Intraclass Correlation Coefficient.