Standard-Setting Mathematik

Größe: px
Ab Seite anzeigen:

Download "Standard-Setting Mathematik"

Transkript

1 Standard-Setting Mathematik Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, 2013 Claudia Bazinger Roman Freunberger Ursula Itzlinger-Bruneforth

2 Bundesinstitut für Bildungsforschung, Innovation & Entwicklung des österreichischen Schulwesens Alpenstraße 121 / 5020 Salzburg Standard-Setting Mathematik Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, 2013* BIFIE I Department Bildungsstandards & Internationale Assessments (BISTA), Salzburg 2013 * Der ursprüngliche Titel Publikation lautete: Standard-Setting Mathematik 4. Schulstufe. Technischer Bericht. Der Text sowie Aufgabenbeispiele dürfen für Zwecke des Unterrichts in österreichischen Schulen sowie von den Pädagogischen Hochschulen und Universitäten im Bereich Lehrer aus-, Lehrerfort- und Lehrerweiterbildung in dem für jeweilige Lehrveranstaltung erforlichen Umfang von Homepage (www.bifie.at) heruntergeladen, kopiert und verbreitet werden. Ebenso ist Vervielfältigung Texte und Aufgabenbeispiele auf einem anen Träger als Papier (z. B. im Rahmen von Power-Point-Präsentationen) für Zwecke des Unterrichts gestattet.

3 Inhaltsverzeichnis 3 I Das Standard-Setting für Mathematik auf 4. Schulstufe 4 1 Verwendete Methoden Bookmark-Methode Item-Descriptor-Matching-Methode (IDM) 8 2 Die Expertengruppe 9 3 Training und Vorbereitung auf den Beurteilungsprozess 10 4 Runde Aufgabe und Instruktion Auswertung Ratingdaten 11 5 Runde Aufgabe und Instruktion Bestimmung Cut-Scores 13 6 Runde Setzung Schwelle zu Unter Level 1 Runden 4 und 5 15 II Validität und Post-Standard-Setting 15 8 Prozessevaluation und Evaluation Cut-Score-Urteile 16 9 Rating-Verhalten Interrater-Reliabilität Endgültige M4-Cut-Score-Werte aus IDM- und Bookmark-Methode 20 Literatur

4

5 Standard-Setting Mathematik, 4. Schulstufe 3 Teil I Das Standard-Setting für Mathematik auf 4. Schulstufe Im Rahmen Bildungsstandardüberprüfung in Österreich wurd beginnend mit 2012 für Mathematik auf 4. Schulstufe ein Standard-Setting durchgeführt, das insgesamt 3 Phasen umfasste. Phase III beschreibt das eigentliche Standard-Setting und wird im Weiteren näher erläutert. In Phase I und Phase II wurde durch Fachexpertinnen und Fachexperten ein Kompetenzstufenmodell entwickelt, das 4 Stufen (inkl. Stufe Bildungsstandards nicht erreicht, für keine Beschreibung entwickelt wurde) umfasst und in Abbildung 1 dargestellt ist. Inhaltliche Beschreibung einzelnen Kompetenzstufen Stufe 3 Bildungsstandards übertroffen Du verfügst über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und über erweiterte Wissensstrukturen, welche über Anforungen Stufe 2 hinausgehen, insbesone über stärker ausgeprägtes analytisches Denken und höhere Kombinationsfähigkeit. Du kannst se eigenständig in neuartigen Situationen flexibel einsetzen. Stufe 2 Stufe 1 unter 1 Bildungsstandards erreicht Du verfügst über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und kannst se flexibel nutzen. Du kannst geeignete Lösungsstrategien finden und umsetzen, gewählte Lösungswege beschreiben und begründen. Du kannst relevante Informationen aus unterschiedlich dargestellten Sachverhalten (z. B. Texten, Datenmaterialien, grafischen Darstellungen) entnehmen. Du kannst se Informationen zueinan in Beziehung setzen sowie mathematische Fragestellungen daraus ableiten und lösen. Bildungsstandards teilweise erreicht Du verfügst über grundlegende Kenntnisse und Fertigkeiten in allen Teilbereichen des Lehrplans Mathematik und kannst damit reproduktive Anforungen bewältigen und Routineverfahren durchführen. Bildungsstandards nicht erreicht Abbildung 1: Kopetenzstufenmodell Ziel Phase III war es, Schwellenwerte auf kontinuierlichen Kompetenzskala zu definieren, welche es erlauben, Schüler und Schülerinnen den einzelnen Stufen zuzuordnen. Hierzu wurde Methodik des Standard-Settings verwendet, was im weiteren Sinne einen komplexen Entscheidungsprozess beschreibt, möglichst standardisiert durchgeführt werden sollte, um valide Schwellenwertsetzungen zu ermöglichen. Der eigentliche Standard-Setting-Prozess mit einer Expertengruppe sollte in Domäne Mathematik auf 4. Schulstufe drei Schwellenwerte (Cut-Scores) hervorbringen. Daraus ergibt sich neben den drei definierten Stufen noch Stufe Unter Level 1. Die Cut-Scores wurden unter Anwendung einer modifizierten Item- Descriptor-Matching-Methode (Cizek, 1996; Cizek & Bunch, 2007; Ferrara, Perie & Johnson, 2002) und Bookmark-Methode (Mitzel, Lewis, Green & Patz, 1999) durch eine Expertengruppe bestimmt. Der Workshop zum Standard-Setting fand von bis am BIFIE Salzburg statt.

6 4 Standard-Setting Mathematik, 4. Schulstufe 1 Verwendete Methoden 1.1 Bookmark-Methode Die Bookmark-Methode ist eine am häufigsten eingesetzten Methoden in Standard-Settings (Karantonis & Sireci, 2006) und wurde von Mitzel et al. (1999) entwickelt. Im Zentrum Bookmark-Methode steht das sogenannte Ored-Item- Booklet, das Items enthält und welches im Folgenden beschrieben wird. Das Ored-Item-Booklet. Das gereihte Aufgabenheft (Ored-Item-Booklet, OIB) wurde urspünglich durch Bookmark-Methode eingeführt (Karantonis & Sireci, 2006; Mitzel et al., 1999). Bei Bookmark-Methode werden Items aufsteigend nach den empirisch ermittelten Schwierigkeiten von leicht bis schwierig in einem Aufgabenheft geordnet. Die Itemschwierigkeiten werden durch psychometrische Verfahren Item-Response-Theorie (IRT) aus den vorhandenen Daten geschätzt (meist durch das Rasch-Modell). Sowohl Selected-Response- (SR, z. B. Multiple-Choice-Items) Items als auch Constructed-Response- (CR, z. B. offene Antworten mit Punktevergabe) Items werden in einem Ored-Item-Booklet (OIB) zusammengefasst und den Panel-Teilnehmerinnen und -teilnehmern übergeben. Pro Seite wird ein Item mit dazugehörigen Schwierigkeit dargestellt. Die Teilnehmer/innen setzen nun unter Berücksichtigung Schwierigkeiten ein Lesezeichen (Bookmark) an jeweiligen Stelle, an sie Cut-Scores zwischen den unterschiedlichen Niveaustufen vermuten. Das OIB im Standard-Setting für M4. Für das Standard-Setting in M4 wurden aus dem gesamten Itempool durch ein internes Review 80 Items ausgewählt, das gesamte Schwierigkeitsspektrum bestmöglich repräsentierten. Aus Zeitgründen können nicht alle verfügbaren Items in den Standard-Setting-Prozess einbezogen werden. Die Items waren im Ored-Item-Booklet aufsteigend nach Schwierigkeit gereiht, wobei pro Seite nur ein Item gelistet wurde. Jede Seite enthielt den Itemtext (Itemstamm) und dazugehörige Abbildungen, den Itemnamen und Seitennummer. Zusätzlich zum OIB erhielten Teilnehmer/innen den Antwortschlüssel zu den einzelnen Items. In einer Online-Korsoftware trugen Rater anschließend Zuordnung Items zu den einzelnen Levels ein. Die daraus gewonnenen Daten nten wieum als Grundlage für Diskussionen im Plenum. Insgesamt wurden drei Rating-Runden mit IDM-Methode (siehe 1.2) für oberen beiden Cut-Scores und zwei Rating-Runden mit Bookmark-Methode für den untersten Cut-Score durchgeführt. Prozess in Bookmark-Methode. Wie bereits oben erwähnt, arbeiten Teilnehmer/innen bei Bookmark-Methode mit einem Ored-Item-Booklet, in dem Items Schwierigkeit nach aufsteigend gereiht sind. Die Frage, an Teilnehmer/innen gestellt wird, lautet (cf. Cizek & Bunch, 2007): Ist es wahrscheinlich, dass ein/e minimalqualizierte/r Schüler/in bzw. eine Testperson an Grenze zwischen den Levels X und Y ses Item richtig beantworten wird? Der Term wahrscheinlich wird meist mit einer 2/3- o 67 %-Wahrscheinlichkeit, das Item zu lösen, festgelegt (Response Probability, RP =.67). Der/ Teilnehmer/ in erhält somit Aufgabe jedes Item zu begutachten und sich Frage zu stellen, ob ein/e minimalqualizierte/r Schüler/in in 2 von 3 Fällen Aufgabe richtig beantworten würde. Kommt / Teilnehmer/in zu einem Item, bei dem Wahrscheinlichkeit unter 2/3 fallen würde, setzt er/sie dort eine Marke. Demnach könnten minimalqualizierte Testpersonen alle Items bis zu ser Bookmark lösen (mit

7 Standard-Setting Mathematik, 4. Schulstufe 5 ark lösen Bookmark (mit einer lösen 2/3-Wahrscheinlichkeit) (mit einer 2/3-Wahrscheinlichkeit) ark lösen Bookmark (mit einer lösen 2/3-Wahrscheinlichkeit) (mit einer 2/3-Wahrscheinlichkeit). Hier bleibt 1 1. zu Hier entscheiden, bleibt zu entscheiden, welche Responbabilitse Probability man festlegt, man dafestlegt, se Auswirkungen da se Auswirkungen auf welche Respon- Hier bleibt Cut-Scores auf zu Hier entscheiden, bleibt Cut-Scores hat zu (Wyse, entscheiden, welche hat 2011). Responbabilitse (Wyse, Das welche 2011). Respon- Das -Modell Rasch-Modell geht Probability man von festlegt, einer einer 2/3-Wahrscheinlichkeit) geht man da 50%igen von festlegt, se einer Auswirkungen Lösungswahrscheinlichkeit da 50%igen se 1. Hier Auswirkungen Lösungswahrscheinlichkeit auf bleibt zu Cut-Scores entscheiden, auf aus, was Cut-Scores hat welche bedeutet, (Wyse, aus, Response was hat 2011). dass, bedeutet, Probability man festlegt, da se Auswirkungen auf Cut-Scores hat (Wyse, 2011). Das (Wyse, wenn Das 2011). dass, wenn Das -Modell rsonenfähigkeit Rasch-Modell geht Personenfähigkeit von gleich einer geht 50%igen von Itemschwierigkeit gleich einer Lösungswahrscheinlichkeit 50%igen Itemschwierigkeit Lösungswahrscheinlichkeit ist, se Schüler/innen ist, aus, se was Schüler/innen bedeutet, das aus, Item wasdass, bedeutet, mit das wenn einer Item dass, mit wenn einer Rasch-Modell geht von einer 50%igen Lösungswahrscheinlichkeit aus, was bedeutet, dass, en rsonenfähigkeit Wahrscheinlichkeit 50%igen Personenfähigkeit Wahrscheinlichkeit gleich lösen Itemschwierigkeit gleich wenn können Personenfähigkeit lösen (Wang, Itemschwierigkeit können 2003). ist, (Wang, se Schüler/innen gleich 2003). ist, se Schüler/innen das Item mit daseiner Item mit einer en Wahrscheinlichkeit 50%igen Wahrscheinlichkeit lösen können lösen (Wang, können 2003). (Wang, 2003). Itemschwierigkeit ist, se Schüler/ innen das Item mit einer 50%igen Wahrscheinlichkeit lösen können (Wang, 2003). end auf Basierend Rasch-Gleichung, auf Rasch-Gleichung, in sich in Lösungswahrscheinlichkeit sich Lösungswahrscheinlichkeit p(x = 1) aus p(x = 1) aus end hwierigkeit auf Basierend Itemschwierigkeit β Rasch-Gleichung, Basierend auf Rasch-Gleichung, auf in Rasch-Gleichung, sich in Lösungswahrscheinlichkeit sich in sich Lösungswahrscheinlichkeit Lösungswahrscheinlichkeit p(x 1) aus p(x 1) aus j und βpersonenfähigkeit j und Personenfähigkeit θ i zusammensetzt, θ i zusammensetzt, setzt man p setzt =2/3 man undlöst p =2/3 undlöst hwierigkeit auf. Itemschwierigkeit nach Manβerhält auf. j p(x und Man aus = 1) aus erhält Personenfähigkeit j ursprünglichen und aus Itemschwierigkeit Personenfähigkeit ursprünglichen Gleichung i zusammensetzt, und i zusammensetzt, Personenfähigkeit setzt ᵦj Gleichung setzt man =2/3 zusammensetzt, man undlöst =2/3 undlöst ᶿi auf. nach Man erhält auf. setzt Man aus man erhält p = ursprünglichen 2=3 aus und löst ursprünglichen nach Gleichung ᵦ auf. Man Gleichung erhält aus ursprünglichen Gleichung p(x =1 θ i,βp(x j ) = =1 θ exp(θ i,β i j ) β= j )/[1 exp(θ + i exp(θ β j )/[1 i β+ j )] exp(θ i β j )] p(x =1 θ i,βp(x j =1 θ exp(θ i,β i j j )/[1 exp(θ i exp(θ j )/[1 i j )] exp(θ i j )] (1) (1) (1) (1) rm Form rm Form Form θ i = β j θ i = β j i j.708. i j.708. (2) (2) (2) (2) e Personenfähigkeit Um Personenfähigkeit Um θ zupersonenfähigkeit ermitteln, θ zu ermitteln, nötig ᶿ zu ist, ermitteln, umnötig ein Item ist, nötig umit einer ist, Item um 2/3-Wahrscheinlichkeit mit einer Item 2/3-Wahrscheinlichkeit mit einer en, Personenfähigkeit muss Um zu lösen, man Personenfähigkeit 2/3-Wahrscheinlichkeit mussitemschwierigkeit zu man ermitteln, Itemschwierigkeit zu ermitteln, zu nötig lösen, Konstante ist, muss umnötig ein man von Konstante Item ist,.708 umit Itemschwierigkeit hinzuadren. einer von 2/3-Wahrscheinlichkeit.708 mit hinzuadren. einer Im 2/3-Wahrscheinlichkeit Konstante Raschl würde Im Raschen, muss zu Modell sich lösen, man würde von muss Reihung.708 Itemschwierigkeit sich man hinzuadren. Reihung Items Itemschwierigkeit nicht Im Rasch-Modell Items änn, Konstante nicht egal, änn, von Konstante würde ob.708 man sich egal, hinzuadren. von ob Schwierigkeit Reihung.708 man hinzuadren. Im Schwierigkeit Items o Rasch- nicht Im o Rasch enfähigkeit würde Modell Personenfähigkeit sich als würde änn, Wert Reihung sich für egal, als ob Wert Reihung OIB-Generierung Items man für nicht Schwierigkeit OIB-Generierung Items änn, nicht verwendet. egal, o änn, ob man Personenfähigkeit verwendet. MacCann egal, ob Schwierigkeit und man MacCann Stanley als Wert Schwierigkeit o und (2006) für Stanley o (2006) enfähigkeit Personenfähigkeit alsoib-generierung Wert fürals Wert OIB-Generierung verwendet. für OIB-Generierung MacCann verwendet. und Stanley verwendet. MacCann (2006) und verwenden MacCann Stanley daher und (2006) Stanley an- den daher verwenden anstelle daher vonanstelle θ den Begriff von θ den Begriff Bookmark Difficulty BookmarkLocation Difficulty (BDL). Location Im (BDL). 2PL Im (2006) 2PL den daher verwenden anstelle daher vonanstelle ᶿ den denbegriff Begriff von den Bookmark Begriff Bookmark Difficulty Bookmark Location Location Difficulty (BDL). Im (BDL). Location 2PL o Im (BDL). 2PL 3PL PL kann oes3pl allerdings Im 2PL PL kann oes3pl allerdings kann kann kannes es es allerdings durchaus allerdings durchaus allerdings durchaus zudurchaus einer zudurchaus einerzu Änung Änung einer zu einer zu einer Änung Änung Reihenfolge Änung Reihenfolge Reihenfolge Reihenfolge kommen. Reihenfolge kommen. kommen. kommen. kommen. mschwierigkeiten Die Itemschwierigkeiten Die wurden Itemschwierigkeiten für wurden M4 durch wurden fürdas M4Rasch-Modell für durch das durch Rasch-Modell (Rasch, das Rasch-Modell 1960) (Rasch, ermittelt, (Rasch, 1960) wobei 1960) ermittelt, wobei mschwierigkeiten Die Lösungswahrscheinlichkeit Itemschwierigkeiten ermittelt, wurden wobei auf für 67% wurden M4 Lösungswahrscheinlichkeit gesetzt durch auf für 67% das M4 wurde. Rasch-Modell gesetzt durch Für das wurde. das Rasch-Modell bessere auf (Rasch, Für 67 das % allgemeine 1960) gesetzt bessere (Rasch, ermittelt, wurde. Verständnis allgemeine 1960) Für wobei ermittelt, das Verständnis wobei Mittelwert wurde Lösungswahrscheinlichkeit bessere Mittelwert Item- allgemeine auf und 67% Personenparameterverteilung Item- Verständnis gesetzt auf und 67% wurde. Personenparameterverteilung gesetzt FürMittelwert wurde. das bessere für Für das das allgemeine Item- Standard-Setting bessere für und das Personenparameterverteilung Mittelwert Verständnis allgemeine Standard-Setting auf Verständnis auf setzt. Mittelwert wurde 500 Dieser gesetzt. ist aufgrund Dieser Itemist und von aufgrund für internationalen Personenparameterverteilung Item- das Standard-Setting und von internationalen Personenparameterverteilung Schülerleistungsstun auf 500 Schülerleistungsstun gesetzt. für dasdieser Standard-Setting vertraut. für das aufgrund Standard-Setting vertraut. von auf auf setzt. 500 Dieser gesetzt. ist internationalen aufgrund Dieser ist von aufgrund Schülerleistungsstun internationalen von internationalen Schülerleistungsstun vertraut. Schülerleistungsstun vertraut. vertraut. em Nachdem Teilnehmer/innen Teilnehmer/innen ihre Markierungen ihre Markierungen (Bookmarks) (Bookmarks) gesetzt haben, gesetzt wirdhaben, jeweiite mit wird jeweilige em Nachdem Teilnehmer/innen ihre Markierungen (Bookmarks) gesetzt haben, Nachdem Teilnehmer/innen dem Seite dazugehörigen wird mit Teilnehmer/innen demjeweilige dazugehörigen ihre Fähigkeitswert Markierungen ihre Seite mit dem Fähigkeitswert Markierungen (Theta) (Bookmarks) dazugehörigen notiert. (Theta) (Bookmarks) gesetzt Fähigkeitswert Dieser notiert. haben, Theta-Wert gesetzt (Theta) Dieser wirdhaben, notiert. Theta-Wert stellt jeweiite mit lige Dieser Theta-Wert kann nun wird stellt jewei- nun ut-score den dem dar Seite Cut-Score dazugehörigen und mit dem darwie dazugehörigen und Fähigkeitswert stellt kann in nun einen wie Fähigkeitswert den Rohwert Cut-Score in (Theta) einen dar Rohwert notiert. entsprechenden (Theta) Dieser und kann notiert. wie entsprechenden Theta-Wert Test-Skala Dieser Theta-Wert stellt in einen Rohwert transforwerden. Test-Skala nun stellt transformiert Die nun ut-score den dar Cut-Score werden. individuellen und kann entsprechenden Die darwie individuellen und Cut-Scores kann in einen wie Test-Skala Cut-Scores Rohwert transformiert Teilnehmer/innen in einen Rohwert entsprechenden werden. Teilnehmer/innen Die können entsprechenden individuellen mittels Test-Skala können Cut-Scores Median mittels transforwerden. Test-Skala o Median transformiert o wert zu Mittelwert einem Diewerden. individuellen Teilnehmer/innen Gesamt-Cut-Score zu einem Die individuellen Gesamt-Cut-Score Cut-Scores können zusammengefasst Cut-Scores mittels Teilnehmer/innen zusammengefasst Median werden. o Teilnehmer/innen Mittelwert können werden. zu mittels einem können Median Gesamt-Cutmittels o Median o wert zu Mittelwert einem Gesamt-Cut-Score zu einem zusammengefasst Gesamt-Cut-Score zusammengefasst werden. zusammengefasst werden. werden. le Vorteile Bookmark-Methode Bookmark-Methode sind, dass sind, tatsächlich dass tatsächlich von den Schülerinnen von den Schülerinnen und Schülern und Schülern le iteten Vorteile bearbeiteten Bookmark-Methode Items mit Vorteile Bookmark-Methode den Items dazugehörigen mit sind, den dass dazugehörigen Test-Scores sind, tatsächlich dass sind, Test-Scores in dass den tatsächlich von Entscheidungsprozess den tatsächlich in Schülerinnen den von von Entscheidungsprozess den den Schülerinnen und einfließen Schülern und einfließen Schülern bearbeiteten und Items Schülern mitbearbeiteten den dazugehörigen Items mit Test-Scores den dazugehörigen in dentest-scores Entscheidungsprozess in den Entscheidungsprozess ie iteten Methode und Items sehr mit Methode einfließen und Methode einfach den dazugehörigen sehr in einfach sehr einfach einfließen Durchführung in Test-Scores und Durchführung Durchführung Methode ist. in Der den sehr Nachteil Entscheidungsprozess ist. ist. einfach Der besteht Derin Nachteil Nachteil Durchführung darin, besteht einfließen dassdarin, oft besteht darin, ist. dass oft ohe ie Methode Differenz eine hohe sehr dass oft eine hohe Der Differenz einfach Item-Schwierigkeiten Differenz Nachteil in besteht Item-Schwierigkeiten Durchführung Item-Schwierigkeiten darin, zwischen ist. dass oft eine benachbarten zwischen Der Nachteil zwischen hohe Differenz benachbarten Items besteht benachbarten bestehen darin, Item-Schwierigkeiten Items kann. dass bestehen Die oft kann. Die ohe Differenz Cut-Score-Bestimmung Items bestehen kann. Die zwischen ist Item-Schwierigkeiten dann benachbarten schwierig ist dann zwischen benachbarten Items bestehen kann. Die Items (diskutiert schwierig bestehen in (diskutiert kann. Cizek Die & Cut-Score-Bestimmung inbunch, Cizek 2007). & Bunch, Eine2007). ist weitere dann Eine weitere besteht Cut-Score-Bestimmung Kritik in dem besteht ist dann schwierig ist dann(diskutiert schwierig in (diskutiert Cizek inbunch, Cizek 2007). Bunch, Eine2007). weitereeine weitere schwierig Konzept in dem (diskutiert deskonzept minimalqualifizierten Cizek des minimalqualifizierten & Bunch, Schülers, 2007). Eine das Schülers, weitere manche Kritik das Teilnehmer/innen manche besteht in Teilnehmer/innen dem besteht hwierig Kritik sehr in finden schwierig dem besteht Konzept können, Konzept in finden dem des weshalb des können, Konzept minimalqualifizierten eineweshalb des genaue minimalqualifizierten eine Instruktion Schülers, genaue Schülers, Instruktion und das das manche Schülers, manche Diskussion und Teilnehmer/innen das Teilnehmer/innen manche des Diskussion Konzepts Teilnehmer/innen sehr des Konzepts nd hwierig des sehr während Workshops finden schwierig des schwierig können, Workshops wichtig finden finden weshalb ist können, (Cizek können, wichtig eineweshalb genaue & ist weshalb Bunch, (Cizek eine Instruktion eine 2007). genaue & Bunch, Instruktion und 2007). Diskussion und des Diskussion Konzepts des des Konzepts nd tonis des während Karantonis und Workshops Sireci des Konzepts (2006) und Workshops wichtig Sireci während weisen ist (2006) (Cizek wichtig des noch Workshops weisen auf ist Bunch, (Cizek einige noch wichtig 2007). bedeutsame auf Bunch, ist einige (Cizek 2007). bedeutsame Kritikpunkte & Bunch, 2007). Kritikpunkte hin, einer hin, einer tonis ren Untersuchung Karantonis genaueren und Sireci Untersuchung (2006) und bedürfen: Sireci weisen (2006) bedürfen: nochweisen auf einige nochbedeutsame auf einige bedeutsame Kritikpunkte Kritikpunkte hin, einer hin, einer ren Untersuchung genauerenkarantonis Untersuchung bedürfen: und Sireci bedürfen: (2006) weisen noch auf einige bedeutsame Kritikpunkte hin, m OIB kann Imeine OIB einer Item-Disordinalität kann genaueren eine Item-Disordinalität Untersuchung auftreten, bedürfen: auftreten, dem Prozess dem nicht Prozess nlich nicht ist. nlich ist. OIB kann Imeine OIBItem-Disordinalität kann eine Item-Disordinalität auftreten, auftreten, dem Prozess dem nicht Prozess nlich nicht ist. nlich ist. s konnte gezeigt Es konnte werden, Im OIB gezeigt kann dass werden, eine Item-Disordinalität Bookmark-Methode dass Bookmark-Methode auftreten, im Vergleich dem improzess zuvergleich anen nicht nlich Methoden zu anen ist. Methoden nd konnte zu simulierten gezeigt Es und konnte zu werden, Es simulierten Daten konnte gezeigt dass gezeigt Cut-Scores Daten werden, Bookmark-Methode dass Cut-Scores meist dass Bookmark-Methode etwas meist unterschätzt im Vergleich etwas unterschätzt im (negativer im zuvergleich anen Bias). (negativer Methoden zu anen Bias). Methoden nd zu simulierten und zumethoden simulierten Daten und Cut-Scores Daten zu simulierten Cut-Scores meistdaten etwas meist unterschätzt Cut-Scores etwas unterschätzt (negativer meist etwas Bias). (negativer unterschätzt Bias). (negativer Basis). sichtlich 1 Hinsichtlich Festlegung Festlegung RP herrscht kein RP klarer herrscht Konsens, kein klarer allerdings Konsens, scheinen allerdings Personen scheinen mit Personen dem Termmit dem Term sichtlich besser 2 umgehen von 1 Hinsichtlich 3Festlegung besser zu können. umgehen Festlegung RPzu herrscht können. kein RP klarer herrscht Konsens, kein klarer allerdings Konsens, scheinen allerdings Personen scheinen mit Personen dem Termmit dem Term 1 Hinsichtlich Festlegung RP herrscht kein klarer Konsens, allerdings scheinen Personen mit dem Term besser 2 umgehen von 3 besser zu können. umgehen zu können. 2 von 3 besser umgehen zu können. rd-setting Standard-Setting Mathematik Mathematik rd-setting Standard-Setting Mathematik Mathematik 4 4

8 6 Standard-Setting Mathematik, 4. Schulstufe Generell scheinen Panelisten Anforungen in Bookmark-Methode zu verstehen, das Ausmaß kognitiven Komplexität und inwiefern Urteile tatsächlich valide sind, ist allerdings unklar. Eine weitere Frage ist, ob Mittelwert o Median individuellen Bookmarks für Cut-Score-Berechnung verwendet werden sollte. Der Median ist zwar unabhängig von Ausreißern, allerdings könnten solche Ausreißer in Form von Extremmeinungen bezüglich Position des Bookmarks auch eine wichtige Bedeutung für den Prozess haben. 1.2 Item-Descriptor-Matching-Methode (IDM) Aufgrund genannten Nachteile Bookmark-Methode wurde beim Standard- Setting in M4 daher Item-Descriptor-Matching-Methode für beiden oberen Cut-Scores (zwischen Level 1 und Level 2 und zwischen Level 2 und Level 3) verwendet. Diese nutzt ebenfalls ein OIB und das Konzept Response Probability ist für Reihung Items notwendig, geht allerdings nicht in den Entscheidungsprozess ein. Dadurch sollte zumindest kognitive Aufwand für Teilnehmer/ innen etwas verringert werden. Die IDM-Methode wurde aus Motivation heraus entwickelt, eine bessere Verlinkung zwischen den PLDs (Performance Level Descriptors = Kompetenzstufenbeschreibungen) und den Cut-Scores zu gewährleisten, was wieum Validität Ergebnisse erhöht (Cizek & Bunch, 2007). Die Methode verwendet ebenfalls ein Ored-Item-Booklet und einzelnen Testitems werden den einzelnen PLDs zugeordnet (Ferrara et al., 2002). Die Frage, an das Experten-Panel gestellt wird, ist: Welcher PLD repräsentiert am besten Anforungen des Items? O genauer: Welcher PLD drückt am besten das Wissen, verlangte Fähigkeit und kognitiven Prozesse aus, zur Beantwortung des bestimmten Items gefort sind? Die Teilnehmer ordnen danach jedes Item einem bestimmten PLD zu und vermerken s auf dem Antwortbogen o in einer entsprechenden Software. Der Schwellenwert, zwei Kompetenzstufen voneinan trennt, wird dort gesetzt, wo / Teilnehmer/in kontinuierlich und systematisch von einem Level ins nächste wechselt. Dies spricht für eine sehr flexible Methode, nicht von einer strengen Sequenzierung (wie bei Bookmark-Methode) ausgeht und auch etwas Rauschen zulässt. Da Schwierigkeiten Items meist durch Schätzungen basierend auf IRT erfolgen, kann nicht davon ausgegangen werden, dass Item-Positionen im Booklet unveränlich sind, sonn auch einem Schätzfehler unterliegen; eine erlaubte Flexibilität entspricht also einem natürlicheren Matching-Prozess (Cizek & Bunch, 2007; Ferrara et al., 2002). In Regionen alternieren Item-PLD-Matches wird Threshold-Bereich festgelegt (Ferrara et al., 2002). Da es auch in den PLDs keine absolut festsetzbaren Grenzen gibt, sonn hier Übergänge eines PLDs zum nächsten fließend sind, wird ser Bereich als optimal zur Schwellenwertbestimmung angesehen. Mindestens drei aufeinanfolgende gleiche Klassifizierungen müssen vorliegen, um den Anfang und das Ende eines Grenzbereichs zu definieren. In sem Bereich wird Cut-Score ermittelt. Dies kann ähnlich wie bei einer Bookmark-Methode geschehen, indem man Teilnehmer/innen nochmals entscheiden lässt, wo genau sich in ser Region exakte Übergang zwischen den Kompetenzstufen befindet. Genauer kann man es mittels Median o Mittelwertberechnung erfassen. Im Falle Mittelwertbestimmung werden nur Schwierigkeiten jeweiligen Grenz- Items verwendet (N = 2). Es gibt auch Ansätze, in denen Schwellenwert mittels logistischer Regression bestimmt wird (Sireci & Clauser, 2001).

9 Standard-Setting Mathematik, 4. Schulstufe 7 Die Identifizierung Übergangsbereiche, in IDM zur Bestimmung Cut-Scores definiert sind, ist praktisch allerdings oft sehr schwierig umzusetzen. Bei größeren Item-Mengen können auch Ausreißer auftreten, laut Original-Methode bereits den Beginn o das Ende eines Grenzbereichs festlegen würden. Für das Standard-Setting in M4 wurde daher ursprüngliche Methode leicht modifiziert, wie weiter unten (siehe 7) nachzulesen ist. Die IDM wird grundsätzlich in mehreren Runden durchgeführt, wobei in Runde 1 Items den PLDs zugeordnet werden: Danach werden Schwellenwert-Regionen durch Organisatoren bzw. Psychometriker/innen des Standard-Settings ermittelt und rückgemeldet. Diese werden dann im Plenum o in Subgruppen diskutiert. In Runde 2 wird selbe Prozess nochmals durchgeführt, Änungen können vorgenommen werden und ein erster Cut-Score wird berechnet. In Runde 3 werden Werte diskutiert und es werden den Teilnehmerinnen und Teilnehmern zusätzlich Informationen über Konsequenzen, Mittelwerte, Verteilungen usw. vermittelt. Der endgültige Cut-Score wird danach festgelegt und nochmals zur Begutachtung präsentiert. Zusätzlich könnte IDM noch durch eine Item-Map ergänzt werden, da eine solche auch Item-Untergruppen besser darstellt (Schulz, Kolen & Nicewan, 1999; Schulz, Lee & Mullen, 2005). Die sogenannten Threshold Regions (TR) sind Bereiche, in denen Match zwischen Item-Anforung (Wissen, Fähigkeit etc.) und Anforungen des Descriptors (PLDs) nicht klar sind. Dies kann mehrere Gründe haben und Teilnehmer/innen müssen darauf sensibilisiert und trainiert werden. Gründe können sein: Item Oring Effects (inkl. methodische Aspekte OIB-Generierung) Unklarheit in Beschreibung PLDs Unsicherheit Teilnehmer/innen bzgl. Zuordnung Der wesentliche Vorteil Methode liegt darin, dass kognitive Anspruch an Teilnehmer/ innen gering gehalten wird (Ferrara et al., 2002). Die Items müssen lediglich den PLDs zugeordnet werden, es bedarf keiner zusätzlichen Instruktion, wie z. B. sich eine bestimmte Schülergruppe vorzustellen, einer gewissen Mindestanforung entspricht. Da Personen generell Probleme haben, Urteile auf Grund von Wahrscheinlichkeitsangaben zu machen (Impara & Plake, 1998; Plous, 1993), bietet se Methode auch den Vorteil, dass Antwortwahrscheinlichkeiten zwar in Generierung des OIB miteinfließen, für den Entscheidungsprozess allerdings irrelevant sind (im Gegensatz zur Bookmark-Methode).

10 8 Standard-Setting Mathematik, 4. Schulstufe 2 Die Expertengruppe Die insgesamt 14 Teilnehmer/innen setzten sich aus unterschiedlichen Teilgruppen (siehe Abb. 2) zusammen, ein bestimmtes Spektrum repräsentierten. Die direkte Auswahl geschah durch das BIFIE in Zusammenarbeit mit den verschiedenen Institutionen und Behörden. Unter den Teilnehmerinnen und Teilnehmern befanden sich Vertreter/innen Fachdidaktik, des Bundesministeriums für Unterricht, Kunst und Kultur (BMUKK), praktizierende Lehrer/innen für M4 und M8 sowie Personen aus Forschungseinrichtungen (BIFIE, Universitäten etc.). Laut Einführungsfragebogen waren zum Zeitpunkt des Standard-Settings 81 % Teilnehmer/innen 2 mit dem Prozess des Setzens von Standards und den Kompetenzstufen Bildungsstandards für Mathematik auf 4. Schulstufe vertraut. Alle Teilnehmer/innen stimmten zu, dass Gruppenzusammensetzung für das Standard-Setting passend war. BMUKK 7% Lehrpersonen 29% Forschung 43% Fachdidaktik 21% Abbildung 2: Zusammensetzung Teilnehmer/innen 2 Rücklaufquote Fragebögen 78 %

11 Standard-Setting Mathematik, 4. Schulstufe 9 3 Training und Vorbereitung auf den Beurteilungsprozess Die Teilnehmer/innen müssen eine umfassende Schulung erhalten, damit sie mit dem Material, Methode und dem Ablauf vertraut sind. Es ist von enormer Wichtigkeit, dass Aufgaben verstanden werden. Cizek und Bunch (2007) geben einen kleinen Leitfaden, an dem Ablauf des Standard-Settings für M4 ausgerichtet wurde. Am ersten Tag des Workshops wurden Teilnehmer/innen eingegeschult. Nach einer ausführlichen Einführung in Bildungsstandardüberprüfung sowie zum bisherigen Verlauf des Standard-Setting-Prozesses (Phase I und II) bekamen Experten einen Übungstest mit 10 Items vorgelegt. Dadurch sollte ihnen Testsituation vermittelt werden und ihnen zeitlicher Druck, in tatsächliche Bearbeitung Items miteinfließt, bewusst gemacht werden. Danach folgte eine Einführung in Standard-Setting-Methode und den Ratingprozess. Nach genauerer Erläuterung Kompetenzstufenbeschreibungen folgte eine kurze Diskussion in Kleingruppen, in denen Teilnehmer/innen auf Unterschiede zwischen den Stufenbeschreibungen achten und Unklarheiten bezüglich Begrifflichkeiten klären konnten. Anschließend wurde im Plenum nochmals über kritische Punkte diskutiert und erste Ratings anhand von einigen Items in Gesamtgruppe vorgenommen. Darauf folgten weiteren Runden.

12 10 Standard-Setting Mathematik, 4. Schulstufe 4 Runde Aufgabe und Instruktion In Runde 1 wurden Experten/innen aufgefort, Items den Kompetenzstufenbeschreibungen (= PLDs) zuzuordnen. Die genaue Instruktion lautete: Beantworten Sie folgende Fragen: Welche Kompetenzanforung stellt das Item an Schüler/innen? Welche Kompetenzstufenbeschreibung drückt das am besten aus? Die Teilnehmer/innen wurden aufgefort, das OIB individuell durchzuarbeiten und in Kor-Software einzutragen. % Häufigkeit Seiten Nr. (ITEM) % Häufigkeit Seiten Nr. (ITEM) % Häufigkeit Seiten Nr. (ITEM) % Häufigkeit Seiten Nr. (ITEM) Abbildung 3: Rating-Daten aus Runde 1, an Teilnehmer/innen rückgemeldet wurden. Pro Item wird prozentuelle Häufigkeit Zuordnung zu einem bestimmten Level dargestellt. Die Teilnehmer/innen können dadurch Items mit niedriger o hoher Übereinstimmung erkennnen und über se Items diskutieren (GRÜN = Level 1, BLAU = Level 2, ORANGE = Level 3) Auswertung Ratingdaten Aus Software erhält man eine Datenmatrix mit Panelisten x Items mit den Werten 1, 2 und 3 (Level-Ratings 1 3). Zur Auswertung wurde für jedes Item separat prozentuelle Häufigkeit einzelnen Kategorien ermittelt und grafisch aufbereitet (siehe Abb. 3). Dieses Datenblatt nte als Diskussionsgrundlage. Diskussionspunkte waren Items mit hoher Konvergenz bzw. Divergenz, augenscheinliche Übergänge zwischen Levels sowie Abschnitte, sich bereits als einzelne Levels herauskristallisierten. Zusätzlich erhielt jede/r Teilnehmer/in eine Auflistung seiner/ihrer individuellen Ratings.

13 Standard-Setting Mathematik, 4. Schulstufe 11 5 Runde Aufgabe und Instruktion Die Diskussion in Runde 1 nte dazu, Expertengruppe in bestimmten Diskussionspunkten, für den Entscheidungsprozess wichtig sind, zu homogenisieren. In Runde 2 arbeiteten Experten/innen erneut individuell das OIB durch und adjustierten ihre Item-PLD-Zuordnungen, und sie vermerkten ihre Urteile wieum in entsprechenden Software. Als Feedback zur Runde 2 wurden den Expertinnen und Experten Ratingdaten vorgelegt, in ähnlicher Weise wie in Runde 1 diskutiert wurden. Zusätzlich wurden hier auch Cut-Scores ermittelt und den Teilnehmerinnen und Teilnehmern rückgemeldet. 5.2 Bestimmung Cut-Scores Die Bestimmung Cut-Scores erfolgt in mehreren Analyseschritten. Wie bereits erwähnt, wurde im Standard-Setting für M4 eine alternative Strategie zur Auswertung des Ratingverhaltens und damit verbundenen Cut-Score- Bestimmung verwendet. Ziel Methode ist es, Übergänge zwischen den einzelnen Levels zu detektieren, was in drei Schritten vorgenommen wurde: 1. Als erster Schritt wird jede individuelle Ratingserie durch einen symmetrischen Moving Average geglättet (or = 1, Filterfenster ergibt sich aus 2 * or + 1, ungewichtet). Um in den Randbereichen keinen Datenverlust durch Filterung zu erleiden, wurden mittleren Ratingwerte dem Beginn und Ende Serie angefügt. Abbildung 4 zeigt Rating-Serie (series, obere Graphik) einer Person und gefilterte Funktion ser Serie darunter. Die individuelle Ratingserie besteht aus 80 Werten (pro Item ein Wert). Die Itemnummer entspricht exakt Seitenzahl im OIB, Items sind nach Schwierigkeit geordnet. 2. Die geglättete Funktion jedes Panelisten steigt mit zunehmen Kategorienzahl an. Es wurden zwei Schwellen definiert, jeweils erstenwerte, se Schwellen überschreiten, liefern den Seiten-Index für den jeweiligen Cut-Score. Die dazugehörige Schwierigkeit des Items auf jeweiligen Schwelle definiert des Weiteren den Cut-Score auf Theta-Metrik. Die Schwellenwerte wurden auf 1.7 für den ersten Cut und auf 2.4 für den zweiten Cut gesetzt. DieseWerte ergaben sich aus zusätzlich in einem Probelauf erhaltenen Daten Nach anschließen manueller Kontrolle erhält man pro Teilnehmer/in Index- Werte mit Angabe Seitenzahl des Cut-Score-Items sowie dazugehörigen Theta-Werte. Um einen Gruppen-Wert für jeweiligen Cut-Scores zu erhalten, wurde Mittelwert über alle individuellen Cut-Scores berechnet. Die Methode erbrachte bei allen Teilnehmerinnen und Teilnehmern reliable Werte Übergange zwischen den Levels. Zur Rückmeldung an Teilnehmer/innen wurde eine Tabelle präsentiert, in Cut-Scores mit dazugehöriger OIB-Seitennummer dargestellt wurde (Abb. 5). So konnten sich Teilnehmer/innen ein erstes Bild von den Cut-Scores machen. 3 Überschreitet wie in Abbildung 4 geglättete Funktion (filtered, mittlere Graphik) den ersten Schwellenwert von 1.7, definiert ser Punkt den Index für Seite im OIB. In sem Fall Seite 20. Dieses Item mit entsprechenden Schwierigkeit (auf Theta-Metrik) liefert den ersten Cut-Score für se/n Experten/in. Analog verfährt man mit dem zweiten Cut-Score.

14 12 Standard-Setting Mathematik, 4. Schulstufe residuals filtered series -10-0,5 0,0 0,5 1,0 1,0 1,5 2,0 2,5 3, Seiten-Nr (Item) Abbildung 4: Methodik Cut-Score-Bestimmung. Die oberste Grafik zeigt eine einzelne beispielhafte Ratingserie einer Person. Darunter ist geglättete Funktion ser Serie (unten: Filter-Residuen). Gestrichelte horizontale Linien zeigen beiden Schwellenwerte bei 1.7 und 2.4. Vertikale Linien stellen Schnittpunkte geglätteten Funktion mit den Schwellenwerten dar. Aus sen Punkten kann man auf X-Achse Seitennummer des Items ablesen, das den Cut-Score repräsentiert. 1,0 1,5 2,0 2,5 3,0 Seite-Cut1 Seite-Cut2 Diff-Cut1 Diff-Cut2 Mean 11 46,29 444,2 618,82 SD 3,88 9,91 36,54 47,62 SE 1,04 2,65 9,77 12,73 [1,444) [444,619) [619,900) Anz. Items pro Level MW ItemDiff pro Level 384,53 539,76 702,34 SD ItemDiff pro Level 47,47 48,4 52,06 Abbildung 5: Feedback in Runde 2: Deskriptive Statistiken zu den Cut-Scores sowie Anzahl Items pro Level.

15 Standard-Setting Mathematik, 4. Schulstufe 13 6 Runde 3 Nach Diskussion zu Runde 2 wurden Teilnehmer/innen gebeten, das OIB ein letztes Mal durchzuarbeiten, Zuordnungen zu adjustieren und sich auf endgültige Urteile festzulegen. Dann wurden Rückmelde- und Konsequenzdaten präsentiert, danach folgte eine abschließende Diskussion über Setzung Cut- Scores. Bookmarks Häufigkeit (Abs.) Stats Seite Theta Md 7 406,24 Mean 6,85 407,36 SD 1,77 15,44 Min 5 393,01 Max , Seite in Booklet Abbildung 6: Feedback in Runde 4 und 5: Deskriptive Statistiken zum Bookmark-Cut-Score sowie Häugkeit gewählter Bookmarks und Median (blaue gestrichelte Linie).

16 14 Standard-Setting Mathematik, 4. Schulstufe 7 Setzung Schwelle zu Unter Level 1 Runden 4 und 5 Nach einer endgültigen Entscheidung über Cut-Scores zu Level 1 2 und Level 2 3 wurde abschließend noch Grenze zu Unter Level 1 bestimmt. Dazu wurde Bookmark-Methode (siehe Abschnitt 1.1) verwendet. Die Teilnehmer/ innen mussten sich, beginnend beim ersten Item des OIBs folgende Frage stellen: Könnte ein/e minimalqualizierte/r Schüler/in bzw. eine Testperson an Grenze zwischen dem untersten Level und Level 1 das jeweilige Item in 2 von 3 Fällen beantworten? Falls Frage mit Ja beantwortet wurde, gingen Teilnehmer/innen zum nächsten Item über, war Antwort Nein, wurde hier ein Bookmark (Lesezeichen) gesetzt, welches den Cut-Score zwischen den Levels repräsentiert. 4 Nachdem Teilnehmer/innen ihre Markierungen gesetzt haben, wird jeweilige Seite mit dem dazugehörigen Fähigkeitswert (Theta) notiert. Dieser Theta-Wert ist nun Cut-Score und kann wie in einen Rohwert entsprechenden Test- Skala transformiert werden. Die individuellen Cut-Scores Teilnehmer/innen können nun mittels Mittelwert o Median zu einem Gesamt-Score zusammengefasst werden. Rückmeldung Bookmark-Methode. Den Teilnehmerinnen und Teilnehmern wurden deskriptive Statistiken zum Cut-Score präsentiert sowie in einer Grafik Häufigkeiten, mit denen bestimmte Seiten als Bookmark gewählt wurden und Median (siehe Abb. 6). Aufgrund ser Informationen konnte über Items auf den gewählten Seiten diskutiert werden. Finale Runde 5. Nach Diskussion des Feedbacks (siehe Abb. 6) setzten Teilnehmer/innen ihre finalen Bookmarks. Abschließend wurde ihnen erneut das Feedback für eine abschließende Diskussion über das Setzen des unteren Cut-Scores präsentiert. 4 Dabei wurde den Teilnehmerinnen und Teilnehmern erklärt, darauf zu achten, den Bookmark nicht an einem Ausreißer-Item festzusetzen, sonn stattdessen auch nächsten folgenden Items mit in Entscheidung einzubeziehen.

17 Standard-Setting Mathematik, 4. Schulstufe 15 Teil II Validität und Post-Standard-Setting 8 Prozessevaluation und Evaluation Cut-Score-Urteile Es ist von großer Bedeutung, am Ende wichtiger Entscheidungsrunden interne Evaluationen durchzuführen (Hambleton, 2001). Mit sen soll geklärt werden, ob Teilnehmer/innen alles verstanden haben, ob es Verbesserungsvorschläge für Vorgehensweise gibt und wie einig man sich bei den Ergebnissen ist (Raymond & Reid, 2001). Für Cizek, Bunch und Koons (2004) besteht Evaluation aus mehreren Teilen: Nach einer ersten Orientierung wird Grad des Bereitseins Experten erhoben (Training, Aufgabenverständnis, Überzeugung gegenüber Methode). Danach folgt eine Evaluation über das Ergebnis des Standard-Settings (Pitoniak, 2003). Für das M4-Standard-Setting wurden ein Eingangsfragebogen und ein Abschlussfragebogen verwendet sowie ein Fragebogen nach je Runde. Aus Evaluation durch Experten/innen konnte ebenfalls ein positives Bild des Standard-Setting-Prozesses hinsichtlich Methodik, Durchführung und Organisation gezeichnet werden. Alle Teilnehmer/innen 5 gaben an, dass sie von ihren Empfehlungen zur Schwellenwertsetzung überzeugt wären und sie ermittelten Cut-Scores als verlässlich einstufen würden. Die Teilnehmer/innen gaben großteils an (ca. 92 %), dass Cut-Scores von Politik, Lehrerinnen und Lehrern, Bevölkerung und Abnehmerinnen und Abnehmern aus Wirtschaft als verlässlich akzeptiert werden würden. Viele Personen waren ebenfalls Meinung, dass Verteilung, sich aus den Konsequenzdaten ergab, ein sehr gutes Abbild aus praktischen Erfahrung wispiegelt. 5 Rücklaufquote Fragebögen 85 %

18 16 Standard-Setting Mathematik, 4. Schulstufe 9 Rating-Verhalten Um Aufschluss über das Rating-Verhalten zu bekommen, wurde in Runde 3 für jedes Item Modalwert 6 berechnet. Jede individuelle Ratingserie eines Raters wurde anschließend mit Reihe an Modalwerten korreliert. Wie Abbildung 7 zeigt, sind Korrelationen generell hoch. Allerdings sind bei zwei Ratern (R16 und R19) Korrelationen niedriger als bei den anen se Rater zeigten auch bei anen Maßen Übereinstimmung Auffälligkeiten (siehe 9.1) und wurden daher von Analyse zur Berechnung Cut-Scores ausgeschlossen. 9.1 Interrater-Reliabilität Für jeden Rater wurde ein mittleres Kappa, also mittlere Übereinstimmung mit allen anen Ratern, sowie dazugehörige Standardabweichung berechnet (Abb. 8) 7. Ein niedriger Mittelwert zeigt hier eine geringe Übereinstimmung des Raters mit allen anen Ratern an. Ein niedriger Mittelwert und eine niedrige Standardabweichung würde ein konsistent abweichendes Rating-Verhalten bedeuten, d. h., o Teilnehmer/in würde konsistent von Gruppen-Meinung abweichen. Für Beurteilung des Verhaltens Rater folgte Orientierung an den Richtlinien von Landis und Koch (1977), zwischen 0.41 < κ < 0.60 von einer moaten Übereinstimmung sprechen, in sem Standard-Setting angestrebt wurde. Wenn mittlere Kappa-Koeffizient also unter 0.41 lag, wurde entsprechende Rater von Analyse ausgeschlossen. Dies betraf zwei Rater, auch bereits in einem anen Maß des Rating-Verhaltens (Abb. 7) Auffälligkeiten zeigten. Für Berechnung Cut-Scores (sowohl bei IDM- als auch bei Bookmark-Methode) wurden se Rater ausgeschlossen. Als weitere Analyse zur Übereinstimmung Raterurteile wurde von Fleiss vorgeschlagene Kappa-Koeffizient für dritte, finale IDM-Runde berechnet (Fleiss, 1971). Fleiss Kappa ist eine Erweiterung zu Cohen s Kappa (Cohen, 1960) bei mehr als 2 Raterurteilen, wobei κ = 1 perfekte Übereinstimmung bedeutet. Für Runde 3 ergab sich für 14 Teilnehmer/innen und 80 Items κ = 0.46, für 12 Teilnehmer/innen (unter Ausschluss beiden Rater mit auffälligem Rating- Verhalten) κ = Interpretiert man Werte nach Landis und Koch (1977), so liegt hier eine moate Übereinstimmung (0.41 < κ < 0.60) Expertenurteile vor. Die Intraklassen-Korrelation (intraclass correlation coefficient, ICC) kann auf Basis von verschiedenen Varianzanteilen sowohl zur Bestimmung von Konsens als auch für Konsistenz (siehe Abb. 9) 8 eingesetzt werden. Der ICC beschreibt das Verhältnis Varianz einer abhängigen Variable (z. B. Ratings) zur Gesamtvarianz. In einem idealen Fall wäre Varianz in den Ratings ausschließlich auf Items und nicht auf unterschiedlichen Rater zurückzuführen, dann würde ICC einen Wert von 1 (Bartko, 1966; McGraw & Wong, 1996) erreichen. 6 Der am häufigsten vorkommende Wert. 7 Für Berechnung Rater-Analysen wurden nur Daten aus IDM herangezogen, da bei Bookmark- Methode zu wenige Daten pro Rater vorliegen 8 Rater-Übereinstimmung (o Rater-Konsens) beschreibt hier exakte Übereinstimmung einzelnen Ratings zwischen den Ratern. Rater-Konsistenz hingegen gibt an, inwieweit Rater bestimmte Objekte (Personen, Items etc.) in eine ähnliche Reihung bringen.

19 Standard-Setting Mathematik, 4. Schulstufe 17 R14 Korr 0,70 0,75 0,80 0,85 0,90 R18 R07 R09 R10 R12 R03 R06 R05 R11 R13 R04 0,65 R19 R16 Experten-ID aufsteigend nach Höhe Korrelation Abbildung 7: Korrelation zwischen Modalwerten Items und individuellen Ratings Teilnehmer/innen. SDKappa Mittleres Kappa 0,08 0,12 0,16 0,0 0,2 0,4 R19 R03 R04 R05 R06 R07 R09 R10 R11 R12 R13 R14 R16 R18 R19 R16 R09 R18 R07 Rater R12 R10 0,35 0,40 0,45 0,50 0,55 Mittleres Kappa R03R05 R06 R13 R11 R14 R04 Abbildung 8: Mittleres Kappa und Standardabweichung pro Rater.

20 18 Standard-Setting Mathematik, 4. Schulstufe ICC N Agreement Consistency Runde Runde Abbildung 9: Analyse zur Übereinstimmung und Konsistenz Ratings. ICC = Intraclass Correlation Coefficient.

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Cohen s Kappa Felix-Nicolai Müller Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Felix-Nicolai Müller Cohen s Kappa 24.11.2009 1 / 21 Inhaltsverzeichnis 1 2 3 4

Mehr

Fragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009)

Fragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009) Fragebogenauswertung zum Informatiklehrertag Bayern 2009 (ILTB 2009) 1. Auswertung der personenbezogenen Daten Insgesamt besuchten 271 Lehrerinnen und Lehrer aus ganz Bayern und Oberösterreich die Universität

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Checks und Aufgabensammlung im Bildungsraum Nordwestschweiz

Checks und Aufgabensammlung im Bildungsraum Nordwestschweiz Checks und Aufgabensammlung im Bildungsraum Nordwestschweiz Checks 22. August 2014 Institut für Bildungsevaluation Assoziiertes Institut der Institut Universität für Bildungsevaluation Zürich Assoziiertes

Mehr

Dr. Heidemarie Keller

Dr. Heidemarie Keller Reliabilität und Validität der deutschen Version der OPTION Scale Dr. Heidemarie Keller Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin Philipps-Universität Marburg EbM & Individualisierte

Mehr

Objektivität und Validität der Critical Incident Technique

Objektivität und Validität der Critical Incident Technique Objektivität und Validität der Critical Incident Technique ~ Ist die CIT so gut wie ihr Ruf? ~ - Kooperationsprojekt der TU-Dresden und des Berufsgenossenschaftlichen Instituts Arbeit und Gesundheit Dresden

Mehr

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Partial Credit Model und Tutz Model

Partial Credit Model und Tutz Model November 22, 2011 Item Response Theory - Partial Credit Model Einleitung IRT-Einteilung Datenstruktur PCM - Herleitung Parameterschätzung Goodness of Fit Beispiel Sequential Models for Ordered Responses

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Das Morningstar Rating

Das Morningstar Rating Das Morningstar Rating Mai 2013 2013 Morningstar, Inc. Alle Rechte vorbehalten. Die Informationen in diesem Dokument sind Eigentum von Morningstar, Inc. Die teilweise oder vollständige Vervielfältigung

Mehr

Schülerinnen und Schüler als Informationsquelle im Rahmen des Qualitätsmanagements an Schulen. Diplomarbeit

Schülerinnen und Schüler als Informationsquelle im Rahmen des Qualitätsmanagements an Schulen. Diplomarbeit Schülerinnen und Schüler als Informationsquelle im Rahmen des Qualitätsmanagements an Schulen Diplomarbeit vorgelegt an der Universität Mannheim Lehrstuhl für Wirtschaftspädagogik Prof. Dr. Hermann G.

Mehr

Fragebogen- und Testkonstruktion in der Online-Forschung

Fragebogen- und Testkonstruktion in der Online-Forschung Fragebogen- und Testkonstruktion in der Online-Forschung Dr. Meinald T. Thielsch 13. Juni 2008 Globalpark Innovations 2008 Diagnostisches Problem der (Online-)Forschung Es werden in vielen Arbeiten der

Mehr

Bildungsstandards konkret formulierte Lernergebnisse Kompetenzen innen bis zum Ende der 4. Schulstufe in Deutsch und Mathematik

Bildungsstandards konkret formulierte Lernergebnisse Kompetenzen innen bis zum Ende der 4. Schulstufe in Deutsch und Mathematik Bildungsstandards Da in den Medien das Thema "Bildungsstandards" sehr häufig diskutiert wird, möchten wir Ihnen einen kurzen Überblick zu diesem sehr umfangreichen Thema geben. Bildungsstandards sind konkret

Mehr

Hinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0

Hinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0 Hinweise zur Auswertung Markus Scholz Michael Wagner Version 1.0 Struktur der Auswertung Die Auswertung der Ergebnisse und somit der Vergleich der Einschätzungen verschiedener Personen erfolgt mittels

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Check P3 und Check P6

Check P3 und Check P6 Checks und Aufgabensammlung im Bildungsraum Nordwestschweiz Check P3 und Check P6 Urs Moser Mittwoch, 13. Mai 2015 Seite 1 Überblick Pädagogisches Konzept Überblick zu Check P3 / Check P6 Kompetenzorientierung

Mehr

Testungen. 2006 Version 1.1. Mathematik Standards am Ende der achten Schulstufe/Hd 1/5

Testungen. 2006 Version 1.1. Mathematik Standards am Ende der achten Schulstufe/Hd 1/5 Die Überprüfung der Standards erfolgt je Gegenstand durch einen Test. Mit der Entwicklung und Überprüfung von Standard-Tests und der Testung in Deutsch und in Mathematik wurde die Test- und Beratungsstelle

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Gütekriterien für evaluative Messinstrumente in der Rehabilitation

Gütekriterien für evaluative Messinstrumente in der Rehabilitation 12. Rehabilitationswissenschaftliches Kolloquium Rehabilitation im Gesundheitssystem Bad Kreuznach, 10. bis 12. März 2003 Gütekriterien für evaluative Messinstrumente in der Rehabilitation Dipl.-Psych.

Mehr

Überprüfung der Bildungsstandards in den Naturwissenschaften. Chemie Marcus Mössner

Überprüfung der Bildungsstandards in den Naturwissenschaften. Chemie Marcus Mössner Überprüfung der Bildungsstandards in den Naturwissenschaften Bildungsstandards im Fach Chemie für den Mittleren Bildungsabschluss (Beschluss vom 16.12.2004) Die Chemie untersucht und beschreibt die stoffliche

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Wie evaluiert man ein Evaluationsverfahren? Eine Metaperspektive auf externe Schulevaluation an berufsbildenden Schulen in Österreich

Wie evaluiert man ein Evaluationsverfahren? Eine Metaperspektive auf externe Schulevaluation an berufsbildenden Schulen in Österreich Wie evaluiert man ein Evaluationsverfahren? Eine Metaperspektive auf externe Schulevaluation an berufsbildenden Schulen in Österreich 16. DeGEval-Jahrestagung München, 12. Präsentation: Sigrid Hartl/Michaela

Mehr

Becker I Brucker. Erfolg in Mathe 2015. Realschulabschluss Baden-Württemberg Wahlteil. Übungsbuch mit Tipps und Lösungen

Becker I Brucker. Erfolg in Mathe 2015. Realschulabschluss Baden-Württemberg Wahlteil. Übungsbuch mit Tipps und Lösungen Becker I Brucker Erfolg in Mathe 2015 Realschulabschluss Baden-Württemberg Wahlteil Übungsbuch mit Tipps und Lösungen Inhaltsverzeichnis Vorwort 1 Aufgaben 5 1 Algebra.......................................

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

ANTES International Assessment. Erfolg ist kein Zufall

ANTES International Assessment. Erfolg ist kein Zufall ANTES International Assessment Erfolg ist kein Zufall 2 E.M. Forster hat es einmal auf den Punkt gebracht: Eine Person mit Begeisterung ist besser als 40 Personen die lediglich nur interessiert sind. Potenziale

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09. Abstract zum Thema Handelssysteme Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, eric-hansen@gmx.de am: 07.09.01 Einleitung: Handelssysteme

Mehr

Ergebnisbericht Kompetenztest 2013/2014 Mathematik, Klasse 3a

Ergebnisbericht Kompetenztest 2013/2014 Mathematik, Klasse 3a Ergebnisbericht Kompetenztest 13/14 Mathematik, Klasse 3a Grundschule Gornau Sehr geehrte Lehrerin, sehr geehrter Lehrer, der vorliegende Ergebnisbericht enthält die Testergebnisse hrer Klasse 3a in zusammengefasster

Mehr

Beteiligung der Beschäftigten an betrieblicher Weiterbildung. und Unternehmensgröße

Beteiligung der Beschäftigten an betrieblicher Weiterbildung. und Unternehmensgröße Beteiligung der Beschäftigten an betrieblicher Weiterbildung und Unternehmensgröße Befunde auf der Grundlage von CVTS3 Friederike Behringer, Gudrun Schönfeld Bonn, Februar 2011 1 Vorbemerkung Im Folgenden

Mehr

Grafiken zu Migrationshintergrund und Mehrsprachigkeit aus BIFIE-Publikationen

Grafiken zu Migrationshintergrund und Mehrsprachigkeit aus BIFIE-Publikationen Grafiken zu Migrationshintergrund und Mehrsprachigkeit aus BIFIE-Publikationen Nationaler Bildungsbericht 2012 PIRLS/TIMSS 2011 Bericht 2012 PISA 2009 Bericht 2010 OECD-Bericht PISA 2009 Daten Zusammengestellt

Mehr

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor: Ergebnisreport: mehrere Lehrveranstaltungen zusammenfassen 1 1. Ordner anlegen In der Rolle des Berichterstellers (siehe EvaSys-Editor links oben) können zusammenfassende Ergebnisberichte über mehrere

Mehr

4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute

4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute 4.1 Grundlagen 4 Produktspezifische Ausfallwahrscheinlichkeit und Ausbeute 4.1 Grundlagen In den bisherigen Ausführungen wurden die Grundlagen der Ausbeuteberechnung behandelt. So wurde bereits im Abschnitt

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Kommentar für Lehrpersonen Suisse Quiz

Kommentar für Lehrpersonen Suisse Quiz Kommentar für Lehrpersonen Suisse Quiz Teste dein Wissen über die Schweiz Suisse Quiz Seite 2 I 11 Inhaltsverzeichnis Wichtigste Eckdaten zum Lernangebot 3 Das Angebot im Überblick 4 Die einzelnen Elemente

Mehr

Vergleichsarbeiten in der Grundschule

Vergleichsarbeiten in der Grundschule Vergleichsarbeiten in der Grundschule Ergebnisse Gesamtdokument 2009 30831 3a Inhaltsverzeichnis Fähigkeitsniveaus der Schülerinnen und Schüler 3 Verteilung der Fähigkeitsniveaus 4 Fairer Vergleich 5 Richtige

Mehr

Projekt Übersicht. Thermodynamik II Luftfahrt/ Aviation. Niederlande Deutschland Spanien - Österreich. Luftfahrt / Aviation Information Design

Projekt Übersicht. Thermodynamik II Luftfahrt/ Aviation. Niederlande Deutschland Spanien - Österreich. Luftfahrt / Aviation Information Design Projekt Übersicht Niederlande Deutschland Spanien - Österreich ÖAD Informationstag für zentrale Projekte Wien, 6.12.2011 Lifelong Learning Programme Bruno 1/10 Wiesler Hintergrund und Timeline Das Vorhaben

Mehr

Publikationskonzept Prävalenzmessung Sturz & Dekubitus

Publikationskonzept Prävalenzmessung Sturz & Dekubitus Publikationskonzept Prävalenzmessung Sturz & Dekubitus Anhang 1 September 2013, Version 2.0 Das vorliegende Publikationskonzept der Prävalenzmessung Sturz & Dekubitus V.2.0 ist Bestandteil des Grundlagendokumentes

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Bremer Institut für Pädagogik und Psychologie (bipp) www.bipp-bremen.de

Bremer Institut für Pädagogik und Psychologie (bipp) www.bipp-bremen.de Bremer Institut für Pädagogik und Psychologie (bipp) www.bipp-bremen.de Evaluation des LOS Projektes Fit for Life II vom.0.06 bis 0.06.07 Ergebnisdarstellung Kurzbeschreibung der Maßnahme: Anzahl der geförderten

Mehr

Lernstandserhebungen in Klasse 8

Lernstandserhebungen in Klasse 8 Lernstandserhebungen in Klasse 8 Ergebnisse 2014 Justus-von-Liebig-Realschule Städt. Realschule - Sekundarstufe I - 158586 27. Mai 2014 Standorttyp: 5 1 / 21 Inhalt Einführung: Unterschied Diagnose - Klassenarbeit

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Selbstkritik und neue Horizonte: Transparenz in der Psychologie

Selbstkritik und neue Horizonte: Transparenz in der Psychologie Forum klinische Forschung / Recherche Clinique 30.1.2013, Schweizer Nationalfonds / Fonds National Suisse Selbstkritik und neue Horizonte: Transparenz in der Psychologie Mirjam A. Jenny Max Planck Institut

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Klausur: Einführung in die Statistik

Klausur: Einführung in die Statistik 1 Lösungen immer unter die jeweiligen Aufgaben schreiben. Bei Platzmangel auf die Rückseite schreiben (dann Nummer der bearbeiteten Aufgabe mit anmerken!!!). Lösungen, die nicht auf den Aufgabenblättern

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Quelle: Peter Labudde, Alltagsphysik in Schülerversuchen, Bonn: Dümmler.

Quelle: Peter Labudde, Alltagsphysik in Schülerversuchen, Bonn: Dümmler. Projektor Aufgabe Ein Diaprojektor, dessen Objektiv eine Brennweite von 90mm hat, soll in unterschiedlichen Räumen eingesetzt werden. Im kleinsten Raum ist die Projektionsfläche nur 1m vom Standort des

Mehr

Förderung von Modellierungskompetenzen im Regelunterricht Empirische Untersuchung eines neuen Unterrichtskonzepts

Förderung von Modellierungskompetenzen im Regelunterricht Empirische Untersuchung eines neuen Unterrichtskonzepts Förderung von Modellierungskompetenzen im Regelunterricht Empirische Untersuchung eines neuen Unterrichtskonzepts Jana Kreckler 01.10.2014 LEHRER.BILDUNG.MEDIEN 1 Inhalt (1) Was ist Modellierung? (2) Ziele

Mehr

Vergleich verschiedener Optimierungsansätze

Vergleich verschiedener Optimierungsansätze Vergleich verschiedener Optimierungsansätze Inhaltsverzeichnis 1 Einleitung... 2 2 Welchen Nutzen schafft munio?... 3 3 Analysen... 3 3.1 Schritt 1: Optimierung anhand von Indizes... 3 3.2 Schritt 2: Manuell

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten Frank Konietschke Abteilung für Medizinische Statistik Universität Göttingen 1 Übersicht Beispiele CGI (repeated measures) γ-gt

Mehr

Bewertung. Vorgespräch. Interne Vorbereitung. Zertifizierungsaudit. Wiederholungsaudit. Überwachungsaudit

Bewertung. Vorgespräch. Interne Vorbereitung. Zertifizierungsaudit. Wiederholungsaudit. Überwachungsaudit Bewertung,62=HUWLIL]LHUXQJ Vorgespräch Interne Vorbereitung 0RQDWH Zertifizierungsaudit Wiederholungsaudit DOOH-DKUH Überwachungsaudit MlKUOLFK Wenn eine Organisation ein,62ãã=huwlilndw anstrebt, so muss

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

In dieser Anleitung möchten wir ausführlich auf die folgenden Nutzungsmöglichkeiten von DoIT! eingehen:

In dieser Anleitung möchten wir ausführlich auf die folgenden Nutzungsmöglichkeiten von DoIT! eingehen: DoIT! für Dozierende Inhalt Wenn Sie an der aktuellen Lernsituation Ihrer Studierenden besonders interessiert sind und gerne Gruppenarbeiten nutzen, bietet DoIT! vielfältige Möglichkeiten für Sie. Mit

Mehr

Diagnosetest zur Ermittlung von Metafähigkeiten. - Name/Lerngruppe

Diagnosetest zur Ermittlung von Metafähigkeiten. - Name/Lerngruppe Diagnosetest zur Ermittlung von Metafähigkeiten - Name/Lerngruppe Dr. R. Vetters, Prof. Dr. V. Pietzner, 2015 Liebe Schülerinnen und Schüler, Um eure Lernprozesse besser zu verstehen, möchte ich folgenden

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

PR Evaluation - Kommunikationserfolg messbar machen - aber wie?

PR Evaluation - Kommunikationserfolg messbar machen - aber wie? PR Evaluation - Kommunikationserfolg messbar machen - aber wie? Alte und neue Ansätze der PR-Evaluation Dr. Nanette Besson Email besson@pr-evaluation.de www.pr-evaluation.de Kommunikationserfolg in schweren

Mehr

Auswirkungen der Cloud auf Ihre Organisation So managen Sie erfolgreich den Weg in die Cloud

Auswirkungen der Cloud auf Ihre Organisation So managen Sie erfolgreich den Weg in die Cloud Die Cloud Auswirkungen der Cloud auf Ihre Organisation So managen Sie erfolgreich den Weg in die Cloud Die Auswirkungen und Aspekte von Cloud-Lösungen verstehen Cloud-Lösungen bieten Unternehmen die Möglichkeit,

Mehr

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes von Veränderungen Dr. Julia Kneer Universität des Saarlandes Veränderungsmessung Veränderungsmessung kennzeichnet ein Teilgebiet der Methodenlehre, das direkt mit grundlegenden Fragestellungen der Psychologie

Mehr

Fragebogen: Abschlussbefragung

Fragebogen: Abschlussbefragung Fragebogen: Abschlussbefragung Vielen Dank, dass Sie die Ameise - Schulung durchgeführt haben. Abschließend möchten wir Ihnen noch einige Fragen zu Ihrer subjektiven Einschätzung unseres Simulationssystems,

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Messung von Lebensqualität: So einfach wie möglich, so differenziert wie nötig

Messung von Lebensqualität: So einfach wie möglich, so differenziert wie nötig IQWiG-Herbst-Symposium Köln, 29.-30. November 2013 Messung von Lebensqualität: So einfach wie möglich, so differenziert wie nötig Thomas Kohlmann Institut für Community Medicine Universität Greifswald

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

Ablauf des Begutachtungsprozesses

Ablauf des Begutachtungsprozesses Leitfaden für die Testbegutachtung auf Inhalt ABLAUF DES BEGUTACHTUNGSPROZESSES... 2 LOGIN ALS GUTACHTER... 3 GUTACHTER-LOGIN... 3 PASSWORT VERGESSEN?... 3 BEENDEN DER GUTACHTERTÄTIGKEIT AUF PSYCHOMETRIKON...

Mehr

Untersuchungsdesign: 23.11.05

Untersuchungsdesign: 23.11.05 Untersuchungsdesign: 23.11.05 Seite 1! Ablauf Untersuchungsdesign! Beispiel! Kleine Übung! Diskussion zur Vorbereitung von Übung 2 Während Sie das Untersuchungsdesign festlegen, planen und bestimmen Sie:

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Alle WGKT-Empfehlungen können unter www.wgkt.de eingesehen und heruntergeladen werden.

Alle WGKT-Empfehlungen können unter www.wgkt.de eingesehen und heruntergeladen werden. WGKT-Empfehlung Betriebswirtschaftliche Kennzahlen von Krankenhäusern Stand: 05.11.2009 Arbeitskreismitglieder: Prof. Dr. K. Lennerts (Leitung), Karlsruhe; Prof. Dr. C. Hartung, Hannover; Dr. T. Förstemann,

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Der Fristentransformationserfolg aus der passiven Steuerung

Der Fristentransformationserfolg aus der passiven Steuerung Der Fristentransformationserfolg aus der passiven Steuerung Die Einführung einer barwertigen Zinsbuchsteuerung ist zwangsläufig mit der Frage nach dem zukünftigen Managementstil verbunden. Die Kreditinstitute

Mehr

Sicherheitsvertrauenspersonen

Sicherheitsvertrauenspersonen Sicherheitsvertrauenspersonen Aufgaben und Verpflichtungen von Sicherheitsvertrauenspersonen in einer Sicherheits- und Gesundheitsschutz-Organisation im Betrieb November 2007 INHALT ALLGEMEINE AUSSAGEN

Mehr

1 Einleitung. 1.1 Motivation

1 Einleitung. 1.1 Motivation 1 Einleitung 1.1 Motivation Eine zunehmende Globalisierung in Verbindung mit der Verbreitung des elektronischen Handels, stets kürzer werdende Produktlebenszyklen und eine hohe Variantenvielfalt konstituieren

Mehr

Übersicht zur Veranstaltung

Übersicht zur Veranstaltung Übersicht zur Veranstaltung Psychometrie: Teil 1 Itemschwierigkeit Bedeutung der Itemschwierigkeit Bestimmung der Itemschwierigkeit Die Prüfung von Schwierigkeitsunterschieden Trennschärfe Bedeutung der

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

5.1. Die Itemcharakteristik als zentrales Konzept probabilistischer Testmodelle

5.1. Die Itemcharakteristik als zentrales Konzept probabilistischer Testmodelle 5. Die probabilistische Testtheorie (PTT) 1 5. Die probabilistische Testtheorie (PTT) 1 5.1. Die Itemcharakteristik als zentrales Konzept probabilistischer Testmodelle... 1 5.2. Das Rasch-Modell... 4 5.2.1.

Mehr

Welche Verzerrungseffekte gibt es bei Übertrittsempfehlungen?

Welche Verzerrungseffekte gibt es bei Übertrittsempfehlungen? Welche Verzerrungseffekte gibt es bei Übertrittsempfehlungen? Prof. Dr. Ulrich Trautwein Lehrstuhl Empirische Bildungsforschung Universität Tübingen Mist, Empfehlung für die Realabteilung! Bei einem anderen

Mehr

CNT Gesellschaften für Personalund Organisationsentwicklung

CNT Gesellschaften für Personalund Organisationsentwicklung Fragebogen zur Beruflichen Motivation CNT Gesellschaften für Personalund Organisationsentwicklung Hamburg München Wien Moskau Das Wichtigste vorweg Der Fragebogen zur beruflichen Motivation (FBBM) ist

Mehr

Bedienungsanleitung für Lehrende

Bedienungsanleitung für Lehrende Bedienungsanleitung für Lehrende lehrevaluation.net Allgemeines Öffnen Sie die Seite http://www.lehrevaluation.net in Ihrem Webbrowser. Die Seite ist unterteilt in den Navigationsbereich (rechts) mit verschiedenen

Mehr

Universität Ulm. Fakultät für Mathematik und Wirtschaftswissenschaften. ulm university Universität I

Universität Ulm. Fakultät für Mathematik und Wirtschaftswissenschaften. ulm university Universität I Universität Ulm Fakultät für Mathematik und Wirtschaftswissenschaften ulm university Universität I uulm Berichterstattung zur Audit Firm Governance in Deutschland - Eine empirische Analyse - Dissertation

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

HTS-Berichte des ZTD - 01/2002 Vergleichsuntersuchung WILDE-Intelligenz-Test - Daten BFW Leipzig Bearbeiterin: A. Bettinville

HTS-Berichte des ZTD - 01/2002 Vergleichsuntersuchung WILDE-Intelligenz-Test - Daten BFW Leipzig Bearbeiterin: A. Bettinville UNIVERSITÉ DE FRIBOURG SUISSE UNIVERSITÄT FREIBURG SCHWEIZ ZENTRUM FÜR TESTENTWICKLUNG UND DIAGNOSTIK AM DEPARTEMENT FÜR PSYCHOLOGIE CENTRE POUR LE DEVELOPPEMENT DE TESTS ET LE DIAGNOSTIC AU DEPARTEMENT

Mehr

Absolut, relativ oder einfach mehr Geld? Analyse der Netto-Differenzen 2014

Absolut, relativ oder einfach mehr Geld? Analyse der Netto-Differenzen 2014 Voraussetzungen Absolut, relativ oder einfach mehr Geld? Analyse der -en 2014 Tarifbeschäftigte und beamtete Lehrerinnen und Lehrer erhalten bei gleicher Arbeitszeit, gleichen Aufgaben und gleichen Belastungen

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

MMI 2: Mobile Human- Computer Interaction Übung 3

MMI 2: Mobile Human- Computer Interaction Übung 3 MMI 2: Mobile Human- Computer Interaction Übung 3 Prof. Dr. michael.rohs@ifi.lmu.de Mobile Interaction Lab, LMU München Motor System: Fitts Law Directed movement as an information processing task Not limited

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Aufgabeneinheit 5: Aufgab, öffne dich!

Aufgabeneinheit 5: Aufgab, öffne dich! Aufgabeneinheit 5: Aufgab, öffne dich! Ralf Früholz / Renate Lenz / Georg Schmitt Methodische Vorbemerkungen Diese Aufgabeneinheit ist nicht vergleichbar mit den anderen Aufgabeneinheiten in dieser Broschüre.

Mehr

Die 7stufige Notenskala der Neuen Mittelschule Versuch einer Interpretation

Die 7stufige Notenskala der Neuen Mittelschule Versuch einer Interpretation Die 7stufige Notenskala der Neuen Mittelschule Versuch einer Interpretation Um die Beurteilungsskala der Neuen Mittelschule interpretieren und richtig anwenden zu können, scheinen mir zwei grundsätzliche

Mehr

Einleitung. Was ist das Wesen von Scrum? Die Ursprünge dieses Buches

Einleitung. Was ist das Wesen von Scrum? Die Ursprünge dieses Buches Dieses Buch beschreibt das Wesen von Scrum die Dinge, die Sie wissen müssen, wenn Sie Scrum erfolgreich einsetzen wollen, um innovative Produkte und Dienstleistungen bereitzustellen. Was ist das Wesen

Mehr

1. Biometrische Planung

1. Biometrische Planung 1. Biometrische Planung Die biometrische Planung ist Teil der Studienplanung für wissenschaftliche Studien, in denen eine statistische Bewertung von Daten erfolgen soll. Sie stellt alle erforderlichen

Mehr

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110

einfache Rendite 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Übungsbeispiele 1/6 1) Vervollständigen Sie folgende Tabelle: Nr. Aktie A Aktie B Schlusskurs in Schlusskurs in 0 145 85 1 160 90 2 135 100 3 165 105 4 190 95 5 210 110 Arithmetisches Mittel Standardabweichung

Mehr