Computerbasiertes Testen Mode oder neue Erkenntnischance

Ähnliche Dokumente
Digitales Assessment im Schulkontext

PISA 2015 Ist der Trend ein Trend?

Prozessbezogene Verhaltensdaten für Rückmeldung in digitalen Lernumgebungen

Forschungsmethoden VORLESUNG SS 2017

Prozessdaten zur Kompetenzmodellierung

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Forschungsmethoden VORLESUNG WS 2017/2018

Die Regressionsanalyse

ASCOT Kompetenzmessung in der Berufsbildung Ansatz, Ergebnisse und Perspektiven der BMBF Forschungsinitiative

III. Mathematische Kompetenzen von Schülerinnen und Schülern in Deutschland. Michael Neubrand (Hrsg.) Vertiefende Analysen im Rahmen von PISA 2000

Christian Gorius Der Erfolg von IT-Off shore-projekten

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

Markus Wirtz* Timo Leuders. Jan Henning-Kahmann* Dominik Naccarella. Ulf Kröhne (Technology Based Assessment) Regina Bruder. Frankfurt

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Übung V Lineares Regressionsmodell

Aufbau des Testberichts. 1. Problemstellung / inhaltliche Einführung. 2. Methode

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler

EULI. Qualität, Vertrauen und Akzeptanz im Kontext der Internen Revision. Mirko Mertenskötter

Inhaltsverzeichnis. 1 Einleitung... 11

Programmatischer Text

Social-Software-Portfolios im Einsatz. Zwischen Online-Lernen und Medienkompetenz im selbstgesteuert-konnektiven Lernalltag

Überblick über die ProbabilistischeTesttheorie

PISA 2015 Allgemeine Informationen

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Konfirmatorische Faktorenanalyse

3.1 Grundlagen psychologischer Diagnostik

Multivariate Verfahren

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Gütekriterien: Validität (15.5.)

Bildungsurlaub-Seminare: Lerninhalte und Programm

Empirische Analysen mit dem SOEP

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Research Data. Startkohorte 4: Klasse 9 (SC4) Welle 5 Informa on zum Kompetenztest

Fakultät für Psychologie. Der Bochumer Wissenstest (BOWIT) Eine Analyse hinsichtlich Geschlecht und Testmedium

PETER LANG Internationaler Verlag der Wissenschaften

Auch in der Testkonstruktion ist weniger manchmal mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Pädagogisch-psychologische Diagnostik und Evaluation

Forschungsmethoden VORLESUNG WS 2017/2018

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle

Inhalt. 2. Ein empirisches Beispiel als Hintergrund 2.1 Die Studie von Preckel & Freund (2006) 2.2 Rückblick

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Übung Methodenlehre I, SeKo

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

PISA 2009 Lesen elektronischer Medien

Methodenlehre. Vorlesung 5. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Reliabilitäts- und Itemanalyse

Nationale Bildungsstandards und ihre Bedeutung für die Schul- und Unterrichtsentwicklung

2. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Kapitel 5: Einfaktorielle Varianzanalyse

Seminar: Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften. Institut für Statistik, LMU München

Kausalanalyse Überblick (I)

ANalysis Of VAriance (ANOVA) 2/2

Wahrscheinlichkeitsrechnung und Statistik

Einführung in die Statistik Testgütekriterien

Forschungsmethoden VORLESUNG SS 2017

Rekodierung invertierter Items

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Organisationsdiagnostik und Organisationsentwicklung

Bis heute: Überblick Einheit Literatur lesen. 2. Introspektion. 3. Thema definieren und eingrenzen. Untersuchungsproblem.

LISREL-Mehrgruppenvergleiche (Multi-Sample Analysis)

Inhalt. Vorwort Einleitung Ausgangslage Zielstellung Aufbau der Arbeit I: Theoretischer Teil

Psychologische Diagnostik

Wahrscheinlichkeit und Statistik BSc D-INFK

Kapitel 5: Einfaktorielle Varianzanalyse

Beispiel: Multiples Modell/Omitted Variable Bias I

Zufälle gibt s, oder gibt s die nicht? Martin Köhler Science Café Hamburg, 25. Juni 2014

Lineare Regression. Kapitel Regressionsgerade

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

Grundlagen der Psychologie des Lehrens und Lernens. Sommersemester 2009 BA-ABS BW 4 (1) BA-BB M3. Prof. H. Körndle. TU Dresden

Statistik II. IV. Hypothesentests. Martin Huber

Statistische Methoden in den Umweltwissenschaften

Statistisches Testen

Prävention und Intervention im Bereich der vorschulischen Bildung. WS 08/09 Michael Lichtblau 3. VA

8 Allgemeine Modelle & Robuste Regression

Klausur Testtheorie: Antworten und Lösungen

Multiple Lineare Regression. Statistik (Biol./Pharm.) Herbst 2012

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Analyse des Qualitätsdiskurses zur Modellverständlichkeit in experimentellen Studien

x t2 y t = 160, y = 8, y y = 3400 t=1

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

3.1 Punktschätzer für Mittelwert µ und Varianz σ 2. Messungen x 1,..., x N, die unabhängig voneinander auf gleiche Weise gewonnen worden sind

Kapitel 5: Einfaktorielle Varianzanalyse

(1) Was sind wichtige Kriterien von Diagnostik im Sinne zweckgebundenen Messens? (2) Warum sollte Diagnostik so systematisch wie möglich erfolgen?

Multiple Lineare Regression. Statistik (Biol./Pharm./HST) Herbst 2013

6. Statistische Schätzung von ARIMA Modellen

Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.

Teil: lineare Regression

Statistik im Forschungsprozess

1 Beispiel zur Methode der kleinsten Quadrate

Prognoseintervalle für y 0 gegeben x 0

Transkript:

Möglichkeiten und Grenzen der Politik- und Praxisberatung auf Basis von PISA-Studien Computerbasiertes Testen Mode oder neue Erkenntnischance Ulf Kröhne & Frank Goldhammer Zentrum für Technologiebasiertes Testen (TBA)

Agenda Mode? - PISA und CBA - Modus-Wechsel Neue Erkenntnischancen durch CBA Innovative Aufgaben Log- und Prozessdaten Steigerung der Messeffizienz Standardisierung Resümee Politik- und Praxisberatung Chancen und Herausforderungen für Schule Kroehne DIPF EMSE 2016 2

2000 2006 2009 2012 2015 t CBA in PISA Computer-Based Assessment von dynamischem Problemlösen (PS) als Teil der nationalen Ergänzung in Deutschland Computer-Based Assessment of Science (CBAS) als internationale Option, Auswahl an Teilnehmerstaaten Electronic Reading Assessment (ERA) als internationale Option, Auswahl an Teilnehmerstaaten CBA of Mathematical Literacy (CBAM) als internationale Option, Auswahl an Teilnehmerstaaten Umstieg auf computerbasiertes Testen für alle Domänen, nur noch weniger Länder weiterhin PBA Kroehne DIPF EMSE 2016 3

Modus-Wechsel im Assessment Äquivalenz PBA CBA Kroehne DIPF EMSE 2016 4

PISA 2015 (Feldtest) Schüler im Feldtest zufällig CBA oder PBA zugewiesen Unterschiede in den Ergebnissen können kausal auf den Modus zurückgeführt werden Analyse der Vergleichbarkeit von Items (Invarianz) i) Items ohne Änderung von Diskrimination & Schwierigkeit ii) iii) (skalare Invarianz) Link-Items Items ohne Änderung der Diskrimination, aber mit Änderung der Schwierigkeit, mehrheitlich schwieriger (metrische Invarianz) ( nicht invariante Items) Items mit Änderung der Diskrimination Ausschluss Kroehne DIPF EMSE 2016 5

PISA 2015 (Haupttest) Nutzung der identifizierten Link-Items für Herstellung von Trendinformationen, Modus-Effekte für nicht-invariante Items schaden nicht Weitere methodische Neuerungen (z.b. Nutzung der Daten aller Zyklen) Mögliche Kritikpunkte keine Nutzung des geschätzten Mode- Effekts aus Feldtest keine Betrachtung länderspezifischer Modus-Effekte Trennung Link-Items vs. nicht invariante Items keine direkte Prüfung der Konstruktäquivalenz CBA PISA 2012 PISA 2009 PISA 2006 PISA 2015 PBA PBA PBA Kroehne DIPF EMSE 2016 6

Konstruktäquivalenz CBA und PBA Analyse von PISA Lesekompetenz (nat. Ergänzung PISA 2012) Wald Test of Parameter Constraints Value 0.131 Degrees of Freedom 1 P-Value 0.7179 Pos Mean: -0.195*** (0.051) 1 - PBA-A 1-N 2 - PBA-A 1-N 1 - PBA-B 1-N 2 - PBA-B 1-N PBA =1? 0.989*** (0.030) Mode Mean: -0.226*** (0.046) 1 - CBA-A 1-N 2 - CBA-A 1-N 1 - CBA-B 1-N 2 - CBA-B 1-N CBA Kroehne DIPF EMSE 2016 7

CBA nur Mode? CBA geht mit Mode-Effekten einher, d.h. identische Aufgaben sind in CBA häufig etwas schwerer in PBA weiterer Forschungsbedarf zu PISA 2015 bzgl. der Kritikpunkte - Wirksamkeit der Modus-Korrektur vs. - Länderunterschiede? weiterer Forschungsbedarf zu Bedeutung von Modus-Effekten - allgemeine Erklärungen / theoretische Fundierung - Bedeutung der Unterschiede für Schule & Unterricht Kroehne DIPF EMSE 2016 8

Erklärungen für Modus-Effekte? Beispiel: Bearbeitungszeiten (PBA vs. CBA) beim Lesen 2 σ ω1 1 ω 1 1 ω n 2 σ ωn 1 1 X 1;PBA X n;pba λ 1 λ n β 1 β n ln T 1;PBA ln T n;pba Z 1 Z n φ 1 φ n f(θ p ; ρ) α 1 α n τ p;pba θ p;pba θ mode θ p 1 φ 1 τ p;cba φ n 1 f(θ p ; ρ) 1 α 1 θ p;cba α n ln T 1;CBA 2 σ ω1 1 ω 1 1 ln T n;cba Z 1 Z n λ 1 λ n Z 1 ω n 2 σ ωn 1 1 Kroehne DIPF EMSE 2016 9 β 1 X 1;CBA β n X n;cba

Beispiel: Ergebnis des Vergleichs von CBA und PBA (mit E-Pens) MI 7 (α i, β i, λ i,σ 2 ωi ) Modus-Effekt (Fähigkeitsunterschiede CBA vs. PBA) -0.249** (0.050) Interindividuelle Unterschiede im Mode-Effekts (Varianz) 0.437** (0.098) Korrelation Modus-Effekt und Fähigkeit -0.683** (0.058) Intreind. Unterschiede in der Bearbeitungszeit CBA (Varianz) 0.748** (0.045) Intreind. Unterschiede in der Bearbeitungszeit PBA (Varianz) 0.605** (0.049 ) Korrelation Zeit und Modus-Effekt für PBA -0.243** (0.075) Korrelation Zeit und Modus-Effekt für CBA 0.306** (0.067) Korrelation Zeit und Fähigkeit für PBA χ 2 = 18.895-0.462** (0.044) Korrelation Zeit und Fähigkeit für CBA df=1 p < 0.05-0.591** (0.041) Korrelation Zeit PBA und CBA 0.423** (0.067) Kroehne DIPF EMSE 2016 10

Agenda Mode? - PISA und CBA - Modus-Wechsel Neue Erkenntnischancen durch CBA Innovative Aufgaben Log- und Prozessdaten Steigerung der Messeffizienz Standardisierung Resümee Politik- und Praxisberatung Chancen und Herausforderungen für Schule Kroehne DIPF EMSE 2016 11

Neue Erkenntnischancen durch CBA (1) Innovative Aufgaben Merkmale messen, die mit auf Papier überhaupt nicht oder nur schwer messbar sind - Kompetenz, digitale Texte zu Lesen (Electronic Reading) - Umgang mit multiplen Dokumenten (MDL) Simulationsbasiertes Assessment / interaktive Items (Diagnostik in authentischen Kontexten) - Beurteilung von Glaubwürdigkeit ICT Literacy (z.b. Simulation von Browser und Websites) Neue Erkenntnisse durch Validitätssteigerung empirische Abgrenzung / Mehrwert muss je Domäne erfolgen (wie verhalten sich alte zu neuen Bestandteile des Konstrukts?) Kroehne DIPF EMSE 2016 12

Neue Erkenntnischancen durch CBA (2) Log- und Prozessdaten Spuren der Testbearbeitung (Mauseklicks, Tastatureingaben, ) entstehen als Abfallprodukt nebenbei Systematische Nutzung in Verbindung mit dem diagnostischen Zweck (technologiebasierter) Assessments Einblick in Lösungsverhalten, bspw. Auswahl, Sequenz und Dauer von Bearbeitungsschritten usw. Herausforderungen Inhaltlich: Systemtische Konstruktion von Aufgaben zur Differenzierung von Lösungsverhalten Technisch: Datenqualität von Log-Daten, theoretischer Rahmen für Ableitung von Indikatoren, Validierung von Indikatoren, Datenformat für die Handhabung von großen Datenmengen Kroehne DIPF EMSE 2016 13

Bsp.: Komplexes Problemlösen Probieren vs. systematisches Explorieren Identifikation der Bearbeitungsstrategie Vary one thing at a time (VOTAT) aus den Log-Daten Strategie Lösung der Aufgabe Climate Control (Teilaufgabe 1) Gesamt falsch richtig ohne VOTAT 42.2% 9.7% 51.9% VOTAT 6.9% 41.1% 48.1% Gesamt 49.1% 50.9% 100.0% Kroehne DIPF EMSE 2016 14

Bsp.: Motivation Klassifizierung von Antworten nach Antwortzeit (sehr) schnelle Antwort können als Raten interpretiert werden Kroehne DIPF EMSE 2016 15

Agenda Mode? - PISA und CBA - Modus-Wechsel Neue Erkenntnischancen durch CBA Log- und Prozessdaten Steigerung der Messeffizienz Standardisierung Resümee Politik- und Praxisberatung Chancen und Herausforderungen für Schule Kroehne DIPF EMSE 2016 16

Messeffizienz Gründe für Messeffizienzsteigerung Steigerung der Reliabilität (per se) Steigerung der Validität durch Ermöglichung von (zeitintensiveren) Simulationsbasierten Aufgaben adaptives testen als Werkzeugkasten muss an Bedarfe der Diagnostik angepasst werden Populationsparameter (bspw. Mittelwerte) Klassifikationsentscheidungen (bspw. Kompetenzstufen / Risikogruppen) (latente) Veränderung / Change-Score Individuelle Interpretation von Ergebnissen (z.b. Elternrückmeldungen) mehr Information x x x x mehr Personen x Kroehne DIPF EMSE 2016 17

Standardisierung Gütekriterium Objektivität Audio-Ausgaben in Gruppentestungen (Kopfhörer und CBA vs. Lautsprecher, Audio-CD und Testheft) Standardisierung von Instruktionen (Audio-, Videofiles) und Log- Daten vs. Interviewerhandbücher Verhinderung von Instruktions-inkonsistentem Verhalten (bspw. Überschreiten von Zeitgrenzen) Homogenisieren von Bearbeitungsgeschwindigkeit (bspw. durch Zeitfeedback). Kroehne DIPF EMSE 2016 18

Agenda Mode? - PISA und CBA - Modus-Wechsel Neue Erkenntnischancen durch CBA Innovative Aufgaben Log- und Prozessdaten Steigerung der Messeffizienz Standardisierung Resümee Politik- und Praxisberatung Chancen und Herausforderungen für Schule Kroehne DIPF EMSE 2016 19

Politik- und Praxisberatung (1) Erhebungsmodus primär inhaltlich zu motivieren - Handschrift, Geometrie, Formeln usw. ( PBA), interaktive Assessments, Videos, Simulationen ( CBA) - Kompetenzdiagnostik in dem Medium, in welchem Kompetenz auch im Alltag angewendet wird - wenig gute Gründe für PBA als Referenzkategorie und für Beibehaltung von PBA -Gewohnheiten bei CBA-Assessments Chancen liegen in den klassischen Gütekriterien - Reliabilität / Messeffizienz sorgsamerer Umgang mit Testzeit - Validität authentischere Erfassung von Konstrukten - Objektivität Standardisierung / positive Effekte durch CBA Kroehne DIPF EMSE 2016 20

Politik- und Praxisberatung (2) Vorbildfunktion von PISA für Kompetenzdiagnostik? - Pro: Dammbruch für Anpassung Testmediums - Contra: Internationale Vergleichbarkeit des Modus-Effekts offen - Stellenwert methodischer Grundlagen für Interpretierbarkeit empirischer Befunde Kroehne DIPF EMSE 2016 21

Chancen für Schule über Gütekriterien hinaus bietet CBA positive Seiteneffekte für Schule - Reduktion des operative Aufwands für Assessments (bspw. Chancen für Vergleichsarbeiten, formatives Assessment, ) - schnellere Rückmeldung von Ergebnissen zu Assessments - zeitlich flexiblerer Einsatz von Diagnostik zur Individualisierung - Einblick in Testbearbeitungsprozess (Log- und Prozessdaten), wenn Aufgaben konsequent für CBA entwickelt werden Kroehne DIPF EMSE 2016 22

Herausforderungen für Schule Schulinfrastruktur notwendig, um CBA außerhalb von PISA zum Regelfall werden zu lassen Ausgleich interindividueller Unterschiede ( Testfairness) - Konfundierende Einflüsse von konstruktirrelevanten Variablen, z.b. Computerliteralität, können Subgruppen benachteiligen - können bei Testkonstruktion nur bedingt ausgeglichen werden (Tutorials, ggf. stat. Kontrolle oder Ausschluss von Items) Effekt des Testmediums - Schule (und Wissenschaften) müssen damit umgehen, dass identische Aufgaben am Computer schwieriger sind Kroehne DIPF EMSE 2016 23

Vielen Dank! Fragen, Kommentare? kroehne@dipf.de Kroehne DIPF EMSE 2016 24