Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Ähnliche Dokumente
Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG SS 2017

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Einführung in die Statistik Testgütekriterien

Gütekriterien von Messungen

Grundlagen sportwissenschaftlicher Forschung Test

Methode der Naturwissenschaften

Messtherorie Definitionen

Gütekriterien: Validität (15.5.)

4.2 Grundlagen der Testtheorie

1.1 Defininition. Als Test gelten demnach nur solche Untersuchungsverfahren, die

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

T E S T G Ü T E K R I T E R I E N W O R K S H O P I N F R E I B U R G N O V E M B E R

Reliabilitäts- und Itemanalyse

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Grundlagen empirischer Forschung 3. LV. Gütekriterien von Erhebungsverfahren, Tests. Studieren für die berufliche Praxis.

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Prüfen und Testen im DaF- Unterricht. Mag. Norbert Conti, Österreich Institut Brno, Seminar am

Pädagogisch-psychologische Diagnostik und Evaluation

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Psychologische Diagnostik

Sportmotorische Testverfahren

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Inhaltsverzeichnis Danksagung Einleitung Forschungshintergrund Sprachkompetenz...20

Grundlagen der Testkonstruktion

Einführung in die sonderpädagogische Diagnostik

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

GÜTEKRITERIEN SPEZIFISCH p. 1

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Theorien der Persönlichkeit

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Testtheoretische Kritik mündlicher und schriftliche Prüfungen (29.5)

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Testtheorie und Testkonstruktion

3.2 Grundlagen der Testtheorie Einleitung

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

Messung Emotionaler Intelligenz. Prof. Dr. Astrid Schütz - Universität Bamberg

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

IBS-KJ Interviews zu Belastungsstörungen bei Kindern und Jugendlichen

Neue Formen der Leistungsmessung und Leistungsbeurteilung

Studienseminar Koblenz. Diagnostische Expertise - Leistungsmessung

SF-36 Fragebogen zum Gesundheitszustand. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Julia Plato Datum:

Diagnostik und Förderung des Leseverständnisses mit ELFE 1-6 und ELFE T. November 2010 Dr. Alexandra Lenhard 1 PSYCHOLOGISCHEN

Empirisches Relativ: Eine Menge von Objekten, über die eine Relation definiert wurde.

5 Motorische Fähigkeiten Diagnostik Sportmotorische Tests

Insbesondere Selektionsdiagnostik/Eignungsdiagnostik gerät immer wieder gesellschaftspolitisch in Verruf Modifikationsdiagnostik gewinnt an Bedeutung:

GRUNDLAGEN DER TESTTHEORIE

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Testtheorie und Testkonstruktion. Wintersemester 2006/ 2007 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Messung, Skalen, Indices

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Screening für Somatoforme Störungen. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum:

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

PST. Personality Subconscious Test H A N D B U C H

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Psychologisches Testen. informationen FÜR eltern UND lehrkräfte

Einführung in die Theorie psychologischer Tests

WORKSHOP METHODEN ZUR TEST- UND FRAGEBOGENKONSTRUKTION UND VERFAHREN DER DATENAUSWERTUNG. Prof. Dr. Nadine Spörer

Testen und Entscheiden Referentin: Christiane Beck Datum: Dozentin: Susanne Jäger. Hochschule Magdeburg-Stendal (FH)

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Pädagogische Tagung. Differenzierung und Leistungsorientierung im Unterricht

4.1 Grundlagen der psychologischen Diagnostik. Wintersemester 2008/ 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Drum prüfe, wer sich zeitlich bindet und lohnt sich die Investition in ein Einzel-Assessment auch in Zukunft?

Markt- und Werbepsychologie. Band 1 Grundlagen

Bildungsurlaub-Seminare: Lerninhalte und Programm

Gütekriterien für evaluative Messinstrumente in der Rehabilitation

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Psychologische Tests

Grundlagen der psychologischen Testtheorie

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Sorbet. Testverfahren. Testverfahren. 1. Sinnvoll? 2. Objektiv? 3. Realistisch? 4. Bereich? 5. Entwicklung? 6. Testverfahren?

Trierer Alkoholismusinventar

Inventar zur Erfassung interpersonaler Probleme (IIP-D)

Sozialkapital Messen, Erkennen, Nutzen

Prinzipien der Fahreignungsdiagnostik Wie sind Tests und Testergebnisse zu beurteilen?

Das Minimale Dokumentationssystem (MIDOS²) als deutsche Version der Edmonton Symptom Assessment Scale (ESAS): - Ein Instrument für die Pflege?

Übung Methodenlehre I, SeKo

6. Zusammenfassende Diskussion

TRIERER INVENTAR ZUM CHRONISCHEN STRESS

Lehrbuch Psychologische Diagnostik

Operationalisierung (1)

Seminar: Test- und Fragebogenverfahren (HBM 5) - Testtheoretische Grundlagen -

Auszubildend einstellen ohne Noten? Geht das? Ein neuer Weg der Rekrutierung

Gütekriterien. Gütekriterien. Gütekriterien. Reliabilität Validität. Spezifität. Sensitivität. Praktikabilität.

Stundenprotokoll vom , Ulf Baak In: Schülerleistungen beurteilen und bewerten

FH Magdeburg-Stendal, Studiengang Rehabilitationspsychologie Seminar Testen und Entscheiden Dozentin Susanne Jäger Referentin Angela Franke, 1. Sem.

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Transkript:

Welche Gütekriterien sind bei der Bewertung von Lernleistungen wichtig? Anne Spensberger; Ramona Dutschke; überarbeitet von Susanne Narciss Eine gerechte Bewertung von Lernleistungen setzt voraus, dass beim Erfassen, Messen und Bewerten der Lernleistungen psychologische Erkenntnisse zu den testtheoretischen Gütekriterien berücksichtigt werden. Nach Lienert und Raatz (1984) unterscheidet man hierbei die folgenden Hauptund Nebengütekriterien: Hauptgütekriterien Objektivität Reliabilität Validität Nebengütekriterien Ökonomie Nützlichkeit Normierung Vergleichbarkeit (Vgl. Raatz, L., S.11). Die drei Hauptgütekriterien stehen in einem engen Zusammenhang. Die Objektivität ist eine notwendige Voraussetzung für die Reliabilität diese eine notwendige Voraussetzung für die Validität einer Bewertung. Mit anderen Worten: Ist ein Verfahren nicht objektiv, kann es auch nicht reliabel oder valide sein. Objektivität und Reliabilität sind also notwendige, aber nicht hinreichende Voraussetzungen für die Validität einer Bewertung.

Vali- dität Reliabilität Objektivität Objektivität Was ist gerecht? Rudolf WILKE 1907 im "Simplizissimus" Die Objektivität ist ein Hauptgütekriterium für die Messung der Qualität eines Testes.

Ein Test ist dann objektiv, wenn die Testergebnisse unabhängig sind von der Person oder den Personen, die den Test durchführen, auswerten und interpretieren. Um Objektivität zu erreichen muss man bei der Durchführung von (Leistungs-)Tests, der Auswertung und der Interpretation der Testergebnisse möglichst standardisiert, d.h. nach vorher fest gelegten und begründeten Standards vorgehen. Man kann demnach drei Arbeitsebenen für das Erreichen objektiver Ergebnisse unterscheiden: Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität Alle Lernenden bearbeiten dieselben Testaufgaben unter gleichen Bedingungen Die bearbeiteten Aufgaben werden nach denselben, vorher festgelegten und begründeten Kriterien ausgewertet. Die Zuordnung der bei der Auswertung festgestellten Leistungen (z.b. richtige Lösungen, Anzahl von Fehlern, Punkte) zu Leistungswerten (z.b. Noten) erfolgt nach vorher eindeutig festgelegten Klassifizierungsregeln. Bei der Bewertung von Lernleistungen im Unterricht wird auf vielfältige Weise gegen diese Objektivitäts-Prinzipien verstoßen. Dies liegt unter anderem daran, dass es weder eindeutige Auswertungsrichtlinien, noch eindeutige Regeln oder Vorschriften für Zuordnungen von Leistungen zu Noten gibt. Ein besonderes Problem ist die Neigung vieler Pädagogen, die Messung der Schülerleistungen nicht konsequent genug von deren Wertung und auch Interpretation zu trennen. Reliabilität oder Zuverlässigkeit "Heute hatte ich einen wundervollen Traum: Ich gab Cicero eine Fünf in Latein."

Rudolf WILKE 1907 im "Simplizissimus" Ein Test ist dann reliabel, wenn er zuverlässig und genau misst. Eine reliable Messung von Lernleistungen muss, wenn sie unter denselben Bedingungen, an denselben Aufgaben und mit denselben Personen durchgeführt wird, zu möglichst identischen Ergebnissen kommen. Beim testtheoretischen Konzept der Reliabilität wird davon ausgegangen, dass bei jeder Messung auch gewisse Messfehler auftreten. Messwerte enthalten daher aus der Sicht der klassischen Testtheorie immer einen wahren Varianz-Anteil und einen Fehlervarianz-Anteil. Der Quotient zwischen der wahren Varianz und der beobachteten Varianz (= wahre Varianz + Messfehler-Varianz) wird als Reliabilitätskoeffizient bezeichnet. Um die Reliabilität eines Tests zu untersuchen werden im Rahmen der klassischen Test-Theorie die folgenden Methoden angewandt (vgl. Rost, 1996): Paralleltest-Methode Retest-Methode Halbtest-Methode Cronbachs Methode der internen Konsistenz-Bestimmung

Paralleltestmethode Paralleltestreliabilität Retest-Methode Retest-Reliabilität Halbtest-Methode Halbierungsreliabilität Interne Konsistenz Die Testergebnisse eines Tests werden verglichen, d.h. korreliert mit den Ergebnissen eines parallel konstruierten Tests, von dem man annimmt, dass er dieselben Merkmale misst. Derselbe Test wird nach einem zeitlichen Abstand bei denselben Personen durchgeführt. Man korreliert die Testergebnisse der beiden Messzeitpunkte. Dieses Verfahren ist nur bei der Messung relativ stabiler Merkmale sinnvoll. Die Aufgaben eines Tests werden in zwei Gruppen aufgeteilt (z.b. alle Aufgaben mit geraden Nummern ergeben Testhälfte A, alle Aufgaben mit ungeraden Nummern Testhälfte B). Man korreliert die Testergebnisse der beiden Testhälften. Dieses Verfahren ist dann sinnvoll, wenn die Aufgaben dasselbe Merkmal messen. Jede Aufgabenantwort eines Tests wird als Messwert betrachtet. Man korreliert alle Messwerte miteinander. Dieses Verfahren ist dann sinnvoll, wenn die Aufgaben dasselbe Merkmal messen. Validität Das Anlegen von Maßstäben. Die Validität oder Gültigkeit ist das dritte Hauptkriterium.

Ein Test ist dann valide, wenn er das misst, was er zu messen vorgibt. Man unterscheidet die folgenden Arten der Validität: Inhalts- oder Kriteriumsvalidität Übereinstimmungsvalidität, Vorhersagevalidität Konstruktvalidität. Inhaltsvalidität Kriteriumsvalidität Übereinstimmungsvalidität Externe Validität Vorhersagevalidität Konstruktvalidität Das Testergebnis erlaubt Schlussfolgerungen darüber, wie gut vorher festgelegte, inhaltlich begründete Kriterien erfüllt sind. Das Testergebnis stimmt mit einem Außenkriterium überein, z.b. mit dem Ergebnis eines anderen Tests, von dem man annimmt, dass er dasselbe Merkmal misst. Das Testergebnis lässt Vorhersagen auf künftige Ereignisse zu. Das Testergebnis stimmt mit den theoretischen Vorhersagen zu dem zu messenden Konstrukt überein. Bei der Bewertung von Lernleistungen in der Schule geht es vor allem darum, die kriteriumsorientierte Validität oder Inhaltsvalidität anzustreben (vgl. Klauer, 1987). Die Nebengütekriterien Grundsätzlich gibt es für die Nebengütekriterien keinen zahlenmäßigen Kennwert. Unter der Normierung eines Testes versteht man, dass über einen Test Angaben vorliegen sollen, die als Bezugssystem für die Einordnung des individuellen Testergebnisses dienen können (Raatz, L., S. 11).

Ein Test, der zwar die Hauptgütekriterien erfüllt, jedoch nicht normiert ist, besitzt keine oder nur eine sehr geringe Brauchbarkeit. Vergleichbar ist ein Test, wenn ein oder mehrere Paralleltestformen vorhanden sind und wenn validitätsähnliche Tests verfügbar sind. Ersteres ermöglicht sozusagen einen Vergleich des Testes mit sich selbst. Zweiteres prüft dasselbe oder ein nahe verwandtes Persönlichkeitsmerkmal. Die Ökonomie eines Testes ergibt sich aus folgenden Punkten: Er ist ökonomisch, wenn er eine kurze Durchführungszeit beansprucht wenig Material verbraucht einfach zu handhaben ist als Gruppentest durchführbar ist schnell und bequem auszuwerten ist. Sehr ökonomisch ist ein Test also, wenn er alle oder die wichtigsten dieser Punkte erfüllt. Nützlich ist ein Test, wenn er eine Verhaltensweise oder ein Persönlichkeitsmerkmal misst oder vorhersagt, für dessen Untersuchung ein praktisches Bedürfnis besteht. Eine hohe Nützlichkeit entsteht, wenn ein Test in seiner Funktion durch keinen anderen Test vertreten werden kann. Literatur: Ingenkamp, K.(1959). Die Fragwürdigkeit der Zensurengebung. Texte und Untersuchungsberichte. München: PsychologieVerlagsUnion. Lienert, Gustav A. (1989). Testaufbau und Testanalyse. München: Psychologie- VerlagsUnion. Lienert R. (1994). Testaufbau und Testanalyse. Beltz Psychologie Verlags Union.

Roth, E. (Hrsg)(1993). Sozialwissenschaftliche Methoden. Oldenbourg Verlag München. Knörzer, W./ Grass, K. (1994): Den Anfang der Schulzeit pädagogisch gestalten. Ein Studien- und Arbeitsbuch für den Anfangsunterricht. Beltz Verlag. http://www.stangl-taller.at/testexperiment/testguetekriterien.html http://www.schule.suedtirol.it/blikk/angebote/reformpaedagogik/rp55075.htm http://bebis.cidsnet.de/weiterbildung/sps/allgemein/bausteine/beurteilung/objek tiv.htm http://www.phil.unisb.de/~jakobs/paedpsych/noten/guetekriterien_von_noten.html