Gütekriterien von Messungen

Gütekriterien Messungen 1. Hauptgütekriterien 2. Nebengütekriterien Ökonomie Unter einer Messung (Prüfung) versteht man den Grad, in dem die Ergebnisse einer Messung (Prüfung) unab-hängig den Untersuchern (Prüfern) ist. Objektiv wäre demnach beispielsweise eine Prüfung, wenn verschiedene Prüfer/innen bei demselben Kandidaten/derselben Kandidatin zum gleichen Ergebnis kommen würden. (Zuverlässigkeit) Utilität (Nützlichkeit) und Zumutbarkeit (Gültigkeit) Vergleichbarkeit Akzeptanz Interpretationsobjektivität Auswertungsobjektivität Durchführungsobjektivität Durchführungsobjektivität ist hoch, wenn sich der Untersucher jedem Probanden gegenüber gleich verhält dies ist der Fall, wenn der Untersucher genau instruiert wird (z.b. über Reaktionen auf mögliche Rückfragen, Hilfestellungen etc.) und wenn die situativen Randbedingungen (z.b. Gleichheit des Materials, der Uhrzeit etc.) konstant gehalten werden Auswertungsobjektivität ist gegeben, wenn die Transformation der Daten in Testwerte unabhängig der Person des Versuchsleiters ist Bsp. computergestützte Auswertung, Multiple Choice etc. Besonders gering ist die Auswertungsobjektivität bei projektiven Tests Impuls: Testaufgaben zur Diagnose Kreativität: aus Zimbardo & Gerrig, 1998 1

Interpretationsobjektivität Interpretationsobjektivität ist gegeben, wenn das Testergebnis einer Person mehreren Beurteilern gleich interpretiert wird oder wenn ein Beurteiler gleiche Testergebnisse verschiedener Probanden gleich interpretiert wichtig bei Gutachten und Empfehlungen Unter Reliablität (Zuverlässigkeit) einer Messung (Prüfung) versteht man den Grad der Genauigkeit einer Messung. Messungen sind dann reliabel, wenn die Werte unabhängig vom Zeitpunkt der Messung sind. Reliabel wäre beispielsweise eine Prüfung, wenn man bei demselben Kandidaten/ derselben Kandidatin zu unterschiedlichen Zeitpunkten immer zum gleichen Ergebnis kommen würde. Arten der Testwiederholung (Retest-) Zeitliche Stabilität eines Merkmals Split-half- Gleichwertigkeit zwei Paralelltests Konsistenzanalyse Paralleltestreliabilität Gleichwertigkeit zwei Testhälften Wiederholungsreliabilität Homogenität Testitems Durchführung des Tests zu zwei Messzeitpunkten Wichtig: Verwendung der selben Stichprobe Übereinstimmung der erhaltenen Testwerte = Problem: bei kurzen Zeitabständen beeinflussen Erinnerungs- und Übungseffekte das Ergebnis Testhalbierungsmethode (Split-Half-) Paralleltestmethode einer Stichprobe werden zwei parallele Tests vorgelegt Korrelation der Testergebnisse ergibt die Paralleltest- Problem: Konstruktion Paralleltests schwierig; Übungseffekte auch hier möglich Möglichkeit, die so genannte Innere Konsistenz eines Tests zu messen Ausmaß, mit der die einzelnen Items dasselbe messen eine Stichprobe beantwortet alle Testaufgaben eines Tests der Test wird in zwei gleichwertige Hälften geteilt und beide Teilergebnisse miteinander korreliert der Split-Half-Konsistenzkoeffizient muss rechnerisch aufgewertet werden, da die Testlänge Einfluss auf die hat 2

Unter (Gültigkeit) einer Messung (Prüfung) versteht man das Ausmaß, mit dem ein Messinstrument tatsächlich das misst, was es messen soll. Messungen sind dann valide, wenn sie das zu messende Merkmal repräsentieren. Valide ist ein Intelligenztest, wenn er tatsächlich die Intelligenz misst. Empirische Inhaltliche ist gegeben, wenn ein Test das zu erfassende Persönlichkeitsmerkmal repräsentiert basiert i.d.r. auf einem Experten Bsp.: ein Mathematiktest ist valide, wenn er Aufgaben enthält, die inhaltlich eine Auswahl aus dem Unterrichtsstoff darstellen Bsp.: Testreihe für 10-Jährige (Lukesch, 1998; S. 235) Problem: Auswahl geeigneter Experten (vor allem bei neuartigen oder sehr speziellen Fragestellungen) Konstruktvalidität ein Test verfügt über Konstruktvalidität, wenn er ein bestimmtes theoretisches Konstrukt (z.b. Angst) zu erfassen vermag basiert auf theoretischen Überlegungen mittels empirischer Untersuchungen wird überprüft, ob Personen in der erwarteten Weise auf die Items antworten Bsp.: Vergleich Ängstlichen und Nichtängstlichen Test 1 numerisch Test 2 IQ Merkfähigkeit numerisch numerisch Inhaltsvalidität Konstruktvalidität Verarbeitungskapazität Bearbeitungsgeschwindigkeit Verarbeitungskapazität Bearbeitungsgeschwindigkeit Merkfähigkeit IQ Empirische (Kriteriumsvalidität) die Testergebnisse einer Probandenstichprobe werden mit relevanten Außenkriterien korreliert Außenkriterien: andere Tests, Beobachtungen etc. Konvergente : Korrelation mit ähnlichen Außenkriterien Diskriminante : Korrelation mit Außenkriterien, denen eine Abgrenzung nötig ist Problem: Finden eines geeigneten Außenkriteriums (Bsp. Intelligenztest) Innere vs. äußere (anderer Test vs. anderer Verhaltensaspekt) Gleichzeitigkeits- vs. Vorhersagevalidität Vorhersagevalidität ist gegeben, wenn ein Test Art und oder Ausmaß zukünftigen Verhaltens vorhersagen kann nur im Längsschnitt prüfbar 1. Messzeitpunkt 2. Messzeitpunkt Intelligenztest für Kinder Zeit Schulerfolg 3

Einige empirische Belege Aufsatz : Verschiedene Beurteiler neigen dazu, dem gleichen Ausatz unterschiedliche Zensuren zu geben der einzelne Beurteiler neigt dazu, für den gleichen Aufsatz zu verschiedenen Zeiten unterschiedliche Zensuren zu geben Die Differenzen zeigen die Tendenz, größer zu werden je mehr das Thema Freiheit in der Bearbeitung erlaubt. Unterschiedliche Vorinformation-> unterschiedliche Bewertung Längere Aufsätze werden durchschnittlich besser bewertet Grammatikalische und orthographische Fehler beeinflussen die Beurteilung Schlechte Handschrift wirkt sich negativ aus Die Beliebtheit der Schüler wirkte sich aus Das Geschlecht der Beurteiler und der Beurteilten hat Einfluss Einige empirische Belege Mathematikarbeiten 0.01< r xy < 0.29 sehr niedrig Mathematikzensuren sind 0.30< entgegen r xy < 0.40 der üblichen mässig Meinung genauso wenig verlässlich 0.41< wie jene r xy < für 0.60 Sprache mittel stark und Geschichte Lehrer benutzen unterschiedliche 0.61< r xy = 1 Beurteilungskriterien stark Prognostische Wert Klassenarbeit gering Bsp.: Aufnahmeprüfung für das Gymnasium Eine mittlere Vorhersagegültigkeit nach einem Jahr Diktat: r=0.20 Aufsatz: r=0.16 Mathematikarbeit: r=0.17 Beurteilungsmethoden Beurteilungsmethoden Globalbeurteilung: Hierbei obliegt es dem Beurteiler, auf der Grundlage seiner Kriterien eine Gesamtbeurteilung durchzuführen. Verwendung eines vorbewerteten Korpus Vergleichsaufsätzen als Maßstab: In diesem Fall werden Musteraufsätze vorgegeben, die bereits vorbewertet sind. Der Prüfer kann somit entnehmen, welche Leistung einer Note sehr gut, gut etc. entspricht. Mehrfachbeurteilung durch unabhängig einander arbeitenden Beurteiler mit dem Ziel, den Einfluss einzelner Fehlurteile zu minimieren. Analytische Aufsatzbeurteilung, bei der die Beurteilung in unterschiedlichen Bewertungsdimensionen erfolgt. Auszählen objektiv feststellbarer Mikroelemente des Aufsatzes ( atomistische Aufsatzbeurteilung ). Verbesserungen Teamauswertung Einbeziehen Vergleichsarbeiten Kontrollmethoden Lernzielbezogene Verfahren Kriterienkatalog 4

Problemstellung Die Arbeit beginnt mit dem Kapitel Problemstellung, in dem verdeutlicht wird, warum sich der Leser mit dem Thema beschäftigen sollte (Relevanz im Gesamt-kontext); welche Fragen/ Probleme sich mit dem Thema verbinden; welche dieser Fragen/Probleme in der Arbeit berücksichtigt bzw. vernachlässigt werden und warum. Gesichtspunkte, die im Rahmen der Hausarbeit nicht behandelt werden sollen oder können, die aber als (prinzipiell) relevant für die Fragestellung erachtet werden, sind hier anzusprechen (ggf. mit Verweis auf einschlägige Literaturquellen); in welcher Reihenfolge die als relevant erachteten Inhalte dargestellt werden (mit Begründung und mit entsprechenden Verweisen auf die einzelnen Kapitel). Die Problemstellung soll also einen Problemaufriss sowie eine Darstellung und Begründung der Vorgehensweise enthalten. Arten mündlicher Prüfungen Vortrag: Innerhalb dieser Form einer mündlichen Argumentation hat der Prüfling die Aufgabe, ein Thema in freier Weise zu entwickeln. Abhören: Diese Form der mündlichen Prüfung hat in den meisten Fällen die Funktion der Überprüfung, ob eine aufgetragene Tätigkeit ausgeführt wurdeund in welchem Maße der Inhalt der Tätigkeit beherrscht wird. Arbeitsprobe: Diese Form verlangt einem Prüfling die Erbringung eines Werkstücks. Ein Werkstück kann im weitesten Sinne auch als ein nicht-materielles Stück verstanden werden. Gruppenprüfung: Hier werden mehrere Prüflinge in einer Gruppe geprüft, wobei die Beurteilung sowohl in Bezug auf die Individual- als auch auf die Gruppenleistung bezogen sein kann. Arten mündlicher Prüfungen Disputation: Eine Disputation ist ein Streitgespräch. Es findet heute noch innerhalb einer Doktorprüfung statt. Dabei hat der Prüfling die Aufgabe, vor einer (Fach-) Öffentlichkeit wissenschaftlich argumentierend Fragen zu beantworten und Lösungen zu erwägen, die unter wissenschaftlichen Bedingungen auf ihre Korrektheit überprüft werden können. Rigorosum: Diese Art der Prüfung gilt als sehr strenge mündliche Doktorprüfung, bei welcher der Doktorand mehreren Professoren gegenübersitzt. 5