Grundlagen der Testkonstruktion

Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc.

Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige Befragungen in verschiedenen inhaltlichen Bereichen, bestenfalls orientiert an testtheoretischen Konzepten und mit eigenen Gütekriterien

Merkmale Das Verhalten kann mit Merkmalen erklärt werden diese werden mit Tests erfasst. qualitativ (kategorial) vs. quantitativ (abgestuft) unidimensional vs. multidimensional zeitlich stabil (traits) vs. zeitlich veränderbar (staits)

Testarten Leistungstests kognitive Leistungsfähigkeit nur faking nach unten möglich Antworten sind richtig oder falsch Speedtests: einfache Aufgaben, Zeit gegrenzt, Bewertung der Anzahl der gelösten Aufgaben Leistungstests: schwieriger werdende Aufgaben, Bewertung der schwersten noch gelösten Aufgaben auch Mischformen möglich

Testarten Persönlichkeitstests typisches Verhalten in Abhängigkeit eines Merkmals, keine Leistung sondern Selbstauskunft faking bad und faking good kein richtig oder falsch

Persönlichkeitstests Objektive Tests siehe später: Objektivität + Unverfälschbarkeit Eigenschaften werden aus dem Verhalten in einer Situation bewertet

Persönlichkeitstests Projektive Verfahren Persönlichkeits-Entfaltungsverfahren qualitiative Erfassung der Gesamtpersönlichkeit, kaum Erfüllung von Gütekriterien

Persönlichkeitstests Apparative Tests sensorische und motorische und kognitive Verfahren (oft computerbasiert adaptives testen)

Geltungsbereich und Zielgruppe Geltungsbereich: Anwendungsmöglichkeiten auf Inhaltsvalidität und Kriteriumsvalidität achten kurzum: Warum gerade dieser Test? oder: Welcher Test ist am Besten für diese Situation geeignet? enge Geltungsbereiche? je enger, desto eher ist ein unidimensionaler Test geeignet, allerdings ist ein Anforderungsprofil oft sehr umfassend

Geltungsbereich und Zielgruppe Zielgruppe: Personenkreis, für die mit dem Test Aussagen getroffen werden sollen mehr Anforderungen an Tests für breite Zielgruppen (breiterer Schwierigkeitsgrad, inhaltlich breitere Fächerung, ) Analysestichprobe: an welcher Stichprobe soll der Test später angewendet werden Eichstichprobe: Gewinnung der Normtabellen

Testlänge und Testzeit Testlänge: Itemanzahl Abhängig von dem Geltungsbereich (einfache Konstrukte lassen sich auch mit wenigen Items erfassen) PSI Process Scales mehr Items: bessere Messgenauigkeit, aber: Absinken der Konzentration und Motivation Testzeit: Bearbeitungsdauer Zielgruppe bedenken (Grundschüler, Senioren, ) Screeningverfahren vs. differenzierte Verfahren

Qualitätsanforderungen Objektivität Reliabilität Validität Skalierung Normierung Testökonomie Nützlichkeit Zumutbarkeit Unverfälschbarkeit Fairness

Objektivität Objektivität Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität

Objektivität Durchführungsobjektivität Das Testergebnis hängt nicht vom Testleiter ab, der den Versuch durchführt Tests sollten standardisiert sein genaue Durchführungsanweisungen geben!

Objektivität Auswertungsobjektivität Bei vorliegendem Testprotokoll hängt das Ergebnis nicht vom Auswerter ab Übereinstimmung zwischen Auswertern lässt sich berechnen

Objektivität Interpretationsobjektivität verschiedene Testanwender kommen bei Testpersonen mit denselben Testwert zu denselben Schlussfolgerungen Normtabellen anhand einer Eichstichprobe

Reliabilität Reliabilitätskoeffizient 0 <= Rel. <= 1 reine Messfehler bis hin zu keinen Messfehlern Formale Definition: Reliabilität ist der Anteil der wahren Varianz an der Gesamtvarianz der Testwerte (wahre Varianz: Merkmalsstreuung der wahren Testwerte)

Reliabilität

Reliabilität Retest-Reliabilität derselbe Test wird zu 2 Zeitpunkten derselben Stichpunkte vorgelegt (Annahme: Merkmal ist stabil) Achtung: Dauer zwischen den Testungen kann die Reliabilität beeinflussen Paralleltest-Reliabilität Korrelation aus 2 Tests mit Itemzwillingen Königsweg (Eliminierung von Übungs- und Erinnerungseffekten und Merkmalsveränderungen)

Reliabilität Testhalbierungs-Reliabilität 2 parallele Testhälften werden miteinander korreliert Korrekturrechnungen um die Reliabilität an einen doppelt so langen Test anzugleichen Innere Konsistenz Verallgemeinerung der Testhalbierung jedes Item als eigenständiger Testteil Korrelation zwischen den Items (Chronbachs Alpha Koeffizient) am häufigsten in der wissenschaftlichen Praxis zu sehen

Validität wichtigstes Gütekriterium! Objektivität und Reliabilität als Voraussetzungen hohe Reliabilität: Generalisierung der Testergebnisse auf latente Variablen und Verhalten außerhalb der Testsituation

Validität

Validität Inhaltsvalidität logische und fachliche Überlegung von Fachpersonal beschreibt ob das besagte Item aus dem Itempool stammen, der das Merkmal repräsentativ erfasst Augenscheinvalidität

Validität Konstruktvalidität Struktursuchende vs. Strukturprüfende Ansätze

Konstruktvalidität Struktursuchendes Vorgehen - Explorative Faktorenanalyse (Dimensionalität der Merkmalsstruktur) - Innerhalb einzelner Merkmale geben Faktorladungen und Trennschärfen Auskunft über die Homogenität der Items - erste deskriptive Einordnung in ein theoretische Gefüge nomologisches Netzwerk theoriekonforme Zusammenhänge zu anderen Tests

Konstruktvalidität Struktursuchendes Vorgehen Konvergente Validität: Übereinstimmung mit Ergebnissen aus Tests, die ähnliche, oder gleiche Merkmale erfassen Diskriminante/divergente Validität: Abgrenzen von anderen Merkmalen: Ergebnisse sollten eine geringe Korrelation zu Tests haben, die Konstrukte Messen, zu denen man sich abgrenzen will

Konstruktvalidität Strukturprüfendes Vorgehen Prüfung, ob latente Variablen (z.b. Intelligenz) durch manifeste Variablen (Testitems) erfasst werden - Konfirmatorische Faktorenanalyse - einzelne Dimensionen können mithilfe von IRT Modellen überprüft werden - Multitrait-Multimethod-Analysen

Validität Kriteriumsvalidität praktische Anwendbarkeit! Übereinstimmungsvalidität vs. Vorhersagevalidität z.b. Berufserfolg

Skalierung Leistungsstärkere Probanden müssen besser abschneiden als leistungsschwache! adäquates Skalenniveau!

Normierung/Eichung Vergleichswerte einer möglichst großen Stichprobe müssen zur Verfügung gestellt werden! Erstellen von Normtabellen und von Prozenträngen und Standardnormen (bei normalverteilten Eigenschaften) Normtabellen müssen einen Geltungsbereich angeben

Normierung/Eichung

Testökonomie Wirtschaftlichkeit! finanzieller Aufwand: Druck, Beschaffung, Hard-, Software zeitlicher Aufwand: Bearbeitung, Auswertung, Vorbereitung

Nützlichkeit

Zumutbarkeit betrifft nicht den Testleiter schwierig: ab wann unzumutbar? Wenn der Nutzen hoch ist, kann die Grenze versetzt werden

Unverfälschbarkeit Messprinzip sollte nicht leicht zu duschschauen sein hier ist eine hohe Augenscheinvalidität problematisch z.b. Effekt der sozialen Erwünschtheit vor allem bei Persönlichkeitstests relevant

Fairness vor allem in der Intelligenzdiagnostik diagnostiziert (vgl. Rindermann) Culture-Fair-Tests : hohe sprachliche Kompetenz ist zur Bearbeitung und Lösung nicht von Nöten Durchführungsfairness: z.b.: Computer bei Senioren jeder Test wird individuell beurteilt (keine allgemeine Regel)

Testtheorie vs.

Klassische Testtheorie theoretische Basis psychodiagnostischer Tests auch: Messfehlertheorie 1. Existenzaxiom 2. Verknüpfungsaxiom. Unabhängigkeitsaxiom 4. Zusatzannahmen

Klassische Testtheorie Existenzaxiom Es existiert ein wahrer Wert (true score) als Erwartungswert der Messung x eines Probanden v in Item i Verknüpfungsaxiom Die Messung besteht aus einem wahren Wert und einem Messfehler (Messfehler hat Erwartungswert 0)

Klassische Testtheorie Unabhängigkeitsaxiom Die Korrelation zwischen Messfehler und wahrem Wert bei beliebigen Personen und Items ist 0. Zusatzannahmen

Klassische Testtheorie Bestimmung des wahren Wertes mehrere Items: langfristigen Neutralisierens des Zufallsfehlers Testwert/ Rohwert Schätzung des wahren Wertes (Axiom 2)

Klassische Testtheorie Gütekriterium der Reliabilität = zentrales Gütekriterium wie Messgenau ist der Fragebogen/Test? Reliabilitätskoeffizient des Tests zwischen 0 und 1

Klassische Testtheorie Reliabilität

Klassische Testtheorie Grenzen und Schwächen

Item-Response Theorie Ergänzung zur KTT wichtig: latente vs. manifeste Variablen! Itemhomogenität: manifeste Variable wird nur von Ausprägung der zu messenden latenten Variable systematisch beeinlusst

Item-Response Theorie IRT Modelle Latent-Class-Modelle: Annahme qualitativ kategorialer latenter Klassen zur Charakterisierung von Personenunterschieden Latent-Trait-Modelle: quantitative kontinuierliche latente Variablen am gebrächlichsten

Item-Response Theorie Grundlegende Ergänzung zur KTT: IC-Funktionen Deterministische Funktion: Antwortverhalten komplett von Item- und Personenparameter bestimmt

Item-Response Theorie Grundlegende Ergänzung zur KTT: IC-Funktionen Probabilistische Funktion: stochastische Beziehung zwischen dem Antwortverhalten und der Personen- Itemparameter

Item-Response Theorie Modelle Rasch Modell Birnbaum Modell

Maik Beege M.Sc. Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät