Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc.
Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige Befragungen in verschiedenen inhaltlichen Bereichen, bestenfalls orientiert an testtheoretischen Konzepten und mit eigenen Gütekriterien
Merkmale Das Verhalten kann mit Merkmalen erklärt werden diese werden mit Tests erfasst. qualitativ (kategorial) vs. quantitativ (abgestuft) unidimensional vs. multidimensional zeitlich stabil (traits) vs. zeitlich veränderbar (staits)
Testarten Leistungstests kognitive Leistungsfähigkeit nur faking nach unten möglich Antworten sind richtig oder falsch Speedtests: einfache Aufgaben, Zeit gegrenzt, Bewertung der Anzahl der gelösten Aufgaben Leistungstests: schwieriger werdende Aufgaben, Bewertung der schwersten noch gelösten Aufgaben auch Mischformen möglich
Testarten Persönlichkeitstests typisches Verhalten in Abhängigkeit eines Merkmals, keine Leistung sondern Selbstauskunft faking bad und faking good kein richtig oder falsch
Persönlichkeitstests Objektive Tests siehe später: Objektivität + Unverfälschbarkeit Eigenschaften werden aus dem Verhalten in einer Situation bewertet
Persönlichkeitstests Projektive Verfahren Persönlichkeits-Entfaltungsverfahren qualitiative Erfassung der Gesamtpersönlichkeit, kaum Erfüllung von Gütekriterien
Persönlichkeitstests Apparative Tests sensorische und motorische und kognitive Verfahren (oft computerbasiert adaptives testen)
Geltungsbereich und Zielgruppe Geltungsbereich: Anwendungsmöglichkeiten auf Inhaltsvalidität und Kriteriumsvalidität achten kurzum: Warum gerade dieser Test? oder: Welcher Test ist am Besten für diese Situation geeignet? enge Geltungsbereiche? je enger, desto eher ist ein unidimensionaler Test geeignet, allerdings ist ein Anforderungsprofil oft sehr umfassend
Geltungsbereich und Zielgruppe Zielgruppe: Personenkreis, für die mit dem Test Aussagen getroffen werden sollen mehr Anforderungen an Tests für breite Zielgruppen (breiterer Schwierigkeitsgrad, inhaltlich breitere Fächerung, ) Analysestichprobe: an welcher Stichprobe soll der Test später angewendet werden Eichstichprobe: Gewinnung der Normtabellen
Testlänge und Testzeit Testlänge: Itemanzahl Abhängig von dem Geltungsbereich (einfache Konstrukte lassen sich auch mit wenigen Items erfassen) PSI Process Scales mehr Items: bessere Messgenauigkeit, aber: Absinken der Konzentration und Motivation Testzeit: Bearbeitungsdauer Zielgruppe bedenken (Grundschüler, Senioren, ) Screeningverfahren vs. differenzierte Verfahren
Qualitätsanforderungen Objektivität Reliabilität Validität Skalierung Normierung Testökonomie Nützlichkeit Zumutbarkeit Unverfälschbarkeit Fairness
Objektivität Objektivität Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität
Objektivität Durchführungsobjektivität Das Testergebnis hängt nicht vom Testleiter ab, der den Versuch durchführt Tests sollten standardisiert sein genaue Durchführungsanweisungen geben!
Objektivität Auswertungsobjektivität Bei vorliegendem Testprotokoll hängt das Ergebnis nicht vom Auswerter ab Übereinstimmung zwischen Auswertern lässt sich berechnen
Objektivität Interpretationsobjektivität verschiedene Testanwender kommen bei Testpersonen mit denselben Testwert zu denselben Schlussfolgerungen Normtabellen anhand einer Eichstichprobe
Reliabilität Reliabilitätskoeffizient 0 <= Rel. <= 1 reine Messfehler bis hin zu keinen Messfehlern Formale Definition: Reliabilität ist der Anteil der wahren Varianz an der Gesamtvarianz der Testwerte (wahre Varianz: Merkmalsstreuung der wahren Testwerte)
Reliabilität
Reliabilität Retest-Reliabilität derselbe Test wird zu 2 Zeitpunkten derselben Stichpunkte vorgelegt (Annahme: Merkmal ist stabil) Achtung: Dauer zwischen den Testungen kann die Reliabilität beeinflussen Paralleltest-Reliabilität Korrelation aus 2 Tests mit Itemzwillingen Königsweg (Eliminierung von Übungs- und Erinnerungseffekten und Merkmalsveränderungen)
Reliabilität Testhalbierungs-Reliabilität 2 parallele Testhälften werden miteinander korreliert Korrekturrechnungen um die Reliabilität an einen doppelt so langen Test anzugleichen Innere Konsistenz Verallgemeinerung der Testhalbierung jedes Item als eigenständiger Testteil Korrelation zwischen den Items (Chronbachs Alpha Koeffizient) am häufigsten in der wissenschaftlichen Praxis zu sehen
Validität wichtigstes Gütekriterium! Objektivität und Reliabilität als Voraussetzungen hohe Reliabilität: Generalisierung der Testergebnisse auf latente Variablen und Verhalten außerhalb der Testsituation
Validität
Validität Inhaltsvalidität logische und fachliche Überlegung von Fachpersonal beschreibt ob das besagte Item aus dem Itempool stammen, der das Merkmal repräsentativ erfasst Augenscheinvalidität
Validität Konstruktvalidität Struktursuchende vs. Strukturprüfende Ansätze
Konstruktvalidität Struktursuchendes Vorgehen - Explorative Faktorenanalyse (Dimensionalität der Merkmalsstruktur) - Innerhalb einzelner Merkmale geben Faktorladungen und Trennschärfen Auskunft über die Homogenität der Items - erste deskriptive Einordnung in ein theoretische Gefüge nomologisches Netzwerk theoriekonforme Zusammenhänge zu anderen Tests
Konstruktvalidität Struktursuchendes Vorgehen Konvergente Validität: Übereinstimmung mit Ergebnissen aus Tests, die ähnliche, oder gleiche Merkmale erfassen Diskriminante/divergente Validität: Abgrenzen von anderen Merkmalen: Ergebnisse sollten eine geringe Korrelation zu Tests haben, die Konstrukte Messen, zu denen man sich abgrenzen will
Konstruktvalidität Strukturprüfendes Vorgehen Prüfung, ob latente Variablen (z.b. Intelligenz) durch manifeste Variablen (Testitems) erfasst werden - Konfirmatorische Faktorenanalyse - einzelne Dimensionen können mithilfe von IRT Modellen überprüft werden - Multitrait-Multimethod-Analysen
Validität Kriteriumsvalidität praktische Anwendbarkeit! Übereinstimmungsvalidität vs. Vorhersagevalidität z.b. Berufserfolg
Skalierung Leistungsstärkere Probanden müssen besser abschneiden als leistungsschwache! adäquates Skalenniveau!
Normierung/Eichung Vergleichswerte einer möglichst großen Stichprobe müssen zur Verfügung gestellt werden! Erstellen von Normtabellen und von Prozenträngen und Standardnormen (bei normalverteilten Eigenschaften) Normtabellen müssen einen Geltungsbereich angeben
Normierung/Eichung
Testökonomie Wirtschaftlichkeit! finanzieller Aufwand: Druck, Beschaffung, Hard-, Software zeitlicher Aufwand: Bearbeitung, Auswertung, Vorbereitung
Nützlichkeit
Zumutbarkeit betrifft nicht den Testleiter schwierig: ab wann unzumutbar? Wenn der Nutzen hoch ist, kann die Grenze versetzt werden
Unverfälschbarkeit Messprinzip sollte nicht leicht zu duschschauen sein hier ist eine hohe Augenscheinvalidität problematisch z.b. Effekt der sozialen Erwünschtheit vor allem bei Persönlichkeitstests relevant
Fairness vor allem in der Intelligenzdiagnostik diagnostiziert (vgl. Rindermann) Culture-Fair-Tests : hohe sprachliche Kompetenz ist zur Bearbeitung und Lösung nicht von Nöten Durchführungsfairness: z.b.: Computer bei Senioren jeder Test wird individuell beurteilt (keine allgemeine Regel)
Testtheorie vs.
Klassische Testtheorie theoretische Basis psychodiagnostischer Tests auch: Messfehlertheorie 1. Existenzaxiom 2. Verknüpfungsaxiom. Unabhängigkeitsaxiom 4. Zusatzannahmen
Klassische Testtheorie Existenzaxiom Es existiert ein wahrer Wert (true score) als Erwartungswert der Messung x eines Probanden v in Item i Verknüpfungsaxiom Die Messung besteht aus einem wahren Wert und einem Messfehler (Messfehler hat Erwartungswert 0)
Klassische Testtheorie Unabhängigkeitsaxiom Die Korrelation zwischen Messfehler und wahrem Wert bei beliebigen Personen und Items ist 0. Zusatzannahmen
Klassische Testtheorie Bestimmung des wahren Wertes mehrere Items: langfristigen Neutralisierens des Zufallsfehlers Testwert/ Rohwert Schätzung des wahren Wertes (Axiom 2)
Klassische Testtheorie Gütekriterium der Reliabilität = zentrales Gütekriterium wie Messgenau ist der Fragebogen/Test? Reliabilitätskoeffizient des Tests zwischen 0 und 1
Klassische Testtheorie Reliabilität
Klassische Testtheorie Grenzen und Schwächen
Klassische Testtheorie Grenzen und Schwächen
Item-Response Theorie Ergänzung zur KTT wichtig: latente vs. manifeste Variablen! Itemhomogenität: manifeste Variable wird nur von Ausprägung der zu messenden latenten Variable systematisch beeinlusst
Item-Response Theorie IRT Modelle Latent-Class-Modelle: Annahme qualitativ kategorialer latenter Klassen zur Charakterisierung von Personenunterschieden Latent-Trait-Modelle: quantitative kontinuierliche latente Variablen am gebrächlichsten
Item-Response Theorie Grundlegende Ergänzung zur KTT: IC-Funktionen Deterministische Funktion: Antwortverhalten komplett von Item- und Personenparameter bestimmt
Item-Response Theorie Grundlegende Ergänzung zur KTT: IC-Funktionen Probabilistische Funktion: stochastische Beziehung zwischen dem Antwortverhalten und der Personen- Itemparameter
Item-Response Theorie Modelle Rasch Modell Birnbaum Modell
Maik Beege M.Sc. Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät