Grundlagen der Testkonstruktion

Ähnliche Dokumente
Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Einführung in die Theorie psychologischer Tests

Grundlagen sportwissenschaftlicher Forschung Test

Messtherorie Definitionen

Grundlagen der psychologischen Testtheorie

4.2 Grundlagen der Testtheorie

I-S-T 2000-R: INTELLIGENZ- STRUKTUR TEST 2000-R BITTE HANDBUCH ANSEHEN

Grundlagen der psychologischen Testtheorie. WS 2016 Dr. Michael Weber

Insbesondere Selektionsdiagnostik/Eignungsdiagnostik gerät immer wieder gesellschaftspolitisch in Verruf Modifikationsdiagnostik gewinnt an Bedeutung:

Was ist eine Testtheorie?

Gütekriterien: Validität (15.5.)

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Bildungsurlaub-Seminare: Lerninhalte und Programm

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Inhaltsverzeichnis Danksagung Einleitung Forschungshintergrund Sprachkompetenz...20

Psychologische Tests. Name

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Testtheorie und Testkonstruktion. Wintersemester 2006/ 2007 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

3.2 Grundlagen der Testtheorie Einleitung

Einführung in die Testkonstruktion

Studie. Die Testgütekriterien des profilingvalues Reports

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

Kritik standardisierter Testverfahren. am Beispiel des IST-70

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

6. Faktorenanalyse (FA) von Tests

Seminar: Test- und Fragebogenverfahren (HBM 5) - Testtheoretische Grundlagen -

Inhaltsverzeichnis Abkürzungsverzeichnis... 9 Einleitung und Aufbau der Arbeit... 11

IBS-KJ Interviews zu Belastungsstörungen bei Kindern und Jugendlichen

Psychologisches Testen. informationen FÜR eltern UND lehrkräfte

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Rekodierung invertierter Items

Einführung in die sonderpädagogische Diagnostik

Messungen in größerem Umfang Fragebögen und Tests Gute Tests, schlechte Tests Gütekriterien Testtheorie und Testkonstruktion Forschungsethik

III. Methoden der empirischen Kommunikations forschung. Hans-Bernd Brosius Friederike Koschel. Eine Einführung. 3. Auflage - CKIZ

GRUNDLAGEN DER TESTTHEORIE

SF-36 Fragebogen zum Gesundheitszustand. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Julia Plato Datum:

ruhr-universität bochum

Einführung in die Test- und Fragebogenkonstruktion

IMPULS-Test 2 Wissenschaftliche Basis. Mag. Leonard Schünemann

A3: Eignungstest für Studiengänge, vergleichbare Ausbildungen sowie gehobenen Dienst

0 Einführung: Was ist Statistik

Itemschwierigkeit, Trennschärfe.Part whole-korrektur, ICC, Streuung

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

I Überblicksartige Beschreibung. II Testgrundlage. III Testdurchführung. IV Testverwertung. V Erfahrungen BDI-II

FH Magdeburg-Stendal, Studiengang Rehabilitationspsychologie Seminar Testen und Entscheiden Dozentin Susanne Jäger Referentin Angela Franke, 1. Sem.

Testtheorie und Testkonstruktion

Messung Emotionaler Intelligenz. Prof. Dr. Astrid Schütz - Universität Bamberg

2 Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien)

Empirisches Relativ: Eine Menge von Objekten, über die eine Relation definiert wurde.

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Das Testbeurteilungssystem des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen (TBS-TK)

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

QUANTITATIVE VS QUALITATIVE STUDIEN

Messung, Skalen, Indices

(1) Was sind wichtige Kriterien von Diagnostik im Sinne zweckgebundenen Messens? (2) Warum sollte Diagnostik so systematisch wie möglich erfolgen?

grundsätzlich: der Fehler ist reiner Zufallsfehler, korreliert mit nichts - ist statistisch berechenbar

Teilbereich der medizinischen Reha Schmerz/ Diabetes Typ-I - Diagnostik

Fragebogen- und Testkonstruktion in der Online-Forschung

Evaluation von Fragebogen in der Medizin

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Pädagogisch-psychologische Diagnostik und Evaluation

GÜTEKRITERIEN SPEZIFISCH p. 1

Differenzierung und Systematik diagnostischer Testverfahren

Einführung in die Testtheorie und konstruktion Skript Lengenfelder WS 07/08

einzelne Items werden mit Zahlen verknüpft und nach festgelegten Regeln zu einem Score verrechnet

Trierer Alkoholismusinventar

2 Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien)

Inhalt. 2. Ein empirisches Beispiel als Hintergrund 2.1 Die Studie von Preckel & Freund (2006) 2.2 Rückblick

Lehrbuch Psychologische Diagnostik

4. Die Klassische Testtheorie (KTT)

Aufgaben und Ziele der Wissenschaften

Markt- und Werbepsychologie. Band 1 Grundlagen

DAS DEUTSCHSPRACHIGE STATE-TRAIT ANGST INVENTAR

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Eigene MC-Fragen Kap. 4 Faktorenanalyse, Aggregation, Normierung. 1. Welche Aussage zu den Prinzipien der Faktorenanalyse ist zutreffend?

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Der Barthel-Index zur Messung von Alltagskompetenzen bei Demenz

Untersuchungsarten im quantitativen Paradigma

1 Leistungstests im Personalmanagement

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

MATERIALIEN UND NORMWERTE FÜR DIE NEUROPSYCHOLOGISCHE DIAGNOSTIK MNND. Testhandbuch

Einführung in die Test- und Fragebogenkonstruktion

Norm- vs. Kriteriumsorientiertes Testen

Konstruktion eines Fragebogens zum Thema IT-Sicherheit

Grundintelligenztest CFT 20-R

Diagnostik und Förderung des Leseverständnisses mit ELFE 1-6 und ELFE T. November 2010 Dr. Alexandra Lenhard 1 PSYCHOLOGISCHEN

5. Zürcher Diagnostik-Kongress. Qualität und Innovation psychologischer Diagnostik. Innovation in der Diagnostik in Eignungsbeurteilung und Selektion

Inventar zur Erfassung interpersonaler Probleme (IIP-D)

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Language Awareness und bilingualer Unterricht

Welche psychometrischen Tests sollte der Arzt kennen und interpretieren können? Dipl.-Psych. Patricia Albert Schmerzzentrum

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Transkript:

Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc.

Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige Befragungen in verschiedenen inhaltlichen Bereichen, bestenfalls orientiert an testtheoretischen Konzepten und mit eigenen Gütekriterien

Merkmale Das Verhalten kann mit Merkmalen erklärt werden diese werden mit Tests erfasst. qualitativ (kategorial) vs. quantitativ (abgestuft) unidimensional vs. multidimensional zeitlich stabil (traits) vs. zeitlich veränderbar (staits)

Testarten Leistungstests kognitive Leistungsfähigkeit nur faking nach unten möglich Antworten sind richtig oder falsch Speedtests: einfache Aufgaben, Zeit gegrenzt, Bewertung der Anzahl der gelösten Aufgaben Leistungstests: schwieriger werdende Aufgaben, Bewertung der schwersten noch gelösten Aufgaben auch Mischformen möglich

Testarten Persönlichkeitstests typisches Verhalten in Abhängigkeit eines Merkmals, keine Leistung sondern Selbstauskunft faking bad und faking good kein richtig oder falsch

Persönlichkeitstests Objektive Tests siehe später: Objektivität + Unverfälschbarkeit Eigenschaften werden aus dem Verhalten in einer Situation bewertet

Persönlichkeitstests Projektive Verfahren Persönlichkeits-Entfaltungsverfahren qualitiative Erfassung der Gesamtpersönlichkeit, kaum Erfüllung von Gütekriterien

Persönlichkeitstests Apparative Tests sensorische und motorische und kognitive Verfahren (oft computerbasiert adaptives testen)

Geltungsbereich und Zielgruppe Geltungsbereich: Anwendungsmöglichkeiten auf Inhaltsvalidität und Kriteriumsvalidität achten kurzum: Warum gerade dieser Test? oder: Welcher Test ist am Besten für diese Situation geeignet? enge Geltungsbereiche? je enger, desto eher ist ein unidimensionaler Test geeignet, allerdings ist ein Anforderungsprofil oft sehr umfassend

Geltungsbereich und Zielgruppe Zielgruppe: Personenkreis, für die mit dem Test Aussagen getroffen werden sollen mehr Anforderungen an Tests für breite Zielgruppen (breiterer Schwierigkeitsgrad, inhaltlich breitere Fächerung, ) Analysestichprobe: an welcher Stichprobe soll der Test später angewendet werden Eichstichprobe: Gewinnung der Normtabellen

Testlänge und Testzeit Testlänge: Itemanzahl Abhängig von dem Geltungsbereich (einfache Konstrukte lassen sich auch mit wenigen Items erfassen) PSI Process Scales mehr Items: bessere Messgenauigkeit, aber: Absinken der Konzentration und Motivation Testzeit: Bearbeitungsdauer Zielgruppe bedenken (Grundschüler, Senioren, ) Screeningverfahren vs. differenzierte Verfahren

Qualitätsanforderungen Objektivität Reliabilität Validität Skalierung Normierung Testökonomie Nützlichkeit Zumutbarkeit Unverfälschbarkeit Fairness

Objektivität Objektivität Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität

Objektivität Durchführungsobjektivität Das Testergebnis hängt nicht vom Testleiter ab, der den Versuch durchführt Tests sollten standardisiert sein genaue Durchführungsanweisungen geben!

Objektivität Auswertungsobjektivität Bei vorliegendem Testprotokoll hängt das Ergebnis nicht vom Auswerter ab Übereinstimmung zwischen Auswertern lässt sich berechnen

Objektivität Interpretationsobjektivität verschiedene Testanwender kommen bei Testpersonen mit denselben Testwert zu denselben Schlussfolgerungen Normtabellen anhand einer Eichstichprobe

Reliabilität Reliabilitätskoeffizient 0 <= Rel. <= 1 reine Messfehler bis hin zu keinen Messfehlern Formale Definition: Reliabilität ist der Anteil der wahren Varianz an der Gesamtvarianz der Testwerte (wahre Varianz: Merkmalsstreuung der wahren Testwerte)

Reliabilität

Reliabilität Retest-Reliabilität derselbe Test wird zu 2 Zeitpunkten derselben Stichpunkte vorgelegt (Annahme: Merkmal ist stabil) Achtung: Dauer zwischen den Testungen kann die Reliabilität beeinflussen Paralleltest-Reliabilität Korrelation aus 2 Tests mit Itemzwillingen Königsweg (Eliminierung von Übungs- und Erinnerungseffekten und Merkmalsveränderungen)

Reliabilität Testhalbierungs-Reliabilität 2 parallele Testhälften werden miteinander korreliert Korrekturrechnungen um die Reliabilität an einen doppelt so langen Test anzugleichen Innere Konsistenz Verallgemeinerung der Testhalbierung jedes Item als eigenständiger Testteil Korrelation zwischen den Items (Chronbachs Alpha Koeffizient) am häufigsten in der wissenschaftlichen Praxis zu sehen

Validität wichtigstes Gütekriterium! Objektivität und Reliabilität als Voraussetzungen hohe Reliabilität: Generalisierung der Testergebnisse auf latente Variablen und Verhalten außerhalb der Testsituation

Validität

Validität Inhaltsvalidität logische und fachliche Überlegung von Fachpersonal beschreibt ob das besagte Item aus dem Itempool stammen, der das Merkmal repräsentativ erfasst Augenscheinvalidität

Validität Konstruktvalidität Struktursuchende vs. Strukturprüfende Ansätze

Konstruktvalidität Struktursuchendes Vorgehen - Explorative Faktorenanalyse (Dimensionalität der Merkmalsstruktur) - Innerhalb einzelner Merkmale geben Faktorladungen und Trennschärfen Auskunft über die Homogenität der Items - erste deskriptive Einordnung in ein theoretische Gefüge nomologisches Netzwerk theoriekonforme Zusammenhänge zu anderen Tests

Konstruktvalidität Struktursuchendes Vorgehen Konvergente Validität: Übereinstimmung mit Ergebnissen aus Tests, die ähnliche, oder gleiche Merkmale erfassen Diskriminante/divergente Validität: Abgrenzen von anderen Merkmalen: Ergebnisse sollten eine geringe Korrelation zu Tests haben, die Konstrukte Messen, zu denen man sich abgrenzen will

Konstruktvalidität Strukturprüfendes Vorgehen Prüfung, ob latente Variablen (z.b. Intelligenz) durch manifeste Variablen (Testitems) erfasst werden - Konfirmatorische Faktorenanalyse - einzelne Dimensionen können mithilfe von IRT Modellen überprüft werden - Multitrait-Multimethod-Analysen

Validität Kriteriumsvalidität praktische Anwendbarkeit! Übereinstimmungsvalidität vs. Vorhersagevalidität z.b. Berufserfolg

Skalierung Leistungsstärkere Probanden müssen besser abschneiden als leistungsschwache! adäquates Skalenniveau!

Normierung/Eichung Vergleichswerte einer möglichst großen Stichprobe müssen zur Verfügung gestellt werden! Erstellen von Normtabellen und von Prozenträngen und Standardnormen (bei normalverteilten Eigenschaften) Normtabellen müssen einen Geltungsbereich angeben

Normierung/Eichung

Testökonomie Wirtschaftlichkeit! finanzieller Aufwand: Druck, Beschaffung, Hard-, Software zeitlicher Aufwand: Bearbeitung, Auswertung, Vorbereitung

Nützlichkeit

Zumutbarkeit betrifft nicht den Testleiter schwierig: ab wann unzumutbar? Wenn der Nutzen hoch ist, kann die Grenze versetzt werden

Unverfälschbarkeit Messprinzip sollte nicht leicht zu duschschauen sein hier ist eine hohe Augenscheinvalidität problematisch z.b. Effekt der sozialen Erwünschtheit vor allem bei Persönlichkeitstests relevant

Fairness vor allem in der Intelligenzdiagnostik diagnostiziert (vgl. Rindermann) Culture-Fair-Tests : hohe sprachliche Kompetenz ist zur Bearbeitung und Lösung nicht von Nöten Durchführungsfairness: z.b.: Computer bei Senioren jeder Test wird individuell beurteilt (keine allgemeine Regel)

Testtheorie vs.

Klassische Testtheorie theoretische Basis psychodiagnostischer Tests auch: Messfehlertheorie 1. Existenzaxiom 2. Verknüpfungsaxiom. Unabhängigkeitsaxiom 4. Zusatzannahmen

Klassische Testtheorie Existenzaxiom Es existiert ein wahrer Wert (true score) als Erwartungswert der Messung x eines Probanden v in Item i Verknüpfungsaxiom Die Messung besteht aus einem wahren Wert und einem Messfehler (Messfehler hat Erwartungswert 0)

Klassische Testtheorie Unabhängigkeitsaxiom Die Korrelation zwischen Messfehler und wahrem Wert bei beliebigen Personen und Items ist 0. Zusatzannahmen

Klassische Testtheorie Bestimmung des wahren Wertes mehrere Items: langfristigen Neutralisierens des Zufallsfehlers Testwert/ Rohwert Schätzung des wahren Wertes (Axiom 2)

Klassische Testtheorie Gütekriterium der Reliabilität = zentrales Gütekriterium wie Messgenau ist der Fragebogen/Test? Reliabilitätskoeffizient des Tests zwischen 0 und 1

Klassische Testtheorie Reliabilität

Klassische Testtheorie Grenzen und Schwächen

Klassische Testtheorie Grenzen und Schwächen

Item-Response Theorie Ergänzung zur KTT wichtig: latente vs. manifeste Variablen! Itemhomogenität: manifeste Variable wird nur von Ausprägung der zu messenden latenten Variable systematisch beeinlusst

Item-Response Theorie IRT Modelle Latent-Class-Modelle: Annahme qualitativ kategorialer latenter Klassen zur Charakterisierung von Personenunterschieden Latent-Trait-Modelle: quantitative kontinuierliche latente Variablen am gebrächlichsten

Item-Response Theorie Grundlegende Ergänzung zur KTT: IC-Funktionen Deterministische Funktion: Antwortverhalten komplett von Item- und Personenparameter bestimmt

Item-Response Theorie Grundlegende Ergänzung zur KTT: IC-Funktionen Probabilistische Funktion: stochastische Beziehung zwischen dem Antwortverhalten und der Personen- Itemparameter

Item-Response Theorie Modelle Rasch Modell Birnbaum Modell

Maik Beege M.Sc. Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät