Klassische Testtheorie (KTT)

Ähnliche Dokumente
σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

Einführung in die Theorie psychologischer Tests

Überblick über die ProbabilistischeTesttheorie

Das Rasch-Modell und seine zentralen Eigenschaften

Testtheorie und Testkonstruktion

Lehrbuch Testtheorie - Testkonstruktion

Klausur Testtheorie: Antworten und Lösungen

Was ist eine Testtheorie? Grundlagen der Item-Response. Response-Theorie. Modelle mit latenten Variablen

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Beispielberechnung Normierung

6. Faktorenanalyse (FA) von Tests

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Forschungsmethoden VORLESUNG WS 2017/2018

Testtheorie und Fragebogenkonstruktion

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Forschungsmethoden VORLESUNG SS 2017

Grundlagen der Testkonstruktion

Messtherorie Definitionen

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Einführung in die Test- und Fragebogenkonstruktion

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Reliabilitäts- und Itemanalyse

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

4.2 Grundlagen der Testtheorie

Item-Response-Theorie Probabilistische Testtheorie. Christian Stroppel

Forschungsmethoden VORLESUNG WS 2017/2018

Eine Beschwerdenliste mit den wichtigsten, in der Literatur mit elektromagnetischen Feldern in Verbindung gebrachten Befindlichkeitsstörungen

Psychologische Diagnostik

Forschungsmethoden VORLESUNG SS 2017

2.4 Indexbildung und Einblick in Skalierungsverfahren

Markus Wirtz* Timo Leuders. Jan Henning-Kahmann* Dominik Naccarella. Ulf Kröhne (Technology Based Assessment) Regina Bruder. Frankfurt

Rekodierung invertierter Items

3.2 Grundlagen der Testtheorie Einleitung

Auswahl von Testaufgaben

Bildungsurlaub-Seminare: Lerninhalte und Programm

Personenparameter + Itemparameter

"Eigenschaften-Situationen-Verhaltensweisen - ESV" Eine ökonomische Ratingform des 16 PF. Werner Stangl. Zielsetzung

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler

Grundlagen der psychologischen Testtheorie

Modul 6. Zusammenfassung der PV-Folien. Sommersemester 2010

Das Partial Credit Modell

Entwicklung und Erprobung eines Verhaltensfragebogens für geistig und lernbehinderte Heimkinder (VFHK)

Ist IQ = IQ? Vergleichbarkeit von Intelligenztestergebnissen bei Kindern. Dr. Priska Hagmann-von Arx, 29. Juni 2018

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Übersicht Klassische Testtheorie (KTT) Axiomatik der klassischen Testtheorie

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Einführung in die Statistik Testgütekriterien

Testtheorie und Testkonstruktion

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Psychologische Diagnostik I. Katharina Vock

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

(1) Was sind wichtige Kriterien von Diagnostik im Sinne zweckgebundenen Messens? (2) Warum sollte Diagnostik so systematisch wie möglich erfolgen?

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Parametrische vs. Non-Parametrische Testverfahren

Gütekriterien: Validität (15.5.)

1 Inhaltsverzeichnis. 1 Einführung...1

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Einführung in die Psychologie

Inhaltsverzeichnis. Vorwort zur 3. Auflage 11

IMPULS-Test 2 Wissenschaftliche Basis. Mag. Leonard Schünemann

Forschungsmethoden VORLESUNG WS 2017/2018

Diplomarbeit. Titel der Diplomarbeit

Testtheorie und Testkonstruktion

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 4

Testtheorie und Testkonstruktion. Wintersemester 2006/ 2007 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Grundgesamtheit und Stichprobe

Mathematische und statistische Methoden II

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Statistik. Jan Müller

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Elisabeth Raab-Steiner/ Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 3., aktualisierte und überarbeitete Auflage

Psychometrie. Lena Straub

'+4 Elisabeth Raab-Steiner / Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 4., aktualisierte und überarbeitete Auflage

Grundgesamtheit und Stichprobe

Vorwort und Organisation des Buches. I Allgemeine Grundlagen 1

Forschungsmethoden VORLESUNG SS 2018

2. TESTTHEORETISCHE GRUNDLAGEN

5. Lektion: Einfache Signifikanztests

Identifikation hochbegabter Schüler

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK)

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Messen im psychologischen Kontext I. Testentwicklung, Entwicklung von Items, Trennschärfeanalyse und Normierung

Kalibrierung eines Tests zur Angewandten Raumvorstellung (TARV): Ergebnisse aus fünf Schulen

limhatewerzeoelhiniii

6-Variablen-Fall. Dipl.-Ök. John Yun Bergische Universität Wuppertal Gaußstraße Wuppertal

4.1 Grundlagen der psychologischen Diagnostik. Wintersemester 2008/ 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Transkript:

Onlinestudie Folie 1 Klassische Testtheorie (KTT) Eigenschaften psychologischer Testverfahren, die auf Basis der Klassischen Testtheorie (KTT) konstruiert wurden: -Gleicher SEE für alle Mitglieder einer Population -Reliabilität eines Tests steigt mit dessen Länge -Testwertvergleich optimal nur über Testparallelformen -Schätzer (mit geringem Meßfehler) benötigen repräsentative Stichproben -Testwerte beziehen sich immer auf eine Referenzpopulation -Intervallskalen werden über Erfüllung der NV der Rohwerte erreicht -Gemischte Antwortformate haben gewichteten Einfluss auf Testwerte -Veränderungsmessung nur sinnvoll möglich, wenn Ausgangswerte gleich sind -FA auf Basis dichotomer Daten führt zu artifiziellen Faktoren -Itemeigenschaften sind unwichtig im Vergleich zu psychometrischen Testeigenschaften (Obj., Rel., Val., Skalierung, Normierung etc.)

Onlinestudie Folie 2 1. SEE SEE = wichtig zur Berechnung der Reliabilität KI -KTT: SEE gleich für alle Mitglieder einer Population; unterschiedliche Arten & Berechnungen z.b. SEE = (1-r tt ) 1/2 s lineare Regression von T (True Score) auf X (Testrohwert) über gesamten Meßbereich KI konstant über gesamten Meßbereich plausibel? -IRT: SEE ist unabhängig von Rohwerteverteilung (s), da andere Berechnung der Testinformation: SEE(q)= 1 / TI(q) 1/2, wobei TI = S i I(q) und I(q) = P i (q)(1-p i (q)) Konsequenzen: SEE = abh. v. q plausibel? KI in Abh. v. q unterschiedlich breit (extreme q haben höhere Unsicherheit) Gruppenspezifische Rel. in IRT: r tt = 1 (s(q) 2 / s 2 )

Onlinestudie Folie 3 2. Testlänge und Reliabilität Je länger ein Test, desto reliabler ist er reliable Tests nur mit rel. hoher Itemanzahl möglich -KTT: Spearman-Brown-Formel zur Berechnung optimaler Testlänge, um gewünschte Reliabilität zu erreichen: r nn = nr tt / (1 + (n-1)r tt ) wenn n steigt, steigt r: um r tt von 0.8 auf 0.95 zu steigern: ca. 3.5-fache Testlänge notwendig (z.b.: k=20 k = 70!)! -IRT: Reliablere Tests können kürzer sein, als unreliablere CAT über Maximierung der Informationsfunktion bei jedem Testteilschritt in Abh. v. aktueller q-schätzung

Onlinestudie Folie 4 3. Testwertvergleiche Testergebnisse können über Testparallelformen verglichen werden -KTT: Nach Gulliksen (1950) unterschiedliche Formen der Testparallelität (t-äquivalenz, essentielle t-äquivalenz etc.) in der Praxis: keine strikt parallelen Testformen (M, s, r tt etc. unterschiedlich) Equating-Fehler; beste Ergebnisse nur, wenn ähnliche Itemschwierigkeiten, hohe r tt & ähnliche Rohwertverteilungen -IRT: Vergleich über Testparallelformen ungleicher Länge & Zusammensetzung (wegen Möglichkeit spezifisch objektiver Vergleiche wird ausgiebig bei CAT eingesetzt)

Onlinestudie Folie 5 4. Schätzung von Itemeigenschaften Itemeigenschaften müssen immer in Relation zu einer Referenzpopulation gesehen werden; rel. Schätzung ohne (systematischen) Bias ist nur über repräsentative Stichproben möglich -KTT: Beispiel 1 p (Itemschwierigkeit) fällt je nach Stichprobenzusammensetzung unterschiedlich aus; Beispiel 2 r it : ebenfalls extrem stichprobenabhängig Simulationsstudie von Embretson & Reise (2000): 3000 Simulees anhand Median geteilt Berechnung von p, r it r(h/n) = 0.80! -IRT: s (Itemparameter), q (Personenparameterschätzung), a (Itemdiskrimination) etc.: Schätzungen ohne Bias auf Basis nicht-repräsentativer Stichproben möglich Embretson & Reise, 2000: r (s RM:n/h) = 0.997!

Onlinestudie Folie 6 5. Messungen: Bedeutung Testwerte erhalten ihre Bedeutung über Vergleich mit Referenzgruppe -KTT: Bedeutung von Testwerten nur über Vergleich mit Referenzgruppe (=Stichprobenabhängigkeit: normorientierte Diagnostik) -IRT: Personenparameter stehen per Definition des jeweiligen IRT-Modells mit Itemparametern etc. in Beziehung wenn Items (z.b. in Einstellungsmessung) jeweils bestimmte Bedeutung aufweisen, können Personen jenen Items zugeordnet werden, die max. Informationsgewinn darstellen, maw: die Personenparameter weisen in diesem Fall eine inhaltliche Bedeutung auf, die unabhängig von Referenzgruppen ist

Onlinestudie Folie 7 6. Bedeutung von gemischten Antwortformaten innerhalb eines Testverfahrens Gemischte Antwortformate (z.b. VW v. Ratingskalen mit unterschiedl. Zahl von Antwortkategorien) innerhalb einer Skala können differentielle Effekte auf die Messung haben -KTT: Gemischte Antwortformate Ungleichgewichtung von Items (z.b. 4-kat. Format, letztes Item 8 Kat. geht mit doppelter Gewichtung in Testwert ein M, s, r it etc. ändern sich!) -IRT: Es gibt IRT-Modelle, die gemischte Antwortformate erlauben, z.b. PCM, RSM etc.; diese liefern Parameterschätzungen für jede Antwortkategorie ( nächste Einheit!)

Onlinestudie Folie 8 7. Veränderungsmessung Veränderungsmessung ist nicht (sinnvoll) möglich, wenn Ausgangsscores unterschiedlich sind (vgl. Ausgangswert-Problematik, Boden- & Deckeneffekte) -KTT: Probleme sind z.b. Boden- und Deckeneffekte, Ausgangswertproblematik, methodische Probleme (Paradoxon: Pre-Test r tt niedrig Veränderungsscore r tt hoch!), Skalierungsproblematik (Veränderungsmessung setzt Intervallskalenniveau voraus bei KTT nicht beweisbar) -IRT: Skalierung kann per definitionem des IRT-Modells geprüft werden, daher Intervallskaleneigenschaft bei Fit belegt werden; keine Ausgangswertproblematik; eigene IRT-Modelle, die für Veränderungsmessung konzipiert wurden, z.b. LLRA, LLTM

Onlinestudie Folie 9 8. Faktorenanalyse dichotomer Items -KTT: Faktorenanalyse dichotomer Items führt zu artifiziellen Faktoren (Carroll, 1945) Konstruktvalidität / Eindimensionalität kann auf diese Weise nicht überprüft werden -IRT: Full-Information-FA (Bock, Gibbons & Muraki, 1988) für FA dichotomer Items Eindimensionalitätsprüfungen von Skalen basierend auf dichotomen Items werden möglich