Klassische Testtheorie (KTT)

Onlinestudie Folie 1 Klassische Testtheorie (KTT) Eigenschaften psychologischer Testverfahren, die auf Basis der Klassischen Testtheorie (KTT) konstruiert wurden: -Gleicher SEE für alle Mitglieder einer Population -Reliabilität eines Tests steigt mit dessen Länge -Testwertvergleich optimal nur über Testparallelformen -Schätzer (mit geringem Meßfehler) benötigen repräsentative Stichproben -Testwerte beziehen sich immer auf eine Referenzpopulation -Intervallskalen werden über Erfüllung der NV der Rohwerte erreicht -Gemischte Antwortformate haben gewichteten Einfluss auf Testwerte -Veränderungsmessung nur sinnvoll möglich, wenn Ausgangswerte gleich sind -FA auf Basis dichotomer Daten führt zu artifiziellen Faktoren -Itemeigenschaften sind unwichtig im Vergleich zu psychometrischen Testeigenschaften (Obj., Rel., Val., Skalierung, Normierung etc.)

Onlinestudie Folie 2 1. SEE SEE = wichtig zur Berechnung der Reliabilität KI -KTT: SEE gleich für alle Mitglieder einer Population; unterschiedliche Arten & Berechnungen z.b. SEE = (1-r tt ) 1/2 s lineare Regression von T (True Score) auf X (Testrohwert) über gesamten Meßbereich KI konstant über gesamten Meßbereich plausibel? -IRT: SEE ist unabhängig von Rohwerteverteilung (s), da andere Berechnung der Testinformation: SEE(q)= 1 / TI(q) 1/2, wobei TI = S i I(q) und I(q) = P i (q)(1-p i (q)) Konsequenzen: SEE = abh. v. q plausibel? KI in Abh. v. q unterschiedlich breit (extreme q haben höhere Unsicherheit) Gruppenspezifische Rel. in IRT: r tt = 1 (s(q) 2 / s 2 )

Onlinestudie Folie 3 2. Testlänge und Reliabilität Je länger ein Test, desto reliabler ist er reliable Tests nur mit rel. hoher Itemanzahl möglich -KTT: Spearman-Brown-Formel zur Berechnung optimaler Testlänge, um gewünschte Reliabilität zu erreichen: r nn = nr tt / (1 + (n-1)r tt ) wenn n steigt, steigt r: um r tt von 0.8 auf 0.95 zu steigern: ca. 3.5-fache Testlänge notwendig (z.b.: k=20 k = 70!)! -IRT: Reliablere Tests können kürzer sein, als unreliablere CAT über Maximierung der Informationsfunktion bei jedem Testteilschritt in Abh. v. aktueller q-schätzung

Onlinestudie Folie 4 3. Testwertvergleiche Testergebnisse können über Testparallelformen verglichen werden -KTT: Nach Gulliksen (1950) unterschiedliche Formen der Testparallelität (t-äquivalenz, essentielle t-äquivalenz etc.) in der Praxis: keine strikt parallelen Testformen (M, s, r tt etc. unterschiedlich) Equating-Fehler; beste Ergebnisse nur, wenn ähnliche Itemschwierigkeiten, hohe r tt & ähnliche Rohwertverteilungen -IRT: Vergleich über Testparallelformen ungleicher Länge & Zusammensetzung (wegen Möglichkeit spezifisch objektiver Vergleiche wird ausgiebig bei CAT eingesetzt)

Onlinestudie Folie 5 4. Schätzung von Itemeigenschaften Itemeigenschaften müssen immer in Relation zu einer Referenzpopulation gesehen werden; rel. Schätzung ohne (systematischen) Bias ist nur über repräsentative Stichproben möglich -KTT: Beispiel 1 p (Itemschwierigkeit) fällt je nach Stichprobenzusammensetzung unterschiedlich aus; Beispiel 2 r it : ebenfalls extrem stichprobenabhängig Simulationsstudie von Embretson & Reise (2000): 3000 Simulees anhand Median geteilt Berechnung von p, r it r(h/n) = 0.80! -IRT: s (Itemparameter), q (Personenparameterschätzung), a (Itemdiskrimination) etc.: Schätzungen ohne Bias auf Basis nicht-repräsentativer Stichproben möglich Embretson & Reise, 2000: r (s RM:n/h) = 0.997!

Onlinestudie Folie 6 5. Messungen: Bedeutung Testwerte erhalten ihre Bedeutung über Vergleich mit Referenzgruppe -KTT: Bedeutung von Testwerten nur über Vergleich mit Referenzgruppe (=Stichprobenabhängigkeit: normorientierte Diagnostik) -IRT: Personenparameter stehen per Definition des jeweiligen IRT-Modells mit Itemparametern etc. in Beziehung wenn Items (z.b. in Einstellungsmessung) jeweils bestimmte Bedeutung aufweisen, können Personen jenen Items zugeordnet werden, die max. Informationsgewinn darstellen, maw: die Personenparameter weisen in diesem Fall eine inhaltliche Bedeutung auf, die unabhängig von Referenzgruppen ist

Onlinestudie Folie 7 6. Bedeutung von gemischten Antwortformaten innerhalb eines Testverfahrens Gemischte Antwortformate (z.b. VW v. Ratingskalen mit unterschiedl. Zahl von Antwortkategorien) innerhalb einer Skala können differentielle Effekte auf die Messung haben -KTT: Gemischte Antwortformate Ungleichgewichtung von Items (z.b. 4-kat. Format, letztes Item 8 Kat. geht mit doppelter Gewichtung in Testwert ein M, s, r it etc. ändern sich!) -IRT: Es gibt IRT-Modelle, die gemischte Antwortformate erlauben, z.b. PCM, RSM etc.; diese liefern Parameterschätzungen für jede Antwortkategorie ( nächste Einheit!)

Onlinestudie Folie 8 7. Veränderungsmessung Veränderungsmessung ist nicht (sinnvoll) möglich, wenn Ausgangsscores unterschiedlich sind (vgl. Ausgangswert-Problematik, Boden- & Deckeneffekte) -KTT: Probleme sind z.b. Boden- und Deckeneffekte, Ausgangswertproblematik, methodische Probleme (Paradoxon: Pre-Test r tt niedrig Veränderungsscore r tt hoch!), Skalierungsproblematik (Veränderungsmessung setzt Intervallskalenniveau voraus bei KTT nicht beweisbar) -IRT: Skalierung kann per definitionem des IRT-Modells geprüft werden, daher Intervallskaleneigenschaft bei Fit belegt werden; keine Ausgangswertproblematik; eigene IRT-Modelle, die für Veränderungsmessung konzipiert wurden, z.b. LLRA, LLTM

Onlinestudie Folie 9 8. Faktorenanalyse dichotomer Items -KTT: Faktorenanalyse dichotomer Items führt zu artifiziellen Faktoren (Carroll, 1945) Konstruktvalidität / Eindimensionalität kann auf diese Weise nicht überprüft werden -IRT: Full-Information-FA (Bock, Gibbons & Muraki, 1988) für FA dichotomer Items Eindimensionalitätsprüfungen von Skalen basierend auf dichotomen Items werden möglich