3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT

Transkript

1 - gegenwärtig die Grundlage der meisten psychologischen Testverfahren - nach Rost basieren 95% aller Tests auf der KTT - klassisch heißt die KTT, weil sie die erste Theorie war, die zur Konstruktion von psychologischen Tests herangezogen wurde (Gulliksen, 1950) - einige Schwächen, die von PTT (allerdings auf Kosten erheblich größerer mathematischer Komplexität) überwunden werden - einfache Anwendbarkeit - Tests haben sich bewährt - Die KTT machte keine Annahmen darüber, wie Items beantwortet werden oder wie eine Testleistung zustande kommt - Die KTT macht nur Annahmen darüber, aus welchen Komponenten Messwerte bestehen (X = T + E) - trotz gravierender Mängel bzw. Kritikpunkte hat sich die KTT in der Praxis bewährt - Die Brauchbarkeit eines Tests hängt v.a. von der inhaltlich begründeten Konstruktion der Items und Test ab - die KTT untersucht Rohwertvarianzen und Kovarianzen - Systematische Fehler werden indirekt der wahren Varianz zugeschlagen 3. KTT und PTT KTT allgemein Axiome & Annahmen der KTT Kritik an der KTT 1. Die KTT ist eine Theorie der Messfehler bzw. der Reliabilität - die KTT umgeht das Problem des - Die KTT trägt dem Umstand Rechnung, dass Testergebnisse einzelner Intervallskalenniveaus durch per-fiat - Personen mit dem gleichen Test zwischen verschiedenen Messzeitpunkten Messung: durch Aufsummierung der variieren Anzahl richtiger Lösungen oder - berücksichtigt werden nur unsystematische Fehler (unsystematische Itemantworten nähert man sich innere/äußere Einflüsse, z.b. Lärm, stickige Luft, Müdigkeit, mangelnde generell Differenzen an und somit ist X Konzentration) = T+E wieder zulässig - nicht berücksichtigt werden systematische Fehler (Übungs- und Transfereffekte) - systematische Fehler (Bias) werden dem wahren Wert zugerechnet, was zu einer Erhöhung der Reliabilität führt 2. Die KTT unterstellt Zufallsziehung und Zufallsfehler - Annahme bezieht sich auf intraindividuelle und interindividuelle Varianz - Annahme, dass das Testergebnis derselben Person bei mehreren Testungen rein zufallsabhängig variiert. - Bei beliebiger Anzahl an Testwiederholungen bei einer Person i mit dem gleichen Test und unter den gleichen Bedingungen, nähern sich die Testergebnisse Xi einer Normalverteilung an, deren Mittelwert Ti (wahrer Wert) ist Existenzaxiom 3. Das zentrale Grundaxiom der KTT besagt, dass sich jeder beobachtete Wert additiv aus einem wahren Wert Ti und einer Fehlerkomponente zusammensetzt (X = T +E) 4. Messfehler verteilen sich um den Wert Null, d.h. der wahre Wert wird in einer einzelnen Messung also gleicher Wahrscheinlichkeit über- oder unterschätzt und mittelt sich über viele Messungen tendenziell aus. a) Sowohl bei einer Person i bei unendlich vielen Messungen M(E)i = 0 b) Mittelwert der Fehler in einer Population/Teilpopulation M(E)P = 0 5. Wahrer Wert und Fehler sind unkorreliert, d.h. es besteht kein Zusammenhang zwischen dem Messfehler und dem wahren Wert gilt sowohl für eine Person als auch für Population bzw. Teilpopulation: r(e,t) = 0 6. Fehler verschiedener Tests sind unkorreliert, d.h. der Messfehler eines Tests A weist keinen Zusammenhang r mit dem Messfehler eines anderen Tests B auf. (gilt nur bei experimenteller, nicht bei emprischer, Abhängigkeit!) 7. Kreuzweise Unkorreliertheit von Messfehlern und wahren Werten verschiedener Tests, d.h. die Messfehler eines Tests A weisen keinen Zusammenhang mit dem wahren Wert eines Tests B auf: r(ea,eb = 0) 1 - Die KTT fasst Reliabilität als Anteil wahrer Varianz an der gesamten Testvarianz auf, wobei die Varianz der wahren Werte nicht beobachtbar ist und geschätzt werden muss. - Die Reliabilität ist die wesentliche Information zur Bestimmung von Standardmess- und Standschätzfehler (Beurteilung, wie gut man sich auf das Testergebnis einer Testperson verlassen kann). - Anhand der Formel für die Reliabilität kann der Unterschied zur Validität vorgenommen werden: Der Bias (systematische Fehler; nicht intendierte systematische Varianzanteile) hat im Grunde nichts mit dem Zielkonstrukt zu tun, wird in den Axiomen der KTT dem wahren Wert bzw. der wahren Varianz zugeschlagen und trägt so zur Erhöhung der Reliabilität bei. - Bei der Validität hingegen geht es ausschließlich um die Messung des Zielkonstrukts bzw. um die Gültigkeit inhaltlicher Aussagen auf der Grundlage von Testergebnissen. - Bei der Validität geht es um das Ausmaß, in dem ein Test in der jeweiligen Testsituation das misst, was er messen soll. - Die Validität ist der Anteil der Konstruktvarianz an der Gesamtvarianz 1. Axiome der KTT sind in der Praxis nicht immer haltbar - nicht intendierte systematische Varianzanteile (Bias) werden dem wahren Wert zugerechnet - die KTT stellt keine Verbindung zwischen einer Fähigkeit, einem Merkmal oder einer Eigenschaft und der Itembeantwortung her - Übungs- und Transfereffekte wirken sich u.u. systematisch auf die Testleistung auf und verändern die wahre Leistungsfähigkeit, werden aber einfach als Bias der wahren Varianz zugeordnet - die KTT macht keine Annahmen hinsichtlich des Zustandekommens der Leistungen - unter Verletzung der Annahme der Eindimensionalität werden Ti und Reliabilität eines Tests über- oder z.t. auch unterschätzt. Annahme des fehlenden Zusammenhangs zwischen T und E zu bezweifeln, ebenso die Konstanz des wahren Wertes über verschiedene Messwiederholungen (Existenzaxiom) 2. Ungenaue Messung in Extrembereichen - Fischer weist darauf hin, dass insb. bei extrem hohen/niedrigen Fähigkeitsausprägungen die Leistungen ungenauer als im mittleren Bereich gemessen werden. - Items mit extremen Schwierigkeiten aber notwendig/nützlich für die Differenzierung von Testpersonen - dieselbe Messgenauigkeit in allen Eigenschafts- bzw. Fähigkeitsbereichen ist wichtige Voraussetzung für die Einzelfalldiagnostik 3. KTT setzt Eindimensionalität voraus (Annahme des fehlenden Zusammenhangs zwischen verschiedenen Fehlerwerten r(ea,eb) = 0 ), prüft diese Annahme aber an keiner Stelle PTT prüft diese Voraussetzung Verwendung CFA 4. Stichprobenabhängigkeit der Testwerte - je nach Referenzgruppe erhält individuelle Testleistung andere Bedeutung PTT ermittelt stichprobenunabhängige Item- und Personenkennwerte KTT behilft sich mit Gütekriterien zu verschiedenen Teilstichproben

2 3. Itemanalyse: Kürzung und Revision des Entwurfs Itemanalyse nach KTT Rekodierung Deskriptive Itemanalyse Interpretation: Itemschwierigkeit Nun liegt eine erste Prüfung univariater Verteilungseigenschaften: - Mittelwerte der Items bilden bei den Rohfassung des Testentwurfs vorliegenden Ratingskalen des BFI de vor, d.h. eine geordnete Grundlage zur Berechnung von Itemschwierigkeiten Itemsammlung Pretest der ersten Rohfassung, um die Items auf Verständlichkeit, Eindeutigkeit zu testen - ebenso Erfassung möglicher Probleme mit der Akzeptanz (invasive, belastende oder inakzeptable Fragen qualitative Erhebung mit Kommentarmöglichkeit - kleine Stichprobe genügt - diese sollte allerdings zur Zielgruppe des Tests gehören Identifikation und ggf. Elimination oder Umformulierung besonders missverständlicher und inakzeptabler Items Nun kann empirische, quantitative Prüfung der Vorform des Tests in größerem Rahmen beginnen (anhand von empirischen Kennwerten für die einzelnen Items) Kennwerte werden genutzt, um Unterschiede in den Messeigenschaften einzelner Items zu identifizieren und zur Kürzung der Vorform des Tests bzw. Eliminierung weniger guter Aufgaben genutzt Beispieldatensatz: -SPSS, Stichprobe (1999) zu BFI -Insg. 44 Items, je 7-10 für O,C,E,A,N -Fünfstufige, bipolare Ratingskalen -Kurze Satzfragmente -Rational konstruiert, zur Messung eines faktorenanalytisch begründeten Persönlichkeistmodells Rekodierung, da die Items des BFI unterschiedlich gepolt (hohe Werte stehen mal für Ausprägungen, mal für niedrige Merkmalsausprägungen) so dass alle Items gleich gepolt 1.) TRANSFORMIEREN UMKODIEREN IN DIESELBEN (oder IN ANDERE) VARIABLEN 2.) Verschiebung der Items in Liste NUMERISCHE VARIABLEN 3.) Rekodierung spezifizieren über ALTE UND NEUE WERTE 4. jeweils HINZUFÜGEN 5. WEITER (nicht OK, wegen Syntax!) Wichtigste Kennwerte - zentrale Tendenz: Mittelwert, Median, Modus - Streuung: Varianz, Percentile, Streubreite - Form: Schiefe, Exzess - Grafische Hilfsmittel: Histogramme, Diagramme ANALYSIEREN DESKRIPTIVE STATISTIKEN DESKRIPTIVE STATISTIK - alle 44 Items in Liste VARIABLEN verschieben - OPTIONEN: wichtigste Kennwerte inkl. Schiefe und Kurtosis auswählen WEITER ANALYSIEREN DESKRIPTIVE STATISTIKEN DIAGRAMME - Tests auf Normalverteilung - Histogramme Itemschwierigkeit = der prozentuale Anteil der richtigen Lösungen (bzw. Zustimmungen) an allen Lösungen eines Items innerhalb einer Stichprobe - einer der wichtigsten Kennwerte in der Itemanalyse - =empirischer Lösungsmittelwert einer Stichprobe - je nach Skalenniveau unterscheidet sich Berechnung Hoher Wert = geringe Schwierigkeit niedriger Wert = hohe Schwierigkeit Itemschwierigkeitsindex ohne Korrektur Itemschwierigkeitsindex mit Zufallskorrektur Itemschwierigkeitsindex mit Inangriffnahmekorrektur z.b. bei zeitbegrenzten Leistungstests wird im Nenner die Anzahl N B der Personen, die Item bearbeitet haben B Itemleichtigkeit B Transformation bei Ratingskalen - zunächst Transformation der Ratingskala auf das theoretische Minimum mit Wert Null - Anschließend Berechnung Itemschwierigkeitsindex ohne Korrektur, aber mit Modifizierungen: N R = (transf.) Mittelwert M i des Items i N = (transf.) Maximalwert x max des Items P = M i x max Bedeutung der Itemschwierigkeit - Zahl theoretisch möglicher Unterscheidungen und somit die Informationshaltigkeit eines Items hängt von dessen Schwierigkeit ab. - bei mittlerer Schwierigkeit liegt das theoretische Maximum 50% (Da 50*50 = 2500 Unterscheidungen) Ein Item, das niemand oder alle lösen können, enthalt keinerlei empirische Informationen & ist somit wertlos! Zusammenhang zw. Itemschwierigkeit und Informationshaltigkeit ist umgekehrt u-förmig mit Maximum in der Mitte Interpretation der Itemschwierigkeit - Faustregeln mit Vorsicht genießen, da a) Die Lösungswkt eines Items annahmegemäß von der individuellen Ausprägung des gemessenen Merkmals abhängt b) Schwierigkeit nur etwas über die maximal in einem Item enthaltene Information aussagt, aber nichts über die tatsächliche Informationshaltigkeit Die Schwierigkeit beeinflusst die VArianz, die wiederum notwendige aber nicht hinreichende Bedingung für die Korrelation mit anderen Variablen ist Test mit nur extremen Schwierigkeiten ist eingeschränkt hinsichtlich Itemhomogenität, Trennschärfe, Reliabilität, Validität (Kennwerte & Gütekriterien) und hinsichtlich der Korrelation der Items untereinander, wenn viele links- & rechtsschiefe (schwierige / einfache) items kombiniert werden Aber: Stets abzuwägen gegen die Notwendigkeit einer vollständigen Abdeckung des Merkmalsbereichs 2 Die Standardabweichung sollte bei einer 5-stufigen Skala idealerweise den Wert 1 annehmen ( beste Annäherung an Normalverteilung)

3 3.1.2 Trennschärfeanalyse Defintion/Allgemeines Part-Whole-Korrektur Trennschärfen bei Ursachen für verzerrte Trennschärfen Schwierigkeitskorrektur Trennschärfe Gibt die Stärke der Übereinstimmung der mit dem jeweiligen Item erzielten Differenzierung zwischen den VPn und der Differenzierung durch den Gesamttest an in der KTT der wichtigste Indikator dafür, wie gut jedes einzelne Items das zugrunde liegende Merkmal abbildet Eigentrennschärfe: Stellt inhaltlich dar, wie gut ein Item eine Skala, die aus den restlichen Itemsgebildet wird, widerspeigelt bzw. wie prototypisch ein Item für eine Skala ist Vorausssetzung: valide Messung des Merkmals Part-Whole-Korrektur! Fremdtrennschärfe Korrelationen von Items mit Skalen/Testwerten anderer Fragebögen/Kriterien Wird insb. bei der externalen Testkonstruktion hernagezogen - keine Part-Whole-Korrektur notwendig! Part-Whole-Korrektur notwendig, weil sonst das betreffende Item mit in den Skalenwert einfließt Teil der Skalenstreuung geht auf das entsprechende Item zurück Überschätzung der Trennschärfe unkorrigierter Wert ist partielle Eigenkorrelation Artefakt der partiellen Eigenkorrelation ist umso größer a) je kürzer die Skala (anteiliges Gewicht des Items steigt) b) je heterogener die Skala (Items korrelieren im Mittel geringer untereinander bei heterogener Skala Trennschärfe und Reliabilität bedingen sich zt gegenseitig) Je homogener eine Skala, desto weniger ändert sich die Trennschärfe durch die Part- Whole-Korrektur. Ratingskalen Trennschärfe entspricht der Produkt- Moment-Korrelation nach Part-Whole- Korrektur Dichotomen Items Trennschärfe entspricht der punktibiserialen Korrelation nach Part- Whole-Korrektur (wird in SPSS automatisch berechnet) Verzerrungen der Trennschärfe sind möglich durch - Erweiterung der Varianz (Ausreißer, bimodale Verteilungen) - Einschränkung der Varianz (Schiefe, extreme Schwierigkeiten) Überprüfbarkeit - statististisch (Schwierigekitsnalayse) - visuell (Inspektion Histogramme) Folgen von Verzerrungen - Ratinskala robust gegen Ausreißer - bimodale Verteilungen erhebliche Varianzerweiterungen -Schiefe Verteilungen häufig Varianzeinschränkungen Alternatives Verfahren zur Korrektur der Ternnschärfe von Items mit extremen Schwierigkeiten von Moosbrugger & Zistler (1993): - Aufwertung der Trennschärfe dichotomer Items durch die Berechnung eines sog. Selektionskenntwertes Stellt eine Art Korrektur der Trennschärfe um VArainzeinschränkung dar) Selektion von Items, bei der solche Items mit extremen Schwierigkeiten weniger stark benachteiligt werden als bei Anwendung der unkorrigierten Trennschärfe Trennschärfe ist eine Korrelation zwischen einem Item und einer Skala und liegt immer zwischen -1 und +1. Skala Mehrere aufsummierte/gemittelte Items, die inhaltlich dieselbe Eigenschaft/Fähigeit erfassen sollen 3

4 Trennschärfeanalyse in SPSS Berechnung von Fremdtrennschärfen Selektion von Items aufgrund der Itemanalyse ANALYSIEREN SKALIERUNG RELIABILITÄTSANALYSE Items in die Itemliste verschieben (bei mehrdimensionalen Inventaren die Items für jede Dimension einzeln verschieben!) Mittelwert und Korrelationen liefern Infos zur mittleren Schwierigkeit der Items, deren Bandbreite & der mittleren Interkorrelationen der Items untereinander ( interpretierbar als Indikator für Itemhomogenität) STATISTIKEN SKALA WENN ITEM GELÖSCHT ANALYSIEREN KORRELATION BIVARIAT Korrelation von ob35i mit den Skalen Extraversion Verträglichkeit, Gewissenhaftigkeit und Neurotizismus Item ob35i korreliert auch mit drei dieser Skalen (Extraversion (.215),, Gewissenhaftigkeit (.135), und Neurotizismus (-.159)), aber in keinem Fall höher als mit der eigenen Skala (.221) - Indikatoren Itemschwierigkeit und Trennschärfe, ggf. auch Varianz und andere deskriptive Statistiken sowie die Korrelationen mit Außenkriterien simulzan betrachten und gegen inhaltliche Gesichtspunkte abwägen - korrelative Kennwerte (Trennschärfe und bei inhaltl. Begrüdnung mit Außenkriterien) bedeutsamer als univariate Indizes - die Beibehaltung von extrem schwierigen Items lässt sich nur (und nur dann!) rechtfertigen, wenn gleichzeitig angemessen hohe Trennschärfen (umgekehrt kann unzureichende Trennschärfe eine mittlere Schwierigkeit keinesfalls kompensieren). Ausnahme: Bei strikt external konstruierte Skalen ist Korrelation mit Zielkriterium inkl. der Unterscheidung von Gruppen der alles überragende Faktor zur Beurteilung einzelner Items Behalte Items bei, solange sie positiv zur Erhöhung der Reliabilität beitragen! Itemschwierigkeit Trennschärfe Reliabilität Aber: - stichprobenabhängig - gerade bei längeren Skalen ist Einfluss einzelner Items auf Reliabilität oft minimal aber in ähnlicher Höhe im Falle von Extraversion (.215) vor Selektion aber noch faktorenanalytisch untersuchen! Selektion von Items ist im Rahmen der KTT ein nicht automatisierbarer Prozess des Abwägens und Begründens 4

5 PTT Rasch-Modell Wird Modell durch Modelltest nicht abgelehnt - überwindet einige Schwächen der KTT - erheblich größerer mathematischer Komplexität - Das Rasch-Modell ist ein Modell aus der Familie der PTT: praktische Bedeutung - es geht in der PTT darum, wie Antworten auf Items zustande kommen - es geht in der PTT um den Zusammenhang zwischen der Fähigkeit (oder Eigenschaft) einer Person und der Wahrscheinlichkeit, mit der diese Person eine Aufgabe löst bzw. einer Aussage zustimmt, welche die besagte Fähigkeit messen soll - die Erfüllung der mathematischen Annahmen wird durch Modelltests geprüft - die PTT untersucht Antwortmuster (nicht Rohvarianzen/Kovarianzen), die einem bestimmten Modell folgen müssen - in der PTT heißt erschöpfende Statistik, dass der Summenwert einer Person alle Informationen über die Fähigkeitsausprägung dieser Person liefert - Die Lösungswahrscheinlichkeit für ein bestimmtes Item hängt ab von Personparamter (Fähigkeit/Eigenschaftsausprägung der Person) und Itemparamter (Schwierigkeit eines Items) - Person- und Itemparameter werden empirisch geschätzt - Beziehung zwischen Item- und Personparameter ist probabilistisch, d.h. auch eine Person mit geringer Fähigkeitsausprägung im Vergleich zur Itemschwierigkeit hat eine gewisse Wahrscheinlichkeit ein solches Item zu lösen - Das Rasch-Modell sagt voraus, dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung zunimmt (einer bestimmbaren mathematischen Funktion folgende) Falsch: Die Personparamter besitzen Intervallskalenniveau 1. erschöpfende Statistik - Summenwert der Itemantworten sagt wirklich etwas über den Ausprägungsgrad einer Person auf der latenten Variable (Fähigkeit) aus - Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung der Person - Antwortmuster muss nicht mehr Item für Item betrachtet werden Erschöpfende Statistik der Personfähigkeit 2. Itemhomogenität Ein Item ist dann ein guter Indikator für eine latente Variable, wenn die Leistung in diesem Item komplett auf die Fähigkeitsausprägung auf der latenten Variable zurückzuführen ist und nicht auf andere Fähigkeiten Wünschenswerte Annahme für die Testkonstruktion 3. lokale stochastische Unabhängigkeit - Formalisierung der Itemhomogenität - man darf die Lösungswahrscheinlichkeiten der Items für alle Personen multiplizieren Rasch-Modell impliziert eine echte Messtheorie in der Psychologie 5

6 3.2 Überblick über die PTT PTT In der PTT geht es (im Gegensatz zur KTT) darum, WIE Antworten auf Items zustande kommen. Antwortmuster werden untersucht Es geht um den Zusammenhang zwischen der Fähigkeit/Eigenschaft einer Person und der Wahrscheinlichkeit, mit der diese Person eine Aufgabe löst bzw. einer Aussage zustimmt, welche besagte Fähigkeit/Eigenschaft messen soll Das Rasch-Modell gilt als das wichtigste Modell der PTT Von praktischer Bedeutung Rasch-Modell ist aber nur ein Modell aus der Familie der PTT Terminologie (wie bei KTT) aus der Intelligenzmessung abgeleitet - Das Rasch-Modell sagt voraus, dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung zunimmt Lösungswkt eines Items hängt ab von 1. Fähigkeit/Eigenschaftsausprägung (Personparameter) 2. Schwierigkeit des Items (Itemparameter) - im Rahmen der PTT können verschiedene Modelltest durchgeführt werden. Wird das Rasch-Modell durch einen Modelltest nicht abgelehnt, dann trifft eine Reihe von Annahmen zu: - Die Lösungswahrscheinlichkeit wird durch eine logistische Funktion (ICC) beschrieben - Summenwerte sind suffiziente oder erschöpfende Statistiken der Personfähigkeit - Vergleiche zwischen Items und Personen sind spezifisch objektiv - Items sind (Abgesehen von wenigen Ausnahmen) eindimensional, d.h. die Forderung der lokalen stochastischen Unabhängigkeit ist erfüllt - dichotomes Rasch-Modell: alle Items besitzen die gleiche Trennschärfe Voraussetzung für erschöpfende Statistiken - ordinales Raschmodell: geordnete Antwortschwellen (Nicht gleiche Itemtrennschärfen) notwendige Voraussetzung Grundlagen des Rasch-Modells (1-Parameter-Modell) Erschöpfende Statistik - wird das Rasch-Modell durch den Modelltest nicht abgelehnt, sagt der ungewichtete Summenwert der Itemantworten auch wirklich etwas übe den Ausprägungsgrad einer Person auf der latenten Variable aus - der Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung einer Person - Antwortmuster muss nicht mehr Item für Item betrachtet werden - aber: nur wenn alle Items gleich viel wert sind, ist das Zählen/einfach Verrechnen der Itemantworten erlaubt Eindimensionalität - Antwort auf das Item kann komplett auf eine einzige Fähigkeits- oder Eigenschaftsausprägung zurückgeführt werden und nicht auf mehrere - wenn das Rasch-Modell durch Modelltest nicht verworfen wird, ist der Test eindimensional - formal ist Eindimensionalität gegeben, wenn die Korrelation zwischen den Testitems nach Auspartilisierung der latenten Eigenschaft verschwindet (lokale Unabhängigkeit) - lokale stochastische Unabhängigkeit heißt, die Lösungswkt zweier beliebiger Items dürfen multipliziert werden, um die kombinierte Lösungswahrscheinlichkeit zu erhalten Spezifische Objektivität - unter Geltung des Raschmodells sind Vergleiche zwischen Personen spezifisch objektiv, d.h. 1. invarianz über alle Items bei Personenvergleichen 2. Invarianz über spezifische Personen bei Vergleichen zwischen Items 6 Modellparameter Itemparameter Sigma Personparamter Theta Schätzung der Modellparameter Um die Personfähigkeit festzustellen, benötigt man zunächst die Itemparameter Schätzung mit Hilfe der cml Einheit der Modellparameter Logit-Einheit Abstrakte Einheit für Intervallskalierung - Logit-Transformation ist die Transformation der Rohwerte in die Logit- Einheit - nichtlineare Transformation - sichert Differenzskalenniveau - lässt im Gegensatz zu Ordinalskalierung die Interpretation von Differenzen zwischen Fähigkeits- oder Eigenschaftsausprägungen zu - gleiche Einheit und subtraktive Verknüpfung ermöglichen kriteriumsorientierte Interpretation der Personparamter Wertebereich der Modellparameter Plus/minus unendlich i.d.r. zwischen +/-3 negative Werte kennzeichne leichte Items positive Werte kennzeichnen schwere Items Verknüpfung der Modellparameter Kennt man Item- und Personparamter kann man die Lösungswkt für ein Item direkt berechnen - Parameter sind additiv (subtraktiv) verknüpft - ICC Rückgriff auf Normstichprobe zur Interpretation eines Personparameters nicht unbedingt erforderlich ICC Idee des Rasch-Modells ist, dass die Lösung eines Items immer wahrscheinlicher wird, je weiter die Personfähigkeit die Itemschwierigkeit übersteigt Vorhersage der Itemlösungswahrscheinlichkeit Es ist möglich, aufgrund des Person- und Itemparamters die Wkt zu bestimmen, mit der eine Person ein Item löst Modelltests und Stichprobenunabhängigkeit - ob das Rasch-Modell durch die Daten abgelehn werden muss, wird durch Modelltests festgestellt grafische Modelltests: Streudiagramm - Schätzung der Itemparameter sollte unabhängig von Teilstichprobe sein - Nachteil: grafischer Modelltest ist kein Signifikanztest Signifikanztests und Modellvergleiche - Anderson Likelihood-Quotienten-Test - Person-Chiquadrat-Test - Bootstrap-Methode - auch die Möglichkeit, die Passung verschiedener konkurrierender Modell relativ zueinander testen

7 3.2.2 Weitere probabilistische Testmodelle 2-Parameter-Modell 3-Parameter-Modell Ordinales Raschmodell Mixed-Rasch-Modelle (Birnbaum-Modell) Trennschärfe als zusätzliche Einflussgröße der Berücksichtigt zusätzlich die - beschäftigt sich mit Items, die über mehr als 2 Quantifizieren und klassifizieren zugleich Itemlösung Ratewahrscheinlichkeit geordnete Antwortkategorien verfügen - Trennschärfe isst anders formalisiert als in der KTT: In der PTT wird die Trennschärfe durch die Steigung der ICC widergespiegelt - Je höher die Trennschärfe, desto steiler die ICC - im 2-Paramter-Modell unterscheiden sich die Trennschärfen einzelner Items d.h. eine Person besitzt eine gewisse Lösungswahrscheinlichkeit, ein Item trotz mangelnder Personfähigkeit zu lösen Umgekehrt besitzt ein fähige Person immer auch eine gewisse Irrtumswahrscheinlichkeit Schwellenkonzept - welche Kategorie eine Person wählt, hängt ab von Person- und Itemparameter - Treshold entsprechen dem WP der logistischen Funktion ICC sowie zugleich dem Itemparameter (bei 2 Antwortkategorien) - das Schwellenkonzept lässt sich auch auf mehr als zwei geordnete Antwortkategorien übertragen: CCC Das Mixed-Rasch-Modell sucht nach Personengruppen, die sich in ihrem Antwortmuster maximal unterscheiden; Innerhalb einer jeden klasse gilt aber das Rasch-Modell MRM sind für die Testkonstruktion sehr nützlich, das sie Verletzungen von der Annahme der Eindimensionalität für jedes Item anzeigen können. (Items können entfernt werden) Unterschiedliche Trennschärfen kritisch - es kann passieren, dass ein schweres Item trotz geringerer Personfähigkeit gelöst wird im Ggs. Zu Person mit hoher Personfähigkeit (Umkehrung der Lösungswahrscheinlichkeiten) - die unterschiedlichen Trennschärfen müssen zusätzlich geschätzt werden - ungewichtete Summenbildung nicht mehr zulässig - Beschaffenheit der Distraktoren dient zur Kontrolle der Ratewahrscheinlichkeit - Distraktoren so gestalten, dass schwierig genug - Anzahl der Distraktoren erhöhen Vorhersage der Itemlösungswkt erfolgt durch das Partial-Credit-Modell Voraussetzung: Antwortschwellen dürfen sich nicht überschneiden 7

8 Unterschiede KTT und PTT Gemeinsamkeiten KTT und PTT - Im Rahmen der PTT kann ein Modelltests durchgeführt werden, der die Erfüllung der - die Terminologie ist aus der Intelligenzdiagnostik abgleitet Voraussetzungen prüft - sowohl in KTT als auch in PTT müssen Items validiert werden - PTT prüft Zulässigkeit der Summation und somit indirekt das Skalenniveau - Ermittlung von Itemschwierigkeiten - PTT untersucht Antwortmuster und beschäftigt sich damit, wie Antworten auf Items zustande kommen - PTT beschäftigt sich mit dem Zusammenhang zwischen Fähigkeit einer Person und Wahrscheinlichkeit, eine Aufgabe zu lösen - probabilistischer Zusammenhang zwischen Personfähigkeit und Itemlösewahrscheinlichkeit - In der KTT werden Rohwertvarianzen und Kovarianzen untersucht Falsch: - Annahmen über das Zustandekommen (WIE) der Antworten - identischer Ablauf der Itemanalyse - ungeprüfte Voraussetzung des Skalenniveaus eines aggregierten testwertes - Untersuchung Rohwertvarianzen - Eindimensionalität wird ungeprüft vorausgesetzt - Schwierigkeiten in der KTT sind: Bias werden dem wahren Wert zugerechnet, die Annahme unkorrelierter Fehlerwerte wird nicht empirisch geprüft, die Vorstellung dass sich wahre Werte über mehrere Messungen hinweg nicht verändern ist nur für kurze Zeiträume und bestimmte Merkmalsbereiche haltbar, Kennwerte sind stichprobenabhängig - Im Unterscheid zur KTT wird in der PTT die Erfüllung der mathematischen Annahmen durch Modelltests regelmäßig geprüft (falsch: geprüft, wie wahrscheinlich die Lösung einer Aufgabe in der Population im Mittel ist, die inhaltliche Übereinstimmung zwischen Konstrukt und Messwert geprüft, die Rohwertvarianzen und Kovarianzen untersucht, der Messwert als Ausprägung der individuellen Fähigkeit geprüft - Sowohl in der KTT als auch in der PTT müssen die Items validiert werden (Falsch: Annahmen über das Zustandekommen von Antworten, identischer Ablauf einer Itemanalyse, ungeprüfte Voraussetzung der Eindimensionalität, ungeprüfte Voraussetzung des Skalenniveaus eines aggregierten Testwerts (Summenwert) - Sowohl in der KTT als auch in der PTT wird die Schwierigkeit eines Items ermittelt (falsch: Untersuchung Rohwertvarianzen) - Die KTT war die erste Theorie, die zur Testkonstruktion herangezogen wurde, nach Rost basieren 95% der Tests auf KTT, wird auch als Theorie der Reliabilität bezeichnet (falsch: überwindet einige Schwächen der PTT, als Theorie der Objektivität/Validität bezeichnet) - Systematische Fehler werden in der KTT indirekt der wahren Varianz zugeschlagen (falsch: indirekte Fehlerkomponente, indirekt Fehlerkomponente UND wahre Varianz, mit Fehlerkomponente gleichgesetzt, mit der beobachteten Varianz gleichgesetzt) 8

9 Konstruktionsschritte (Vergleich) KTT PTT Ausgangspunkt: Gesamttest Ausgangspunkt: einzelne Items Testentwurf & Itemkonstruktion Itementwicklung Aufgbenanalyse Logit-Transformation - Schwierigkeit Separate Schätzung von Item- und Trennschärfe Personparameter - erste Schätzung Reliabilität und Validität Selektion & Revision Items Erneute emprische Prüfung (Reliabilität, Validität) Testeichung (Normung) Modelltest (Grafisch) Eliminierung von Items, die die strengen Modellannahmen nicht erfüllen Zusammenstellung des Gesamttests Vorteile der PTT - empirische Überprüfung der Modellannahmen - Stichprobenunabhängigekit der Parameter - INtervallskalennievau liegt gesichtert bir - weiterte Vorzüge, z.b. adaptives Testen Einwände gegen die PTT - sehr komplex - hoher Konstruktionsaufwand - praktisch haben sich auch Tests nach KTT bewährt - enge Merkmalsbereiche - seltene Anwendund Top-Down Bottom-Up 9