1. Testgütekriterien

Transkript

1 Testtheorie und Testkonstruktion 1. Testgütekriterien 2. Testentwicklung 3. Testevaluation 4. Klassische Testtheorie 5. Probabilistische Testtheorie 1. Testgütekriterien Wissenschaftlicher/Diagnostischer Test Wissenschaftliches Verfahren zur Messung psychologischer Merkmale Mithilfe von Skalen oder Kategorien Ziel: Ermittlung des Ausprägungsgrades individueller Merkmale wurde sich mithilfe von Testgütekriterien empirisch überprüft im Gegensatz zu unwissenschaftlichen Tests Testobjekte Einzelperson Gruppen Kombi aus Personen und Situationen Zeitbereiche Veränderungsmessung Testitems Einzelne zu bearbeitende Aufgaben eines Tests Testskala Satz von Items die den gleichen Skalierungseigenschaften genügen Testbatterie Kombination aus Einzeltests Zur Erhöhung der Genauigkeit und Güte der Messung Testtheorie ist Theorie über Verschiedene Arten von Tests, deren Aufbau und Konstruktionsprinzipien Zusammenhang von Testverhalten und dem zu erfassender Merkmal Ableitung von Gütekriterien Testmanual bei wissenschaftlichen Test sind hier die Testgütekriterien erläutert Testgütekriterien Instrument der Qualitäts- und Wissenschaftlichkeitsprüfung In Testmanual erläutert Hauptgütekriterien

2 Objektivität Das Ergebnis des Tests, also die gemessenen Merkmale, sind unabhängig vom Versuchsleiter, von der auswertenden Person und der Ergebnisinterpretation Durchführungsobjektivität: Standardisierung de Testsituation Auswertungsobjektivität: Antworten genau quantifizieren Interpretationsobjektivität: Schlussfolgerungen unabhängig vom Testanwender Reliabilität Zuverlässigkeit mit der ein Test ein Merkmal misst/maß für die Messgenauigkeit Je geringer der Messfehler, desto höher Reliabilitätskoeffizient: r=1 gibt es keinen Messfehler r=0 ist das Ergebnis ein einziger Messfehler r=0,7 akzeptabel, 0,8 + 0,9 gut Quotient von wahrer Varianz (Veränderung des Merkmals/Merkmalsstreuung der wahren Werte) zur Gesamtvarianz (wahre Varianz + Messfehler) Dieses Varianzverhältnis kann nur geschätzt werden Reliabilität anhand korrelativer Techniken bestimmt weisen Probanden in 2 Testungen die gleichen Werte auf? Probleme bei der Reliabilität: Testwerte zeigen hohe Abhängigkeit von der Grundgesamtheit, aus der eine Person stammt (je nachdem wie hoch da die Varianz ist) Die Genauigkeit eines einzelnen Testwertes bei einer bestimmten Person kann nicht bestimmt werden, aber diese können unterschiedlich sein Immer nur Testung für das ganze Testverfahren Retest-Reliabilität: Zeitliche Stabilität der Werte zwischen 2 Testungen Derselbe Test nochmal präsentiert Testergebnisse korreliert Merkmal muss konstant bleiben Annahme konstanter wahrer Werte und gleicher Messfehlereinflüsse Zeitintervall darf keinen Einfluss haben Bei instabilen Merkmalen kurzes Intervall, bei stabilen länger Übungseffekte müssen ausgeschlossen sein Probleme: Minderung der Retest-Reliabilität, wenn sich Merkmalsausprägungen im Zeitverlauf verändern also bei Veränderung der wahren Werte Systematische Veränderung der wahren Werte unkritisch: wenn sich alle Probanden z.b. durch Training verändern Unsystematische Veränderung der wahren Werte beeinflusst Reliabilität: wenn Zu-oder Abnahme der wahren Werte für verschiedene Probanden unterschiedlich Paralleltest-Reliabilität: Zusammenhang zwischen parallelisierten Testformen Inhaltlich ähnliche Items aus zwei Tests, deren Mittelwerte und Varianz gleich sind bzw. mit gleichen wahren Werten und gleicher Fehlervarianz Entscheidend ist der zeitliche Abstand für die Vorgabe der Parallelformen:

3 Bei unterschiedlichen Iteminhalten: kurzer Abstand wenn die eine Form sich deutlich von der anderen unterscheidet Bei interindividuell unterschiedlichen situativen Einflüssen auf das Merkmal: längeres Intervall Gibt es Schwankungen, dann sollten sich die beiden Tests aber dennoch nicht gegenseitig beeinflussen dann wären sie nicht mehr unabhängig Bei längeren Intervallen: unsystematische Veränderungen in den wahren Merkmalsausprägungen wahrscheinlicher Sind Übertragungseffekte nicht auszuschließen, sollte die Reihenfolge der Präsentation der Parallelformen ausbalanciert werden Vorteile: Übungs- oder Erinnerungseffekte können ausgeschlossen werden Unsystematische Fehlervarianzen, die für alle unterschiedlich sind, sind unkritisch Probleme: Erstellung paralleler Testformen aufwändig Bei Persönlichkeitstest wird großer Itempool benötigt Prüfung der Parallelität durch KTT nur indirekt und ungenau nur Vergleich der Mittelwerte, Varianzen und Korrelationen der Testformen Bereits geringe Abweichungen in der Itemformulierung können zu Differenzen der Testwert und somit zu Minderung der Paralleltest- Reliabilität führen Split-Half-Reliabilität: Ein Zeitpunkt, eine Testform Teile eines Tests als parallele Testversionen Reliabilität als Korrelation der beiden Teile: diese entspricht allerdings nur einer Reliabilität eines halben Tests Reliabilität gegenüber dem Gesamttest verringert sich Spearman-Brown-Korrektur: berücksichtigt, dass sich bei Testverlängerung um parallelen Testteil die Fehlervarianz verdoppelt und die wahre Varianz vervierfacht Grund: die wahren Werte beider Testwerte kovariieren, die Fehleranteile aber nicht Odd-Even-Methode: geradzahlige und ungeradzahlige Items bilden Testhälften Zeitpartitionierungsmethode: Zeit der Testbearbeitung als zwei gleich lange Testhälften Itemzwillingsmethode: Itempaare gleicher Schwierigkeit und Trennschärfe, die per Zufall der einen oder andern Testhälfte zugeordnet werden Problem: Verschiedene Arten der Bildung des Testhälften führt zu Unterschieden der Koeffizienten Grundsätzlich: Methoden, die auf Testteilen basieren, unterschätzen die Reliabilität bei inhaltlicher Heterogenität der Items! Konsistenzanalyse/Interne Konsistenz: Verallgemeinerung der Testhalbierungen Jedes Item des Tests wird als eigenständiger Testteil aufgefasst

4 Berechnung von Cronbachs Alpha: mittlere Reliabilität bei Bildung aller möglichen Testhalbierungen Umso höher, je stärker Items korrelieren nur wenn alle Items das gleiche Merkmal messen, ist Cronbachs α korrekt Heterogene Merkmale führen zu Unterschätzung der Konsistenz Cronbachs α ist kein Beleg für Eindimensionalität eines Tests, da es auch im Falle einem mehrdimensionalen Merkmals hoch sein kann Höhe von cronbachs α ist von der Anzahl der Items abhängig Invers formulierte Items: werden eingesetzt um Antworttendenzen vorzubeugen Solche können Reliabilität über-oder unterschätzen, da sie unabhängig vom Iteminhalt einen eigenen Faktor bilden können Negative cronbachs α: Wenn einzelne Items negativ mit den übrigen korrelieren z.b. wenn inverse Items nicht umkodiert werden ist nicht sinnvoll zu interpretieren Vorteil: bei zeitlich instabilen Merkmalen adäquatere Schätzmethode als Retest-Reliabilität Validität Gültigkeit der Interpretationen von Testergebnissen Ein Test misst das, was er zu messen vorgibt daher muss genau beschrieben werden, wozu der Test dienen soll Es gibt verschiedene Arten der Validitätsbestimmung (also der Operationalisierung) Inhaltsvalidität: Items des Tests sollen inhaltlich das Konstrukt wiederspiegeln, das der Test erfassen soll Frage, inwieweit die Items eine repräsentative Stichprobe aus allen möglichen Items sind, die auf das zu messende Merkmal bezogen sind Frage: Erfassen alle Items das zu messende Konstrukt? Bestimmung der Inhaltsvalidität selten numerisch, sondern anhand fachkompetenter Analysen auf Item- und Testebene Nicht berechenbar, nicht formalisiert Nur durch Expertenurteile objektivierbar Keine empirische Begründung Muss durch Planung des Tests sichergestellt werden Merkmal wird operational oder theoretisch definiert Operational: Merkmal durch die Testinhalte definiert Unterschiede in den Testergebnissen unterliegen keinen theoretischen Annahmen, sondern werden nur anhand der Testinhalte festgestellt Solche Merkmale dürfen nicht als Ursache für das Testergebnis betrachtet werden keine kausale Beziehung zum Merkmal Merkmale werden repräsentativ erfasst bei operationaler Merkmalsdefinition Inhaltsvalidität bezieht sich auf Generalisierung von Interpretationen von Testresultaten über die Inhalte des Test hinaus

5 Inwieweit die Items das Universum der möglichen Items angemessen repräsentieren, sodass Repräsentationsschluss möglich ist Theoretisch: Merkmal wird durch ein theoretisches Konstrukt definiert Inhaltsvalidität bezieht sich auf eine erklärende Interpretation von Testresultaten auf Itemebene Annahme, dass unterschiedliche Itemantworten auf Unterschiede im erfassten Konstrukt zurückzuführen sind, so dass von den Antworten Rückschlüsse auf das Konstrukt gezogen werden können Konstruktvalidität: Wenn psychologische Theorie vorhanden ist Stark theoretisch Empirisches Gesetz: aus den Axiomen der Theorie werden Vorhersagen über die Zusammenhänge von Konstrukten abgeleitet, die dann anhand beobachtbarer Variablen empirische überprüft werden Konstrukt: theoretische Größe, die definiert wird und nur indirekt erfasst werden kann (nicht direkt abmessbar/ablesbar) Das durch den Test gemessene Konstrukt soll mit ähnlichen Konstrukten zusammenhängen, um es zu stützen, aber unabhängig sein von inhaltsfremden Konstrukten es soll also wirklich NUR das Konstrukt gemessen werden, sodass von den Ergebnissen auf das Konstrukt geschlossen werden kann Folgende Arten der Bestimmung der Konstruktvalidität: Konvergente Validität: Korrelation zwischen vorliegendem Test und Vergleichstest Divergente Validität: von den Merkmalen anderer Tests abgrenzbar; niedrige Korrelationen Empirische Bestimmung: Keine Kennwerte zur Bestimmung der Konstruktvalidität vorhanden Zur inferenzstatistischen Absicherung werden neben Angaben zur erwarteten Effektgröße, zum α- und β-fehler sowie zum optimalen Stichprobenumfang vor allem gerichtete Hypothesen vorausgesetzt Ferner sind Grenzwerte für Korrelationskoeffizienten zu formulieren Doppelte Minderungskorrektur: Da bei psychologischen Tests nicht von optimaler Reliabilität ausgegangen werden kann, ist der beobachtete Zusammenhang zwischen 2 Testwerten unter der Berücksichtigung der Reliabilitäten für x und y zu korrigieren Verwendung der Formel der doppelten Minderungskorrektur Kriteriumsvalidität: Das Verhalten einer Person soll außerhalb der Testsituation anhand der produzierten Testsituations-Daten vorhergesagt werden. Bezieht sich auf die praktische Anwendbarkeit des Tests Validierung: Bestimmung der Korrelation der Testvariablen und der Kriteriumsvariablen Zusammenhänge zwischen den Testwerten mit den Außenkriterien werden hergestellt Konkurrente Validität: ein zeitgleiches Außenkriterium liegt vor Prognostische Validität: Intension ist eine Prognose einer zukünftigen Merkmalsausprägung

6 Inkrementelle Validität: Zur Vorhersage eines externen Kriteriums werden verschiedene Prädiktoren herangezogen, wodurch die Vorhersage genauer werden soll. Augenscheinvalidität: Nachvollziehbarkeit durch Laien Vpn sollen nachvollziehen können wozu der Test dient Nicht immer gewollt, um Fälschung und soziale Erwünschtheit zu vermeiden Gefahr der Trivialisierung von Diagnostik Nebengütekriterien Normierung/Eichung Erstellung eines Bezugssystems zum Vergleich und zur Einordnung des Ergebnisses mit anderen Vpn Bessere Interpretierbarkeit, Leistungsvergleich möglich Verwendung von z-werten Durch folgende Aspekte wird der Geltungsbereich einer Norm bestimmt: Repräsentativität: An wem wurde der Test normiert? Gegenüber welcher SP können Aussagen getroffen werden? Alter der Normen: ständige Aktualisierung notwendig Testbedingungen: Wie wurde bei der Normierung getestet? Skalierung Die laut Verrechnungsregel ergebenden Testwerte müssen die empirischen Merkmalsrelationen adäquat abbilden Mit den Unterschieden in den Testwerten müssen adäquat die empirischen Merkmalsrelationen abgebildet werden Messinstrumente müssen mit den entsprechenden Skalenniveaus ausgestattet sein Ökonomie Gemessen am Erkenntnisgewinn wenig Ressourcen Zeit, Geld und Auswertungsaufwand Nützlichkeit/Utilität nützliche Anwendungsmöglichkeiten Praktische Relevanz Die auf seiner Grundlage getroffenen Entscheidungen sollen mehr nützen als schaden Zumutbarkeit Verhältnis zwischen Testnutzen und zeitlicher, psychischer und physischer Beanspruchung der Testperson Unverfälschbarkeit Testperson darf die Ausprägungen der Testwert nicht durch gezieltes Testverhalten steuern oder verzerren Wird durch niedrige Augenscheinvalidität erreicht um zb soziale Erwünschtheit zu vermeiden

7 Fairness Keine Benachteiligung bestimmter Personen Keine diskriminierenden Schlussfolgerungen gegen ethnische oder geschlechtsspezifische Merkmale Beziehung zwischen den Hauptgütekriterien Objektivität ist ein Test nicht objektiv, sind seine Ergebnisse auf Fehler bei der Durchführung, der Auswertung oder der Interpretation zurückzuführen notwendig, aber nicht hinreichend für Reliabilität ist ein Test nicht reliabel, wird kein einheitliches Konstrukt gemessen, d.h. die Items erfassen unterschiedliche Sachverhalte notwendig, aber nicht hinreichend für Validität ist ein Test nicht valide, können auf seiner Grundlage keine angemessenen Aussagen und Entscheidungen getroffen werden 2. Testentwicklung 5 Phasen der Testentwicklung Testplanung Testentwicklung Erstellung Vorläufige Erprobung einer Vorversion Ziel der Revision zum finalen Test 1. Schritt Exakte Definition des zu messenden Konstrukts Basis: psychologisches Modell oder Theorie Testplanung: Erhebungsmerkmale Qualitative Merkmale: kategoriale, nominalskalierte Ausprägung (z.b. ja/nein) Quantitative Merkmale: Abstufungen zum Grad der Ausprägung; ordinal- oder intervallskaliert Eindimensionale Merkmale: repräsentiert nur ein Konstrukt Mehrdimensionale Merkmale: repräsentiert mehr als ein Konstrukt Zeitlich stabile Merkmale: Traits z.b. Persönlichkeitsmerkmale

8 Zeitlich veränderliche Merkmale: States situationsabhängiger Zustand z.b. in einem Lernprozess Testart Fähigkeits- und Leistungstest Dimensionen der kognitiven Leistungsfähigkeit (max. Leistung) Z.B. Wechsler-Intelligenztest Speed- oder Geschwindigkeitstest: Einfache Aufgaben Mit Zeitbegrenzung Bewertung der richtigen Antworten Power- oder Niveautest: Schwierige Aufgaben steigender Schwierigkeitsgrad Ohne Zeitbegrenzung Bewertung des maximal möglichen Leistungsniveaus Mischformen aus beiden Testarten möglich Persönlichkeitstest z.b. NEO-FFI Ausprägungen von Persönlichkeitsmerkmalen Verhaltensdisposition Keine Leistung sondern Selbstauskunft Fragebögen Kein richtig oder falsch Neigen zur Verfälschbarkeit da subjektiv Objektive Persönlichkeitstests Z.B. objektiver Leistungsmotivationstest Keine Augenscheinvalidität Verhalten in einer standardisierten Testsituation Projektives Verfahren Z.B. Rohrschach-Test Persönlichkeits-Entfaltungstests Erfassen Gesamtpersönlichkeit anhand qualitativer Marker Mehrdeutiges bildhaftes Testmaterial Unbewusstes soll ins Material projiziert werden Testgütekriterien nur unzureichend erfüllt Geltungsbereich Festlegung des Einsatzbereiches und der Anwendungsmöglichkeiten Je höher, desto mehr Infos müssen erfasst werde Personenkreis/Zielgruppe festlegen Testlänge Testdauer Konstruktionsstrategie Intuitive Konstruktionsstrategie Keine zugrunde liegende Theorie Items aus Annahmen des Konstrukteurs abgeleitet

9 Rationale KS Test wird auf Grundlage von Theorie entwickelt Items sollen Theorie umsetzen Externale/kriteriumsorientierte KS Außenliegendes Kriterium das erfasst werden soll Keine Items, die Theorie am besten widerspiegeln, sondern das Kriterium am besten differenzieren Induktive/faktorenanalytische KS Items, die sich verschiedenen Verhaltensdimensionen zuordnen lassen Durch Faktorenanalyse in Dimensionen untergliedert Hohe Korrelationen gemeinsamer Faktor Prototypenansatz Sonderfall Probanden sollen Items finden, die dem Prototyp entsprechen Items Itemstamm: Frage, Aussage, Aufgabe, Stimulusmaterial Antwortformat Aufgabentypen Offenes Antwortformat Testperson formuliert Antwort selbst Kurzaufsatz: Eigenständige Wissensreproduktion, nicht nur Wiedererkennen Kreativität, Sprachverständnis, Wissensanwendung Hoher Auswertungsaufwand Wenig Auswertungsobjektivität Ergänzungsaufgabe: Itemstamm durch Schlüsselwort vervollständigen Teillösungen bei komplexen Fragestellungen Gebundenes Antwortformat Antwortalternativen Ökonomische und objektive Auswertung Ordnungsaufgaben: Zuordnungsaufgaben: bei Wissens- und Kenntnisprüfung Testung von korrektem Wiedererkennen Zuordnung von je zwei Elementen Bei zu vielen Zuordnungsaufgaben zu hohe Ratewahrscheinlichkeit Umordnungsaufgaben: bei Verwendung von Bildmaterial Umsortierung von Elementen Nachweis von Schlussfolgerndem Denken Ordnungsaufgaben Vor- und Nachteile Beeinträchtigung durch Lesefahigkeit ausgeschlossen Schlussfolgerndes denken, Erkennen von Ursache- Wirkungszusammenhänge erfassen

10 Materialentwicklung aufwendig Gruppentestung eingeschränkt Auswahlaufgaben Mehrere Alternativen richtige Antwort wählen Leistungstests: formulieren von Antwortalternativen, die richtig aussehen, aber inhaltlich falsch sind Je mehr Distraktoren (zerstreuende Items), umso kleiner Zufallswahrscheinlichkeit richtige Antwort zu raten Aber nur eine Antwort darf richtig sein, die anderen müssen Disjunktion (gegenseitiges Ausschließen) erfüllen Bei Persönlichkeitstests: Exhaustivität (Vollständigkeit) muss gegeben sein Dichotome aufgaben (nur zwei alternativen) ökonomisch, aber 50% Ratewahrscheinlichkeit Mehrfachwahlaufgaben(multiple-choice) Vor- und Nachteile Auswahlaufgaben: Ökonomisch, objektiv, einfach Ratewahrscheinlichkeit kann verringert werden Auswahlaufgaben erfassen nur Rekognitionsleistung Beurteilungsaufgaben(statements) Bei Persönlichkeitstests diskrete Ratingskala (Stufenskala): 4-10 Abstufungen mit numerischer Gewichtung Ratingskala meist für gesamten Test gleich: bessere Verrechnung am Ende zu gesamtpunktwerten (Scores) Kontinuierliche Analogskala: Kontinuum zwischen Extrempositionen Optimale Anzahl von skalenstufen: Hängt von Diskriminationsfähigkeit der Vps ab Bei einzelner Skala 9+-2 Kategorien empfohlen Bei Itembatterie: 5+-2, da Verarbeitung mehrerer Items zu globalwert den wertebereich der Skalierung erhöht 7 Stufen optimal für Informationsgewinn Forciert/nicht forciert: Ungerade Anzahl: nicht-forciert neutraler Mittelpunkt, der nicht immer leicht interpretierbar neutrale Ausweichkategorie empfehlenswert (ab weiß nicht) Forciert: zwang zu urteil; keine neutrale Position möglich Polarität der Skala: Bipolare Skalen: positiv (stark zustimmend), negativer Pol (stark ablehnend) Unipolar: Punkt geringster und größter Intensität Balancierung einer Skala: Balanciert/symmetrisch: gleich viele positive wie negative Kategorien Unbalanciert/asymmetrisch: ungleiche Skala: bei erwartetem Zustimmungseffekt differenziertere Ausgangsmöglichkeiten für die erwartete Richtung Verankerung einer Ratingskala: Definition der skalenendpunkte sowie der skalenstufen Numerische Verankerung: Zahlenbezeichungen

11 Verbale: worte oder Sätze als Bezeichungen Optische Form von ratingskalen: Horizontale oder vertikale Präsentation Symbolische Marker (Emilies) Verbundene oder getrennte Darstellungsweise Skalenniveaus von ratingskalen: Keine Messtheorie vorhanden Man unterstellt Intervallskalenniveau obwohl das bei verbaler Verankerung nicht möglich ist Keine Generalisierung für alle Situationen Merkmal, Probanden und Messinstrument interagieren bei jeder Messung Eingeschränkter Geltungsbereich Messinstrument nur fähig ein bestimmtes Skalenniveau zu erreichen Reliabilität und Validität von Ratingskalen: Zwei Methoden der Reliabilitätsbestimmung: Test-Retest Methode Interratermethode: Übereinstimmung der Beurteiler bei der Einstufung desselben Stimulus Vor- und Nachteile Beurteilungsaufgaben Leichte Handhabung, Ökonomie und Akzeptanz durch Vps Messtheoretisch Problematisch: Zuordnung von Zahlen zu Skalenpunkten, denen Intervallskalierung unterstellt wird, wobei nur ordinalskala- abstufung Fehlerquellen bei der Itembearbeitung Systematische Fehler sind zu berücksichtigen erzeugen konstruktirrelevante Varianz Soziale Erwünschtheit: Antwort in Übereinstimmung mir gesellschaftl Normen Selbsttäuschung: unbewusste Tendenz, sich selbst besser darzustellen deshalb: Kontroll- Lügenskalen Antworttendenzen: Unsicherheit, Unwissen Tendenz zur Mitte, um sich unauffällig zu verhalten reduzierte Itemvarianz Zustimmungstendenz: bei unreflektierter Reaktion Itemart Direkt: (sind sie ängstlich) kann zu unterschiedlichen Bedeutungszuweisungen führen Indirekt : erleichtern Interpretation, sind aber schwer zu wählen Hypothetische Situation (stellen sie sich vor): anfällig für Fehleinschätzungen Biografiebezogen (wie haben sie sich verhalten als):sind hinsichtlich ihres uneingeschränkten Zutreeffens für die Zielgruppe zu validieren Abstrakt (wie schätzen sie ein): interpretationsfreiräume Konkret (wie verhalten sie sich): von situationalen Faktoren abhängig Personalisiert (verwenden sie): Verletzung der Privatsphäre Depersonalisiert (sollte man): Gefahr sozialer Erwünschtheit Varianz im Antwortverhalten Wenn zu leicht oder zu schwer: was alle können, bzw nicht können differenziert nicht zwischen Vps überflüssig keine Varianz

12 Sollte: unterschiedliche Merkmalsausprägungen auch maximale unterschiede Sollen jedoch außergewöhnliche Merkmale (in Klinik) erhoben werden, zb extreme Schwierigkeitsgrade, gilt Regel nicht mehr Weitere Aspekte bei Itemformulierung Anhaltende Aktualität Keine implizite werte Keine Suggestivfragen, die gewünschte antworten nahe legen Kein hervorrufen von konstruktfremden Emotionen, um Beantwortung nicht zu erschweren Vortestversion: Instruktion/Testanweisung Mitteilung des Forschungszwecks Animation zur Mitarbeit Verweis auf vollständige Beantwortung Regeln für Beantwortung (spontan ) Anonymitätshinweis Vorgabe von Antwortbeispiel Bei Fragebögen: soziodemografische angaben Vortestversion: Anordnung des Itempools Sortierung nach Komplexität/Schwierigkeit (Leistungstests): Zur Motivation leichte an Anfang Zur Konzentration: schwere an Anfang Konsistenzeffekt (Persönlichkeitstests): Nicht Eindruck gleicher Merkmalsmessung, was identische Antwort erwartet Verringerung durch Randomisierung/ Ausbalancierung Verschleierung der Messintention auch durch Testbezeichnung möglich Aktualisierungseffekt: Keine Erzeugung von Kognitionen, die nachfolgende Interpretation der Items beeinflussen Unabhängigkeit der Itembeantwortung Vortestversion: Erprobung des Itempools Zusammenstellung des Itempools: In Itempool mehr items als nötig In Itmeselektion unbrauchbare entnommen Durch größere Zahl von Items höhere Repräsentativität und Reliabilität Testökonomie: Wirkt Repräsentativität und Reliabilität entgegen Zumutbarkeit erfordert Begrenzung Für diagnostische Situation angemessen Anzahl benötigter Items pro Merkmal: Abhängig von weite des Merkmals Ca. 30 bis 60 pro m. im Itempool ausgewählt Bei Leistungstests, z.b. für Intelligenz höher

13 3. Testevaluation Verschiedene Analyseschritte zur Qualitätsbestimmung und Einhaltung von Normen Es wird von Intervallskalenniveau ausgegangen Itemschwierigkeit Schwierigkeitsindex Pi: Quotient der erreichten Punktwerte und der maximal erreichbaren Punktsumme aller Probanden mal 100 Indizes zwischen 0 und 100 Je größer P, desto leichter ist das Item Leistungstests Speed-Tests: Unterscheidung zwischen richtig und falsch und ausgelassen und unbearbeitet Ausgelassen: nur dieses Item wurde nicht beantwortete, danach folgende ab er schon Unbearbeitet: ab diesem Item wurde nicht mehr beantwortet Bearbeitete Items setzten sich zusammen aus richtigen, falschen und ausgelassenen Antworten Schwierigkeitsindex: Verhältnis richtige zu bearbeiteten Items Power-Tests: Unterscheidung richtig und falsch und ausgelassen Schwierigkeitsindex als Quotient aus richtigen und allen Antworten Eventuell Ratekorrektur des Indizes Persönlichkeitstests Unterscheidung zwischen symptomatisch (hohe Werte) und unsymptomatisch (niedrige Werte) für eine Merkmalsausprägung Bei 2 Antwortkategorien: (1=symp., 0=unsympt.): wie bei Powertest Verhältnis symptomatische und alle Antworten Mehr als 2 Kategorien: Dichotomisierung Werte in 2 Kategorien hoch und niedrig anhand eines Grenzwertes eingeteilt macht Skala grob (Informationsverlist) Daher: Schwierigkeitsindex für intervallskalierte Stufen möglich: Quotient aus i-ter Spaltensumme und maximal möglicher Spaltensumme Mittlere Werte für diesen Index(50): maximale Streuung hohe Differenzierung zwischen den Probanden (Löser werden von Nicht-Lösern unterschieden) Sucht man Differenzierung in den Extremen (z.b. Klinik), also sehr schwer, oder sehr leicht, wird breite Streuung der Schwierigkeitskoeffizienten angestrebt Itemvarianz Itemvarianz entspricht bei dichotomen Items dem Produkt der Wahrscheinlichkeit, das Item zu lösen und der Gegenwahrscheinlichkeit, das Item nicht zu lösen Maximale Varianz bei mittlerer Itemschwierigkeit Zu den Extremen nimmt sie kontinuierlich ab Für zweistufige Items (gelöst, nicht gelöst) besteht quadratischer Zusammenhang zwischen Itemschwierigkeit und Itemvarianz Man kann mit Itemvarianz Differenzierungsfähigkeit eines Items feststellen Items, die keine Varianz erzeugen, differenzieren auch nicht Trennschärfe

14 Korrelation zwischen Item- und Testwerten (Item-Test-Korrelation) Korrelation einzelner Itemwerte mit dem Testwert sämtlicher Items eines Tests Misst inwieweit Differenzierung erfolgreicher und erfolgloser Probanden durch ein Item mit der Differenzierung durch den Test übereinstimmt Passt das Item zum Test Bei wenigen Items: Part-Whole-Korrektur: Das zu korrelierende Item sollte nicht beim Testwert dabei sein, um Trennschärfe nicht zu überschätzen, da ansonsten Korrelation der Variablen mit sich selbst eingeht Testwert wird um zu korrelierendes Item bereinigt Die Korrektur verringert sich mit zunehmender Zahl an Items Bildung eines Testwerts setzt Itemhomogenität voraus, d.h. Items sollten das gleiche Merkmal messen Bei intervallskalierten Items: Produkt-Moment-Korrelation nach Pearson Bei dichotomen Merkmalen: punkt-biseriale Korrelation Interpretation 0,4-0,7: gute Trennschärfe Hoher Wert: Items sind homogen gegenüber dem Gesamttest Probanden mit hoher Merkmalsausprägung lösen das Item Kleiner Wert: mangelnde Differenzierung durch ein Item in Zusammenhang mit der Differenzierung des Gesamttests Item für Unterscheidung von Probanden ungeeignet Negative Werte: fehlerhafte Itemformulierung Kodierung muss umgedreht werden Probanden mit niedriger Merkmalsausprägung lösen das Item Selektionskennwert Trennschärfe von den Interkorrelationen der Items abhängig Hohe Interkorrelationen: hohe Trennschärfe Bei unterschiedlichen Schwierigkeitskoeffizienten in einem Test geringe Interkorrelationen Selektionskennwert: Übergeordnetes Maß für die Güte des Items Berücksichtigung der Trennschärfe und der Aufgabenstreuung Geht man nur von Trennschärfe aus, selektiert man Items, die extreme Merkmalsausprägung messen entfernt man Items mit niedrigem Selektionskennwert, entgeht man der Gefahr, die extremen zu verlieren Zusammenfassend: Itemselektion Simultane Berücksichtigung der Ergebnisse der Itemanalyse (Schwierigkeit, Varianz, Trennschärfe) Mittlerer Schwierigkeitsgrad: differenzieren zwischen hoher und niedriger Merkmalsausprägung Für Erfassung der Extreme: hohe oder niedrige Schwierigkeit Items sollten immer gute Trennschärfe haben Idealerweise differenziert ein Test über gesamten Schwierigkeitsbereich Items ohne oder mit negativer Trennschärfe sind zu entfernen Bei Items gleicher Schwierigkeit entscheidet die höhere Trennschärfe Testwertermittlung Leistungstests Einfachster Fall: Testwert=Anzahl richtiger Antworten Falsch-Antworten können mit Gewichtungsfaktor miteingerechnet werden

15 Einzelne Aufgaben können unterschiedlich gewichtet werden Wenn Auswahlaufgaben auch geraten sein können: Rate/-Zufallskorrektur Ratekorrektur Damit kann errechnet werden, wie viele richtige Antworten richtig erraten wurden Diese Anzahl ist vom zufallskorrigierten Testwert abzuziehen Persönlichkeitstests Testwertermittlung durch Summenbildung über die Itemantworten Kategorien der Ratingskala müssen intervallskaliert s4in Testwertverteilung Maße Lagemaße: Mittelwert, Median, Modus, Perzentilgrenzen Dispersionsmaße: Varianz, Standardabweichung, Standardfehler, Spannweite Verteilungsmaße: Schiefe, Exzess/Kurtosis Abweichungen von der Normalverteilung Schiefe Verteilung bei zu leichten (rechtssteil) oder zu schweren (linkssteil)tests schränkt Differenzierungsfähigkeit im Bereich der unterrepräsentierten Items ein Gründe: Konstruktionsmangel oder Fahlanwendung der Zielgruppe Multiple Verteilungen: Gesamtstichprobe setzt sich aus unterschiedlichen Unterstichproben zusammen man sollte dann die Testeichung an den Untergruppen vornehmen Beliebige Verteilungen, wenn Merkmal in Population nicht normalverteilt Normalisierung Wenn Testverteilung nur in der Stichprobe nicht normalverteilt, kann man nicht-lineare Transformation der Testwerte vornehmen normalverteilte Testverteilung Durch: Logarithmierung: jeder Testwert durch seinen natürlichen Logarithmus ersetzt Flächentransformation: Histogramm in Richtung einer Normalverteilung verschoben 4. Klassische Testtheorie Grundlage für die Testkonstruktion Konzept zur Behandlung von Messwerten von Personen Axiome der klassischen Testtheorie Axiome = Setzungen oder Definitionen, die einfach ohne weitere Erklärung aufgestellt werden Beziehen sich auf die beobachteten Testwerte, die wahren Testwerte und einen Messfehler 1. Axiom: Existenzaxiom: o Der wahre Wert einer Person ist der Erwartungswert der Messung x eines Probanden v in Item i, wenn man häufig genug misst 2. Axiom: Verknüpfungsaxiom: o Jede Messung setzt sich aus einem wahren Wert und einem zufälligen Fehlerwert zusammen o Der Messfehler überdeckt den wahren Wert und führt zu Abweichungen vom wahren Wert. o Die Differenz zwischen dem wahren Wert und dem Ergebnis der Vp ist der Fehler

16 Beide Axiome nehmen an, dass der Zufallsfehler einen Erwartungswert von 0 besitzt, d.h. wenn man häufig genug misst, mittelt sich der Fehler weg. Vorausgesetzt wird also, dass die Wiederholungen unter konstanten Bedingungen stattfinden und keine Messung von der vorherigen beeinflusst wird 3. Axiom: Unabhängigkeitsaxiom: o Die Korrelation zwischen den wahren Werten und den Messfehlern ist 0 o Wäre Korrelation nicht 0, wäre der Fehler systematisch Fazit: o Beobachtbar ist nach den Axiomen nur die Messung xvi o Wahrer Wert und Fehlerwert sind nicht beobachtbar und somit sind sie unbekannte Größen wahrer Wert und Fehlerwert ergeben sich aus Schätzungen Zusatzannahme der klassischen Testtheorie: Unabhängigkeit der Messfehler Es wird angenommen, dass die Fehlervariablen zweier Items für dieselbe Person unabhängig sind bedeutet, dass Erfolg bei einem Item unabhängig von anderen Items bei einer Person ist, sprich, dass es keinen (Lern-)Effekt gibt, dass die Fehlervariablen zweier Personen bei dem selben Item unabhängig sind. bedeutet, die Itembearbeitung muss von unabhängigen Personen erfolgen Bestimmung des wahren Testwertes Man muss den Zufallsfehler neutralisieren Mehrere Messungen zu einem Merkmal mit verschiedenen Items Verrechnung zu einem Testwert Gesucht: Erwartungswert von xv, was dem wahren Testwert entspricht Die Messwertsumme kann als Punktschätzung des wahren Wertes einer bestimmten Person verwendet werden Voraussetzung: es wurde oft genug gemessen Bestimmung der wahren Varianz und Fehlervarianz Zerlegung der Gesamtvarianz (beobachtete Varianz) in wahre Varianz (ein Proband ist einfach besser als ein anderer Unterschiede in den wahren Merkmalsausprägungen der Probanden) und Fehlervarianz (Messfehler der Probanden) Bestimmung der Reliabilität Maß der Zuverlässigkeit Reliabilität ist wahre Varianz geteilt durch beobachtete Varianz Ist das Verhältnis der beiden Varianzanteile 1, dann gäbe es keine Messfehler und die Reliabilität wäre perfekt. Ist die Reliabilität null, misst der Test nur Messfehler Reliabilität und Testlänge Parallele Testteile: Zwei Testteile p und q mit gleichen wahren Werten und gleicher wahrer Varianz Verlängert man Test p um q, ist die gemeinsame Testvarianz die Summe der Einzelvarianzen plus der zweifachen Kovarianz der beiden Tests Bei Verdopplung der Testlänge durch einen parallelen Testteil, resultiert die doppelte Fehlervarianz, aber die vierfache wahre Varianz Spearman-Brown-Formel

17 K=Verlängerungsfaktor (K=2 Verdopplung, K=3 Verdreifachung, ) Standardmessfehler Unerklärter Fehlervarianzanteil der Testwertevarianz Berücksichtigt zusätzlich zur Standardabweichung, wie genau ein Test ist (Präzision des Tests) Standardabweichung für den Fehler = Standardabweichung multipliziert mit der Wurzel aus der Unreliabilität Unreliabilität ist die Unzuverlässigkeit eines Tests Mit dem Standardmessfehler wird der Anteil an der Streuung eines Tests bestimmt, der auf seine Ungenauigkeit zurückgeht Konfidenzintervall des wahren Testwerts Standardmessfehler wird dazu genutzt, die Messwertsumme das Punktschätzung um ein Konfidenzintervall zu erweitern, in dem der wahre Wert liegt. Vertrauensbereich, in dem z.b. 95% aller möglichen wahren Werte liegen, die den Stichprobenschätzwert erzeugt haben könnten Voraussetzungen: o dass Test eine ausreichende Reliabilität hat (größer 0,80) o Fehler sind normalverteilt o Stichprobe größer 60; bei kleineren kann t-verteilung herangezogen werden Minderungskorrektur Korrelation zwischen den wahren Werten zweier Tests soll geschätzt werden Reliabilitäten und die Korrelation der beiden Tests müssen bekannt sein Minderungskorrektur für die Korrelation Mit Minderungskorrektur kann Schätzung der Korrelation zweier Variablen mit wahren Werten vorgenommen werden, wenn deren Reliabilitätskoeffizienten vorliergen Es lässt sich so der Korrelationskoeffizient für den Fall korrigieren, wenn die beiden korrelierten Werte fehlerbehaftet sind, wodurch deren Korrelation vermindert war Doppelte Minderungskorrektur: wenn Test t und Kriterium c eine unzureichende Reliabilität besitzen Kritik an der Klassischen Testtheorie Pragmatisch, aber sie ist umstritten, da sie viele starke Annahmen macht, die nicht empirisch überprüfbar oder fraglich sind: o Nullkorrelation zwischen wahrem Wert und Fehlerwert und bei abhängigen Messungen kontraintuitiv o Konstanz wahrer Werte Annahme, dass Menschen sich nicht verändern (nur bei kurzen Zeitintervallen) o Annahme, dass alle Tests intervallskalierte Daten liefern o Mit den statistischen Verfahren verbundenen Implikationen fraglich, z.b. ob alle psychischen Werte normalverteilt sind o Parameter der KTT sind populations- bzw. Stichprobenabhängig o Mögliche Subpopulationen mit anderen Reliabilitäten und Validitäten werden nicht berücksichtigt o Man kann nicht von Gruppenstatistik auf den Einzelfall schließen wenn Reliabilität/ und oder Validität unter 1 liegt

18 Positives: o Pragmatische Gründe o Die darauf basierenden Tests haben sich in der Praxis oft bewährt o Es liegen inzwischen auch Erweiterungen der KTT vor Fehlerwerte Messfehler ist Zufallsvariable mit dem Erwartungswert null und einer Fehlervarianz, die für alle Personen gleich ist Aus den beiden ersten Axiomen resultiert, dass der Zufallsfehler einen Erwartungswert von 0 besitzt wenn man häufig genug misst, mittelt sich der Fehler weg Korrelationen zwischen wahren Werten und den Messfehlern bei beliebigen Personen und beliebigen Items ist null Wenn r nicht null wäre, wäre der Fehler systematisch Schlussfolgerung, dass sowohl die Summe der Fehlerwerte einer Person bei unendlich vielen Messungen, als auch die Summe der Fehlerwerte einer Messung bei unendlich vielen Personen null ergeben muss Messfehler kommt folgendermaßen zustande: o Einflüsse, die sich im Zuge der Messung unkontrolliert auf das Testverhalten der Probanden auswirken und damit das Messresultat kontaminieren können (Klima, Motivation, Versuchsleiter, ) Zusatzannahme der klassischen Testtheorie: Unabhängigkeit der Messfehler Wahrer Wert und Fehlerwert Messfehler überdeckt den wahren Wert und führt zu Abweichungen von ihm Messfehler sorgt dafür, dass der wahre Wert schwankt Die beobachtbare Messung setzt sich aus einem wahren Wert und einem Fehlerwert zusammen, die beide nicht beobachtbar sind unbekannte Größen, die sich aus Schätzungen ergeben 5. Probabilistische Testtheorie (PBT)/Item- Response-Theorie (IRT) Theorie, die auf Wahrscheinlichkeiten basiert Frage: wie verhält sich die Schwierigkeit des Items zu dem, was der Proband kann Unterscheidung zweier Ebenen von Variablen: Manifeste Variablen die beobachtbaren Antworten auf Testitems Rückschluss von manifesten Variablen auf latente Variable Indikatoren der latenten Variable, also das dahinterliegende Konstrukt Korrelationen sind auf Einfluss der latenten Variable zurückzuführen Latente Variablen nicht beobachtbare Fähigkeits-und Persönlichkeitsmerkmale nicht direkt messbar

19 manifeste Variablen werden genutzt um Ausprägung einer Person auf latenter Variable rauszufinden Ausprägung der l.v. kann nur erschlossen werden Merkmal, das die Itemantworten zustande kommen lässt (l.v. verursacht die Itemkreuze) Lokale stochastische Unabhängigkeit um von manifesten Variablen auf latente Variable zu schließen, müssen mehrere korrelierte manifeste Variablen als Datenbasis vorliegen. Hinreichende Bedingung: Itemhomogenität bezüglich der latenten Variable dass das Antwortverhalten nur durch das latente Merkmal beeinflusst wird Itemhomogenität, wenn die manifesten Variablen die Bedingung der lokalen stochastische Unabhängigkeit erfüllen l.s.u. Lässt sich so untersuchen: latente Variable wird auf einen bestimmten Wert konstant gehalten Stichprobe von Probanden, die alle die gleiche Ausprägung hinsichtlich des Merkmals haben Korrelationen der Antwortvariablen untersuchen liegt Itemhomogenität vor, verschwinden die Korrelationen zwischen den Antwortvariablen wenn die Items homogen sind, müssen Personen mit gleicher Merkmalsausprägung der latenten Variable bei einem Items die selben Werte erreichen im idealen Fall ohne Fehlereinflüsse gäbe es also einen Datenpunkt in einem Streudiagramm, bzw. mit Messfehlern eine enge kleine Punktwolke mit Nullkorrelation wäre die Korrelation nicht null, wären die Items nicht homogen und die Items würden dann noch etwas anderes messen als das Merkmal Überprüfung der Unkorreliertheit mithilfe des Multiplikationstheorems für unabhängige Ereignisse: Wahrscheinlichkeit für Auftreten zweier Ereignisse ist Produkt ihrer Einzelwahrscheinlichkeiten in unserem Fall: Wahrscheinlichkeit dass man zwei Items i und j zustimmt, wenn man eine bestimmte Merkmalsausprägung der latenten Variable hat Sind die Items unabhängig, ist die latente Variable der einzige Verursacher, was bedeutet, dass die Items homogen sind sie sind Indikator der latenten Variable Modelltypen unterscheiden sich in der Definition der latenten Variable Latent-Class-Modelle kategoriale latente Klassen zur Charakterisierung von Personenunterschieden Latent-Trait-Modelle verwenden quantitative, kontinuierliche latente Variablen Beziehung zwischen manifesten Testantworten und der Ausprägung der latenten Variable als Itemcharaktaristische Funktion (IC-Funktion) Abszisse: latente Variable, Ordinate: Lösungswahrscheinlichkeit Items sind durch Schwierigkeitsparameter charakterisiert: wie leicht oder schwer das Item ist Personenparameter: gibt an, wie fähig eine Person ist welche Leistung jmd. bringen kann Ausprägung der latenten Variable einer Person für jedes Item lässt sich bestimmen, welche Lösungswahrscheinlichkeit eine Person mit einem bestimmten Personenparameter hat: Beziehung der Itemschwierigkeit und der Lösungswahrscheinlichkeit in Abhängigkeit davon, welche Merkmalsausprägung jemand hat Probabilistische und Deterministische Modelle sind Latent-Trait-Modelle, die sich nur in ihren

20 IC-Fuktionen unterscheiden Latent Trait Modelle 1. Deterministische Modelle gehen davon aus, dass Antwortverhalten nur durch Item- und Personenparameter bestimmt wird Skalogramm-Modell/Guttmann-Modell Items sind von links nach rechts nach ihrer Schwierigkeit abgetragen. Eine Person mit einem bestimmten Fähigkeitsparameter kann, wenn er Item 2 lösen kann auch Item 1 links davon lösen Items sind dichotom: es gibt nur gelöst und ungelöst Für jedes Item wird ein bestimmter Fähigkeitswert angenommen, ab dem es gelöst wird Auswertung des Guttmann-Modells: Reproduzierbarkeitskoeffizienten: o anhand dessen wird festgestellt, ob Modellkonformität/Itemhomogenität gegeben ist o maßgeblich: Anzahl der Rangplatzvertauschungen, wenn schwierigere Items gelöst, leichtere nicht gelöst werden (dies ist nämlich nicht modellkonform!!!), also Überprüfung, ob die Probanden sich Modellkonform verhalten Der Skalenwert/Testwert eines Probanden ist die Rangzahl des Items, auf das noch positiv reagiert wird Kritik: es können nur Ranginformationen abgelesen werden (ordinale Information) keine Aussagen zu Distanzen 2. Probabilistische Modelle gehen von stochastischer Beziehung zwischen dem Antwortverhalten und dem Item- und Personenparameter Verwendung monoton steigender IC-Funktionen (logistische Funktion) Ordnet jeder Ausprägung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein Proband ein bestimmtes Item löst eine Funktion bezieht sich immer auf ein einzelnes Item Lösungswahrscheinlichkeit steigt mit Fähigkeit der Probanden je weiter rechts die Funktion liegt, desto schwieriger ist ein Item am Wendepunkt ist immer eine Lösungswahrscheinlichkeit von ½ hier ist der Personenparameter gleich der Itemschwierigkeit Günstiger sind IC-Funktionen bei dichotomen Items Einparameter-Logistisches Modell mit Itemschwierigkeitsparameter Rasch-Modell Zweiparameter-Logistisches Modell mit dem Itemschwierigkeitsparameter und dem Itemdiskriminationsparameter Birnbaum-Modell Dreiparameter-Logistisches Modell mit dem Itemschwierigkeitsparameter, dem Itemdiskriminationsparameter, und dem Rateparameter Rate-Modell 2.1. Rasch-Modell (1PL-Modell Einparameter-Logistisches Modell) Einfachster Fall: Annahme: für alle Items die gleiche logistische IC-Funktion Definiton Itemcharakteristische Funktion (IC-Funktion): Sie legt in Form einer mathematischen Gleichung fest, welche Annahmen über den Zusammenhang zwischen manifesten und latenten Variablen getroffen werden. Sie stellt dabei die Grundlage für die Schätzung der Personen- und Itemparameter dar.

21 es gibt zwei Wahrscheinlichkeiten: Item gelöst und Gegenwahrscheinlichkeit Item nicht gelöst zwei Verläufe der Funktion Gleichung wesentlich durch Differenz von Merkmalsausprägung einer Person (Personenparameter) minus Itemschwierigkeit bestimmt, da der Itemschwierigkeitsparameter darüber entscheidet, welche Anforderungen das Item an den Personenparameter stellt beide Parameter gleich: Lösungswahrscheinlichkeit ½ (Wendepunkt der Funktion) Item ist haarscharf daran, was jemand kann Personenparameter größer als Itemschwierigkeit: Items von Fähigkeit einer Person übertroffen Lösungswahrscheinlichkeit steigt Personenparameter kleiner als Itemschwierigkeit: Itemschwierigkeit übersteigt Fähigkeit Lösungswahrscheinlichkeit sinkt rasch-homogene Items: unterscheiden sich nur in ihren Schwierigkeitsparametern, ansonsten sehen sie gleich aus. unterscheiden sich also nur in der Lage: leichtere weiter links, schwierigere rechts die IC-Funktionen können als einzelne Funktionen auf gemeinsamer Skala abgebildet werden : joint scale Parameterschätzung: Schätzung der Item- und Personenparameter Ausdruck, der die Wahrscheinlichkeit aller beobachteten Daten angibt: Likelihoodfunktion L: Produkt der Wahrscheinlichkeiten der empirischen Werte und der gewählten Parameter für alle Reaktionen wird je eine Wahrscheinlichkeit berechnet, die dann mit anderen Wahrscheinlichkeiten pro Reaktion zu einem Wert multipliziert wird Ergebnis: Wahrscheinlichkeit für eine Datenmatrix, in der für n Personen und m Items alle Reaktionen angetragen sind mit passenden Parametern steigt die Wahrscheinlichkeit, mit unpassenden sinkt sie beste Schätzer für die Parameter: die für die Funktion einen Maximalwert ergeben Summennormierung: Werte des Itemparameter in einem Intervall -3 bis +3 gewählt, sodass deren Summe Null ergibt : leichte Items: negative Werte des Itemparameters schwere Items: positive geringe Merkmalsausprägung: negative Werte für den Personenparameter hohe Merkmalsausprägung: positive Werte unbedingte ML-Methode: (maximum-likelihood-schätzung) wird Item 1 häufiger gelöst als Item 2, ist Item 2 schwieriger als Item 1 Item 1 bekommt niedrigen Schwierigkeitsparameter (-1) und Item 2 hohen (+1) Löst Person 1 beide Items, bekommt sie hohe Merkmalsausprägung (2), löst Person 2 nur ein Item, bekommt sie mittlere Ausprägung (0), löst Person 3 kein Item, bekommt er niedrige Ausprägung (-2) Die Parameter müssen sich immer zu 0 addieren Likelihood erreicht Maximum wenn die geschätzten Item- und Personenparameter optimal sind Likelihood: Ermittlung aus den Zeilen- und Spaltensummen der Datenmatrix erschöpfende Statistik Bedingte ML-Methode: (Conditional Maximum Likelihood): Itemparameter lassen sich ohne Berücksichtigung der Personenparameter schätzen Separierbarkeit der Parameter Rechentechnisch aufwendig Itemparameter werden iterativ bestimmt, so dass sie optimal zu den

22 empirisch beobachteten Daten passen Modellkonformität Likelihoodschätzung sagt nicht darüber aus, ob die getroffenen Modellannahmen auch zutreffen Es muss also empirische geprüft werden, ob die empirischen Daten den Modellannahmen entsprechen Wie gut passen die Parameter zum Modell; wie konform sind die Daten zum Modell? Es könnte sein, dass die optimal geschätzten Parameter nur zu verhältnismäßig geringen Wahrscheinlichkeiten für die Daten führen Voraussetzung der Stichprobenunabhängigkeit durch Aufteilung der Gesamtstichprobe in zwei Substichproben anhand eines relevanten Kriteriums So können getrennte Itemparameter geschätzt werden, die bei ausreichender Modellkonformität nur zufällig variieren dürfen. Graphische Modelltest: in einem Streudiagramm sollten die Itemparameter nahe der Hauptdiagonalen liegen Nullhypothese: Modellkonformität gegeben Prüfung mit Likelihood-Quotienten-Test nach Anderson: nimmt für jede Stichprobe eine eigene CML-Schätzung vor und testet die Nullhypothese der Gleichheit der Schätzungen sollte nicht signifikant werden Liegen die Itemparameter (kalibrierte Items) vor, und ist Modellkonformität bestätigt, muss nicht für jede Person eigener Personenparameter geschätzt werden Alle Personen mit gleichen Zeilensummenscore haben den gleichen Parameter o Wenn kein Item gelöst: Zeilensummenscore=0 o Alle Items gelöst: Zeilensummenscore = m (m=anzahl der Items) o Nicht genau bestimmbar, wie der Personenparameter gegen - und + strebt o Durch Normierung können aber plausible Parameter zugewiesen werden Ob sich Personen modellkonform verhalten kann mit Person-fit-indices festgestellt werden Wird anhand des Antwortmusters eingeschätzt, ob die Testergebnisse plausibel sind Lösen die Probanden die Items so, wie sie es nach ihrer Schwierigkeit sollten Fällt Person-fit-index ungünstig aus, muss entschieden werden ob noch sinnvolle Interpretation möglich ist Modellkonform kann auch sein, dass Personen einen abweichenden Arbeitsstil zur Mehrheit besitzen Ist Modellkonformität gegeben resultiert spezifische Objektivität der Vergleiche Wenn IC-Funktionen aller Items die gleiche Form aufweisen und entlang der x-achse parallel verschoben sind Ermöglicht Schwierigkeitsunterschied zweier Items unabhängig von Merkmalsausprägung einer Person festzustellen Ebenso: Unterschiede zwischen Personenparameter können unabhängig von Itemschwierigkeit festgestellt werden Iteminformation: Definition Iteminformation: Beschreibt den Beitrag eines Items zur Messung des entsprechenden Merkmals. Je höher der Informationswert, desto mehr trägt das Item zur Messung eines Merkmals bei. Der Informationswert ist somit das Pendant zum Standardmessfehler eines Tests aus der klassischen Testtheorie, der allerdings nicht als konstantes Merkmal des Tests, sondern als Funktion der Personenkennwerte beschrieben wird. Je größer die Steigung der IC-Funktion, desto höher der Informationsgewinn durch Anwendung des Items i bei einer best. Person Jedes Item liefert unterschiedliche Informationen über die Merkmalsausprägungen

23 verschiedener Personen Verlauf des Informationsgewinns in Iteminformationsfunktion I ausgedrückt Variiert mit dem Grad der Übereinstimmung zwischen Itemschwierigkeit und der Fähigkeit Erreicht Maximum, wenn Itemschwierigkeit = Fähigkeit Bei zunehmender Differenz fällt sie zu beiden Seiten ab und strebt gegen Null Itemschwierigjeit weicht zunehmend von Fähigkeiten ab Entspricht dem Produkt aus bedingter Lösungswahrscheinlichkeit und Nichlösungswahrscheinlichkeit des Items bei gegebener Fähigkeit Durch Addition der einzelnen Iteminformationsbeiträge kann für einen besimmten Probanden die Testinformation additiv bestimmt werden Bei Anstieg der Testinformation steigt die Testgenauigkeit für den Probanden 2.2. Birnbaum-Modell (2PL-Modell) Zusätzlich: Itemdiskriminationsparameter Gibt an, wie stark sich die Lösungswahrscheinlichkeiten in Abhängigkeit von der Merkmalsausprägung ändern Maß für die Sensitivität der Items für Merkmalsunterschiede Je kleiner der Parameter, desto geringer die Diskriminationsfähigkeit des Items Ein solches Item ist aber sensitiv im oberen oder unteren Bereich Entspricht etwa Trennschärfe in KKT 2.3. Rate-Modell (3PL-Modell) Dritter Itemparameter: Rateparameter Modellvergleich Rasch-Modell ist hinsichtlich seiner Gültigkeit mit Modelltests überprüfbar Gültigkeit meint: erschöpfende Statistiken, spezifische Objektivität, Stichprobenunabhängigkeit, Intervallskalierung 2Pl und 3PL Modell nicht! obwohl umfassendere Modellierung des Probandenverhaltens Es gibt hier nur Goodness-of-Fit-Maße keine Rückschlüsse auf das Zutreffen der Modellimplikationen möglich 1 PL Modell hat also vorteilhaftere Modelleigenschaften deshalb häufige Anwendung Vergleich IRT und KTT KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person und der Schwierigkeit eines Items her Bei IRT werden Fähigkeitsschätzungen und Itemschwierigkeiten auf joint scale abgebildet Eindeutig ist die relative Lokalisation der Personenfähigkeit zu der Itemschwierigkeit nur dann, wenn die IC-Funktionen aller Items parallel verlaufen KTT liefert als Messfehlertheorie Konzepte zur Reliabilitätsschätzung IRT expliziert Beziehungen zwischen Antworten von Probanden und dahinter stehenden latenten Merkmalen Beide Ansätze ergänzen sich daher Unterschiede KTT und IRT KTT: Antworten auf die Items ist gleichgesetzt mit der Messung des im Test erfassten Konstrukts IRT: Antworten auf die Items auf eine Fähigkeit/Eigenschaft zurückgeführt, die das Testverhalten verursacht

24