Itemschwierigkeit, Trennschärfe.Part whole-korrektur, ICC, Streuung

Transkript

1 Grundlagen Itemschwierigkeit, Trennschärfe.Part whole-korrektur, ICC, Streuung Empirisch zeigt sich eine umgekehrt u-förmige Beziehung zwischen Schwierigkeit und Trennschärfe, wobei mit mittlerer Schwierigkeit die höchste Trennschärfe einhergeht. Standardabweichung der Testwerte steigt mit den Trennschärfen Die Variation von Itemschwierigkeiten führt zu einer Abnahme der Interkorrelationen zwischen den Items, damit zu einer Abnahme der Homogenität und zu einer Abnahme der Trennschärfe Part-whole-Korrektur: Ohne part-whole-korrektur kommt es zu einer Überschätzung der Trennschärfe, da das betreffende Item selbst Bestandteil der Skala ist Ohne part-whole-korrektur ginge ein Teil der Skalenstreuung auf das entsprechende Item zurück, mit dem die Skala korreliert wird Je größer die Itemanzahl einer Skala ist, desto geringer sind die Auswirkungen der Korrektur auf die Trennschärfe, denn mit zunehmender Itemzahl wird der Beitrag eines einzelnen Items relativ zum Gesamtskalenwert geringer Je homogener eine Skala ist, desto weniger ändern sich die Trennschärfen durch eine partwhole- Korrektur

2 Zusammenhang zwischen Schwierigkeit und Trennschärfe Items mit mittlerer Schwierigkeit differenzieren am besten zwischen Probanden, die ein Item lösen ( Löser ), und Probanden, die ein Item nicht lösen ( Nicht-Löser ) Bei dichotomen Items ist die Itemstreuung rechnerisch vollkommen durch die Itemschwierigkeit determiniert Reichen die Itemschwierigkeiten bei intervallskalierten Items an den Rand der Antwortskala, spricht man von Boden- oder Deckeneffekten Beide Effekte haben zur Folge, dass zwischen Individuen mit verschiedenen Merkmalsausprägungen nicht mehr ausreichend differenziert werden kann Je steiler der Anstieg der Item Characteristic Curves (ICC), desto größer ist die Trennschärfe Insgesamt differenzieren Tests mit homogen mittelschweren Items am besten bei mittleren Merkmalsausprägungen Da bei mittlerer Itemschwierigkeit die Wahrscheinlichkeit für hohe Trennschärfen ansteigt, ist für solche Skalen auch eine höhere Reliabilität zu erwarten Um auch in Randbereichen eines Merkmalsbereichs zu differenzieren, muss die Skala auch extremere Schwierigkeitsbereiche mit Items abdecken Meist erreichen Items mit extremen Schwierigkeiten geringere Trennschärfen als mittelschwere Items. Dies reduziert die Itemhomogenität und daher sind für solche Skalen nicht ganz so hohe Reliabilitäten wie für Skalen mit ausschließlich mittelschweren Items zu erwarten Streuung wird auch als Differenzierungsfähigkeit bezeichnet. Die Streuung eines Tests sollte im Vergleich zu seinem Standardmessfehler groß sein, denn so lassen sich die Probanden besser in mehrere voneinander unterschiedene Gruppen unterteilen.

3 KTT Axiome KTT ( Grundannahmen) X = T + e μ(e) = 0 ρ(t,e) = 0 ρ(ex,ty) = 0 ρ(ex, ey) = 0 1.Das Konzept des Messfehlers: Messfehler umfassen die Gesamtheit aller unsystematischen (!) und nicht kontrollierbaren oder vorhersagbaren potentiellen Einflußgrößen auf das Messergebnis 2. Der (bei häufiger Messwiederholung) erwartete Mittelwert (μ) der Messfehler ist Null: μ(e) = 0 d.h., daß es bei wiederholten Testanwendungen unter identischen Bedingungen zu einem Fehlerausgleich (Ausmittelung von Fehlerschwankungen) kommt und der gemittelte Testwert bei einer Person über alle Messungen dem wahren Wert nahezu entspricht. 3. Die Höhe des Messfehlers E ist unabhängig vom (wahren) Ausprägungsgrad T des getesteten Merkmals, d.h., wahrer Wert und Fehlerwert sind unkorreliert: rte = 0. Beispiel: Fehlereinflüsse durch die Tagesform sind bei Personen mit hoher und niedriger Intelligenz in gleicher Weise wirksam. 4. Die Höhe des Messfehlers E ist unabhängig vom Ausprägungsgrad der wahren Werte T anderer Tests: rt E = 0. Beispiel: Die Messfehler eines Intelligenztests sollten z.b. nicht mit Testangst oder Konzentrationsfähigkeit (mit anderen Tests gemessene Persönlichkeitsmerkmale usw.) korrelieren. 5. Die Messfehler verschiedener Testanwendungen (z.b. E1 und E2) sind voneinander unabhängig, d.h., ihre Messwerte sind unkorreliert: re1e2 = 0. Beispiel: Personen, die bei einer Testanwendung besonders müde sind oder hohe Testangst haben, sollten bei einer Testwiederholung keine analogen Effekte zeigen.

4 Reliabilität: Die Reliabilität R gibt den Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte an Bespiel: Ein Reliabilitätskoeffizient von z. B. R =.80 gibt an, daß die beobachtete Varianz der Testwerte zu 80 % auf wahre Unterschiede zwischen den Testpersonen zurückzuführen ist und zu 20 auf Fehlervarianz beruht. Der Standardmessfehler Die KTT wird oft auch als Messfehlertheorie bezeichnet. ist derjenige Anteil an der Streuung eines Tests, der zu Lasten seiner (gewöhnlich nicht perfekten, also unvollständigen ) Reliabilität geht ist ein Maß für den Anteil der Fehlerstreuung an der Streuung von Messwerten gibt die Streuung der beobachteten Werte um die entsprechenden wahren Werte bei Messwiederholungen einer Person an (läßt sich als Normalverteilung mit wahrem Wert als Zentrum veranschaulichen). Der Standarbmessfehler berechnet sich: und hängt somit von der Streuung s und dem Reliabilitätskoeffizienten R ab (bei perfekter Reliabilität beträgt er 0; bei fehlender Reliabilität entspricht er der Streuung der beobachteten Werte, welche dann ausschließlich auf Fehlereinflüssen beruhen) je reliabler das Messinstrument, desto geringer der Standardmessfehler Es läßt sich zeigen, daß z.b. mit der Verdopplung der Testlänge/der Itemanzahl (in Einheiten von homogenen bzw. äquivalenten Aufgaben!) eine Vervierfachung der wahren Varianz einhergeht, während sich die Fehlervarianz nur verdoppelt. Da Reliabilität als Anteil der wahren Varianz an der Gesamtvarianz definiert ist, würde dies eine Verdoppelung der Reliabilität bedeuten. Diese mathematische Ableitung hat sich auch empirisch gut bestätigen lassen, was für eine Angemessenheit der Axiome der KTT spricht. Der Zusammenhang zwischen Ausgangsreliabilität, Testverlängerung (Faktor k) und neuer Reliabilität läßt sich wie folgt berechnen: Spearman-Brown-Formel Dabei zeigt sich, daß der Reliabilitätszuwachs um so größer ist, je geringer die Ausgangsreliabilität ist.

5 Problemstellung: Sind beobachtete Skalenwertdifferenzen statistisch signifikant? Unterscheiden sich die Testwerte eines Pbn auf zwei Skalen signifikant (intraindividuell)? Unterscheiden sich die Skalenwerte von zwei Pbn auf derselben Skala signifikant (interindividueller Vergleich)? Kritische Differenz: Eine Skalenwertdifferenz ist dann signifikant, wenn sie größer oder gleich der kritischen Differenz ist Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit Item- und Testkennwerte (Schwierigkeit, Trennschärfe, Reliabilität, Validität...) werden an spezifischen Stichproben berechnet Sind diese Befunde generalisierbar? Man kann z.b. durch die Wahl heterogener oder homogener Stichproben die Reliabilität künstlich erhöhen oder senken. Homogenität und Heterogenität: Je homogener eine Stichprobe ist, desto geringer fallen die jeweiligen Korrelationen aus. Dies führt zu einer Varianz der Reliabilitätskoeffizienten, die allein auf die Auswahl der Stichprobe zurückzuführen ist. Reliabilitäten sind somit nur schwer zu generalisieren Messtheorie Daten sollten auf Intervallskalenniveau liegen Bei vielen Tests ist jedoch fraglich, ob diese Voraussetzung erfüllt ist (so müssten etwa die Abstände bei abgestuften Rating-Skalen psychologisch gleich interpretiert werden: Äquidistanz), Berechnung von Mittelwerten und Varianzen Bildung von Messwertdifferenzen Das ist fraglich und es gibt keine explizite Überprüfung. Wissenschaftstheorie Axiomatische Fehlertheorie ohne psychologische Fundierung mit nicht überprüfbarer Axiomatik. Die klassische Testtheorie (KTT) geht davon aus, daß das Testergebnis direkt (wenn auch mit Messfehlern behaftet) dem Ausprägungsgrad des gemessenen (tatsächlichen, wahren) Merkmals entspricht. Der Zusammenhang zwischen Personmerkmal und Testergebnis wird also a priori als deterministisch angenommen und ist zudem (weil axiomatisch) keiner empirischen Überprüfung zugänglich. Der Effekt unkontrollierter Variablen wird als Messfehler bezeichnet

6 Unterschied KTT-PTT PTT Die probabilistische Testtheorie (IRT) legt nicht von vornherein fest, wie der Zusammenhang zwischen Merkmalsausprägung und Testergebnis zu sein hat. Vielmehr unterscheidet sie explizit zwischen: Merkmalsebene (latente Variablen) und Testebene (Itemebene; manifeste Variablen) und betrachtet das Testergebnis lediglich als Indikator für das entsprechende Merkmal Dabei ist die Beziehung zwischen Merkmal und Indikator (meist als Funktion ausgedrückt) in der Regel eine probabilistische (deterministisch kann sie dabei im Extremfall sein) ist, deren Verlauf zudem sehr unterschiedlich sein kann. Das Hauptunterscheidungsmerkmal zur KTT besteht jedoch darin, daß bei der PTT eine (hypothetisch) festgelegte Funktionsform empirisch darauf geprüft werden kann, ob sie auch tatsächlich vorliegt. manifeste Variablen: beschreiben das (unterschiedliche) Antwortverhalten auf verschiedene Testitems können dichotom (wie im dichotomen Rasch-Modell) sein oder abgestuft sein (Ratingskalen), z.b. der eindimensionale Spezialfall des polytomen Rasch- Modells. latente Variablen ξ (Xi): bezeichnen die nicht-beobachtbaren Merkmalsausprägungen (Fähigkeiten, Dispositionen), die dem manifesten Verhalten zugrunde liegen sollen

7 als kontinuierlich (unterschiedliche quantitative Ausprägungen) angenommen werden (Latent-Trait- Modelle), diese sind in der psychologischen Diagnostik am häufigsten, oder nur qualitativ unterschiedliche Ausprägungen (liegt vor versus liegt nicht vor, also z. B. Persönlichkeitstypen) haben (Latent-Class-Modelle). Fähigkeitsparameter (Personenparameter, Dispositionsparameter, ξ oder β (aβility): Beschreibt die Fähigkeit einer Person (Merkmalsausprägung des latenten Traits), ein best. Testitem zu lösen. Schwierigkeitsparameter (Itemparameter,Anforderungsparameter, σ oder δ δifficulty): Anforderung, welche ein Item an die Fähigkeit der zu untersuchenden Person stellt. Der Zusammenhang zwischen der Lösung eines Items und den beiden Parametern ist probabilistisch: In Abhängigkeit von der Höhe von Item- und Personparameter läßt sich dem Ereignis Item wird gelöst ein Wahrscheinlichkeitswert zuordnen. IC-Funktion ( Itemcharastaristik) Diese beschreibt die Beziehung zwischen einem latenten Merkmal (Personenparameter) und dem Reaktionsverhalten auf ein (dichotomes) Item in Form einer Wahrscheinlichkeitsaussage. Deterministische Itemcharakteristiken: Wenn davon ausgegangen wird, daß das Antwortverhalten der Versuchspersonen durch die Item- und Personenparameter vollständig bestimmt wird, d.h. die Lösungswahrscheinlichkeiten für die einzelnen Items je nach β und δ immer entweder Null oder Eins sind. Probabilistische Itemcharakteristiken: Wenn eine stochastische Beziehung zwischen β, δ und der Lösungswahrscheinlichkeit angenommen wird, d.h. Lösungswahrscheinlichkeiten in allen Abstufungen zwischen Null und Eins auftreten können. Solche Funktionen sind in der Regel monoton steigend [d.h., je höher β (also die Fähigkeits- /Merkmalsausprägung einer Person), desto höher die Lösungswahrscheinlichkeit].

8 Allgemein: Annahme eines latenten Kontinuums (Fähigkeit, Eigenschaft) ξ Jede Person v weist auf diesem eine bestimmte Ausprägung ξv auf. Es könnte einen kritischen Wert auf ξ geben, ab dem ein Item gelöst wird. Grundgedanke der Guttman-Skala lokale stochastische Unabhängigkeit Fragestellung: Wie könnte man prinzipiell von mehreren manifesten Variablen auf eine dahinterliegende (die Ausprägungen der manifesten Variable verursachende) latente Variable schließen? Antwort: dies ist dann der Fall, wenn die 1. Items homogen bezüglich der latenten Variablen sind, d.h., wenn die manifesten Variablen miteinander korrelieren, 2. die manifesten Variablen (inhaltlich) Indikatoren der latenten Variablen sind und 3. die latente Variable als Ursachenfaktor (Indikator) für die Korrelation der manifesten Variablen untereinander verantwortlich ist Überprüfung: Itemhomogenität läge dann vor, wenn bei Herauspartialisierung des Einflusses von ξ aus der Korrelation zwischen den manifesten Variablen keine Korrelation mehr zwischen diesen bestünde Die Logik dabei ist, daß wenn nur die latente Merkmalsausprägung die Korrelation zweier Items auf einer Stufe verschwinden läßt (vgl. lokale stochachstische Unabhängigkeit), dann muß dies unabhängig von der Stichprobe sein! Oder anders herum: Ursache der Korrelation der manifesten Variablen ist dann einzig und allein die latente Variable.

9 Dichotomes Rasch-Model ist ein probabilistisches Modell, welches kontinuierliche latente Variablen annimmt, sowie bei dichotomen manifesten Variablen (Alternativantworten) angewendet wird. Die zugrundeliegende IC- Funktion ist logistisch. Dichotomes Rasch-Modell: Probabilistisch-logistisches dichotomes Latent- Trait- Modell mit invarianten Diskriminationsparametern. Die Lösungswahrscheinlichkeit einer best. Person für ein best. Item p (x) wird im Rasch-Modell allein durch die Ausprägungen vom Fähigkeitsparameter β und vom Itemschwierigkeitsparameter δ bestimmt. Der Zusammenhang zwischen Parametern und Lösungswahrscheinlichkeit soll nun durch die sog. logistische Funktion festgelegt sein, welche die Eigenschaft hat, daß im Mittelbereich (dort, wo β und δ gleich sind) nahezu Linearität zwischen Fähigkeit und Lösungswahrscheinlichkeit besteht, während sich die Lösungswahrscheinlichkeiten im oberen und unteren Fähigkeitsbereich asymptotisch den Grenzwerten 0 und 1 nähern. Vorteile: 1. Itemhomogenität 2. Erschöpfende Statistik 3. Spezifische Objektivität 4. Unabhängige Schätzung der Itemparameter Itemhomogenität Es werden nur itemcharakteristische Kurven zugelassen, die sich nicht schneiden, d.h., daß alle Items den gleichen Verlauf der Lösungswahrscheinlichkeiten zeigen (in diesem Sinne sind sie homogen). Sie unterscheiden sich lediglich darin, daß sie an unterschiedlichen Stellen des Item Personenparameter - Kontinuums laufen (je höher δ, desto weiter rechts). Das bedeutet also, daß die IC Kurven parallel entlang der x Achse verschoben sind. Dabei gilt für jedes Item: die Wahrscheinlichkeit, dieses Item zu lösen, ist für tüchtigere Personen immer größer als für weniger tüchtige. Items, die nicht homogen sind, werden bei der Testkonstruktion eliminiert Erschöpfende Statistik Wenn Items lokal stochastisch unabhängig voneinander sind, d.h. wenn die Wahrscheinlichkeit, ein Item zu lösen nicht von der Wahrscheinlichkeit abhängt, ein anderes Item zu lösen, sondern ausschließlich von Fähigkeit und Itemschwierigkeit (s. o.), dann liefert allein die Anzahl der gelösten Items (unabhängig davon, welche Items, bzw. welche Itemteilmengen gelöst worden sind) eine erschöpfende Statistik für die Fähigkeit einer Person. Ebenso liefern die Anzahl der Versuchspersonen (unabhängig davon welche Versuchspersonen das Item bearbeiten) eine erschöpfende Statistik für den Itemparameter. Spezifische Objektivität Innerhalb einer Population, für die Modellkonformität festgestellt worden ist, fallen für einen Probanden (und auch bei Probandenvergleichen) sowohl Item- als auch Personenparameter immer gleich aus, gleichgültig, welche Merkmalsausprägung der Proband hat und unabhängig von den Items, die bearbeitet worden sind Diese Eigenschaft steht im Gegensatz zur KTT, wo zwei Versuchspersonen ihre Rangplätze vertauschen können, wenn man ihre Leistung nach Teilmengen der Items beurteilt.

10 => es besteht Unabhängigkeit beim Vergleich zweier Personen von dem Instrument, anhand dessen der Vergleich vorgenommen wurde! Unabhängige Parameterschätzung Itemparameter können unabhängig von der Kenntnis der Personenparameter und Personenparameter unabhängig von Itemparametern geschätzt werden. Dies hat den Vorteil, daß man keine Verteilungsannahmen über unbekannte Parameter machen muß Empirischer Modelltest Zu Beginn der Testkonstruktion sind weder Schwierigkeit noch Fähigkeit bekannt und müssen geschätzt werden! Schritte bei der Rasch-Skalierung: 1. Erstellung einer Matrix von Schwierigkeitsindizes 2. Transformation in eine Logit-Matrix 3. Schätzung von Item- und Person-Parameter aus der Logit-Matrix 4. Reproduktion der Ausgangsmatrix als Modelltest Die Differenzierungsfähigkeit/Trennschärfe von Items ist dort am größten, wo die logistische Funktion, bzw. die Lösungswahrscheinlichkeit die stärkste Steigung aufweist (Maximum der Iteminformationsfunktion).Die stärkste Steigung liegt am Wendepunkt vor, also dort, wo Item- und Personenparameter identisch sind, die Lösungswahrscheinlichkeit also 50 % beträgt. Tetskonstruktion vier Ansätze/ Konstruktionsstrategien: Rational (deduktiv) External (kriteriumsbezogen) Induktiv (faktorenanalytisch) Prototypisch Rational: Eine Skalenkonstruktion erfolgt dann rational, wenn die Items aufgrund eines theoretisch fundierten und explizierten (Persönlichkeits-)Konstrukts (deduktiv) abgeleitet werden. Psychometrische Konstruktion: Vorliegen einer Theorie (z.b. Cattells Intelligenztheorie) darüber, wie sich Personen hinsichtlich bestimmter Merkmale beschreiben lassen und voneinander unterscheiden. Für jeden Bereich werden sodann Items in Form von Aufgaben oder Fragen nach möglichen Verhaltensweisen zu Skalen oder Subtests zusammengestellt, die als Indikatoren in Betracht kommen. Validierung der Skala an einem Kriterium External Eine Skalenkonstruktion erfolgt dann external, wenn Items aufgrund ihrer Diskriminationsfähigkeit zwischen Mitgliedern verschiedener Gruppen (und nicht aufgrund ihrer inhaltlichen Bedeutung) zusammengestellt werden.

11 Vorliegen von mind. zwei Gruppen in der sozialen Realität! Den Mitgliedern der Gruppen wird eine möglichst große und inhaltlich breit gefächerte Zahl von Items vorgelegt in der Hoffnung, daß sich darunter einige befinden werden, die zwischen den Gruppen empirisch diskriminieren, also unterschiedliche Lösungswahrscheinlichkeiten zeigen. Es werden dann diejenigen (möglicherweise sehr heterogenen) Items selegiert und zu (inhaltlich nicht interpretierbaren) Skalen zusammengefaßt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination in einer Kreuzvalidierung bei anderen Personen standhält. Induktiv (faktorenanalytisch) Eine Skalenkonstruktion erfolgt dann induktiv, wenn Items (blind-analytisch) mittels einer Faktorenanalyse zu Skalen gruppiert werden, die (empirisch) hoch miteinander (und möglichst gering mit Items anderer Skalen: Einfachstruktur) korrelieren und damit gemeinsam eine Dimension konstituieren Vorgehen: Ein möglichst umfangreicher und für die Zielkonstrukte repräsentativer Itempool wird einer möglichst umfangreichen und für die Zielgruppe repräsentativen PersonenSP zur Beantwortung vorgelegt. Mittels einer Faktorenanalyse werden die Items zu Gruppen hoch interkorrelierender Skalen zusammengefaßt (Ziel ist eine Einfachstruktur). Die einzelnen Faktoren oder Skalen werden interpretiert, indem man nach einer Gemeinsamkeit aller Items einer Skala gesucht wird. Prototypisch Eine Skalenkonstruktion erfolgt dann prototypisch, wenn überwiegend solche Items zu Skalen zusammengefaßt werden, die für eine Dimension (z.b. intelligent, dominant, aggressiv) besonders (proto-)typisch oder zentral sind. Vorgehen: z. B. Act Frequency Approach; dt.: Handlungs- Häufigkeits-Ansatz (Buss & Craig, 1980): 1.Auswählen derjenigen Eigenschaft, für die eine Skala konstruiert werden soll (z.b. Aggressivität) 2.Versuchspersonen sollen an diejenigen Bekannten aus ihrem Umfeld denken, bei denen diese Eigenschaft besonders stark ausgeprägt ist. Versuchspersonen sollen dann konkrete Verhaltensweisen dieser Personen nennen, die indikativ für die Eigenschaft (hier: Aggressivität) sein sollen. 3.Dann werden die so erhaltenen Items anderen Versuchspersonen vorgelegt, die sie nach ihrer Prototypizität hinsichtlich des Merkmals einschätzen sollen. 4. D. h. also, diese Beurteiler sollen feststellen, wie prototypisch/charakteristisch die für Aggressivität gesammelten Verhaltensweiten/Acts Ihrer Meinung nach sind. Interne Konsistenz und Reliabilität: Da rational und induktiv entwickelte Skalen inhaltlich homogener sind (Items korrelieren höher miteinander) als external konstruierte Skalen, weisen sie auch eine höhere interne Konsistenz und (in der Regel) eine höhere (interne!) Reliabilität bei gleicher Testlänge auf. Stichproben-Anfälligkeit: Insbesondere induktiv konstruierte Tests sind in ihrer Validität in hohem Maße davon abhängig, inwieweit Untersuchungs- und AnwendungsSP ähnlich zusammengesetzt sind. Verfälschbarkeit durch Testbeantworter: Ist insbesondere bei external konstruierten Skalen gering, da die Messintention oft nicht evident ist. Hohe Anfälligkeit für Verfälschungsversuche bei Tests, die nach dem Prototypenansatz konstruiert wurden (s. o.). Validitäten: Es zeigt sich keine konsistente Überlegenheit von Konstruktionsstrategien gegenüber anderen.

12 Ökonomie: Rationale Skalen sind besonders ökonomisch zu entwickeln und ihre Testergebnisse sind aufgrund der Verwendung von alltagsnahen Dimensionen leicht kommunizierbar. Gütekriterien Itemschwierigkeit, Trennschärfe und Homogenität charakterisieren einen Test von seinen kleinsten Bausteinen her (den Items). Die sog. Hauptgütekriterien Objektivität, Reliabilität und Validität sind allerdings unter allen Umständen verbindlich. Von den Nebengütekriterien werden im weiteren Normierung (relativ testnah) und Testfairness (relativ entscheidungsnah) genauer ausgeführt werden. Objektivität Objektivität bezeichnet das Ausmaß, in dem die Ergebnisse eines Tests (Durchführung, Auswertung, Interpretation) unabhängig vom Testleiter (Untersucher) sind. Es lassen sich drei Objektivitätsarten unterscheiden: Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität

13 Herstellung von Durchführungsobjektivität: durch maximale Standardisierung dertestsituation (z.b. standardisierte Instruktion,Testmaterialien, Zeitvorgaben, etc.). Quantitative Bestimmung der Durchführungsobjektivität: Theoretisch müßte man eine Versuchsperson mehrmals unter denselben Bedingungen (selber Test, Versuchsleiter, etc.) testen und dann einen Mittelwert bestimmen. Dies ist jedoch aufgrund mangelnder Reliabilität und Testwiederholungseffekten praktisch nicht sinnvoll möglich. Herstellung von Auswertungsobjektivität: Hohe Auswertungsobjektivität liegt in der Regel vor, wenn die Richtigkeit der Antworten mit einem Lösungsschlüssel (z.b. Schablone) oder per Computer bestimmt werden kann. Bei offenen Antwortformaten oder in Tests, wo mehrere Lösungen richtig sein können, bzw. auch teilweise richtig sein können oder gar bei projektiven Verfahren hängt die Auswertungsobjektivität davon ab, wie detailliert die Auswertungskategorien im Testmanual beschrieben und eingegrenzt sind. Quantitative Bestimmung der Auswertungsobjektivität: indem mehrere Gutachter unabhängig voneinander das in einer Stichprobe erhobene Material auswerten und der Grad der Übereinstimmung als Korrelationskoeffizient ermittelt wird. Herstellung von Interpretationsobjektivität: Hoch ist die Interpretationsobjektivität in der Regel, wenn wie in der statistischen Vorgehensweise üblich, die entsprechenden Normwerte aus einer Tabelle im Testmanual abgelesen werden können. In projektiven Verfahren ist die Interpretationsobjektivität dagegen meist gering, da subjektive Einschätzungen der Auswerter in die Interpretation mit eingehen. Reliabilität Grad der Genauigkeit/die Messpräzision oder auch die Zuverlässigkeit, mit der ein Test ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (unabhängig von der Validität, also vom Aspekt ob er das misst, was er messen soll). Beim Übergang zu homogenderen Teilpopulationen wird die Reliabilität kleiner. Wie kann ich die Reliabilität erhöhen? Testlänge erhöhen(kann zu Durchführungseinschränkungen führen, Testökonomie und Zumutbarkeit reduzieren sich). (! Spearman-Brown-Formel, bei Verdoppelung: K = N= 2) Homogenere Testitems verwenden (damit reduzieren sich auch die Aspekte, die er erfaßt). Items mittleren Schwierigkeitsgrades wählen, wodurch sich auch deren Trennschärfe erhöht(wirkt allerdings einer Differenzierung in Extrembereichen entgegen). Objektivität steigern Reliabilitätsschätzung. Es gibt vier verschiedene methodische Zugänge die Reliabilität zu bestimmen: 1. Testwiederholungsmethode 2. Paralleltestmethode 3. Testhalbierungsmethode 4. Konsistenzanalyse (innere/interne Konsistenz, hier z. B. berechnet nach Cronbachs Alpha )

14 Retestreliabilität: Vorgehen: Der gleiche Test wird denselben Versuchspersonen zu (mind.) zwei verschiedenen Zeitpunkten vorgegeben. Die Retestreliabilität wird durch die Korrelation zwischen erster und zweiter Messung bestimmt. Anwendung: Wenn Wiederholungseffekte (Übung, Problemeinsicht, Vertrautheit mit Testsituation, Erinnerung an Aufgaben, etc.) nicht zu erwarten sind (z.b. bei Speedtests oder Persönlichkeitstests) Wenn zwischen beiden Messungen ein größeres Zeitintervall liegt Wenn der Test beansprucht, zeitlich stabile Merkmale zu Erfassen Nachteile: Überschätzung der Reliabilität, wenn Lösungen erinnert werden keine Anwendung bei instabilen Merkmalen (z.b. Stimmungen) großer untersuchungstechnischer Aufwand (da Versuchspersonen erneut kontaktiert werden müssen und mit Versuchspersonen- Verlusten zu rechnen ist) Die Reliabilität berechnet sich hier als Korrelation zweier Testdurchgänge mit den gleichen Personen. R = rx1, x2 x1 = Messwert einer Person bei der ersten Messung x2 = Messwert der gleichen Person bei der zweiten Messung Paralleltestreliabilität Vorgehen: In derselben SP werden nach einer kurzen Intervallzeit zwei streng äquivalente Formen eines Tests nacheinander durchgeführt. Parallel sind Tests dann, wenn Mittelwerte und Standardabweichungen identisch sind, sowie die Korrelationen hoch sind (beide Tests also dasselbe erfassen). Je höher die Ergebnisse beider Tests miteinander korrelieren, um so weniger Fehlereffekte liegen vor. Die ermittelten Koeffizienten liegen meist unter denen der Retestreliabilität. Anwendung: Bei instabilen Merkmalen und wenn ohnehin zwei Testversionen entwickelt werden sollen (z.b. bei Gruppentestungen im Leistungsbereich, damit die Leute nicht voneinander in der Testsituation profitieren, also z. B. durch Spicken!). Vorteil: Königsweg der Reliabilitätsbestimmung, weil ein Test so praktisch (intraindividuell) mit sich selbst verglichen werden kann, ohne daß etwa Erinnerungseffekte auftreten. Der Trick ist also, daß man so eine Quasi Messwiederholung ohne Transfereffekte nutzen kann. Die Reliabilität berechnet sich hier als Korrelation der Messwerte der jeweils gleichen Person in den beiden Paralleltests. R = rx,y x = Messwert einer Person bei einem der Paralleltests y = Messwert der gleichen Person bei dem anderen der beiden Paralleltests

15 Testhalbierungsreliabilität Vorgehen: Ein Test wird nur einmal vorgegeben und danach in zwei gleichwertige Hälften aufgeteilt (zum Beispiel nach der Odd-Even-Methode: die geraden Items innerhalb einer Numerierung in die eine, die ungeraden Items in die andere Hälfte. Andere Aufteilungsmöglichkeiten sind: Halbierung in die erste und die zweite Hälfte (also bei 40 Items die ersten 20 und die letzten 20) Auswahl per Zufall Trennung auf der Basis von Analysedaten (Berücksichtigung von Schwierigkeit und Trennschärfe)wobei dann jede Hälfte als quasi-paralleler Teiltest zur anderen Hälfte aufgefaßt wird. Beide Testhälften werden dann miteinander korreliert (Testhalbierungskoeffizient, der die wahre Reliabilität unterschätzt, da die Reliabilität mit der Anzahl der Items zunimmt und dann nach Spearman-Brown-Formel auf die Gesamttestlänge hochgerechnet. Man berechnet also zunächst rx1, x2 x1 = Messwert einer Person bei der ersten Testhälfte x2 = Messwert der gleichen Person bei der zweiten Testhälfte Die Spearman-Brown-Formel zur Testverdoppelung lautet: Der Reliabilitätskoeffizient wird so auf die doppelte Länge der Skala aufgewertet: Korreliert werden miteinander ja nur die Hälften, doch interessant ist allein die Reliabilität der Gesamtskala. Anwendung: Wenn die obigen Reliabilitätsbestimmungen nicht durchgeführt werden können. Vorteile: geringer untersuchungstechnischer Aufwand Motivations-, Stimmungs-, Aufmerksamkeitsschwankungen können als Varianzquelle praktisch ausgeschlossen werden, so daß die instrumentelle Messgenauigkeit hier am besten bestimmt werden kann. Interne Konsistenz Erweiterung, bzw. Verallgemeinerung der Testhalbierungsmethode, wobei jedes Item als ein Paralleltest behandelt wird (setzt Homogenität, bzw. Äquivalenz der Items voraus). Die Analyse erfolgt analog zur Bestimmung der Split-half-Reliabilität, nur daß hier der Test nicht in zwei Teile, sondern in so viele Teile, wie er Items hat, zerlegt wird. Die Analyse liefert dann einen mittleren Split-Half-Koeffizienten. Berechnung: bei dichotomen Antwortformaten durch Korrelationen zwischen allen Items bestimmt werden (mittels einer Kuder-Richardson-Formel), welche dann die wahre Varianz widerspiegeln bei mehrstufigen Antwortformaten (häufiger verwendet) durch Cronbachs Alpha (Koeffizient entspricht der mittleren Testhalbierungsreliabilität eines Tests für alle möglichen esthalbierungen) Bei heterogenen Tests unterschätzt α jedoch die Reliabilität und wird daher auch als Homogenitätsindex bezeichnet Vorteil: Führt zu stabileren Schätzungen als die Testhalbierungsmethode, bei welcher die Koeffizienten von der Halbierungsmethode (Sie wissen ja: z. B. odd-even; Zufall;.) abhängen und ist daher zu bevorzugen. Dies ist quasi eine Verallgemeinerung der Halbierungsmethode. Rein theoretisch wird hier die Testskala nicht nur in zwei Hälften zerlegt, sondern in so viele wie Items vorhanden sind.

16 Wie erkenne ich nun was in SPSS? Die mittlere Interitemkorrelation stellt einen Homogenitätsindex dar. Es handelt sich um die mittlere Korrelation zwischen den Items, diese ist nicht (!) Fisher-Z-transformiert Die Corrected Item-Total Correlation ist die Part- Whole korrigierte Trennschärfe (rit) Die Squared Multiple Correlation ist die quadrierte multiple Korrelation der restlichen Items mit dem vorliegenden Item Je höher die multiple Korrelation ist, desto repräsentativer ist dieses Item für alle anderen Items, da der Anteil der gemeinsamen Varianz dann höher ist

17 Alpha if Item deleted kennzeichnet die Reliabilität der verbleibenden Items, nachdem das vorliegende Item ausgesondert wurde Unter Alpha ist die Gesamtreliabilität unter Berücksichtigung aller Items angegeben Das standardisierte alpha basiert anders als alpha auf Korrelationen (vor der Berechnung werden alle Items z-standardisiert) und nicht auf Varianzen Es führt bei ähnlichen Itemvarianzen zu geringfügig anderen Ergebnissen als Cronbach-alpha Sind die Itemvarianzen stark unterschiedlich, sollte das standardisierte alpha verwendet werden Die Itemstreuungen bewegen sich in einem Bereich von.82 bis 1.08 Validität Definition: Unter Validität versteht man den Grad der Genauigkeit, in dem ein Test (oder ein Verfahren) wirklich das misst (z. B. Persönlichkeitsmerkmal, Verhaltensweise), was er zu messen vorgibt oder messen soll. Ist die Validität hoch, kann von Testergebnissen (numerisches Relativ) auf Verhalten außerhalb der Testsituation (empirisches Relativ) generalisiert werden. wichtigstes Gütekriterium: Denn ein Test kann trotz hoher Objektivität und hoher Reliabilität (die nur günstige Voraussetzungen zur Erreichung hoher Validität schaffen) unbrauchbar sein, wenn er nicht das misst, was er messen soll.

18 Inhaltsvalisdität Inwiefern repräsentiert das Messverfahren das zu messende unmittelbar? Kein mathemat./numerischer Kennwert! Schluss auf Verhalten außerhalb des Tests, das dem Verhalten im Test ähnlich ist (ohne sich auf ein latentes Merkmal/Konstrukt zu beziehen) Definition: Inhaltsvalidität liegt vor, wenn der Inhalt der Testitems das zu messende Konstrukt in seinen wichtigsten Aspekten erschöpfend erfaßt oder wenn die Aufgaben eines Tests (repräsentative) Stichproben aus dem zu erfassenden Zielmerkmal selbst darstellen (Repräsentationsschluss von Testsituation auf Realsituation). Die Inhaltsvalidität ist maximal, wenn Testsituation und Kriterium vollständig (und augenfällig) übereinstimmen. Beispiel: Englischer Wortschatz Kriteriumsvalidität Numerische(r) Kennwert(e), so viele wie es sinnvolle Kriterien gibt! =>mögliches Problem: diese Validitätsart kann nicht unabhängig von den Reliabilitäten von Test und Kriterium ermittelt werden; evtl. Minderungskorrektur einsetzen bei Interesse an theoret./ "wahren"/ "was wäre bei perfekter Reliabilität" - Zusammenhängen! für praktische (Vorhersage-) Zwecke jedoch unkorrigierte Werte nehmen! Konstruktvalidität

19 Die Analysekriterien der MTMM erlauben aufgrund ihres informellen Charakters keine objektive, quantitative Bestimmung der konvergenten und diskriminativen Validität. Dies führt dazu, daß der Auswerter z.b. selbst entscheiden muß, wie viele Verletzungen eines Kriteriums (die bei zunehmender Anzahl von Traits und Methoden aufgrund von Stichprobenfluktuationen und anderen Artefakten sehr wahrscheinlich werden) er tolerieren soll, ohne damit etwa die diskriminante Validität in Frage zu stellen. Das wichtigste Problem stellt die implizite Voraussetzung des Auswertungsverfahrens dar, daß alle Merkmale mit gleicher Zuverlässigkeit gemessen werden müssten, was in der Praxis nicht der Fall ist und so zu Fehleinschätzungen führt.

20 Normierung / Eichung Definition: Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testwerte (Rohwerte, die für sich noch keine Aussagekraft haben) im Vergleich zu denen einer größeren (meist repräsentativen) SP von Testteilnehmern einordnen zu können. Zu diesem Zweck werden die Rohwerte in standardisierte Werte (Prozeß der Standardisierung), für die es wiederum verschiedene Skalen gibt (z- Werte, T-Werte, etc.), transformiert. Standardisierung: Bezeichnet die Transformation von Rohwerten in Standardwerte, die einen festgelegten Mittelwert (z.b. M=100) und eine festgelegte Streuung (z.b. s=15) haben. Eine Standardisierung wird mit dem Ziel vorgenommen, Messungen, die auf verschiedenen Maßstäben vorgenommen wurden, vergleichbar zu machen. Ziele: Testwerte verschiedener Probanden im gleichen Test oder von denselben Probanden in verschiedenen Tests sollen vergleichbar gemacht werden. Darstellen auf einer einheitlichen Skala. Transformation der Rohwerte (ohne Änderung des Skalenniveaus). Arten von Normierungen: Man unterscheidet drei unterschiedliche Arten, um Rohwerte in Standardwerte zu transformieren: Äquivalentnormen Variabiliäts- und Abweichungsnormen Prozentränge Variabilitäts- oder Abweichungsnormen liegen vor, wenn die individuelle Leistung mit der Werteverteilung (meist Normalverteilung, durch Mittelwert und Streuung charakterisiert) einer (repräsentativen) Vergleichspopulation (z.b. gleiche Altersgruppe) in Beziehung gesetzt wird. Testwerte werden dabei in Werte einer Standardskala transformiert, z.b. in z-werte (M=0, S=1), Z-Werte (M=100, S=10) oder T-Werte (M=50, S=10). Beispiel: Wechsler-Intelligenztest, bei welchem die Testergebnisse für jede Altersstufe separat normiert worden sind (M=100, S=15). Prozentränge Hier werden die Rohwerte in Prozentwerte transformiert, die darüber informieren, wieviel Prozent aller Mitglieder einer Bezugspopulation (z.b. gleiche Altersstufe) einen höheren oder geringeren Wert erzielt haben. Beispiel: 20 Punkte in einem IQ-Test könnten z.b. einem Prozentrang von 60 entsprechen, d.h., daß 60% der Vergleichspopulation schlechter und 40% besser abgeschnitten haben. Vorteile: Setzt keine best. Verteilungsform voraus (Bezugswerte werden nur gerangreiht). Leichte Verständlichkeit. Problem: Gleiche Prozentrangdifferenzen müssen aufgrund des ordinalen Skalenniveaus nicht gleiche Rohwertdifferenzen bedeuten, oder gleichen Differenzen in Standardnormwerten entsprechen.

21 Eichstichprobe Der Umfang der Eichstichprobe ist abhängig vom: Allgemeinheitsgrad des untersuchten Merkmals vom Heterogenitätsgrad der Zielpopulation Je allgemeiner das Merkmal und je heterogener die Population, desto größer sollte die Eichstichprobe sein Verfälschungen bedrohen die Validität Welche Verfälschungsarten gibt es? Absichtliche Verfälschungen oder Verstellungen (Faking): Wenn Versuchspersonen z.b. versuchen möglichst hohe Werte zu erzielen (Simulation), möglichst niedrige Werte zu erzielen (Dissimulation, Dummstellen ) oder entsprechend der von ihnen wahrgenommenen sozialen Erwünschtheit reagieren. Unbemerkte/unkontrollierte Verzerrungen: Wenn Versuchspersonen unbewußt bestimmte Antworttendenzen (s. u.) bevorzugen oder sich kognitive Effekte aus den Bereichen Gedächtnis (es werden nur ausgewählte, nicht repräsentative Verhaltensaspekte erinnert), Konzentration (nichtüberdachtes Antworten), Informationsverarbeitung, Selbstbeobachtung oder Selbstdarstellung auf die Testergebnisse auswirken. Ursachen für (absichtliche) Testverfälschungen: Da Testergebnisse für die Versuchspersonen oft persönlich sehr wichtig sind (z.b. Einstellungs- oder Selektionstests), haben sie ein Interesse daran, die Ergebnisse so zu korrigieren, daß das von ihnen angestrebte Ziel besser erreicht werden kann. Versuchspersonen können aber auch einfach (z.b. mangels Vertrauen zum Versuchsleiter) nicht geneigt sein, best. Aspekte ihres Verhaltens und Denkens anderen Personen mitzuteilen. Welche wichtigen (voneinander wohl nicht unabhängigen) Verfälschungsarten gibt es? Selbstdarstellung Soziale Erwünschtheit Antworttendenzen Urteilsfehler beim Einsatz von Ratingskalen