Grundlagen der psychologischen Testtheorie

Ähnliche Dokumente
(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

(Essentiell) τ-äquivalente Tests:

Man unterscheidet zwischen gewichteten und ungewichteten Faktorwerten.

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Lösungen zum 3. Aufgabenblock

2 Zufallsvariable und Verteilungen

Grundgedanke der Regressionsanalyse

Standardnormalverteilung / z-transformation

Vorlesung: Multivariate Statistik für Psychologen

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Prof. Dr. Roland Füss Statistik II SS 2008

2.1 Einfache lineare Regression 31

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

6. Modelle mit binären abhängigen Variablen

Lineare Regression (1) - Einführung I -

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

FORMELSAMMLUNG STATISTIK (I)

In der beschreibenden Statistik werden Daten erhoben, aufbereitet und analysiert. Beispiel einer Datenerhebung mit Begriffserklärungen (Vokabel)

Kapitel V. Parameter der Verteilungen

5 Gemischte Verallgemeinerte Lineare Modelle

Mathematische und statistische Methoden II

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

3. Lineare Algebra (Teil 2)

Auswertung univariater Datenmengen - deskriptiv

Erwartungswert, Varianz, Standardabweichung

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Nomenklatur - Übersicht

»Möglichkeiten und Grenzen der Wirkungsmessung«

Kreditrisikomodellierung und Risikogewichte im Neuen Baseler Accord

Elemente der Mathematik - Sommer 2016

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

Übung zu Erwartungswert und Standardabweichung

Konkave und Konvexe Funktionen

4.6 Das Pumping-Lemma für reguläre Sprachen:

4.2 Grundlagen der Testtheorie

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

Empirische Wirtschaftsforschung

Statistik Exponentialfunktion

12 LK Ph / Gr Elektrische Leistung im Wechselstromkreis 1/ ω Additionstheorem: 2 sin 2 2

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Item-response Theorie (Probablistiche Testtheorie) Grundidee der item-response Theorie ist, dass die Antworten auf die Testitems lediglich

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

Der Erweiterungsfaktor k

Streuungs-, Schiefe und Wölbungsmaße

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

6. Übung zur Linearen Algebra II

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Definition des linearen Korrelationskoeffizienten

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Übung zur Vorlesung - Theorien Psychometrischer Tests II

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

1 BWL 4 Tutorium V vom

Gauss sche Fehlerrrechnung

16. Vorlesung Sommersemester

22. Vorlesung Sommersemester

Aufgabe 2. Kolloquium zur Klausurnachbesprechung Instrumente des Controlling Wintersemester 2010/11. Dr. Michael Holtrup

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

Rückblick Regression II: Anpassung an Polynome

Multivariate Analysemethoden

Hochschule Heilbronn Technik Wirtschaft Informatik Heilbronn University Institut für math.-naturw. Grundlagen

Stochastische Prozesse

Lösungen der Aufgaben zu Kapitel 2

Netzwerkstrukturen. Entfernung in Kilometer:

4. Indexzahlen. 5.1 Grundlagen 5.2 Preisindizes 5.3 Indexzahlenumrechnungen. Dr. Rebecca Schmitt, WS 2013/2014

Die Jordansche Normalform

SS 2017 Torsten Schreiber

Auswertung univariater Datenmengen - deskriptiv

Datenaufbereitung und Darstellung

1.1 Beispiele zur linearen Regression

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Statistik und Wahrscheinlichkeitsrechnung

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Erläuterungen zur Analyse des Zinssatzswaps Referenz N//83734/5 zwischen der A/B Duegården und der Nykredit Bank A/S

ω 0 = Protokoll zu Versuch E6: Elektrische Resonanz

e dt (Gaußsches Fehlerintegral)

1 Finanzmathematik. 1.1 Das Modell. Sei Xt

Zwei Sätze von Joseph Wolstenholme. Johann Cigler

Die kanonische Zustandssumme (System) und ihr Zusammenhang mit der molekularen Zustandssumme (Einzelmolekül) unterscheidbare Teilchen:

Transkript:

Grundlagen der psychologschen Testtheore WS 2016 Dr. Mchael Weber Enführung 1

Defnton enes (psychologschen) Tests En Test st en wssenschaftlches Routneverfahren zur Erfassung enes oder mehrerer emprsch abgrenzbarer psychologscher Merkmale mt dem Zel ener möglchst genauen quanttatven Aussage über den Grad der ndvduellen Merkmalsausprägung. (Moosbrugger & Kelava, 2008, S. 2) 3 Wssenschaftlchket Um von wssenschaftlch sprechen zu können, muss es ene Theore darüber geben, unter welchen Bedngungen welche Aussagen anhand der Testergebnsse abletbar snd. Demnach sollte ene möglchst genaue Vorstellung über das zu messende Merkmal vorlegen und der Test testtheoretschen Qualtätsansprüchen entsprechen. De (prmären) Aufgabengebete der Testtheore snd de Formulerung des theoretschen Hntergrunds über de Verbndung von zu messendem Merkmal und m Test gezegtem Verhalten sowe de Festlegung und Quantfzerung notwenger Qualtätsansprüche. 4 2

Enführung Routneverfahren Von enem Routneverfahren sprcht man, wenn Durchführung und Auswertung berets an ener größeren Stchprobe erprobt snd und so detallert beschreben snd, dass das Verfahren auch von anderen TestleterInnen be anderen Personen ensetzbar st. 5 Enführung Psychologsches Merkmal Be enem psychologschen Merkmal handelt es sch um enen Oberbegrff für relatv stable und konsstente Merkmale (auch Egenschaften oder Trats genannt), zetlch begrenzte bologsche, emotonale und kogntve Zustände sowe (auch States genannt) und Erlebens- und Verhaltenswesen. Dese mest ncht drekt beobachtbaren (=latenten) Merkmale sollen mt Hlfe von messbaren Sachverhalten erschlossen werden. 6 3

Enführung Item 1 Item 2 Merkmal Item Item k-1 Item k 7 Enführung Quanttatve Aussage Zel psychologscher Tests st es, de Ausprägung des Merkmals der getestete Person zu messen. Messen bedeutet enem Objekt (emprsches Relatv) enen Zahlenwert (numersches Relatv) so zuzuordnen, dass zumndest ene Egenschaft des numerschen Relatvs auch für das emprsche Relatv glt. (vgl. Bortz J. (1999) Statstk für Sozalwssenschaftler, 5. Auflage S. 18-20). Deser Zahlenwert kann n weterer Folge dazu verwendet werden, de Person mt anderen Personen verglechen oder ener Personengruppe zuordnen zu können. Je nach theoretscher Funderung des Messvorgangs haben de erzelten Zahlenwerte unterschedlches Skalennveau. 8 4

Enführung Messnstrument 5 4 3 Rangskala 2 1 9 Enführung Messnstrument 5 4 3 Intervallskala 2 1 10 5

Enführung Fragebogen Der Begrff wrd m Deutschen für Unterschedlches verwendet. schrftlche Befragungen zur Erhebung von demoskopschen Daten schulschen Daten medznschen Daten usw. Instrument zur Selbst- oder Fremdenschätzung wrd mest zur Erfassung von Persönlchketsegenschaften und Interessen verwendet Häufg auch als Persönlchkets test bezechnet Gemensam st beden, dass das Erfragen m Vordergrund steht. 11 Enführung Testarten Je nach Merkmal, das erfasst werden soll, werden ver/fünf unterschedlche Testarten unterscheden Lestungstests Persönlchkets- und Interessensfragebögen* [objektve Persönlchketstests] projektve Verfahren apparatve Tests De Bezechnung Persönlchketsfragebogen unterschedet sch bewusst von der m Buch von Moosbrugger & Kelava (2008), S.29 gewählten, da de Personen her befragt werden. 12 6

Enführung Lestungstests Snd dadurch gekennzechnet, dass se Konstrukte erfassen, de sch auf kogntve Lestungen bezehen de unter der jewelgen Testbedngung maxmale Lestung erfassen möchten Aufgaben verwenden, be denen es rchtge und falsche Antworten gbt 13 Enführung Zahlen-Verbndungs-Test ; Oswald & Roth (1987) 14 7

Enführung Wener Matrzen-Test Formann & Pswanger (1979) 15 Enführung Dredmensonaler Würfeltest (3 DW); Gttler (1990) 16 8

Enführung Persönlchketsfragebogen Snd dadurch gekennzechnet, dass se das Zel verfolgen, das für ene Person typsche Verhalten zu erfassen, mehrere Fragen verwenden, um das Persönlchketsmerkmal zu erfassen, de Antworten ncht n rchtg und falsch klassfzerbar snd, sondern erfragen, we stark das nteresserende Merkmal ausgeprägt st und m Allgemenen lecht verfälschbar snd (z.b. durch sozal erwünschte Antworten). 17 Enführung Kurzform des Bg Fve Inventory (BFI-K); Rammstedt & John (2005) 18 9

Enführung Objektve Persönlchketstests Snd dadurch gekennzechnet, dass se versuchen, das Ausmaß an Verfälschbarket z.b. durch sozal erwünschte Antworten zu reduzeren ndem se das Persönlchketsmerkmal ncht durch subjektve Urtele, sondern über Verhalten n standardserten Stuatonen erfassen. 19 Enführung Projektve Tests Snd dadurch gekennzechnet, dass se versuchen, de Persönlchket als Ganzes zu erfassen, wobe se auf ndvduelle Erlebns- und Bedürfnsstrukturen Rückscht nehmen, mehrdeutges Bldmateral verwenden, um unbewusste oder verdrängte Bewusstsensnhalte zu erfassen und oft exploratven Charakter haben. 20 10

Enführung Pcture Frustraton Test (PFT); Hörmann & Moog (1957) 21 Enführung Thematscher Apperzeptonstest (TAT); Revers & Taeber (1968) 22 11

Enführung Rorschach Form Deute Verfahren; Rorschach (1954) 23 Enführung Apparatve Tests Moosbrugger & Kelava (2008), S. 32 unterscheden m Wesentlchen zwe Arten Tests, se nsbesondere sensorsche und motorsche Merkmale erfassen. z.b. Tests zur Erfassung von Muskelkraft Geschcklchket sensomotorscher Koordnaton computerbaserte Tests, de häufg spezelle Varanten von Lestungstests und Persönlchketsfragebogen snd. 24 12

Testgütekrteren Testgütekrteren Hauptgütekrteren Objektvtät Relabltät Valdtät Nebengütekrteren Skalerung Normerung Ökonome Nützlchket Zumutbarket Unverfälschbarket Farness 26 13

Testgütekrteren - Objektvtät Objektvtät Defnton En Test st objektv, wenn er dasjenge Merkmal, das er msst, unabhängg von TestleterIn, TestauswerterIn und von der Ergebnsnterpretaton msst. (angelehnt an Moosbrugger & Kelava, 2008, S. 8) 27 Testgütekrteren - Objektvtät Objektvtät Be der Objektvtät lassen sch dre Bereche unterscheden Durchführungsobjektvtät (~Testleterunabhänggket*) Auswertungsobjektvtät (~Verrechnungsscherhet*) Interpretatonsobjektvtät (~Interpretatonsendeutgket*) * vergl. Kubnger (2009) Psychologsche Dagnostk, S. 39) 28 14

Testgütekrteren - Objektvtät Durchführungsobjektvtät Durchführungsobjektvtät st gegeben, wenn das Ergebns der Testung ncht davon abhängt, welche TestleterIn, de Testung durchgeführt. Demnach sollte de Testvorgabe unter möglchst standardserten Bedngungen stattfnden. Dese werden optmert ndem Instruktonen, de de TestleterInnen geben, schrftlch festgehalten snd, de sozale Interakton zwschen TestleterIn und getesteter Person möglchst gerng gehalten wrd und de Untersuchungsstuatonen möglchst ähnlch snd. 29 Testgütekrteren - Objektvtät Auswertungsobjektvtät Ist gegeben, wenn bem Vorlegen der Antworten der Personen auf de Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben numerschen Testergebns kommt. De Auswertungsobjektvtät kann erhöht/geschert werden durch das Vermeden freer Antwortformate, klare Auswertungsregeln und de Verwendung von Multple-Choce (Mehrfachauswahl) Antworten. De Auswertungsobjektvtät kann durch statstsche Kennzahlen zur Beurtelerüberenstmmung (z.b. Cohens Kappa, Fless Kappa, Konkordanzkoeffzenten nach Kendall) erfasst werden. 30 15

Testgütekrteren - Objektvtät Interpretatonsobjektvtät Ist gegeben, wenn bem Vorlegen der Testergebnsse unterschedlche TestanwenderInnen zum selben Schluss kommen. De Interpretatonsobjektvtät kann erhöht/geschert werden durch klare Regeln für de Interpretaton, Vorhandensen von Normen und Normwerten der Verwendung von Prozenträngen*. * En Prozentrang (PR) gbt an we vel Prozent der Referenzpopulaton desen oder enen schlechteren Testwert erzelen. 31 Testgütekrteren - Relabltät Relabltät ( Zuverlässgket ) Defnton En Test st dann (vollständg) relabel, wenn er das Merkmal, das er msst, exakt, d.h. ohne Messfehler, msst. (angelehnt an Moosbrugger & Kelava, 2008, S. 11) 32 16

Testgütekrteren - Relabltät Relabltät ( Zuverlässgket ) De Relabltät enes Tests gbt den Grad der Genaugket an, mt dem en Test en bestmmtes Merkmal msst. Allerdngs geht es ncht darum, ob der Test auch jenes Merkmal msst, das er zu messen vorgbt. Es lassen sch dre/ver Arten der Relabltät unterscheden Retest - Relabltät Paralleltest - Relabltät Innere Konsstenz [Testhalberungs- (Splt Half-) Relabltät] Näheres zur Relabltät m Rahmen der Lehrveranstaltungsenheten zur klassschen Testtheore 33 Testgütekrteren - Valdtät Valdtät ( Gültgket ) Defnton En Test glt dann als valde ( gültg ), wenn er das Merkmal, das er messen soll, auch wrklch msst. (angelehnt an Moosbrugger & Kelava, 2008, S. 13) 34 17

Testgütekrteren - Valdtät Valdtät ( Gültgket ) De Valdtät st m Hnblck auf de Praxs, das wchtgste Gütekrterum. Mt Hlfe der Valdtät lässt sch klären we sehr ene Test wrklch das zu messende Merkmal msst (~ Konstruktvaldtät ) und we gut der Testkennwert Verhaltenswesen außerhalb der Teststuaton vorhersagen kann (~ Krterumsvaldtät ). Es lassen sch ver Arten der Valdtät unterscheden Inhaltsvaldtät Augenschenvaldtät Konstruktvaldtät Krterumsvaldtät Näheres zur Valdtät m Rahmen der Lehrveranstaltungsenheten zur klassschen Testtheore und Faktorenanalyse. 35 Testgütekrteren - Skalerung Skalerung Defnton En Test erfüllt das Gütekrterum Skalerung, wenn de laut Verrechnungsregel resulterenden Testwerte de emprsche Merkmalsrelaton adäquat abblden. (Moosbrugger & Kelava, 2008, S. 18) Näheres zur Skalerung m Rahmen der Lehrveranstaltungsenheten zur modernen Testtheore. 36 18

Testgütekrteren - Normerung Normerung (Echung) Defnton Unter Normerung (Echung) enes Tests versteht man, das Erstellen enes Bezugssystems, mt dessen Hlfe de Ergebnsse ener Testperson m Verglech zu den Merkmalsausprägungen anderer Personen endeutg engeordnet und nterpretert werden können. (Moosbrugger & Kelava, 2008, S. 19) 37 Testgütekrteren - Normerung Normerung (Echung) Zel der Normerung st es enen Rahmen für de Interpretaton der (durch ene Person) erzelten Testergebnsse zu schaffen. Des erfolgt dadurch, dass de Testergebnsse n Normwerte umgewandelt werden. Wet verbretete Normwerte snd z.b. Prozentränge, z-werte, Z-Werte, IQ-Werte und T-Werte (ncht zu verwechseln mt den t-werten des t-tests). 38 19

Testgütekrteren - Normerung Normerung (Echung) Das Gütekrterum der Normerung (Echung) kann als erfüllt angesehen werden, wenn de Echtabellen gültg (d.h. ncht veraltet) snd, de Populaton für de Echtabellen defnert st und de für de Erstellung der Echtabellen herangezogene Stchprobe repräsentatv st*. * angelehnt an Kubnger (2009) Psychologsche Dagnostk, S. 68. 39 Testgütekrteren - Normerung Prozentrang Defnton Der Prozentrang gbt an, we vel Prozent der Normerungsstchprobe enen Testwert erzelen, der nedrger oder maxmal ebenso hoch st, we der Testwert x v der Testperson v. Der Prozentrang entsprcht somt dem prozentualen Flächenantel der Häufgketsvertelung der Bezugsgruppe, der am unteren Skalenende begnnt und nach oben hn durch den Testwert x v begrenzt wrd. (nach Moosbrugger & Kelava, 2008, S. 168) 40 20

Testgütekrteren - Normerung Prozentrang Testwert Häufgket Prozent Kumulerte Prozente Prozentrang 0 0 0 0 0 1 0 0 0 0 2 6 1,4 1,4 1,4 3 10 2,4 3,8 3,8 4 45 10,8 14,6 14,6 5 46 11,0 25,7 25,7 6 69 16,5 42,2 42,2 7 65 15,6 57,8 57,8 8 83 19,9 77,7 77,7 9 46 11,0 88,7 88,7 10 22 5,3 94,0 94,0 11 13 3,1 97,1 97,1 12 8 1,9 99,0 99,0 13 1,2 99,3 99,3 14 2,5 99,8 99,8 15 1,2 100,0 100,0 41 Testgütekrteren - Normerung Prozentrang Prozentränge snd als Normwerte nsofern besonders hervorzuheben, als se kene Intervallskalerung der Testkennwerte voraussetzen, kene Normalvertelung der Testwerte voraussetzen und ene nhaltlch enfache Interpretaton des Testergebnsses darstellen. 42 21

Testgütekrteren - Normerung z-werte (Standardmesswerte) z-werte snd m Falle ntervallskalerter und normalvertelter Testkennwerte defnert durch: x x z ˆ( X ) mt µ (x) NV (0,1) x und ˆ ( X ) ( X ) legen de relatve Poston des Testkennwerts der getesteten Person bezogen auf de Referenzpopulaton dar, snd postv be überdurchschnttlchen Lestungen, snd negatv be unterdurchschnttlchen Testlestungen und Null be durchschnttlchen Lestungen. 43 Testgütekrteren - Normerung z-werte (Standardmesswerte) Jedem z-wert st genau en Prozentrang zugeordnet und umgekehrt. Dese Zuordnungen können anhand der aus der Statstk bekannten z-tabellen abgelesen werden. Mt Hlfe von z-werten können ntervallskalerte, aber ncht normalvertelte Testkennwerte n normalvertelte Testkennwerte transformert werden (= Flächentransformaton). 44 22

Testgütekrteren - Normerung 45 Testgütekrteren - Normerung z-werte (Standardmesswerte) Aus den z-werten snd alle üblcherwese verwendeten Normwerte abletbar, mttels Kennwert z ( Kennwert ) µ ( Kennwert) 46 23

Testgütekrteren - Normerung Tabelle entnommen aus Kubnger (2009) Psychologsche Dagnostk, S. 74 47 Testgütekrteren - Normerung Bespel x 45 40 3 ( x) 45 40 z 3 5 3 ( x) 1.667 IQ 1.667 15 100 125 Z 1.667 10 100 116.67 T 1.667 10 50 66.667 48 24

Planung und Entwcklung von psychologschen Tests und Fragebogen Testkonstrukton Ablauf Der Ablauf der Konstrukton lässt sch grob n sechs Bereche entelen Planung Itemkonstrukton Erstellung der vorläufgen Testverson Erprobung an Stchprobe Itemanalyse und Überarbetung Normerung (Echung) De Konstruktonsschrtte können wederum n mehrere Bereche engetelt werden. 50 25

Testkonstrukton Planung Be der Planung snd de folgenden Bereche zu beachten Welches Merkmal soll erfasst werden? Welchen Geltungsberech soll Test haben? Für welche Zelgruppe wrd Test gemacht? Welche Struktur soll Test haben? We lange darf Test dauern? 51 Testkonstrukton Itemkonstrukton Es gbt unterschedlche Strategen zur Itemkonstrukton ntutve Konstrukton ratonale Konstrukton externale (krterumsorenterte) Konstrukton nternale (faktorenanalytsche) Konstrukton 52 26

Testkonstrukton Intutve Konstrukton Auf ene ntutve Konstrukton der Items sollte nur zurückgegrffen werden, wenn der theoretsche Kenntnsstand bezüglch des nteresserenden Merkmals gerng st (nach Moosbrugger & Kelava, 2008, S. 36). Demnach st de Konstrukton der Items abhängg von der Intuton der des/der TestkonstrukteurIn. 53 Testkonstrukton Ratonale Konstrukton Be ener ratonalen Konstrukton besteht berets ene elaborerte Theore über de Dfferenzerthet von Personen hnschtlch des nteresserenden Merkmals. Es st wesentlch das Merkmal zu dfferenzeren und spezfzeren sowe Verhaltensndkatoren festzulegen. 54 27

Testkonstrukton Externale (krterumsorenterte) Konstrukton Herbe wrd zunächst en großer Itempool zusammengestellt und Personen vorgegeben, de sch n dem nteresserenden, externalen Merkmal (Krterum) stark unterscheden. Im Anschluss werden jene Items ausgewählt, de gut zwschen Gruppen mt unterschedlchen Ausprägungen m Krterum dskrmneren. Zur Abscherung der Dskrmnatonsfähgket der Items sollte das Ergebns der Itemauswahl an ener anderen Stchprobe überprüft werden. 55 Testkonstrukton Internale (faktorenanalytsche) Konstrukton Herbe werden zunächst Items konstruert, de hypothetschen Verhaltensdmensonen erfassen sollen. Dese werden ener Stchprobe von Personen der nteresserenden Zelgruppe vorgegeben. Im Anschluss werden de Items ener Faktorenanalyse unterzogen und aufgrund der faktorenanalytschen Ergebnsse zu Skalen zusammengefasst. Näheres zur nternalen Konstrukton m Rahmen der Lehrveranstaltungsenheten zur Faktorenanalyse. 56 28

Testkonstrukton Wetere Aspekte der Itemkonstrukton und Testentwcklung, we Aufgabentypen und Antwortformate Fehlerquellen be der Itembeantwortung Geschtspunkte der Itemformulerung Erstellen der vorläufgen Testverson Erprobung der vorläufgen Testverson snd auf den Seten 38 71 des Buchs von Moosbrugger & Kelava (2008) zu fnden. 57 Klasssche Testtheore 29

Grundlagen Axome der klassschen Testtheore Im Rahmen der klassschen Testtheore gelten laut Moosbrugger & Kelava (2008)* de folgenden Axome**: 1. das Exstenzaxom, 2. das Verknüpfungsaxom und 3. das Unabhänggketsaxom. * de angeführten Axome unterscheden sch von den üblcherwese angeführten ** Axome snd ncht weter zu hnterfragende Grundannahmen 59 Grundlagen Das Exstenzaxom Das Exstenzaxom besagt, dass en wahrer Wert (= true score) exstert. Deser wahre Wert st der Erwartungswert der gemessenen Lestung ener Person. Demnach glt mt xv,... E ( x v, ) v, Testlestung der Person v n Test 60 30

Grundlagen Das Verknüpfungsaxom Das Verknüpfungsaxom besagt, dass sch de gemessene Lestung ener Person aus hrem wahren Wert und dem Messfehler zusammensetzt. Demnach glt x v, v, v, Der Messfehler spelt n der klassschen Testtheore ene zentrale Rolle. Se wrd daher auch oft als Messfehlertheore bezechnet. 61 Grundlagen Das Unabhänggketsaxom Das Unabhänggketsaxom besagt, dass der wahre Wert ener Person und der be der Messung entstandene Messfehler ncht korreleren Demnach glt ( v,, v, ) 0 mt (ausgeschreben rho ) Populatonskorrelaton* 62 31

Grundlagen Zusatzannahmen Da be Messfehlertheoren m Allgemenen angenommen wrd, dass es sch be dem Messfehler um ene Zufallsvarable handelt, muss das Unabhänggketsaxom erwetert werden. Daher wrd Unkorrelerthet angenommen zwschen den Messfehlern derselben Person be unterschedlchen Tests ( v,, v, j ) 0 ( v,, w, ) 0 und den Messfehlern unterschedlcher Personen bem selben Test 63 Grundlagen Folgerungen aus den Axomen Aus den Axomen kann gefolgert werden, dass der Erwartungswert des Messfehlers 0 st, E( ) 0 de Varanz des gemessenen Werts sch aus der Varanz der wahren Werte und der Varanz der Messfehler zusammensetzt, ²( X ) ²( ) ²( ) de Kovaranz von gemessenen Werten der Kovaranz der wahren Werte entsprcht. ( X A, X B ) ( A, B ) 64 32

Grundlagen Äquvalente Messungen Be den äquvalenten Messungen geht es um de Frage, welche Voraussetzungen erfüllt sen müssen, um annehmen zu können, dass zwe Tests (oder auch Items), dasselbe psychologsche Merkmal messen. Es gbt herfür ver unterschedlch strenge Zugänge : Replkaton, Parallelmessung - äquvalente Messungen und essentelle - äquvalente Messungen. 65 Grundlagen Replkaton Be der Replkaton wrd gefordert, dass verschedene Messnstrumente be derselben Person zu exakt demselben Messergebns kommen müssen, um von ener wederholten Messung zu sprechen. Se stellt somt de strengsten (und für de Praxs unrealstsche) Forderungen. 66 33

Grundlagen Parallelmessung Um ene Parallelmessung handelt es sch, wenn zwe Tests (oder Items), denselben Erwartungswert und de selbe Varanz bestzen. Demnach glt be Parallelmessungen E( X ) ( ) und A E X B ²( X ) ²( X B ). A Parallelmessungen erfassen das gleche psychologsche Merkmal glech genau, da de Glechhet der Varanzen der Messwerte auch gleche Varanzen der Messfehler bedeutet. En zu Test A paralleler Test wrd n weterer Folge mt A bezechnet. 67 Grundlagen - äquvalente Messungen Um - äquvalente Messungen handelt es sch, wenn zwe Tests (oder Items), denselben Erwartungswert aber unterschedlche Varanz bestzen. Demnach glt be - äquvalenten Messungen E( X A) E( X B ) - äquvalente Messungen erfassen das gleche Merkmal verscheden genau. 68 34

Grundlagen Essentell - äquvalente Messungen Be essentell - äquvalente Messungen unterscheden sch de Erwartungswerte zweer Tests (oder Items) um ene addtve Konstante. De Varanzen können ebenfalls verscheden sen Demnach glt be essentell - äquvalenten Messungen E( X A ) E( X ) c B 69 Relabltät Relabltät De Relabltät enes Tests gbt den Grad der Genaugket an, mt dem en Test en bestmmtes Merkmal msst. Im Rahmen der klassschen Testtheore steht herbe de Varanz des Messfehlers m Vordergrund. Verenfacht gesagt: Je größer de Varanz des Messfehlers desto gernger de Relabltät. rel ²( ) ²( X ) ²( ) ²( ) ²( ) Je nach Autor wrd ene Relabltät ab 0.7 bzw. 0.8 als ausrechende Relabltät angesehen. 70 35

Relabltät Relabltät Aus der Formel der Relabltät folgt u.a., dass de Relabltät - enen Werteberech von 0 bs 1 bestzt, 0 rel 1 das Bestmmthetsmaß der Korrelaton von Messwert und wahrem Wert st rel ²( X, ) der Korrelaton der Testergebnsse zweer paralleler Messungen (=Paralleltests) entsprcht rel ( X A, X A ') 71 Relabltät Arten der Relabltätsbestmmung Es lassen sch dre/ver Arten der Relabltät unterscheden Retest - Relabltät Paralleltest Relabltät [Testhalberungs- (Splt Half-) Relabltät] Innere Konsstenz 72 36

Relabltät Retest-Relabltät Herbe wrd derselbe Test derselben Stchprobe zwemal vorgelegt. Vorausgesetzt es gbt weder Veränderungen der Messfehlerenflüsse noch unsystematsche Veränderungen des wahren Werts, entsprcht de geschätzte Relabltät der Korrelatonen der Testergebnsse der beden Durchgänge. Um unsystematsche Veränderungen handelt es sch, wenn de zetlchen Veränderungen ncht be allen Personen glechartg snd z.b. be manchen Personen blebt der wahre Wert glech be anderen stegt er. Be Lestungstest ergeben sch Probleme z.b. aufgrund von Deckeneffekten. 73 Relabltät Paralleltest-Relabltät Herbe werden den Personen zwe Tests vorgelegt, de parallele Messungen darstellen. De Korrelaton der Ergebnsse schätzt de Relabltät der beden Tests. rel ˆ r( X A, X A ' ) Probleme ergeben sch, wenn de beden Tests ncht völlg parallel snd. Ene strenge Testung der Paralleltät zweer Tests st m Rahmen der klassschen Testtheore ncht möglch. De eleganteste Prüfung der Paralleltät von Tests ohne auf de moderne Testtheore zurückzugrefen, stellen konfrmatorsche Faktorenanalysen dar. 74 37

Relabltät Testhalberungs-Relabltät (Splt-Half Relabltät) Herbe wrd en aus mehreren Items bestehender Test n zwe möglchst parallele Untertests getelt. De Korrelaton der Ergebnsse der beden Untertests schätzt de Relabltät des halb so langen Tests. Um auf de geschätzte Relabltät des Gesamttests zu kommen, wrd auf enen Spezalfall der Formel von Spearman-Brown* zurückgegrffen. el ˆ r Gesamttest 2r( X1, X 1 r( X, X 1 2 2 ) ) * auf de Spearman Brown Formel wrd auf Fole 82 näher engegangen 75 Relabltät Innere Konsstenz Herbe wrd jedes Item enes aus mehreren Items bestehenden Tests als egene Messung des nteresserenden Merkmals betrachtet. De nnere Konsstenz kann dann verenfacht als durchschnttlche Korrelaton aller Items deses Tests verstanden werden, hängt aber auch von der Anzahl an Items m Test ab. De bekanntesten Kennwerte zur nneren Konsstenz snd Cronbach - Lambda3 nach Guttman ˆ ²( X ) k (1 ) k 1 ˆ ²( X ) 1 3 k k ˆ ²( X ) k k 1 k ˆ ²( X ) k 1 j1 j mt k= Anzahl an Items m Test 2 ˆ ( X, X j ) 76 38

Relabltät Innere Konsstenz Stellen de Items zumndest essentell - äquvalente Messungen dar, snd und 3 Schätzungen der Relabltät des Gesamttests. Für den Fall, dass de Items kene äquvalenten Messungen darstellen, snd und 3 ledglch untere Schranken der Relabltät. 77 Relabltät WICHTIG be der Berechnung von und 3 müssen de Items glechartg gepolt sen, d.h. hohe Werte müssen nhaltlch mmer deselbe Bedeutung haben (z.b. für ene hohe Ausprägung des Merkmals sprechen) Weder noch 3 snd en Maß für de Endmensonaltät von Items 78 39

Relabltät 79 Relabltät 80 40

Relabltät 81 Relabltät Formel nach Spearman-Brown Für dann Fall paralleler Items kann aus der Kenntns der Relabltät enes Tests de Relabltät des um parallele Items verlängerten bzw. verkürzten Tests mttels der Formel von Spearman-Brown berechnet werden. Formel nach Spearman - Brown rel ˆ veränderter Test rel ˆ 1 ( 1) rel ˆ Orgnaltest Orgnaltest mt Anzahl der Items Anzahl der Items m veränderten Test m Orgnaltest 82 41

Relabltät Bespel 1 En Test besteht aus 30 parallelen Items. De Relabltät des Tests beträgt rel=0.67 We hoch st de Relabltät, wenn man den Test um 10 parallele Items verlängert? rel ˆ veränderter Test ˆ rel veränderter Test rel ˆ 1 ( 1) rel ˆ Orgnaltest Orgnaltest mt Anzahl der Items Anzahl der Items 40 0.67 30 0.73 40 1 ( 1) 0.67 30 m veränderten Test m Orgnaltest 83 Relabltät Bespel 2 En Test besteht aus 30 parallelen Items. De Relabltät des Tests beträgt rel=0.67 We vele Items mehr benötgt der Test, wenn man ene Relabltät von 0.73 anstrebt? 0.67 0.73 1 ( 1) 0.67 Anzahl der Items m veränderten Test 1.33 30 Anzahl der Items m veränderten Test 40 84 42

Relabltät Enschub Verlängert oder verkürzt man enen Test um parallele Items, können Mttelwert und Varanz des veränderten Tests aus Kenntns der Kennwerte des Orgnaltests mttels der nachfolgenden Formeln errechnet werden. xˆ ˆ ²( X veränderter Test veränderter Test x ) ˆ ²( X Orgnaltest Orgnaltest ) [1 ( 1) reˆ l Orgnalte st ] mt Anzahl der Items Anzahl der Items m veränderten Test m Orgnaltest 85 Relabltät Anzustrebende Höhe der Relabltät Allgemen: so hoch we möglch. Es snd jedoch de nachfolgenden Punkte zu berückschtgen Art des zu erfassenden Merkmals Indvdual- versus Kollektvdagnostk Ensatzbedngungen Kosten-Nutzen Abwägungen Objektverbarket 86 43

Relabltät Art des zu erfassenden Merkmals Lestungsvarablen snd mest präzser messbar als z.b. Enstellungen oder Persönlchketsegenschaften. Be etablerten Intellgenztests snd Relabltäten der globalen Maße oft über 0.90, während Persönlchketsfragebogen Skalen oft nur Relabltäten um 0.7 aufwesen. Be heterogenen Merkmalen kann de nnere Konsstenz deutlch gernger sen als z.b. de Retest- oder Paralleltest Relabltät 87 Relabltät Indvdual- versus Kollektvdagnostk Be Indvdualdagnostk sollte Messgenaugket höher sen als be Messung der Durchschnttlestung enes Kollektvs, da sch de Messfehler be der Zusammenfassung von Messungen mehrerer Indvduen reduzeren. 88 44

Relabltät Ensatzbedngungen Be Tests, de ncht adaptv* vorgegeben werden können, hängt de Relabltät relatv stark von der Testlänge ab. Daher wesen Tests und Fragebögen, de zum Screenng engesetzt werden und daher eher kurz snd, mest ene gerngere Relabltät auf. *adaptve Testvorgabenwerden m Rahmen der Enheten zur modernen Testtheore behandelt 89 Relabltät Relabltät und Konfdenzntervalle für Da de Relabltät als Maß für de Genaugket der Messung des wahren Werts ener Person verstanden werden kann, st se Bass für de Erstellung von Konfdenzntervallen für wahre Werte. Es gbt zwe Arten von Konfdenzntervallen auf Bass der Messfehlervaranz auf Bass der Schätzfehlervaranz 90 45

Relabltät Relabltät und Konfdenzntervalle für KI auf Bass der Messfehlervaranz Be Vorlegen der Varanz der Testwerte und der Relabltät kann de Messfehlervaranz berechnet werden. ˆ ²( ) ˆ²( X ) (1 reˆ l) Das Konfdenzntervall des wahren Werts wrd berechnet mttels bzw. x z ˆ( ) 1,2 v krt v ˆ²( X ) (1 reˆ x z l 1,2 v krt v De z krt -Werte betragen 1.645 bzw. 1.96 für en 95% KI und 2.33 bzw. 2.58 für en 99% KI. ) 91 Relabltät Relabltät und Konfdenzntervalle für KI auf Bass der Schätzfehlervaranz De Berechnung des geschätzten wahren Werts und der Schätzfehlervaranz erfolgt über ˆ v x v rel ˆ x (1 reˆ l) Das Konfdenzntervall des wahren Werts wrd berechnet mttels bzw. ˆ ²( ˆ) ˆ ²( X ) (1 rel ˆ ) rel ˆ ˆ v ˆ z ˆ( ˆ) 1,2 v krt ˆ²( X ) (1 rel ˆ ) v v z 1,2 krt rel ˆ De z krt -Werte betragen 1.645 bzw. 1.96 für en 95% KI und 2.33 bzw. 2.58 für en 99% KI. 92 46

Relabltät v Bespel 1 Ene Person erzelt n enem Test 43 Punkte. Es st bekannt, dass der Mttelwert des Tests 39 Punkte, de Standardabwechung des Tests 5 Punkte und de Relabltät rel= 0.85 beträgt. In welchem Berech befndet sch der wahre Wert der Person mt 99%ger Scherhet? a) Berechnung auf Bass der Messfehlervaranz v 43 2.58 5² (1 0.85) 1,2 KI [38.00; 48.00] b) Berechnung auf Bass der Schätzfehlervaranz (430.85 390.15) 2.58 5² (1 0.85) 0.85 1,2 KI [37.79; 47.00] 93 Relabltät v Bespel 2 Ene Person erzelt n enem Test enen IQ von 134. De m Testmanual angegebene Testrelabltät beträgt rel= 0.75. Kann man mt 95%ger Scherhet davon ausgehen, dass de Person enen wahren IQ über 130 hat und somt hochbegabt st? Bemerkung: de Standardabwechung des IQ st laut Normtabellen auf 15 festgelegt a) Berechnung auf Bass der Messfehlervaranz v 134 1.96 15² (1 0.75) 1,2 KI [119.3;148.7] b) Berechnung auf Bass der Schätzfehlervaranz (1340.75 1000.25) 1.96 15² 0.250.75 1,2 KI [112.769; 138.23] 94 47

Valdtät Valdtät Defnton En Test glt dann als valde ( gültg ), wenn er das Merkmal, das er messen soll, auch wrklch msst. (angelehnt an Moosbrugger & Kelava, 2008, S. 13) ABER: Woran st erkennbar welches Merkmal en Test msst? Anstatt von der Valdtät enes Tests zu sprechen, sollte de Valdtät möglcher Interpretatonen von Testergebnssen betrachtet werden. (vergl. Moosbrugger & Kelava, 2008,S.136) 95 Valdtät Interpretatonen enes Testergebnsses Verschedene Interpretatonen des Testergebnsses können sch bezehen auf de Bewertung des Endergebnsses, das Verallgemenern des Ergebnsses, de Extrapolaton auf andere Bereche, das (kausale) Erklären und möglche Konsequenzen, de sch durch das Treffen von Entschedungen als Folge des Testergebnsses ergeben. Vor der Valderung muss überlegt werden, welche der oben angeführten Bereche betrachtet werden sollen. 96 48

Valdtät We wrd das Merkmal defnert? Neben der Überlegung, welcher Berech valdert werden soll, st zu überlegen, auf welcher Defnton das zu erfassende Merkmal basert. Moosbrugger & Kelava unterscheden zwschen zwe Merkmalsdefntonen operatonal und theoretsch. De Grenzen zwschen den beden Defntonen snd allerdngs fleßend. 97 Valdtät Operatonale Merkmalsdefnton Um ene operatonale Merkmalsdefnton handelt es sch, wenn de Testaufgaben den nteresserenden Anforderungsberech drekt repräsenteren. En operatonal defnertes Merkmal bezeht sch zunächst nur auf de spezfschen Test- bzw. Merkmalsnhalte. z.b.: Test zur Erfassung des Kurzzetgedächtnsses Fragebogen zur Enschätzung der Scherhet von Atomkraftwerken 98 49

Valdtät Theoretsche Merkmalsdefnton Be theoretschen Merkmalsdefntonen werden Theoren herangezogen, de spezfzeren (verdeutlchen), worauf bestmmte Unterschede zwschen Personen zurückgeführt werden können und we sch dese Unterschede n den Testergebnssen ausdrücken. z.b. formulert Eysenck (1981) Annahmen darüber, n welchen neuronalen Strukturen sch Personen mt unterschedlchen Ausprägungen der Persönlchketsdmenson Extraverson unterscheden. Daraus letet er Unterschede n bestmmten Erlebens- und Verhaltenswesen ab, auf de sch dann de Items, de zur Erfassung der Extraverson herangezogen werden, bezehen. 99 Valdtät Arten der Valdtät Im Wesentlchen werden ver Arten der Valdtät unterscheden Inhaltsvaldtät, Augenschenvaldtät, Krterumsvaldtät und Konstruktvaldtät. Wetere, häufg zu fndende Begrffe m Zusammenhang mt Valdtät snd Überenstmmungsvaldtät, prognostsche Valdtät, dskrmnante Valdtät und konvergente Valdtät. 100 50

Valdtät Inhaltsvaldtät Defnton Inhaltsvaldtät bezeht sch darauf, nwewet de Inhalte der Tests bzw. der Items, aus denen sch en Test zusammensetzt, tatsächlch das nteresserende Merkmal erfassen. (vergl. Moosbrugger & Kelava, 2008, S.140) 101 Valdtät Inhaltsvaldtät Be operatonalserten Merkmalen bezeht sch de Inhaltsvaldtät vor allem auf de Verallgemenerbarket der Testergebnsse. Es geht also darum, nwewet de ausgewählte Items ene repräsentatve Auswahl aus der Menge aller möglcher Aufgaben snd. z.b. We gut decken de Fragen, de be der Testtheoreprüfung gestellt werden, das vorgetragene Stoffgebet ab? 102 51

Valdtät Inhaltsvaldtät Auch be theoretsch defnerten Merkmalen muss de Verallgemenerung auf ene größere Menge von Aufgaben möglch sen. Zusätzlch muss angenommen werden können, dass unterschedlche Antworten Unterschede m nteresserenden Merkmal erklären können. Das bedeutet, es muss von den Antworten auf de Items auf das nteresserende Merkmal geschlossen werden können. Des kann nur durch ene gute theoretsche Funderung und ene daran orenterte Itemkonstrukton gewährlestet werden. 103 Valdtät Augenschenvaldtät Defnton Augenschenvaldtät gbt an, nwewet der Valdtätsanspruch enes Tests vom bloßen Augenschen her enem Laen gerechtfertgt erschent. (Moosbrugger & Kelava, 2008 S.15) 104 52

Valdtät Konstruktvaldtät* Defnton Konstruktvaldtät umfasst de emprschen Befunde und Argumente, mt denen de Zuverlässgket der Interpretaton von Testergebnssen m Snne erklärender Konzepte, de sowohl Testergebnsse als auch Zusammenhänge der Testwerte mt anderen Varablen erklären, gestützt wrd. (Messck, 1995, S.743, Übersetzung J. Hartg & A. Frey; aus Moosbrugger & Kelava, 2008, S. 145) *auf de Konstruktvaldtät wrd m Zuge der Faktorenanalyse nochmals engegangen. 105 Valdtät Konstruktvaldtät Im Wesentlchen geht es darum, Testergebnsse vor dem Hntergrund enes theoretschen Konstrukts zu nterpreteren. Man unterschedet zwschen dem Berech der Theore und dem Berech der Beobachtung. 106 53

Valdtät Konstruktvaldtät Der Berech der Theore beschäftgt sch mt ncht drekt beobachtbaren (=latenten) Konstrukten und deren Zusammenhängen. Im Idealfall snd dese Zusammenhänge durch Axome formalsert. Korrespondenzregeln geben an, we sch de theoretschen Zusammenhänge auf den Berech des Beobachtbaren auswrken. Be desen Auswrkungen handelt es sch mest um Zusammenhänge zwschen manfesten Varablen mtunter aber auch um Unterschede zwschen Gruppen. 107 Valdtät Konstruktvaldtät Dese Zusammenhänge bzw. Unterschede werden n weterer Folge emprsch geprüft. Stmmen de theoretsche Vorhersagen mt den emprschen Beobachtungen überen, wrd das als Bestätgung der Theore als auch der Interpretaton der Testkennwerte als ndvduelle Ausprägung auf dem theoretschen Konstrukt angesehen. Für den Fall, dass ene relatv hohe Korrelaton erwartet wrd, sprcht man von konvergenter Valdtät (z.b. Korrelaton mt enem Test der dasselbe Konstrukt messen soll). Falls man ene nedrge Korrelaton erwartet, sprcht man von dskrmnanter Valdtät. (z.b. Korrelaton mt enem Test, der en anderes Konstrukt erfassen soll). 108 54

Valdtät Konstruktvaldtät Mult Trat Mult Method Matrx (MTMM) Deses auf Korrelatonen baserende Vorgehen zur Konstruktvalderung wurde von Campell und Fske (1959) vorgestellt. Sowohl das nteresserende Merkmal als auch konkurrerende Merkmale (verschedene Trats) werden mt unterschedlchen Methoden erfasst und de erzelten Ergebnsse mtenander korrelert. Demnach werden telwese hohe (konvergente Valdtät) telwese nedrge Korrelatonen (dskrmnante Valdtät) erwartet. 109 Valdtät Konstruktvaldtät Mult Trat Mult Method Matrx (MTMM) De resulterende Korrelatonsmatrx müsste de folgenden Bedngungen erfüllen Korrelatonen, be denen dasselbe Merkmal mt derselben Methode erfasst wrd (mono Trat / mono Method = Retestrelabltät) sollten höher sen als Messung desselben Merkmals mt unterschedlchen Methoden (mono Trat hetero Method) Korrelert man Messungen be denen dasselbe Merkmal mt unterschedlchen Methoden gemessen wrd (mono Trat hetero Method), sollten dese Korrelatonen höher sen als de Korrelatonen von Messungen unterschedlcher Merkmale mt derselben Methode (hetero Trat mono Method) Korrelatonen von der Messung unterschedlche Merkmale mt derselben Methode (hetero Trat mono Method) sollten höher sen als Korrelatonen von Messungen unterschedlcher Merkmale mt unterschedlchen Methoden 110 55

Valdtät Konstruktvaldtät Mult Trat Mult Method Matrx (MTMM) Methode 1 Methode 2 Trat 1 Trat 2 Trat 3 Trat 1 Trat 2 Trat 3 Trat 1 Methode 1 Trat 2 Trat 3 Trat 1 Methode 2 Trat 2 Trat 3 mtmm mthm htmm hthm 111 Valdtät Konstruktvaldtät Wetere Methoden zur Untersuchung der Konstruktvaldtät snd Analysen von Antwortprozessen und der Verglech von theoretsch erwarteten Itemschwergketen mt emprsch ermttelten. Be der Analyse von Antwortprozessen können Personen z.b. gebeten werden, be der Bearbetung der Aufgaben laut zu denken, um so Annahmen über Antwortprozesse zu erheben bzw. zu klären, ob sch de Antwortprozesse auf das gewünschte Konstrukt bezehen. 112 56

Valdtät Krterumsvaldtät Defnton Krterumsvaldtät bedeutet, dass von enem Testergebns, auf en für dagnostsche Entschedungen praktsch relevantes Krterum außerhalb der Teststuaton geschlossen werden kann. Krterumsvaldtät kann durch emprsche Zusammenhänge zwschen dem Testwert und möglchen Außenkrteren belegt werden. Je enger dese Zusammenhänge, desto besser kann de Krterumsvaldtät als belegt gelten. (Moosbrugger & Kelava, 2008, S. 156) 113 Valdtät Krterumsvaldtät Von größter Bedeutung st herbe de Frage, welche Außenkrteren gewählt werden. De Auswahl sollte gut begründet und nachvollzehbar sen. Kann en theoretsch hergeleteter Zusammenhang von Testergebns und Außenkrterum emprsch untermauert werden, wrd dadurch sowohl de Valdtät der theorebaserten Testwertnterpretaton als auch de Valdtät der dagnostschen Entschedung unterstützt. 114 57

Valdtät Krterumsvaldtät Außenkrteren können zetlch parallel exsteren (Überenstmmungsvaldtät) oder sch auf zukünftge Ausprägungen enes Merkmals bezehen (prognostsche Valdtät). 115 Valdtät Praktsche Berechnung der Krterumsvaldtät De praktsche Berechnung der Krterumsvaldtät erfolgt durch de Berechnung der Korrelaton von Testergebns (X) mt dem Außenkrterum (Y). val ˆ r( X, Y) Problematsch dabe st, dass de Valdtät durch zwe Messfehler verdünnt wrd. Se fällt also aufgrund der Messfehler, de be der Messung des Testergebnsses und des Außenkrterums auftreten, gernger aus, als se n Wrklchket wäre. val ˆ r( X, Y ) val ˆ r(, ) X Y 116 58

Valdtät Verdünnungsformeln Um desen Fehler auszuglechen, gbt es je nachdem welche(r) Messfehler theoretsch besetgt werden soll, dre Verdünnungsformeln* r(, ) X Y r( X, Y) r( X, Y ) r( X, Y) rel ˆ ( X ) rel ˆ ( Y) r( X, Y) rel ˆ ( X ) r( X, Y) rel ˆ ( Y) Besetgung beder Messfehler Besetgung des Messfehlers vom Test Besetgung des Messfehlers vom Krterum *de Verdünnungsformeln können natürlch auch m Zuge der Berechnung von Konstruktvaldtätenangewandt werden 117 Valdtät Verdünnungsformeln Bespel De Korrelaton enes Tests X mt enem Außenkrterum Y se r(x,y)=0.47. Es se bekannt, dass de Relabltät des Tests 0.64 und de des Außenkrterums 0.49 beträgt. a) We hoch wäre de Valdtät des Tests, wenn man das Außenkrterum fehlerfre erheben könnte? b) We hoch wäre de Valdtät des Tests, wenn man das Testergebns fehlerfre messen könnte? c) We hoch wäre de Valdtät des Tests, wenn man sowohl den Test als auch das Außenkrterum fehlerfre messen könnte? 118 59

Valdtät Verdünnungsformeln Bespel De Korrelaton enes Tests X mt enem Außenkrterum Y se r(x,y)=0.47. Es se bekannt, dass de Relabltät des Tests 0.64 und de des Außenkrterums 0.49 beträgt. a) We hoch wäre de Valdtät des Tests, wenn man das Außenkrterum fehlerfre erheben könnte? r( X, ) Y r( X, ) Y r( X, Y ) rel ˆ ( Y ) 0.47 0.6714 0.49 119 Valdtät Verdünnungsformeln Bespel De Korrelaton enes Tests X mt enem Außenkrterum Y se r(x,y)=0.47. Es se bekannt, dass de Relabltät des Tests 0.64 und de des Außenkrterums 0.49 beträgt. b) We hoch wäre de Valdtät des Tests, wenn man das Testergebns fehlerfre messen könnte? r(, Y ) x r(, Y ) x r( X, Y ) rel ˆ ( X ) 0.47 0.5875 0.64 120 60

Valdtät Verdünnungsformeln Bespel De Korrelaton enes Tests X mt enem Außenkrterum Y se r(x,y)=0.47. Es se bekannt, dass de Relabltät des Tests 0.64 und de des Außenkrterums 0.49 beträgt. c) We hoch wäre de Valdtät des Tests, wenn man sowohl den Test als auch das Außenkrterum fehlerfre messen könnte? r( X, Y ) r( X, Y ) rel ˆ ( X ) rel ˆ ( Y ) r(, ) X Y 0.47 0.839 0.490.64 121 Valdtät Valdtät und Kosten-Nutzen Abwägungen Ist de Valdtät enes Tests bekannt, kann damt der Nutzen der Anwendung enes Tests zur Personenselekton ermttelt werden. Herfür können de sogenannten Taylor-Russell Tafeln herangezogen werden. 122 61

Valdtät Taylor - Russell Tafeln De Grunddee der Taylor Russel Tafeln besteht darn, dass angenommen wrd, dass en Indvduum über ene bestmmte Mndestausprägung des zu erhebenden Merkmals verfügen muss, um für ene bestmmte Anforderung geegnet zu sen. Je nachdem we hoch dese Mndestausprägung st, st nur en gewsser Prozentsatz der relevanten Populaton wrklch geegnet. Deser Prozentsatz nennt sch Grundrate (GR) bzw. Grundquote (GQ) Weters wrd aufgrund des Testergebnsses en bestmmter Tel der getesteten Personen als geegnet betrachtet. Deser Antel nennt sch Selektonsrate (SR) oder Selektonsquote (SQ) 123 Valdtät Taylor - Russell Tafeln Anhand der Taylor Russell Tafeln st für tabellerte Grundund Selektonsraten sowe be gegebener Valdtät des Tests ablesbar, we hoch der Antel wrklch geegneter Personen st, sofern se aufgrund des Testergebnsses als geegnet angesehen werden. 124 62

Merkmalsausprägung Valdtät Testergebns 125 Valdtät 126 63

Valdtät 127 Valdtät 128 64

Merkmalsausprägung Valdtät Testergebns 129 Valdtät 130 65

Valdtät des Tests Valdtät Grundrate = 0.1 Selektonsrate 131 Valdtät Taylor - Russell Tafeln Bespel 1 Es se bekannt, dass 40 % jener Personen, de sch für ene Stelle bewerben auch wrklch dafür geegnet snd. Zur Auswahl der Personen wrd en Test mt ener Valdtät von val=0.20 verwendet. a) We hoch st de Wahrschenlchket, dass de aus 20 BewerberInnen aufgrund des Tests ausgewählte Person wrklch für de ausgeschrebene Stelle geegnet st? b) We hoch st de Wahrschenlchket ene geegnete Person zu erhalten, wenn de Auswahl der Person ncht aufgrund der Testergebnsse, sondern zufällg erfolgt? 132 66

Valdtät Taylor - Russell Tafeln Bespel 1 Es se bekannt, dass 40 % jener Personen, de sch für ene Stelle bewerben auch wrklch dafür geegnet snd. Zur Auswahl der Personen wrd en Test mt ener Valdtät von val=0.20 verwendet. a) We hoch st de Wahrschenlchket, dass de aus 20 BewerberInnen aufgrund des Tests ausgewählte Person wrklch für de ausgeschrebene Stelle geegnet st? Lösung: GR= 0.40 SR=1/20=0.05 val=0.20 => 0.57 133 Valdtät Taylor - Russell Tafeln Bespel 1 Es se bekannt, dass 40 % jener Personen, de sch für ene Stelle bewerben auch wrklch dafür geegnet snd. Zur Auswahl der Personen wrd en Test mt ener Valdtät von val=0.20 verwendet. b) We hoch st de Wahrschenlchket ene geegnete Person zu erhalten, wenn de Auswahl der Person ncht aufgrund der Testergebnsse, sondern zufällg erfolgt? Lösung: de Grundrate (her 0.40) 134 67

Valdtät Taylor - Russell Tafeln Bespel 2 Es se bekannt, dass 40 % jener Personen, de sch für ene Stelle bewerben auch wrklch dafür geegnet snd. We hoch müsste de Valdtät sen, damt de Wahrschenlchket, dass ene aus 20 BewerberInnen aufgrund des Tests ausgewählte Person, auch wrklch geegnet st, 95 % beträgt? Lösung: GR=0.40 SR=1/20=0.05 % - Satz=0.95 => val= 0.70 135 Valdtät Berechnung der Valdtät be Verkürzung oder Verlängerung enes Tests um parallele Testtele val ˆ veränderter Test val ˆ 2 Orgnaltest 1 ( 1) rel ˆ Orgnaltest mt Anzahl der Items Anzahl der Items m veränderten Test m Orgnaltest 136 68

Valdtät Bespel 1 En Test besteht aus 30 parallelen Items. De Relabltät des Tests beträgt rel=0.67, de Valdtät st 0.43. We hoch st de Valdtät, wenn man den Test um 10 parallele Items verkürzt? val ˆ veränderter Test val ˆ 2 Orgnaltest 1 ( 1) rel ˆ Orgnaltest ˆ val veränderter Test mt Anzahl der Items Anzahl der Items 20 (0.43)² 30 0.3983 20 1 ( 1) 0.67 30 m veränderten Test m Orgnaltest 137 Faktorenanalyse 69

Grunddee Grunddee Korrelatonen zwschen den (manfesten) Items werden dadurch erklärt, dass hnen zumndest en gemensames latentes Merkmal (= Faktor ) zugrunde legt. Item 1 Item 2 Item 3 Item 4 Item 5 Latentes Merkmal De paarwesen Korrelaton zwschen den (standardserten) Items snd selbst be enem Faktor ncht 1, da neben dem Enfluss des latenten Merkmals auch andere Enflüsse (we z.b. Messfehler) berückschtgt werden müssen. 139 Grunddee Grunddee Item 1 Item 2 Item 3 Item 4 Item 5 Latentes Merkmal 140 70

Grunddee Grunddee Im Falle enes enzgen gemensamen latenten Merkmals, lautet de formale Darstellung der Faktorenanalyse Standardsertes Ergebns des Item Z Ladung(= Bedeutung) von Faktor 1 be Item,1 F1 Faktor 1 alle anderen Enflüsse = temspezfscher Faktor Ladung(= Bedeutung) aller anderen Enflüsse be Item Deses Modell wrd auch als das Generalfaktormodell bezechnet und geht auf Spearman zurück. 141 Grunddee Grunddee Zur Veranschaulchung Item1 Item2 Item3 Item4 Item5 De Box steht für de Varanz des Items. De hellblaue Fläche für den Antel an Varanz, der durch den ersten Faktor erklärt wrd. De anderen Farben für de temspezfschen Enflüsse, de auf das jewelge Item wrken. Se snd be jedem Item anders. 142 71

Grunddee Grunddee Zum Verglech das Modell der enfachen Regresson Varable de vorhergesagt werden soll Y b Modell X a y, x y, x Achsenabschntt Alle anderen Enflüsse auf de Varable Y Ladung(= Bedeutung) von Varable X Varable X Z 1 F1 Modell, alleanderen Enflüsse 143 Grunddee Grunddee Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 Z,1 F1,2 F2 144 72

Grunddee Grunddee Zur Veranschaulchung Item1 Item2 Item3 Item4 Item5 De Box steht für de Varanz des Items. De hellblaue Fläche für den Antel an Varanz, der durch den ersten Faktor erklärt wrd. De hellgrünen Flächen für den Antel an Varanz, der durch den zweten Faktor erklärt wrd. De anderen Farben für de temspezfschen Enflüsse, de auf das jewelge Item wrken. Se snd be jedem Item anders. 145 Grunddee Grunddee Das multple Faktorenmodell von Thurstone Z F F..., F, 1 1,2 2 m m oder Z m j1, j F j 146 73

Grunddee ( X Grunddee Das multple Faktorenmodell von Thurstone Unter der Annahme, dass de Ausprägungen der Personen n den verschedenen Faktoren ncht mtenander korreleren (oder kurz: unter der Annahme unkorrelerter Faktoren), ergbt sch, dass sch de Korrelaton zwschen zwe Items nach folgender Formel berechnen lässt, a X b ), 1,1,2,2..., a b a b a m b, m a, m j1 j b, j 147 Grunddee Bespel 1 Item 1 Item 2 Item 3 Item 4 F1 F2.33.12.87.49.66.22.67.18 ( X ) ( X1, X 3) (.33.66.12(.22)).1914 ( X1, X 4) (.33.67.12.18).2427, a X b m j1 a, j b, j 148 74

Kennwerte Kennwerte De dre wchtgsten Kennwerte der Faktorenanalyse snd de Ladungen der Faktoren pro Item, 2 h ( j de Kommunaltät des Items und, j der Egenwert des Faktors Eg F ). 149 Kennwerte De Ladungen De Ladung, j st de Korrelaton von Item mt Faktor j. ( X, F, j j Ladungen können daher postv oder negatv sen! De quadrerte Ladung st das Bestmmthetsmaß. Dadurch st sowohl ablesbar, we stark en Faktor an enem Item betelgt st, aber auch, we gut de Ausprägung des Faktors durch das Item vorhersagbar st bzw. we gut das Item den Faktor msst. De Ladung, st daher als (Konstrukt)Valdtät des Items j für den Faktor j nterpreterbar. ) 150 75

Kennwerte Zur Veranschaulchung Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 151 Kennwerte Zur Veranschaulchung Item1 Item2 Item3 Item4 Item5 2 2 2 1,1 2,1 4,2 152 76

Kennwerte De Kommunaltät enes Items De Kommunaltät enes Items gbt an, we vel der Varanz enes Items durch de gemensamen Faktoren erklärt werden kann. m 2 2 h, j j1 Geht man davon aus, dass de Ausprägungen der Faktoren be den Personen stabl snd, so st de Kommunaltät de untere Schranke der Relabltät des Items. 2 h rel( X ) 153 Kennwerte Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 154 77

Kennwerte Zur Veranschaulchung Item1 Item2 Item3 Item4 2 Item5 1,1 2 2 2 h1 h 2 h 4 155 Kennwerte Der Egenwert enes Faktors Der Egenwert enes Faktors gbt an, we vel der Varanz der Items durch den jewelgen Faktoren erklärt werden kann. 2 Eg( ) F j k 1 Dvdert man den Egenwert enes Faktors durch de Anzahl an Items und nmmt das Ergebns mal 100, so ergbt das den Prozentsatz der Gesamtvaranz aller Items, der durch den jewelgen Faktor erklärt wrd., j Eg( Prozent der Gesamtvaranz erklärt durch Faktor j k F j ) 100 mt k= Anzahl an Items m Test 156 78

Kennwerte Der Egenwert enes Faktors Dvdert man den Egenwert enes Faktors durch de Summe aller Egenwerte und nmmt das Ergebns mal 100, so ergbt das we vel Prozent der durch de gemensamen Faktoren erklärbaren Varanz der jewelge Faktor erklärt. Prozent erklärbarer Varanz durch Faktor j Eg( Fj ) 100 Eg( F ) Je größer der Egenwert enes Faktors umso größer st sen Antel an der Erklärung der Korrelatonen zwschen den Items. m f 1 f 157 Kennwerte Der Egenwert enes Faktors Der Egenwert st demnach wchtg, um den Stellenwert enes Faktors zu nterpreteren. Er kann (m übertragenen Snn) als Maß dafür verstanden werden, we gut de m Test enthaltenen Items den jewelgen Faktor messen bzw. we vel Informaton de m Test enthaltenen Items über den Faktor lefern. 158 79

Kennwerte Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 159 Kennwerte Zur Veranschaulchung Item1 Item2 Item3 Item4 2 Item5 1,1 Eg( F 1 ) 160 80

Kennwerte Zur Veranschaulchung Item1 Item2 Item3 Item4 2 Item5 1,1 Eg( F 2 ) 161 Kennwerte 162 81

Kennwerte 163 Kennwerte 164 82

83 165 Kennwerte 166 Bespel 2.18.22.49.12.67.66.87.33 F1 F2 Item 1 Item 2 Item 3 Item 4 4813..18².67².484.22)² (.66².997.49².87)² (.1233.12².33² 2 4 2 3 2 2 2 1 h h h h 0.3353.18².22²) (.49².12² ) ( 1.7503.67².66².87)² (.33² ) ( 2 1 F Eg F Eg Kennwerte

Kennwerte Bespel 2 Eg( F ).33² (.87)².66².67² 1.7503 1 Eg( F ).12².49² (.22²).18² 0.3353 2 1.7503 Prozent der Gesamtvaranz Faktor 1 100 43.75% 4 0.3353 Prozent der Gesamtvaranz Faktor 2 100 8.3825% 4 1.7503 Prozent der erklärbaren Varanz Faktor 1 100 83.92% 1.7503 0.3353 0.3353 Prozent der erklärbaren Varanz Faktor 2 100 16.08% 1.7503 0.3353 167 Parameterschätzung Parameterschätzung De mathematsche Herausforderung m Rahmen der Faktorenanalyse st de Bestmmung der (unbekannten) Ladungen sowe de Festlegung der Faktorenzahl. De Grunddee der Parameterschätzung basert darauf, zunächst jenen Faktor mt dem größten Egenwert zu extraheren. Dadurch wrd de Summe der quadrerten verblebenden Korrelatonen zwschen den Items am stärksten mnmert. Daraus folgt, dass man de Ladungen des 1. Faktors so bestmmt, dass k k a1 b1 [ r ( X, X ) ˆ ˆ 2, 1 a b a b,1] Mnmum 168 84

Parameterschätzung Parameterschätzung De mathematsche Name deses Problems nennt sch Egenwert Egenvektor Problem und wurde (zum Glück) berets gelöst. Der Lösungsweg erfolgt teratv und st n realen Stuatonen für de händsche Berechnung vel zu aufwändg. 169 Parameterschätzung Parameterschätzung Nach Extrakton des ersten Faktors (= Schätzung der Ladungen des ersten Faktors), wrd der zwete Faktor nach derselben Grunddee extrahert. Allerdngs verwendet man herfür ncht de orgnalen Korrelatonen, sondern de um den Enfluss des ersten Faktors reduzerten. Dese Korrelatonen werden Restkorrelatonen genannt. r 1 ( X a, X b) Rest r( X a, X b) a,1 b,1 Restkorrelaton von Item a und b nach Extrakton von Faktor 1 zur Ernnerung: ( X, X ) a b a, 1 b,1 a,2 b,2... a, m b, m ˆ ˆ 170 85

Parameterschätzung Parameterschätzung Im Rahmen der Faktorenanalyse wurden ene Velzahl an Extraktonsverfahren entwckelt. De zwe am häufgsten angewandten snd de Hauptachsenanalyse ( prncpal axs ) und de Hauptkomponentenanalyse ( prncpal components ). 171 Parameterschätzung Parameterschätzung Be der Hauptkomponentenanalyse wrd davon ausgegangen, dass sch de Varanz enes Items vollständg durch de gemensamen Faktoren erklären lässt. Demnach snd alle Kommunaltäten (und somt auch de Korrelatonen enes Items mt sch selbst) glech 1. Als Konsequenz werden so vele Faktoren extrahert, we es Items gbt. Se st de Standardenstellung be Berechnung ener Faktorenanalyse n SPSS. 172 86

Parameterschätzung Parameterschätzung Be der Hauptachsenanalyse wrd davon ausgegangen, dass sch de Varanz enes Items mmer n de Kommunaltät und de Enzelrestvaranz auftelt. Demnach snd de Kommunaltäten (und somt auch de Korrelatonen enes Items mt sch selbst) klener als 1. Zel st es also, nur de durch de gemensamen Faktoren erklärbare Varanz zu beschreben. Da zu Begnn der Datenanalyse de Kommunaltäten ncht bekannt snd (= Kommunaltätenproblem ), werden de Faktoren zunächst mttels Hauptkomponentenanalyse geschätzt und teratv (=schrttwese) verbessert ( Kommunaltätenteraton ). 173 Parameterschätzung Parameterschätzung Laut Backhaus et al.* unterschedet sch de Interpretaton der Faktoren je nach Methode. Be der Hauptkomponentenanalyse geht es darum, de hoch auf enem Faktor ladenden Items zu enem Sammelbegrff zusammenzufassen. Be der Hauptachsenanalyse geht es darum, de Ursachen für de (hohen) Korrelatonen zwschen den Items zu fnden. *Backhaus K., Erchson B., Plnke W., Weber R. Multvarate Analysemethoden 10. Auflage, Sprnger. Sete 293. 174 87

Parameterschätzung 175 Parameterschätzung Bestmmung der Faktorenzahl Für de Bestmmung der Anzahl an Faktoren gbt es fünf üblcherwese herangezogene Krteren Faktorenzahl wrd a pror festgelegt, alle Restkorrelatonen snd nahe 0 (z.b.: <.2), der Egenwert des zuletzt extraherten Faktors st klener 1* (m übertragenen Snn st damt de Informaton, de über den Faktor vorlegt gernger als de Informaton enes enzgen Items), der Verlauf des Egenwertedagramms (Screeplot) oder de Parallelanalyse. Für de Bestmmung der Faktorenzahl gbt es kene generellen Vorschrften, sodass der Grad an Subjektvtät her relatv hoch st. * dese Vorgehenswese wrd auch Kaser - Krterum genannt 176 88

Parameterschätzung Bestmmung der Faktorenzahl Be der Betrachtung des Egenwertedagramms, wrd jene Stelle gesucht, an der Verlauf das Egenwertedagramm abflacht (= Elbow Krterum). De Faktoren vor dem Knck werden n der weteren Analyse berückschtgt. 177 Parameterschätzung 178 89

Parameterschätzung Bestmmung der Faktorenzahl Be der Parallelanalyse werden zumndest 100 Datensätze von Zufallszahlen erzeugt, wobe de Anzahl an Items und der Stchprobenumfang dem emprsch gewonnenen Datensatz entsprcht. All dese Datensätze werden ener Faktorenanalyse unterzogen und de aus jeder Analyse gewonnenen Egenwerte werden pro Faktor gemttelt. Als relevante nchttrvale Faktoren werden all jene Faktoren bezechnet, deren Egenwerte über jenen der (gemttelten) Egenwerte der Parallelanalyse legen.* *vergl. Moosbrugger & Kelava 2008, Sete 313. 179 Parameterschätzung 180 90

Ergebnsnterpretaton Interpretaton der Faktorenlösung De Ladungsmatrx bldet de Grundlage für de nhaltlche Interpretaton der Faktoren. Herfür werden üblcherwese de n enem Faktor hoch (=deal snd Items mt Ladungen über 0.7) und n allen anderen Faktoren nedrg ladenden Items (deal snd her Ladungen unter 0.3) herangezogen. Dese Items werden auch als Marker-Items bezechnet. Zechnet man de Items als Punkte n enem Raum mt so velen Dmensonen we es Faktoren gbt, so legen Marker- Items nahe an den Koordnatenachsen. 181 Ergebnsnterpretaton Interpretaton der Faktorenlösung Grunddee F1 Item 1.19 Item 2.87 Item 3.79 Item 4.91 Item 5.09 Item 6 Item 7.75.23 F2.85.13.21.01.81.08.88 F1 2 h 1 1,1 1,2 F2 182 91

Ergebnsnterpretaton Interpretaton der Faktorenlösung Wegen der Vorgehenswese be der Parameterschätzung snd derartg hohe Ladungen be der Erstlösung n der Praxs aber eher selten. Aus desem Grund werden de Faktoren zur besseren Interpreterbarket rotert. Zel st ene enfache Struktur ( smple structure ) be der jedes Item nach Möglchket nur n enem Faktor hoch, n den anderen Faktoren jedoch gerng lädt. Dadurch ergeben sch neue, besser nterpreterbare Ladungen. 183 Ergebnsnterpretaton Faktorenrotaton Grunddee F1 Item 1.33 Item 2.87 Item 3.66 Item 4.67 Item 5.79 Item 6.75 Item 7.33 F2.56.49.64.18.51.48.42 F1 F2 184 92

Ergebnsnterpretaton Faktorenrotaton F2 Grunddee F1 F2 Item 1.010.65 Item 2.01.998 Item 3.224.89 Item 4.490.49 Item 5.939.06 Item 6 Item 7.888.07.527.09 F1 F1 F2 185 Ergebnsnterpretaton Faktorenrotaton Durch de Rotaton ändern sch de Ladungen, de Egenwerte und möglcherwese auch de Interpretaton der Faktoren. Unverändert bleben de Kommunaltäten und der Antel der durch de Faktoren erklärbaren Varanz. 186 93

Ergebnsnterpretaton Faktorenrotaton Wrd der rechte Wnkel zwschen den Faktorenachsen bebehalten (= unabhängge Faktoren) sprcht man von ener orthogonalen Rotaton. Gbt man de Forderung nach unabhänggen Faktoren auf (= Faktorenachsen müssen ncht m rechten Wnkel aufenander stehen) so sprcht man von schefwnkelgen (= oblque) Rotatonen. De bekannteste Art der Faktorenrotaton st de Varmax- Rotaton. Herbe werden de Faktoren so rotert, dass de Varanz der Ladungen nnerhalb enes Faktors maxmal wrd. Das bedeutet, das Zel st pro Faktor sowohl hohe als auch nedrge Ladungen zu haben, um so de Faktoren lechter benennen zu können. 187 Ergebnsnterpretaton 188 94

Ergebnsnterpretaton 189 Ergebnsnterpretaton 190 95

Ergebnsnterpretaton Faktorwerte Da es das Zel der Faktorenanalyse st, de Zahl der Kennwerte zu reduzeren (aus velen Items sollen deutlch wenger Faktoren resulteren), st es nötg, Kennwerte für de Ausprägungen der Personen n den zu Grunde legenden Faktoren zu ermtteln. Dese Kennwerte nennen sch Faktorwerte (auch Skalenwerte genannt). Man unterschedet zwschen gewchteten und ungewchteten Faktorwerten. 191 Ergebnsnterpretaton Ungewchtete Faktorwerte De Berechnung der ungewchteten Faktorwerte erfolgt pro Person z.b. durch aufsummeren oder mtteln der Punkte jener Items, de n enem Faktor hoch laden. Items, de n mehreren Faktoren ähnlch hohe Ladungen aufwesen, werden entweder jenem Faktor zugerechnet, n dem se de höchste Ladung aufwesen oder be der Berechnung der Faktorwerte ncht berückschtgt. Ist de Ladung enes Items n enem Faktor negatv, so muss das Item umgepolt werden. 192 96

Ergebnsnterpretaton Bespel 3 5 Aussagen, auf de de Personen mt 0 (stmme gar ncht zu) bs 10 (stmme völlg zu) antworten konnten. ID X1 X2 X3 X4 X5 1 7 3 7 2 9 2 8 3 7 2 9 3 5 8 5 9 2 4 0 2 1 3 6 193 Ergebnsnterpretaton Bespel 3 ID X1 X2 X3 X4 X5 1 7 3 7 2 9 2 8 3 7 2 9 3 5 8 5 9 2 4 0 2 1 3 6 Aufgrund der negatven Ladung von Item 5 n Faktor 1 muss deses Item für de Berechnung des ungewchteten Faktorwerts (und auch für de Berechnung der Relabltät) umgepolt werden. 194 97

Ergebnsnterpretaton Bespel 3 ID X1 X2 X3 X4 X5 1 7 3 7 2 9 2 8 3 7 2 9 3 5 8 5 9 2 4 0 2 1 3 6 Das Umpolen erfolgt durch * X v [mn( X ) (max( X )] X, v, 195 Ergebnsnterpretaton Bespel 3 ID X1 X2 X3 X4 X5 X5* 1 7 3 7 2 9 1 2 8 3 7 2 9 1 3 5 8 5 9 2 8 4 0 2 1 3 6 4 * X [0 10] 9 1 1,5 * X [0 10] 2 8 3,5 * X [0 10] 6 4 4,5 196 98

Ergebnsnterpretaton Bespel 3 ID X1 X2 X3 X4 X5 X5* FW1 1 7 3 7 2 9 1 6 2 8 3 7 2 9 1 6 3 5 8 5 9 2 8 25 4 0 2 1 3 6 4 9 FW1,1 3 2 1 FW2,1 3 2 1 FW 8 9 8 FW 2 3 4 3,1 4,1 197 Ergebnsnterpretaton Bespel 3 ID X1 X2 X3 X4 X5 X5* FW1 FW2 1 7 3 7 2 9 1 6 14 2 8 3 7 2 9 1 6 15 3 5 8 5 9 2 8 25 10 4 0 2 1 3 6 4 9 1 FW1,2 7 7 FW2,2 8 7 FW 5 5 FW 0 1 3,2 4,1 198 99

Ergebnsnterpretaton Gewchtete Faktorwerte Da be der ungewchteten Berechnung der Faktorwerte de unterschedlche Konstruktvaldtät der Items ncht berückschtgt wrd und Items, de n zwe oder mehr Faktoren ähnlch hohe Ladungen haben, problematsch snd, werden de Items je nach Ladung enes Items n enem Faktor gewchtet. Das Umpolen der Items st herbe ncht nötg. Es resulteren pro Faktor standardserte Faktorwerte. Für de Berechnung stehen n SPSS unterschedlche Methoden zu Verfügung. 199 Ergebnsnterpretaton 200 100

Arten der Faktorenanalyse Arten der Faktorenanalyse Es lassen sch zwe Arten von Faktorenanalysen unterscheden de exploratve und de konfrmatorsche Faktorenanalyse. 201 Arten der Faktorenanalyse Exploratve Faktorenanalysen De exploratve Faktorenanalyse wrd verwendet, wenn noch kene Hypothesen über de Anzahl an Faktoren und de Zuordnung der Items zu den Faktoren exsteren. De Zahl der Faktoren und de Zuordnung der Items zu den Faktoren wrd mttels der zuvor besprochenen Vorgehenswesen bestmmt. 202 101

Arten der Faktorenanalyse Konfrmatorsche Faktorenanalysen Be der konfrmatorschen Faktorenanalyse sollen ene oder mehrere zuvor theoretsch festgelegte Faktorenstrukturen anhand emprscher Daten auf hre Gültgket hn überprüft werden. Demnach müssen de Faktorenzahl und de Zuordnung der Items zu den Faktoren bekannt sen. 203 Arten der Faktorenanalyse Konfrmatorsche Faktorenanalysen De konfrmatorsche Faktorenanalyse zählt zu den Strukturglechungsmodellen (SEM) n deren Rahmen geprüft wrd, we gut en oder mehrere theoretsch formulerte Modelle, de erhobenen Daten beschreben. Für dese Fragestellung werden sowohl Sgnfkanztests als auch Indces zur Überprüfung der Modellanpassung an de Daten verwendet*. Auch Mult-Trat-Mult-Method Desgns können mthlfe konfrmatorscher Faktorenanalysen geprüft werden**. * Lteraturtpp: Byrne, B.M. (2010) Structural Equaton Modelng wth AMOS 2nd ed., Routledge. **Lteraturtpp: Kenny, D.A. & Kashy, D.A (1992) Analyss of the multtrat multmethod matrx by confrmatory factor analyss. Psychologcal Bulletn, 112 165 172. 204 102

Grenzen der Anwendbarket Probleme und häufge Fehler be der Anwendung De Faktorenanalyse trfft kene Aussagen über de Dmensonaltät der Items. De klasssche Varante der Faktorenanalyse beruht auf der Berechnung von Pearson Korrelatonen bzw. Kovaranzen. Demnach sollten de für ene Faktorenanalyse herangezogenen Items metrsch sen. Weters snd de Ergebnsse (vor allem de Anzahl an Faktoren) stark stchprobenabhängg. Je homogener de Stchprobe, desto gernger de Korrelatonen zwschen den Items und umso mehr Faktoren ergeben sch. Demnach müssten z.b. de Gewchtungen für de gewchteten Summen n jeder Stchprobe neu berechnet werden. 205 Grenzen der Anwendbarket Probleme und häufge Fehler be der Anwendung Für den Fall dchotomer Items sollte als Bass für de faktorenanalytschen Berechnungen de tetrachorsche Korrelaton herangezogen werden. De Höhe der Verfelderkorrelaton (=Pearson Korrelaton für zwe dchotome Items) hängt stark von den Itemschwergketen der Items ab und führt somt zu artfzellen Ergebnssen. De Faktoren blden zumest Gruppen von n etwa glech schweren Items. Mtunter blden de Faktoren nur das Antwortwortverhalten der Personen ab. So können z.b. Fragen, de von Personen mest bejaht werden, n enem gemensamen Faktor hoch laden auch wenn damt nhaltlch völlg unterschedlche Dmensonen abgefragt wurden. 206 103

Itemanalyse und Itemselekton m Rahmen der klassschen Testtheore Itemanalyse und - selekton Itemanalyse Nach der Planung und Entwcklung der Items enes Tests müssen dese ener für den zukünftgen Anwendungsberech des Tests möglchst repräsentatven Stchprobe vorgelegt werden, um de Egnung der Items deskrptvstatstsch (und eventuell faktorenanalytsch) zu untersuchen. De üblcherwese berechneten Kennwerte snd Itemschwergket Itemvaranz Itemtrennschärfe 208 104

Itemanalyse und - selekton Itemschwergket Defnton Der Schwergketsndex P enes Items st der Quotent aus der be desem Item tatsächlch errechten Punktesumme aller N Personen und der be desem Item von allen Personen maxmal errechbaren Punktesumme multplzert mt 100. N xv N mn( X ) v1 P 100 N [max( X ) mn( X )] mt N... Anzahl der Personen mn( X )...mnmal möglcher Punktewert max( X )...maxmal des Items möglcher Punktewert des Items (angelehnt an Moosbrugger & Kelava, 2008, S. 75) 209 Itemanalyse und - selekton Bespel 1 Be enem Item können Personen zwschen 0 und 5 Punkte erzelen. Das Item wurde 120 Personen vorgelegt, de nsgesamt 442 Punkte erzelten. We schwerg st das Item? N xv N mn( X ) v1 P 100 N [max( X ) mn( X )] P 442 1200 100 73.6 120[5 0] 210 105

Itemanalyse und - selekton Bespel 2 Be enem Item können Personen zwschen 1 und 10 Punkte vergeben. Das Item wurde 150 Personen vorgelegt, de nsgesamt 956 Punkte vergaben. We schwerg st das Item? N xv N mn( X ) v1 P 100 N [max( X ) mn( X )] P 956 1501 100 59.703 150[10 1] 211 Itemanalyse und - selekton Bespel 3 En dchotomes Item wurde 152 Personen vorgelegt und von 28 gelöst. We schwerg st das Item? N xv N mn( X ) v1 P 100 N [max( X ) mn( X )] P 28 1520 100 18.421 152[1 0] Merke: be dchotomen Items st de Itemschwergket glech der relatven Lösungshäufgket! P p ) ( 212 106

Itemanalyse und - selekton Itemvaranz De Varanz der Items wrd mttels der aus der Statstk bekannten Formeln für de Varanz ermttelt. - be metrschen Items 2 1 ˆ ( X ) ( N 1 v1 - be dchotomen Items ˆ 2( X ) p (1 pˆ ) N x 2, v ( N v1 x N, v )² ) Verenfacht glt: je größer de Varanz enes Items, umso besser sene Fähgket zur Dfferenzerung (=Dskrmnatonsfähgket). 213 Itemanalyse und - selekton Itemtrennschärfe Defnton De Trennschärfe r,t enes Item st der korrelatve Zusammenhang zwschen den Punkten, de von ener Person v m Item und den Punkten de von Person v m Gesamttest erzelt werden. (angelehnt an Moosbrugger & Kelava, 2008, S. 82) r ( X,,, t r v X v ) 214 107

Itemanalyse und - selekton Itemtrennschärfe Neben der unkorrgerten Itemtrennschärfe gbt es auch noch de korrgerte Itemtrennschärfe be der de Punkteanzahl, de ene Person m Gesamttest erzelt hat, um de Punktezahl de m jewelgen Item erzelt wurde reduzert wrd. * r, t r( X, X, v *, v mt *, X v X v X, v ) 215 Itemanalyse und - selekton Itemtrennschärfe Bespel ID X1 X2 X3 X X*,1 X*,2 X*,3 1 3 2 4 9 6 7 5 2 1 4 2 7 6 3 5 3 1 2 2 5 4 3 3 *,1 X1 9 3 6 *,2 X1 9 2 7 *,3 X1 9 4 5 216 108

Itemanalyse und - selekton 217 Itemanalyse und - selekton 218 109

Itemanalyse und - selekton 219 Itemanalyse und - selekton Haben alle Items dasselbe Antwortformat, erfüllen de Item-Mttelwerte ene dem Schwergketsndex verglechbare Funkton 220 110

Itemanalyse und - selekton Korrgerte Itemtrennschärfe 221 Itemanalyse und - selekton Itemselekton De Auswahl für den Test geegneter Items basert u.a. auf der glechzetgen Berückschtgung der ermttelten Testkennwerte. Selbstverständlch können auch de Ergebnsse der Faktorenanalyse zur Itemselekton herangezogen werden. 222 111

Itemanalyse und - selekton Verdünnungsparadoxon Ene nteressante Erkenntns brngt de Berechnung des Zusammenhangs von Itemtrennschärfe, Itemvaldtät und der Valdtät des Gesamttests. val( X ) k 1 k ( X ) val( X ) 1 ( X ) Zwar stegt de Valdtät enes Tests, wenn de enzelnen Items valder snd, jedoch nmmt de Testvaldtät mt höher werdender Itemtrennschärfe ab. Demnach sollte de Itemtrennschärfe enes Items ncht hoch sen., t 223 Itemanalyse und - selekton Verdünnungsparadoxon Legt pro Item sowohl ene Schätzung der Itemvaldtät als auch de Itemtrennschärfe vor, kann der Quotent (Q ) aus den beden als Krterum dafür verwendet werden, welche Items be ener geplanten Testverkürzung aus enem Test entfernt werden können, um de Testvaldtät trotzdem größt möglch zu halten. val( X ) Q r Es wrd de gewünschte Anzahl von Items mt den gerngsten Quotenten entfernt., t 224 112

Itemanalyse und - selekton Bespel Möchte aus den 5 Items 4 auswählen, sodass Valdtät des Test möglchst hoch blebt. Item Val r,t Q X1.87.23 3.783 X2.78.16 4.875 X3.65.34 1.912 X4.77.33 2.333 X5.92.45 2.044 225 Krtk an der klassschen Testtheore 113

Krtk an der Klassschen Testtheore Obwohl sch Tests, de nach der klassschen Testtheore konstruert wurden, n der Praxs durchaus bewährt haben, gbt es zahlreche Krtkpunkte. De Grundannahmen (Axome) können ncht überprüft werden. Das Intervallskalennveau der Testergebnsse wrd vorausgesetzt, kann jedoch ncht generell bewesen werden. Alle m Rahmen der klassschen Testtheore gewonnenen Kennwerte snd stchprobenabhängg. De Farness der Summenbldung über verschedene Items zur Ermttlung enes Gesamttestwerts st ncht geschert. 227 Krtk an der Klassschen Testtheore Stchprobenabhänggket der Kennwerte Itemschwergket Je besser de Stchprobe an der de Schwergket enes Items erhoben wrd, desto lechter erschent das Item. Aber auch der Verglech des Schwergketsverhältnsses zweer Items hängt von der Stchprobe ab. B + - A + 72 8 80-16 4 20 88 12 100 B + - A + 8 6 14-12 74 86 20 80 100 88:80 11:10 1.1 20 :14 10 : 7 1.4286 228 114

Krtk an der Klassschen Testtheore Stchprobenabhänggket der Kennwerte Itemvaranz De größte Varanz kann be mttelschweren Items erzelt werden. Je schwerer (oder lechter) en Item wrd, umso gernger st de Varanz aufgrund von Boden- und Deckeneffekten. z.b. : Dchotome Items Extrem lechte (mmer gelöste) oder extrem schwere (ne gelöste) Items, haben ene Varanz von 0. 229 Krtk an der Klassschen Testtheore Stchprobenabhänggket der Kennwerte Relabltät rel ²( ) ²( X ) ²( ) ²( ) ²( ) Stegt de Varanz der wahren Werte, so wrkt sch deselbe Messfehlervaranz wenger auf de Relabltät aus. homogene Stchprobe heterogene Stchprobe 2 ²( ) 1 0.09 ( ) 100 rel rel 0.9 0 2 2 ²( ) ²( ) 110 ( ) ( ) 100 10 230 115

Krtk an der Klassschen Testtheore Stchprobenabhänggket der Kennwerte Valdtät Aus den Verdünnungsformeln kann hergeletet werden, dass r( X, Y ) r( X, x ) r( Y, x ) Valdtät Daraus folgt, dass val rel rˆ el Korrelaton Da wr gezegt haben, dass de Relabltät von der Stchprobe abhängt, hängt auch de Valdtät von der Stchprobe ab. 231 Moderne Testtheore (Item Response Theory) 116

IRT - Grundlagen Vorbemerkung Obwohl n weterer Folge aus Gründen der besseren Verständlchket angenommen wrd, dass das zu messende Merkmal ene Fähgket st und daher auch von der Personenfähgket und der Lösungswahrschenlchket enes Items gesprochen wrd, st de Item Response Theory (IRT) prnzpell auch für de Analyse von Items zur Erfassung von Persönlchketsmerkmalen und Enstellungen geegnet. 233 IRT - Grundlagen Grunddee Im Gegensatz zur klassschen Testtheore, de erst bem Testwert ansetzt, sch jedoch ncht näher damt beschäftgt, we es zu dem Testergebns kommt, setzen Modelle der IRT berets an der Formulerung des Zusammenhangs von latenter Dmenson und manfester Varable an. Ähnlch we be der Faktorenanalyse geht es also darum, dass manfeste Antwortverhalten durch de ndvduellen Merkmalsausprägungen der Personen erklären zu können. 234 117

IRT - Grundlagen Grunddee Im Allgemenen wrd davon ausgegangen, dass dre Komponenten de beobachtete Antwort (bzw. de Wahrschenlchket für ene beobachtete Antwort) beenflussen. Be den dre Komponenten handelt es sch um Egenschaften der Person (z.b. Fähgket), Egenschaften des Items (z.b. Schwergket) und zufällge Enflüsse. 235 IRT - Grundlagen Grunddee Weters wrd be den mesten Modellen m Rahmen der IRT von der Exstenz ener enzgen latenten Dmenson ausgegangen. De beobachteten Antworten der Person (oder auch de vorlegenden Symptome) werden als Indkatoren deser latenten Dmenson aufgefasst. Mt hrer Hlfe lässt sch de Ausprägung der Person auf der latenten Dmenson abschätzen. 236 118

IRT - Grundlagen Grunddee De verschedenen m Rahmen der IRT defnerten Modelle unterscheden sch m Wesentlchen hnschtlch des angenommenen Zusammenhangs zwschen der Ausprägung auf der latenten Dmenson und der Wahrschenlchket für ene bestmmte Antwort. Deser Zusammenhang wrd durch de Itemcharakterstk hergestellt. Es handelt sch dabe um ene endeutge aber ncht zwngend endeutg umkehrbare Funkton. Das bedeutet, dass z.b. jeder Personenfähgket ene endeutge Lösungswahrschenlchket für en bestmmtes Item zugeordnet st, es aber Personen mt unterschedlcher Fähgket geben kann, de deselbe Lösungswahrschenlchket be enem Item bestzen. 237 IRT - Grundlagen Grunddee De grafsche Darstellung deses Zusammenhangs nennt sch Itemcharakterstk Kurve (ICC). Es werden dre Typen von Itemcharakterstken unterscheden streng monotone Funktonen, monotone Funktonen und ncht monotone Funktonen. 238 119

IRT - Grundlagen Grunddee Be streng monotonen Funktonen nmmt de Lösungswahrschenlchket enes Items mt zunehmender Ausprägung der Person n der latenten Dmenson stetg zu oder ab. Be monotonen Funktonen können Plateaus auftreten, sodass Personen mt ähnlchen Fähgketen gleche Lösungswahrschenlchketen haben. Ncht monotone Funktonen können sowohl stegen als auch fallen. 239 IRT - Grundlagen streng monotone stegende Itemcharakterstkkurven 240 120

IRT - Grundlagen monoton stegende Itemcharakterstkkurven 241 IRT - Grundlagen ncht monotone Itemcharakterstkkurven 242 121

IRT - Grundlagen Grunddee Ene technsche Annahme st de lokal stochastsche Unabhänggket der Items. Das bedeutet, dass davon ausgegangen wrd, dass n ener Gruppe von Personen mt glecher Personenfähgket, de Lösungswahrschenlchket enes Items unabhängg davon st, ob de Person das zuvor vorgegebene Item gelöst hat oder ncht. Für de praktsche Anwendung bedeutet das, dass de Lösungen von Aufgaben ncht aufenander aufbauen dürfen bzw. de Rehenfolge n der de Items bearbetet werden, kene Rolle spelen darf. 243 IRT - Grundlagen Guttman Skala Guttman (1950) war der erste, der enen derartgen Zusammenhang modellerte. Es handelt sch dabe um de sogenannte Guttman Skala auch Skalogramm Analyse genannt. Be der Itemcharakterstk der Guttman Skala handelt es sch um ene Sprungfunkton, wobe de Itemlösungswahrschenlchket nur de Ausprägungen 0 und 1 annehmen kann. So mt st das Modell ncht probablstsch sondern determnstsch. Trotzdem lassen sch damt wesentlche Erkenntnsse über de IRT ableten. 244 122

IRT - Grundlagen Guttman Skala erlaubte Antwortmuster 000 100 110 111 245 IRT - Grundlagen Guttman Skala De Guttman Skala llustrert, dass de Schwergket des Items und de Personenfähgket anhand der selben Skala abgelesen werden kann. Be der Guttman Skala markert de Personenfähgket, de an der Sprungstelle legt, de Schwergket des Items, zur Modellerung der Lösungswahrschenlchket aller Items nur ene Dmenson angenommen wrd und anhand des Modells Vorhersagen gemacht werden können, de anhand der manfesten Items überprüfbar snd. Be der Guttman Skala handelt es sch dabe um de erlaubten Antwortmuster. 246 123

IRT - Grundlagen Latent Dstance Model (Lazarsfeld 1950) Da de Guttman Skala unrealstsche Forderungen an de Items stellt, wurde der determnstsche Ansatz von Lazarsfeld durch enen probablstschen ersetzt. Be der Itemcharakterstk des Latent Dstance Models handelt es sch ebenfalls um ene Sprungfunkton, wobe pro Items zwe Itemlösungswahrschenlchketen modellert werden. Dese beden Lösungswahrschenlchketen können be jedem Item anders sen und müssen aus den Daten geschätzt werden. Dadurch snd alle Antwortmuster möglch, treten jedoch mt unterschedlchen Wahrschenlchketen auf. 247 IRT - Grundlagen Latent Dstance Model (Lazarsfeld 1950) 248 124

IRT - Grundlagen Das Latent Dstance - Modell (Lazarsfeld 1950) Obwohl das Latent Dstance - Modell realstschere Anforderungen an de Items stellt als de Guttman Skala, st de Annahme von konstant blebenden Itemlösungswahrschenlchketen be stegender Personenfähgket weng realstsch. Realstscher erschent, dass de Lösungswahrschenlchket mt stegender Personenfähgket zunmmt. Aus desem Grund wurde nach anderen, realstscheren Funktonen gesucht. 249 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch 250 125

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Georg Rasch (1960) wählte als Itemcharakterstk de logstsche Funkton U e f ( U ) e Euler sche Zahl U e = 2.718 1 e 251 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Der Vortel der logstschen Funkton besteht darn, dass der Werteberech der Funkton mmer zwschen 0 und 1 legt und ausschleßlch von enem Parameter (U) abhängt. Deser Parameter soll nun mt den für das Modell wesentlchen Kennwerten (der Personenfähgket und der Itemschwergket) n Verbndung gebracht werden. Rasch defnerte: U v Fähgket der Person v [ks:] Schwergket von Item 252 126

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Somt st de Itemcharakterstk gegeben durch v e p( v, ) 1 e v Wahrschenlchket, dass Person v Item löst Kann auch als exp( v ) angeschreben werden Demnach haben Personen be Items, deren Schwergket der Personenfähgket entsprechen, ene Lösungswahrschenlchket von p(+ v,) = 0.5. Ist de Personenfähgket gernger als das Item schwerg st p(+ v,) < 0.5. Ist de Person fähger als das Item schwerg, st p(+ v,) > 0.5. 253 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch 254 127

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch 255 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Wahrschenlchket, dass ene Person v das Item ncht löst st gegeben durch v e p( v, ) 1 p( v, ) 1 1 e Bemerkung: Anstatt der Schrebwese p( v, ) v 1 1 e kann auch de allgemener gültge Varante p( x, 1 v, ) v verwendet werden. v 256 128

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch p( x, 1 v, ) v 257 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch p( x, 0 v, ) v p( x, 1 v, ) v 258 129

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Neben der bsher erwähnten Schrebwese der Itemcharakterstk fndet sch häufg ene wetere Art der Modelldarstellung. Dese ergbt sch aus v e p( v, ) 1 e v p( v, ) 1 v v v e e v 1 e e mt e e v v Da für de Itemschwergket steht, steht für de Lechtgket des Items. 259 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Rasch hatte sehr konkrete Forderungen an sen Modell 1. Das Verhältns der Schwergketen zweer Items soll unabhängg von der gewählten Stchprobe sen. 2. Das Verhältns der Fähgketen zweer Personen soll unabhängg davon sen, welche Aufgaben den Personen zur Ermttlung der Personenfähgketen vorgegeben wurden. 3. De Anzahl der gelösten Aufgaben soll de gesamte Informaton der Daten über de Fähgket der Person benhalten. 4. De Anzahl an Personen, de en Item lösen können, soll de gesamte Informaton der Daten über de Schwergket des Items benhalten. 260 130

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Dese ver Forderungen umfassen also de Forderung nach spezfscher Objektvtät von Verglechen (Punkt 1, 2) und erschöpfenden (suffzenten) Statstken (Punkt 3, 4). 261 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch p(+ B, Item2) p(+ B, Item1) p(+ A, Item2) p(+ A, Item1) Fähgket der Person A Fähgket der Person B 262 131

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Aus der Forderung nach spezfscher Objektvtät folgt, dass sch de IC Kurven ncht schneden dürfen. De IC Kurven müssen m Modell von Rasch also deselbe Stegung (=Dskrmnaton) haben. 263 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Exstenz der erschöpfenden Statstken kann anhand der Lkelhood der Daten gezegt werden. De Lkelhood der Daten st de Wahrschenlchket, de erhobenen Daten zu erhalten. We sehen dese Daten m Modell von Rasch aus? ID I_1 I_2 I_ I_k 1 0 1 0 1 2 1 1 0 1 3 0 1 1 1 v N a v, 264 132

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Gehen wr nun davon aus, wr können de Antwort, de ene Person v auf en Item gegeben hat, n ene Wahrschenlchket umwandeln, mt der Person v de gegebene Antwort auf Item gbt. Dadurch erhalten wr: ID I_1 I_2 I_ I_k 1 p(x 1,1 = 0) p(x 1,2 = 1) p(x 1, = 0) p(x 1,k = 1) 2 p(x 2,1 = 1) p(x 2,2 = 1) p(x 2, = 0) p(x 2, = 1) 3 p(x 3,1 = 0) p(x 3,2 = 1) p(x 3, = 1) p(x 3, = 1) v p(x v,1 = a v,1 ) p(x v,2 = a v,2 ) p(x v, = a v, ) p(x v,k = a v,k ) N 265 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Geht man weters davon aus, dass de Wahrschenlchket der Lösung von Item durch Person v unabhängg davon st, welche und we vele Items Person v zuvor gelöst hat (=lokal stochastsche Unabhänggket), so kann de Wahrschenlchket, dass Person v hr Antwortmuster zegt, berechnet werde durch: p( av, 1, av,2,..., av,,... av. k ) p( av, 1 v,2 v,3 v, v, k k ( a v, ) pv 1 ) p( a ) p( a )... p( a )... p( a ) p 266 133

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Geht man nun noch davon aus, dass de von den Personen erzelten Antwortmuster unabhängg snd, so st de Wahrschenlchket de gegebenen Daten zu erhalten (=Lkelhood der Daten) gegeben durch: Lkelhood p p p... p v... p 1 N N k pv p( a v, ) v1 v1 1 2 3 N 267 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Im dchotom logstschen Modell von Rasch können Personen zwe unterschedlche Antworten geben. Entweder se antworten korrekt (1) oder ncht (0). De Wahrschenlchketen herfür snd: v e p(1 v, ) 1 e 1 p(0 v, ) 1 e v v 268 134

135 269 Das dchotom logstsche Modell von Rasch Je nach gegebener Antwort, muss de entsprechende Varante gewählt werden. Des wrd errecht durch v v v v v a a v e e e a p,, 1, ) 1 1 ( ) 1 ( ) ( 0 1 1 0, ) 1 1 ( ) 1 ( 0) ( v v v e e e a p v 1 1 1 1, ) 1 1 ( ) 1 ( 1) ( v v v e e e a p v IRT Modell von Rasch 270 Das dchotom logstsche Modell von Rasch Schlussendlch ergbt sch v v av v v a N v k e e e Lkelhood,, 1 1 1 ) 1 1 ( ) 1 ( IRT Modell von Rasch

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Durch Anwendung dverser Rechenregeln erhält man Rohscore von Person v absolute Lösungshäufgket von Item Lkelhood N v1 e N k k v 1 v1 1 a v, k 1 v e ( 1 e v N v1 a v, ) 271 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Demnach wrd allen Personen, de n enem Test mt den selben Items deselbe Anzahl gelöster Aufgaben erzelen, derselbe Fähgketsparameter zugeordnet. De Erkenntns, dass de erschöpfenden Statstken nur gelten, wenn de Items den Anforderungen des Modells von Rasch (RM) entsprechen, hat wetrechende Konsequenzen. U.a. bedeutet es, dass de m Rahmen der klassschen Testtheore vorgenommene Summenbldung zur Gewnnung enes Rohscores nur far st, wenn de Items dem RM entsprechen. 272 136

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Spezfsche Objektvtät bedeutet, dass z.b. Verhältns zweer Itemschwergketen unabhängg von der Stchprobe st. Bespel 2 Items (gute Stchprobe) Item 2 - + Item 1-13 6 + 18 77 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Bedeutet, dass z.b. Verhältns zweer Itemschwergketen unabhängg von der Stchprobe st. Bespel 2 Items (schlechte Stchprobe) Item 2 - + Item 1-133 1 + 3 7 137

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Bedeutet, dass z.b. Verhältns zweer Itemschwergketen unabhängg von der Stchprobe st. Bespel 2 Items (schlechte Stchprobe) Item 2 - + Item 1-133 1 + 3 7 Da de Anzahl jener Personen, de bede Items lösen bzw. bede Items ncht lösen davon abhängt, we gut de Stchprobe st, werden dese Zellen ncht berückschtgt. IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De spezfsche Objektvtät (also de Tatsache, dass z.b. das Verhältns der Schwergket zweer Items unabhängg von den getesteten Personen st), kann anhand der nachfolgenden (bedngten) Wahrschenlchket gezegt werden p( 1,0 r v 1; v, A, B ) Es st de Wahrschenlchket, dass Person v Item A löst und Item B ncht, vorausgesetzt Person v kann genau enes der beden Items lösen. In deser Wahrschenlchket steckt das Verhältns der Itemschwergketen (bzw. Itemlechtgketen). 276 138

139 277 Das dchotom logstsche Modell von Rasch ) 1 ( ) 1 1 ( ) 1 1 ( ) 1 ( ) 1 1 ( ) 1 ( ),, 1; (1,0 B v B v A v B v A v A v B v A v A v B A r v v p Wahrschenlchket laut RM Item B ncht zu lösen Wahrschenlchket laut RM Item A zu lösen Wahrschenlchket laut RM entweder nur Item A oder nur Item B zu lösen IRT Modell von Rasch 278 Das dchotom logstsche Modell von Rasch ) 1 ( ) 1 1 ( ) 1 1 ( ) 1 ( ) 1 1 ( ) 1 ( ),, 1; (1,0 B v B v A v B v A v A v B v A v A v B A r v v p B A A B v A v A v ( B ) A v A v ) ( 1 1 ) ( 1 ) ( B v A v A v Da sch der Personenparameter herauskürzt, st dese Wahrschenlchket (n der das Lechtgketsverhältns der Items steckt) unabhängg von den Personen! IRT Modell von Rasch

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Entsprcht ene Menge von Items enem IRT Modell, so ermöglcht, das Personen mtenander zu verglechen, auch wenn se ncht deselben Aufgaben bearbetet haben. Damt können de Tests an de Personen angepasst werden (=adaptves Testen). De beden Arten des adaptven Testens snd Talored Testng (maßgeschnedertes Testen) und Branched Testng (verzwegtes Tests). 279 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Üblcherwese erhalten de Personen zu Begnn en oder mehrere mttelschwere Items. Bem talored testng wrd nach jeder Vorgabe enes Items der Personenparameter neu geschätzt und aus der Menge der vorhandenen Items (=Itempool) jenes Items ausgewählt, dessen Schwergket der Personenfähgket am besten entsprcht. Dese Methode st sehr rechenntensv und erfordert ene computergestützte Testung. 280 140

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Aus desem Grund werden bem branched testng berets n der Testentwcklung Gruppen von Items zusammengestellt. Je nachdem we gut ene Person be der ersten Itemgruppe abschnedet, wrd ene wetere zuvor festgelegte Itemgruppe ausgewählt usw. A1 B1 B2 B3 C1 C2 C3 C4 281 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Verglechbarket der Personen st für den Fall, dass se unterschedlche Items bearbeten jedoch ncht mehr über de Anzahl der gelösten Aufgaben, sondern nur noch über de geschätzte Personenparameter möglch. Ene auf de Fähgketen der getesteten Personen abgestmmte Itemauswahl, reduzert n velen Fällen ncht nur de benötgte Testzet und ermöglcht de Personen wetestgehend weder durch de Vorgabe von zu lechten Aufgaben zu langwelen oder von zu schweren Aufgaben zu demotveren, sondern erhöht auch de Genaugket der Schätzung des Personenparameters. 282 141

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De enfachste Varante der Parameterschätzung stellt de explzte Methode dar. Se basert auf der spezfschen Objektvtät We gezegt st: p(1,0 r v 1; v,, ) p(0,1 r v 1; v,, ) A A B B A A B B A B IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De explzte Methode p(1,0 r p(0,1 r v v 1; v, A, B) 1; v,, ) A B A B 142

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De explzte Methode n(1,0) n(0,1) j IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De explzte Methode ncht gelöst 1 2 3 j k 1 -- n 1,2 n 1,3 n 1,j n 1,k 2 n 2,1 -- n 2,3 n 2,j n 2,k 3 n 3,1 n 3,2 -- n 3,j n 3,k gelöst.. n,1 n,2 n,3 n,j n,k.. k n k,1 n k,2 n k,3 n k,j -- 143

144 IRT Modell von Rasch k j j k j j j k j k j j j j n n 1 1 1 1,, Das dchotom logstsche Modell von Rasch De explzte Methode IRT Modell von Rasch k j j k j j j j k 1 1 1 Aus Gründen der Normerung = 1 Das dchotom logstsche Modell von Rasch De explzte Methode

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De explzte Methode k n n, j j1 j, j k k k n n, j j1 j, j ˆ IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De explzte Methode Antwortmuster 000 100 010 001 110 101 011 111 Häufgket 4 45 21 33 75 23 11 2 ncht gelöst 1 2 3 1 -- 45 + 23 45 + 75 gelöst 2 21 + 11 -- 21 + 75 (45 23) (45 75) (2111) (33 11) ˆ1 3 3 33 + 11 33 + 23 -- 1.796 (2111) (21 75) (45 23) (33 23) ˆ2 3 (33 11) (33 23) (45 75) (21 75) ˆ3 3 0.9309 0.598 ˆ ˆ ˆ 1 2 3 1.7960.9309 0.598 1 145

Lkelhood IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung De Schätzung der unbekannten Parameter erfolgt m Rasch Modell üblcherwese mt Hlfe der Maxmum-Lkelhood- Methode. Herbe werden de unbekannten Parameter so geschätzt, dass de Lkelhood der Daten maxmal wrd. 291 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung Parameter möglche Form der Lkelhoodfunkton be enem unbekannten Parameter 292 146

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung möglche Form der Lkelhoodfunkton be zwe unbekannten Parametern 293 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung Es gbt dre Arten der Maxmum Lkelhood Schätzungen de unbedngte Maxmum Lkelhood Methode (UML) de bedngte Maxmum Lkelhood Methode (CML) und de margnale Maxmum Lkelhood Methode (MML). 294 147

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung De UML basert auf der Totalen Lkelhood der Daten. Herbe werden Personenfähgkets- und Itemschwergketsparameter glechzetg geschätzt. Be deser Methode muss für jedes Item aber auch für jede Person en egener Parameter geschätzt werden. Das bedeutet jedoch, dass für jede neu hnzukommende Person en weterer Personenfähgketsparameter benötgt wrd. Des führt häufg zu gröberen Problemen be der Schätzung. 295 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung Be der CML wrd davon ausgegangen, dass pro Person de Zahl der gelösten Aufgaben bekannt st. Somt werden de Personenparameter durch de Anzahl gelöster Aufgaben ersetzt und es müssen zunächst nur de Itemschwergketsparameter geschätzt werden. De Schätzung der Personenparameter erfolgt dann wederum mttels der UML. Personen mt der glechen Anzahl an gelösten Aufgaben wrd der selbe Personenparameter zugeordnet. Allerdngs kann für Personen, de alle oder ken Item gelöst haben, ken Fähgketsparameter geschätzt werden. 296 148

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung Auch be der MML werden zunächst nur de Itemparameter geschätzt. Anstatt von pro Person bekannten Rohscores auszugehen, wrd nur von ener bestmmten Vertelung der Personenparameter ausgegangen (z.b. NV). Somt müssen anstatt der enzelnen Personenparameter vorerst nur de Parameter der Vertelung (z.b. Mttelwert und Varanz) geschätzt werden. Nach der Schätzung der Itemparameter werden de Personenparameter abermals mttels UML geschätzt. Verzerrungen ergeben sch, wenn de vorab angenommene Vertelung der Personenparameter falsch st. 297 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Parameterschätzung Probleme be der Parameterschätzung ergeben sch, wenn es ken endeutg defnertes Maxmum der Lkelhoodfunkton gbt. Des st der Fall, wenn de Funkton multple Maxma hat (d.h. es neben den globalen noch lokale Maxma gbt) oder das Maxmum ken Punkt, sondern en Plateau oder ene Fläche st. De Genaugket der Schätzung hängt davon ab, we vel Informaton man über enen Parameter bestzt. 298 149

IRT Modell von Rasch Das dchotom logstsche Modell von Rasch Bespel für ene Funkton mt multplen Maxma 299 IRT Modell von Rasch Das dchotom logstsche Modell von Rasch De Informatonsfunkton Informaton de Person v über Item benhaltet und umgekehrt I v I v I v, p( v, ) p( v, ) v e 1, v v 1 e 1 e v e, v (1 e )² Je ähnlcher de Schwergket enes Items der Fähgket ener Person v st, umso höher st de Informaton, de ene Person über en Item bzw. en Item über ene Person lefert. 300 150