Grundlagen der psychologischen Testtheorie. WS 2016 Dr. Michael Weber

Transkript

1 Grundlagen der psychologischen Testtheorie WS 2016 Dr. Michael Weber

2 Einführung

3 Definition eines (psychologischen) Tests Ein Test ist ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung. (Moosbrugger & Kelava, 2008, S. 2) 3

4 Wissenschaftlichkeit Um von wissenschaftlich sprechen zu können, muss es eine Theorie darüber geben, unter welchen Bedingungen welche Aussagen anhand der Testergebnisse ableitbar sind. Demnach sollte eine möglichst genaue Vorstellung über das zu messende Merkmal vorliegen und der Test testtheoretischen Qualitätsansprüchen entsprechen. Die (primären) Aufgabengebiete der Testtheorie sind die Formulierung des theoretischen Hintergrunds über die Verbindung von zu messendem Merkmal und im Test gezeigtem Verhalten sowie die Festlegung und Quantifizierung notweniger Qualitätsansprüche. 4

5 Einführung Routineverfahren Von einem Routineverfahren spricht man, wenn Durchführung und Auswertung bereits an einer größeren Stichprobe erprobt sind und so detailliert beschrieben sind, dass das Verfahren auch von anderen TestleiterInnen bei anderen Personen einsetzbar ist. 5

6 Einführung Psychologisches Merkmal Bei einem psychologischen Merkmal handelt es sich um einen Oberbegriff für relativ stabile und konsistente Merkmale (auch Eigenschaften oder Traits genannt), zeitlich begrenzte biologische, emotionale und kognitive Zustände sowie (auch States genannt) und Erlebens- und Verhaltensweisen. Diese meist nicht direkt beobachtbaren (=latenten) Merkmale sollen mit Hilfe von messbaren Sachverhalten erschlossen werden. 6

7 Einführung Item 1 Item 2 Merkmal Item Item k-1 Item k 7

8 Einführung Quantitative Aussage Ziel psychologischer Tests ist es, die Ausprägung des Merkmals der getestete Person zu messen. Messen bedeutet einem Objekt (empirisches Relativ) einen Zahlenwert (numerisches Relativ) so zuzuordnen, dass zumindest eine Eigenschaft des numerischen Relativs auch für das empirische Relativ gilt. (vgl. Bortz J. (1999) Statistik für Sozialwissenschaftler, 5. Auflage S ). Dieser Zahlenwert kann in weiterer Folge dazu verwendet werden, die Person mit anderen Personen vergleichen oder einer Personengruppe zuordnen zu können. Je nach theoretischer Fundierung des Messvorgangs haben die erzielten Zahlenwerte unterschiedliches Skalenniveau. 8

9 Einführung Messinstrument Rangskala 2 1 9

10 Einführung Messinstrument Intervallskala

11 Einführung Fragebogen Der Begriff wird im Deutschen für Unterschiedliches verwendet. schriftliche Befragungen zur Erhebung von demoskopischen Daten schulischen Daten medizinischen Daten usw. Instrument zur Selbst- oder Fremdeinschätzung wird meist zur Erfassung von Persönlichkeitseigenschaften und Interessen verwendet Häufig auch als Persönlichkeits test bezeichnet Gemeinsam ist beiden, dass das Erfragen im Vordergrund steht. 11

12 Einführung Testarten Je nach Merkmal, das erfasst werden soll, werden vier/fünf unterschiedliche Testarten unterschieden Leistungstests Persönlichkeits- und Interessensfragebögen* [objektive Persönlichkeitstests] projektive Verfahren apparative Tests Die Bezeichnung Persönlichkeitsfragebogen unterscheidet sich bewusst von der im Buch von Moosbrugger & Kelava (2008), S.29 gewählten, da die Personen hier befragt werden. 12

13 Einführung Leistungstests Sind dadurch gekennzeichnet, dass sie Konstrukte erfassen, die sich auf kognitive Leistungen beziehen die unter der jeweiligen Testbedingung maximale Leistung erfassen möchten Aufgaben verwenden, bei denen es richtige und falsche Antworten gibt 13

14 Einführung Zahlen-Verbindungs-Test ; Oswald & Roth (1987) 14

15 Einführung Wiener Matrizen-Test Formann & Piswanger (1979) 15

16 Einführung Dreidimensionaler Würfeltest (3 DW); Gittler (1990) 16

17 Einführung Persönlichkeitsfragebogen Sind dadurch gekennzeichnet, dass sie das Ziel verfolgen, das für eine Person typische Verhalten zu erfassen, mehrere Fragen verwenden, um das Persönlichkeitsmerkmal zu erfassen, die Antworten nicht in richtig und falsch klassifizierbar sind, sondern erfragen, wie stark das interessierende Merkmal ausgeprägt ist und im Allgemeinen leicht verfälschbar sind (z.b. durch sozial erwünschte Antworten). 17

18 Einführung Kurzform des Big Five Inventory (BFI-K); Rammstedt & John (2005) 18

19 Einführung Objektive Persönlichkeitstests Sind dadurch gekennzeichnet, dass sie versuchen, das Ausmaß an Verfälschbarkeit z.b. durch sozial erwünschte Antworten zu reduzieren indem sie das Persönlichkeitsmerkmal nicht durch subjektive Urteile, sondern über Verhalten in standardisierten Situationen erfassen. 19

20 Einführung Projektive Tests Sind dadurch gekennzeichnet, dass sie versuchen, die Persönlichkeit als Ganzes zu erfassen, wobei sie auf individuelle Erlebnis- und Bedürfnisstrukturen Rücksicht nehmen, mehrdeutiges Bildmaterial verwenden, um unbewusste oder verdrängte Bewusstseinsinhalte zu erfassen und oft explorativen Charakter haben. 20

21 Einführung Picture Frustration Test (PFT); Hörmann & Moog (1957) 21

22 Einführung Thematischer Apperzeptionstest (TAT); Revers & Taeber (1968) 22

23 Einführung Rorschach Form Deute Verfahren; Rorschach (1954) 23

24 Einführung Apparative Tests Moosbrugger & Kelava (2008), S. 32 unterscheiden im Wesentlichen zwei Arten Tests, sie insbesondere sensorische und motorische Merkmale erfassen. z.b. Tests zur Erfassung von Muskelkraft Geschicklichkeit sensomotorischer Koordination computerbasierte Tests, die häufig spezielle Varianten von Leistungstests und Persönlichkeitsfragebogen sind. 24

25 Testgütekriterien

26 Testgütekriterien Hauptgütekriterien Objektivität Reliabilität Validität Nebengütekriterien Skalierung Normierung Ökonomie Nützlichkeit Zumutbarkeit Unverfälschbarkeit Fairness 26

27 Testgütekriterien - Objektivität Objektivität Definition Ein Test ist objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von TestleiterIn, TestauswerterIn und von der Ergebnisinterpretation misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 8) 27

28 Testgütekriterien - Objektivität Objektivität Bei der Objektivität lassen sich drei Bereiche unterscheiden Durchführungsobjektivität (~Testleiterunabhängigkeit*) Auswertungsobjektivität (~Verrechnungssicherheit*) Interpretationsobjektivität (~Interpretationseindeutigkeit*) * vergl. Kubinger (2009) Psychologische Diagnostik, S. 39) 28

29 Testgütekriterien - Objektivität Durchführungsobjektivität Durchführungsobjektivität ist gegeben, wenn das Ergebnis der Testung nicht davon abhängt, welche TestleiterIn, die Testung durchgeführt. Demnach sollte die Testvorgabe unter möglichst standardisierten Bedingungen stattfinden. Diese werden optimiert indem Instruktionen, die die TestleiterInnen geben, schriftlich festgehalten sind, die soziale Interaktion zwischen TestleiterIn und getesteter Person möglichst gering gehalten wird und die Untersuchungssituationen möglichst ähnlich sind. 29

30 Testgütekriterien - Objektivität Auswertungsobjektivität Ist gegeben, wenn beim Vorliegen der Antworten der Personen auf die Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben numerischen Testergebnis kommt. Die Auswertungsobjektivität kann erhöht/gesichert werden durch das Vermeiden freier Antwortformate, klare Auswertungsregeln und die Verwendung von Multiple-Choice (Mehrfachauswahl) Antworten. Die Auswertungsobjektivität kann durch statistische Kennzahlen zur Beurteilerübereinstimmung (z.b. Cohens Kappa, Fleiss Kappa, Konkordanzkoeffizienten nach Kendall) erfasst werden. 30

31 Testgütekriterien - Objektivität Interpretationsobjektivität Ist gegeben, wenn beim Vorliegen der Testergebnisse unterschiedliche TestanwenderInnen zum selben Schluss kommen. Die Interpretationsobjektivität kann erhöht/gesichert werden durch klare Regeln für die Interpretation, Vorhandensein von Normen und Normwerten der Verwendung von Prozenträngen*. * Ein Prozentrang (PR) gibt an wie viel Prozent der Referenzpopulation diesen oder einen schlechteren Testwert erzielen. 31

32 Testgütekriterien - Reliabilität Reliabilität ( Zuverlässigkeit ) Definition Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 11) 32

33 Testgütekriterien - Reliabilität Reliabilität ( Zuverlässigkeit ) Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Allerdings geht es nicht darum, ob der Test auch jenes Merkmal misst, das er zu messen vorgibt. Es lassen sich drei/vier Arten der Reliabilität unterscheiden Retest - Reliabilität Paralleltest - Reliabilität Innere Konsistenz [Testhalbierungs- (Split Half-) Reliabilität] Näheres zur Reliabilität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie 33

34 Testgütekriterien - Validität Validität ( Gültigkeit ) Definition Ein Test gilt dann als valide ( gültig ), wenn er das Merkmal, das er messen soll, auch wirklich misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 13) 34

35 Testgütekriterien - Validität Validität ( Gültigkeit ) Die Validität ist im Hinblick auf die Praxis, das wichtigste Gütekriterium. Mit Hilfe der Validität lässt sich klären wie sehr eine Test wirklich das zu messende Merkmal misst (~ Konstruktvalidität ) und wie gut der Testkennwert Verhaltensweisen außerhalb der Testsituation vorhersagen kann (~ Kriteriumsvalidität ). Es lassen sich vier Arten der Validität unterscheiden Inhaltsvalidität Augenscheinvalidität Konstruktvalidität Kriteriumsvalidität Näheres zur Validität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie und Faktorenanalyse. 35

36 Testgütekriterien - Skalierung Skalierung Definition Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelation adäquat abbilden. (Moosbrugger & Kelava, 2008, S. 18) Näheres zur Skalierung im Rahmen der Lehrveranstaltungseinheiten zur modernen Testtheorie. 36

37 Testgütekriterien - Normierung Normierung (Eichung) Definition Unter Normierung (Eichung) eines Tests versteht man, das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können. (Moosbrugger & Kelava, 2008, S. 19) 37

38 Testgütekriterien - Normierung Normierung (Eichung) Ziel der Normierung ist es einen Rahmen für die Interpretation der (durch eine Person) erzielten Testergebnisse zu schaffen. Dies erfolgt dadurch, dass die Testergebnisse in Normwerte umgewandelt werden. Weit verbreitete Normwerte sind z.b. Prozentränge, z-werte, Z-Werte, IQ-Werte und T-Werte (nicht zu verwechseln mit den t-werten des t-tests). 38

39 Testgütekriterien - Normierung Normierung (Eichung) Das Gütekriterium der Normierung (Eichung) kann als erfüllt angesehen werden, wenn die Eichtabellen gültig (d.h. nicht veraltet) sind, die Population für die Eichtabellen definiert ist und die für die Erstellung der Eichtabellen herangezogene Stichprobe repräsentativ ist*. * angelehnt an Kubinger (2009) Psychologische Diagnostik, S

40 Testgütekriterien - Normierung Prozentrang Definition Der Prozentrang gibt an, wie viel Prozent der Normierungsstichprobe einen Testwert erzielen, der niedriger oder maximal ebenso hoch ist, wie der Testwert x v der Testperson v. Der Prozentrang entspricht somit dem prozentualen Flächenanteil der Häufigkeitsverteilung der Bezugsgruppe, der am unteren Skalenende beginnt und nach oben hin durch den Testwert x v begrenzt wird. (nach Moosbrugger & Kelava, 2008, S. 168) 40

41 Testgütekriterien - Normierung Prozentrang Testwert Häufigkeit Prozent Kumulierte Prozente Prozentrang ,4 1,4 1, ,4 3,8 3, ,8 14,6 14, ,0 25,7 25, ,5 42,2 42, ,6 57,8 57, ,9 77,7 77, ,0 88,7 88, ,3 94,0 94, ,1 97,1 97, ,9 99,0 99,0 13 1,2 99,3 99,3 14 2,5 99,8 99,8 15 1,2 100,0 100,0 41

42 Testgütekriterien - Normierung Prozentrang Prozentränge sind als Normwerte insofern besonders hervorzuheben, als sie keine Intervallskalierung der Testkennwerte voraussetzen, keine Normalverteilung der Testwerte voraussetzen und eine inhaltlich einfache Interpretation des Testergebnisses darstellen. 42

43 Testgütekriterien - Normierung z-werte (Standardmesswerte) z-werte sind im Falle intervallskalierter und normalverteilter Testkennwerte definiert durch: z mit x x NV (0,1) ˆ( X ) x und ˆ ( X ) ( X ) µ (x) legen die relative Position des Testkennwerts der getesteten Person bezogen auf die Referenzpopulation dar, sind positiv bei überdurchschnittlichen Leistungen, sind negativ bei unterdurchschnittlichen Testleistungen und Null bei durchschnittlichen Leistungen. 43

44 Testgütekriterien - Normierung z-werte (Standardmesswerte) Jedem z-wert ist genau ein Prozentrang zugeordnet und umgekehrt. Diese Zuordnungen können anhand der aus der Statistik bekannten z-tabellen abgelesen werden. Mit Hilfe von z-werten können intervallskalierte, aber nicht normalverteilte Testkennwerte in normalverteilte Testkennwerte transformiert werden (= Flächentransformation). 44

45 Testgütekriterien - Normierung 45

46 Testgütekriterien - Normierung z-werte (Standardmesswerte) Aus den z-werten sind alle üblicherweise verwendeten Normwerte ableitbar, mittels Kennwert z ( Kennwert ) µ ( Kennwert ) 46

47 Testgütekriterien - Normierung Tabelle entnommen aus Kubinger (2009) Psychologische Diagnostik, S

48 Testgütekriterien - Normierung Beispiel x z ( x) IQ Z T ( x)

49 Planung und Entwicklung von psychologischen Tests und Fragebogen

50 Testkonstruktion Ablauf Der Ablauf der Konstruktion lässt sich grob in sechs Bereiche einteilen Planung Itemkonstruktion Erstellung der vorläufigen Testversion Erprobung an Stichprobe Itemanalyse und Überarbeitung Normierung (Eichung) Die Konstruktionsschritte können wiederum in mehrere Bereiche eingeteilt werden. 50

51 Testkonstruktion Planung Bei der Planung sind die folgenden Bereiche zu beachten Welches Merkmal soll erfasst werden? Welchen Geltungsbereich soll Test haben? Für welche Zielgruppe wird Test gemacht? Welche Struktur soll Test haben? Wie lange darf Test dauern? 51

52 Testkonstruktion Itemkonstruktion Es gibt unterschiedliche Strategien zur Itemkonstruktion intuitive Konstruktion rationale Konstruktion externale (kriteriumsorientierte) Konstruktion internale (faktorenanalytische) Konstruktion 52

53 Testkonstruktion Intuitive Konstruktion Auf eine intuitive Konstruktion der Items sollte nur zurückgegriffen werden, wenn der theoretische Kenntnisstand bezüglich des interessierenden Merkmals gering ist (nach Moosbrugger & Kelava, 2008, S. 36). Demnach ist die Konstruktion der Items abhängig von der Intuition der des/der TestkonstrukteurIn. 53

54 Testkonstruktion Rationale Konstruktion Bei einer rationalen Konstruktion besteht bereits eine elaborierte Theorie über die Differenziertheit von Personen hinsichtlich des interessierenden Merkmals. Es ist wesentlich das Merkmal zu differenzieren und spezifizieren sowie Verhaltensindikatoren festzulegen. 54

55 Testkonstruktion Externale (kriteriumsorientierte) Konstruktion Hierbei wird zunächst ein großer Itempool zusammengestellt und Personen vorgegeben, die sich in dem interessierenden, externalen Merkmal (Kriterium) stark unterscheiden. Im Anschluss werden jene Items ausgewählt, die gut zwischen Gruppen mit unterschiedlichen Ausprägungen im Kriterium diskriminieren. Zur Absicherung der Diskriminationsfähigkeit der Items sollte das Ergebnis der Itemauswahl an einer anderen Stichprobe überprüft werden. 55

56 Testkonstruktion Internale (faktorenanalytische) Konstruktion Hierbei werden zunächst Items konstruiert, die hypothetischen Verhaltensdimensionen erfassen sollen. Diese werden einer Stichprobe von Personen der interessierenden Zielgruppe vorgegeben. Im Anschluss werden die Items einer Faktorenanalyse unterzogen und aufgrund der faktorenanalytischen Ergebnisse zu Skalen zusammengefasst. Näheres zur internalen Konstruktion im Rahmen der Lehrveranstaltungseinheiten zur Faktorenanalyse. 56

57 Testkonstruktion Weitere Aspekte der Itemkonstruktion und Testentwicklung, wie Aufgabentypen und Antwortformate Fehlerquellen bei der Itembeantwortung Gesichtspunkte der Itemformulierung Erstellen der vorläufigen Testversion Erprobung der vorläufigen Testversion sind auf den Seiten des Buchs von Moosbrugger & Kelava (2008) zu finden. 57

58 Klassische Testtheorie

59 Grundlagen Axiome der klassischen Testtheorie Im Rahmen der klassischen Testtheorie gelten laut Moosbrugger & Kelava (2008)* die folgenden Axiome**: 1. das Existenzaxiom, 2. das Verknüpfungsaxiom und 3. das Unabhängigkeitsaxiom. * die angeführten Axiome unterscheiden sich von den üblicherweise angeführten ** Axiome sind nicht weiter zu hinterfragende Grundannahmen 59

60 Grundlagen Das Existenzaxiom Das Existenzaxiom besagt, dass ein wahrer Wert (= true score) existiert. Dieser wahre Wert ist der Erwartungswert der gemessenen Leistung einer Person. Demnach gilt x... mit v,i E ( x ) v, i v, i Testleistung der Person v in Test i 60

61 Grundlagen Das Verknüpfungsaxiom Das Verknüpfungsaxiom besagt, dass sich die gemessene Leistung einer Person aus ihrem wahren Wert und dem Messfehler zusammensetzt. Demnach gilt x v, i v, i v, i Der Messfehler spielt in der klassischen Testtheorie eine zentrale Rolle. Sie wird daher auch oft als Messfehlertheorie bezeichnet. 61

62 Grundlagen Das Unabhängigkeitsaxiom Das Unabhängigkeitsaxiom besagt, dass der wahre Wert einer Person und der bei der Messung entstandene Messfehler nicht korrelieren Demnach gilt ( v,, ), i v i 0 mit (ausgeschrieben rho ) Populationskorrelation* 62

63 Grundlagen Zusatzannahmen Da bei Messfehlertheorien im Allgemeinen angenommen wird, dass es sich bei dem Messfehler um eine Zufallsvariable handelt, muss das Unabhängigkeitsaxiom erweitert werden. Daher wird Unkorreliertheit angenommen zwischen den Messfehlern derselben Person bei unterschiedlichen Tests ( v,, ), i v j 0 und den Messfehlern unterschiedlicher Personen beim selben Test ( v,, ), i w i 0 63

64 Grundlagen Folgerungen aus den Axiomen Aus den Axiomen kann gefolgert werden, dass der Erwartungswert des Messfehlers 0 ist, E( ) 0 die Varianz des gemessenen Werts sich aus der Varianz der wahren Werte und der Varianz der Messfehler zusammensetzt, ²( X ) ²( ) ²( ) die Kovarianz von gemessenen Werten der Kovarianz der wahren Werte entspricht. ( X, X ) (, A B A B ) 64

65 Grundlagen Äquivalente Messungen Bei den äquivalenten Messungen geht es um die Frage, welche Voraussetzungen erfüllt sein müssen, um annehmen zu können, dass zwei Tests (oder auch Items), dasselbe psychologische Merkmal messen. Es gibt hierfür vier unterschiedlich strenge Zugänge : Replikation, Parallelmessung - äquivalente Messungen und essentielle - äquivalente Messungen. 65

66 Grundlagen Replikation Bei der Replikation wird gefordert, dass verschiedene Messinstrumente bei derselben Person zu exakt demselben Messergebnis kommen müssen, um von einer wiederholten Messung zu sprechen. Sie stellt somit die strengsten (und für die Praxis unrealistische) Forderungen. 66

67 Grundlagen Parallelmessung Um eine Parallelmessung handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert und die selbe Varianz besitzen. Demnach gilt bei Parallelmessungen E( X ) E( X A B und ²( X ) ²( X B ). A Parallelmessungen erfassen das gleiche psychologische Merkmal gleich genau, da die Gleichheit der Varianzen der Messwerte auch gleiche Varianzen der Messfehler bedeutet. Ein zu Test A paralleler Test wird in weiterer Folge mit A bezeichnet. ) 67

68 Grundlagen - äquivalente Messungen Um - äquivalente Messungen handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert aber unterschiedliche Varianz besitzen. Demnach gilt bei - äquivalenten Messungen E( X ) E( X ) A B - äquivalente Messungen erfassen das gleiche Merkmal verschieden genau. 68

69 Grundlagen Essentiell - äquivalente Messungen Bei essentiell - äquivalente Messungen unterscheiden sich die Erwartungswerte zweier Tests (oder Items) um eine additive Konstante. Die Varianzen können ebenfalls verschieden sein Demnach gilt bei essentiell - äquivalenten Messungen E( X A ) E( X ) B c 69

70 Reliabilität Reliabilität Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Im Rahmen der klassischen Testtheorie steht hierbei die Varianz des Messfehlers im Vordergrund. Vereinfacht gesagt: Je größer die Varianz des Messfehlers desto geringer die Reliabilität. rel ²( ) ²( X ) ²( ) ²( ) ²( ) Je nach Autor wird eine Reliabilität ab 0.7 bzw. 0.8 als ausreichende Reliabilität angesehen. 70

71 Reliabilität Reliabilität Aus der Formel der Reliabilität folgt u.a., dass die Reliabilität - einen Wertebereich von 0 bis 1 besitzt, 0 rel 1 das Bestimmtheitsmaß der Korrelation von Messwert und wahrem Wert ist der Korrelation der Testergebnisse zweier paralleler Messungen (=Paralleltests) entspricht rel ²( X, ) rel ( X, X A A ' ) 71

72 Reliabilität Arten der Reliabilitätsbestimmung Es lassen sich drei/vier Arten der Reliabilität unterscheiden Retest - Reliabilität Paralleltest Reliabilität [Testhalbierungs- (Split Half-) Reliabilität] Innere Konsistenz 72

73 Reliabilität Retest-Reliabilität Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Vorausgesetzt es gibt weder Veränderungen der Messfehlereinflüsse noch unsystematische Veränderungen des wahren Werts, entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge. Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.b. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er. Bei Leistungstest ergeben sich Probleme z.b. aufgrund von Deckeneffekten. 73

74 Reliabilität Paralleltest-Reliabilität Hierbei werden den Personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests. rel ˆ r( X, X A A ' ) Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind. Eine strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich. Die eleganteste Prüfung der Parallelität von Tests ohne auf die moderne Testtheorie zurückzugreifen, stellen konfirmatorische Faktorenanalysen dar. 74

75 Reliabilität Testhalbierungs-Reliabilität (Split-Half Reliabilität) Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität des Gesamttests zu kommen, wird auf einen Spezialfall der Formel von Spearman-Brown* zurückgegriffen. el ˆ r Gesamttest 2r( X 1 r( X 1 1, X, X 2 2 ) ) * auf die Spearman Brown Formel wird auf Folie 82 näher eingegangen 75

76 Reliabilität Innere Konsistenz Hierbei wird jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann vereinfacht als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab. Die bekanntesten Kennwerte zur inneren Konsistenz sind Cronbach - Lambda3 nach Guttman 1 3 ˆ ²( X k i (1 k 1 ˆ ²( X ) k i ˆ ²( X i k ) k k 1 i ˆ ²( X ) ) ) k k i1 j1 i j mit k= Anzahl an Items im Test 2 ˆ ( X i, X j ) 76

77 Reliabilität Innere Konsistenz Stellen die Items zumindest essentiell - äquivalente Messungen dar, sind und 3 Schätzungen der Reliabilität des Gesamttests. Für den Fall, dass die Items keine äquivalenten Messungen darstellen, sind und 3 lediglich untere Schranken der Reliabilität. 77

78 Reliabilität WICHTIG bei der Berechnung von und 3 müssen die Items gleichartig gepolt sein, d.h. hohe Werte müssen inhaltlich immer dieselbe Bedeutung haben (z.b. für eine hohe Ausprägung des Merkmals sprechen) Weder noch 3 sind ein Maß für die Eindimensionalität von Items 78

79 Reliabilität 79

80 Reliabilität 80

81 Reliabilität 81

82 Reliabilität Formel nach Spearman-Brown Für dann Fall paralleler Items kann aus der Kenntnis der Reliabilität eines Tests die Reliabilität des um parallele Items verlängerten bzw. verkürzten Tests mittels der Formel von Spearman-Brown berechnet werden. Formel nach Spearman - Brown rel ˆ veränderter Test 1 rel ˆ Originaltest ( 1) rel ˆ Originaltest mit Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 82

83 Reliabilität Beispiel 1 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67 Wie hoch ist die Reliabilität, wenn man den Test um 10 parallele Items verlängert? rel ˆ ˆ veränderter Test rel veränderter Test rel ˆ 1 ( 1) rel ˆ 1 Originaltest Originaltest mit Anzahl Anzahl ( 1) der Items der Items 0.73 im veränderten Test im Originaltest 83

84 Reliabilität Beispiel 2 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67 Wie viele Items mehr benötigt der Test, wenn man eine Reliabilität von 0.73 anstrebt? ( 1) Anzahl der Items im veränderten Test 30 Anzahl der Items im veränderten Test 40 84

85 Reliabilität Einschub Verlängert oder verkürzt man einen Test um parallele Items, können Mittelwert und Varianz des veränderten Tests aus Kenntnis der Kennwerte des Originaltests mittels der nachfolgenden Formeln errechnet werden. xˆ veränderter Test x Originaltest ˆ ²( X veränderter Test ) ˆ ²( X Originaltest ) [1 ( 1) reˆ l Originalte st ] mit Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 85

86 Reliabilität Anzustrebende Höhe der Reliabilität Allgemein: so hoch wie möglich. Es sind jedoch die nachfolgenden Punkte zu berücksichtigen Art des zu erfassenden Merkmals Individual- versus Kollektivdiagnostik Einsatzbedingungen Kosten-Nutzen Abwägungen Objektivierbarkeit 86

87 Reliabilität Art des zu erfassenden Merkmals Leistungsvariablen sind meist präziser messbar als z.b. Einstellungen oder Persönlichkeitseigenschaften. Bei etablierten Intelligenztests sind Reliabilitäten der globalen Maße oft über 0.90, während Persönlichkeitsfragebogen Skalen oft nur Reliabilitäten um 0.7 aufweisen. Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.b. die Retest- oder Paralleltest Reliabilität 87

88 Reliabilität Individual- versus Kollektivdiagnostik Bei Individualdiagnostik sollte Messgenauigkeit höher sein als bei Messung der Durchschnittleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen reduzieren. 88

89 Reliabilität Einsatzbedingungen Bei Tests, die nicht adaptiv* vorgegeben werden können, hängt die Reliabilität relativ stark von der Testlänge ab. Daher weisen Tests und Fragebögen, die zum Screening eingesetzt werden und daher eher kurz sind, meist eine geringere Reliabilität auf. *adaptive Testvorgaben werden im Rahmen der Einheiten zur modernen Testtheorie behandelt 89

90 Reliabilität Reliabilität und Konfidenzintervalle für Da die Reliabilität als Maß für die Genauigkeit der Messung des wahren Werts einer Person verstanden werden kann, ist sie Basis für die Erstellung von Konfidenzintervallen für wahre Werte. Es gibt zwei Arten von Konfidenzintervallen auf Basis der Messfehlervarianz auf Basis der Schätzfehlervarianz 90

91 Reliabilität Reliabilität und Konfidenzintervalle für KI auf Basis der Messfehlervarianz Bei Vorliegen der Varianz der Testwerte und der Reliabilität kann die Messfehlervarianz berechnet werden. ˆ ²( ) ˆ²( X ) (1 reˆ l) Das Konfidenzintervall des wahren Werts wird berechnet mittels bzw. x z ˆ( v 1,2 v krit ˆ²( ) (1 ˆ v x z X rel) 1,2 v krit Die z krit -Werte betragen bzw für ein 95% KI und 2.33 bzw für ein 99% KI. ) 91

92 Reliabilität Reliabilität und Konfidenzintervalle für KI auf Basis der Schätzfehlervarianz Die Berechnung des geschätzten wahren Werts und der Schätzfehlervarianz erfolgt über ˆ v x v rel ˆ x (1 reˆ l) Das Konfidenzintervall des wahren Werts wird berechnet mittels bzw. ˆ ²( ˆ) ˆ v ˆ ²( X ˆ ˆ( ˆ) 1,2 v zkrit ˆ²( X ) (1 rel ˆ ) rel ˆ rel ˆ ) v v z krit ) (1 1,2 rel ˆ Die z krit -Werte betragen bzw für ein 95% KI und 2.33 bzw für ein 99% KI. 92

93 Reliabilität v Beispiel 1 Eine Person erzielt in einem Test 43 Punkte. Es ist bekannt, dass der Mittelwert des Tests 39 Punkte, die Standardabweichung des Tests 5 Punkte und die Reliabilität rel= 0.85 beträgt. In welchem Bereich befindet sich der wahre Wert der Person mit 99%iger Sicherheit? a) Berechnung auf Basis der Messfehlervarianz v ² (1 0.85) 1,2 KI [38.00; 48.00] b) Berechnung auf Basis der Schätzfehlervarianz ( ) ² (1 0.85) ,2 KI [37.79; 47.00] 93

94 Reliabilität v Beispiel 2 Eine Person erzielt in einem Test einen IQ von 134. Die im Testmanual angegebene Testreliabilität beträgt rel= Kann man mit 95%iger Sicherheit davon ausgehen, dass die Person einen wahren IQ über 130 hat und somit hochbegabt ist? Bemerkung: die Standardabweichung des IQ ist laut Normtabellen auf 15 festgelegt a) Berechnung auf Basis der Messfehlervarianz v ² (1 0.75) 1,2 KI [119.3;148.7] b) Berechnung auf Basis der Schätzfehlervarianz ( ) ² ,2 KI [ ; ] 94

95 Validität Validität Definition Ein Test gilt dann als valide ( gültig ), wenn er das Merkmal, das er messen soll, auch wirklich misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 13) ABER: Woran ist erkennbar welches Merkmal ein Test misst? Anstatt von der Validität eines Tests zu sprechen, sollte die Validität möglicher Interpretationen von Testergebnissen betrachtet werden. (vergl. Moosbrugger & Kelava, 2008,S.136) 95

96 Validität Interpretationen eines Testergebnisses Verschiedene Interpretationen des Testergebnisses können sich beziehen auf die Bewertung des Endergebnisses, das Verallgemeinern des Ergebnisses, die Extrapolation auf andere Bereiche, das (kausale) Erklären und mögliche Konsequenzen, die sich durch das Treffen von Entscheidungen als Folge des Testergebnisses ergeben. Vor der Validierung muss überlegt werden, welche der oben angeführten Bereiche betrachtet werden sollen. 96

97 Validität Wie wird das Merkmal definiert? Neben der Überlegung, welcher Bereich validiert werden soll, ist zu überlegen, auf welcher Definition das zu erfassende Merkmal basiert. Moosbrugger & Kelava unterscheiden zwischen zwei Merkmalsdefinitionen operational und theoretisch. Die Grenzen zwischen den beiden Definitionen sind allerdings fließend. 97

98 Validität Operationale Merkmalsdefinition Um eine operationale Merkmalsdefinition handelt es sich, wenn die Testaufgaben den interessierenden Anforderungsbereich direkt repräsentieren. Ein operational definiertes Merkmal bezieht sich zunächst nur auf die spezifischen Test- bzw. Merkmalsinhalte. z.b.: Test zur Erfassung des Kurzzeitgedächtnisses Fragebogen zur Einschätzung der Sicherheit von Atomkraftwerken 98

99 Validität Theoretische Merkmalsdefinition Bei theoretischen Merkmalsdefinitionen werden Theorien herangezogen, die spezifizieren (verdeutlichen), worauf bestimmte Unterschiede zwischen Personen zurückgeführt werden können und wie sich diese Unterschiede in den Testergebnissen ausdrücken. z.b. formuliert Eysenck (1981) Annahmen darüber, in welchen neuronalen Strukturen sich Personen mit unterschiedlichen Ausprägungen der Persönlichkeitsdimension Extraversion unterscheiden. Daraus leitet er Unterschiede in bestimmten Erlebens- und Verhaltensweisen ab, auf die sich dann die Items, die zur Erfassung der Extraversion herangezogen werden, beziehen. 99

100 Validität Arten der Validität Im Wesentlichen werden vier Arten der Validität unterschieden Inhaltsvalidität, Augenscheinvalidität, Kriteriumsvalidität und Konstruktvalidität. Weitere, häufig zu findende Begriffe im Zusammenhang mit Validität sind Übereinstimmungsvalidität, prognostische Validität, diskriminante Validität und konvergente Validität. 100

101 Validität Inhaltsvalidität Definition Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte der Tests bzw. der Items, aus denen sich ein Test zusammensetzt, tatsächlich das interessierende Merkmal erfassen. (vergl. Moosbrugger & Kelava, 2008, S.140) 101

102 Validität Inhaltsvalidität Bei operationalisierten Merkmalen bezieht sich die Inhaltsvalidität vor allem auf die Verallgemeinerbarkeit der Testergebnisse. Es geht also darum, inwieweit die ausgewählte Items eine repräsentative Auswahl aus der Menge aller möglicher Aufgaben sind. z.b. Wie gut decken die Fragen, die bei der Testtheorieprüfung gestellt werden, das vorgetragene Stoffgebiet ab? 102

103 Validität Inhaltsvalidität Auch bei theoretisch definierten Merkmalen muss die Verallgemeinerung auf eine größere Menge von Aufgaben möglich sein. Zusätzlich muss angenommen werden können, dass unterschiedliche Antworten Unterschiede im interessierenden Merkmal erklären können. Das bedeutet, es muss von den Antworten auf die Items auf das interessierende Merkmal geschlossen werden können. Dies kann nur durch eine gute theoretische Fundierung und eine daran orientierte Itemkonstruktion gewährleistet werden. 103

104 Validität Augenscheinvalidität Definition Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt erscheint. (Moosbrugger & Kelava, 2008 S.15) 104

105 Validität Konstruktvalidität* Definition Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl Testergebnisse als auch Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird. (Messick, 1995, S.743, Übersetzung J. Hartig & A. Frey; aus Moosbrugger & Kelava, 2008, S. 145) *auf die Konstruktvalidität wird im Zuge der Faktorenanalyse nochmals eingegangen. 105

106 Validität Konstruktvalidität Im Wesentlichen geht es darum, Testergebnisse vor dem Hintergrund eines theoretischen Konstrukts zu interpretieren. Man unterscheidet zwischen dem Bereich der Theorie und dem Bereich der Beobachtung. 106

107 Validität Konstruktvalidität Der Bereich der Theorie beschäftigt sich mit nicht direkt beobachtbaren (=latenten) Konstrukten und deren Zusammenhängen. Im Idealfall sind diese Zusammenhänge durch Axiome formalisiert. Korrespondenzregeln geben an, wie sich die theoretischen Zusammenhänge auf den Bereich des Beobachtbaren auswirken. Bei diesen Auswirkungen handelt es sich meist um Zusammenhänge zwischen manifesten Variablen mitunter aber auch um Unterschiede zwischen Gruppen. 107

108 Validität Konstruktvalidität Diese Zusammenhänge bzw. Unterschiede werden in weiterer Folge empirisch geprüft. Stimmen die theoretische Vorhersagen mit den empirischen Beobachtungen überein, wird das als Bestätigung der Theorie als auch der Interpretation der Testkennwerte als individuelle Ausprägung auf dem theoretischen Konstrukt angesehen. Für den Fall, dass eine relativ hohe Korrelation erwartet wird, spricht man von konvergenter Validität (z.b. Korrelation mit einem Test der dasselbe Konstrukt messen soll). Falls man eine niedrige Korrelation erwartet, spricht man von diskriminanter Validität. (z.b. Korrelation mit einem Test, der ein anderes Konstrukt erfassen soll). 108

109 Validität Konstruktvalidität Multi Trait Multi Method Matrix (MTMM) Dieses auf Korrelationen basierende Vorgehen zur Konstruktvalidierung wurde von Campell und Fiske (1959) vorgestellt. Sowohl das interessierende Merkmal als auch konkurrierende Merkmale (verschiedene Traits) werden mit unterschiedlichen Methoden erfasst und die erzielten Ergebnisse miteinander korreliert. Demnach werden teilweise hohe (konvergente Validität) teilweise niedrige Korrelationen (diskriminante Validität) erwartet. 109

110 Validität Konstruktvalidität Multi Trait Multi Method Matrix (MTMM) Die resultierende Korrelationsmatrix müsste die folgenden Bedingungen erfüllen Korrelationen, bei denen dasselbe Merkmal mit derselben Methode erfasst wird (mono Trait / mono Method = Retestreliabilität) sollten höher sein als Messung desselben Merkmals mit unterschiedlichen Methoden (mono Trait hetero Method) Korreliert man Messungen bei denen dasselbe Merkmal mit unterschiedlichen Methoden gemessen wird (mono Trait hetero Method), sollten diese Korrelationen höher sein als die Korrelationen von Messungen unterschiedlicher Merkmale mit derselben Methode (hetero Trait mono Method) Korrelationen von der Messung unterschiedliche Merkmale mit derselben Methode (hetero Trait mono Method) sollten höher sein als Korrelationen von Messungen unterschiedlicher Merkmale mit unterschiedlichen Methoden 110

111 Validität Konstruktvalidität Multi Trait Multi Method Matrix (MTMM) Methode 1 Methode 2 Trait 1 Trait 2 Trait 3 Trait 1 Trait 2 Trait 3 Trait 1 Methode 1 Trait 2 Trait 3 Trait 1 Methode 2 Trait 2 Trait 3 mtmm mthm htmm hthm 111

112 Validität Konstruktvalidität Weitere Methoden zur Untersuchung der Konstruktvalidität sind Analysen von Antwortprozessen und der Vergleich von theoretisch erwarteten Itemschwierigkeiten mit empirisch ermittelten. Bei der Analyse von Antwortprozessen können Personen z.b. gebeten werden, bei der Bearbeitung der Aufgaben laut zu denken, um so Annahmen über Antwortprozesse zu erheben bzw. zu klären, ob sich die Antwortprozesse auf das gewünschte Konstrukt beziehen. 112

113 Validität Kriteriumsvalidität Definition Kriteriumsvalidität bedeutet, dass von einem Testergebnis, auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden. Je enger diese Zusammenhänge, desto besser kann die Kriteriumsvalidität als belegt gelten. (Moosbrugger & Kelava, 2008, S. 156) 113

114 Validität Kriteriumsvalidität Von größter Bedeutung ist hierbei die Frage, welche Außenkriterien gewählt werden. Die Auswahl sollte gut begründet und nachvollziehbar sein. Kann ein theoretisch hergeleiteter Zusammenhang von Testergebnis und Außenkriterium empirisch untermauert werden, wird dadurch sowohl die Validität der theoriebasierten Testwertinterpretation als auch die Validität der diagnostischen Entscheidung unterstützt. 114

115 Validität Kriteriumsvalidität Außenkriterien können zeitlich parallel existieren (Übereinstimmungsvalidität) oder sich auf zukünftige Ausprägungen eines Merkmals beziehen (prognostische Validität). 115

116 Validität Praktische Berechnung der Kriteriumsvalidität Die praktische Berechnung der Kriteriumsvalidität erfolgt durch die Berechnung der Korrelation von Testergebnis (X) mit dem Außenkriterium (Y). val ˆ r( X, Y Problematisch dabei ist, dass die Validität durch zwei Messfehler verdünnt wird. Sie fällt also aufgrund der Messfehler, die bei der Messung des Testergebnisses und des Außenkriteriums auftreten, geringer aus, als sie in Wirklichkeit wäre. val ˆ r( X, Y ) val ˆ ) r( X, Y ) 116

117 Validität Verdünnungsformeln Um diesen Fehler auszugleichen, gibt es je nachdem welche(r) Messfehler theoretisch beseitigt werden soll, drei Verdünnungsformeln* r( X, ) Y r( X, Y ) r( X, Y ) r( X, Y ) rel ˆ ( X ) rel ˆ ( Y ) r( X, Y ) rel ˆ ( X ) r( X, Y ) rel ˆ ( Y ) Beseitigung beider Messfehler Beseitigung des Messfehlers vom Test Beseitigung des Messfehlers vom Kriterium *die Verdünnungsformeln können natürlich auch im Zuge der Berechnung von Konstruktvaliditäten angewandt werden 117

118 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(x,y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. a) Wie hoch wäre die Validität des Tests, wenn man das Außenkriterium fehlerfrei erheben könnte? b) Wie hoch wäre die Validität des Tests, wenn man das Testergebnis fehlerfrei messen könnte? c) Wie hoch wäre die Validität des Tests, wenn man sowohl den Test als auch das Außenkriterium fehlerfrei messen könnte? 118

119 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(x,y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. a) Wie hoch wäre die Validität des Tests, wenn man das Außenkriterium fehlerfrei erheben könnte? r( X, Y ) r( X, Y ) rel ˆ ( Y ) r( X, Y )

120 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(x,y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. b) Wie hoch wäre die Validität des Tests, wenn man das Testergebnis fehlerfrei messen könnte? r(, Y ) x r( X, Y ) rel ˆ ( X ) r(, Y ) x

121 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(x,y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. c) Wie hoch wäre die Validität des Tests, wenn man sowohl den Test als auch das Außenkriterium fehlerfrei messen könnte? r(, ) X Y r( X, Y ) rel ˆ ( X ) rel ˆ ( Y ) r( X, Y )

122 Validität Validität und Kosten-Nutzen Abwägungen Ist die Validität eines Tests bekannt, kann damit der Nutzen der Anwendung eines Tests zur Personenselektion ermittelt werden. Hierfür können die sogenannten Taylor-Russell Tafeln herangezogen werden. 122

123 Validität Taylor - Russell Tafeln Die Grundidee der Taylor Russel Tafeln besteht darin, dass angenommen wird, dass ein Individuum über eine bestimmte Mindestausprägung des zu erhebenden Merkmals verfügen muss, um für eine bestimmte Anforderung geeignet zu sein. Je nachdem wie hoch diese Mindestausprägung ist, ist nur ein gewisser Prozentsatz der relevanten Population wirklich geeignet. Dieser Prozentsatz nennt sich Grundrate (GR) bzw. Grundquote (GQ) Weiters wird aufgrund des Testergebnisses ein bestimmter Teil der getesteten Personen als geeignet betrachtet. Dieser Anteil nennt sich Selektionsrate (SR) oder Selektionsquote (SQ) 123

124 Validität Taylor - Russell Tafeln Anhand der Taylor Russell Tafeln ist für tabellierte Grundund Selektionsraten sowie bei gegebener Validität des Tests ablesbar, wie hoch der Anteil wirklich geeigneter Personen ist, sofern sie aufgrund des Testergebnisses als geeignet angesehen werden. 124

125 Merkmalsausprägung Validität Testergebnis 125

126 Validität 126

127 Validität 127

128 Validität 128

129 Merkmalsausprägung Validität Testergebnis 129

130 Validität 130

131 Validität des Tests Validität Grundrate = 0.1 Selektionsrate 131

132 Validität Taylor - Russell Tafeln Beispiel 1 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Zur Auswahl der Personen wird ein Test mit einer Validität von val=0.20 verwendet. a) Wie hoch ist die Wahrscheinlichkeit, dass die aus 20 BewerberInnen aufgrund des Tests ausgewählte Person wirklich für die ausgeschriebene Stelle geeignet ist? b) Wie hoch ist die Wahrscheinlichkeit eine geeignete Person zu erhalten, wenn die Auswahl der Person nicht aufgrund der Testergebnisse, sondern zufällig erfolgt? 132

133 Validität Taylor - Russell Tafeln Beispiel 1 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Zur Auswahl der Personen wird ein Test mit einer Validität von val=0.20 verwendet. a) Wie hoch ist die Wahrscheinlichkeit, dass die aus 20 BewerberInnen aufgrund des Tests ausgewählte Person wirklich für die ausgeschriebene Stelle geeignet ist? Lösung: GR= 0.40 SR=1/20=0.05 val=0.20 =>

134 Validität Taylor - Russell Tafeln Beispiel 1 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Zur Auswahl der Personen wird ein Test mit einer Validität von val=0.20 verwendet. b) Wie hoch ist die Wahrscheinlichkeit eine geeignete Person zu erhalten, wenn die Auswahl der Person nicht aufgrund der Testergebnisse, sondern zufällig erfolgt? Lösung: die Grundrate (hier 0.40) 134

135 Validität Taylor - Russell Tafeln Beispiel 2 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Wie hoch müsste die Validität sein, damit die Wahrscheinlichkeit, dass eine aus 20 BewerberInnen aufgrund des Tests ausgewählte Person, auch wirklich geeignet ist, 95 % beträgt? Lösung: GR=0.40 SR=1/20=0.05 % - Satz=0.95 => val=

136 Validität Berechnung der Validität bei Verkürzung oder Verlängerung eines Tests um parallele Testteile val ˆ veränderter Test 1 val ˆ 2 Originaltest ( 1) rel ˆ Originaltest mit Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 136

137 Validität Beispiel 1 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67, die Validität ist Wie hoch ist die Validität, wenn man den Test um 10 parallele Items verkürzt? val ˆ veränderter Test val ˆ 2 Originaltest 1 ( 1) rel ˆ Originaltest ˆ val veränderter Test mit 20 (0.43)² ( 1) Anzahl Anzahl der Items der Items im veränderten Test im Originaltest 137

138 Faktorenanalyse

139 Grundidee Grundidee Korrelationen zwischen den (manifesten) Items werden dadurch erklärt, dass ihnen zumindest ein gemeinsames latentes Merkmal (= Faktor ) zugrunde liegt. Item 1 Item 2 Item 3 Item 4 Item 5 Latentes Merkmal Die paarweisen Korrelation zwischen den (standardisierten) Items sind selbst bei einem Faktor nicht 1, da neben dem Einfluss des latenten Merkmals auch andere Einflüsse (wie z.b. Messfehler) berücksichtigt werden müssen. 139

140 Grundidee Grundidee Item 1 Item 2 Item 3 Item 4 Item 5 Latentes Merkmal 140

141 Grundidee Grundidee Im Falle eines einzigen gemeinsamen latenten Merkmals, lautet die formale Darstellung der Faktorenanalyse Standardisiertes Ergebnis des Item i Z i Ladung(= Bedeutung) von Faktor 1 bei Item i F i,1 1 i Faktor 1 i alle anderen Einflüsse = itemspezifischer Faktor Ladung(= Bedeutung) aller anderen Einflüsse bei Item i Dieses Modell wird auch als das Generalfaktormodell bezeichnet und geht auf Spearman zurück. 141

142 Grundidee Grundidee Zur Veranschaulichung Item1 Item2 Item3 Item4 Item5 Die Box steht für die Varianz des Items. Die hellblaue Fläche für den Anteil an Varianz, der durch den ersten Faktor erklärt wird. Die anderen Farben für die itemspezifischen Einflüsse, die auf das jeweilige Item wirken. Sie sind bei jedem Item anders. 142

143 Grundidee Grundidee Zum Vergleich das Modell der einfachen Regression Variable die vorhergesagt werden soll Y Modell b X a y, x y, x Achsenabschnitt Alle anderen Einflüsse auf die Variable Y Ladung(= Bedeutung) von Variable X Variable X Z i i 1 F1 Modell i, i alle anderen Einflüsse 143

144 Grundidee Grundidee Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 Z i F F i,1 1 i,2 2 i i 144

145 Grundidee Grundidee Zur Veranschaulichung Item1 Item2 Item3 Item4 Item5 Die Box steht für die Varianz des Items. Die hellblaue Fläche für den Anteil an Varianz, der durch den ersten Faktor erklärt wird. Die hellgrünen Flächen für den Anteil an Varianz, der durch den zweiten Faktor erklärt wird. Die anderen Farben für die itemspezifischen Einflüsse, die auf das jeweilige Item wirken. Sie sind bei jedem Item anders. 145

146 146 Grundidee..., 2,2 1 1, i i m m i i i i F F F Z Das multiple Faktorenmodell von Thurstone i i m j j j i i F Z 1, oder Grundidee

147 Grundidee Grundidee Das multiple Faktorenmodell von Thurstone Unter der Annahme, dass die Ausprägungen der Personen in den verschiedenen Faktoren nicht miteinander korrelieren (oder kurz: unter der Annahme unkorrelierter Faktoren), ergibt sich, dass sich die Korrelation zwischen zwei Items nach folgender Formel berechnen lässt ( X, a X b ), 1,1,2,2..., a b a b a m b, m a, m j1 j b, j 147

148 Grundidee Beispiel 1 Item 1 Item 2 Item 3 Item 4 F1 F ( X, a X b ) m j1 a, j b, j ( X1, X 3) ( (.22)).1914 ( X1, X 4) ( )

149 Kennwerte Kennwerte Die drei wichtigsten Kennwerte der Faktorenanalyse sind die Ladungen der Faktoren pro Item, 2 h i die Kommunalität des Items und Eig ( Fj der Eigenwert des Faktors. ) i, j 149

150 Kennwerte Die Ladungen Die Ladung i, j ist die Korrelation von Item i mit Faktor j. Ladungen können daher positiv oder negativ sein! Die quadrierte Ladung ist das Bestimmtheitsmaß. Dadurch ist sowohl ablesbar, wie stark ein Faktor an einem Item beteiligt ist, aber auch, wie gut die Ausprägung des Faktors durch das Item vorhersagbar ist bzw. wie gut das Item den Faktor misst. Die Ladung i, j ( X i, j i j für den Faktor j interpretierbar., F ) ist daher als (Konstrukt)Validität des Items i 150

151 Kennwerte Zur Veranschaulichung Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 151

152 Kennwerte Zur Veranschaulichung Item1 Item2 Item3 Item4 Item ,1 2,1 4,2 152

153 Kennwerte Die Kommunalität eines Items Die Kommunalität eines Items gibt an, wie viel der Varianz eines Items durch die gemeinsamen Faktoren erklärt werden kann. m 2 h 2 i i, j j1 Geht man davon aus, dass die Ausprägungen der Faktoren bei den Personen stabil sind, so ist die Kommunalität die untere Schranke der Reliabilität des Items. 2 h rel( i X i ) 153

154 Kennwerte Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 154

155 Kennwerte Zur Veranschaulichung 2 Item1 Item2 Item3 Item4 Item5 1, h1 h 2 h 4 155

156 Kennwerte Der Eigenwert eines Faktors Der Eigenwert eines Faktors gibt an, wie viel der Varianz der Items durch den jeweiligen Faktoren erklärt werden kann. 2 Eig( ) F j k i1 Dividiert man den Eigenwert eines Faktors durch die Anzahl an Items und nimmt das Ergebnis mal 100, so ergibt das den Prozentsatz der Gesamtvarianz aller Items, der durch den jeweiligen Faktor erklärt wird. i, j Prozent der Gesamtvarianz erklärt durch Faktor j Eig( k F j ) 100 mit k= Anzahl an Items im Test 156

157 Kennwerte Der Eigenwert eines Faktors Dividiert man den Eigenwert eines Faktors durch die Summe aller Eigenwerte und nimmt das Ergebnis mal 100, so ergibt das wie viel Prozent der durch die gemeinsamen Faktoren erklärbaren Varianz der jeweilige Faktor erklärt. Prozent erklärbarer Varianz durch Faktor j m f 1 Eig( F j ) Eig( F f ) 100 Je größer der Eigenwert eines Faktors umso größer ist sein Anteil an der Erklärung der Korrelationen zwischen den Items. 157

158 Kennwerte Der Eigenwert eines Faktors Der Eigenwert ist demnach wichtig, um den Stellenwert eines Faktors zu interpretieren. Er kann (im übertragenen Sinn) als Maß dafür verstanden werden, wie gut die im Test enthaltenen Items den jeweiligen Faktor messen bzw. wie viel Information die im Test enthaltenen Items über den Faktor liefern. 158

159 Kennwerte Item 1 Item 2 Item 3 Item 4 Item 5 Faktor 1 Faktor 2 159

160 Kennwerte Zur Veranschaulichung 2 Item1 Item2 Item3 Item4 Item5 1,1 Eig( F 1 ) 160

161 Kennwerte Zur Veranschaulichung 2 Item1 Item2 Item3 Item4 Item5 1,1 Eig( F 2 ) 161

162 Kennwerte 162

163 Kennwerte 163

164 Kennwerte 164

165 Kennwerte 165

166 166 Beispiel F1 F2 Item 1 Item 2 Item 3 Item ².67² )² (.66² ².87)² ( ².33² h h h h ².22²) (.49².12² ) ( ².66².87)² (.33² ) ( 2 1 F Eig F Eig Kennwerte

167 Kennwerte Beispiel 2 Eig( F 1 Eig( F 2 ).33² (.87)².66².67² ).12².49² (.22²).18² Prozent der Gesamtvarianz Faktor % Prozent der Gesamtvarianz Faktor % Prozent der erklärbaren Varianz Faktor % Prozent der erklärbaren Varianz Faktor %

168 Parameterschätzung Parameterschätzung Die mathematische Herausforderung im Rahmen der Faktorenanalyse ist die Bestimmung der (unbekannten) Ladungen sowie die Festlegung der Faktorenzahl. Die Grundidee der Parameterschätzung basiert darauf, zunächst jenen Faktor mit dem größten Eigenwert zu extrahieren. Dadurch wird die Summe der quadrierten verbleibenden Korrelationen zwischen den Items am stärksten minimiert. Daraus folgt, dass man die Ladungen des 1. Faktors so bestimmt, dass k k a1 b1 [ r ( X, X ) ˆ ˆ 2 a, 1 a b b,1] Minimum 168

169 Parameterschätzung Parameterschätzung Die mathematische Name dieses Problems nennt sich Eigenwert Eigenvektor Problem und wurde (zum Glück) bereits gelöst. Der Lösungsweg erfolgt iterativ und ist in realen Situationen für die händische Berechnung viel zu aufwändig. 169

170 Parameterschätzung Parameterschätzung Nach Extraktion des ersten Faktors (= Schätzung der Ladungen des ersten Faktors), wird der zweite Faktor nach derselben Grundidee extrahiert. Allerdings verwendet man hierfür nicht die originalen Korrelationen, sondern die um den Einfluss des ersten Faktors reduzierten. Diese Korrelationen werden Restkorrelationen genannt. r 1 ( X a, X b) Rest r( X a, X b) a,1 b,1 Restkorrelation von Item a und b nach Extraktion von Faktor 1 zur Erinnerung: ( X, X ) a b a 1 b,1 a,2 b,2... a, m b,, m ˆ ˆ 170

171 Parameterschätzung Parameterschätzung Im Rahmen der Faktorenanalyse wurden eine Vielzahl an Extraktionsverfahren entwickelt. Die zwei am häufigsten angewandten sind die Hauptachsenanalyse ( principal axis ) und die Hauptkomponentenanalyse ( principal components ). 171

172 Parameterschätzung Parameterschätzung Bei der Hauptkomponentenanalyse wird davon ausgegangen, dass sich die Varianz eines Items vollständig durch die gemeinsamen Faktoren erklären lässt. Demnach sind alle Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) gleich 1. Als Konsequenz werden so viele Faktoren extrahiert, wie es Items gibt. Sie ist die Standardeinstellung bei Berechnung einer Faktorenanalyse in SPSS. 172

173 Parameterschätzung Parameterschätzung Bei der Hauptachsenanalyse wird davon ausgegangen, dass sich die Varianz eines Items immer in die Kommunalität und die Einzelrestvarianz aufteilt. Demnach sind die Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) kleiner als 1. Ziel ist es also, nur die durch die gemeinsamen Faktoren erklärbare Varianz zu beschreiben. Da zu Beginn der Datenanalyse die Kommunalitäten nicht bekannt sind (= Kommunalitätenproblem ), werden die Faktoren zunächst mittels Hauptkomponentenanalyse geschätzt und iterativ (=schrittweise) verbessert ( Kommunalitäteniteration ). 173

174 Parameterschätzung Parameterschätzung Laut Backhaus et al.* unterscheidet sich die Interpretation der Faktoren je nach Methode. Bei der Hauptkomponentenanalyse geht es darum, die hoch auf einem Faktor ladenden Items zu einem Sammelbegriff zusammenzufassen. Bei der Hauptachsenanalyse geht es darum, die Ursachen für die (hohen) Korrelationen zwischen den Items zu finden. *Backhaus K., Erichson B., Plinke W., Weiber R. Multivariate Analysemethoden 10. Auflage, Springer. Seite

175 Parameterschätzung 175

176 Parameterschätzung Bestimmung der Faktorenzahl Für die Bestimmung der Anzahl an Faktoren gibt es fünf üblicherweise herangezogene Kriterien Faktorenzahl wird a priori festgelegt, alle Restkorrelationen sind nahe 0 (z.b.: <.2), der Eigenwert des zuletzt extrahierten Faktors ist kleiner 1* (im übertragenen Sinn ist damit die Information, die über den Faktor vorliegt geringer als die Information eines einzigen Items), der Verlauf des Eigenwertediagramms (Screeplot) oder die Parallelanalyse. Für die Bestimmung der Faktorenzahl gibt es keine generellen Vorschriften, sodass der Grad an Subjektivität hier relativ hoch ist. * diese Vorgehensweise wird auch Kaiser - Kriterium genannt 176

177 Parameterschätzung Bestimmung der Faktorenzahl Bei der Betrachtung des Eigenwertediagramms, wird jene Stelle gesucht, an der Verlauf das Eigenwertediagramm abflacht (= Elbow Kriterium). Die Faktoren vor dem Knick werden in der weiteren Analyse berücksichtigt. 177

179 Parameterschätzung Bestimmung der Faktorenzahl Bei der Parallelanalyse werden zumindest 100 Datensätze von Zufallszahlen erzeugt, wobei die Anzahl an Items und der Stichprobenumfang dem empirisch gewonnenen Datensatz entspricht. All diese Datensätze werden einer Faktorenanalyse unterzogen und die aus jeder Analyse gewonnenen Eigenwerte werden pro Faktor gemittelt. Als relevante nichttriviale Faktoren werden all jene Faktoren bezeichnet, deren Eigenwerte über jenen der (gemittelten) Eigenwerte der Parallelanalyse liegen.* *vergl. Moosbrugger & Kelava 2008, Seite

181 Ergebnisinterpretation Interpretation der Faktorenlösung Die Ladungsmatrix bildet die Grundlage für die inhaltliche Interpretation der Faktoren. Hierfür werden üblicherweise die in einem Faktor hoch (=ideal sind Items mit Ladungen über 0.7) und in allen anderen Faktoren niedrig ladenden Items (ideal sind hier Ladungen unter 0.3) herangezogen. Diese Items werden auch als Marker-Items bezeichnet. Zeichnet man die Items als Punkte in einem Raum mit so vielen Dimensionen wie es Faktoren gibt, so liegen Marker- Items nahe an den Koordinatenachsen. 181

182 Ergebnisinterpretation Interpretation der Faktorenlösung Grundidee Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 F F F1 2 h 1 1,1 1,2 F2 182

183 Ergebnisinterpretation Interpretation der Faktorenlösung Wegen der Vorgehensweise bei der Parameterschätzung sind derartig hohe Ladungen bei der Erstlösung in der Praxis aber eher selten. Aus diesem Grund werden die Faktoren zur besseren Interpretierbarkeit rotiert. Ziel ist eine einfache Struktur ( simple structure ) bei der jedes Item nach Möglichkeit nur in einem Faktor hoch, in den anderen Faktoren jedoch gering lädt. Dadurch ergeben sich neue, besser interpretierbare Ladungen. 183

184 184 Faktorenrotation Grundidee F1 F2 Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item F1 F2 Ergebnisinterpretation

185 Ergebnisinterpretation Faktorenrotation F2 Grundidee F1 F2 Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item F1 F1 F2 185

186 Ergebnisinterpretation Faktorenrotation Durch die Rotation ändern sich die Ladungen, die Eigenwerte und möglicherweise auch die Interpretation der Faktoren. Unverändert bleiben die Kommunalitäten und der Anteil der durch die Faktoren erklärbaren Varianz. 186

187 Ergebnisinterpretation Faktorenrotation Wird der rechte Winkel zwischen den Faktorenachsen beibehalten (= unabhängige Faktoren) spricht man von einer orthogonalen Rotation. Gibt man die Forderung nach unabhängigen Faktoren auf (= Faktorenachsen müssen nicht im rechten Winkel aufeinander stehen) so spricht man von schiefwinkeligen (= oblique) Rotationen. Die bekannteste Art der Faktorenrotation ist die Varimax- Rotation. Hierbei werden die Faktoren so rotiert, dass die Varianz der Ladungen innerhalb eines Faktors maximal wird. Das bedeutet, das Ziel ist pro Faktor sowohl hohe als auch niedrige Ladungen zu haben, um so die Faktoren leichter benennen zu können. 187

188 Ergebnisinterpretation 188

191 Ergebnisinterpretation Faktorwerte Da es das Ziel der Faktorenanalyse ist, die Zahl der Kennwerte zu reduzieren (aus vielen Items sollen deutlich weniger Faktoren resultieren), ist es nötig, Kennwerte für die Ausprägungen der Personen in den zu Grunde liegenden Faktoren zu ermitteln. Diese Kennwerte nennen sich Faktorwerte (auch Skalenwerte genannt). Man unterscheidet zwischen gewichteten und ungewichteten Faktorwerten. 191

192 Ergebnisinterpretation Ungewichtete Faktorwerte Die Berechnung der ungewichteten Faktorwerte erfolgt pro Person z.b. durch aufsummieren oder mitteln der Punkte jener Items, die in einem Faktor hoch laden. Items, die in mehreren Faktoren ähnlich hohe Ladungen aufweisen, werden entweder jenem Faktor zugerechnet, in dem sie die höchste Ladung aufweisen oder bei der Berechnung der Faktorwerte nicht berücksichtigt. Ist die Ladung eines Items in einem Faktor negativ, so muss das Item umgepolt werden. 192

193 Ergebnisinterpretation Beispiel 3 5 Aussagen, auf die die Personen mit 0 (stimme gar nicht zu) bis 10 (stimme völlig zu) antworten konnten. ID X1 X2 X3 X4 X

194 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X Aufgrund der negativen Ladung von Item 5 in Faktor 1 muss dieses Item für die Berechnung des ungewichteten Faktorwerts (und auch für die Berechnung der Reliabilität) umgepolt werden. 194

195 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X Das Umpolen erfolgt durch * X v i [min( X i ) (max( X i )], X v, i 195

196 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 X5* * X [0 10] 9 1 1,5 * X [0 10] 2 8 3,5 * X [0 10] 6 4 4,5 196

197 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 X5* FW FW1, FW2, FW FW ,1 4,1 197

198 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 X5* FW1 FW FW1,2 7 7 FW 5 5 FW 0 1 3,2 FW2, ,1 198

199 Ergebnisinterpretation Gewichtete Faktorwerte Da bei der ungewichteten Berechnung der Faktorwerte die unterschiedliche Konstruktvalidität der Items nicht berücksichtigt wird und Items, die in zwei oder mehr Faktoren ähnlich hohe Ladungen haben, problematisch sind, werden die Items je nach Ladung eines Items in einem Faktor gewichtet. Das Umpolen der Items ist hierbei nicht nötig. Es resultieren pro Faktor standardisierte Faktorwerte. Für die Berechnung stehen in SPSS unterschiedliche Methoden zu Verfügung. 199

201 Arten der Faktorenanalyse Arten der Faktorenanalyse Es lassen sich zwei Arten von Faktorenanalysen unterscheiden die explorative und die konfirmatorische Faktorenanalyse. 201

202 Arten der Faktorenanalyse Explorative Faktorenanalysen Die explorative Faktorenanalyse wird verwendet, wenn noch keine Hypothesen über die Anzahl an Faktoren und die Zuordnung der Items zu den Faktoren existieren. Die Zahl der Faktoren und die Zuordnung der Items zu den Faktoren wird mittels der zuvor besprochenen Vorgehensweisen bestimmt. 202

203 Arten der Faktorenanalyse Konfirmatorische Faktorenanalysen Bei der konfirmatorischen Faktorenanalyse sollen eine oder mehrere zuvor theoretisch festgelegte Faktorenstrukturen anhand empirischer Daten auf ihre Gültigkeit hin überprüft werden. Demnach müssen die Faktorenzahl und die Zuordnung der Items zu den Faktoren bekannt sein. 203

204 Arten der Faktorenanalyse Konfirmatorische Faktorenanalysen Die konfirmatorische Faktorenanalyse zählt zu den Strukturgleichungsmodellen (SEM) in deren Rahmen geprüft wird, wie gut ein oder mehrere theoretisch formulierte Modelle, die erhobenen Daten beschreiben. Für diese Fragestellung werden sowohl Signifikanztests als auch Indices zur Überprüfung der Modellanpassung an die Daten verwendet*. Auch Multi-Trait-Multi-Method Designs können mithilfe konfirmatorischer Faktorenanalysen geprüft werden**. * Literaturtipp: Byrne, B.M. (2010) Structural Equation Modeling with AMOS 2nd ed., Routledge. **Literaturtipp: Kenny, D.A. & Kashy, D.A (1992) Analysis of the multitrait multimethod matrix by confirmatory factor analysis. Psychological Bulletin,

205 Grenzen der Anwendbarkeit Probleme und häufige Fehler bei der Anwendung Die Faktorenanalyse trifft keine Aussagen über die Dimensionalität der Items. Die klassische Variante der Faktorenanalyse beruht auf der Berechnung von Pearson Korrelationen bzw. Kovarianzen. Demnach sollten die für eine Faktorenanalyse herangezogenen Items metrisch sein. Weiters sind die Ergebnisse (vor allem die Anzahl an Faktoren) stark stichprobenabhängig. Je homogener die Stichprobe, desto geringer die Korrelationen zwischen den Items und umso mehr Faktoren ergeben sich. Demnach müssten z.b. die Gewichtungen für die gewichteten Summen in jeder Stichprobe neu berechnet werden. 205

206 Grenzen der Anwendbarkeit Probleme und häufige Fehler bei der Anwendung Für den Fall dichotomer Items sollte als Basis für die faktorenanalytischen Berechnungen die tetrachorische Korrelation herangezogen werden. Die Höhe der Vierfelderkorrelation (=Pearson Korrelation für zwei dichotome Items) hängt stark von den Itemschwierigkeiten der Items ab und führt somit zu artifiziellen Ergebnissen. Die Faktoren bilden zumeist Gruppen von in etwa gleich schweren Items. Mitunter bilden die Faktoren nur das Antwortwortverhalten der Personen ab. So können z.b. Fragen, die von Personen meist bejaht werden, in einem gemeinsamen Faktor hoch laden auch wenn damit inhaltlich völlig unterschiedliche Dimensionen abgefragt wurden. 206

207 Itemanalyse und Itemselektion im Rahmen der klassischen Testtheorie

208 Itemanalyse und - selektion Itemanalyse Nach der Planung und Entwicklung der Items eines Tests müssen diese einer für den zukünftigen Anwendungsbereich des Tests möglichst repräsentativen Stichprobe vorgelegt werden, um die Eignung der Items deskriptivstatistisch (und eventuell faktorenanalytisch) zu untersuchen. Die üblicherweise berechneten Kennwerte sind Itemschwierigkeit Itemvarianz Itemtrennschärfe 208

209 Itemanalyse und - selektion Itemschwierigkeit Definition Der Schwierigkeitsindex P i eines Items i ist der Quotient aus der bei diesem Item tatsächlich erreichten Punktesumme aller N Personen und der bei diesem Item von allen Personen maximal erreichbaren Punktesumme multipliziert mit 100. P i N x N [max( X N min( X vi i v1 i ) ) min( X i )] 100 mit N... Anzahl der Personen min( X max( X i )... minimal möglicher Punktewert des Items i )... maximal möglicher Punktewert des Items (angelehnt an Moosbrugger & Kelava, 2008, S. 75) 209

210 Itemanalyse und - selektion Beispiel 1 Bei einem Item können Personen zwischen 0 und 5 Punkte erzielen. Das Item wurde 120 Personen vorgelegt, die insgesamt 442 Punkte erzielten. Wie schwierig ist das Item? P i N x N [max( X N min( X vi i v1 i ) ) min( X i )] 100 P i [5 0] 210

211 Itemanalyse und - selektion Beispiel 2 Bei einem Item können Personen zwischen 1 und 10 Punkte vergeben. Das Item wurde 150 Personen vorgelegt, die insgesamt 956 Punkte vergaben. Wie schwierig ist das Item? P i N x N [max( X N min( X vi i v1 i ) ) min( X i )] 100 P i [10 1] 211

212 Itemanalyse und - selektion Beispiel 3 Ein dichotomes Item wurde 152 Personen vorgelegt und von 28 gelöst. Wie schwierig ist das Item? P i N x N [max( X N min( X vi i v1 i ) ) min( X i )] 100 P i [1 0] Merke: bei dichotomen Items ist die Itemschwierigkeit gleich der relativen Lösungshäufigkeit! P i p ) ( i 212

213 Itemanalyse und - selektion Itemvarianz Die Varianz der Items wird mittels der aus der Statistik bekannten Formeln für die Varianz ermittelt. - bei metrischen Items ˆ 2 ( X i ) 1 ( N 1 N v1 x 2 i, v ( N v1 x N i, v )² ) - bei dichotomen Items ˆ 2( X ) p (1 pˆ ) i i i Vereinfacht gilt: je größer die Varianz eines Items, umso besser seine Fähigkeit zur Differenzierung (=Diskriminationsfähigkeit). 213

214 Itemanalyse und - selektion Itemtrennschärfe Definition Die Trennschärfe r i,t eines Item i ist der korrelative Zusammenhang zwischen den Punkten, die von einer Person v im Item i und den Punkten die von Person v im Gesamttest erzielt werden. (angelehnt an Moosbrugger & Kelava, 2008, S. 82) r r( X, X i, t i, v v ) 214

215 Itemanalyse und - selektion Itemtrennschärfe Neben der unkorrigierten Itemtrennschärfe gibt es auch noch die korrigierte Itemtrennschärfe bei der die Punkteanzahl, die eine Person im Gesamttest erzielt hat, um die Punktezahl die im jeweiligen Item erzielt wurde reduziert wird. * r i, t r( X i, X, v *, i v mit *, i X v X v X i, v ) 215

216 Itemanalyse und - selektion Itemtrennschärfe Beispiel ID X1 X2 X3 X X*,1 X*,2 X*, *,1 X *,2 X *,3 X

217 Itemanalyse und - selektion 217

220 Itemanalyse und - selektion Haben alle Items dasselbe Antwortformat, erfüllen die Item-Mittelwerte eine dem Schwierigkeitsindex vergleichbare Funktion 220

221 Itemanalyse und - selektion Korrigierte Itemtrennschärfe 221

222 Itemanalyse und - selektion Itemselektion Die Auswahl für den Test geeigneter Items basiert u.a. auf der gleichzeitigen Berücksichtigung der ermittelten Testkennwerte. Selbstverständlich können auch die Ergebnisse der Faktorenanalyse zur Itemselektion herangezogen werden. 222

223 Itemanalyse und - selektion Verdünnungsparadoxon Eine interessante Erkenntnis bringt die Berechnung des Zusammenhangs von Itemtrennschärfe, Itemvalidität und der Validität des Gesamttests. val( X ) k i1 ( X k i1 i ( X ) val( X ) Zwar steigt die Validität eines Tests, wenn die einzelnen Items valider sind, jedoch nimmt die Testvalidität mit höher werdender Itemtrennschärfe ab. Demnach sollte die Itemtrennschärfe eines Items nicht hoch sein. i i, t i ) 223

224 Itemanalyse und - selektion Verdünnungsparadoxon Liegt pro Item sowohl eine Schätzung der Itemvalidität als auch die Itemtrennschärfe vor, kann der Quotient (Q i ) aus den beiden als Kriterium dafür verwendet werden, welche Items bei einer geplanten Testverkürzung aus einem Test entfernt werden können, um die Testvalidität trotzdem größt möglich zu halten. Q i val( X r Es wird die gewünschte Anzahl von Items mit den geringsten Quotienten entfernt. i, t i ) 224

225 Itemanalyse und - selektion Beispiel Möchte aus den 5 Items 4 auswählen, sodass Validität des Test möglichst hoch bleibt. Item Val r i,t Q i X X X X X

226 Kritik an der klassischen Testtheorie

227 Kritik an der Klassischen Testtheorie Obwohl sich Tests, die nach der klassischen Testtheorie konstruiert wurden, in der Praxis durchaus bewährt haben, gibt es zahlreiche Kritikpunkte. Die Grundannahmen (Axiome) können nicht überprüft werden. Das Intervallskalenniveau der Testergebnisse wird vorausgesetzt, kann jedoch nicht generell bewiesen werden. Alle im Rahmen der klassischen Testtheorie gewonnenen Kennwerte sind stichprobenabhängig. Die Fairness der Summenbildung über verschiedene Items zur Ermittlung eines Gesamttestwerts ist nicht gesichert. 227

228 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Itemschwierigkeit Je besser die Stichprobe an der die Schwierigkeit eines Items erhoben wird, desto leichter erscheint das Item. Aber auch der Vergleich des Schwierigkeitsverhältnisses zweier Items hängt von der Stichprobe ab. B + - A B + - A :80 11: :14 10 :

229 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Itemvarianz Die größte Varianz kann bei mittelschweren Items erzielt werden. Je schwerer (oder leichter) ein Item wird, umso geringer ist die Varianz aufgrund von Boden- und Deckeneffekten. z.b. : Dichotome Items Extrem leichte (immer gelöste) oder extrem schwere (nie gelöste) Items, haben eine Varianz von

230 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Reliabilität rel ²( ) ²( X ) ²( ) ²( ) ²( ) Steigt die Varianz der wahren Werte, so wirkt sich dieselbe Messfehlervarianz weniger auf die Reliabilität aus. homogene Stichprobe heterogene Stichprobe 2 ²( ) ( ) 100 rel rel ²( ) ²( ) 110 ( ) ( )

231 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Validität Aus den Verdünnungsformeln kann hergeleitet werden, dass r( X, Y ) r( X, x ) r( Y, x ) Validität Daraus folgt, dass val rel rˆ el Korrelation Da wir gezeigt haben, dass die Reliabilität von der Stichprobe abhängt, hängt auch die Validität von der Stichprobe ab. 231

232 Moderne Testtheorie (Item Response Theory)

233 IRT - Grundlagen Vorbemerkung Obwohl in weiterer Folge aus Gründen der besseren Verständlichkeit angenommen wird, dass das zu messende Merkmal eine Fähigkeit ist und daher auch von der Personenfähigkeit und der Lösungswahrscheinlichkeit eines Items gesprochen wird, ist die Item Response Theory (IRT) prinzipiell auch für die Analyse von Items zur Erfassung von Persönlichkeitsmerkmalen und Einstellungen geeignet. 233

234 IRT - Grundlagen Grundidee Im Gegensatz zur klassischen Testtheorie, die erst beim Testwert ansetzt, sich jedoch nicht näher damit beschäftigt, wie es zu dem Testergebnis kommt, setzen Modelle der IRT bereits an der Formulierung des Zusammenhangs von latenter Dimension und manifester Variable an. Ähnlich wie bei der Faktorenanalyse geht es also darum, dass manifeste Antwortverhalten durch die individuellen Merkmalsausprägungen der Personen erklären zu können. 234

235 IRT - Grundlagen Grundidee Im Allgemeinen wird davon ausgegangen, dass drei Komponenten die beobachtete Antwort (bzw. die Wahrscheinlichkeit für eine beobachtete Antwort) beeinflussen. Bei den drei Komponenten handelt es sich um Eigenschaften der Person (z.b. Fähigkeit), Eigenschaften des Items (z.b. Schwierigkeit) und zufällige Einflüsse. 235

236 IRT - Grundlagen Grundidee Weiters wird bei den meisten Modellen im Rahmen der IRT von der Existenz einer einzigen latenten Dimension ausgegangen. Die beobachteten Antworten der Person (oder auch die vorliegenden Symptome) werden als Indikatoren dieser latenten Dimension aufgefasst. Mit ihrer Hilfe lässt sich die Ausprägung der Person auf der latenten Dimension abschätzen. 236

237 IRT - Grundlagen Grundidee Die verschiedenen im Rahmen der IRT definierten Modelle unterscheiden sich im Wesentlichen hinsichtlich des angenommenen Zusammenhangs zwischen der Ausprägung auf der latenten Dimension und der Wahrscheinlichkeit für eine bestimmte Antwort. Dieser Zusammenhang wird durch die Itemcharakteristik hergestellt. Es handelt sich dabei um eine eindeutige aber nicht zwingend eindeutig umkehrbare Funktion. Das bedeutet, dass z.b. jeder Personenfähigkeit eine eindeutige Lösungswahrscheinlichkeit für ein bestimmtes Item zugeordnet ist, es aber Personen mit unterschiedlicher Fähigkeit geben kann, die dieselbe Lösungswahrscheinlichkeit bei einem Item besitzen. 237

238 IRT - Grundlagen Grundidee Die grafische Darstellung dieses Zusammenhangs nennt sich Itemcharakteristik Kurve (ICC). Es werden drei Typen von Itemcharakteristiken unterschieden streng monotone Funktionen, monotone Funktionen und nicht monotone Funktionen. 238

239 IRT - Grundlagen Grundidee Bei streng monotonen Funktionen nimmt die Lösungswahrscheinlichkeit eines Items mit zunehmender Ausprägung der Person in der latenten Dimension stetig zu oder ab. Bei monotonen Funktionen können Plateaus auftreten, sodass Personen mit ähnlichen Fähigkeiten gleiche Lösungswahrscheinlichkeiten haben. Nicht monotone Funktionen können sowohl steigen als auch fallen. 239

240 IRT - Grundlagen streng monotone steigende Itemcharakteristikkurven 240

241 IRT - Grundlagen monoton steigende Itemcharakteristikkurven 241

242 IRT - Grundlagen nicht monotone Itemcharakteristikkurven 242

243 IRT - Grundlagen Grundidee Eine technische Annahme ist die lokal stochastische Unabhängigkeit der Items. Das bedeutet, dass davon ausgegangen wird, dass in einer Gruppe von Personen mit gleicher Personenfähigkeit, die Lösungswahrscheinlichkeit eines Items unabhängig davon ist, ob die Person das zuvor vorgegebene Item gelöst hat oder nicht. Für die praktische Anwendung bedeutet das, dass die Lösungen von Aufgaben nicht aufeinander aufbauen dürfen bzw. die Reihenfolge in der die Items bearbeitet werden, keine Rolle spielen darf. 243

244 IRT - Grundlagen Guttman Skala Guttman (1950) war der erste, der einen derartigen Zusammenhang modellierte. Es handelt sich dabei um die sogenannte Guttman Skala auch Skalogramm Analyse genannt. Bei der Itemcharakteristik der Guttman Skala handelt es sich um eine Sprungfunktion, wobei die Itemlösungswahrscheinlichkeit nur die Ausprägungen 0 und 1 annehmen kann. So mit ist das Modell nicht probabilistisch sondern deterministisch. Trotzdem lassen sich damit wesentliche Erkenntnisse über die IRT ableiten. 244

245 IRT - Grundlagen Guttman Skala erlaubte Antwortmuster

246 IRT - Grundlagen Guttman Skala Die Guttman Skala illustriert, dass die Schwierigkeit des Items und die Personenfähigkeit anhand der selben Skala abgelesen werden kann. Bei der Guttman Skala markiert die Personenfähigkeit, die an der Sprungstelle liegt, die Schwierigkeit des Items, zur Modellierung der Lösungswahrscheinlichkeit aller Items nur eine Dimension angenommen wird und anhand des Modells Vorhersagen gemacht werden können, die anhand der manifesten Items überprüfbar sind. Bei der Guttman Skala handelt es sich dabei um die erlaubten Antwortmuster. 246

247 IRT - Grundlagen Latent Distance Model (Lazarsfeld 1950) Da die Guttman Skala unrealistische Forderungen an die Items stellt, wurde der deterministische Ansatz von Lazarsfeld durch einen probabilistischen ersetzt. Bei der Itemcharakteristik des Latent Distance Models handelt es sich ebenfalls um eine Sprungfunktion, wobei pro Items zwei Itemlösungswahrscheinlichkeiten modelliert werden. Diese beiden Lösungswahrscheinlichkeiten können bei jedem Item anders sein und müssen aus den Daten geschätzt werden. Dadurch sind alle Antwortmuster möglich, treten jedoch mit unterschiedlichen Wahrscheinlichkeiten auf. 247

248 IRT - Grundlagen Latent Distance Model (Lazarsfeld 1950) 248

249 IRT - Grundlagen Das Latent Distance - Modell (Lazarsfeld 1950) Obwohl das Latent Distance - Modell realistischere Anforderungen an die Items stellt als die Guttman Skala, ist die Annahme von konstant bleibenden Itemlösungswahrscheinlichkeiten bei steigender Personenfähigkeit wenig realistisch. Realistischer erscheint, dass die Lösungswahrscheinlichkeit mit steigender Personenfähigkeit zunimmt. Aus diesem Grund wurde nach anderen, realistischeren Funktionen gesucht. 249

250 IRT Modell von Rasch Das dichotom logistische Modell von Rasch 250

251 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Georg Rasch (1960) wählte als Itemcharakteristik die logistische Funktion f U e ( U ) e Euler sche Zahl 1 e U e =

252 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Der Vorteil der logistischen Funktion besteht darin, dass der Wertebereich der Funktion immer zwischen 0 und 1 liegt und ausschließlich von einem Parameter (U) abhängt. Dieser Parameter soll nun mit den für das Modell wesentlichen Kennwerten (der Personenfähigkeit und der Itemschwierigkeit) in Verbindung gebracht werden. Rasch definierte: U v i Fähigkeit der Person v [ksi:] Schwierigkeit von Item i 252

253 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Somit ist die Itemcharakteristik gegeben durch p( e v, i) 1 v e v i i Wahrscheinlichkeit, dass Person v Item i löst Kann auch als exp( ) angeschrieben werden v i Demnach haben Personen bei Items, deren Schwierigkeit der Personenfähigkeit entsprechen, eine Lösungswahrscheinlichkeit von p(+ v,i) = 0.5. Ist die Personenfähigkeit geringer als das Item schwierig ist p(+ v,i) < 0.5. Ist die Person fähiger als das Item schwierig, ist p(+ v,i) >

256 256 Das dichotom logistische Modell von Rasch Die Wahrscheinlichkeit, dass eine Person v das Item i nicht löst ist gegeben durch i v i v i v e e e i v p i v p ), ( 1 ), ( Bemerkung: Anstatt der Schreibweise kann auch die allgemeiner gültige Variante verwendet werden. ), ( i v p ), 1 (, i v x p i v IRT Modell von Rasch

257 IRT Modell von Rasch Das dichotom logistische Modell von Rasch p( x, 1 v, i) v i 257

258 IRT Modell von Rasch Das dichotom logistische Modell von Rasch p( x, 0 v, i) v i p( x, 1 v, i) v i 258

259 259 Das dichotom logistische Modell von Rasch Neben der bisher erwähnten Schreibweise der Itemcharakteristik findet sich häufig eine weitere Art der Modelldarstellung. i v i v i v p 1 ), ( Diese ergibt sich aus i v i v i v i v e e e e e e i v p 1 1 ), ( Da für die Itemschwierigkeit steht, steht für die Leichtigkeit des Items. i i i v e e i v mit IRT Modell von Rasch

260 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Rasch hatte sehr konkrete Forderungen an sein Modell 1. Das Verhältnis der Schwierigkeiten zweier Items soll unabhängig von der gewählten Stichprobe sein. 2. Das Verhältnis der Fähigkeiten zweier Personen soll unabhängig davon sein, welche Aufgaben den Personen zur Ermittlung der Personenfähigkeiten vorgegeben wurden. 3. Die Anzahl der gelösten Aufgaben soll die gesamte Information der Daten über die Fähigkeit der Person beinhalten. 4. Die Anzahl an Personen, die ein Item lösen können, soll die gesamte Information der Daten über die Schwierigkeit des Items beinhalten. 260

261 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Diese vier Forderungen umfassen also die Forderung nach spezifischer Objektivität von Vergleichen (Punkt 1, 2) und erschöpfenden (suffizienten) Statistiken (Punkt 3, 4). 261

262 IRT Modell von Rasch Das dichotom logistische Modell von Rasch p(+ B, Item2) p(+ B, Item1) p(+ A, Item2) p(+ A, Item1) Fähigkeit der Person A Fähigkeit der Person B 262

263 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Aus der Forderung nach spezifischer Objektivität folgt, dass sich die IC Kurven nicht schneiden dürfen. Die IC Kurven müssen im Modell von Rasch also dieselbe Steigung (=Diskrimination) haben. 263

264 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Existenz der erschöpfenden Statistiken kann anhand der Likelihood der Daten gezeigt werden. Die Likelihood der Daten ist die Wahrscheinlichkeit, die erhobenen Daten zu erhalten. Wie sehen diese Daten im Modell von Rasch aus? ID I_1 I_2 I_i I_k v N a v,i 264

265 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Gehen wir nun davon aus, wir können die Antwort, die eine Person v auf ein Item i gegeben hat, in eine Wahrscheinlichkeit umwandeln, mit der Person v die gegebene Antwort auf Item i gibt. Dadurch erhalten wir: ID I_1 I_2 I_i I_k 1 p(x 1,1 = 0) p(x 1,2 = 1) p(x 1,i = 0) p(x 1,k = 1) 2 p(x 2,1 = 1) p(x 2,2 = 1) p(x 2,i = 0) p(x 2,i = 1) 3 p(x 3,1 = 0) p(x 3,2 = 1) p(x 3,i = 1) p(x 3,i = 1) v p(x v,1 = a v,1 ) p(x v,2 = a v,2 ) p(x v,i = a v,i ) p(x v,k = a v,k ) N 265

266 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Geht man weiters davon aus, dass die Wahrscheinlichkeit der Lösung von Item i durch Person v unabhängig davon ist, welche und wie viele Items Person v zuvor gelöst hat (=lokal stochastische Unabhängigkeit), so kann die Wahrscheinlichkeit, dass Person v ihr Antwortmuster zeigt, berechnet werde durch: p( av, 1, av,2,..., av, i,... av. k ) p( av 1) p( av,2) p( av,3)... p( av, i )... p( av,, k k p( a v, i ) pv i1 ) 266

267 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Geht man nun noch davon aus, dass die von den Personen erzielten Antwortmuster unabhängig sind, so ist die Wahrscheinlichkeit die gegebenen Daten zu erhalten (=Likelihood der Daten) gegeben durch: Likelihood p p p... p v... p N N N k p v p( a v, i ) v1 v1 i1 267

268 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Im dichotom logistischen Modell von Rasch können Personen zwei unterschiedliche Antworten geben. Entweder sie antworten korrekt (1) oder nicht (0). Die Wahrscheinlichkeiten hierfür sind: p(1 p(0 v, i) v, i) e 1 v e 1 1 e v i v i i 268

269 269 Das dichotom logistische Modell von Rasch Je nach gegebener Antwort, muss die entsprechende Variante gewählt werden. Dies wird erreicht durch i v i v i v i v i v a a i v e e e a p,, 1, ) 1 1 ( ) 1 ( ) ( , ) 1 1 ( ) 1 ( 0) ( i v i v i v e e e a p i v , ) 1 1 ( ) 1 ( 1) ( i v i v i v e e e a p i v IRT Modell von Rasch

270 270 Das dichotom logistische Modell von Rasch Schlussendlich ergibt sich i v i v i av i v i v a N v k i e e e Likelihood,, ) 1 1 ( ) 1 ( IRT Modell von Rasch

271 271 Das dichotom logistische Modell von Rasch Durch Anwendung diverser Rechenregeln erhält man N v k i a a i v i v N v i v k i i k i i v N v v e e e Likelihood 1 1 ) 1 ( 1, 1 1, 1 Rohscore von Person v absolute Lösungshäufigkeit von Item i IRT Modell von Rasch

272 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Demnach wird allen Personen, die in einem Test mit den selben Items dieselbe Anzahl gelöster Aufgaben erzielen, derselbe Fähigkeitsparameter zugeordnet. Die Erkenntnis, dass die erschöpfenden Statistiken nur gelten, wenn die Items den Anforderungen des Modells von Rasch (RM) entsprechen, hat weitreichende Konsequenzen. U.a. bedeutet es, dass die im Rahmen der klassischen Testtheorie vorgenommene Summenbildung zur Gewinnung eines Rohscores nur fair ist, wenn die Items dem RM entsprechen. 272

273 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Spezifische Objektivität bedeutet, dass z.b. Verhältnis zweier Itemschwierigkeiten unabhängig von der Stichprobe ist. Beispiel 2 Items (gute Stichprobe) Item Item

274 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Bedeutet, dass z.b. Verhältnis zweier Itemschwierigkeiten unabhängig von der Stichprobe ist. Beispiel 2 Items (schlechte Stichprobe) Item Item

275 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Bedeutet, dass z.b. Verhältnis zweier Itemschwierigkeiten unabhängig von der Stichprobe ist. Beispiel 2 Items (schlechte Stichprobe) Item Item Da die Anzahl jener Personen, die beide Items lösen bzw. beide Items nicht lösen davon abhängt, wie gut die Stichprobe ist, werden diese Zellen nicht berücksichtigt.

276 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die spezifische Objektivität (also die Tatsache, dass z.b. das Verhältnis der Schwierigkeit zweier Items unabhängig von den getesteten Personen ist), kann anhand der nachfolgenden (bedingten) Wahrscheinlichkeit gezeigt werden p( 1,0 r 1; v,, v A B ) Es ist die Wahrscheinlichkeit, dass Person v Item A löst und Item B nicht, vorausgesetzt Person v kann genau eines der beiden Items lösen. In dieser Wahrscheinlichkeit steckt das Verhältnis der Itemschwierigkeiten (bzw. Itemleichtigkeiten). 276

277 277 Das dichotom logistische Modell von Rasch ) 1 ( ) 1 1 ( ) 1 1 ( ) 1 ( ) 1 1 ( ) 1 ( ),, 1; (1,0 B v B v A v B v A v A v B v A v A v B A r v v p Wahrscheinlichkeit laut RM Item B nicht zu lösen Wahrscheinlichkeit laut RM Item A zu lösen Wahrscheinlichkeit laut RM entweder nur Item A oder nur Item B zu lösen IRT Modell von Rasch

278 278 Das dichotom logistische Modell von Rasch ) 1 ( ) 1 1 ( ) 1 1 ( ) 1 ( ) 1 1 ( ) 1 ( ),, 1; (1,0 B v B v A v B v A v A v B v A v A v B A r v v p B A A B v A v A v ( B ) A v A v ) ( 1 1 ) ( 1 ) ( B v A v A v Da sich der Personenparameter herauskürzt, ist diese Wahrscheinlichkeit (in der das Leichtigkeitsverhältnis der Items steckt) unabhängig von den Personen! IRT Modell von Rasch

279 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Entspricht eine Menge von Items einem IRT Modell, so ermöglicht, das Personen miteinander zu vergleichen, auch wenn sie nicht dieselben Aufgaben bearbeitet haben. Damit können die Tests an die Personen angepasst werden (=adaptives Testen). Die beiden Arten des adaptiven Testens sind Tailored Testing (maßgeschneidertes Testen) und Branched Testing (verzweigtes Tests). 279

280 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Üblicherweise erhalten die Personen zu Beginn ein oder mehrere mittelschwere Items. Beim tailored testing wird nach jeder Vorgabe eines Items der Personenparameter neu geschätzt und aus der Menge der vorhandenen Items (=Itempool) jenes Items ausgewählt, dessen Schwierigkeit der Personenfähigkeit am besten entspricht. Diese Methode ist sehr rechenintensiv und erfordert eine computergestützte Testung. 280

281 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Aus diesem Grund werden beim branched testing bereits in der Testentwicklung Gruppen von Items zusammengestellt. Je nachdem wie gut eine Person bei der ersten Itemgruppe abschneidet, wird eine weitere zuvor festgelegte Itemgruppe ausgewählt usw. A1 B1 B2 B3 C1 C2 C3 C4 281

282 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Vergleichbarkeit der Personen ist für den Fall, dass sie unterschiedliche Items bearbeiten jedoch nicht mehr über die Anzahl der gelösten Aufgaben, sondern nur noch über die geschätzte Personenparameter möglich. Eine auf die Fähigkeiten der getesteten Personen abgestimmte Itemauswahl, reduziert in vielen Fällen nicht nur die benötigte Testzeit und ermöglicht die Personen weitestgehend weder durch die Vorgabe von zu leichten Aufgaben zu langweilen oder von zu schweren Aufgaben zu demotivieren, sondern erhöht auch die Genauigkeit der Schätzung des Personenparameters. 282

283 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die einfachste Variante der Parameterschätzung stellt die explizite Methode dar. Sie basiert auf der spezifischen Objektivität Wie gezeigt ist: p(1,0 r 1; v,, ) v A B A A B p(0,1 r 1; v,, ) v A B A B B

284 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode p(1,0 r v 1; v, A, B ) A p(0,1 r v 1; v, A, B ) B

285 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode n(1,0) n(0,1) i j

286 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode nicht gelöst j k 1 -- n 1,2 n 1,3 n 1,j n 1,k 2 n 2,1 -- n 2,3 n 2,j n 2,k 3 n 3,1 n 3,2 -- n 3,j n 3,k gelöst.. i n i,1 n i,2 n i,3 n i,j n i,k.. k n k,1 n k,2 n k,3 n k,j --

287 IRT Modell von Rasch k i j j k i j j j k i j i k i j j i j j i n n ,, Das dichotom logistische Modell von Rasch Die explizite Methode

288 IRT Modell von Rasch k j j k i i i j i j j j k i Aus Gründen der Normierung = 1 Das dichotom logistische Modell von Rasch Die explizite Methode

289 IRT Modell von Rasch k i k i j j i j j i n n 1,, i k k i j j i j j i n n ˆ 1,, Das dichotom logistische Modell von Rasch Die explizite Methode

290 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode Antwortmuster Häufigkeit nicht gelöst gelöst (45 23) (45 75) (2111) (33 11) ˆ (2111) (21 75) (45 23) (33 23) ˆ2 3 (33 11) (33 23) (45 75) (21 75) ˆ ˆ ˆ ˆ

291 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Die Schätzung der unbekannten Parameter erfolgt im Rasch Modell üblicherweise mit Hilfe der Maximum-Likelihood- Methode. Hierbei werden die unbekannten Parameter so geschätzt, dass die Likelihood der Daten maximal wird. 291

292 Likelihood IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Parameter mögliche Form der Likelihoodfunktion bei einem unbekannten Parameter 292

293 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung mögliche Form der Likelihoodfunktion bei zwei unbekannten Parametern 293

294 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Es gibt drei Arten der Maximum Likelihood Schätzungen die unbedingte Maximum Likelihood Methode (UML) die bedingte Maximum Likelihood Methode (CML) und die marginale Maximum Likelihood Methode (MML). 294

295 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Die UML basiert auf der Totalen Likelihood der Daten. Hierbei werden Personenfähigkeits- und Itemschwierigkeitsparameter gleichzeitig geschätzt. Bei dieser Methode muss für jedes Item aber auch für jede Person ein eigener Parameter geschätzt werden. Das bedeutet jedoch, dass für jede neu hinzukommende Person ein weiterer Personenfähigkeitsparameter benötigt wird. Dies führt häufig zu gröberen Problemen bei der Schätzung. 295

296 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Bei der CML wird davon ausgegangen, dass pro Person die Zahl der gelösten Aufgaben bekannt ist. Somit werden die Personenparameter durch die Anzahl gelöster Aufgaben ersetzt und es müssen zunächst nur die Itemschwierigkeitsparameter geschätzt werden. Die Schätzung der Personenparameter erfolgt dann wiederum mittels der UML. Personen mit der gleichen Anzahl an gelösten Aufgaben wird der selbe Personenparameter zugeordnet. Allerdings kann für Personen, die alle oder kein Item gelöst haben, kein Fähigkeitsparameter geschätzt werden. 296

297 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Auch bei der MML werden zunächst nur die Itemparameter geschätzt. Anstatt von pro Person bekannten Rohscores auszugehen, wird nur von einer bestimmten Verteilung der Personenparameter ausgegangen (z.b. NV). Somit müssen anstatt der einzelnen Personenparameter vorerst nur die Parameter der Verteilung (z.b. Mittelwert und Varianz) geschätzt werden. Nach der Schätzung der Itemparameter werden die Personenparameter abermals mittels UML geschätzt. Verzerrungen ergeben sich, wenn die vorab angenommene Verteilung der Personenparameter falsch ist. 297

298 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Probleme bei der Parameterschätzung ergeben sich, wenn es kein eindeutig definiertes Maximum der Likelihoodfunktion gibt. Dies ist der Fall, wenn die Funktion multiple Maxima hat (d.h. es neben den globalen noch lokale Maxima gibt) oder das Maximum kein Punkt, sondern ein Plateau oder eine Fläche ist. Die Genauigkeit der Schätzung hängt davon ab, wie viel Information man über einen Parameter besitzt. 298

299 IRT Modell von Rasch Das dichotom logistische Modell von Rasch Beispiel für eine Funktion mit multiplen Maxima 299