Grundlagen der psychologischen Testtheorie

Transkript

1 Grundlagen der psychologischen Testtheorie SS 2011 Dr. Michael Weber Einführung 1

2 Definition eines (psychologischen) Tests Ein Test ist ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung. (Moosbrugger & Kelava, 2008, S. 2) 3 Wissenschaftlichkeit Um von wissenschaftlich sprechen zu können, muss es eine Theorie darüber geben, unter welchen Bedingungen welche Aussagen anhand der Testergebnisse ableitbar sind. Demnach sollte eine möglichst genaue Vorstellung über das zu messende Merkmal vorliegen und der Test testtheoretischen Qualitätsansprüchen entsprechen. Die (primären) Aufgabengebiete der Testtheorie sind die Formulierung des theoretischen Hintergrunds über die Verbindung von zu messendem Merkmal und im Test gezeigtem Verhalten sowie die Festlegung und Quantifizierung notweniger Qualitätsansprüche. 4 2

3 Routineverfahren Von einem Routineverfahren spricht man, wenn Durchführung und Auswertung bereits an einer größeren Stichprobe erprobt sind und so detailliert beschrieben sind, dass das Verfahren auch von anderen TestleiterInnen bei anderen Personen einsetzbar ist. 5 Psychologisches Merkmal Bei einem psychologischen Merkmal handelt es sich um einen Oberbegriff für relativ stabile und konsistente Merkmale (auch Eigenschaften oder Traits genannt), zeitlich begrenzte biologische, emotionale und kognitive Zustände sowie (auch States genannt) und Erlebens- und Verhaltensweisen. Diese meist nicht direkt beobachtbaren (=latenten) Merkmale sollen mit Hilfe von messbaren Sachverhalten erschlossen werden. 6 3

4 Item 1 Item 2 Merkmal Item Item k-1 Item k 7 Quantitative Aussage Ziel psychologischer Tests ist es die Ausprägung des Merkmals der gestestete Person zu messen. Messen bedeutet einem Objekt (empirisches Relativ) einen Zahlenwert (numerisches Relativ) so zuzuordnen, dass zumindest eine Eigenschaft des numerischen Relativs auch für das empirische Relativ gilt. (vgl. Bortz J. (1999) Statistik für Sozialwissenschaftler, 5. Auflage S ). Dieser Zahlenwert kann in weiterer Folge dazu verwendet werden, die Person mit anderen Personen vergleichen oder einer Personengruppe zuordnen zu können. Je nach theoretischer Fundierung des Messvorgangs haben die erzielten Zahlenwerte unterschiedliches Skalenniveau. 8 4

5 Messinstrument Rangskala Messinstrument Intervallskala

6 Fragebogen Der Begriff wird im Deutschen für Unterschiedliches verwendet. schriftliche Befragungen zur Erhebung von demoskopischen Daten schulischen Daten medizinischen Daten usw. Instrument zur Selbst- oder Fremdeinschätzung wird meist zur Erfassung von Persönlichkeitseigenschaften und Interessen verwendet Häufig auch als Persönlichkeits test bezeichnet Gemeinsam ist beiden, dass das Erfragen im Vordergrund steht. 11 Testarten Je nach Merkmal, das erfasst werden soll, werden drei/vier unterschiedliche Testarten unterschieden Leistungstests Persönlichkeits- und Interessensfragebögen* [objektive Persönlichkeitstests] projektive Verfahren apperative Tests Die Bezeichnung Persönlichkeitsfragebogen unterscheidet sich bewusst von der im Buch von Moosbrugger & Kelava (2008), S.29 gewählten, da die Personen hier befragt werden. 12 6

7 Leistungstests Sind dadurch gekennzeichnet, dass sie Konstrukte erfassen, die sich auf kognitive Leistungen beziehen die unter der jeweiligen Testbedingung maximale Leistung erfassen möchten Aufgaben verwenden, bei denen es richtige und falsche Antworten gibt 13 Zahlen-Verbindungs-Test ; Oswald & Roth (1987) 14 7

8 Wiener Matrizen-Test Formann & Piswanger (1979) 15 Dreidimensionaler Würfeltest (3 DW); Gittler (1990) 16 8

9 Persönlichkeitsfragebogen Sind dadurch gekennzeichnet, dass sie das Ziel verfolgen, das für eine Person typische Verhalten zu erfassen, mehrere Fragen verwenden, um das Persönlichkeitsmerkmal zu erfassen, die Antworten nicht in richtig und falsch klassifizierbar sind, sondern erfragen, wie stark das interessierende Merkmal ausgeprägt ist und im Allgemeinen leicht verfälschbar sind (z.b. durch sozial erwünschte Antworten). 17 Kurzform des Big Five Inventory (BFI-K); Rammstedt & John (2005) 18 9

10 Objektive Persönlichkeitstests Sind dadurch gekennzeichnet, dass sie versuchen, das Ausmaß an Verfälschbarkeit z.b. durch sozial erwünschte Antworten zu reduzieren indem sie das Persönlichkeitsmerkmal nicht durch subjektive Urteile, sondern über Verhalten in standardisierten Situationen erfassen. 19 Projektive Tests Sind dadurch gekennzeichnet, dass sie versuchen, die Persönlichkeit als Ganzes zu erfassen, wobei sie auf individuelle Erlebnis- und Bedürfnisstrukturen Rücksicht nehmen, mehrdeutiges Bildmaterial verwenden, um unbewusste oder verdrängte Bewusstseinsinhalte zu erfassen und oft explorativen Charakter haben

11 Picture Frustration Test (PFT); Hörmann & Moog (1957) 21 Thematischer Apperzeptionstest (TAT); Revers & Taeber (1968) 22 11

12 Rorschach Form Deute Verfahren; Rorschach (1954) 23 Apperative Tests Moosbrugger & Kelava (2008), S. 32 unterscheiden im Wesentlichen zwei Arten Tests, sie insbesondere sensorische und motorische Merkmale erfassen. z.b.tests zur Erfassung von Muskelkraft Geschicklichkeit sensumotorischer Koordination computerbasierte Tests, die häufig spezielle Varianten von Leistungstests und Persönlichkeitsfragebogen sind

13 Testgütekriterien Hauptgütekriterien Objektivität Reliabilität Validität Nebengütekriterien Skalierung Normierung Ökonomie Nützlichkeit Zumutbarkeit Unverfälschbarkeit Fairness 26 13

14 Objektivität Definition Ein Test ist objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von TestleiterIn, TestauswerterIn und von der Ergebnisinterpretation misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 8) 27 Objektivität Bei der Objektivität lassen sich drei Bereiche unterscheiden Durchführungsobjektivität (~Testleiterunabhängigkeit*) Auswertungsobjektivität (~Verrechnungssicherheit*) Interpretationsobjektivität (~Interpretationseindeutigkeit*) * vergl. Kubinger (2009) Psychologische Diagnostik, S. 39) 28 14

15 Durchführungsobjektivität Durchführungsobjektivität ist gegeben, wenn das Ergebnis der Testung nicht davon abhängt, welche TestleiterIn, die Testung durchgeführt. Demnach sollte die Testvorgabe unter möglichst standardisierten Bedingungen stattfinden. Diese werden optimiert indem Instruktionen, die die TestleiterInnen geben, schriftlich festgehalten sind, die soziale Interaktion zwischen TestleiterIn und getesteter Person möglichst gering gehalten wird und die Untersuchungssituationen möglichst ähnlich sind. 29 Auswertungsobjektivität Ist gegeben, wenn beim Vorliegen der Antworten der Personen auf die Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben numerischen Testergebnis kommt. Die Auswertungsobjektivität kann erhöht/gesichert werden durch das Vermeiden freier Antwortformate, klare Auswertungsregeln und die Verwendung von Multiple-Choice (Mehrfachauswahl) Antworten. Die Auswertungsobjektivität kann durch statistische Kennzahlen zur Beurteilerübereinstimmung (z.b. Cohens Kappa, Fleiss Kappa, Konkordanzkoeffizienten nach Kendall) erfasst werden

16 Interpretationsobjektivität Ist gegeben, wenn beim Vorliegen der Testergebnisse unterschiedliche TestanwenderInnen zum selben Schluss kommen. Die Interpretationsobjektivität kann erhöht/gesichert werden durch klare Regeln für die Interpretation, Vorhandensein von Normen und Normwerten der Verwendung von Prozenträngen*. * Ein Prozentrang (PR) gibt an wie viel Prozent der Referenzpopulation diesen oder einen schlechteren Testwert erzielen. 31 Reliabilität Definition Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 11) 32 16

17 Reliabilität Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Allerdings geht es nicht darum, ob der Test auch jenes Merkmal misst, das er zu messen vorgibt. Es lassen sich drei/vier Arten der Reliabilität unterscheiden Retest - Reliabilität Paralleltest - Reliabilität Innere Konsistenz [Testhalbierungs- (Split Half-) Reliabilität] Näheres zur Reliabilität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie 33 Validität ( Gültigkeit ) Definition Ein Test gilt dann als valide ( gültig ), wenn er das Merkmal, das er messen soll, auch wirklich misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 13) 34 17

18 Validität ( Gültigkeit ) Die Validität ist im Hinblick auf die Praxis, das wichtigste Gütekriterium. Mit Hilfe der Validität lässt sich klären wie sehr eine Test wirklich das zu messende Merkmal misst (~ Konstruktvalidität ) und wie gut der Testkennwert Verhaltensweisen außerhalb der Testsituation vorhersagen kann (~ Kriteriumsvalidität ). Es lassen sich vier Arten der Validität unterscheiden Inhaltsvalidität Augenscheinvalidität Konstruktvalidität Kriteriumsvalidität Näheres zur Validität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie und Faktorenanalyse. 35 Skalierung Definition Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelation adäquat abbilden. (Moosbrugger & Kelava, 2008, S. 18) Näheres zur Skalierung im Rahmen der Lehrveranstaltungseinheiten zur modernen Testtheorie

19 Normierung (Eichung) Definition Unter Normierung (Eichung) eines Tests versteht man, das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können. (Moosbrugger & Kelava, 2008, S. 19) 37 Normierung (Eichung) Ziel der Normierung ist es einen Rahmen für die Interpretation der (durch eine Person) erzielten Testergebnisse zu schaffen. Dies erfolgt dadurch, dass die Testergebnisse in Normwerte umgewandelt werden. Weit verbreitete Normwerte sind z.b. Prozentränge, z-werte, Z-Werte, IQ-Werte und T-Werte (nicht zu verwechseln mit den t-werten des t-tests)

20 Normierung (Eichung) Das Gütekriterium der Normierung (Eichung) kann als erfüllt angesehen werden, wenn die Eichtabellen gültig (d.h. nicht veraltet) sind, die Population für die Eichtabellen definiert ist und die für die Erstellung der Eichtabellen herangezogene Stichprobe repräsentativ ist*. * angelehnt an Kubinger (2009) Psychologische Diagnostik, S Prozentrang Definition Der Prozentrang gibt an, wie viel Prozent der Normierungsstichprobe einen Testwert erzielen, der niedriger oder maximal ebenso hoch ist, wie der Testwert x v der Testperson v. Der Prozentrang entspricht somit dem prozentualen Flächenanteil der Häufigkeitsverteilung der Bezugsgruppe, der am unteren Skalenende beginnt und nach oben hin durch den Testwert x v begrenzt wird. (nach Moosbrugger & Kelava, 2008, S. 168) 40 20

21 Prozentrang Testwert Häufigkeit Prozent Kumulierte Prozente Prozentrang ,4 1,4 1, ,4 3,8 3, ,8 14,6 14, ,0 25,7 25, ,5 42,2 42, ,6 57,8 57, ,9 77,7 77, ,0 88,7 88, ,3 94,0 94, ,1 97,1 97, ,9 99,0 99,0 13 1,2 99,3 99,3 14 2,5 99,8 99,8 15 1,2 100,0 100,0 41 Prozentrang Prozentränge sind als Normwerte insofern besonders hervorzuheben, als sie keine Intervallskalierung der Testkennwerte voraussetzen, keine Normalverteilung der Testwerte voraussetzen und eine inhaltlich einfache Interpretation des Testergebnisses darstellen

22 z-werte (Standardmesswerte) z-werte sind im Falle intervallskalierter und normalverteilter Testkennwerte definiert durch: x x z ˆ( X ) NV (0,1) mit x µ und (x) ˆ ( X ) ( X ) legen die relative Position des Testkennwerts der getesteten Person bezogen auf die Referenzpopulation dar, sind positiv bei überdurchschnittlichen Leistungen, sind negativ bei unterdurchschnittlichen Testleistungen und Null bei durchschnittlichen Leistungen. 43 z-werte (Standardmesswerte) Jedem z-wert ist genau ein Prozentrang zugeordnet und umgekehrt. Diese Zuordnungen können anhand der aus der Statistik bekannten z-tabellen abgelesen werden. Mit Hilfe von z-werten können intervallskalierte, aber nicht normalverteilte Testkennwerte in normalverteilte Testkennwerte transformiert werden (= Flächentransformation)

23 45 z-werte (Standardmesswerte) Aus den z-werten sind alle üblicherweise verwendeten Normwerte ableitbar, mittels Kennwert z ( Kennwert ) µ ( Kennwert) 46 23

24 Tabelle entnommen aus Kubinger (2009) Psychologische Diagnostik, S Beispiel x ( x) z ( x) IQ Z T

25 Planung und Entwicklung von psychologischen Tests und Fragebogen Ablauf Der Ablauf der Konstruktion lässt sich grob in sechs Bereiche einteilen Planung Itemkonstruktion Erstellung der vorläufigen Testversion Erprobung an Stichprobe Itemanalyse und Überarbeitung Normierung (Eichung) Die Konstruktionsschritte können wiederum in mehrere Bereiche eingeteilt werden

26 Planung Bei der Planung sind die folgenden Bereiche zu beachten Welches Merkmal soll erfasst werden? Welchen Geltungsbereich soll Test haben? Für welche Zielgruppe wird Test gemacht? Welche Struktur soll Test haben? Wie lange darf Test dauern? 51 Itemkonstruktion Es gibt unterschiedliche Strategien zur Itemkonstruktion intuitive Konstruktion rationale Konstruktion externale (kriteriumsorientierte) Konstruktion internale (faktorenanalytische) Konstruktion 52 26

27 Intuitive Konstruktion Auf eine intuitive Konstruktion der Items sollte nur zurückgegriffen werden, wenn der theoretische Kenntnisstand bezüglich des interessierenden Merkmals gering ist (nach Moosbrugger & Kelava, 2008, S. 36). Demnach ist die Konstruktion der Items abhängig von der Intuition der des/der TestkonstrukteurIn. 53 Rationale Konstruktion Bei einer rationalen Konstruktion besteht bereits eine elaborierte Theorie über die Differenziertheit von Personen hinsichtlich des interessierenden Merkmals. Es ist wesentlich das Merkmal zu differenzieren und spezifizieren sowie Verhaltensindikatoren festzulegen

28 Externale (kriteriumsorientierte) Konstruktion Hierbei wird zunächst ein großer Itempool zusammengestellt und Personen vorgegeben, die sich in dem interessierenden, externalen Merkmal (Kriterium) stark unterscheiden. Im Anschluss werden jene Items ausgewählt, die gut zwischen Gruppen mit unterschiedlichen Ausprägungen im Kriterium diskriminieren. Zur Absicherung der Diskriminationsfähigkeit der Items sollte das Ergebnis der Itemauswahl an einer anderen Stichprobe überprüft werden. 55 Internale (faktorenanalytische) Konstruktion Hierbei werden zunächst Items konstruiert, die hypothetischen Verhaltensdimensionen erfassen sollen. Diese werden einer Stichprobe von Personen der interessierenden Zielgruppe vorgegeben. Im Anschluss werden die Items einer Faktorenanalyse unterzogen und aufgrund der faktorenanalytischen Ergebnisse zu Skalen zusammengefasst. Näheres zur internalen Konstruktion im Rahmen der Lehrveranstaltungseinheiten zur Faktorenanalyse

29 Weitere Aspekte der Itemkonstruktion und Testentwicklung, wie Aufgabentypen und Antwortformate Fehlerquellen bei der Itembeantwortung Gesichtspunkte der Itemformulierung Erstellen der vorläufigen Testversion Erprobung der vorläufigen Testversion sind auf den Seiten des Buchs von Moosbrugger & Kelava (2008) zu finden. 57 Klassische Testtheorie 29

30 Axiome der klassischen Testtheorie Im Rahmen der klassischen Testtheorie gelten laut Moosbrugger & Kelava (2008)* die folgenden Axiome**: 1. das Existenzaxiom, 2. das Verknüpfungsaxiom und 3. das Unabhängigkeitsaxiom. * die angeführten Axiome unterscheiden sich von den üblicherweise angeführten ** Axiome sind nicht weiter zu hinterfragende Grundannahmen 59 Das Existenzaxiom Das Existenzaxiom besagt, dass ein wahrer Wert (= true score) existiert. Dieser wahre Wert ist der Erwartungswert der gemessenen Leistung einer Person. Demnach gilt mit xv,i... E ( x v, i ) v, i Testleistung der Person v in Test i 60 30

31 Das Verknüpfungsaxiom Das Verknüpfungsaxiom besagt, dass sich die gemessene Leistung einer Person aus ihrem wahren Wert und dem Messfehler zusammensetzt. Demnach gilt x v, i v, i v, i Der Messfehler spielt in der klassischen Testtheorie eine zentrale Rolle. Sie wird daher auch oft als Messfehlertheorie bezeichnet. 61 Das Unabhängigkeitsaxiom Das Unabhängigkeitsaxiom besagt, dass der wahre Wert einer Person und der bei der Messung entstandene Messfehler nicht korrelieren Demnach gilt ( v, i, v, i ) 0 mit (ausgeschrieben rho ) Populationskorrelation* 62 31

32 Zusatzannahmen Da bei Messfehlertheorien im allgemeinen angenommen wird, dass es sich bei dem Messfehler um eine Zufallsvariable handelt, muss das Unabhängigkeitsaxiom erweitert werden. Daher wird Unkorreliertheit angenommen zwischen den Messfehlern derselben Person bei unterschiedlichen Tests (, v, i, v j ) 0 ( v, i, w, i ) 0 und den Messfehlern derselben Person bei unterschiedlichen Tests 63 Folgerungen aus den Axiomen Aus den Axiomen kann gefolgert werden, dass der Erwartungswert des Messfehlers 0 ist, E( ) 0 die Varianz des gemessenen Werts sich aus der Varianz der wahren Werte und der Varianz der Messfehler zusammensetzt, ²( X ) ²( ) ²( ) die Kovarianz von gemessenen Werten der Kovarianz der wahren Werte entspricht. ( X, X ) A B ( A, B ) 64 32

33 Äquivalente Messungen Bei den äquivalenten Messungen geht es um die Frage, welche Voraussetzungen erfüllt sein müssen, um annehmen zu können, dass zwei Tests (oder auch Items), dasselbe psychologische Merkmal messen. Es gibt hierfür vier unterschiedlich strenge Zugänge : Replikation, Parallelmessung - äquivalente Messungen und essentielle - äquivalente Messungen. 65 Replikation Bei der Replikation wird gefordert, dass verschiedene Messinstrumente bei derselben Person zu exakt demselben Messergebnis kommen müssen, um von einer wiederholten Messung zu sprechen. Sie stellt somit die strengsten (und für die Praxis unrealistische) Forderungen

34 Parallelmessung Um eine Parallelmessung handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert und die selbe Varianz besitzen. Demnach gilt bei Parallelmessungen E( X ) ( ) und A E X B ²( X ) ²( X B ). A Parallelmessungen erfassen das gleiche psychologische Merkmal gleich genau, da die Gleichheit der Varianzen der Messwerte auch gleiche Varianzen der Messfehler bedeutet. Ein zu Test A paralleler Test wird in weiterer Folge mit A bezeichnet äquivalente Messungen Um - äquivalente Messungen handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert, aber unterschiedliche selbe Varianz besitzen. Demnach gilt bei - äquivalenten Messungen E( X A) E( X B ) - äquivalente Messungen erfassen das gleiche Merkmal verschieden genau

35 Essentiell - äquivalente Messungen Bei essentiell - äquivalente Messungen unterscheiden sich die Erwartungswerte zweier Tests (oder Items) um eine additive Konstante. Die Varianzen können ebenfalls verschieden sein Demnach gilt bei essentiell - äquivalenten Messungen E( X A ) E( X ) c B 69 Reliabilität Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Im Rahmen der klassischen Testtheorie steht hierbei die Varianz des Messfehlers im Vordergrund. Vereinfacht gesagt: Je größer die Varianz des Messfehlers desto, geringer die Reliabilität. rel ²( ) ²( X ) ²( ) ²( ) ²( ) Je nach Autor wird eine Reliabilität ab 0.7 bzw. 0.8 als ausreichende Reliabilität angesehen

36 Reliabilität Aus der Formel der Reliabilität folgt u.a., dass die Reliabilität - einen Wertebereich von 0 bis 1 besitzt, 0 rel 1 das Bestimmtheitsmaß der Korrelation von Messwert und wahrem Wert ist rel ²( X, ) der Korrelation der Testergebnisse zweier paralleler Messungen (=Paralleltests) entspricht rel ( X A, X A' ) 71 Arten der Reliabilitätsbestimmung Es lassen sich drei/vier Arten der Reliabilität unterscheiden Retest - Reliabilität Paralleltest Reliabilität [Testhalbierungs- (Split Half-) Reliabilität] Innere Konsistenz 72 36

37 Retest-Reliabilität Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Vorausgesetzt es gibt weder Veränderungen der Messfehlereinflüsse noch unsystematische Veränderungen des wahre Werts, entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge. Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.b. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er. Bei Leistungstest ergeben sich Probleme z.b. aufgrund von Deckeneffekten. 73 Paralleltest-Reliabilität Hierbei werden den Personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests. rel ˆ r ( X A, X A ' ) Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind. Eine strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich. Die eleganteste Prüfung der Parallelität von Tests ohne auf die moderne Testtheorie zurückzugreifen, stellen konfirmatorische Faktorenanalysen dar

38 Testhalbierungs-Reliabilität (Split-Half Reliabilität) Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität des Gesamttests zu kommen, wird auf einen Spezialfall der Formel von Spearman-Brown* zurückgegriffen. el ˆ r Gesamttest 2r( X1, X 1 r( X, X ) ) * auf die Spearman Brown Formel wird auf Folie 82 näher eingegangen 75 Innere Konsistenz Hierbei wird jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann vereinfacht als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab. Die bekanntesten Kennwerte zur inneren Konsistenz sind Cronbach - Lambda3 nach Guttman ˆ ²( X i ) i (1 ) 1 ˆ ²( X ) k k 1 3 k i k ˆ ²( X ) i k k 1 k ˆ ²( X ) k i1 j1 i j mit k= Anzahl an Items im Test 2 ˆ ( X, X i j ) 76 38

39 Innere Konsistenz Stellen die Items zumindest essentiell - äquivalente Messungen dar, sind und 3 Schätzungen der Reliabilität des Gesamttests. Für den Fall, dass die Items keine äquivalenten Messungen darstellen, sind und 3 lediglich untere Schranken der Reliabilität. 77 WICHTIG bei der Berechnung von und 3 müssen die Items gleichartig gepolt sein, d.h. hohe Werte müssen inhaltlich immer dieselbe Bedeutung haben (z.b. für eine hohe Ausprägung des Merkmals sprechen) Weder noch 3 sind ein Maß für die Eindimensionalität von Items 78 39

40

41 81 Formel nach Spearman-Brown Für dann Fall paralleler Items, kann aus der Kenntnis der Reliabilität eine Tests, die Reliabilität des um parallele Items verlängerten bzw. verkürzten Tests mittels der Formel von Spearman-Brown berechnet werden. Formel nach Spearman - Brown rel ˆ veränderter Test rel ˆ 1 ( 1) rel ˆ Originaltest Originaltest mit Anzahl der Items im veränderte n Test Anzahl der Items im Originalte st 82 41

42 Beispiel 1 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67 Wie hoch ist die Reliabilität, wenn man den Test den Test um 10 parallele Items verlängert? rel ˆ veränderter Test ˆ rel veränderter Test rel ˆ 1 ( 1) rel ˆ Originaltest Originaltest mit ( 1) Anzahl der Items im veränderte n Test Anzahl der Items im Originalte st 83 Beispiel 2 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67 Wie viele Items mehr benötigt der Test, wenn man eine Reliabilität von 0.73 anstrebt? ( 1) 0.67 Anzahl der Items im veränderten Test Anzahl der Items im veränderten Test

43 Einschub Verlängert oder verkürzt man einen Test um parallele Items, können Mittelwert und Varianz des veränderten Tests aus Kenntnis der Kennwerte des Originaltests mittels der nachfolgenden Formeln errechnet werden. xˆ veränderter Test x Originaltest ˆ ²( X veränderter Test ) ˆ ²( X Originaltest ) [1 ( 1) reˆ l Originaltest ] mit Anzahl der Items im veränderte n Test Anzahl der Items im Originalte st 85 Anzustrebende Höhe der Reliabilität Allgemein: so hoch wie möglich. Es sind jedoch die nachfolgenden Punkte zu berücksichtigen Art des zu erfassenden Merkmals Individual- versus Kollektivdiagnostik Einsatzbedingungen Kosten-Nutzen Abwägungen Objektivierbarkeit 86 43

44 Art des zu erfassenden Merkmals Leistungsvariablen sind meist präziser messbar als z.b. Einstellungen oder Persönlichkeitseigenschaften. Bei etablierten Intelligenztests sind Reliabilitäten der globalen Maße oft über 0.90, während bei Persönlichkeitsfragebogen Skalen oft nur Reliabilitäten um 0.7 haben. Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.b. die Retest- oder Paralleltest Reliabilität 87 Individual- versus Kollektivdiagnostik Bei Individualdiagnostik sollte Messgenauigkeit höher sein als bei Messung der Durchschnittleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen reduzieren

45 Einsatzbedingungen Bei Tests, die nicht adaptiv* vorgegeben werden können, hängt die Reliabilität relativ stark von der Testlänge ab. Daher weisen Tests und Fragebögen, die zum Screening eingesetzt werden und daher eher kurz sind, meist eine geringere Reliabilität auf. *adaptive Testvorgaben werden im Rahmen der Einheiten zur modernen Testtheorie behandelt 89 Reliabilität und Konfidenzintervalle für Da die Reliabilität als Maß für die Genauigkeit der Messung des wahren Werts einer Person verstanden werden kann, ist sie Basis für die Erstellung von Konfidenzintervallen für wahre Werte. Es gibt zwei Arten von Konfidenzintervallen auf Basis der Messfehlervarianz auf Basis der Schätzfehlervarianz 90 45

46 Reliabilität und Konfidenzintervalle für KI auf Basis der Messfehlervarianz Bei Vorliegen der Varianz der Testwerte und der Reliabilität kann die Messfehlervarianz berechnet werden. ˆ ²( ) ˆ ²( X ) (1 reˆ l) Das Konfidenzintervall des wahren Werts wird berechnet mittels bzw. x z ˆ( ) 1, 2 v krit v ˆ ²( X ) (1 reˆ x z l 1, 2 v krit v Die z krit -Werte betragen bzw für ein 95% KI und 2.33 bzw für ein 99% KI. ) 91 Reliabilität und Konfidenzintervalle für KI auf Basis der Schätzfehlervarianz Die Berechnung des geschätzten wahren Werts und der Schätzfehlervarianz erfolgt über ˆ v x v rel ˆ x (1 reˆ l) Das Konfidenzintervall des wahren Werts wird berechnet mittels bzw. ˆ ²( ˆ) ˆ ²( X ) (1 rel ˆ ) rel ˆ ˆ v ˆ z ˆ( ˆ) 1, 2 v krit ˆ ²( X ) (1 rel ˆ ) v v z 1, 2 krit rel ˆ Die z krit -Werte betragen bzw für ein 95% KI und 2.33 bzw für ein 99% KI

47 v Beispiel 1 Eine Person erzielt in einem Test 43 Punkte. Es ist bekannt, dass der Mittelwert des Tests 39 Punkte, die Standardabweichung des Tests 5 Punkte und die Reliabilität rel= 0.85 beträgt. In welchem Bereich befindet sich der wahre Wert der Person mit 99%iger Sicherheit? a) Berechnung auf Basis der Messfehlervarianz v (1 0.85) 1, 2 KI [38.00; 48.00] b) Berechnung auf Basis der Schätzfehlervarianz ( ) (1 0.85) , 2 KI [37.79; 47.00] 93 Beispiel 2 Eine Person erzielt in einem Test einen IQ von 134. Die im Testmanual angegebene Testreliabilität beträgt rel= Kann man mit 95%iger Sicherheit davon ausgehen, dass die Person einen wahren IQ über 130 hat und somit hochbegabt ist? v a) Berechnung auf Basis der Messfehlervarianz v (1 0.75) 1, 2 KI [ ; ] b) Berechnung auf Basis der Schätzfehlervarianz ( ) , 2 KI [129.71; 136,287] 94 47