3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5 Interne Konsistenz 6.6 Zusammenfassende Diskussion 6.7 Konsequenzen der Reliabilität Hochschule Magdeburg-Stendal Rehabilitationspsychologie B.Sc. Prof. Dr. Gabriele Helga Franke Januar 2011

6.1 Was ist Reliabilität? Die Reliabilität eines Tests beschreibt den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeitsmerkmal misst, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht. (Kubinger, 2006, S. 45) Reliabilität ist die Zuverlässigkeit eines Tests, d.h. die Reliabilität beantwortet die Frage: Wie gut misst der Test das, was er messen soll?. 2

6.2 Retest-Reliabilität Die Retest-Reliabilität eines Testverfahrens ist hoch, wenn zwei Messungen mit diesem Test zu verschiedenen Messzeitpunkten hoch miteinander korrelieren 3

6.2.1 Problem: Veränderung der wahren Werte Retest-Reliabilität kann durch systematische Veränderungen eingeschränkt werden. Gilt dies für alle Probanden = kein Problem. Problematisch sind unsystematische Veränderungen der wahren Werte durch Übungseffekte, Erinnerungs-effekte, Wissenszuwächse, die zu Über- und/ oder Unterschätzung der Reliabilität führen. 4

6.2.2 Wahl des Retest-Intervalls Kurze Zeitintervall zwischen 2 Messungen können eher zu Erinnerungseffekten führen. Lange Zeitintervall zu Wissenszuwächsen. Das Zeitintervall zwischen 2 Messungen hängt vom Konstrukt ab es muss IMMER genau angegeben werden. 5

6.3 Paralleltest-Reliabilität Es werden eine oder mehrere gleichschwere Parallelformen (Form A, Form B,...) entwickelt, beide Formen müssen hoch miteinander korrelieren. 6

6.3.1 Problem der Erstellung von Parallelformen eines Tests Die Entwicklung von Parallelformen ist sehr aufwendig, daher liegen für die meisten psychodiagnostischen Verfahren keine Parallelformen vor. KTT: Paralleltest-Reliabilität muss gleich der internen Konsistenz der einzelnen Formen sein Gute Prüfung auf Parallelität ermöglicht die konfirmatorische Faktorenanalyse. 7

6.3.2 Einflüsse auf die Paralleltest- Reliabilität In wissenschaftlichen Studien ist angeraten, die Gabe der beiden Parallelformen A und B eines Tests in einer Studie auszubalancieren D.h. Gruppe 1 bekommt zuerst Form A und nach einer Woche Form B Gruppe 2 bekommt zuerst Form B und nach einer Woche Form A 8

6.4 Splithalf - (Testhalbierungs-) Reliabilität Die Items des Tests werden - nach Durchführung - per Zufall in zwei Gruppen aufgeteilt. Die Ergebnisse dieser beiden Hälften sollten hoch korrelieren. Die Berechnung der Testhalbierungs- Reliabilität eignet sich für alle Verfahren, die genügend Items umfassen, unabhängig vom Zeitfenster (aktuelle Situation, eine Woche oder grundsätzlich) des Tests. 9

6.4.1 Methoden der Testhalbierung Odd-even gerade Items zu Gruppe 1 und ungerade Items zu Gruppe 2 Zeitpartitionierung die ersten 6 Items zu Gruppe 1 und die zweiten Items zu Gruppe 2 (Voreinstellung SPSS) Aufteilung anhand von Schwierigkeit und Trennschärfe zu Itempaaren 10

6.4.2 Probleme der Bildung von parallelen Testhälften Die Anzahl möglicher Kombinationen von Items zu Testhälften steigt mit zunehmender Itemanzahl an Z.B. gibt es bei 10 Items 126 verschiedene Möglichkeiten, die Items zwei Testhälften zuzuordnen 11

6.5 Interne Konsistenz Jedes einzelne Item wird als Einzeltest gesehen und die Korrelation zwischen jedem Item und dem Gesamtwert wird berechnet. Der Konsistenzkoeffizient (= interne Konsistenz) ist das Reliabilitätsmaß, das am häufigsten berechnet wird. Homogenität 12

6.5.1 Problem: Heterogenität der Items Voraussetzung: homogene Items Wenn Item aus theoretischen Gründen heterogen sein sollen, dann eignet sich die interne Konsistenz nicht mehr zur Erfassung der Reliabilität 13

6.5.2 Aspekte der Interpretation von Cronbachs Alpha Eine hohe interne Konsistenz ist kein Beleg für die Eindimensionalität des Tests Invertierte Items können faktorenanalytisch einen eigenen Faktor bilden und die interne Konsistenz beeinflussen Invertierte Items müssen somit bei der Berechnung von Cronbachs Alpha genau bestimmt werden 14

6.6 Zusammenfassende Diskussion Je höher die Reliabilität desto unabhängiger ist der Test von Zufallsschwankungen und Umweltbedingungen Hohe Reliabilität ist damit auch abhängig von hoher Objektivität Interne Konsistenz (rel) < 0,80 = niedrig 0,80 0,90 = hoch > 0,90 = sehr hoch 15

VORTEILE UND PROBLEME DER METHODEN ZUR RELIABILITÄTSSCHÄTZUN G Retest Parallel Split-Half Konsistenz Parallelform notwendig Nein Ja Nein Nein 2 Testdurchführungen notwendig Ja Ja Nein Nein 2 Messzeitpunkte notwendig Ja Nein Nein Nein Überschätzung bei Erinnerungseffekten Unterschätzung bei unsystematischer Merkmalsveränderung Unterschätzung bei heterogenen Items Ja Nein Nein Nein Ja Nein Nein Nein Nein Nein Ja Ja 16

6.7 Konsequenzen der Reliabilität SE und KONF Berechnung des Standardmessfehlers SE = SD * (1-rel) FPI-R Skala 1: SE = 2 * (1-0,78) SE = 2 * (0,22) SE = 2 * 0,4690415 SE = 0,938 Berechnung des Konfidenzintervalls KONF = 1,96 * SE KONF = 1,839 ~ 2 = +/- 2 17

6.7 Konsequenzen der Reliabilität SE und KONF Der wahre Wert des Probanden X bei der Skala Lebenszufriedenheit im FPI-R von Stanine=3 liegt mit 95%-iger Wahrscheinlichkeit zwischen Messung-KONF bis Messung+KONF 3-2 bis 3+2 1 bis 5 18

6.7 Konsequenzen der Reliabilität SEDIFF und RCI Berechnung des Standardfehlers der Differenz zweier Messungen desselben Konstrukts bei einer Person FPI-R-1 SEDIFF = SD * 2*(1-rel) SEDIFF = 2 * 2*(1-0,78) SEDIFF = 2 * 2*(0,22) SEDIFF = 1,3266498 Berechnung des Reliable Change Index RCI = 1,65 * SEDIFF RCI = 2,6 ~ 3 = +/- 3 19

6.7 Konsequenzen der Reliabilität SEDIFF und RCI Die Differenz der Messung desselben Konstrukts bei einer Person muss bei der FPI-R-Skala 1 den RCI von 3 überschreiten, um von statistisch signifikanter Veränderung sprechen zu können: Skala 1 (1. Messung) = 9 Skala 1 (2. Messung ) = 3 Diff = 9-3 = 6 > 3 20