4.2 Grundlagen der Testtheorie

Größe: px

Ab Seite anzeigen:

Download "4.2 Grundlagen der Testtheorie"

Bella Giese
vor 7 Jahren
Abrufe

1 4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität

2 Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeitsmerkmal misst, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht. (Kubinger, 2006, S. 45) Reliabilität ist die Zuverlässigkeit eines Tests, d.h. die Reliabilität beantwortet die Frage: Wie gut misst der Test das, was er messen soll?.

3 5.2.1 Vier Methoden zur Bestimmung der Reliabilität 4 Methoden zur Bestimmung der Reliabilität: Retest-Methode (Testwiederholung) Paralleltestmethode Split-Half-Methode (Testhalbierung) Homogenitätsmethode (interne Konsistenz)

4 5.2.1 Vier Methoden zur Bestimmung der Reliabilität Retest-Reliabilität Eine wiederholte Messung an der gleichen Personengruppe sollte im günstigsten Fall identische Ergebnisse bringen Die Berechnung der Retest-Reliabilität (z.b. nach einer Woche) eignet sich nur bei Merkmalen, die zeitlich stabil sind und bei denen somit erwartet werden kann, dass sie sich in einer Woche nicht deutlich verändern. Stabilität der Eigenschaft wird gemessen

5 5.2.1 Vier Methoden zur Bestimmung der Reliabilität Paralleltest-Reliabilität Es werden eine oder mehrere gleichschwere Parallelformen (Form A, Form B,...) entwickelt, beide Formen müssen hoch miteinander korrelieren. Die Entwicklung von Parallelformen ist sehr aufwendig, daher liegen für die meisten psychodiagnostischen Verfahren keine Parallelformen vor.

6 5.2.1 Vier Methoden zur Bestimmung der Reliabilität Split - Half-Reliabilität (Testhalbierungsreliabilität) Die Items des Tests werden - nach Durchführung - per Zufall in zwei Gruppen aufgeteilt. Die Ergebnisse dieser beiden Hälften sollten hoch korrelieren. Die Berechnung der Testhalbierungs-Reliabilität eignet sich für alle Verfahren, die genügend Items umfassen, unabhängig vom Zeitfenster (aktuelle Situation, eine Woche oder grundsätzlich) des Tests.

7 5.2.1 Vier Methoden zur Bestimmung der Reliabilität Konsistenzkoeffizient, interne Konsistenz, Cronbach s Alpha Jedes einzelne Item wird als Einzeltest gesehen und die Korrelation zwischen jedem Item und dem Gesamtwert wird berechnet. Der Konsistenzkoeffizient (= interne Konsistenz) ist das Reliabilitätsmaß, das am häufigsten berechnet wird. Homogenität

8 Je höher die Reliabilität desto unabhängiger ist der Test von Zufallsschwankungen und Umweltbedingungen Hohe Reliabilität ist damit auch abhängig von hoher Objektivität

9 Bewertungsrahmen Interne Konsistenz (rel) < 0,80 = niedrig 0,80 0,90 = hoch > 0,90 = sehr hoch

10 VORTEILE UND PROBLEME DER METHODEN ZUR RELIABILITÄTSSCHÄTZUNG Retest Parallel Split-Half Konsistenz Parallelform notwendig Nein Ja Nein Nein 2 Testdurchführungen notwendig Ja Ja Nein Nein 2 Messzeitpunkte notwendig Ja Nein Nein Nein Überschätzung bei Erinnerungseffekten Unterschätzung bei unsystematischer Merkmalsveränderung Unterschätzung bei heterogenen Items Ja Nein Nein Nein Ja Nein Nein Nein Nein Nein Ja Ja

11 5.2.2 Grenzen der Reliabilität Die Reliabilität ist gleich dem Anteil der "wahren Varianz" an der "Gesamtvarianz" des Tests. Ihr Zahlenwert kann zwischen 0 und 1 betragen. rel = s s 2 T 2 t Ursache hierfür sind u. a. Messfehler, d.h. Testwerte sind fehlerbehaftet! ti = Ti + ei Axiom 1: Das Testergebnis (ti) setzt sich additiv aus dem wahren Wert (Ti) und dem Messfehler (ei) zusammen! (e=error)

12 5.2.2 Grenzen der Reliabilität Standardmessfehler Standardmessfehler se = Standardabweichung der Messfehlerverteilung Die Messfehlerverteilung (= Fehlerverteilung) ist normal verteilt, weil Fehler zufällig sind und kleine häufiger als große Der Standardmessfehler se (standard error) lässt sich berechnen: s e = s 1 t r tt st = Standardabweichung rtt = Retest-Reliabilität je höher die Reliabilität (Test misst genau), umso geringer der Standardmessfehler!

13 5.2.2 Grenzen der Reliabilität Standardmessfehler Beispiel zur Berechnung des Standardmessfehlers: Ein in IQ-Werten normierter Intelligenztest hat eine Reliabilität von r tt = 0,90. s e = s 1 t r tt se = ,9 = 15 0,1 = 15 0,32 = 4,8

14 5.2.2 Grenzen der Reliabilität Vertrauensintervall (KONF), Confidential Limit (CL) KONF = ist derjenige Bereich um einen beobachteten Testpunktwert ti, innerhalb dessen mit einer gewissen Wahrscheinlichkeit der wahre Wert Ti erwartet wird. Das Vertrauensintervall KONF (oder CL) lässt sich berechnen: KONF= t ± K i s e 68% Vertrauensintervall: K = 1 95% Vertrauensintervall: K = 1,96 99% Vertrauensintervall: K = 2,58

15 5.2.2 Grenzen der Reliabilität Vertrauensintervall (KONF), Confidential Limit (CL) Beispiel zur Berechnung des Vertrauensintervalls: In obigem Beispiel (Intelligenztest mit st = 15 und rtt = 0,9) wurde der Standardfehler mit se = 4,80 berechnet. In welchem Bereich liegt mit einer Wahrscheinlichkeit von 95% der "wahre" Testpunktwert (Ti), wenn von einem Probanden ein beobachteter Testpunktwert ti = 105 erzielt wurde? KONF95% = ,96 * 4,80 = ,4 Der "wahre" Ti liegt also mit 95% Wahrscheinlichkeit zwischen IQ = 95,6 und IQ = 114,40. Das Vertrauensintervall ist, bei einer Reliabilität von rtt = 0,9, also deutlich größer als eine Standardabweichung des Tests.

16 5.2.2 Grenzen der Reliabilität Intraindividueller Vergleich, Kritische Differenz Als kritische Differenz (RCI = reliable change index) bezeichnen wir jene Differenz zwischen zwei Testpunktwerten, deren Überschreitung statistische Signifikanz anzeigt. Für das 5%-Signifikanzniveau lautet die Formel: d krit.5% = 1,65 s ed Kritische Differenz s ed = s 2 t r tt r uu Standardmessfehler der intraindividuellen Differenz unter Berücksichtigung der unterschiedlichen Reliabilitäten der Tests

17 5.2.1 Grenzen der Reliabilität Intraindividueller Vergleich, Kritische Differenz Beispiel zur Kritischen Differenz (intraindividueller Vergleich): Eine Person erzielte in einem Test für verbale Intelligenz (r tt = 0,90) einen Testpunktwert von IQ V = 110 und in einem Test für handlungsbezogene Intelligenz (r tt = 0,85) einen Testpunktwert von IQ H = 115. Frage: können wir mit hinlänglicher (95%) Wahrscheinlichkeit davon ausgehen, dass die Person "tatsächlich" eine höhere handlungsbezogene, im Vergleich zur verbalen, intellektuellen Leistungsfähigkeit besitzt? d krit.5% = 1,65 15 = 24,75 0,5 = 12,37 2 0,90 0,85 = 24,75 0,25 Die kritische Differenz beträgt 12,37 IQ-Punkte. Die beobachtete Differenz hingegen nur 5 IQ-Punkte. Wir akzeptieren die H o : Handlungs- und Verbal-IQ unterscheiden sich nicht signifikant von einander.

Ähnliche Dokumente

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5