3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Ähnliche Dokumente
4.2 Grundlagen der Testtheorie

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Forschungsmethoden VORLESUNG SS 2017

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Reliabilitäts- und Itemanalyse

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK)

SPSS-Beispiel zu Kapitel 6: Methoden der Reliabilitätsbestimmung 1

Beispielberechnung Vertrauensintervalle

Übung Methodenlehre I, SeKo

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Beispielberechnung Vertrauensintervall

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Psychologische Diagnostik

Bewältigungsstrategien von Patienten vor und nach Nierentransplantation

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

3.2 Grundlagen der Testtheorie Einleitung

Theorien der Persönlichkeit

Grundlagen der Testkonstruktion

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Rekodierung invertierter Items

FH Magdeburg-Stendal, Studiengang Rehabilitationspsychologie Seminar Testen und Entscheiden Dozentin Susanne Jäger Referentin Angela Franke, 1. Sem.

Messtherorie Definitionen

Grundlagen sportwissenschaftlicher Forschung Test

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Einführung in die Test- und Fragebogenkonstruktion

Trierer Alkoholismusinventar

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Screening für Somatoforme Störungen. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum:

Webergänzung Kapitel 6.5.3: Tests

Fragebogen zu Gedanken und Gefühlen (FGG)

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Reliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

4.1 Grundlagen der psychologischen Diagnostik. Wintersemester 2008/ 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Messung, Skalen, Indices

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

I-S-T 2000-R: INTELLIGENZ- STRUKTUR TEST 2000-R BITTE HANDBUCH ANSEHEN

6. Faktorenanalyse (FA) von Tests

Methode der Naturwissenschaften

3.1 Grundlagen psychologischer Diagnostik

TRIERER INVENTAR ZUM CHRONISCHEN STRESS

Gütekriterien von Messungen

Parametrische vs. Non-Parametrische Testverfahren

T E S T G Ü T E K R I T E R I E N W O R K S H O P I N F R E I B U R G N O V E M B E R

Dr. Heidemarie Keller

GRUNDLAGEN DER TESTTHEORIE

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 4

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

Statistische Methoden in den Umweltwissenschaften

Testtheorie und Testkonstruktion. Wintersemester 2006/ 2007 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Insbesondere Selektionsdiagnostik/Eignungsdiagnostik gerät immer wieder gesellschaftspolitisch in Verruf Modifikationsdiagnostik gewinnt an Bedeutung:

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler

Befehl: Analysieren > Deskriptive Statistiken > Häufigkeiten. Unter: Statistiken: Angabe Kurtosis/ Schiefe/ andere Lagemasse

GHF SoSe 2011 HS MD-SDL

Grundlagen der psychologischen Testtheorie

Leseuntersuchung mit dem Stolperwörtertest

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Vorlesung Testtheorien (Fragestunde)

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Name Vorname Matrikelnummer Unterschrift

Das Rasch-Modell und seine zentralen Eigenschaften

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 1

Methodenlehre I Organisatorisches Wiederholung. Überblick Methodenlehre II. Thomas Schäfer. methodenlehre ll Einführung und Überblick

Was ist eine Testtheorie?

Reliabilität die Genauigkeit einer Messung

4.2 Grundlagen der Testtheorie

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Messen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse

SF-36 Fragebogen zum Gesundheitszustand. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Julia Plato Datum:

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben

Psychometrische Prüfungen des Fragebogens zur Sozialen Unterstützung (F-SozU)

4. Empirische Momente von ZR. 4. Empirische Momente von ZR. 4. Empirische Momente von ZR. 4. Empirische Momente von ZR

Zur Bestimmung der Güte von Multi-Item-Skalen : eine Einführung Rammstedt, Beatrice

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Studienseminar Koblenz. Diagnostische Expertise - Leistungsmessung

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Inventar zur Erfassung interpersonaler Probleme (IIP-D)

3 Konfidenzintervalle

Transkript:

3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5 Interne Konsistenz 6.6 Zusammenfassende Diskussion 6.7 Konsequenzen der Reliabilität Hochschule Magdeburg-Stendal Rehabilitationspsychologie B.Sc. Prof. Dr. Gabriele Helga Franke Januar 2011

6.1 Was ist Reliabilität? Die Reliabilität eines Tests beschreibt den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeitsmerkmal misst, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht. (Kubinger, 2006, S. 45) Reliabilität ist die Zuverlässigkeit eines Tests, d.h. die Reliabilität beantwortet die Frage: Wie gut misst der Test das, was er messen soll?. 2

6.2 Retest-Reliabilität Die Retest-Reliabilität eines Testverfahrens ist hoch, wenn zwei Messungen mit diesem Test zu verschiedenen Messzeitpunkten hoch miteinander korrelieren 3

6.2.1 Problem: Veränderung der wahren Werte Retest-Reliabilität kann durch systematische Veränderungen eingeschränkt werden. Gilt dies für alle Probanden = kein Problem. Problematisch sind unsystematische Veränderungen der wahren Werte durch Übungseffekte, Erinnerungs-effekte, Wissenszuwächse, die zu Über- und/ oder Unterschätzung der Reliabilität führen. 4

6.2.2 Wahl des Retest-Intervalls Kurze Zeitintervall zwischen 2 Messungen können eher zu Erinnerungseffekten führen. Lange Zeitintervall zu Wissenszuwächsen. Das Zeitintervall zwischen 2 Messungen hängt vom Konstrukt ab es muss IMMER genau angegeben werden. 5

6.3 Paralleltest-Reliabilität Es werden eine oder mehrere gleichschwere Parallelformen (Form A, Form B,...) entwickelt, beide Formen müssen hoch miteinander korrelieren. 6

6.3.1 Problem der Erstellung von Parallelformen eines Tests Die Entwicklung von Parallelformen ist sehr aufwendig, daher liegen für die meisten psychodiagnostischen Verfahren keine Parallelformen vor. KTT: Paralleltest-Reliabilität muss gleich der internen Konsistenz der einzelnen Formen sein Gute Prüfung auf Parallelität ermöglicht die konfirmatorische Faktorenanalyse. 7

6.3.2 Einflüsse auf die Paralleltest- Reliabilität In wissenschaftlichen Studien ist angeraten, die Gabe der beiden Parallelformen A und B eines Tests in einer Studie auszubalancieren D.h. Gruppe 1 bekommt zuerst Form A und nach einer Woche Form B Gruppe 2 bekommt zuerst Form B und nach einer Woche Form A 8

6.4 Splithalf - (Testhalbierungs-) Reliabilität Die Items des Tests werden - nach Durchführung - per Zufall in zwei Gruppen aufgeteilt. Die Ergebnisse dieser beiden Hälften sollten hoch korrelieren. Die Berechnung der Testhalbierungs- Reliabilität eignet sich für alle Verfahren, die genügend Items umfassen, unabhängig vom Zeitfenster (aktuelle Situation, eine Woche oder grundsätzlich) des Tests. 9

6.4.1 Methoden der Testhalbierung Odd-even gerade Items zu Gruppe 1 und ungerade Items zu Gruppe 2 Zeitpartitionierung die ersten 6 Items zu Gruppe 1 und die zweiten Items zu Gruppe 2 (Voreinstellung SPSS) Aufteilung anhand von Schwierigkeit und Trennschärfe zu Itempaaren 10

6.4.2 Probleme der Bildung von parallelen Testhälften Die Anzahl möglicher Kombinationen von Items zu Testhälften steigt mit zunehmender Itemanzahl an Z.B. gibt es bei 10 Items 126 verschiedene Möglichkeiten, die Items zwei Testhälften zuzuordnen 11

6.5 Interne Konsistenz Jedes einzelne Item wird als Einzeltest gesehen und die Korrelation zwischen jedem Item und dem Gesamtwert wird berechnet. Der Konsistenzkoeffizient (= interne Konsistenz) ist das Reliabilitätsmaß, das am häufigsten berechnet wird. Homogenität 12

6.5.1 Problem: Heterogenität der Items Voraussetzung: homogene Items Wenn Item aus theoretischen Gründen heterogen sein sollen, dann eignet sich die interne Konsistenz nicht mehr zur Erfassung der Reliabilität 13

6.5.2 Aspekte der Interpretation von Cronbachs Alpha Eine hohe interne Konsistenz ist kein Beleg für die Eindimensionalität des Tests Invertierte Items können faktorenanalytisch einen eigenen Faktor bilden und die interne Konsistenz beeinflussen Invertierte Items müssen somit bei der Berechnung von Cronbachs Alpha genau bestimmt werden 14

6.6 Zusammenfassende Diskussion Je höher die Reliabilität desto unabhängiger ist der Test von Zufallsschwankungen und Umweltbedingungen Hohe Reliabilität ist damit auch abhängig von hoher Objektivität Interne Konsistenz (rel) < 0,80 = niedrig 0,80 0,90 = hoch > 0,90 = sehr hoch 15

VORTEILE UND PROBLEME DER METHODEN ZUR RELIABILITÄTSSCHÄTZUN G Retest Parallel Split-Half Konsistenz Parallelform notwendig Nein Ja Nein Nein 2 Testdurchführungen notwendig Ja Ja Nein Nein 2 Messzeitpunkte notwendig Ja Nein Nein Nein Überschätzung bei Erinnerungseffekten Unterschätzung bei unsystematischer Merkmalsveränderung Unterschätzung bei heterogenen Items Ja Nein Nein Nein Ja Nein Nein Nein Nein Nein Ja Ja 16

6.7 Konsequenzen der Reliabilität SE und KONF Berechnung des Standardmessfehlers SE = SD * (1-rel) FPI-R Skala 1: SE = 2 * (1-0,78) SE = 2 * (0,22) SE = 2 * 0,4690415 SE = 0,938 Berechnung des Konfidenzintervalls KONF = 1,96 * SE KONF = 1,839 ~ 2 = +/- 2 17

6.7 Konsequenzen der Reliabilität SE und KONF Der wahre Wert des Probanden X bei der Skala Lebenszufriedenheit im FPI-R von Stanine=3 liegt mit 95%-iger Wahrscheinlichkeit zwischen Messung-KONF bis Messung+KONF 3-2 bis 3+2 1 bis 5 18

6.7 Konsequenzen der Reliabilität SEDIFF und RCI Berechnung des Standardfehlers der Differenz zweier Messungen desselben Konstrukts bei einer Person FPI-R-1 SEDIFF = SD * 2*(1-rel) SEDIFF = 2 * 2*(1-0,78) SEDIFF = 2 * 2*(0,22) SEDIFF = 1,3266498 Berechnung des Reliable Change Index RCI = 1,65 * SEDIFF RCI = 2,6 ~ 3 = +/- 3 19

6.7 Konsequenzen der Reliabilität SEDIFF und RCI Die Differenz der Messung desselben Konstrukts bei einer Person muss bei der FPI-R-Skala 1 den RCI von 3 überschreiten, um von statistisch signifikanter Veränderung sprechen zu können: Skala 1 (1. Messung) = 9 Skala 1 (2. Messung ) = 3 Diff = 9-3 = 6 > 3 20