BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK)

Ähnliche Dokumente
σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

4.2 Grundlagen der Testtheorie

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Reliabilitäts- und Itemanalyse

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG SS 2017

6. Faktorenanalyse (FA) von Tests

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

Grundlagen der Statistik

Beispielberechnung Vertrauensintervall

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Brückenkurs Statistik für Wirtschaftswissenschaften

Beispielberechnung Vertrauensintervalle

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Reliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

Einführung in die Theorie psychologischer Tests

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Einführung in die Statistik Testgütekriterien

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Messtherorie Definitionen

Statistische Tests (Signifikanztests)

Parametrische vs. Non-Parametrische Testverfahren

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

2.3 Intervallschätzung

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

Notgepäck Genauigkeit

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Fallzahlplanung bei unabhängigen Stichproben

Einfache Varianzanalyse für unabhängige Stichproben

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

8. Konfidenzintervalle und Hypothesentests

Einführung in die Test- und Fragebogenkonstruktion

2.3 Intervallschätzung

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Was ist eine Testtheorie?

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Lage- und Streuungsparameter

Mehrdimensionale Zufallsvariablen

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

Messen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Statistik II. IV. Hypothesentests. Martin Huber

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

Mathematische und statistische Methoden I

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Auswertung und Lösung

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Name Vorname Matrikelnummer Unterschrift

1 Statistik: Das Spiel mit dem Würfel

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

INFORMATIONEN ZU DEN ERGEBNISSEN DES NEO-FFI

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Grundlagen der Testkonstruktion

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

GÜTEKRITERIEN SPEZIFISCH p. 1

Rekodierung invertierter Items

1. Einführung in die induktive Statistik

Übungsaufgaben zu Statistik II

Statistisches Testen

Methode der Naturwissenschaften

Experimentelle und quasiexperimentelle

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Ablauf. Selbstkonkordanz. Selbstkonkordanz. Selbstkonkordanz. Fokus der Studie. Selbstkonkordanz und Sportteilnahme

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

Statistik II für Betriebswirte Vorlesung 1

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Freisetzen und Fixieren von Parametern in Strukturgleichungsmodellen

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Statistik II. Regressionsanalyse. Statistik II

Annahmen des linearen Modells

Grundlagen sportwissenschaftlicher Forschung Test

R. Brinkmann Seite

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Übersicht Klassische Testtheorie (KTT) Axiomatik der klassischen Testtheorie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Transkript:

Universität der Bundeswehr München Fakultät für Pädagogik ESF: Tarnai / Schmolck / Wöhling FT 007 BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK) Reliabilität bezeichnet die Genauigkeit eines Meßverfahrens. Die Genauigkeit wird beeinträchtigt durch zufällig streuende Meßfehler, die in den Meßwert (unbemerkt) eingehen. Beispiele für diese Meßfehler sind: Unterschiede zwischen Prüflingen, die auf dem jeweiligen Erfolg / Mißerfolg beim Raten in einem multiplechoice Test beruhen; wenn einzelne Pbn bei einem zu vage formulierten Einstellungsitem "im Kopf auswürfeln", welche Antwort sie geben sollen; wenn in einem Leistungstest einzelne Pbn im Augenblick der Testung müde oder abgelenkt, andere Pbn gerade in Hochform sind. Bei all diesen Beispielen von Meßfehlern handelt es sich um den sog. Zufallsfehler, der nicht mit dem sog. Systematischen Fehler (=bias, Verzerrung) verwechselt werden darf. Dazu wieder Beispiele: Unterschiedliche Geschicklichkeit beim "Spicken" in Prüfungen; wenn einzelne Pbn bei vagen Fragen dazu neigen, ausweichend mit Nein zu antworten, während andere auch dann eine zustimmende Antwort geben, wenn eine solche Frage ihre Meinung nicht so ganz genau wiedergibt; Unterschiede in der Motivation und Anstrengungsbereitschaft in einem Leistungstest. Diese systematischen Fehler beeinträchtigen "nur" die Validität, nicht aber die Reliabilität. Für die Bestimmung der Reliabilität eines gegebenen Tests stehen verschiedene Verfahren zur Wahl. Dabei ist es wichtig zu wissen, daß es von einer Reihe von Bedingungen abhängt, wie brauchbar die einzelnen Verfahren jeweils sind. Man kann immer nur mehr oder weniger angemessene Reliabilitätsschätzungen erhalten, nie die Reliabilität eines Tests. In der Regel läßt sich aber immerhin feststellen, ob man mit einem been Verfahren die "tatsächliche" Reliabilität eher über- oder unterschätzt. In der folgenden Diskussion der einzelnen Verfahren der Reliabilitätsschätzung will ich zum einen ihre jeweiligen Voraussetzungen deutlich machen, zum anderen aber auch zeigen, daß jede Methode bee Aspekte überprüft, die über die rein formale Meßgenauigkeit hinausgehen. Eine Zusammenfassung in Form einer synoptischen Übersicht finden Sie im Anhang am Ende dieses Textes. 1. RETEST-RELIABILITÄT Das Retest-Verfahren setzt voraus, daß das zu messende Merkmal zeitlich stabil ist. Eine hohe Retest- Reliabilität beweist neben der rein formalen Meßgenauigkeit gleichzeitig auch das Zutreffen dieser nauigkeit gleichzeitig auch das Zutreffen dieser Voraussetzung. Eine geringe Retest-Reliabilität bedeutet zwar nicht notwendigerweise, daß der Test ungenau mißt - freilich, wenn der Testkonstrukteur behauptet, daß sein Test eine stabile Disposition, wie z.b. Intelligenz oder Neurotizismus mißt, muß er das auch nachweisen. Zeigt sein Test eine zu geringe Meßwertstabilität (=Retest-Reliabilität), so ist es egal, ob das an Meßwertungenauigkeit im engeren Sinn liegt, oder an Merkmalsinstabilität, der Test ist auf jeden Fall unbrauchbar. Soll der Test ein stark fluktuierendes Merkmal erfassen, z.b. augenblickliche Erregung, Ärger usw., ist das Retest-Verfahren ungeeignet und würde auf jeden Fall eine zu niedrige Schätzung erbringen. Eine Überschätzung der tatsächlichen Reliabilität ist zu erwarten, wenn der zeitliche Abstand zu gering ist und Erinnerungseffekte eine Rolle spielen. Auch Übungseffekte können die Schätzung verzerren. Das Retest-Verfahren setzt nicht voraus, daß der Test intern homogen ist. 1. PARALLELTEST-RELIABILITÄT Für die Erstellung von zwei oder mehreren parallelen Formen eines Tests gibt es verschiedene Gründe, die zunächst nichts mit der Reliabilitätsüberprüfung zu tun haben. Ein Intelligenztest läßt sich z.b. besser in einer Gruppenerhebung einsetzen, wenn man nebeneinander sitzenden Testkandidaten verschiedene Testformen geben, und damit das "Spicken" verhindern kann. Ein anderer wichtiger Anwendungsbereich von Parallelformen liegt in der Veränderungsmessung: Wird ein identischer Leistungstest zweimal vorgegeben, ist immer mit einer Verbesserung durch Lern- und Übungseffekte zu rechnen (außerdem könnten sich die richtigen Lösungen einzelner Aufgaben unter den Testkandidaten "herumsprechen"). Derartige Probleme können bei Verwendung von unterschiedlichen, aber äquivalenten Testformen weitgehend vermieden werden. Voraussetzung für derartige Verwendungen von Paralleltests ist natürlich, daß sie wirklich äquivalent sind, daß das Ergebnis eines Pbn nicht davon abhängt, welche Testform er bearbeitet hat. Die empirische Überprüfung der Äquivalenz von Testformen stellt zugleich eine Methode der Reliabilitätsschätzung dar. Die Entwicklung von Parallelformen bietet sich immer dann an, wenn es leicht ist, eine größere Zahl von guten 1 Das Konzept der internen Konsistenz bzw. Homogenität wird in Abschn. 4 näher erläutert. Datei: Y:\esf\SKRIPTEN\skr-rel07.doc (13.03.007 15:41)

METHODEN DER RELIABILITÄTSSCHÄTZUNG Items zu formulieren, als für den Test tatsächlich erforderlich sind. Das Paralleltest-Verfahren setzt keine zeitliche Stabilität des zu messenden Merkmals voraus. Freilich ist es möglich, Retest- und Paralleltest-Ansatz miteinander zu kombinieren. In diesem Fall wird die Merkmalsstabilität zusätzlich überprüft. Das Paralleltest-Verfahren setzt auch keine interne Testhomogenität voraus. Ein gutes Verfahren zur Konstruktion von Parallelformen besteht darin, daß man Paare von Items nach inhaltlichen und statistischen Kriterien zusammenstellt und nach Zufall auf die beiden Formen aufteilt. Faßt man zwei oder mehrere parallele Testformen zu einem entsprechend "längeren" (man spricht hier von "Testverlängerung" um den Faktor, 3 etc.) Test zusammen, so läßt sich die Reliabilität z.t. erheblich steigern. Man kann sich den Zusammenhang zwischen Testlänge und Reliabilität einfach so vorstellen, daß sich bei Zusammenfassung sehr vieler Einzelmessungen der Zufallsfehler (sein Erwartungswert ist Null) "herausmittelt", und damit nur noch der wahre Wert "übrig bleibt". Die bekannte Spearman-Brown Formel gibt an, welche Reliabilität man erreicht, wenn man den Test um den Faktor k verlängert ("r tt " steht für die ursprüngliche, "r ttk " für die neue Reliabilität): (1) r ttk = k r tt / (1 + (k-1) r tt ) Durch Zusammenfassung von zwei äquivalenten Formen mit der Paralleltest-Reliabilität von.60 kommt man so z.b. zu einer Reliabilität von.75. Im übrigen kann die Formel auch für Werte von k < 1, also bei Testkürzung, eingesetzt werden. 3. SPLIT-HALF-RELIABILITÄT Ich habe eben dargelegt, wie man mithilfe der Spearman-Brown Formel die Reliabilität für Tests bestimmen kann, die aus zwei Parallelformen bestehen. Natürlich kann man auch einen bestehenden Test im Nachhinein in zwei (mehr oder weniger) äquivalente Formen aufteilen. Zu diesem Zweck wird häufig das sog. odd-even Verfahren empfohlen: Man be für jeden Pbn je einen Halbtestwert aufgrund der geradzahligen und ungeradzahligen Itemnummern und wertet die Korrelation zwischen diesen Wertepaaren nach der Spearman-Brown Formel auf. Haben die beiden Testhälften unterschiedliche Varianz, sollte eine der beiden folgenden Formeln verwendet werden (V a, V b stehen für die Varianzen der Testhälften, V d für die Varianz der Differenzwerte: d=a-b und V t für die Varianz des Gesamttests: t=a+b): () r tt = 1 - V d / V t (3) r tt = ( 1 - (V a + V b ) / V t ) Diese beiden Formeln lassen sich arithmetisch ineinander überführen, und für V a = V b sind sie auch identisch mit der Spearman-Brown Formel (mit k=). In dem Maß, in dem die beiden Testhälften nicht äquivalent sind, also nicht als gekürzte, aber ansonsten parallele Formen ein- und desselben Tests gelten können, unterschätzt der split-half Koeffizient die tatsächliche Reliabilität des (Gesamt-) Tests. Dies ist insbesondere dann der Fall, wenn die Items insgesamt inhomogen sind und die Testhälften, wie das üblich ist, im Wesentlichen nach Zufall gebildet werden. Obwohl die split-half Methode zur Reliabilitätsschätzung - vermutlich wegen ihrer Anschaulichkeit - relativ häufig verwendet wird, ist dieser Ansatz doch etwas unbefriedigend. Da es für einen Test eine Vielzahl möglicher Aufteilungen in Hälften gibt (bei nur 10 Items bereits 16 mögliche Varianten!), gibt es auch entsprechend viele gleichwertige, aber numerisch doch mehr oder minder unterschiedliche mögliche Koeffizienten. Für welchen der Werte soll man sich da entscheiden? Die im nächsten Abschnitt behandelte Konsistenzanalyse stellt (auch) eine Verallgemeinerung des Prinzips der Testaufteilung dar, die diese unbefriedigende Situation auf überraschend einfache Weise löst. 4. KONSISTENZ-RELIABILITÄT Zunächst eine begriffliche Klärung: Interne Konsistenz eines Tests - die Begriffe Eindimensionalität und Homogenität werden in der Regel synonym dazu verwendet - bezeichnet das Ausmaß, in dem die Items sich auf ein- und dieselbe Dimension beziehen, dieselbe einzelne Fähigkeit erfassen, dasselbe messen. Hohe interne Konsistenz zeigt sich empirisch in hohen Interkorrelationen zwischen den Items. Der Grund für die Forderung nach Eindimensionalität von Meßverfahren liegt vor allem in der Vergleichbarkeit von Meßwerten. Bei einem sehr heterogenen Test kann ein- und derselbe Testwert durch die Lösung ganz unterschiedlicher Aufgaben zustande kommen, und da die Items nur gering interkorrelieren, kann man auch nicht davon ausgehen, daß diese verschiedenen Aufgaben im Effekt doch vergleichbar sind. Ein weiterer Nachteil heterogener Tests besteht darin, daß sie für eine ausreichende Meßgenauigkeit eine größere Itemzahl benötigen als homogene Tests. Es kann leicht gezeigt werden, daß die in der Spearman-Brown Formel dargestellte Relia- Die algebraische Äquivalenz zeigt sich bei Substitution von V d =V a +V b - COV ab und V t =V a +V b + COV ab (gemäß Theorem zur Varianz von Summen- bzw. Differenzwerten). Formel (3) ist im übrigen eine Anwendung der unten erläuterten Formel (4) für Cronbachs alpha, wobei die Testhälften wie Items behandelt werden.

METHODEN DER RELIABILITÄTSSCHÄTZUNG 3 bilitätserhöhung durch Testverlängerung nicht gilt, wenn die Testteile unkorreliert sind. Vereinfacht bedeutet das, daß jede in einem komplexen Test enthaltene Teildimension für sich mit hinreichender Genauigkeit gemessen werden muß. Freilich gibt es in einzelnen Fällen auch gute Gründe gegen eine zu hohe interne Konsistenz. Eine Krankheit, sagen wir einmal Alkoholismus, läßt sich relativ zuverlässig diagnostizieren, wenn man einfach ein Inventar der einschlägigen Symptome (=Items) zusammenstellt, und auszählt, wieviele davon zutreffen. Dabei ist es ganz typisch, daß die einzelnen Symptome wenig miteinander zu tun haben, im Extremfall können sie sogar hoch negativ korreliert sein, was dann der Fall ist, wenn sich Symptome gegenseitig ausschließen. In unserem Beispiel wäre das Fettleber und Leberzirrhose. Oder ein anderes, weniger extremes Beispiel für einen notwendigerweise nicht sehr homogenen Test: Die Items einer ESF-Klausur beziehen sich auf eine Reihe verschiedener Themenbereiche; außerdem unterscheiden sich die Items im Anforderungsniveau: etwa Definitionswissen oder Verständnis. Dabei kann man nicht davon ausgehen, und man braucht das auch nicht, daß jeder Student in jedem der Gebiete und in jeder erwarteten Fähigkeit gleich gut oder gleich schlecht ist. Es ist bekannt, daß manche Studenten etwas selektiv lernen. Das ist (in Maßen) auch mit der Klausurintention vereinbar: Es ist durchaus legitim, daß ein Student durch besonders gute Leistungen in been Bereichen einzelne Wissenslücken in anderen Bereichen ausgleichen kann. Es ist auch keineswegs ungerecht, wenn dieser Student dieselbe Klausurnote bekommt wie ein anderer, der in keinem Gebiet echte Lücken aufweist, aber auch in keinem überdurchschnittlich beschlagen ist. (Diese ausführliche Erörterung des Klausurbeispiels sollte Sie dafür sensibilisieren, daß die Zusammenfassung unterschiedlicher Dinge zu einem einzigen Wert in der Regel einer inhaltlichen Begründung bedarf.) Die interne Konsistenz eines Tests wird meist durch Cronbachs alpha (bzw. äquivalent: Kuder-Richardson 0) be (V i steht für die Varianz eines Items, V t für die Gesamtvarianz, n für die Anzahl der Items): (4) alpha = ( n / (n-1) ) (V t - V i ) / V t Die Formel läßt sich leicht durchschauen, wenn man weiß, daß die Testvarianz dargestellt werden kann als Summe der einzelnen Itemvarianzen plus mal die Summe aller Itemkovarianzen. Alpha ist, bei gegebenen Itemvarianzen, umso größer, je höher die Items untereinander korreliert sind. Bei dichotomen Items ist übrigens V i = p q, V i = p - p (p = Schwierigkeit; q = 1 - p). Obwohl alpha sehr einfach zu bestimmen ist, man benötigt neben der Itemzahl nur die einzelnen I- temschwierigkeiten (bei Dichotomaufgaben) und die Testvarianz, ist dieses Reliabilitätsmaß doch sehr aussagekräftig. Durch einfache Arithmetik läßt sich nämlich zeigen, daß diese Formel auf vier ziemlich unterschiedlichen Wegen hergeleitet werden kann 3 (teilweise dargestellt in: A.L. EDWARDS, The Measurement of Personality Traits by Scales and Inventories. New York: Holt, Rinehart & Winston, 1970): (a) Mit alpha erhält man genau den Wert, den man etwas umständlicher dadurch bestimmen könnte, daß man mit Formel () bzw. (3) sämtliche möglichen split-half Koeffizienten berechnet und daraus den Mittelwert. (b) Die bekannte Formulierung "Wenn man den Test in soviele Teile zerlegt, wie er Items hat...": Wenn man annimmt, daß alle Items äquivalente, also untereinander austauschbare Messungen des Merkmals darstellen, läßt sich die Reliabilität eines einzelnen Items durch den Durchschnittswert seiner Korrelationen mit sämtlichen anderen Items schätzen. Zur Bestimmung der Reliabilität des Gesamttests würde man wieder die Spearman-Brown Formel (1) mit dem Faktor k = Anzahl der Items anwenden. Diese Prozedur müßte man für jedes einzelne Item wiederholen, um dann schließlich den Mittelwert aus allen einzelnen Schätzungen für die Gesamttestreliabilität zu berechnen. Dieser Riesenaufwand ist freilich unnötig, da sich zeigen läßt, daß man mit Formel (4) genau dasselbe Ergebnis viel einfacher ermitteln kann. Für die Herleitung der Identität zwischen alpha und der nach Spearman-Brown aufgewerteten durchschnittlichen Iteminterkorrelation ist im übrigen die strenge Äquivalenz-Annahme gar nicht erforderlich. Die Beziehung gilt immer, wenn die Items gleiche Varianz haben, bzw. wenn der Testwert aus standardisierten Itemwerten gebildet wird. (c) Wenn man denselben Test nocheinmal durchführen würde, und dabei Erinnerungs- und Lerneffekte, sowie Merkmalsänderungen ausschließen könnte, würde alpha dann die Korrelation zwischen beiden Erhebungen genau schätzen, wenn die durchschnittliche Kovarianz zwischen unterschiedlichen Items nicht kleiner ist als die zwischen gleichen Items. Wenn diese Bedingung nicht erfüllt ist, stellt alpha, unter obengenannten Voraussetzungen, eine untere Schranke für die tatsächliche Retest-Reliabilität dar. Diese wird umso stärker unterschätzt, umso heterogener der Test ist. (d) Wenn man davon ausgeht, daß die Items eines Tests eine Zufallsstichprobe aus einem (beliebigen, auch heterogenen!) Itemuniversum darstellen, aus dem man eine weitere vergleichbare Stichprobe ziehen könnte, so stellt alpha die zu erwartende 3 Die folgenden Herleitungen und Erörterungen zur Interpretation von Alpha sind zugegebenermaßen etwas anspruchsvoll und sind, im Unterschied zur daran anschließenden Zusammenfassung, nicht als prüfungsrelevanter Stoff gedacht.

4 METHODEN DER RELIABILITÄTSSCHÄTZUNG Korrelation zwischen diesen beiden Tests, also zwischen dem vorhandenen und dem "fiktiven", dar. Der interne Konsistenzkoeffizient alpha bzw. KR-0 wird häufig zu Unrecht als direktes Maß für die Eindimensionalität bzw. Heterogenität eines Tests verwendet. Wie Herleitung (b) aber zeigt, hängt alpha nicht nur von der durchschnittlichen Iteminterkorrelation ab, sondern auch von der Zahl der Items. Verlängert man einen relativ heterogenen Test aus 10 Items mit einem alpha =.40 um weitere 10 Items, steigt alpha auf.57, bei 100 gleichermaßen heterogenen Items kommt man gar zu einem alpha =.87. Will man die Homogenität / Heterogenität verschiedener Tests miteinander vergleichen, sollte man daher jedes alpha mit Hilfe von Formel (1) auf eine konstante Itemzahl bzw. auf die durchschnittliche Iteminterkorrelation umrechnen. In Lehrbüchern wird übereinstimmend darauf hingewiesen, daß die Reliabilitätsschätzung durch die Konsistenzmethode nur für homogene Tests anwendbar sei. Der Genauigkeit halber sollte man hier aber doch darauf hinweisen, daß gemäß Ableitung (c) alpha in jedem Fall (mit einer wichtigen Einschränkung, s.u.) eine untere Schranke für die "tatsächliche" Reliabilität (das ist hier die Retest-Reliabilität unter idealisierten Bedingungen) darstellt. Wenn man also beispielsweise für einen Test eine Konsistenzreliabilität von.85 oder darüber ermittelt hat, kann dieses sehr befriedigende Ergebnis in keiner Weise durch den Einwand, der Wert sei unbrauchbar, weil der Test heterogen sei, entkräftet werden! Leider wird in Lehrbüchern meist nicht erwähnt, daß die Konsistenzschätzung in der Regel künstlich überhöht ist, wenn die einzelnen Items keine sog. "experimentell unabhängigen" Messungen darstellen. Wenn etwa die Lösung einer Statistik-Aufgabe Voraussetzung für die Lösung einer Folgeaufgabe ist, handelt es sich nicht um experimentell unabhängige Messungen; zwischen beiden Aufgaben besteht eine künstlich erhöhte Korrelation. Ähnliches gilt für einen Einstellungstest, dessen Items dasselbe Thema mit nur geringen Formulierungsänderungen immer wieder variieren. Auf der Basis von Herleitung (d) ließe sich, im Widerspruch zu den meisten gängigen Lehrbüchern, argumentieren, daß der Konsistenzkoeffizient alpha eine empirische Reliabilitätsschätzung darstellt, die für heterogene Tests genauso brauchbar ist, wie für homogene Tests. Diese Position kann im Prinzip durchaus vertreten werden, allerdings muß dabei beachtet werden, welche spezifische Bedeutung Reliabilität unter dieser Perspektive hat. Ein Koeffizient nahe Null könnte dann etwa als Hinweis genommen werden, daß "Paralleltests" aus gleichartigen Items und mit vergleichbarer (nicht unbedingt niedriger!) Validität denkbar sind, die aber doch mit dem gegebenen Test nahezu unkorreliert sind. Man kann aber nicht erkennen, wie der gegebene heterogene Test mit einem Paralleltest korrelieren würde, dessen Items nicht zufällig sondern systematisch ausgewählt wurden, z.b. mit der Vorgabe einer möglichst engen formalen und inhaltlichen Entsprechung einzelner Itempaare. Bei einem homogenen Itemuniversum gibt es keine derartigen Interpretationsprobleme: Wenn alle Items mehr oder weniger äquivalent sind, dann macht es keinen großen Unterschied, ob man die Items zufällig oder systematisch auswählt. Zusammenfassend läßt sich zu den Voraussetzungen und Interpretationsmöglichkeiten der Konsistenzanalyse folgendes festhalten: 1) Alpha sollte nicht verwendet werden, wenn zwischen den einzelnen Items rechnerische oder experimentelle Abhängigkeiten bestehen (z.b. dadurch, daß das Lösen einer Aufgabe eine notwendige Voraussetzung für die richtige Beantwortung folgender Aufgaben ist). In diesem Fall wäre Alpha artifiziell überhöht. ) Für Tests, die beanspruchen, ein homogenes Konstrukt zu erfassen, stellt alpha eine zuverlässige Reliabilitätsschätzung, sowie zugleich ein Prüfkriterium für die angenommene Eindimensionalität des Tests dar. 3) Für einen heterogenen Test, der ein breites, facettenreiches Konstrukt mit entsprechend heterogenen Items erfassen soll, ist alpha nicht die optimale Methode zur Reliabilitätsschätzung. Immerhin erlaubt es aber auch in diesem Fall, auf einfache Weise zumindest eine untere Schranke für die "tatsächliche" Reliabilität des Tests zu ermitteln. Dies ist insbesondere dann von Bedeutung, wenn kein Paralleltest vorliegt, und wenn das Retestverfahren nicht adäquat (instabiles Merkmal) ist oder aus anderen (z.b. Kosten-) Gründen undurchführbar erscheint.

METHODEN DER RELIABILITÄTSSCHÄTZUNG 5 5. KONTROLLFRAGEN 1. Klassische Testtheorie Satz : Ausgangspunkt der klassischen Testtheorie ist die Beschreibung des Testwerts als eine additive Kombination von "wahrem Wert" und systematischem Fehler (=Bias, Verzerrung) Es konnte empirisch nachgewiesen werden, daß unsystematische oder Zufallsfehlerbestandteile vernachlässigt werden können C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig. Testtheorie "wahre" Varianz Satz : Der Reliabilitätskoeffizient gibt an, wie groß der Varianzanteil des "wahren Werts" an der Testwertvarianz ist. Die Korrelation zwischen zwei unabhängig mit demselben Instrument erhobenen Meßwertreihen ist gleich der quadrierten Korrelation zwischen dem Meßwert und seinem meßfehlerfreien Bestandteil. C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 3. Standardmeßfehler: Praktische Bedeutung Die praktische Bedeutung des Standardmeßfehlers besteht darin, daß mit Satz : ihm das Vertrauensintervall von Meßwerten be werden kann, Die Größe dieses Vertrauensintervalls hängt u.a. davon ab, mit welchem Fehlerrisko ( z.b. 5%, 1%, 0.1% ) man arbeitet C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 4. Die Skalen des Freiburger Persönlichkeitsinventars (FPI-R) sollen zeitlich stabile und breite, facettenreiche, also relativ inhomogene Persönlichkeitsdimensionen erfassen. Es liegen keine Parallelformen vor. Satz : Zur Feststellung der Reliabilität der Skalen des FPI-R ist das Retest- Verfahren besser geeignet als Verfahren der Internen Konsistenz (Cronbachs Alpha) Die Berechnung von Cronbachs Alpha setzt voraus, daß jede Test-Skala in zwei äquivalente Formen aufgeteilt werden kann ("split-half"). C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 5. Überprüfen Sie die Eignung der verschiedenen Verfahren der Reliabilitätsschätzung zur Überprüfung der Meßgenauigkeit der Statistikklausur (s. Begleittext Testverfahren I). Berechnen Sie Cronbachs alpha unter Zugrundelegung der drei Subtests (RECHNEN, MCHOICE, OFFEN) anstelle von Items.

6 METHODEN DER RELIABILITÄTSSCHÄTZUNG ANHANG: METHODEN DER RELIABILITÄTSSCHÄTZUNG IM ÜBERBLICK Retest Paralleltest Split-Half / Konsistenz (Alpha) Aufwand / Vorgehen Test muß zweimal mit denselben Personen durchgeführt werden Konstruktion einer Parallelform: noch einmal soviele, gleich gut geeignete Items erforderlich. Erhebung beider Formen bei denselben Personen Nur einmalige Erhebung des (einen) Tests. Auch die Berechnung, v.a. von Alpha, sehr leicht durchführbar: nur Itemvarianzen und Gesamtvarianz müssen berechnet werden. Koeffizient erfaßt / bedeutet Korrelation zwischen Test- und Retestwerten Korrelation zwischen Werten für Testform A und Testform B Korrelation zwischen Testhälften, aufgewertet (Spearman- Brown) für die Länge des gesamten Tests; Alpha stellt einen Durchschnittswert für alle möglichen Testhalbierungen dar. Angenommene Voraussetzungen Merkmal stabil (zumindest über Retest- Intervall) Formen A und B äquivalent, d.h. in der Anwendung austauschbar (a) gemessenes Merkmal homogen, Test eindimensional; (b) Items experimentell unabhängig Konsequenzen, wenn Annahmen nicht (voll) erfüllt Tatsächliche Meßgenauigkeit der Erstbzw. Zweiterhebungswerte wird unterschätzt Tatsächliche Meßgenauigkeit beider Formen wird unterschätzt (a) Tatsächliche Meßgenauigkeit wird unterschätzt; (b) Tatsächliche Meßgenauigkeit wird überschätzt Was folgt, wenn Koeffizient hoch? Hohe Meßgenauigkeit und gemessenes Merkmal stabil Hohe Meßgenauigkeit und Formen äquivalent Hohe Meßgenauigkeit und Test eindimensional

METHODEN DER RELIABILITÄTSSCHÄTZUNG 7 ANHANG: GLEICHUNGEN UND FORMELN DER KLASSISCHEN TESTTHEORIE DIE GRUNDGLEICHUNG DER KTT (0) X = T + E DIE 3 SOG. AXIOME DER KTT (1) µ = 0 () E TE = 0 (3) EE 1 = 0 (4) aus (0) und (): = + E X T oder: 1 = + T X E X RELIABILITÄT ρ XX = T X oder: ρ XX = 1 E X STANDARDMEßFEHLER E = X T = = 1 ρ E E X XX ZUSAMMENHANG VARIANZ DIFFERENZWERTE (TEST-RETEST) MIT FEHLERVARIANZ = 1 E