Definition von Validität

Definition von Validität Validität ( Gültigkeit ) wird häufig kurz gefasst damit dass der Test tatsächlich dasjenige Merkmal misst, das er messen soll. Validität ist ein integriertes bewertendes Urteil über das Ausmaß, in dem Angemessenheit und Güte von Interpretationen und Maßnahmen auf Basis von Testwerten oder anderen diagnostischen Verfahren durch empirische Belege und theoretische Argumente gestützt sind. (Messick, 1989, S. 13; Übersetzung J.H.) Definition von Validität Die Frage ob ein Test misst was er messen soll klingt zunächst sehr einfach, ist aber auf den zweiten Blick schwierig auf erschöpfende Weise zu beantworten. Es gibt verschiedene Strategien und verschiedene Kriterien, um diese Frage zu beantworten. Diese verschiedenen möglichen Kriterien haben in der Literatur zu einer Menge verschiedener Validitäten geführt. Validität t von Testwert-Interpretationen Statt von der Validität eines Tests zu sprechen, ist es daher angemessener, die Validität (Gültigkeit) verschiedener möglicher Interpretationen von Ergebnissen eines Tests zu betrachten. Bei der Validierung, d. h. der Untersuchung der Validität von Testwertinterpretationen, sollte daher zunächst spezifiziert werden, auf welche Interpretation eines Testergebnisses sich die Validierung bezieht. 1

Interpretationen von Testergebnissen Verschiedene Interpretationen eines Testergebnisses (vgl. Kane, 2001) können sich zum Beispiel beziehen auf das Bewerten des Ergebnisses, das Verallgemeinern des Ergebnisses, das Extrapolieren über das Testergebnis hinaus, das (kausale) Erklären ren eines Testwertes und das Treffen weiterführender Entscheidungen als Konsequenz aus dem Testergebnis. Validierung als theoriegeleitete Forschung Die Validierung eines Tests ist kein immer gleiches Routineverfahren, sondern erfolgt durch theoriegeleitete Forschung Unterschiedliche Interpretationen eines Testergebnisses sollen legitimiert oder auch falsifiziert werden können. Validierung als theoriegeleitete Forschung Vor einer Validierung ist daher zunächst vor dem Hintergrund theoretischer Überlegungen und vor dem Hintergrund des Anwendungskontexts zu entscheiden, welche Interpretationen eines Testergebnisses für den jeweiligen Test am wichtigsten sind. Anschließend gilt es, diese Interpretationen durch geeignete theoretische Argumente und empirische Befunde zu unterstützen. 2

Geschichte des Validitätsbegriffs tsbegriffs Um die Vielfalt unterschiedlicher Validitätsbegriffe in Literatur und empirischen Untersuchungen zu verstehen, ist es hilfreich, die Entwicklungsgeschichte des Validitätsbegriffs zu betrachten. Beginn des 20. Jahrhunderts: Kriteriumsvalidität Das interessierende Merkmal kann anstelle der Verwendung eines Tests auch direkt gemessen werden. Kriteriumsvalidität eines Tests kann über den Zusammenhang zwischen den individuellen Ausprägungen des Kriteriums und den entsprechenden individuellen Testwerten ermittelt werden. Diese Konzeption ein ohne jeden Zweifel valides Kriterium voraus, dies trifft nur für sehr wenige Merkmale zu. Geschichte des Validitätsbegriffs tsbegriffs 1950er Jahre: Konstruktvalidität Der Begriff Konstrukt drückt aus, dass die in psychologischen Testverfahren erfassten Merkmale immer konstruierte Größen sind, die im Rahmen eines diagnostischen Anwendungskontexts und / oder einer psychologischen Theorie definiert werden. Die Konstruktvalidierung eines Tests sollte durch die empirische Überprüfung von Zusammenhangsstrukturen erfolgen, die aus formalen theoretischen Annahmen über das zu erfassende Merkmal abgeleitet wurden. Lee J. Cronbach & Paul E. Meehl (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302. http://psychclassics.yorku.ca/cronbach/construct.htm Geschichte des Validitätsbegriffs tsbegriffs 1950er bis 1990er Jahre Konstruktvalidität entwickelte sich in den 1950er bis 1970er Jahren zum verbindenden Konzept für eine Betrachtung von Validität als ein einheitliches Gütekriterium. Problem: Psychologische Theorien sind oft zu schwach entwickelt sind, um formalisierte Hypothesen über ein Konstrukt abzuleiten. Cronbach (1980): Konstruktvalidität wurde oft als eine Mülleimerkategorie verwendet; beliebige Korrelationen eines Testwertes mit anderen Variablen wurden als Belege für Konstruktvalidität bezeichnet, ohne dass eine verbindende theoretische Argumentation formuliert wurde. 3

Geschichte des Validitätsbegriffs tsbegriffs Neuere Konzeptionen von Validität Für neuere Konzeptionen von Validität ist der Bezug auf theoretische Konstrukte weiterhin bedeutsam, die Bedeutung formalisierter Theorien ist jedoch in den Hintergrund getreten. Im Mittelpunkt steht nun die Validität der Interpretationen und der Verwendungen diagnostischer Ergebnisse. Zur Validierung der Interpretation eines Testergebnisses wird geprüft, welche theoretischen Argumente und empirischen Belege für aber auch gegen die spezifische Interpretation sprechen. z.b. Michael T. Kane (2001). Current Concerns in Validity Theory. Journal of Educational Measurement 38, 319-342. Verschiedene Validitätsbegriffe tsbegriffe Je nach der Interpretation eines Testergebnisses werden verschiedene Validitätsaspekte unterschieden, die mit verschiedenen Methoden der Validierung verbunden sind. Die wichtigsten Aspekte der Validität eines Tests werden unter den Begriffen Inhaltsvalidität, Konstruktvalidität und Kriteriumsvalidität zusammengefasst. Inhaltsvalidität Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte eines Tests bzw. der Items, aus denen er sich zusammensetzt, tatsächlich das interessierende Konstrukt erfassen. 4

Operationale und theoretische Konstruktdefinitionen Bei einer operationalen Definition wird das Konstrukt allein durch die Testinhalte definiert. z.b. an Lehrplänen orientierte Schulleistungstests Bei theoretischen Konstrukten wird ein Konstrukts im Rahmen einer Theorie spezifiziert. Durch die Theorie wird spezifiziert, worauf bestimmte Unterschiede zwischen Personen zurückzuführen sind und warum sich diese Unterschiede in den Testergebnissen ausdrücken. z.b. das biologische Persönlichkeitsmodell von Eysenck Inhaltsvalidität t bei operational definierten Konstrukten Bei operational definierten Konstrukten bezieht sich Inhaltsvalidität vor allem auf die verallgemeinernde Interpretation von Testergebnissen. Es ist hierzu zu belegen, dass die Items des Tests inhaltlich den interessierenden Gegenstandsbereich, auf den verallgemeinert werden soll, umfassend abdecken. In diesem Zusammenhang wird auch von einem Repräsentationsschluss gesprochen. Inhaltsvalidität t bei theoretischen Konstrukten Bei theoretischen Konstrukten bezieht sich Inhaltsvalidität zusätzlich zur verallgemeinernden auch auf eine erklärende Interpretation von Testergebnissen auf Itemebene. Unterschiedliche Antworten auf die Items sollen durch Unterschiede im zu erfassenden Konstrukt erklärt werden können (vgl. Borsboom, Mellenbergh & van Heerden, 2004). Ein derartiger Nachweis ist vor allem durch eine gute theoretische Fundierung und Konstruktdefinition zu leisten. 5

Konstruktvalidität: t: Theoriebasierte Testwertinterpretationen Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte gestützt wird, die sowohl die Testergebnisse selbst als auch die Zusammenhänge der Testwerte mit anderen Variablen erklären. (Messick, 1995, S. 743, Übersetzung J.H. & A.F.) Konstruktvalidität: t: Theoriebasierte Testwertinterpretationen Grundidee der Konstruktvalidität im Sinne Cronbach & Meehls (1955): Im Bereich der Theorie werden nicht direkt beobachtbare theoretische Konstrukte und deren theoretische Zusammenhänge ( Axiome ) untereinander definiert. Es werden Annahmen ( Korrespondenzregeln ) formuliert, welche Konstrukte in Verbindung mit welchen beobachtbaren Testwerten stehen. Aufgrund der theoretischen Zusammenhänge von Konstrukten lassen sich entsprechende Vorhersagen für die Zusammenhänge beobachtbarer Testwerte ableiten, die empirisch überprüft werden können. Konstruktvalidität: t: Theoriebasierte Testwertinterpretationen Grundidee der Konstruktvalidität im Sinne Cronbach & Meehls (1955). Theorie Konstrukt A Konstrukt B Konstrukt C Beobachtung X A X B X C Axiome Korrespondenzregeln Empirische Gesetze 6

Konstruktvalidität: t: konvergente und diskriminante Validität Wird theoretisch ein möglichst hoher Zusammenhang zwischen zwei Tests erwartet, dann spricht man von konvergenter Validität. z.b. ein neuer Intelligenztest mit einem bereits bestehenden Verfahren, das ebenfalls Intelligenz misst. In Abgrenzung dazu spricht man von diskriminanter Validität, wenn theoretisch kein oder ein im Betrag niedriger Zusammenhang zwischen zwei Tests angenommen wird. z. B. ein Test zur Messung von Extraversion, der keinen Zusammenhang mit Neurotizismus aufweisen sollte. Validität t diagnostischer Entscheidungen In der psychodiagnostischen Praxis Testergebnisse herangezogen, um Entscheidungen mit teilweise weit reichenden Konsequenzen für die getesteten Personen zu treffen. Für derartige praktische Entscheidungen werden vor allem extrapolierende Interpretationen der Testergebnisse vorgenommen. Validität t diagnostischer Entscheidungen Bei einer Entscheidung auf Basis eines Testergebnisses wird von einem Testwert darauf geschlossen, wie sich eine Person in Situationen außerhalb der eigentlichen Testsituation vermutlich verhalten wird. Validität bedeutet hier, dass die extrapolierenden Interpretationen gerechtfertigt sind, auf der die Entscheidungen basieren. Die Validierung erfolgt durch die empirische Untersuchung der Zusammenhänge der Testwerte mit externen Kriterien. 7

Validität t diagnostischer Entscheidungen: Multiple Validität Eine diagnostische Entscheidung kann auch auf Basis mehrerer Tests ( Testbatterie ) getroffen werden. Die Güte der Vorhersage eines Entscheidungsrelevanten Kriteriums kann empirische z.b. durch eine lineare Regressionsanalyse untersucht werden. Der dabei gefundene Zusammenhang wird manchmal als Multiple Validität bezeichnet. Validität t diagnostischer Entscheidungen: Inkrementelle Validität Die Inkrementelle Validität bezeichnet das Ausmaß, indem die Vorhersage eines Kriteriums durch die Hinzunahme eines weiteren Tests verbessert werden kann. Sie kann in einer multiplen Regression durch den Zuwachs an erklärter Varianz bei der Vorhersage eines externen Kriterium ermittelt werden. Hierbei gilt es vor allem, eine ökonomische Entscheidung zu treffen, welcher zusätzliche diagnostische Aufwand noch zu einer lohnenden Verbesserung der Entscheidungsgrundlage führt. Wahl einer geeigneten Validierungsstrategie Ein Testergebnis kann in vielfältiger Weise interpretiert werden, entsprechend vielfältig sind die möglichen Strategien zur Validierung dieser Interpretationen. Bei der Neuentwicklung eines Tests stellt sich die Frage, wie mit dieser Vielfalt am besten umgegangen werden soll. Für jede mögliche Interpretation und Verwendung eines Testwertes Argumente oder empirische Belege zu erbringen, ist i.d.r. ein unrealistisches Unterfangen. 8

Wahl einer geeigneten Validierungsstrategie In der Regel lässt sich relativ leicht entscheiden, welche Interpretationen und Verwendungen für einen Test besonders wichtig sind. Hieraus lassen sich Prioritäten ableiten, welche Validierungsstrategien vor allem verfolgt werden sollten. Für viele Tests werden einige Interpretationen irrelevant sein, so dass auf bestimmte Validierungsstrategien gut verzichtet werden kann. Wahl einer geeigneten Validierungsstrategie Beispiel für Validierung mit Schwerpunkt auf dem Repräsentationsschluss Wenn ein Test die Erfüllung eines Lehrplans prüfen soll, ist die wichtigste Interpretation des Testergebnisses eine Verallgemeinerung auf das Lernziel verallgemeinert. Der wichtigste Beleg für die Zulässigkeit dieser Verallgemeinerung ( curricularen Validität ) besteht darin, dass sich Experten einig sind, dass die Testinhalte die im Lehrplan definierten Fähigkeiten gut repräsentieren. Für die Validität der Testwertinterpretation ist es hingegen unbedeutend, welche Zusammenhänge die Leistungen im Test mit anderen Tests (zum Beispiel Intelligenz- oder Persönlichkeitstests) aufweisen. Wahl einer geeigneten Validierungsstrategie Beispiel für Validierung mit Schwerpunkt auf theoriebasierter Testwertinterpretation Für einen Test, der im Kontext psychologischer Forschung das theoretische Konstrukt Extraversion erfassen soll ist es am wichtigsten, dass die Testergebnisse tatsächlich auf dieses Konstrukt zurückzuführen sind. Eine umfassende Konstruktvalidierung anhand der Vorhersage experimenteller Effekte und der korrelativen Zusammenhänge mit anderen theoretisch relevanten Variablen ist hier die adäquate Strategie zur Stützung dieser Testwertinterpretation. Ob sich z.b. anhand des Testergebnisses die Eignung für bestimmte Berufe prognostizieren lässt ist hier unbedeutend. 9

Wahl einer geeigneten Validierungsstrategie Beispiel für Validierung mit Schwerpunkt auf diagnostischen Entscheidungen Wenn mit einem Test oder einer Testbatterie die BewerberInnen für Studiengang ausgewählt werden sollen ist es am wichtigsten, dass von den Testergebnissen auf praktisch relevante Kriterien wie Studiendauer und Abschlussnoten geschlossen werden kann. Um diese Interpretation zu rechtfertigen, muss der Zusammenhang zwischen den Testergebnissen und den Kriterien empirisch nachgewiesen werden. In diesem Kontext ist es meistens irrelevant, mit welchen anderen Variablen die Testergebnisse in welcher Weise zusammenhängen. 10