Definition von Validität



Ähnliche Dokumente
Forschungsmethoden VORLESUNG WS 2017/2018

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Forschungsmethoden VORLESUNG SS 2017

7 Validität. Hartig, Frey & Jude Validität Entwurf Feb Johannes Hartig, Andreas Frey & Nina Jude

TEIL 13: DIE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

VERLAG JULIUS KLINKHARDT BAD HEILBRUNN 2005

Was ist eine Testtheorie?

Bis heute: Überblick Einheit Literatur lesen. 2. Introspektion. 3. Thema definieren und eingrenzen. Untersuchungsproblem.

Herzlich willkommen zur Vorlesung. Methoden der empirischen Sozialforschung I. Vom Begriff zur Messung

Mathematische und statistische Methoden I

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Psychometrische Untersuchung der auditiven Perzeptionsleistung bei Kindern mit Verdacht auf auditive Verarbeitungs- und Wahrnehmungsstörungen

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Empirische Methoden zur Analyse gesprochener Sprache

Reliabilitäts- und Itemanalyse

4.1 Grundlagen der psychologischen Diagnostik. Wintersemester 2008/ 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

diagnostische Herausforderung

Sozialwissenschaftliche Methoden und Methodologie. Begriffe, Ziele, Systematisierung, Ablauf. Was ist eine Methode?

Effekte der Arbeitszeitgestaltung auf die Work-Life Balance und psychovegetative Beeinträchtigungen

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

1 EINLEITUNG... 1 TEIL I: STAND DER FORSCHUNG PROFESSIONELLES WISSEN UND HANDELN VON LEHRKRÄFTEN Fachwissen...

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Klausuraufgaben für Probeklausur. 1.Die Zuverlässigkeit von Kodierern in der Inhaltsanalyse kann man berechnen.

eher kristalline als fluide Intelligenz geteilte Varianz mit fluider Intelligenz nur bei 1%, für kristalline Intelligenz 11% (entspricht r=.3-.

Wissenschaftstheoretische Grundlagen

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Methodik der multiplen linearen Regression

Die Bedeutung der Evaluationsfragestellung für das Bewerten

5. Sitzung. Methoden der Politikwissenschaft: Wissenschaftstheorie

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Eigene MC-Aufgaben Kap. 4 Operationalisierung & Indikatorenauswahl (X aus 5)

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Inhaltsverzeichnis. Vorwort 5. Inhaltsverzeichnis 7. Abbildungsverzeichnis 11. Tabellenverzeichnis Einleitung 15

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Übungen (HS-2010): Urteilsfehler. Autor: Siegfried Macho

E i n z e l f a l l s t u d i e n u n d K o m p a r a t i o n s f o r s c h u n g. Beispiele für i d i o g r a p h i s c h e Methoden

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Inhaltsverzeichnis. 1 Warum und für wen dieses Buch Ziele Überblick Benutzungshinweise... 4

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Inhalt. 2. Ein empirisches Beispiel als Hintergrund 2.1 Die Studie von Preckel & Freund (2006) 2.2 Rückblick

Forschungsmethoden VORLESUNG WS 2017/2018

Einführung in die Induktive Statistik: Varianzanalyse

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Vorgehen bei der Testkonstruktion. Allgemeines zur Testkonstruktions-Hausarbeit. Mögliche Themenbereiche der

Fragestellung Fragestellungen

Modellvorstellungen zur Gruppenentwicklung

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

"Eigenschaften-Situationen-Verhaltensweisen - ESV" Eine ökonomische Ratingform des 16 PF. Werner Stangl. Zielsetzung

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Testtheorie und Fragebogenkonstruktion

8. Entscheidungstheorie: Selektion oder Klassifikation

Forschungsmethoden VORLESUNG SS 2017

Grundlagen der Statistik

Aufnahmeprüfung Psychologie. Studienjahr 2015 / 2016

Einführung in die Psychologie

Name Vorname Matrikelnummer Unterschrift

Forschungsstatistik I

Hauptseminar: Diagnostik in der Schule

Unterschiedliche Zielarten erfordern. unterschiedliche Coaching-Tools

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Universität zu Köln. Vorbereitung auf die mündliche und schriftliche Staatsexamensprüfung. Termin 2: Kriterien für gute Prüfungen

TESTS & BEOBACHTUNGSBÖGEN ALS INSTRUMENTE PÄDAGOGISCHER DIAGNOSTIK

Allgemeine Informationen zur Erstellung einer Masterarbeit in der Abt. Arbeits- und Organisationspsychologie

Checkliste Promotion: Ausländische Bildungsabschlüsse

Methode der Naturwissenschaften

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Der Autokäufer das bekannte Wesen

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

Kritische Sicht auf die Diagnostik in Psychiatrie und Psychotherapie

Der Weg zur Erfassung von Angst und Traurigkeit

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Biometrische Planung von Versuchsvorhaben

Lösung zur Übungsaufgabe Kapitel 4

Aufgaben zu Kapitel 4

Ablauf. Selbstkonkordanz. Selbstkonkordanz. Selbstkonkordanz. Fokus der Studie. Selbstkonkordanz und Sportteilnahme

Welche der folgenden Aussagen ist/sind richtig? Kreuzen Sie bitte jede zutreffende Aussage an.

Wissenschaftliches Arbeiten

Einführung in die Statistik Testgütekriterien

ARBEITSKREIS E-LEARNING. Peer Assessments

Eigene MC-Fragen LÜCK, Kapitel 1 Möglichkeiten & Methoden der Psychologiegeschichtsschreibung

Persönlichkeit und Kriminalität

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Übersicht: Methoden in der Psychologie

Kausalanalyse Überblick (I)

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Transkript:

Definition von Validität Validität ( Gültigkeit ) wird häufig kurz gefasst damit dass der Test tatsächlich dasjenige Merkmal misst, das er messen soll. Validität ist ein integriertes bewertendes Urteil über das Ausmaß, in dem Angemessenheit und Güte von Interpretationen und Maßnahmen auf Basis von Testwerten oder anderen diagnostischen Verfahren durch empirische Belege und theoretische Argumente gestützt sind. (Messick, 1989, S. 13; Übersetzung J.H.) Definition von Validität Die Frage ob ein Test misst was er messen soll klingt zunächst sehr einfach, ist aber auf den zweiten Blick schwierig auf erschöpfende Weise zu beantworten. Es gibt verschiedene Strategien und verschiedene Kriterien, um diese Frage zu beantworten. Diese verschiedenen möglichen Kriterien haben in der Literatur zu einer Menge verschiedener Validitäten geführt. Validität t von Testwert-Interpretationen Statt von der Validität eines Tests zu sprechen, ist es daher angemessener, die Validität (Gültigkeit) verschiedener möglicher Interpretationen von Ergebnissen eines Tests zu betrachten. Bei der Validierung, d. h. der Untersuchung der Validität von Testwertinterpretationen, sollte daher zunächst spezifiziert werden, auf welche Interpretation eines Testergebnisses sich die Validierung bezieht. 1

Interpretationen von Testergebnissen Verschiedene Interpretationen eines Testergebnisses (vgl. Kane, 2001) können sich zum Beispiel beziehen auf das Bewerten des Ergebnisses, das Verallgemeinern des Ergebnisses, das Extrapolieren über das Testergebnis hinaus, das (kausale) Erklären ren eines Testwertes und das Treffen weiterführender Entscheidungen als Konsequenz aus dem Testergebnis. Validierung als theoriegeleitete Forschung Die Validierung eines Tests ist kein immer gleiches Routineverfahren, sondern erfolgt durch theoriegeleitete Forschung Unterschiedliche Interpretationen eines Testergebnisses sollen legitimiert oder auch falsifiziert werden können. Validierung als theoriegeleitete Forschung Vor einer Validierung ist daher zunächst vor dem Hintergrund theoretischer Überlegungen und vor dem Hintergrund des Anwendungskontexts zu entscheiden, welche Interpretationen eines Testergebnisses für den jeweiligen Test am wichtigsten sind. Anschließend gilt es, diese Interpretationen durch geeignete theoretische Argumente und empirische Befunde zu unterstützen. 2

Geschichte des Validitätsbegriffs tsbegriffs Um die Vielfalt unterschiedlicher Validitätsbegriffe in Literatur und empirischen Untersuchungen zu verstehen, ist es hilfreich, die Entwicklungsgeschichte des Validitätsbegriffs zu betrachten. Beginn des 20. Jahrhunderts: Kriteriumsvalidität Das interessierende Merkmal kann anstelle der Verwendung eines Tests auch direkt gemessen werden. Kriteriumsvalidität eines Tests kann über den Zusammenhang zwischen den individuellen Ausprägungen des Kriteriums und den entsprechenden individuellen Testwerten ermittelt werden. Diese Konzeption ein ohne jeden Zweifel valides Kriterium voraus, dies trifft nur für sehr wenige Merkmale zu. Geschichte des Validitätsbegriffs tsbegriffs 1950er Jahre: Konstruktvalidität Der Begriff Konstrukt drückt aus, dass die in psychologischen Testverfahren erfassten Merkmale immer konstruierte Größen sind, die im Rahmen eines diagnostischen Anwendungskontexts und / oder einer psychologischen Theorie definiert werden. Die Konstruktvalidierung eines Tests sollte durch die empirische Überprüfung von Zusammenhangsstrukturen erfolgen, die aus formalen theoretischen Annahmen über das zu erfassende Merkmal abgeleitet wurden. Lee J. Cronbach & Paul E. Meehl (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302. http://psychclassics.yorku.ca/cronbach/construct.htm Geschichte des Validitätsbegriffs tsbegriffs 1950er bis 1990er Jahre Konstruktvalidität entwickelte sich in den 1950er bis 1970er Jahren zum verbindenden Konzept für eine Betrachtung von Validität als ein einheitliches Gütekriterium. Problem: Psychologische Theorien sind oft zu schwach entwickelt sind, um formalisierte Hypothesen über ein Konstrukt abzuleiten. Cronbach (1980): Konstruktvalidität wurde oft als eine Mülleimerkategorie verwendet; beliebige Korrelationen eines Testwertes mit anderen Variablen wurden als Belege für Konstruktvalidität bezeichnet, ohne dass eine verbindende theoretische Argumentation formuliert wurde. 3

Geschichte des Validitätsbegriffs tsbegriffs Neuere Konzeptionen von Validität Für neuere Konzeptionen von Validität ist der Bezug auf theoretische Konstrukte weiterhin bedeutsam, die Bedeutung formalisierter Theorien ist jedoch in den Hintergrund getreten. Im Mittelpunkt steht nun die Validität der Interpretationen und der Verwendungen diagnostischer Ergebnisse. Zur Validierung der Interpretation eines Testergebnisses wird geprüft, welche theoretischen Argumente und empirischen Belege für aber auch gegen die spezifische Interpretation sprechen. z.b. Michael T. Kane (2001). Current Concerns in Validity Theory. Journal of Educational Measurement 38, 319-342. Verschiedene Validitätsbegriffe tsbegriffe Je nach der Interpretation eines Testergebnisses werden verschiedene Validitätsaspekte unterschieden, die mit verschiedenen Methoden der Validierung verbunden sind. Die wichtigsten Aspekte der Validität eines Tests werden unter den Begriffen Inhaltsvalidität, Konstruktvalidität und Kriteriumsvalidität zusammengefasst. Inhaltsvalidität Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte eines Tests bzw. der Items, aus denen er sich zusammensetzt, tatsächlich das interessierende Konstrukt erfassen. 4

Operationale und theoretische Konstruktdefinitionen Bei einer operationalen Definition wird das Konstrukt allein durch die Testinhalte definiert. z.b. an Lehrplänen orientierte Schulleistungstests Bei theoretischen Konstrukten wird ein Konstrukts im Rahmen einer Theorie spezifiziert. Durch die Theorie wird spezifiziert, worauf bestimmte Unterschiede zwischen Personen zurückzuführen sind und warum sich diese Unterschiede in den Testergebnissen ausdrücken. z.b. das biologische Persönlichkeitsmodell von Eysenck Inhaltsvalidität t bei operational definierten Konstrukten Bei operational definierten Konstrukten bezieht sich Inhaltsvalidität vor allem auf die verallgemeinernde Interpretation von Testergebnissen. Es ist hierzu zu belegen, dass die Items des Tests inhaltlich den interessierenden Gegenstandsbereich, auf den verallgemeinert werden soll, umfassend abdecken. In diesem Zusammenhang wird auch von einem Repräsentationsschluss gesprochen. Inhaltsvalidität t bei theoretischen Konstrukten Bei theoretischen Konstrukten bezieht sich Inhaltsvalidität zusätzlich zur verallgemeinernden auch auf eine erklärende Interpretation von Testergebnissen auf Itemebene. Unterschiedliche Antworten auf die Items sollen durch Unterschiede im zu erfassenden Konstrukt erklärt werden können (vgl. Borsboom, Mellenbergh & van Heerden, 2004). Ein derartiger Nachweis ist vor allem durch eine gute theoretische Fundierung und Konstruktdefinition zu leisten. 5

Konstruktvalidität: t: Theoriebasierte Testwertinterpretationen Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte gestützt wird, die sowohl die Testergebnisse selbst als auch die Zusammenhänge der Testwerte mit anderen Variablen erklären. (Messick, 1995, S. 743, Übersetzung J.H. & A.F.) Konstruktvalidität: t: Theoriebasierte Testwertinterpretationen Grundidee der Konstruktvalidität im Sinne Cronbach & Meehls (1955): Im Bereich der Theorie werden nicht direkt beobachtbare theoretische Konstrukte und deren theoretische Zusammenhänge ( Axiome ) untereinander definiert. Es werden Annahmen ( Korrespondenzregeln ) formuliert, welche Konstrukte in Verbindung mit welchen beobachtbaren Testwerten stehen. Aufgrund der theoretischen Zusammenhänge von Konstrukten lassen sich entsprechende Vorhersagen für die Zusammenhänge beobachtbarer Testwerte ableiten, die empirisch überprüft werden können. Konstruktvalidität: t: Theoriebasierte Testwertinterpretationen Grundidee der Konstruktvalidität im Sinne Cronbach & Meehls (1955). Theorie Konstrukt A Konstrukt B Konstrukt C Beobachtung X A X B X C Axiome Korrespondenzregeln Empirische Gesetze 6

Konstruktvalidität: t: konvergente und diskriminante Validität Wird theoretisch ein möglichst hoher Zusammenhang zwischen zwei Tests erwartet, dann spricht man von konvergenter Validität. z.b. ein neuer Intelligenztest mit einem bereits bestehenden Verfahren, das ebenfalls Intelligenz misst. In Abgrenzung dazu spricht man von diskriminanter Validität, wenn theoretisch kein oder ein im Betrag niedriger Zusammenhang zwischen zwei Tests angenommen wird. z. B. ein Test zur Messung von Extraversion, der keinen Zusammenhang mit Neurotizismus aufweisen sollte. Validität t diagnostischer Entscheidungen In der psychodiagnostischen Praxis Testergebnisse herangezogen, um Entscheidungen mit teilweise weit reichenden Konsequenzen für die getesteten Personen zu treffen. Für derartige praktische Entscheidungen werden vor allem extrapolierende Interpretationen der Testergebnisse vorgenommen. Validität t diagnostischer Entscheidungen Bei einer Entscheidung auf Basis eines Testergebnisses wird von einem Testwert darauf geschlossen, wie sich eine Person in Situationen außerhalb der eigentlichen Testsituation vermutlich verhalten wird. Validität bedeutet hier, dass die extrapolierenden Interpretationen gerechtfertigt sind, auf der die Entscheidungen basieren. Die Validierung erfolgt durch die empirische Untersuchung der Zusammenhänge der Testwerte mit externen Kriterien. 7

Validität t diagnostischer Entscheidungen: Multiple Validität Eine diagnostische Entscheidung kann auch auf Basis mehrerer Tests ( Testbatterie ) getroffen werden. Die Güte der Vorhersage eines Entscheidungsrelevanten Kriteriums kann empirische z.b. durch eine lineare Regressionsanalyse untersucht werden. Der dabei gefundene Zusammenhang wird manchmal als Multiple Validität bezeichnet. Validität t diagnostischer Entscheidungen: Inkrementelle Validität Die Inkrementelle Validität bezeichnet das Ausmaß, indem die Vorhersage eines Kriteriums durch die Hinzunahme eines weiteren Tests verbessert werden kann. Sie kann in einer multiplen Regression durch den Zuwachs an erklärter Varianz bei der Vorhersage eines externen Kriterium ermittelt werden. Hierbei gilt es vor allem, eine ökonomische Entscheidung zu treffen, welcher zusätzliche diagnostische Aufwand noch zu einer lohnenden Verbesserung der Entscheidungsgrundlage führt. Wahl einer geeigneten Validierungsstrategie Ein Testergebnis kann in vielfältiger Weise interpretiert werden, entsprechend vielfältig sind die möglichen Strategien zur Validierung dieser Interpretationen. Bei der Neuentwicklung eines Tests stellt sich die Frage, wie mit dieser Vielfalt am besten umgegangen werden soll. Für jede mögliche Interpretation und Verwendung eines Testwertes Argumente oder empirische Belege zu erbringen, ist i.d.r. ein unrealistisches Unterfangen. 8

Wahl einer geeigneten Validierungsstrategie In der Regel lässt sich relativ leicht entscheiden, welche Interpretationen und Verwendungen für einen Test besonders wichtig sind. Hieraus lassen sich Prioritäten ableiten, welche Validierungsstrategien vor allem verfolgt werden sollten. Für viele Tests werden einige Interpretationen irrelevant sein, so dass auf bestimmte Validierungsstrategien gut verzichtet werden kann. Wahl einer geeigneten Validierungsstrategie Beispiel für Validierung mit Schwerpunkt auf dem Repräsentationsschluss Wenn ein Test die Erfüllung eines Lehrplans prüfen soll, ist die wichtigste Interpretation des Testergebnisses eine Verallgemeinerung auf das Lernziel verallgemeinert. Der wichtigste Beleg für die Zulässigkeit dieser Verallgemeinerung ( curricularen Validität ) besteht darin, dass sich Experten einig sind, dass die Testinhalte die im Lehrplan definierten Fähigkeiten gut repräsentieren. Für die Validität der Testwertinterpretation ist es hingegen unbedeutend, welche Zusammenhänge die Leistungen im Test mit anderen Tests (zum Beispiel Intelligenz- oder Persönlichkeitstests) aufweisen. Wahl einer geeigneten Validierungsstrategie Beispiel für Validierung mit Schwerpunkt auf theoriebasierter Testwertinterpretation Für einen Test, der im Kontext psychologischer Forschung das theoretische Konstrukt Extraversion erfassen soll ist es am wichtigsten, dass die Testergebnisse tatsächlich auf dieses Konstrukt zurückzuführen sind. Eine umfassende Konstruktvalidierung anhand der Vorhersage experimenteller Effekte und der korrelativen Zusammenhänge mit anderen theoretisch relevanten Variablen ist hier die adäquate Strategie zur Stützung dieser Testwertinterpretation. Ob sich z.b. anhand des Testergebnisses die Eignung für bestimmte Berufe prognostizieren lässt ist hier unbedeutend. 9

Wahl einer geeigneten Validierungsstrategie Beispiel für Validierung mit Schwerpunkt auf diagnostischen Entscheidungen Wenn mit einem Test oder einer Testbatterie die BewerberInnen für Studiengang ausgewählt werden sollen ist es am wichtigsten, dass von den Testergebnissen auf praktisch relevante Kriterien wie Studiendauer und Abschlussnoten geschlossen werden kann. Um diese Interpretation zu rechtfertigen, muss der Zusammenhang zwischen den Testergebnissen und den Kriterien empirisch nachgewiesen werden. In diesem Kontext ist es meistens irrelevant, mit welchen anderen Variablen die Testergebnisse in welcher Weise zusammenhängen. 10