Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Kriteriumsvalidität Numerische(r) Kennwert(e), so viele wie es sinnvolle Kriterien gibt! mögliches Problem: diese Validitätsart kann nicht unabhängig von den Reliabilitäten von Test und Kriterium ermittelt werden; evtl. Minderungskorrektur einsetzen bei Interesse an theoret./"wahren"/"was wäre bei perfekter Reliabilität" - Zusammenhängen! für praktische (Vorhersage-) Zwecke jedoch unkorrigierte Werte nehmen! # 2

Kriteriumsvalidität besonders bedeutsam für praktische Anwendungen (Möglichkeit zur Vorhersage, z. B. dem Berufserfolg als Verkäufer auf Grundlage der Kenntnis der Extraversion einer Person) # 3

(Außen-) Kriteriumsvalidität Die Kriteriumsvalidität läßt sich ermitteln, indem ganz einfach die Korrelation zwischen dem Testergebnis und einem Kriterium berechnet wird. Man nennt ein solches Kriterium hier Außenkriterium, um es von Binnenkriterien abzugrenzen, wie z. B. dem Skalensummenwert zur Bestimmung der Trennschärfe. Beispiele: Mediziner-Test (TMS) Fremdbeurteilungen bei Persönlichkeitstests Schulleistungstest: Lehrerurteil als Außenkriterium # 4

(Außen-) Kriteriumsvalidität Man kann auch Tests mit Tests validieren. Hierbei handelt es sich jedoch nicht um echte Kriterien, sondern nur um Quasikriterien, da der Test, an dem validiert wird, selber der Validierung bedarf. Die Berechnung der Kriteriumsvalidität ist also technisch sehr einfach. Man korreliert einfach Test und Kriterium: V = r t,c t ist der Test, c das Kriterium. # 5

Kriteriumsvalidität graphisch # 6

(Außen-) Kriteriumsvalidität Problem: Oft ist kein adäquates Außenkriterium vorhanden (z.b. bei Intelligenz oder Zukunftsängsten). Mangelnde Korrelationen mit unbrauchbaren Kriterien würden eher gegen die Validität des Kriteriums als gegen die des Tests sprechen. # 7

(Außen-) Kriteriumsvalidität Arten von Kriterien: echte Kriterien: Kriterien, die semantische und theoretische Ähnlichkeit zum Test aufweisen und zusätzlich von höherem Status sind (z.b. echte Gewalttätigkeit als Kriterium für Aggressivität). Quasikriterien: Semantisch und theoretische ähnliche Kriterien, allerdings nicht von höherem Status als der Test (z.b. ein Aggressivitätsfragebogen A als Kriterium für Aggressivität, die mit einem Aggressionsfragebogen B erhoben wurde). Target-Variablen: Kriterien, die weder semantisch noch theoretisch Ähnlichkeit zu den Testitems haben, sondern einfach nur irgendwie im Sinne von Effektivität vorhergesagt werden sollen (z.b. Unfallwahrscheinlichkeit als Kriterium, Körpergröße als Fragebogenitem). # 8

Kriteriumsvaliditäten: Beispiele # 9

Kriteriumsvaliditäten: Beispiele # 10

Kriteriumsvalidität Zusätzlich wird nach dem Zeitpunkt der Erhebung der Kriterienwerte unterschieden: Konkurrente Validität (Gleichzeitige Kriteriumsvalidität) Prädiktive Validität (Vorhersagevalidität) # 11

Kriteriumsvalidität & Minderungskorrektur Die Höhe dieser Korrelation wird durch die Reliabilitäten von Prädiktor und Kriterium mitbestimmt. Wie? Grundsätzlich gilt, daß mit einer Erhöhung der Reliabilität von Prädiktor und/oder Kriterium sich auch die Kriteriumsvalidität erhöht. # 12

Minderungskorrektur Da in der Praxis keine perfekten Maße existieren, sollten für Vorhersagezwecke die unkorrigierten Werte benutzt werden. Wozu dann minderungskorrigieren? Neugier Forschung Wahrheit # 13

Kriteriumsvalidität Doppelte Minderungskorrektur: Gleicht Reliabilitätsmängel von Prädiktor (Test) und Kriterium aus. Korrelation der wahren Werte von x und y Reliabilität des Kriteriums Reliabilität des Prädiktors (des Tests) # 14

Kriteriumsvalidität Einfache Minderungskorrektur: Gleicht Reliabilitätsmängel des Tests (Prädiktor) oder des Kriteriums aus. Reliabilität des Kriteriums Kriteriumsvalidität Korrelation der beobachteten Testwerte mit den wahren Werten des Kriteriums # 15

Minderungskorrekturen Wie läßt sich auf dieser Grundlage die Korrelation der wahren Werte beider Tests r WtWu, die uns ja interessiert und die ja höher sein müßte (wenn man absolute Reliabilität unterstellte), bestimmen? Zur Beantwortung dieser Frage hilft und die: Doppelte Minderungskorrektur : Spearman (1910) leitete folgende Formel her, um die Korrelation der wahren Werte zweier unreliabler Tests zu schätzen: rxtxu rwtwu = r r tt uu # 16

Minderungskorrekturen Einfache Minderungskorrektur wenn nur um die Unreliabilität eines Tests oder einer Variablen korrigiert wird. Inhaltliche Bedeutung: Zeigt, welche Validitätszuwächse zu erwarten wären, wenn man einen Test reliabler machen würde. Die u. g. Formel ist von der doppelten Minderungskorrektur ja bekannt; ein Wurzelterm wird bei der einfachen Minderungskorrektur ja gleich 1 rxtxu rwtwu = r r tt uu # 17

Beispiel: Doppelte Minderungskorrektur # 18

Kriteriumsvorhersage Anwendungsmöglichkeiten: Kriteriumsvorhersage Dafür brauchen wir: Rohwerteformel für die Vorhersage des Kriteriums Y aus Kenntnis des Testwertes X: # 19

Kriteriumsvorhersage... und den Standardschätzfehler... dann lassen sich Konfidenzgrenzen und Konfidenzintervall bestimmen: CL U = Y - Z α/2 * s y.x CL O = Y + Z α/2 * s y.x CL U Y CL O # 20

Kriteriumsvorhersage Beispiel: Es soll der voraussichtliche Studienerfolg Y (Abschlussnote) aus Kenntnis eines Studieneingangstests X geschätzt werden. Die benötigten Kennwerte zum Einsetzen in die Vorhersageformel lauten: # 21

Kriteriumsvorhersage Die beste Punktschätzung des Studienerfolgs Y für eine Person mit einem Wert von X = 8 im Studieneingangstest ergibt: # 22

Kriteriumsvorhersage Das reicht uns aber nicht, wir wollen auch noch eine Intervallschätzung... deshalb berechnen wir zunächst den Standardschätzfehler:... und dann die Konfidenzintervall- Grenzen: # 23

Kriteriumsvorhersage Die Grenzen des 90%-Konfidenzintervalls liegen bei: CL U = 1.6 - (1.65 * 0.8) = 0.28 CL O = 1.6 + (1.65 * 0.8) = 2.92 Die Grenzen des 95%-Konfidenzintervalls liegen bei: CL U = 1.6 - (1.96 * 0.8) = 0.03 CL O = 1.6 + (1.96 * 0.8) = 3.17 # 24

Konstruktvalidität Kein direkter numerischer Kennwert, sondern "Gesamtbild" aus unterschiedlichen Quellen, ob und wie stark vorhanden Ausgehend von den von einem Test (z. B. Persönlichkeitstest) erfaßten Konstrukte wird überprüft, ob diese hypothesenkonform mit anderen Persönlichkeitskonstrukten zusammenhängen... # 25

Konstruktvalidierung: Vorgehen Ausgehend von den von einem Test (z. B. Persönlichkeitstest) erfaßten Konstrukte wird überprüft, ob diese hypothesenkonform mit anderen Persönlichkeitskonstrukten zusammenhängen......auf diese Weise wird geprüft, ob der Test das Konstrukt/latente Merkmal auch wirklich misst, das er messen soll (= ob der Test konstruktvalide ist, d. h. für eine Testperson: inwieweit das Testergebnis die Merkmalsausprägung der Person für dieses Konstrukt (z. B. Extraversion) widerspiegelt. # 26

Allgemeines Vorgehen bei der Konstruktvalidierung 1. Formulierung einer Theorie (hinsichtlich des Konstruktes) und Ableitung von Hypothesen 2. Datensammlung zur Überprüfung der Hypothese 3. Ergebnisse auf Hypothese beziehen und über die Gültigkeit der Hypothese entscheiden. Fallen die Ergebnisse einer Untersuchung zur Konstruktvalidierung im Sinne der formulierten Hypothesen aus, sind damit sowohl das Konstrukt selbst wie die Konstruktvalidität des Tests gestützt. # 27

Allgemeines Vorgehen bei der Konstruktvalidierung Sind die Ergebnisse hingegen negativ, können mindestens drei Schlussfolgerungen gezogen werden: 1. Das Konstrukt existiert nicht (d. h. hat keine empirische Bedeutung) 2. Der Test misst nicht das Konstrukt, sondern etwas anderes (d. h. er ist nicht konstruktvalide) 3. Das Experiment / die Untersuchung war nicht geeignet, bzw. die Manipulationen der UV haben das Konstrukt nicht beeinflußt # 28

Allgemeines Vorgehen bei der Konstruktvalidierung Das Ziel einer fortschreitenden Konstruktvalidierung besteht in der Errichtung eines nomologischen Netzwerks, das empirisch untersuchbare Konstrukte sowie Beziehungen zwischen diesen Konstrukten enthält. # 29

Validitätsaspekte: Unterschiede? # 30

Validitätsaspekte: Unterschiede? Warum wichtig? Weil verschiedene Arten von Schlussfolgerungen auf Grundlage des Testergebnisses/Testverhaltens einer Person unterschiedliche Validitätsarten voraussetzen! # 31

Zur Auffrischung aus dem Grundstudium # 32

Schluss auf Verhalten außerhalb des Tests, das dem Verhalten im Test ähnlich ist erfordert: Inhaltsvalidität Bsp.: prakt. Führerscheinprüfung; Assessment Center (teilweise) Repräsentationsschluss, d. h. kann das Verhalten im Test als repräsentative SP eines zu erfassenden Verhaltensuniversums aufgefaßt werden, so ist eine direkte Verallgemeinerung vom Testverhalten auf das Verhaltensuniversum möglich; dann ist Inhaltsvalidität gegeben # 34

Schluss auf Verhalten außerhalb des Tests, das mit dem Testverhalten empirisch zusammenhängt/korreliert erfordert: Kriteriumsvalidität wird differenziert nach dem Zeitpunkt der Erhebung des Kriteriums Vorhersagevalidität: Kriterium wird nach dem Test/Prädiktor erhoben; Konkurrente Validität: Kriterium wird gleichzeitig mit dem Test/Prädiktor erhoben Bsp.: Berufserfolg (= Kriterium) soll aus z. B. Intelligenz (= Prädiktor) vorhergesagt werden # 35

Schluss auf ein latentes Merkmal/Konstrukt erfordert: Konstruktvalidität Bsp. für eine Testperson: inwieweit das Testergebnis die Merkmalsausprägung der Person für dieses Konstrukt (z. B. Extraversion) widerspiegelt) Anderes, generelles Bsp.: Wie hängen die Konstrukte Aggressivität, Eifersucht und Neurotizismus zusammen? Überprüfung z. B. mit einer MTMM # 36

Konstruktvalidität Definition: Konstruktvalidität liegt vor, wenn aus dem zu messenden Zielkonstrukt (z.b. Einsamkeit) Hypothesen ableitbar sind (z.b. mittels der Einsamkeitstheorie von soundso), die anhand der Testwerte bestätigt werden können. # 37

Konstruktvalidität z.b. für das Konstrukt Einsamkeit: Zusammenhang mit anderen manifesten oder latenten Variablen, wie z.b. geringes Selbstwertgefühl, soziale Ängstlichkeit, stärkere Ausprägung der Einsamkeit bei Geschiedenen Lebensunzufriedenheit # 38

Konstruktvalidität (z.b.: Korrelieren die Testwerte hoch mit sozialer Ängstlichkeit? Ist das Konstrukt unabhängig von Religiosität?) Die theoretisch abgeleiteten Zusammenhänge zu anderen, verwandten Konstrukten ließen sich z.b. wiederum mit Inhalts- oder Kriteriumsvaliditätskoeffizienten validieren (insofern stellt die Konstruktvalidität eine Synthese aus Inhalts- und Kriteriumsvaliditätsaspekten dar). # 39

Konstruktvalidität Interpretation: Können solche Hypothesen nicht bestätigt werden, ist unklar, ob die Validität des Instruments oder die Gültigkeit der Hypothesen anzuzweifeln ist. Bestätigung der Hypothesen hingegen ist ein Indiz für die Validität des Tests. Eine Konstruktvalidierung ist um so überzeugender, je mehr Hypothesen abgeleitet und bestätigt werden. # 40

Konstruktvalidität Konvergente und divergente (diskriminante) Validität: Campbell & Fiske (1959) konzeptualisieren (die Grundvoraussetzungen von) Konstruktvalidität, indem sie die Erfüllung von zwei Bedingungen fordern: # 41

Konstruktvalidität 1. Konvergente Validität: Ist gegeben, wenn verschiedene Methoden (Operationalisierungen, Indikatoren) zur Messung des in Frage stehenden (nicht direkt beobachtbaren) Konstrukts (z.b. Trait) zu ähnlichen (übereinstimmenden, konvergenten) Ergebnissen hinsichtlich der Merkmalsausprägung führen. Korrelieren die Messergebnisse unterschiedlicher Methoden desselben Konstrukts nur mäßig miteinander, so sind die jeweiligen Operationalisierungen zu überdenken. # 42

Konstruktvalidität 2. Divergente (diskriminante) Validität: Liegt vor, wenn sich Operationalisierungen des Zielkonstrukts von den Operationalisierungen anderer, verwandter Konstrukte unterscheiden (alle Konstrukte sollten mit derselben Methodenart erfaßt werden). # 43

Konstruktvalidität Eine Divergenz (in Form geringer Korrelationen) zu verwandten, jedoch nicht identischen Konstrukten erscheint deshalb sinnvoll, weil bei hohen Übereinstimmungen (gemeinsamen Varianzanteilen) zu anderen Konstrukten redundante Informationen erfaßt werden würden, die einer Eigenständigkeit des Konstrukts (bzw. möglicherweise auch dessen Explikation oder Operationalisierung) entgegenstehen. Ist die diskriminante Validität gering, spricht dies für eine Neukonstruktion des Fragebogens oder eine Neuexplikation (bzw. Neuoperationalisierung) des Konstrukts. # 44

Konstruktvalidität Beispiel 1: Zielkonstrukt: Aberglauben Validierungskonstrukte: Ängstlichkeit, Religiosität Methoden: Direkteinschätzung der Ausprägung, Fragebogen zu Aspekten der Konstrukte, Fremdeinschätzungen, Verhaltensbeobachtungen. Beispiel 2: Zielkonstrukt: Extraversion Validierungskonstrukte: Verträglichkeit, Gewissenhaftigkeit, Neurotizismus und Offenheit für Erfahrungen Methoden: NEO-FFI, Big Five Inventory (BFI), Bipolare Big Five Adjektivratingmarkerskalen. # 45

Konstruktvalidität Methode zur Überprüfung konvergenter und divergenter Validität: MTMM Die MTMM arbeitet mit den Korrelationen, die sich ergeben, wenn man an derselben SP mehrere Merkmale oder Konstrukte (traits; z.b. Aberglaube, Religiosität und Ängstlichkeit) mit mehreren Methoden (methods; z.b. Selbstbeurteilung, Fremdbeurteilung) erfaßt und die Ergebnisse wechselseitig korreliert. Die Höhe und die Muster der Korrelationen sind indikativ für das Vorhandensein konvergenter und divergenter Validität. # 46

Konstruktvalidität Multitrait-multimethod-Matrix (MTMM) Klärung von ein paar Begrifflichkeiten: Konvergente Validität liegt vor, wenn ein Test mit anderen Maßen für denselben Trait hoch korreliert. # 47

Konstruktvalidität Diskriminante Validität liegt vor, wenn ein Test mit ähnlichen Maßen (Tests) für andere Traits und mit verschiedenartigen Maßen für andere Traits nicht korreliert. # 48

Konstruktvalidität: MTMM # 49

Konstruktvalidität: MTMM # 50