Zusammenfassung Diagnostik

Transkript

1 Zusammenfassung Diagnostik Inhaltsverzeichnis Definition und Klassifikation psychologischer Diagnostik... 6 Definition:... 6 Finalität/Zielgerichtetheit der Diagnostik... 6 Merkmalsträger... 6 Anwendungsbereiche... 6 Arten von Diagnostik... 7 Was ist ein psychometrischer Test?... 9 Voraussetzungen psychometrischer Tests Exkurs Statistik Normalverteilung...10 Varianz...10 Standardabweichung...10 Standardnormalverteilung...11 Kovarianz...11 Korrelation...11 Testtheorien Die Klassische Testtheorie...12 Grundannahme...12 Axiome...13 Ableitungen aus der KTT...14 Kritik an der KTT...21 Item-Response-Theorie/Probabilistische Testtheorie...21 Itemhomogenität...22 Latent-Class-Modelle...23 Latent-Trait-Modelle...23 Itemcharakteristische Funktion (IC-Funktion/ICC)...24 Iteminformationsfunktion...26 Testgesamtinformation...27 Parameterschätzung bei 1PL-Modell...27

2 S e i t e 2 Modelltests/Prüfung der Modellkonformität beim 1PL-Modell...28 Modellvergleich...29 Vorteile des 1-PL-Modells/Rasch-Modells...30 Vergleich IRT vs. KTT...31 Kriteriumsorientierte Tests...32 Testentwicklung Testplanung...32 Erhebungsmerkmale...33 Geltungsbereich...33 Konstruktionsprinzipien psychometrischer Tests Rationale/deduktive Konstruktion Externale/kriteriumsbezogene Konstruktion Induktive/faktorenanalytische Konstruktion Prototypenansatz Intuitive Konstruktionsstrategien...36 Anwendung der Ansätze...36 Testarten...37 Speed- und Powerindex Leistungstests Persönlichkeitstests Projektive Verfahren Apparative Verfahren Objektive Verfahren...39 Itemformate...39 Freies/ungebundenes Antwortformat...39 Gebundenes Antwortformat...40 Atypisches Antwortformat...42 Itemformulierung...42 Fehlerquellen bei der Itembearbeitung...42 Vortestversion...43 Testevaluation Itemanalyse...44 Itemschwierigkeit...44 Bedeutung der Itemstreuung...45 Trennschärfe (r it )...46 Reliabilität von Items: Stabilitätsindex...47 Selektionskennwert und Itemselektion...48 Homogenität...48 Andere Homogenitäts-Konzepte...48 Testwertermittlung...49 Testwertverteilung: Maße und Abweichungen...50

3 S e i t e 3 Normalisierung...50 Gütekriterien Hauptgütekriterien...51 Objektivität...51 Reliabilität...52 Validität/Gültigkeit...58 Kriteriumsvalidität...60 Multitrait-Multimethod-Analyse...63 Nebengütekriterien...68 Normierung...68 Vergleichbarkeit...69 Ökonomie...69 Nützlichkeit...69 Testfairness Testfairnessmodelle Modell der proportionalen Repräsentation/Quotenmodell Regressionsmodell von Cleary (Modell einer fairen Vorhersage) Modell konstanter Verhältnisse (constant ratio model, Thorndike)...72 Erhebungsstrategien Unimodale vs. multimodale Datenerfassung...73 Messung von Veränderungen und Unterschieden...73 Regression zur Mitte...74 Ausgangswertegesetz...74 Physicalism-subjectivism-dilemma...75 Der diagnostische Prozess Das diagnostische Urteil...77 Das diagnostische Gutachten...77 Schritte des diagnostischen Entscheidungsprozesses (Westhoff und Kluck)...77 Zuordnungs- und Klassifikationsstrategien Arten diagnostischer Entscheidungen...78 Entscheidungsstrategien...79 Kompensatorische vs. konjunktive Entscheidungsstrategien...79 Einstufige vs. mehrstufige Entscheidungsstrategien...80 Entscheidungsfehler...81 Arten von Fehlern...82 Gütekriterien einer Entscheidungsstrategie...82 Bedeutung von Fehlerarten...82 Minimierung von Fehlern...83 Zuordnungsmethoden...83 Festsetzung von Trennwerten...84 ROC-Kurve (Receiver-Operating Characteristic, Signalentdeckungstheorie)...84

4 S e i t e 4 Nutzenerwägungen...85 Entwicklung einer Nutzenfunktion (Cronbach & Gleser)...85 Nettonutzen...86 Nutzenformel von Brodgen...87 Andere Nutzenmodelle...87 Bewertung der Nutzenmodelle...87 Regression Einfache lineare Regression Nonlineare Regressionsmodelle Multiple lineare Regression...89 Probleme und Differenzierungen von Prognosen Kontextuale Faktoren und technische Verbesserungen...90 Konformitätsdruck/Situativer Druck und Verhaltensvariabilität...90 Aggregation von Maßen...91 Erhöhung der Validität durch Selbstaufmerksamkeit...91 Validität ohne Stabilität...92 Moderation...92 Klassisches Beispiel: Frederiksen und Melville (1954)...93 Suche nach Moderatoreffekten...93 Beispiele für Moderation...96 Geteilte und Spezifische Varianz...96 Partialkorrelation und Part-/Semipartialkorrelation...96 Kommunalitätenanalyse...97 Beispiel: Klingbeil Suppression...97 Klassisches Beispiel: Horst (1966)...98 Weiteres Beispiel:...98 Veranschaulichung des Suppressionseffekts...98 Ausmaß der Validitätssteigerung durch Suppressor...99 Fragen aus Vorlesung...99 Problem des Suppressorkonzeptes...99 Mediation...99 Bedeutung der Mediation...99 Planung einer Mediatoranalyse Mediatoranalyse nach Baron und Kenny (Überprüfung von Mediatoreffekten) Interpretation einer Mediatoranalyse Beispiel 1: Intelligenzabbau im Alter Beispiel 2: Erleben eines traumatischen Erlebnisses und PTBS Bewertung Mediatoranalysen Abgrenzung Mediator- und Moderatorvariablen Validitätsgeneralisierung

5 S e i t e 5 Sinnhaftigkeit der Zusammenfassung von Forschungsbefunden Grundidee der Validitätsgeneralisierung (Schmidt & Hunter, 1977) Schritte der Validitätsgeneralisierung Studienrecherche Korrektur statistischer Artefakte Homogenitätstests Suche nach Moderatoren Signifikanzprüfung mittels Konfidenzintervall Beispiel: Moderatoreffekt in Validitätsgeneralisierung Kritik/Probleme bei Validitätsgeneralisierung Garbage-in Garbage-out Problematik Äpfel und Birnen Problematik Problematik abhängiger Untersuchungsergebnisse Filedrawer Problematik/Publication-Bias Übersicht Metaanalyse Definition Validitätsgeneralisierung vs. Metaanalyse Vereinheitlichung von Kennwerten Effektstärke Anwendungsfelder Arbeits-, Betriebs- und Organisationspsychologie Organisationsdiagnostik Organisationsentwicklung Personalbeurteilung (Berufs-)Eignungsdiagnostik Assessment Center Tätigkeitsbezogene Diagnostik und Intervention Diagnostik und Intervention bei Gruppen Pädagogische Psychologie Diagnostik und Intervention bei der Schullaufbahnberatung Diagnostik und Intervention bei individueller Schülerhilfe Hochbegabtendiagnostik Rechtspsychologische Diagnostik Glaubhaftigkeit von Zeugenaussagen Schuldfähigkeit und verminderte Schuldfähigkeit eines Täters Kriminalprognose Sorgerechtsentscheidungen Verkehrspsychologische Diagnostik

6 S e i t e 6 Definition und Klassifikation psychologischer Diagnostik Definition: Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen Bereitstellung von Instrumenten zur Gewinnung psychologisch relevanter Charakteristika von Merkmalsträgern und Integration erhobener Daten zu einem diagnostischen Urteil Ziele: wissenschaftlich fundierte Entscheidungsfindung, Optimierung von Entscheidungen bei Handlungs- oder Behandlungsmöglichkeiten, Vorbereitung von Prognosen und deren Evaluation Entwicklung von speziellen Verfahren, deren theoretische Fundierung und praktische Brauchbarkeit ständig überprüft werden Diagnostik ermittelt zunächst einen Ist-Zustand, gibt Empfehlungen zu Maßnahmen und begleitet die Behandlung (Therapie, Training, Empfehlung etc.) um festzustellen, ob sich die Differenz zwischen Ist- und Sollzustand verringert hat. Finalität/Zielgerichtetheit der Diagnostik Welche Gegebenheiten liegen im Augenblick vor? (Was ist?) Welche Umstände sind dafür maßgeblich? (Warum?) Was soll in Zukunft geschehen? (Wohin?) Merkmalsträger Individuen oder Gruppen von Personen Institutionen oder Prozesse an Institutionen Situationen Gegenstände (z.b. Produkte) Anwendungsbereiche 1. Arbeits-, Betriebs- und Organisationspsychologie Unterstützung der Ausbildungs- und Berufswahl Auswahl und Weiterqualifizierung von Beschäftigten, Führungskräften etc. Diagnostik von Organisationen, Institutionen und geschäftlichen Abläufen Berufseignungsdiagnostik 2. Pädagogische Psychologie Feststellung der Schulfähigkeit Eignung für weiterführende Schulen und Studiengänge Sonderschulbedürftigkeit; Förder- und Umschulungsmaßnahmen und deren Erfolg Erziehungsprobleme in Schule und Familie

7 S e i t e 7 3. Klinische Psychologie Verursachungsbedingungen psychischer Störungen Suche nach Ansatzpunkten für Interventionsmaßnahmen Fragestellungen: z.b. Depressionen, Abhängigkeiten, Essstörungen, Stressverarbeitungsstörungen, psychophysiologische Störungen (Asthma, Bluthochdruck), etc. 4. Weitere: Forensische Psychologie: Begutachtung von Straftätern, Glaubwürdigkeit Markt- und Werbepsychologie: Wirkung eines Produkts oder einer Anzeige Verkehrspsychologie: Führen von Fahrzeugen, Position Verkehrsschilder Gesundheitspsychologie: Erhaltung der Gesundheit, Prävention z.b. im Suchtbereich Intelligenz- und Leistungsdiagnostik Persönlichkeitsdiagnostik Methoden Exploration Interview Befragung Fragebogen Testverfahren Verhaltensbeobachtung Arten von Diagnostik Institutionell: Selektionsdiagnostik Personenselektion: Geeignete Personen für bestimmte Anforderungen Bedingungsselektion: Geeignete Bedingungen für Person mit bestimmten Merkmalen (z.b. Berufsempfehlung) Individuell: Modifikationsdiagnostik Verhaltensmodifikation: Veränderung spezifischer Verhaltensweisen einer Person (z.b. Modifikation aggressiven Verhaltens bei Erziehungsschwierigkeiten) Bedingungsmodifikation: Veränderung externer Bedingungen (z.b. Abbau von Problemverhalten im Rahmen einer Familientherapie)

8 S e i t e 8 Annahmen der Selektionsdiagnostik: Personen lassen sich hinsichtlich ihrer eignungsrelevanten Eigenschaften miteinander vergleichen Eigenschaften über die Zeit hinweg relativ stabil und situationsinvariant Diagnostik des Ausprägungsgrades einer Eigenschaft erlaubt Prognose über zukünftigen Ist-Zustand und somit zukünftiges Verhalten Situationen spielen untergeordnete Rolle Annahmen der Modifikationsdiagnostik: Verhalten ist erlernt und damit veränderbar, es variiert kontextabhängig Interesse richtet sich auf Situationen, in deren Abhängigkeit Verhalten variiert, sowie auf intrapsychische Veränderungen und Ansatzpunkte, um ein Verhalten zu modifizieren Statusdiagnostik Beschränkung auf einmalige Feststellung des Ist-Zustandes Anhand dessen wird Prognose abgegeben, da Eigenschaften stabil Testung liefert Schätzwert für selektionsrelevante Eigenschaft durch geeignete Stichprobe von Testitems Als Entscheidungsgrundlage dient der Ausprägungsgrad im Vergleich zur Normstichprobe Anwendung v.a. bei eignungsdiagnostischen Entscheidungen Überschneidungen Prozessdiagnostik Erfassung von Veränderungen des Verhaltens durch wiederholte Untersuchung Annahme der situativen Anhängigkeit des Verhaltens, daher mehrere Verhaltensstichproben notwendig Keine Vergleichsnorm, sondern Abstand zu einem definierten Kriterium bestimmt Beginn und Ende einer Intervention Anwendung v.a. im klinischen Bereich Pädagogische Psychologie Schullaufbahndiagnostik Untersuchung gestörter Lernprozesse Planung und Evaluation pädagogischer Behandlungsmaßnahmen teilweise betriebliche Eignungsdiagnostik s.o. Prozessdiagnostik mit zwischengeschalteter Lernphase zur Optimierung von eignungsdiagnostischer Selektionen teilweise klinische Psychologie Zuteilung zu Behandlungsalternativen s.o. Beide diagnostischen Strategien basieren auf zwei unterschiedlichen Ansätzen: 1. Eigenschaftsdiagnostik: Erleben und Verhalten von Menschen lässt sich mit Eigenschaften/Traits beschreiben Traits sind relativ breite und zeitlich stabile Dispositionen zu bestimmten Verhaltensweisen, die konsistent in verschiedenen Situationen auftreten Traits sind nicht direkt beobachtbar, sondern Konstrukte, die aus beobachtbarem Verhalten erschlossen werden Transsituative Konsistenz des Verhaltens Eine Person verhält sich gemäß ihrer Eigenschaftsausprägungen, relativ unbeeinflusst vom jeweiligen situativen Kontext Analogieschluss von Prädiktoren auf Kriterium, z.b. Schulnote, IQ, Lebenslauf als Prädiktoren für Berufserfolg Indikatoren/Prädiktoren müssen repräsentativ für die jeweilige Eigenschaft sein (Validität bestimmt, inwiefern das gelungen ist)

9 S e i t e 9 Durch Kenntnis und Verständnis von Eigenschaften kann zukünftiges Verhalten vorhergesagt werden 2. Verhaltensdiagnostik Es wird nicht nach Indikatoren, sondern nach einer repräsentativen Stichprobe von Verhaltensweisen gesucht Versuch, eine angemessene Repräsentation von Reizsituationen im experimentellen Setting herzustellen (z.b. Rollenspiel, Induktion von Angst durch Filme, Fotos ) Statt der Messung von Eigenschaften, bestehen hier die Tests aus Stichproben des vorherzusagenden Verhaltens selbst Vorhersage des Verhaltens in ähnlichen Situationen (z.b. praktische Fahrprüfung) Induktionsschluss: Das hier und jetzt gezeigte Verhalten (speziell) tritt auch zu anderen Anlässen (allgemein) auf Inhaltsvalidität wichtig Aus konkret beobachtbarem Verhalten kann auch nur dieses vorhergesagt werden Lerntheoretischer Ansatz Bedeutung für mögliche Intervention Instrument zur Erfassung situativer Faktoren, die das Verhalten hervorrufen bzw. begünstigen: Funktionale Verhaltensanalyse o Untersuchung des Kontextes, in dem Verhalten auftritt o Qualität und Intensität des kritischen Verhaltens o Folgen für Betreffenden und seine Umwelt o Möglichkeiten der Person und ihrer Umwelt zur Modifikation o Mögliche Rückwirkungen einer Verhaltensänderung/Modifikation auf den Betreffenden und seine Umwelt Informationen stammen aus Interviews, Testergebnissen, Verhaltensbeobachtungen, Anamnese etc. Vorteile des verhaltenstheoretischen Ansatzes (Un-)absichtliche Verfälschungen sind weniger wahrscheinlich, da man eher Berichte über Verhalten verfälschen kann, als das Verhalten selbst Frage nach Testfairness spielt keine so große Rolle wie bei eigenschaftstheoretischem Ansatz Wahrung der Intimität und individuellen Privatheit, da nicht in die Tiefen einer Person eingedrungen wird?!?! Beispiele für verhaltenstheoretische Methoden Belohnungsaufschub (delay of gratification): Entscheidung für kleine Belohnung direkt oder größere Belohnung nach bestimmter Zeit Annahme, dass gleiche Entscheidung auch außerhalb des Settings Behaviour Sampling: Personal einer Institution stellt im Hinblick auf die Behandlung wichtige Verhaltensbeobachtungen an Rollenspiele: In relativ kurzer Zeit werden Anhaltspunkte über Verhalten in Situationen gegeben, die man selten beobachten kann Fragebogen: selbstbeobachtetes Verhalten, z.b. zum Thema Angst der Fear Survey Schedule (FSS) mit 5-stufiger Skala zu Dingen, die potentiell ängstigen Was ist ein psychometrischer Test? Def.: Ein diagnostischer Test ist ein wissenschaftliches Verfahren zur Messung umgrenzter psychologischer Merkmale auf der Basis von Skalen oder Kategorien mit dem Ziel, den Ausprägungsgrad individueller Merkmale zu ermitteln. Wurde auf Erfüllung von Gütekriterien hin untersucht

10 S e i t e 10 Ein Test liefert Informationen über Testobjekte: o Einzelpersonen o Organisationen oder Personengruppen o gegebenenfalls Kombinationen aus Personen und Situationen (situationsspezifisches Testen) o Zeitbereiche (Veränderungsmessung) Testitems: Einzelaufgaben Testskala: Satz von Items (also mehrere Items, die Bestandteil eines Tests sind), die spezifischen, mit der jeweiligen Testskala verbundenen Skalierungseigenschaften genügen Testbatterie: Kombination aus Einzeltests, mit dem Ziel, die Genauigkeit und Güte der Messung zu erhöhen Voraussetzungen psychometrischer Tests Die exakte oder zumindest weitgehende Gleichheit der Bedingungen bzw. die Standardisierung der Testsituationen ist eine Grundvoraussetzung für die Ermittlung und sinnvolle Interpretation interindividueller Unterschiede. Obwohl die exakte Identität der Bedingungen eigentlich so gut wie unmöglich, kann durchaus von einer für die Praxis hinreichenden Bedingungskonstanz ausgegangen werden. Idealfall: Gewählte Methode erweist sich als hochsensitiv gegenüber den Phänomenen oder Variablen, an denen man interessiert ist, aber als robust und unempfindlich gegenüber allen anderen Faktoren. Exkurs Statistik Normalverteilung Kommt zustande, wenn eine Vielzahl verschiedener Wirkfaktoren beteiligt ist, diese Faktoren unabhängig voneinander ihren Einfluss entfalten und sich die verschiedenen Wirkungen zu der Merkmalsausprägung addieren. Der Abstand vom Mittelwert M der Verteilung zu deren Wendepunkt ist identisch mit einer Einheit der Standardabweichung s Varianz Maß für die Streuung der Daten um den Mittelwert einer Verteilung Summe der quadrierten Abweichungen aller Messwerte einer Verteilung vom Mittelwert, dividiert durch die Anzahl aller Messwerte. s 2 n i 1 ( x i n x) 2 Standardabweichung beschreibt im Prinzip das gleiche wie die Varianz Interpretation von Varianz schwierig (Einheiten quadriert) Wurzel aus der Varianz Standardisierung s ( xi x) 2 i1 s n n 2

11 S e i t e 11 Standardnormalverteilung Kovarianz Gibt Ausmaß an, in dem zwei Wertereihen miteinander zusammenhängen oder wie sehr sie sich gemeinsam verändern bzw. streuen cov ( x, y) n i 1 ( x i x) ( y n i y) Hohe Kovarianz bei systematischen Abweichungen der Messwerte vom Mittelwert Geringe Kovarianz bei unsystematischen Abweichungen der Messwerte vom Mittelwert Rausmitteln in Formel Korrelation Zusammenhangsmaß zweier Variablen x und y Standardisiert, daher unabhängig von der Skalierung beider cov( x, Variablen r nimmt immer Werte zwischen -1 und 1 an Wird an der Standardabweichung beider Variablen relativiert s x sy y)

12 S e i t e 12 Testtheorien Testtheorien beschäftigen sich mit dem Zusammenhang zwischen dem eigentlichen psychischen Merkmal und dem gezeigten Testverhalten. Man untersucht, wie das zu erfassende psychische Merkmal das Testverhalten einer Person beeinflusst, um dadurch Rückschlüsse auf das eigentliche psychische Merkmal zu machen, da dieses nicht direkt beobachtbar ist. Theorie über: verschiedene Arten von Tests ihren Aufbau ihre Konstruktionsprinzipien Zusammenhang von Testverhalten (ausgedrückt in empirischen Testwerten) und dem zu erfassenden Merkmal Aus den Vorgaben der Testtheorien können Gütekriterien abgeleitet werden Die Klassische Testtheorie Grundannahme Ein Messwert einer Person in einem Testitem setzt sich immer aus zwei Komponenten zusammen: o Wahrer Wert = wahre Ausprägung des untersuchten Merkmals (stabil) o Zufälliger Messfehler, der den wahren Wert überdeckt unkontrollierte Einflüsse während Messung die sich auf Testverhalten der Probanden auswirken und somit Messresultat kontaminieren (z.b. Tageszeit der Experiments, Motivation) o Bestimmung der Messfehlerbehaftetheit einer Messung Messfehler-Theorie da sie sich mit der Eliminierung der Messfehler mit Hilfe der Axiome und somit mit der Bestimmung der wahren Werte befasst

13 S e i t e 13 Axiome 1. Existenzaxiom Der wahre Wert existiert als Erwartungswert der Messung eines Probanden w E tj ( x tj ) w tj wahrer Wert einer Person j in einem Test t Erwartungswert = Mittelwert unendlich vieler Messungen an einer Person mit dem gleichen Test 2. Verknüpfungsaxiom Jeder Messwert setzt sich aus einem wahren Wert und einem Messfehler zusammen x tj w tj e tj x w e tj tj tj Messwert einer Person jim Test t Wahrer Wert Messfehler Verknüpfung Axiom 1 und 2 Der Messfehler e tj hat den Erwartungswert Null t1 e tji 0 eine Person j unendlich viele Wiederholungen des Tests t e tji j1 0 unendlich viele Personen j eine Messung t Es handelt sich hierbei nur um eine fiktive Annahme, da aufgrund von Wiederholungseffekten keine vergleichbare Messung mit dem identischen Item möglich ist. Dieses Problem wird dadurch gelöst, dass mehrere Messungen mit unterschiedlichen Items gemacht werden, die aber alle das gleiche messen (z.b. das gleiche Persönlichkeitsmerkmal). 3. Unabhängigkeitsaxiom Es bestehen nur Nullkorrelationen zwischen r et, wt 0 r et, wu 0 r et, eu 0 dem Messfehler und den wahren Werten desselben Tests dem Messfehler und den wahren Werten eines anderen Tests den Messfehlern unterschiedlicher Tests (zwischen Items und zwischen Personen)

14 S e i t e 14 Fazit Axiome: Beobachtbar ist nach den Axiomen der KTT nur die Messung. Diese setzt sich nach dem Verknüpfungsaxiom aus einem wahren Wert und einem Fehlerwert zusammen, die beide nicht beobachtbar sind. Wahrer Wert und Fehlerwert sind also unbekannte Größen. Liegt allerdings eine Messung mit mehreren Testitems vor, kann der wahre Testwert einer Person als Summe der beobachteten Messungen und die Fehlervarianz Var(ε) als Varianz der Fehlerwerte mehrerer Personen geschätzt werden. Angaben zum wahren Wert und Fehlerwert beruhen auf Schätzungen Ableitungen aus der KTT Die additive Zusammensetzung aus wahrem Wert und Messfehler (Verknüpfungsaxiom) lässt sich auch auf Varianz und Kovarianz übertragen Varianzzerlegung s 2 xt s 2 wt s 2 et 2 Gesamtvarianz s xt 2 Varianz s wt wahrer Werte 2 Varianz s et der Fehlerwerte Kovarianzzerlegung Die Kovarianz der beobachteten Werte ist gleich der Kovarianz der wahren Werte. Da Fehler mit nichts korrelieren können (Unabhängigkeitsaxiom), fällt der markierte Teil weg. Die Berechnung der Kovarianz dient als Basis für die Bestimmung der Reliabilität Reliabilität In der KTT ist die Retest-Reliabilität interessant Diese ist definiert als Korrelation des Tests t mit sich selbst Kovarianz der beiden Messzeitpunkte geteilt durch die Standardabweichung der beiden Messzeitpunkte mit den selben Personen r tt cov( xt, x s s xt xt t ) Die wahren Werte w t und w t desselben Tests aus zweimaliger Testung sind identisch Daher ist die Kovarianz cov(w t,w t ) identisch mit der Varianz der wahren Werte in dem von Test t erfassten Merkmal cov( x cov( x t t, x, x t t ) cov( w ) s 2 wt t, w t )

15 S e i t e 15 Annahme: Exakt vergleichbare Bedingungen von Test und Retest s xt s xt s 2 xt Die Varianz und somit auch die Standardabweichung der Werte sind exakt gleich Daher kann statt s xt * s xt einfach s xt ² eingesetzt werden r tt s s 2 wt 2 xt Reliabilität als Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte Wird der Koeffizient mal 100 genommen, ergibt sich die Reliabilität in Prozent Reliabilitätskoeffizienten können Werte zwischen 0 und 1 annehmen o 0 bedeutet, dass die beobachtete Varianz nur Fehlervarianz beinhaltet, aber keine wahre Varianz o 1 bedeutet, dass die beobachtete Varianz nur aus wahrer Varianz besteht je höher die Reliabilität, desto messgenauer ist ein Test Reliabilitäten.70 werden als akzeptabel angenommen Je reliabler ein Test, desto weniger streuen die Werte um den wahren Wert Standardmessfehler Def.: Der Standardmessfehler, ist derjenige Anteil an der Streuung eines Tests, der zu Lasten seiner (gewöhnlich nicht perfekten, also unvollständigen) Zuverlässigkeit geht. Zur Berechnung des Standardmessfehlers wird die Standardabweichung mit der Reliabilität verrechnet, s da diese angibt, wie hoch der Anteil wahrer Werte et sxt 1 rtt ist. Je höher die Reliabilität, desto geringer der Standardmessfehler o Wenn r tt =1, dann s et =0 o wenn r tt =0, dann entspricht der Standardmessfehler der Standardabweichung der Verteilung (s et =s xt ) s et gibt die Streuung der beobachteten Werte x t um die entsprechenden wahren Werte w t an sowohl

16 S e i t e 16 o über alle Testpersonen bei einmaliger Testung als auch o für eine Testperson bei mehrmaliger Testung unter identischen Bedingungen Wird benötigt, um das Konfidenzintervall zu berechnen Konfidenzintervall/Mutungsintervall/Erwartungsbereich Voraussetzung zur Bestimmung des Konfidenzintervalls Normalverteilung der Fehler Stichprobe 60, bei kleineren Stichproben kann t-verteilung genutzt werden Test besitzt ausreichende Reliabilität (Rel 80), bei sinkender Reliabilität werden Punktschätzungen ungenau und das Konfidenzintervall zunehmend breiter Würde eine Person unendlich oft getestet werden, würden ihre Testwerte eine Normalverteilung ergeben. Der Mittelwert wäre der wahre Wert w tj, der Standardmessfehler s et entspricht der Standardabweichung Der Erwartungsbereich ist der Bereich, in dem die beobachteten Messwerte um den wahren Wert streuen. Um den Messwert kann also ein Konfidenzintervall gelegt werden, in dem sich der wahre Wert mit einer gegebenen Wahrscheinlichkeit befindet. Der wahre Wert soll möglichst genau eingegrenzt werden. CL X z ti s et 2 X ti Messwert z 2 z Wert bei Signifikanz Je höher die Reliabilität desto geringer der Standardmessfehler, desto schmaler das Konfidenzintervall desto sicherer kann man sich mit dem Messwert sein. Je nachdem mit welcher relativen Sicherheit eine Feststellung getroffen werden soll (abhängig von den potentiellen Konsequenzen für den Probanden), wird man den Erwartungsbereich verschieden breit ansetzen. Beispiel: Vp erreicht im IQ-Test einen Wert von 135, nimmt man nun an, dass das 95%- Konfidenzintervall für diese Person von reicht, so kann diese Person nicht eindeutig als hochbegabt (>130) klassifiziert werden Achtung: Auch bei hohen Reliabilitäten ist das Konfidenzintervalls noch relativ breit Steigerung der Reliabilität führt zu schmalerem Konfidenzintervall

17 S e i t e 17 Kritische Differenz Werden zwei Probanden getestet, so treten bei beiden Messungen Messfehler auf. Die kritische Differenz wird berechnet, um entscheiden zu können, ob sich die Testwerte zweier Probanden signifikant unterscheiden. Zur Berechnung wird der Standardmessfehler der empirischen Differenz der Testwerte benötigt. s ediff s x 2(1 rtt ) D z krit s ediff 2 Ist die berechnete kritische Differenz kleiner als die empirische bestimmte, so wird der Unterschied als signifikant angenommen, man kann dann davon ausgehen, dass die Differenz zwischen den Probanden nicht durch die Unzuverlässigkeit des Tests zu erklären ist. Ist sie größer, so wird der Unterschied als nicht signifikant angenommen. Durch Umstellen der Formel, kann man auch die Wahrscheinlichkeit für das Auftreten einer bestimmten empirisch ermittelten Differenz herausfinden. Der ermittelte z-wert gibt an, mit welcher Wahrscheinlichkeit die kritische Differenz die empirische übersteigt und man somit die Verteilungen als nicht signifikant verschieden annimmt. Bsp.: Wäre der z-wert 2,6, wäre die Auftretenswahrscheinlichkeit 1% und es besteht ein signifikanter Unterschied. Die kritische Differenz kann auch bei einer Person über zwei oder mehrere Testungen berechnet werden, um signifikante Veränderungen zu erfassen. Außerdem kann bestimmt werden, ob sich die Werte eines Probanden in mehreren Skalen signifikant unterscheiden, um z.b. Stärken und Schwächen eines Probanden zu ermitteln. Bei der Berechnung des Standardmessfehlers werden dann die Reliabilitäten beider Skalen berücksichtigt. Minderungskorrektur Wird benötigt, weil Fehlereinflüsse die Korrelation zwischen zwei Tests vermindern und man die Korrelation zwischen den wahren Werten ermitteln will. Man fragt sich, wie hoch die Korrelation zwischen den beiden Tests wäre, wenn einer bzw. beide perfekt reliabel, d.h. ohne Messfehler, messen würden. Einfache Minderungskorrektur: c corr r tc ccorr r tc r tc r cc Es wird um die Unreliabilität eines Tests korrigiert, dieser Test hat dann eine perfekte Reliabilität von 1. = Korrelation des Tests mit dem Kriterium = Validität

18 S e i t e 18 Verdünnungsparadoxon: Da die Reliabilitätskoeffizienten jeweils im Nenner stehen gilt: Je geringer die Reliabilität eines bzw. beider Tests ist, desto stärker ist der Effekt der Minderungskorrektur und somit die Erhöhung der Validität. Doppelte Minderungskorrektur: ct corr r tc r tt r tc r cc Es wird um die Unreliabilität beider Tests korrigiert, beide Tests haben dann eine perfekte Reliabilität von 1. c t corr r tc = Korrelation des Tests mit dem Kriterium = Validität Zur Berechnungen müssen die Reliabilitätskoeffizienten eines bzw. beider Tests sowie die beobachtete Korrelation zwischen den Tests bekannt sein. Es kann ein beliebiger Reliabilitätskoeffizient zur Berechnung herangezogen werden (z.b. Cronbachs ). Die korrigierte Korrelation kann maximal so groß sein, wie das geometrische Mittel der beiden Reliabilitätskoeffizienten. ( =0,85) Die praktische Bedeutung der Minderungskorrektur beschränkt sich auf vor allem auf die Forschung. Reliabilitätsindex Der Reliabilitätsindex gibt an, wie hoch die Korrelation der wahren Werte mit den beobachteten Werten ist (Fehlereinfluss wird also wieder rausgerechnet). Eine Variable/ein Test kann mit einer anderen Variablen nicht höher korrelieren als mit ihren wahren Werten. Erst wenn ein Test hoch mit sich selbst korreliert, kann er auch hoch mit anderen Tests korrelieren. Die Korrelation kann maximal die Wurzel aus der Reliabilität betragen Obergrenze für korrelative Zusammenhänge, also auch für die Minderungskorrektur und die Validität eines Tests. Höhere Koeffizienten müssen auf Artefakten beruhen. rxtwt r tt r xtwt =Korrelation Messwert im Test t mit wahrem Wert im Test t

19 S e i t e 19 Testlänge Varianz von Items und Skalenwerten Die Varianz eines Skalenwertes entspricht der Summe der Varianz der einzelnen Items sowie der Kovarianzen zwischen den Items. positive Kovarianzen steigern die Varianz der Skala negative Kovarianzen verringern die Varianz einer Skala Durch die Aufnahme zusätzlicher (inhaltsrelevanter) Items kann die Reliabilität eines Verfahrens gesteigert werden. Hierbei wird der relative Anteil der Varianz wahrer Werte an der Gesamtvarianz der Skalenwerte erhöht. Eine Verdopplung der Testlänge führt zu: Vervierfachung der Varianz der wahren Werte aber nur Verdopplung der Fehlervarianz Die Reliabilität ist daher abhängig von der Länge des Tests (ausgedrückt als Zahl der Aufgaben/Items). Spearman-Brown-Formel Berechnung der zu erwartenden Reliabilitätssteigerung durch Verlängerung der Skala corr r tt k rtt 1 ( k 1) r tt k=verlängerungsfaktor Anwendung der Formel setzt äquivalente bzw. homogene Testteile voraus. Anzahl alter Items Anzahl neuer k Anzahl alter Items Items Man kann den umgekehrten Weg gehen, um herauszufinden, wie viele neue Items konstruiert werden müssen, um eine bestimmte Reliabilität zu erhalten. Zusammenhang zwischen Ausgangsreliabilität, Testverlängerung (Faktor k) und neuer Reliabilität Die Testverlängerung ist vor allem eine sinnvolle Maßnahme, wenn der Test relativ kurz und unreliabel ist, da der Reliabilitätszuwachs bei niedrigen Ausgangsreliabilitäten am größten ist. Die Prinzipien der Formel können auch zur Verkürzung von Tests angewendet werden, wenn man wissen möchte, wie lang der Test sein muss, um eine bestimmte Reliabilität zu erreichen. um Tests so ökonomisch (Zeit- oder Kostengründe) wie möglich zu gestalten und dennoch eine bestimmte Reliabilität nicht zu unterschreiten

20 S e i t e 20 Der Effekt der Testverlängerung lässt sich ebenfalls anhand der Formel zur Berechnung von Cronbachs veranschaulichen: nimmt dann hohe Werte an, wenn zwischen den Items hohe Kovarianzen bestehen, d.h. wird größer, wenn mehr Items, da dann mehr Kovarianz Vorhersage auf Basis von Testwerten Korrelative Studien (Korrelation zwischen Prädiktor- und Kriteriumsvariablen) sind die Grundlage für Vorhersagen, die durch Regressionsgerade berechnet werden. Vorhersagen sind wichtig für die entsprechenden Prognosen (z.b. Ausbildung oder Universität aufgrund der allgemeinen Intelligenz). Regressionsgerade: Yˆ a b xy X Yˆ vorhergesagter X Pr ädiktorwert a Kons tan te ( y b xy Steigung Wert Achsenabsc hnitt ) Berechnung der Steigung b r xy s s y x Berechnung der Konstante a Y b xy X Die Regressionsgerade wird so gebildet, dass die Summe der quadrierten Abweichungen parallel zur Ordinate ein Minimum bildet. Annahmen für korrekte Berechnung: Keine Veränderung der Rahmenbedingungen, d.h. Mittelwert und Streuung sind zum Zeitpunkt der Vorhersage gleich wie bei der Erhebung. Der Proband für den die Vorhersage gemacht werden soll, wird als Teil der Erhebungsstichprobe, anhand derer die Regressionsgerade bestimmt wurde, angenommen. Probleme: Annahmen oft nicht gerechtfertigt Fehler unvermeidbar Kriteriumswerte streuen um die Regressionsgerade, eine Vorhersage ist daher nie perfekt, da immer ein gemittelter Wert vorhergesagt wird (außer die Korrelation zwischen Prädiktor und Kriterium wäre 1) Die Standardabweichung der tatsächlich aufgetretenen um die mittels der Regressionsgeraden vorhergesagten Werte ist der Standardschätzfehler

21 S e i t e 21 Besteht zwischen Prädiktor und Kriterium eine Nullkorrelation, so entspricht der Standardschätzfehler der Streuung des Kriteriums (Kein Zusammenhang, vorhergesagte Werte bestehen daher nur aus Fehlern). Wenn Korrelation=1 (Standardschätzfehler 0), dann ist x=y, wenn beide die gleichen Maßeinheiten haben Bei zwei vorhergesagten Werten kann wiederum anhand der kritischen Differenz entschieden werden, ob sich diese signifikant voneinander unterscheiden, dies ist wichtig für die daraus abgeleiteten Prognosen. (Berechnung mit Standardschätzfehler statt Standardmessfehler) Vorteil der KTT: Pragmatik, Ökonomie Kritik an der KTT Fehlende messtheoretische Grundlage: Axiome empirisch nicht überprüfbar Annahme eines unkorrelierten Messfehlers kritisch Annahme, dass Fehler sich über mehrere Testungen hinweg rausmitteln kritisch Beispiel: Proband, der Testangst hat (systematischer Fehler) Annahme einer intraindividuellen Invarianz der wahren Werte einer Person sind nur bei kurzen Zeiträumen und nur für bestimme Merkmalsbereiche vertretbar KTT setzt mindestens Intervall-Skalen-Niveau voraus; fraglich, ob dies bei allen Tests erreicht wird Die mit den statistischen Verfahren verbundenen Implikationen sind hinsichtlich des Merkmals in Teilen nicht überprüfbar (z. B. dass Merkmale grundsätzlich normalverteilt sein sollen) Die wichtigsten Kennwerte (z.b. Reliabilität) basieren auf Korrelationen, die in der Validierungsstichprobe bestimmt werden (Stichprobenabhängigkeit!) Praktisch bedeutet dies, dass z.b. die Reliabilität nicht die Messfehlerbehaftetheit eines Tests an sich, sondern eine Messfehlerbehaftetheit in Bezug auf eine bestimmte Population charakterisiert Mangelnde Generalisierbarkeit der Reliabilität, je nach Substichprobe (z.b. Männer vs. Frauen) ergeben sich unterschiedliche Reliabilitäten Die Übertragbarkeit von gruppenstatistischen Kennwerten auf den Einzelfall ist immer dann problematisch, wenn die Reliabilität und/oder Validität < 1,0 ist (also quasi immer!) Die Bildung des Testwerts erfolgt im Rahmen der KTT durch die Bildung eines Summenwertes, dies setzt Eindimensionalität voraus, d.h. alle Items erfassen dasselbe Konstrukt. Im Rahmen der KTT nicht überprüfbar (Versuch mittels exploratorischer Faktorenanalysen). Item-Response-Theorie/Probabilistische Testtheorie IRT wurde entwickelt um folgende Probleme der KTT zu umgehen: 1. Skalenniveau der untersuchten Merkmale kann meist nicht genau angegeben werden 2. gefundene Kennwerte sind stichprobenabhängig 3. Homogenität der Items bezüglich des untersuchten Merkmals nicht überprüfbar Ausgangspunkt: Unterscheidung zwischen manifesten und latenten Variablen. Manifeste Variablen: beobachtbares Antwortverhalten auf verschiedene Testitems Latente Variablen: nicht beobachtbare Fähigkeiten oder Dispositionen, welche das manifeste Verhalten bestimmen (=wahrer Wert der KTT)

22 S e i t e 22 wesentlicher Unterschied zwischen IRT und KTT: KTT: bei der Testwertebildung wird die Antwort der Probanden auf die Items des Tests mit der Messung des im Test erfassten Konstruktes gleichgesetzt. IRT: das im Test gezeigte Verhalten (also die Antworten auf die Items) wird hier hingegen auf eine Fähigkeit oder Eigenschaft zurückgeführt, die das Testverhalten verursacht o Das beobachtete Verhalten (die manifeste Variable) ist nach der IRT also lediglich ein Indikator für das dahinter liegende Konstrukt (latente Variable), dessen Messung nur indirekt erfolgen kann. o Die Ausprägung der latenten Variable kann daher nur erschlossen werden. Itemhomogenität Um von den manifesten auf latente Variablen schließen zu können, müssen die manifesten Variablen (z.b. Testitems) Korrelationen aufweisen. Diese sollten möglichst nur auf den Einfluss einer latenten Variablen zurückgeführt werden können. Dann kann man davon ausgehen, dass die Items Manifestationen desselben latenten Konstrukts sind. Um dies zu überprüfen, wird die latente Variable auf einer Stufe konstant gehalten (z.b. nur Probanden mit exakt der gleichen Fähigkeitsausprägung untersuchen) Die Korrelationen zwischen den Items sollten dann verschwinden, da die Ausprägung der latenten Variablen bei allen Vpn der SP gleich ist, somit keine Varianz erzeugt wird und die Grundlage für das Bestehen von Korrelationen fehlt. Ist dies der Fall, so sind die Items lokal stochastisch unabhängig und können als homogen bezüglich der latenten Variablen bezeichnet werden. Die Beantwortung eines Items hängt hierbei nicht von der Beantwortung eines anderen Items ab. Testitems, welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen, bezeichnet man als Indikatoren der latenten Variablen. Wenn die lokalen Verbundwahrscheinlichkeiten dem Multiplikationstheorem für unabhängige Ereignisse folgen, ist die Bedingung der lokalen stochastischen Unabhängigkeit erfüllt. Es besagt, dass die Wahrscheinlichkeit für das gemeinsame Auftreten zweier Ereignisse dem Produkt der Einzelwahrscheinlichkeiten entspricht, wenn diese lokal stochastisch unabhängig sind. Es besteht dann Itemhomogenität.

23 S e i t e 23 Latent-Class-Modelle verwenden kategoriale latente Klassen (z.b. gesund/krank) zur Charakterisierung von Personenunterschieden Latent-Trait-Modelle verwenden quantitative, kontinuierliche latente Variablen Grundannahmen: Jeder Proband besitzt eine Fähigkeit, Items zu lösen Personenparameter (Fähigkeits-, Einstellungs-, Dispositionsparameter) beschreibt die Merkmalsausprägung Jedes Item besitzt eine Schwierigkeit Itemparameter (Schwierigkeits- oder Anforderungsparameter) je leichter ein Item, desto weiter links wird es abgetragen und umgekehrt Personen und Itemparameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden ( joint scale ) und bilden eine Itemcharakteristische Funktion Wird auf der x-achse abgetragen Die Wahrscheinlichkeit, dass ein bestimmter Proband ein bestimmtes Item löst, wird von Personen- und Itemparameter bestimmt Die Reaktionen sind lokal stochastisch unabhängig", d.h. ob ein Proband eine bestimmte Aufgabe löst oder nicht löst, hängt nicht davon ab, welche anderen Aufgaben er bereits gelöst hat oder noch lösen wird. Anwendung: v.a. in Fähigkeits- und Leistungstests, teilweise auch in Persönlichkeits-, Einstellungs-, oder Interessentests immer wenn binäre Items gelöst werden können oder nicht 1. deterministische Modelle Grenzfall eines probabilistischen Modells, da nur 0 und 1 als Lösungswahrscheinlichkeit vorkommt gehen davon aus, dass das Antwortverhalten der Probanden durch die Item- und Personenparameter vollständig bestimmt ist Guttmann-Modell (Skalogramm-Modell) Beispiel: Stufenmodell Piaget, Intelligenzalter Binet Vorläufer der probabilistischen Latent-Trait-Modelle Annahme, wenn Items nach Schwierigkeitsgrad geordnet sind: Löst ein Proband ein Item, muss er alle leichteren auch gelöst haben. Löst ein Proband ein Item nicht, darf er kein schwereres lösen. einheitliche Ordnung von Personen und Items Skalenwert einer Person entspricht der Rangzahl des Items ab dem der Proband positiv/negativ reagiert (Zustimmung ändert sich) ab dem der Proband ein Item nicht mehr lösen/ab dem der Proband die Items lösen kann (Fähigkeit ändert sich)

24 S e i t e 24 Über sog. Reproduzierbarkeitskoeffizienten wird festgestellt, ob die Annahme der Modellkonformität (Itemhomogenität) noch gegeben ist. Maßgeblich ist hierfür die Anzahl der Rangplatzvertauschungen, die entstehen, wenn schwierigere Items gelöst, aber leichtere Items nicht gelöst werden. Kritik: Keine Aussagen über Distanzen von Items und Personen möglich, da nur ordinalskaliert Die relativ strengen Modellannahmen des Guttman-Modells werden in der Praxis meist nicht erfüllt. 2. probabilistische Modelle Die ICC ordnet jeder Ausprägung der latenten Variable Wahrscheinlichkeit p (i+ ) zu, mit der ein bestimmtes Item i gelöst wird ICCs werden als monoton steigend angenommen, d.h. die Lösungswahrscheinlichkeit steigt mit zunehmender Fähigkeit/Merkmalsausprägung monoton an Es werden nur dichotome Reaktionen (Lösung/Nichtlösung) beachtet Der Zusammenhang von Personenparameter, Itemparameter und Lösungswahrscheinlichkeit durch eine logistische Funktion beschrieben Itemcharakteristische Funktion (IC-Funktion/ICC) Zeigt die Ausprägung von Item- und Personenparameter an Funktion beschreibt mathematisch, welche Abhängigkeit zwischen dem manifesten Antwortverhalten auf die Testitems und der Ausprägung der latenten Eigenschaften besteht Funktion liefert Werte zwischen 0 und 1 Die Steigung der ICC (im dichotomen Rasch-Modell entspricht sie der Iteminformationsfunktion) variiert mit der Differenz zwischen Fähigkeit und Itemschwierigkeit Je schwieriger ein Item ist, desto weiter verschiebt sich seine ICC nach rechts, d.h. bei gleichbleibender Fähigkeit nimmt die Lösungswahrscheinlichkeit ab Je fähiger eine Person, desto größer ist bei gleicher Schwierigkeit die Lösungswahrscheinlichkeit

25 S e i t e 25 a) 1-PL-Modell (dichotomes Rasch-Modell) Die Lösungswahrscheinlichkeit ist ausschließlich durch die Itemschwierigkeit und die Fähigkeit bestimmt Der Itemdiskriminationsparameter ist für alle Items = 1, alle Items haben die gleiche ICC Die Lösungswahrscheinlichkeit (und auch die Formel der ICC) wird durch die Differenz von Personenparameter und Itemparameter bestimmt Durch Einsetzen in die Formel ergeben sich folgende Fälle: o Wenn =, dann ist p = 0,5 (Wendepunkt) o Wenn <, dann ist p < 0,5 und geht bei sehr geringer Fähigkeit gegen 0 o Wenn >, dann ist p > 0,5 und geht bei sehr großen Fähigkeiten gegen 1 Rasch-homogene Items unterscheiden sich nur in ihrem Schwierigkeitsparameter. Leichtere Items werden als ICC eher links schwerere eher rechts abgetragen. Da alle Items gleich gut diskriminieren sind alle ICCs deckungsgleich b) 2-PL-Modell (Birnbaum-Modell) Die Lösungswahrscheinlichkeit wird durch Itemschwierigkeit, Fähigkeit und Itemdiskriminationsparameter bestimmt Der Itemdiskriminationsparameter (Pendant zur Trennschärfe der Itemanalyse in der KTT) bestimmt die Steigung der jeweiligen ICC und ihres zugehörigen Wendepunkts unterschiedliche Sensitivität Je kleiner i, desto flacher ist die ICC und desto geringer die Diskriminationsleistung des Items bei Personen mit höherer und niedrigerer Merkmalsausprägung. Dafür gewinnt ein solches Item aber an Sensitivität im oberen und unteren Bereich der Merkmalsausprägung Die Ratewahrscheinlichkeit ist unabhängig von der Fähigkeit c) 3-PL-Modell (Rate-Modell) Die Lösungswahrscheinlichkeit wird durch Itemschwierigkeit, Fähigkeit, Trennschärfe und Ratewahrscheinlichkeit bestimmt

26 S e i t e 26 Iteminformationsfunktion Die Iteminformationsfunktion zeigt an, wie viel Information ein Item in einem bestimmten Fähigkeitsbereich über die Unterschiedlichkeit der Probanden liefert. Die Itemschwierigkeit liegt bei dem Punkt, bei dem die Lösungswahrscheinlichkeit 0,5 ist (Wendepunkt der ICC höchste Steigung, mittleres Schwierigkeitsniveau); hier liefert das Item die meiste Information, da hier maximal viele Unterscheidungen zwischen Lösern/Nichtlösern getroffen werden Die logistische IC-Funktion zeigt, dass die Lösungswahrscheinlichkeiten ihren größten Zuwachs haben, wenn die Itemschwierigkeit mit der Merkmalsausprägung übereinstimmt Itemschwierigkeit muss im Bereich der Fähigkeiten angesiedelt sein Iteminformationsfunktion erreicht dort ihr Maximum (an Informationsgewinn), wo ξv = σi ist und fällt dann zu beiden Seiten ab. Numerisch lässt sich die Iteminformationsfunktion eines best. Items für die jeweilige Merkmalsausprägung aus dem Produkt aus bedingter Lösungs-und Nichtlösungswahrscheinlichkeit des Items berechnen. Der Informationswert ist somit das Pendant zum Standardmessfehler eines Tests aus der klassischen Testtheorie, der allerdings nicht als konstantes Merkmal des Tests, sondern als Funktion der Personenkennwerte beschrieben wird Nur dann deutliche Unterschiede in der Lösungswahrscheinlichkeit der Probanden, wenn die Fähigkeiten im Bereich der Itemschwierigkeit liegt ( = ) Wenn die Fähigkeiten von den Item-Schwierigkeiten deutlich abweichen, fallen die Unterschiede im Lösungsverhalten viel geringer aus

27 S e i t e 27 Testgesamtinformation Für einen aus k Items bestehenden Test lässt sich additiv die Testgesamtinformation I als Summe der einzelnen Item-Informationsbeträge berechnen. Mit Hilfe von I kann die Genauigkeit der Personenparameterschätzung durch Berechnung des Konfidenzintervalls bestimmt werden Die Testgenauigkeit wird umso größer, je höher I ausfällt I kann durch Vermehrung der Itemanzahl und/oder durch Vergrößerung der einzelnen additiven Iteminformationsbeträge gesteigert werden Um den Verlauf der ICCs bestimmen zu können, ist es erforderlich die Parameter festzulegen. Dies geschieht durch eine Schätzung. Parameterschätzung bei 1PL-Modell Anhand der empirischen Daten (Einzelreaktionen auf die Items), werden Personen- und Itemparameter geschätzt und somit die ICC festgelegt Vor der Schätzung werden die Items eliminiert, die entweder von allen oder von keiner Person gelöst wurden: Enthalten keine Information über Fähigkeitsausprägung; ebenso werden Testpersonen eliminiert, die entweder alle oder kein Item gelöst haben 1. Ausgangspunkt: Empirische Datenmatrix Spaltensumme: Schwierigkeit der Items Zeilensumme: Fähigkeit der Probanden Es könne die Spalten und Zeilensummen genutzt werden, da es sich um eine erschöpfende Statistik handelt 2. Auswahl passender Parameter: Zuerst wird je Item ein Schwierigkeitsparameter geschätzt o Normierung/Summennormierung der Parameter möglich Werte für Itemparameter werden meist zw. -3 und +3 gewählt (Mittelwert meist 0); leichte Items bekommen negative Werte, schwierige positive Mit der Normierung der Itemparameter liegt auch die Skala der Personenparameter fest, geringe Merkmalsausprägungen bekommen negative Werte, hohe Ausprägungen positive Bei Personen, die kein Item (Zeilensummenscore=0) und Personen, die alle Items (Zeilensummenscore =m bei m Items) gelöst haben, ist der Itemparameter nicht genau bestimmbar, da er gegen bzw. + unendlich tendiert; anhand von Normierungen können aber bestimmte Werte zugewiesen werden 3. Überprüfung der Parameter Die Passung der gewählten Parameter auf die empirischen Daten wir mit Hilfe der Likelihood überprüft. (Es gehen sowohl die geschätzten Parameter als auch die emp. Daten mit ein)

28 S e i t e 28 Als Ergebnis erhält man eine Wahrscheinlichkeit zwischen 0 und 1, die die Wahrscheinlichkeit für die emp. Daten unter den angenommenen Parametern angibt. L steigt bei günstiger Wahl der Parameter an (Wertebereich 0 bis 1) Sie gibt also an, wie wahrscheinlich die empirisch beobachtete Daten bei einem bestimmten gewählten Parameter sind In der Praxis wird die Schätzung allerdings häufig durch die CML durchgeführt (Conditional-Maximum-Likelihood-Methode) d.h. die Itemparameter werden solange verändert, bis sie mit der beobachteten Datenmatrix am besten übereinstimmen (Computerprogramm, z.b. WINMIRA) Vorteil der CML ist, dass sie die Itemparameter unabhängig von den Personenparametern schätzt ( Separierbarkeit der Parameter, Stichprobenunabhängigkeit) Die Likelihoodschätzung macht keine Aussagen darüber, ob die getroffenen Modellannahmen auch wirklich zutreffen. Es könnte sein, dass auch die optimal geschätzten Parameter nur geringe Wahrscheinlichkeiten für die Daten aufweisen Es muss deshalb geprüft werden, ob die empirischen Daten auch wirklich den Modellanahmen entsprechen. Modelltests/Prüfung der Modellkonformität beim 1PL-Modell (Entsprechen Daten den Modellannahmen?) Modelltests sind Verfahren zur Überprüfung der Güte der Anpassung empirischer Daten an ein theoretisches Modell. Um die Modellpassung an die empirischen Daten zu überprüfen, müssen zunächst die Parameter geschätzt/bestimmt werden, um das Modell zu definieren. 1. ²-Verfahren Wie gut passen die geschätzten Parameter zu meinem empirischen Modell? Mit den geschätzten Parametern wird die Ausgangsmatrix reproduziert Es wird anhand des ²-Verfahren überprüft, ob sich diese reproduzierte Matrix und die empirisch beobachtete Ausgangsmatrix signifikant unterscheiden Wenn die Datenmatrizen sich nicht signifikant unterscheiden (H 0 wird angenommen), dann gelten die Parameter als modellverträglich und das Modell kann als gültig angenommen werden

29 S e i t e In Frage stellen der Stichprobenunabhängigkeit: Einfachstes Vorgehen Teilung der Stichprobe nach einem relevanten Kriterium (z.b. Alter, Geschlecht) in zwei oder mehr Substichproben Für jede Substichprobe separate Schätzung der Itemparameter Pro Itemparameter erhält man zwei Werte (einen aus jeder Substichprobe) Wenn diese nicht signifikant unterscheiden ist Stichprobenunabhängigkeit und somit Modellkonformität gegeben a. Graphischer Modelltest o Die Itemparameterschätzungen beider Substichproben werden in einem bivariaten Streuungsdiagramm gegeneinander abgetragen o Je näher die Itemparameter an der Hauptdiagonalen liegen, desto größer die Stichprobenunabhängigkeit und desto eindeutiger Raschhomogenität o Systematische Abweichungen: Hinweise auf modellinkonforme Wechselwirkungen zwischen der Itemschwierigkeit und dem Kriterium, nach dem die Stichprobe geteilt wurde b. Numerischer Modelltest (z.b. Likelihood-Quotienten-Test nach Anderson) o Es werden für beide Teilstichproben CML-Schätzungen durchgeführt und mit einem Signifikanztest auf Unterschiedlichkeit überprüft o Wenn sich die Nullhypothese bestätigt, d.h. die Schätzungen der beiden Substichproben unterscheiden sich nicht signifikant, kann Modellkonformität angenommen werden 3. Personenselektion Wenn ein Test sich als nicht konform herausstellt, könnte dies auch an der Stichprobe liegen (Untypische Bearbeitungsstile: z.b. Antworttendenzen, Schwindeln, Raten, soziale Desirabilität, Sprachschwierigkeiten, mangelndes oder unterschiedliches Instruktionsverständnis) Aussortieren, um Bearbeitungsstile zu homogenisieren Person-Fit-Indices (Caution-Indices): Überprüfen, ob Antwortmuster einer Person plausibel oder unplausibel ist und somit, ob sich die Person modellkonform oder modellinkonform verhalten hat. Wenn eine Testperson sich nicht modellkonform verhält, sollte das Testergebnis wenn überhaupt nur mit Vorsicht interpretiert werden. Ein niedriger Person-Fit-Index kann aber auch ein Hinweis auf eine Eigenschaft des Probanden sein, z.b. dass sich der Arbeitsstil dieses Probanden von dem der Mehrheit unterscheidet, so könnte ein Proband seine Leistung unter Belastung steigern. Modellvergleich Das 1PL-Modell (Rasch-Modell) ist hinsichtlich seiner Gültigkeit (erschöpfende Statistiken, spezifische Objektivität, Stichprobenunabhängigkeit, Intervallskalierung) mit Modelltests überprüfbar. Das gilt für das 2PL- und 3PL-Modell nicht, obwohl sie eine umfassendere Modellierung des Probandenverhaltens vorgeben. o Hier gibt es lediglich sog. Goodness-of-Fit-Maße, die aber keine sicheren Rückschlüsse auf das Zutreffen der Modellimplikationen erlauben. Somit weist das 1PL-Modell die vorteilhafteren Modelleigenschaften auf, was sich in seiner häufigen Verwendung widerspiegelt. Beispiele für die Anwendung der Item-Response-Theorie im Leistungstestbereich ist PISA (Progamme for International Student Assessment)

30 S e i t e 30 Vorteile des 1-PL-Modells/Rasch-Modells Wenn die Modellannahmen sich nach Überprüfung durch einen Modelltest als gültig erweisen, ergeben sich folgende Vorteile: Rasch-Homogenität o Die ICCs verlaufen entsprechend dem Schätz-Modell (1PL) erschöpfende Statistiken Liegen die Itemparameter vor und ist die Modellkonformität bestätigt, muss nicht für jede Person ein eigener Personenparameter geschätzt werden. o Die ganze Info, die ein Test über eine Person liefert, ist in der Anzahl der von der Person gelösten Items enthalten (=Summenwert) o Analog gilt dies für den Itemparameter: Die Itemschwierigkeit ist unabhängig davon, welche Probanden die Items gelöst haben, entscheidend ist auch hier die Anzahl Alle Personen mit demselben Zeilensummenscore haben dann den gleichen Personenparameter. Personen, die kein Item lösen («Item zu schwer») erreichen einen Zeilensummenscore von Null. Personen, die alle Items lösen («Item zu leicht») erhalten einen Zeilensummenscore von m (bei m Items). Ihr Personenparameter ist allerdings nicht genau bestimmbar, wie dieser gegen und + strebt. Durch Normierungen können aber plausible Parameter zugewiesen werden. Stichprobenunabhängigkeit der Parameterschätzung/Separierbarkeit der Parameter o Itemparameter können geschätzt werden, ohne Personenparameter zu kennen und ohne Annahmen über deren Verteilung treffen zu müssen o Itemparameter fallen immer gleich aus, egal welche Stichprobe zur Validierung des Verfahrens benutzt wurde spezifische Objektivität o Die IC-Funktionen aller Items haben die gleiche Form und unterscheiden sich nur hinsichtlich ihrer Schwierigkeit (Verschiebung auf der Achse) o Vergleiche zwischen Personen: Unabhängig davon, welche Items eines Tests einer Personengruppe vorgelegt werden, bleibt die Rangreihe der Personen und die Unterschiede zwischen den Personenparametern immer gleich o Vergleiche zwischen Items: der Schwierigkeitsunterschied zweier Items kann unabhängig davon festgestellt werden, ob Personen mit hohen oder niedrigen Merkmalsausprägungen untersucht wurden. Lokale stochastische Unabhängigkeit o Alle Items erfassen die gleiche eindimensionale latente Variable Möglichkeit des adaptiven Testens o Typischer Einsatzbereich: Leistungstestung o Steigerung der Testökonomie o Es werden nur solche Items vorgelegt, die für den jeweiligen Probanden maximal informativ sind, d.h. deren Schwierigkeit mit der Fähigkeit des Probanden übereinstimmen, da nur diese wesentlich zur Testgesamtinformation beitragen o Möglichkeiten: branched testing (Verzweigungen) bei Paper-Pencil-Tests (z.b. AID), computergestützte Verfahren (z.b. Frankfurter Adaptiver Konzentrationsleistungs-Test, FAKT) o Solche adaptiven Strategien erfordern einen IRT-homogenen Itempool Intervallskalierte Ergebnisse o Es können nicht nur Rangreihen, sondern auch Abstände interpretiert werden o Die gemeinsame Skala von und ist intervallskaliert und somit auch die latente Variable, der Nullpunkt ist frei wählbar

31 S e i t e 31 Vergleich IRT vs. KTT KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person (z.b. dem Prozentsatz gelöster Items) und der Schwierigkeit eines Items (z.b. dem Prozentsatz an Personen, die das Item lösen) her. Bei der IRT hingegen werden Fähigkeitsschätzungen und Itemschwierigkeiten auf einer «joint scale» abgebildet. Eindeutig ist die relative Lokalisation der Personenfähigkeit zu der Itemschwierigkeit allerdings nur dann, wenn die IC-Funktionen aller Items parallel verlaufen (wie im Rasch-Modell). KTT liefert als Messfehlertheorie Konzepte zur Reliabilitätsschätzung, während die IRT Beziehungen zwischen Antworten von Probanden und dahinter stehenden latenten Merkmalen expliziert. Beide Ansätze ergänzen sich daher

32 S e i t e 32 Kriteriumsorientierte Tests Definition: Kriteriumsorientierte Tests sind inhaltsvalide Testverfahren, die nicht die Position einer Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder Verfehlen eines konkreten Kriteriums ermitteln wollen. Unterschied zu klassischen normorientierten Verfahren: Sie wollen nicht Konstrukte oder Traits erfassen, sondern ein konkretes Kriteriumsverhalten. Sie sind nicht konstruktvalide, sondern inhaltsvalide. Probleme: 1. Inhaltsvalide Itemmengen, die eine repräsentative Stichprobe der Grundmenge darstellen müssen generiert werden, z.b. durch Expertenurteile 2. Es müssen realitätsangemessene, sachgerechte Kriterien festgelegt werden, die von der untersuchten Person erreicht werden müssen sachgerecht meint z.b. Kriterien, die nachweislich zur Erreichung nachfolgender Kriterien erforderlich sind, Beispiel: Führerscheinprüfung Die Realitätsangemessenheit muss immer wieder überprüft und ggf. korrigiert werden 3. Es müssen zufallskritische Trennwerte ermittelt werden Grundannahme: Könner können von Nichtkönnern dadurch unterschieden werden, dass sie in der relevanten Kriteriumsklasse keine Fehler machen, 100%-Kriterium wäre aber zu hoch Frage: Welches Kriterium ist unter Berücksichtigung von Zufallseinflüssen angemessen? Lösungsmöglichkeiten: a) Experten legen Kriterium fest b) Einfehlermodell: ein Irrtumsgrad von 5-10% wird festgelegt, d.h. ein Könner muss 90 bzw. 95% der Aufgaben lösen, um als Könner klassifiziert zu werden (zufallskritische Absicherung) Auf der Grundlage der Binomialverteilung lässt sich mit Hilfe von Tabellen je nach gewählter Irrtumswahrscheinlichkeit für jede Itemzahl diejenige Aufgabenmenge ermitteln, die ein Könner mindestens gelöst haben muss. Wenn diese Aufgabenmenge gelöst wurde, kann nicht mehr ausgeschlossen werden, dass die getestete Person zur Gruppe der Könner gehört. 4. Wenn alle Personen das Kriterium erreichen, werden alle als Könner identifiziert und die üblichen korrelationsstatistischen Maße können nicht mehr angewendet werden ( keine Varianz keine Korrelation) Bestimmung der Gütekriterien eingeschränkt Mögliche Lösung: Verwendung eines Koeffizienten, der die Zahl der übereinstimmenden Klassifikationen in Relation zu der Zahl der Entscheidungen setzt. Testentwicklung Testplanung Der Prozess der Entstehung eines Tests beginnt bei der ersten Testplanung, über die Testentwicklung bis hin zur Erstellung und vorläufigen Erprobung einer Vorversion mit dem Ziel der Revision zum finalen Test Erster Schritt: Exakte Definition des zu messenden Konstrukts z. B. auf Basis eines psychologischen Modells oder einer psychologischen Theorie.

33 S e i t e 33 Wenn (noch) nicht möglich, vorläufige Explikationen oder Arbeitsmodelle, bis Präzisierung im Verlauf weiterer Forschungen möglich Erhebungsmerkmale 1. Qualitative Merkmale (mit kategorialen Ausprägungen) Nominalskalierung 2. Quantitative Merkmale (mit graduellen Abstufungen) Ordinal- oder Intervallskalierung 3. Eindimensionale Merkmale (nur ein Konstrukt repräsentierend) 4. Mehrdimensionale Merkmale (mehr als ein Konstrukt repräsentierend) Fragen zur Ein- oder Mehrdimensionalität eines Konstruktes lassen sich über exploratorische Faktorenanalysen (EFA) oder andere Korrelationsstatistiken klären und später ggf. in einzelnen Subtests berücksichtigen. 5. Zeitlich stabile Merkmale (sog. Traits) Persönlichkeitsmerkmale 6. Zeitlich veränderliche Merkmale (sog. States) Situationsabhängige Zustände Geltungsbereich legt die Anwendungsmöglichkeiten und Einsatzbereiche eines Tests fest Mit Anwachsen des Geltungsbereichs müssen mehr Informationen erfasst werden, damit die geforderten Kriterien mit ausreichender Genauigkeit vorhergesagt werden können hat Auswirkungen auf: o Heterogenität vs. Homogenität von Aufgaben o Personenkreis bzw. Zielgruppe eines Tests o Testlänge (Anzahl der Testaufgaben) o Testdauer (Zeit der Testbearbeitung) Konstruktionsprinzipien psychometrischer Tests 1. Rationale/deduktive Konstruktion 1. Vorliegen einer Theorie zu einem bestimmten Konstrukt 2. Das Konstrukt wird näher spezifiziert und definiert, je nach Konstrukt werden verschiedene Subgruppen gebildet 3. Überlegungen dazu, welche Verhaltensweisen als Indikatoren für dieses Konstrukt geeignet sein könnten (z.b. rechnerische und sprachliche Fähigkeiten für schulische Leistungsfähigkeit) 4. Für die jeweiligen Subgruppen werden mehrere geeignet erscheinende Aufgaben in Skalen zusammengefasst, diese bilden die Gesamtheit der Testbatterie 5. An einer größeren Gruppe von Personen muss dann überprüft werden, ob die zusammengefügten Skalen Sinn ergeben und ob die abgebildeten Unterschiede über die Zeit hinweg stabil oder reliabel sind und mit anderen Indikatoren für das infrage stehende Konstrukt korrelieren ( Validierung). Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen z.b.: Verhaltensorientierte Persönlichkeitstheorien: Selbst- und Fremdbeschreibungen; tiefenpsychologische Persönlichkeitstheorien: projektive Verfahren Vorgehensweise bei rationaler Skalenkonstruktion: 1. Generierung der Items 2. Erhebung einer Validierungsstichprobe 3. Prüfung von Reliabilitätskennwerten (, r sh, r tt ) 4. Eliminierung ungeeigneter Items 5. Überprüfung der Validität in Bezug auf externe Kriterien Beispiele für rationale Skalen: HAWIK, HAWIE

34 S e i t e 34 Vorteile: Sehr ökonomische Entwicklung Leichte Kommunizierbarkeit der individuellen Testwerte, da an alltägliche Sprache angelehnt 2. Externale/kriteriumsbezogene Konstruktion Ziel: Diskrimination verschiedener Gruppen von Personen als Teil der sozialen Realität (z.b. Alkoholiker, Schizophrene, ) optimale Auswahl und Behandlung Voraussetzung: Vorliegen verschiedener Gruppen, die sich im Bezug auf das Kriterium unterscheiden; WICHTIG: Gruppenzugehörigkeit der Personen muss vorher bekannt sein! 1. Den Mitgliedern solcher Gruppen wird eine große Anzahl breit gefächerter Items vorgelegt (Hypothesen, welche Items differenzieren könnten sind nicht erforderlich, aber testökonomisch sinnvoll deduktive Einflüsse) 2. Ausgewählt werden solche Items, die signifikant (und möglichst bedeutsam) zwischen den Gruppen differenzieren (und die einer Kreuzvalidierung auf Basis von Diskriminanzfunktionen standhalten) Diskriminanzanalyse Anhand der Items, die signifikant zwischen den Gruppen differenzieren, wird eine Vorhersage- bzw. Diskriminanzfunktion erstellt: y = i 1 *g 1 + i 7 *g i 15 *g 15 Je besser ein Item i trennt, desto höher ist sein Gewicht g. Items, die nicht trennen erhalten das Gewicht 0, fallen also aus der Funktion heraus. Die Diskriminanzfunktion schätzt die Wahrscheinlichkeit, dass ein Proband zu einer bestimmten Gruppe gehört. Hierzu werden die Antworten des Probanden auf alle Items in die Diskriminanzfunktion eingesetzt und je nach Gewichtung der Items wird ein bestimmter Wert berechnet. Je nachdem, ob dieser Wert über oder unter dem Cut-off liegt, wird Wahrscheinlichkeit der Gruppenzugehörigkeit bestimmt. Der Cut-off liegt an der Stelle, wo die Wahrscheinlichkeit zu einer der beiden Gruppen zu gehören genau gleich ist (Schnittpunkt beider Verteilungen). Diskriminanzanalysen sind nur zur Bestimmung der Gruppenzugehörigkeit bei 2 Gruppen anwendbar; liegen mehr Gruppen vor, muss ein anderes Verfahren (z.b. Bestimmung multipler Cut-offs) oder mehrere Diskriminanzanalysen durchgeführt werden. Außerdem wird die Diskriminanzfunktion für die Kreuzvalidierung verwendet. Kreuzvalidierung Überprüfung, ob die gefundene Diskriminanzfunktion unabhängig von der Konstruktionsstichprobe ist und die Items damit generalisierbar sind. Vorgehen einfache Kreuzvalidierung: a) Diskriminanzfunktion wird in Konstruktionsstichprobe bestimmt b) Diskriminanzfunktion aus Konstruktionsstichprobe wird in Validierungsstichprobe eingesetzt (WICHTIG: auch hier ist die Zugehörigkeit der einzelnen Personen vorher bekannt) c) Vergleich der korrekten Zuordnungen der Personen zwischen Konstruktions- und Validierungsstichprobe Unterscheiden sich die Anzahl der korrekten Zuordnungen zwischen den beiden Stichproben nicht, so gilt die Diskriminanzfunktion als stichprobenunabhängig.

35 S e i t e 35 Vorgehen doppelte Kreuzvalidierung: a) Diskriminanzfunktion wird in beiden Stichproben bestimmt b) Diskriminanzfunktionen werden in die jeweils andere Stichprobe eingesetzt c) Vergleich der korrekten Zuordnungen in den vier Zuordnungsmatrizen Unterscheiden sich die Anzahl der korrekten Zuordnungen der vier Matrizen nicht, so gilt die Diskriminanzfunktion als stichprobenunabhängig. 3. Die bewährten Items werden schließlich zu Skalen zusammengefasst Beispiele für external konstruierte Tests: Staffeltest von Binet, Minnesota Multiphasic Personality Inventory (MMPI) Bei Tests, die nach der externalen Methode konstruiert werden, kann auf die übliche Validierung (Korrelation mit ähnlichen Tests etc.) verzichtet werden, da durch die gefundenen Unterschiede, wenn sie der Kreuzvalidierung standhalten, die Validität in die Skalenkonstruktion mit einfließt, ohne dass man sich direkt auf inhaltliche Theorien beziehen muss. Nachteile: Da inhaltlich sehr heterogen, weisen die externalen Skalen eine geringe interne Konsistenz auf. Daher müssen die Skalen viel länger sein, um die gleiche Messgenauigkeit oder Reliabilität wie bei induktiven oder rationalen Skalen zu erreichen. Die so entwickelten Skalen differenzieren eigentlich nur in der tatsächlich untersuchten Gruppe wenn Aussagen über untersuchte Einzelpersonen gemacht werden, darf nur von Wahrscheinlichkeiten für Gruppenzugehörigkeiten gesprochen werden Vorteil: Schwer zu verfälschen, weil die Vpn die Intention des Tests häufig nicht durchschauen können. 3. Induktive/faktorenanalytische Konstruktion es liegen weder eine Theorie noch bestimmte vorfindbare Personengruppen vor Die Konstruktion erfolgt rein empirisch mittels Korrelationsrechnung 1. Zusammenstellung einer möglichst umfangreichen, repräsentativen Stichprobe von Items und Personen 2. Durchführung einer explorativen Faktorenanalyse Items, die hohe Korrelationen zeigen, werden zu Skalen zusammengefasst 3. Ladungsmuster wird interpretiert und somit zur Benennung der verschiedenen Faktoren herangezogen Diese Vorgehensweise wird auch als blind-analytisch bezeichnet, da bei der Konstruktion keine Rücksicht auf inhaltliche Gesichtspunkte genommen wird. Beispiele: Persönlichkeitsbereich: Freiburger Persönlichkeitsinventar (FPI), NEO-FFI, Intelligenzbereich: Intelligenztests nach Thurstone ( primary mental abilities ) Nachteil: Stichprobenabhängigkeit 4. Prototypenansatz Existenz von kognitiven Kategorien, die bestimmte Prototypen als typische Vertreter der Klasse haben Objekte werden nach Ähnlichkeit zu Kategorien gruppiert

36 S e i t e 36 Um einen Test zu konstruieren, kann man dies auch mit Eigenschaften und Verhaltensweisen tun Vorgehensweisen: 1. Vorlegen von Eigenschaftswörtern, die von Vpn als typisch oder untypisch für eine bestimmte Dimension eingestuft werden sollen 2. Vorlegen von Verhaltensweisen, die von Vpn als typisch oder untypisch für eine bestimmte Eigenschaft eingestuft werden sollen Überprüfung der von den Testautoren vorgenommenen Zuordnung der Einzelitems zu den entsprechenden Skalen 3. Vpn werden gebeten prototypische Eigenschaften oder Verhaltensweisen selbst zu generieren, die dann von anderen Vpn wiederum als typisch oder untypisch eingestuft werden. Beispiel: Handlungs-Häufigkeits-Ansatz (Act Frequency Approach): (1) Probanden sollen an Personen in ihrem Bekanntenkreis denken, die eine bestimmt Eigenschaft (z.b. Unterwürfigkeit) besonders stark repräsentieren (2) Die Probanden sollen konkrete Verhaltensweisen der Personen nennen, die ihrer Meinung nach indikativ für das Vorhandensein der entsprechenden Eigenschaft sind (z.b. Sie erhielt eine unfaire Note und beschwerte sich nicht darüber ) (3) Die genannten Verhaltensweisen werden von einer anderen Probandengruppe hinsichtlich der Prototypizität für die entsprechende Eigenschaft eingeschätzt (4) Die Items mit den höchsten Prototypizitätseinschätzungen werden als Grundlage der weiteren Validierung des Verfahrens verwendet Hohe Validität, v. a. in Bereichen, die mit herkömmlichen Instrumenten schwer zu messen sind, z.b. soziale Intelligenz, Kreativität etc.) Vorteile: Möglichkeit, kurze Skalen zu konstruieren, die nur aus den hochprototypischen Items bestehen es kann überprüft werden, ob die gewählten Items prototypisch für das Konstrukt der Skala sind Höhere Validität für Skalen, die nach dem Prototypenansatz konstruiert wurden gegenüber anderen Konstruktionsprinzipien 5. Intuitive Konstruktionsstrategien Items werden aus Annahmen und Erfahrungen des Testkonstrukteurs abgeleitet, da kein modell- oder theoriegeleitetes Vorgehen möglich ist (z. B. bei neuen Forschungsfragen). Anwendung der Ansätze Die Ansätze werden kombiniert, dies ist möglich, weil sie sich gegenseitig nicht ausschließen. Häufiges Vorgehen: 1. Itempool nach rationalen Gesichtspunkten anlegen 2. Bereinigung des Itempools nach konsistenz- und faktorenanalytischen Gesichtspunkten (induktive Methode) 3. Überprüfung an Extremgruppen (externale Methode) 4. Elimination der wenig validen Items Keine Überlegenheit einer bestimmten Technik gegenüber den anderen (Untersuchung von Persönlichkeitsfragebögen, Burisch, 1984). Es hängt vom Einzelfall ab, für welche Methode man sich entscheidet.

37 S e i t e 37 Testarten Speed- und Powerindex Die meisten Leistungstests sind Mischformen und haben somit sowohl eine Speed- als auch eine Powerkomponente, d.h. die Items streuen stark hinsichtlich ihrer Schwierigkeit und die Bearbeitungszeit ist begrenzt. Zur Bestimmung des Anteils der Varianz von Testwerten, die auf die Speed-bzw. Powerkomponente eines Tests zurückgeht können Speed-bzw. Power-Indices berechnet werden Speedindex: Man führt parallele Formen eines Tests unter Speed- und Powerbedingungen mit ansonsten identischen Bedingungen durch. Man vergleicht die Korrelationen unter unterschiedlichen Bedingungen (Zähler) mit den Korrelationen unter identischen Bedingungen (Nenner). 1 r r AsBp AsBs r r ApBs ApBp = Speedindex A,B = Parallelformen eines Tests p,t = Durchführung unter Power- bzw. Speed- Bedingungen alternativ: 1 Powerkomponente = Speedkomponente Wenn Veränderung der Durchführungsbedingung keinen Einfluss hat, ergeben sich für Zähler und Nenner ähnliche Werte Speedindex geht gegen Null. Je höher der Einfluss der Veränderung der Durchführungsbedingung gegenüber den identischen Durchführungsbedingungen, umso höher ist der Speedindex. Ein s von 0,5 würde bedeuten, dass 50 % der Rohwertevarianz durch die Speedkomponente erklärt wird. Problem: Eine niedrige Korrelation zwischen Speed- und Powerbedingung wird nur auf die Veränderung der Durchfühhrungsbedingung zurückgeführt. Keine Berücksichtigung weiterer Variablen wie z.b. der tatsächlichen Veränderung eines psychischen Merkmals, die das Ergebnis konfundieren. Powerindex: w u n m m w = Powerindex u = Anteil der bearbeiteten Aufgaben m = Anteil richtiger Aufgaben n = Anzahl der Aufgaben alternativ: 1 Speedkomponente = Powerkomponente Schnelligkeitstests: alle in Angriff genommenen Aufgaben werden gelöst, d. h. u = m Powerindex geht gegen Null. Powertests: alle Aufgaben werden in Angriff genommen, d. h. u = n es ergibt sich unabhängig von der Anzahl richtig gelöster Aufgaben immer ein w von 1.

38 S e i t e 38 5 verschiedene Testarten: 1. Leistungstests In Leistungstests wird das maximale Verhalten erfasst, Ergebnisse können nur nach unten verfälscht werden. o Geschwindigkeitstests/Speedtests: Alle Aufgaben können von jedem Probanden gelöst werden; Differenzierung über Bearbeitungsdauer Testung von Konzentration und Aufmerksamkeit z.b. FAKT II, d2 o Niveautests/Powertests: Aufgaben sind unterschiedlich schwer und können auch bei unbegrenzter Bearbeitungszeit nicht von allen Probanden gelöst werden; Differenzierung über Schwierigkeit der Aufgabe Testung von intellektuellem Niveau oder Denkkraft z.b. APM 2. Persönlichkeitstests Persönlichkeitstests erfassen das für den Probanden typische Verhalten in Abhängigkeit der Ausprägung von Persönlichkeitsmerkmalen. Die Messung erfolgt hierbei über Selbstauskünfte Da es keine optimale Ausprägung von Persönlichkeitsmerkmalen gibt, werden Antworten nicht im Sinne von richtig oder falsch bewertet Bewertung erfolgt danach, ob die Aussagen für eine bestimmte Ausprägung eines bestimmten Merkmals sprechen oder nicht Simulation ist in beiden Richtungen, d.h. zugunsten niedriger als auch hoher Merkmalsausprägungen möglich Merkmalsbereiche sind z.b. aktuelle Zustände, Symptome, Verhaltensweisen, Motivation, Interessen, Meinungen, Einstellungen 3. Projektive Verfahren Erfassung qualitativer Aspekte der Gesamtpersönlichkeit Den Probanden wird mehrdeutiges Bildmaterial mit der Bitte vorgegeben, dieses zu beschreiben In den Beschreibungen sollen sich unbewusste oder verdrängte Bewusstseinsinhalte wiederspiegeln, die auf das Bildmaterial projiziert werden Aufgrund unzureichender Erfüllung von Testgütekriterien sind projektive Verfahren in Forschungskontexten als ungeeignet zu bewerten. Im Zusammenhang der klinischen Exploration und der Bildung interventionsbezogener Hypothesen kann projektiven Verfahren jedoch eine gewisse Berechtigung zugemessen werden 4. Apparative Verfahren Aufgaben in apparativen Verfahren bedienen sich bestimmter technischer Anordnungen zur Erfassung des relevanten Merkmals Erfasst werden hierbei vor allem Merkmale, die für andere Testarten nicht zugänglich sind (z.b. sensorische oder motorische Merkmale) Computerbasierte Tests stellen eine Unterklasse der apparativen Verfahren dar. Vorteile: Verbesserung der Durchführungs-und Auswertungsobjektivität, Reduktion des Aufwandes der Testdurchführung

39 S e i t e 39 Beispiel: Wiener Testsystem z.b. zur Untersuchung verkehrspsychologisch relevanter Fähigkeiten; hohe interne Konsistenzen, inhaltliche Validität gegeben 5. Objektive Verfahren Im Zusammenhang objektiver Persönlichkeitstests bedeutet der Objektivitätsbegriff die Begrenzung der Möglichkeiten subjektiver Verfälschung Probandenmerkmale werden nicht durch Selbstauskünfte sondern über das Verhalten in einer standardisierten Testsituation erschlossen Objektive Tests haben keine Augenscheinvalidität, d.h. die Probanden wissen nicht, welches Konstrukt durch die Testung erhoben werden soll Zur Erfassung bieten sich die gleichen Merkmalsbereiche an, wie im Zusammenhang anderer Persönlichkeitstests Itemformate Items setzen sich aus einem Itemstamm (der eigentlichen Frage, Aufgabe oder Aussage) und einem spezifischen Antwortformat zusammen. Itemformate Freies Antwortformat Gebundenes Antwortformat Atypisches Antwortformat Ergänzen Kurzaufsatz Ordnen Auswählen Beurteilen Zuordnen Dichotom Analogskala Umordnen Multiple Choice Ratingskala Freies/ungebundenes Antwortformat Keine Antwortalternativen, die Antwort wird selbst reproduziert Die Instruktion gibt Struktur der Antwort vor Vorteile: Raten und zufällig richtiges Antworten kann ausgeschlossen werden. Nachteile: Je länger und komplexer die Antwort, desto höher ist der Aufwand bei Bearbeitung, Kodierung und Auswertung. Evtl. reduzierte Auswertungsobjektivität aufgrund von Mehrdeutigkeit 1. Kurzaufsatzaufgaben, z.b. Rosenzweig Picture Frustration Test o Erfassung von Kreativität o Projektive Verfahren o Vorteile: eigenständige Wissensreproduktion, nicht nur Rekognition

40 S e i t e 40 o Merkmale wie Kreativität, Sprachverständnis oder die Anwendung von Wissen lassen sich dadurch überprüfen Nachteil: Hoher Auswertungsaufwand, erschwerte Auswertungsobjektivität genauer Auswertungsschlüssel wichtig 2. Ergänzungsaufgaben, z.b. Lückentext, Wortstammaufgaben o Schulpädagogischer Bereich o Vorteil: Reproduktion von Wissen kann erfasst werden o Nachteil: eingeschränkte Auswertungsobjektivität wenn durch Aufgabenkonstruktion verschiedenen Ergänzungen möglich sind Gebundenes Antwortformat Mehrere Antwortalternativen sind vorgegeben Der Proband ist an die Antwortalternativen gebunden, indem er eine oder mehrere daraus wählen muss Vorteile: Ökonomisch und objektiv in der Auswertung: Schablonen, computergestützt mit Scannern oder im Online-Betrieb mit Touchscreens o. Ä. Antworten sind eindeutig Nachteile: Keine Reproduktions- sondern Wiedererkennungsleistung Ratewahrscheinlichkeit nimmt zu Es muss auf Disjunktheit und Exhausivität der Antworten geachtet werden: Disjunktheit: Antwortalternativen dürfen sich nicht überschneiden Exhausivität: in den Antwortalternativen sollten alle Antwortmöglichkeiten enthalten sein, so dass für jeden Beantworter eine zutreffende Antwort dabei ist da dies nicht immer der Fall ist, gibt es die Forced Choice: Es soll die Antwort angekreuzt werden, die am ehesten zutrifft 1. Ordnungsaufgaben, a. Zuordnung, z.b. von Land zu Hauptstadt v.a. zur Wissens- und Kenntnisprüfung geeignet Um Ratewahrscheinlichkeit konstant zu halten sollten auch nicht zutreffende Antworten aufgenommen werden b. Umordnung, z.b. von Bildern einer Bildergeschichte v.a. bei Verwendung von Bildmaterial, das für den Nachweis schlussfolgernden Denkens oder Lösungen von Ursache und Wirkungsbeziehungen dient, v.a. im Leistungsbereich Vorteil: o Einsatz vor allem dort sinnvoll, wo Beeinträchtigung der Ergebnisse durch die Lesefähigkeit ausgeschlossen werden soll. Nachteil: Aufwendige Materialentwicklung 2. Auswahlaufgaben: welche Aussage ist richtig/trifft zu? a. dichotom, z.b. stimmt oder stimmt nicht b. Multiple Choice, z.b. mehrere Antwortalternativen Beispiele: d2, RPM Bei Leistungstests kommen Distraktoren zum Einsatz: Antwortalternativen die richtig aussehen, inhaltlich aber falsch sind o Je mehr Distraktoren desto geringer Ratewahrscheinlichkeit Vorteile: o einfach, ökonomisch und objektiv

41 S e i t e 41 o Im Leistungsbereich verringert sich die Ratewahrscheinlichkeit bei den Mehrfachwahlaufgaben Nachteile o Dichotome Aufgaben: 50%ige Ratewahrscheinlichkeit eher ungeeignet im Leistungsbereich o Auswahlaufgaben erfassen nur eine Rekognitionsleistung 3. Beurteilungsaufgaben (Statements): inwiefern trifft bestimmte Aussage zu? a. Analogskala: kontinuierliche Skala b. Diskrete Ratingskala: gestufte Skala, meist vier bis zehn Abstufungen mit zuvor festgelegter numerischer Gewichtung, o 7 Skalenstufungen sind optimal o Bei einer Einzelskala sind 9 2 geeignet Besser für Mittelung für Globalwert da mehr Abstufungen o Bei einer Itembatterie sind es 5 2 o Bei einer geraden Anzahl wird der Rater zu einer Wahl gezwungen (forciertes Rating) o Bei ungerader Anzahl von Items gibt es einen Mittelpunkt, der nicht immer interpretierbar ist ratsam ist eine Ausweichkategorie weiß nicht (nicht-forciertes Rating) o Skalenniveau einer Ratingskala variiert je nach Situation, da Interaktion des Messinstruments, des zu messenden Merkmals und des Probanden Zulässige Aussage: Messinstrument ist in der Lage bestimmtes Skalenniveau zu erreichen Reliabilität und Validität von Ratingskalen Hauptsächlich werden zwei Methoden der Reliabilitätsbestimmung verwendet: Test-Retest-Methode Inter-Rater-Methode: beurteilt die Übereinstimmung/Konkordanz verschiedener Beurteiler o Typischer Inter-Rater-Reliabilitätskoeffizient liegt bei ca. 0,55 o Validitätskoeffizienten liegen häufig im Intervall 0,00 0,50 Meist werden die Skalen bei dem gesamten Test angewendet und zum Schluss zu einem Score zusammengefasst Skalen können unipolar oder bipolar sein und numerisch, verbal oder optisch (horizontal, vertikal, symbolische Marker, mit oder ohne verbalen Anker) Verankerung: Definition der Skalenendpunkte sowie der einzelnen Skalenstufen, d. h. der einzelnen Kategorien Außerdem können Skalen balanciert oder unbalanciert sein Balanciert: gleich viele negative und positive Antworten besser! Unbalanciert: eine der Möglichkeiten überwiegt genauere Differenzierung eines vorher angenommen überwiegenden Bereichs (positiv oder negativ) Vorteil: leichte Handhabung, Ökonomie, allgemeine Akzeptanz Nachteil: messtheoretisch problematische Zuordnung von Zahlen zu Skalenpunkten, da Intervallskalierung unterstellt wird, obwohl Abstufungen nur eine Ordinalskalierung rechtfertigen

42 S e i t e 42 Atypisches Antwortformat Beispiel: Finger Maze Linien in einer Platte müssen mit dem Finger mit verbundenen Augen nachgefahren werden. Es soll die Merkfähigkeit erfasst werden, da es verschiedene Sackgassen gibt und der richtige Weg zum Ziel erinnert werden muss. Sehr reliabel (r sh zw..96 und.90) Itemformulierung direkt: sind sie ängstlich? kann zu unterschiedlichen Bedeutungszuweisungen führen Indirekt: Fühlen sie sich unsicher, wenn sie vor Menschen sprechen müssen? erleichtern Interpretation des Konstruktes, die Formulierungen sind allerdings exakt zu wählen Hypothetische Sachverhalte: Stellen sie sich vor, anfälliger für Fehleinschätzungen Biographiebezogene Sachverhalte: Wie haben sie sich verhalten als? hinsichtlich ihres uneingeschränkten Zutreffens für die Zielgruppe zu validieren Abstrakte Inhalte: Wie schätzen sie es ein,? gewähren Interpretationsfreiräume Konkrete Inhalte: Wie verhalten sie sich,? können von situationalen Faktoren abhängig sein Personalisierte Formen: Verwenden Sie...? können als zu direkt und Verletzung der Privatsphäre aufgefasst werden Depersonalisierte Formen: Sollte man Gefahr sozialer Erwünschtheit Schließlich unterscheiden sich Items nach ihren Stimulusqualitäten (emotionale Intensitäten) Verständlichkeit Items sollten: 1. einfach, klar, direkt, kurz und eindeutig formuliert sein; 2. aus einfachen Sätzen und nicht aus Satzgefügen oder Satzverbindungen bestehen; 3. keine Wörter wie alle, immer, niemand oder niemals enthalten; 4. keine Wörter enthalten, die den Befragten unverständlich sein könnten (z. B. Fremdwörter); 5. positiv formuliert sein und keine (doppelten) Verneinungen enthalten; 6. Angaben zur Häufigkeit oder Intensität eines Merkmals oder einer Handlung nur enthalten, wenn sie eindeutig interpretierbar sind; 7. Angaben zu einem Zeitpunkt oder einer Zeitspanne nur dann enthalten, wenn diese eindeutig definiert sind 8. aktuell sein 9. keine impliziten Wertorientierungen und keine Suggestivfragen enthalten 10. es sollten keine konstruktfremden Emotionen durch das Item hervorgerufen werden, die eine Beantwortung erschweren oder behindern Fehlerquellen bei der Itembearbeitung Fehler sind dann zu berücksichtigen, wenn sie systematisch sind und somit konstruktirrelevante Varianz erzeugen Fehler: o Soziale Erwünschtheit o Fremdtäuschung

43 S e i t e 43 o o Selbsttäuschung: unbewusste Tendenz, sich selbst vorteilhaft darzustellen, ohne dies als Täuschung von anderen anzusehen ( Ggf. Lügenskalen) Antworttendenzen: Tendenz zur Mitte durch z.b. Unsicherheit reduzierte Itemvarianz verzerrt die Daten unreflektiertes Beantworten kann zu Akquieszenz (Zustimmungstendenz) führen Vortestversion Formulierung einer Instruktion: Mittteilung des Forschungszwecks, Motivation zur Mitarbeit, Anonymität, Hinweise zur Bearbeitung Bei Fragebögen: Soziodemographische Daten am Ende Anordnung des Itempools Sortierung nach Schwierigkeit/Komplexität (Leistungstests): o Aus motivationalen Gründen leichte Items häufig am Anfang, dann aufsteigende Schwierigkeit o Ausnahme sind Tests, die aus Gründen der Konzentration schwierige Testelemente an den Anfang stellen Konsistenzeffekt (Persönlichkeitstests): Items sollten durch Anordnung nicht den Eindruck einer gleichen Merkmalsmessung erwecken, die eine identische Antwort erwarten lässt Randomisierung oder Ausbalancierung der Itemreihenfolge, dies ist nur bei Verwendung identischer Antwortformate möglich o Ggf. kann Messintention durch die Testbezeichnung verschleiert werden Aktualisierungseffekt: Items sollten sich durch ihre Anordnung nicht wechselseitig erschweren oder erleichtern (z. B. durch ähnliche Formulierungen, die eine identische Beantwortung nahe legen) Erprobung des Itempools Zusammenstellung des Itempools: mehr Items als für endgültigen Test benötigt. o Später Itemselektion: ungeeignete Items werden entnommen o Größe des Itempools: Hängt v.a. von geforderten Repräsentativität der Items und der gewünschten Reliabilität des Tests ab eher durch eine größere Zahl von Items erfüllbar Testökonomie: Begrenzung der Itemanzahl, auch wegen Zumutbarkeit Anzahl benötigter Items pro Merkmal: Starke Variation in Abhängigkeit von der Weite des zu erhebenden Merkmals; ungefähre Größen: o Persönlichkeitstests: Items pro Merkmal in Itempool, von denen später zwischen 15 und 30 Items ausgewählt werden o Leistungstests: wenn z.b. allgemeine Intelligenz erhoben wird kann Wert deutlich höher sein Testevaluation Hinsichtlich der psychometrischen Aufbereitung der Daten und deskriptiv-statistischen Evaluation eines Tests werden verschiedene Analyseschritte unterschieden: Itemanalyse: o Analyse der Itemschwierigkeiten Bestimmung der Itemvarianzen o Trennschärfeanalyse der Items Reliabilität von Items: Stabilitätsindex Selektionskennwert und Itemselektion o Homogenität Testwertermittlung Bestimmung der Testwertverteilung

44 S e i t e 44 ggf. Normalisierung Diese Maßnahmen dienen einerseits der Qualitätsbeurteilung und andererseits der Einhaltung bestimmter Normen (wie sie von den Gütekriterien gefordert werden). Hinsichtlich der Datenqualität wird dabei i. d. R. von Intervallskalenniveau ausgegangen Itemanalyse Itemschwierigkeit Def.: Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die ein Item richtig (d.h. im Sinne höherer Merkmalsausprägung) beantworten P N N R 100 P = Schwierigkeitsindex für ein best. Item N R = richtig antwortende Probanden N = alle Probanden Hohe Werte in P stehen für eine niedrige Schwierigkeit, niedrige Werte in P für eine hohe Schwierigkeit eines Items/einer Aufgabe. (P = 100 Item absolut leicht; P = 0 Item sehr schwer). ABER: In der Probabilistischen Testtheorie werden Schwierigkeitsparameter definiert, die mit zunehmender Schwierigkeit eines Items größer werden. Aus dem Schwierigkeitsindex können nur dann Rückschlüsse auf die Testschwierigkeit gezogen werden, wenn das Leistungsniveau der Probanden bekannt ist, z.b. wenn die SP repräsentativ ist. Anwendung der unkorrigierten Formel nur wenn zufällig richtige Antworten ausgeschlossen werden können, z.b. bei freiem Antwortformat oder sehr vielen Antwortalternativen. Berechnung eines Schwierigkeitsindex bei Leistungstests nur dann sinnvoll, wenn es sich nicht um Speedtests handelt. D.h. diese Formel der Itemschwierigkeit kann auf Powertests angewendet werden. Korrektur der Itemschwierigkeit bei dichotomen Items: Problem 1: Probanden können durch Zufall (d.h. Raten) die richtige Antwortalternative wählen. Hieraus folgt eine artifizielle Verringerung der Itemschwierigkeit Schwierigkeit wird um die geschätzte Anzahl zufällig richtiger Antworten korrigiert P N R NF /( m 1) 100 N In die Formel gehen dann zusätzlich noch falsch antwortende Probanden und Antwortalternativen mit ein. Im individuellen Fall kann sich die Ratewahrscheinlichkeit ebenfalls auswirken: Probanden, die Items lieber gar nicht beantworten, als zu raten, sind benachteiligt, da weniger zufällig richtige Antworten Es gibt eine andere Formel, die Anzahl richtiger Antworten, die durch richtiges Raten zustande gekommen sind, heraus rechnet. Problem 2: Probanden, die Items nicht bearbeiten (z.b. durch Zeitbegrenzung bei Speedtests), können diese auch nicht richtig beantworten. Hieraus folgt eine artifizielle Erhöhung der Itemschwierigkeit. Es werden lediglich die Probanden berücksichtigt, die das entsprechende Item auch bearbeitet haben.

45 S e i t e 45 P N N R B 100 N R = Anzahl richtig antwortender Probanden N B = N R + N F + N A (N F = Anzahl der falsch antwortenden Probanden N A = Anzahl der Probanden, die Item ausgelassen haben) haben die Probanden, die z. B. durch Zeitbegrenzung das Item nicht erreicht haben, werden nicht berücksichtigt Formel mit Ratekorrektur: (es gehen zusätzlich noch m = Antwortalternativen mit ein) P N R NF /( m 1) 100 N B Korrektur der Itemschwierigkeit bei mehrfach gestuften Items oder Ratingskalen: Beispiel mehrfach gestuftes Item aus dem HAWIK: Im Mosaiktest gibt es, je nachdem wie lange die VP zur Lösung einer Aufgabe braucht, unterschiedlich viele Punkte. Die Summe der angekreuzten Antworten einer SP wird ins Verhältnis zur maximal möglichen Summe alle Antworten der SP (z.b. 500 bei 5-stufiger Skala und 100 Vpn) gesetzt. Bipolare Skalen müssen zunächst in den positiven Bereich verschoben werden. P m = mehrstufiger Schwierigkeitsindex ΣX temp = Summe der Antworten ΣX tmax = maximale Summe der Antworten N = Zahl der Probanden m = Zahl der Abstufungen Allgemein gilt: Korrekturen wirken sich auf P-Wert umso stärker aus, je höher der zu beseitigende Zufallseinfluss ist und je höher die Fehlerraten sind. Durch Korrekturen können negative P resultieren, die nicht interpretierbar sind. Allerdings weisen sie darauf hin, dass eine Aufgabe sehr leicht scheint, aber sehr schwer ist und somit die Wahrscheinlichkeit für Fehler sehr hoch ist. Itemschwierigkeit bei Persönlichkeitstests Items werden in symptomatisch und unsymptomatisch eingeteilt und nicht in richtig oder falsch. Bei 2 Antwortkategorien kann wie bei den Powertests verfahren werden. Bei mehr als zwei Antwortkategorien kann eine Dichotomisierung vorgenommen werden. Dabei werden die Werte in 2 Kategorien (hoch und niedrig) anhand eines Grenzwertes aufgeteilt. Ist Informationsverlust nicht akzeptabel verfährt man ebenfalls wie bei den Powertests Verwendung der Formel für mehrfach gestufte Items (siehe oben) Bedeutung der Itemstreuung Definition Itemvarianz: Die Itemvarianz legt die Differenzierungsfähigkeit eines Items hinsichtlich der untersuchten Stichprobe fest. Im Falle eines zweistufigen Items ermittelt sich die Itemvarianz aus dem Produkt der Wahrscheinlichkeiten, das Item zu lösen und das Item nicht zu lösen.

46 S e i t e 46 Gleiche Werte für P sind bei höchst unterschiedlicher Streuung auf den Beantwortungsskalen möglich Größere Streuungen sind ein Hinweis auf eine stärkere Diskriminanzkraft eines Items, da es die bestehenden interindividuellen Unterschiede besser abbildet. Mittlere Werte für P (um 50) bedeuten größtmögliche Streuung der Itembeantwortungen und damit eine hohe Differenzierung zwischen den Probanden Da ausreichende Merkmalsstreuungen Voraussetzung für die Bildung von Korrelationen sind, begünstigen mittlere P Homogenität und Trennschärfe Innerhalb einer Skala versucht man, Items mit unterschiedlichen Streuungen von P (zw. 5 und 95) zu wählen um auch eine Differenzierung zwischen den Probanden in den randständigen Bereichen zu gewährleisten Nachteil: Einbußen bei Homogenität und Trennschärfe, da extreme P (5-10 oder 90-95) zu geringeren Korrelationen führen. Bei einem P von 0 oder 100 verschwindet die Streuung komplett Berechnung von Trennschärfe und Homogenität nicht möglich. Homogenität und Trennschärfe werden als Itemgütekriterien betrachtet. Trennschärfe (r it) Def.: Die Trennschärfe eines Items bezeichnet üblicherweise die Korrelation zwischen der Antwort auf ein Item und dem Summenwert einer Skala, zu der das betreffende Item gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Probanden in Löser und Nichtlöser durch das Item mit demjenigen durch die Skala als Ganzes übereinstimmt. Die Trennschärfe kann Werte zwischen -1 und 1 annehmen. Konvergente Trennschärfe: Items sollen mit dem Summenwert der gleichen Skala möglichst hoch korrelieren. Diskriminante Trennschärfe: Items sollen mit Summenwerten anderer Skalen möglichst gering korrelieren. Mit Hilfe der Faktorenanalyse lassen sich beide Kriterien erreichen sind konvergente und/oder diskriminante Trennschärfe nicht gegeben, sollte die Zuordnung des Items zur Skala überprüft werden, z.b. faktorenanalytisch Bei der Berechnung der konvergenten und diskriminanten Trennschärfe wird die Korrelation zwischen den Antworten auf ein Item und den Summenwerten der Skala ermittelt. Je nachdem welches Skalenniveau die jeweiligen Werte haben, kommen unterschiedliche Korrelationskoeffizienten zum Einsatz: Summenwerte von Skalen sind in der Regel intervallskaliert Kontinuierliche Skalen mit z.b. 5 oder 7 Abstufungen sind intervallskaliert

47 S e i t e 47 Problem: Da die Werte des Items auch in die Skalensumme eingehen, sind die miteinander korrelierten Messwertreihen nicht unabhängig und die Korrelation wird überschätzt. Lösung: Part-whole-Korrektur Das jeweilige Item wird nicht in den Summenwert eingerechnet. Da der Summenwert in diesem Fall nicht durch das Item konfundiert ist, kann diese Korrelation sinnvoller interpretiert werden. Generell ist die unkorrigierte Trennschärfe eines Items höher als die part-wholekorrigierte Trennschärfe. Dies ist darauf zurückzuführen, dass der Summenwert in letzterem Fall nicht durch den Einfluss des Items konfundiert ist. Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt wenn die Skala aus wenigen Items besteht (Beitrag jedes einzelnen Items größer) oder wenn die Skala relativ geringe Trennschärfen aufweist (d.h. inhomogen ist), da es dann stark auf den Beitrag dieses Items und seine Konfundierung mit der Skala ankommt. Hohe Interkorrelationen zwischen den Items einer Skala und somit hohe Homogenitäten hohe Trennschärfen möglich Problem: Es werden exakt gleiche P für die Items vorausgesetzt; Variation der P führt zu Reduktion der Interkorrelationen (wenn ein Item häufiger gelöst wird als ein anderes, sind extrem hohe Interkorrelationen nicht möglich) Reduktion der Homogenität Interpretation der Trennschärfewerte Werte zwischen 0,4 0,7 deuten auf «gute» Trennschärfe hin. hoher Wert: die einzelnen Items messen homogen gegenüber dem Gesamttest, Probanden mit hoher Merkmalsausprägung lösen Item, Probanden mit niedriger Merkmalsausprägung lösen es nicht kleiner Wert: mangelnde Differenzierung durch Item in Zusammenhang mit Differenzierung des Gesamttests, Item für Unterscheidung von Probanden mit unterschiedlicher Merkmalsausprägung ungeeignet Negative Werte: häufig Anzeichen fehlerhafter Itemformulierungen oder invertierter Itemskalen mit geänderter Kodierungsrichtung, Probanden mit niedriger Merkmalsausprägung lösen Item, Probanden mit hoher Merkmalsausprägung lösen Item nicht Reliabilität von Items: Stabilitätsindex SI r it s i SI = Stabilitätsindex r it = Trennschärfe s i = Standardabweichung der Aufgabe Der Stabilitätsindex erreicht ein Maximum, wenn Trennschärfe und Aufgabenstreuung maximal sind (Trennschärfe = 1, Standardabweichung = 0,5 SI = 0,5). Um den Stabilitätsindex in Analogie zu einem Korrelationskoeffizienten zu setzen, muss man diesen mit 2 multiplizieren. P-Werte um 50 sind zwar für die Differenzierung ideal, tragen aber nichts zur Stabilität des Items und somit zur Stabilität der Skala bei, wenn das Item nicht gleichzeitig trennscharf ist. Umgekehrt leistet ein Item mit hoher Trennschärfe aber extremer Schwierigkeit ebenfalls einen geringen Beitrag zur Gesamtstabilität des Tests, weil der Zugewinn an Differenzierung nur minimal ist.

48 S e i t e 48 Selektionskennwert und Itemselektion Der Selektionskennwert dient als Orientierungshilfe bei der Selektion ungeeigneter Aufgaben bei homogenen Niveautests. S el r s it S el = Selektionskennwert r it = Trennschärfe 2 i s i = Standardabweichung der Aufgabe Unter Berücksichtigung der Trennschärfe und der Aufgabenstreuung, werden Items ausgewählt, die möglichst trennscharf sind und deren Schwierigkeitsgrade möglichst weit streuen. Items mit niedriger Trennschärfe werden nicht ausgewählt, auch wenn die Schwierigkeit optimal ist Items mit hoher Trennschärfe werden behalten, auch wenn sie extrem schwierig oder leicht sind Trennschärfe im Zähler des Quotienten: S el steigt mit ansteigender Trennschärfe bei Konstanz des Schwierigkeitsgrades werden eher trennscharfe Items ausgewählt. Schwierigkeit beeinflusst die Aufgabenstreuung und fließt somit in den Nenner ein extreme Schwierigkeiten (hoch oder niedrig) führen zu hohen Werten von S el diese Items werden eher ausgewählt als solche mit mittleren Schwierigkeiten Items, die einen geringen S el haben, werden ausgeschieden, ohne dass zu viele Items mit extremer Schwierigkeit wegfallen. In der Praxis wird nicht immer strikt nach den Regeln des Selektionswertes entschieden, denn die Auswahl der Items hängt auch mit der Intention der Testkonstruktion zusammen. Homogenität Bestimmt das Ausmaß von formaler und inhaltlicher Einheitlichkeit mehrerer Items, z.b. einer Skala Erfassung umschriebener Merkmalsaspekte, z.b. Konzentration (d2). Im Gegensatz hierzu steht die Heterogenität, die für formative und inhaltliche Vielseitigkeit der Items steht Erfassung globaler Dimensionen wie z.b. Allgemeine Intelligenz, Persönlichkeit etc. (HAWIK, FPI) Homogene Skalen resultieren aus induktiver und deduktiver Methode, v.a. bei Anwendung faktorenanalytischer Vorgehensweise. Heterogene Skalen resultieren eher aus der externalen Methode. Quantitative Erfassung über korrelative Übereinstimmung eines Items mit den anderen Items einer Skala. Andere Homogenitäts-Konzepte Guttman: Skalen sind dann homogen, wenn Vpn, die ein Item bestimmter Schwierigkeit lösen auch alle Items geringerer Schwierigkeit lösen können Reproduzierbarkeitskoeffizient muss mindestens 0,9 betragen, d.h. 90% der Gruppe müssen die Bedingungen der Homogenität nach Guttman erfüllen Kriterien nach Guttman kaum erfüllbar; gibt nur wenige Skalen Schätzformel nach Loevinger: geht von gleichen Voraussetzungen wie Guttman aus o Ausnahmen für die Regel sind dann möglich, wenn die Vpn Fehler machen oder der Test heterogen ist

49 S e i t e 49 o Grundlage für seine Schätzung ist die Annahme, dass homogene Tests höhere Varianzen aufweisen als heterogene: Bei Addition der Varianzkomponenten kommen bei den homogenen Tests höhere Kovarianzterme hinzu, weil hier die Interkorrelationen zwischen den einzelnen Items höher sind als bei heterogenen Tests Testwertermittlung Leistungstests: Die Anzahl der richtigen Antworten wird mit der Anzahl der falschen Antworten verrechnet Zusätzlich lassen sich einzelne Aufgaben i mit einem Gewicht g i versehen, wenn diese von unterschiedlicher Bedeutung sind Da Auswahlaufgaben auch durch Zufall gelöst werden können, kann ein Testwert um richtig geratene Aufgaben korrigiert werden (Rate-, Zufallskorrektur): o Benachteiligung derer, die lieber keine Antwort geben als zu raten soll ausgeschlossen werden o Korrektur findet unter folgender Annahme statt: Falsche Antworten kommen nicht durch einen falschen Lösungsansatz zustande, sondern durch Raten, und wenn der Proband rät, so entscheidet er sich nach Zufall o Die Anzahl m G der geratenen Antworten G setzt sich somit zusammen aus der Anzahl m RG der richtig geratenen Antworten RG und der Anzahl m FG der falsch geratenen Antworten FG: o Als Wahrscheinlichkeiten, dass richtig oder falsch geraten wurde ergeben sich dann: und o k = Antwortalternativen Man setzt die Wahrscheinlichkeit falsch zu raten mit der Wahrscheinlichkeit richtig zu raten ins Verhältnis. Da alle FG-Antworten lt. Annahme F-Antworten sind gilt: o Durch Einsetzen der oberen Gleichungen und Umformulierungen erhält man die Anzahl der richtig geratenen Antworten: o Um den zufallskorrigierten Testwert eines Probanden v zu erhalten, ist vom ursprünglichen Testwert x v die Anzahl der durch Zufall richtig gelösten Antworten abzuziehen Rate- bzw. Korrekturformel: o Bei Richtig-Falsch-Aufgaben vereinfacht sich die Zufallskorrektur auf: denn bei k = 2 Alternativen werden so viele Aufgaben richtig geraten wie Aufgaben falsch geraten werden, so dass Persönlichkeitstests: Die Testwertermittlung erfolgt hier durch Summenbildung über die Itemantworten Dabei wird erwartet:

50 S e i t e 50 o o o Die Kategorien der Ratingskala sind intervallskaliert. Das Item ist k-fach gestuft. Jeder Itemantwort kann ein Wert zwischen 0 (geringste Merkmalsausprägung) und k 1 (stärkste Ausprägung) zugeordnet werden Testwertverteilung: Maße und Abweichungen Typische Maße zur Testwertverteilung sind: o Lagemaße: Mittelwert, Median, Modalwert, Perzentilgrenzen o Dispersionsmaße: Varianz, Standardabweichung, Standardfehler, Spannweite o Verteilungsmaße: Schiefe, Exzess (Kurtosis) Für Abweichungen von der Normalverteilung gibt es verschieden Ursachen: o Schiefe Verteilungen: durch zu leichte (linksschief/rechtssteil) oder zu schwere (rechtsschief/linkssteil) Tests, welche die Differenzierungsfähigkeit des Tests im Bereich der unterrepräsentierten Items einschränkt Gründe: genereller Konstruktionsmangel des Tests oder Fehlanwendung hinsichtlich der Zielgruppe o Multiple Verteilungen: wenn sich Gesamtstichprobe aus heterogenen Unterstichproben zusammensetzt, die zu einer nicht normalen Mischverteilung führen kann bei der Testeichung durch differenzierte Testnormen pro Untergruppe berücksichtigt werden o Beliebige Verteilungen: wenn Merkmal in der Bevölkerung nicht normalverteilt ist Normalisierung Ist die Annahme eines normalverteilten Merkmals gerechtfertigt und nur die Testwertverteilung in der Stichprobe nicht normalverteilt (z.b. weil Test zu leicht war) kann durch eine nicht-lineare Transformation der Testwerte eine normalverteilte Testwertverteilung erreicht werden = Normalisierung! Normalisierung kann vorgenommen werden durch: o Logarithmierung der Testwerte: jeder Testwert wird durch seinen natürlichen Logarithmus ersetzt: x v = ln xv Ausreißer werden näher an den Rest der Verteilung gebracht nur bei rechtsschiefer Verteilung anwendbar o Flächentransformation: Im Histogramm der Testwertverteilung werden die einzelnen Säulen bzgl. Höhe und Breite der Normalverteilung angepasst Die Fläche der Säulen bleibt unverändert

51 S e i t e 51 Gütekriterien Instrumente der Qualitätsbeurteilung und Wissenschaftlichkeit dienen der Einschätzung der Eignung eines Tests keine festen Kriterien, die ein Test erfüllen muss Nebengütekriterien sind nicht verbindlich festgelegt Testfairness, Unverfälschbarkeit Zumutbarkeit Hauptgütekriterien Objektivität Def.: Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst. Durchführungsobjektivität Def.: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Vorschriften der Testinstruktion und aller übrigen Durchführungsbedingungen gesichert ist. maximale Standardisierung der Testsituation! o Instruktion o Zeitbegrenzung o Hilfestellung bei der Beantwortung der Fragen da sonst Versuchsleitereffekte oder Situationseinflüsse zu Variation des Verhaltens der Versuchsperson führen können die wahre Leistungsfähigkeit des Probanden könnte über- oder unterschätzt werde quantitative Bestimmung so gut wie unmöglich, darf als hoch angesehen werden, wenn alle Bedingungen festgelegt sind, die sich plausiblerweise auf das Testverhalten auswirken können Auswertungsobjektivität Def.: Das Ausmaß, in dem die Auswertung des Tests unabhängig von personenbedingten oder apparativen Störquellen ist Jeder Auswerter muss die gleichen Punkt- oder Leistungswerte eines Probanden ermitteln

52 S e i t e 52 Wird durch eindeutige Quantifizierung des Verhaltens erreicht (genaue Auswertungsvorschriften) hoch: Lösungsschlüssel (Schablonen, Auswertungsblätter ); es kann aber auch hier zu Fehlern kommen, indem z.b. beim d2 etwas übersehen wird niedrig: ungebundene Antwortformate (projektive Verfahren, z.b. Rorschach) Quantitative Bestimmung: Testprotokolle einer Stichprobe müssen mindestens 2 verschiedenen Auswertern vorgelegt werden, die unabhängig voneinander jeweils Punktwerte ermitteln Korrelation über die Protokolle gibt Ausmaß der Übereinstimmung an. Sie kann auch anhand einer Formel varianzanalytisch bestimmt werden. s r s 2 A 2 x Interpretationsobjektivität Es wird eine Intraklassenkorrelation gebildet, indem der Anteil der Varianz zwischen den Testprotokollen durch die Gesamtvarianz geteilt wird. berücksichtigt unterschiedliche Strenge der Bewertungsmaßstäbe Def.: Das Ausmaß, in dem aus gleichen Scores verschiedener Probanden identische Schlüsse gezogen werden (von einem oder von mehreren Auswertern) ausreichend große Normstichprobe als Vergleichsgruppe standardisierte Interpretationsmöglichkeiten: z.b. Ablesen einer Merkmalsausprägung in Normtabelle Prozentrang der VP Bei projektiven Tests nicht gegeben Versuchsperson kann Material frei interpretieren Auswerter kann Ergebnisse frei interpretieren, daher erfahrungsabhängig Reliabilität Def.: Die Reliabilität beschreibt den Grad der Genauigkeit, mit der ein Test ein bestimmtes Merkmal misst, unabhängig davon, ob er dieses Merkmal auch zu messen beansprucht. Reliabilität = Zuverlässigkeit/Präzision einer Messung Anteil der wahren Varianz an der Gesamtvarianz Die Reliabilität möchte bestimmen, ob einzelne Probanden (immer die gleiche Probandengruppe!) in zwei Testungen die gleichen Werte aufweisen Bestimmung mittels korrelativer Techniken

53 S e i t e 53 Retest-Reliabilität/Stabilität Def.: Korrelation zwischen den Testleistungen in einem Test zu zwei Zeitpunkten oder zwei Tests zu zwei Zeitpunkten Dabei wird unterstellt, dass das zu messende Merkmal konstant (also konstante wahre Werte und konstante Fehlervarianzen produziert) und auch das gewählte Zeitintervall zwischen den Testungen ohne Einfluss auf die Messung ist. Koeffizient: r tt I.d.R. gilt: Je länger das Retestintervall, desto geringer r tt Angaben in Testmanualen kritisch hinterfragen! Vorteil: gut geeignet bei Speed-Tests und Persönlichkeitstests Nachteil: Länge des Retest-Intervalls? Wahl in Abhängigkeit zur Stabilität des Merkmals zu kurz: Erinnerungseffekte, Übungseffekte (v.a. bei Leistungstests) zu lang: reale Schwankungen des Merkmals möglich, z.b. o Lebensereignisse o Depressionsmaße vor und nach einer Therapie führt zu Unterschätzung der Retest-Reliabiltät Auch eine hohe Retest-Reliabilität erlaubt Veränderungen! 1. keine Veränderung des Koeffizienten bei gleichmäßigen Niveauverschiebungen, da die Niveau- bzw. Mittelwertsverschiebung für die Bildung der Korrelation irrelevant ist systematische Veränderungen wie z.b.: Alle Probanden zeigen in einem Leistungstest einen systematischen Trainingseffekt von der ersten zur zweiten Messung 2. geringe Veränderungen (auch in der Rangreihe) können dennoch zu einer hohen r tt führen, wenn die Gesamtstabilität erhalten bleibt große Veränderungen in der Rangreihe führen zu geringem r tt unsystematische Veränderung z.b.: Einige Probanden zeigen einen Übungseffekt, andere zeigen diesen nicht ACHTUNG: Ein geringes r tt bedeutet nicht, dass das Messinstrument änderungssensitiv ist; dies wird in Testmanualen manchmal fälschlicherweise behauptet! zu 1. zu 2. zu 3.

54 S e i t e 54 Paralleltestreliabilität Korrelation zwischen zwei Tests (mit gleichen wahren Werten und gleicher Fehlervarianz), die dieselbe Eigenschaft oder Fähigkeit mittels verschiedener Items (Itemzwillinge) erfassen Koeffizient: r tt r tt` ist hoch, wenn die Ergebnisse der beiden parallelen Testformen hoch korrelieren Umgeht das Problem möglicher Veränderungen zwischen Test und Retest, schließt Erinnerungs- und Übungseffekte aus Man wählt am besten ein kurzes Zeitintervall (einige Stunden bis einige Tage) Die Hälfte der Probanden bearbeitet zuerst Form A und dann Form B, die andere Hälfte umgekehrt Probleme: Herstellung paralleler Testformen aufwändig und schwierig, v.a. wenn es sich um die Erfassung sehr eng begrenzter Eigenschaften handelt. Aufwand je nach Merkmal verschieden: o Leistungstests: viele gleichartige Items mit kleineren Abwandlungen o Persönlichkeitstests: sehr großer Itempool notwendig, um geeignete Items zu finden Der Wert des Paralleltestkoeffizienten liegt häufig unter dem des Retestkoeffizienten ABER: Paralleltest besonders praxisgerecht, da großes Spektrum von Items Prüfung der Parallelität mit den Mitteln der KTT eigentlich nicht möglich, nur deskriptive Beurteilung (Vergleich der Mittelwerte, Varianzen und Korrelation der beiden Testformen) möglich, wenn bereits andere Reliabilitätsschätzungen vorliegen o Streng genommen, muss die Paralleltest-Reliabilität ebenso hoch sein, wie die Reliabilität der einzelnen Testformen o konfirmatorische Faktorenanalyse überprüft Parallelität direkter und kann auch r tt bestimmen. man nimmt beide Testformen als Messung einer gemeinsamen dahinter liegenden latenten Variable an man kann so prüfen, ob sich Annahme eines Modells paralleler Messungen (gleiche Ladungen auf der latenten Variable und gleiche Fehlervarianzen) mit empirischen Daten vereinbar ist bei Modellfit (Modell stimmt mit Daten überein), können die Testformen als parallel angenommen werden Bereits geringfügige Abweichungen in der Parallelform können zur Verringerung der r tt` führen z.b. in der Itemformulierung Entscheidend ist ferner der zeitliche Abstand für die Vorgabe der Parallelformen: o o o hinreichend unterschiedlichen Iteminhalte: Abstand kurz Unterliegen Merkmale interindividuell unterschiedlichen situativen Einflüssen: Intervall länger unsystematische Veränderungen in den wahren Merkmalsausprägungen wahrscheinlicher Sind Übertragungseffekte nicht auszuschließen: Ausbalancieren der Reihenfolge der Präsentation der Parallelformen

55 S e i t e 55 Innere/Interne Konsistenz Die innere Konsistenz beschreibt den Zusammenhang zwischen Testteilen bzw. den Items eines Tests. Split-Half-Reliabilität Def.: Korrelation zweier möglichst gleicher Testhälften. Grundlegende Idee ist es, Teile eines Tests als parallele Testversionen aufzufassen. Als Korrekturfaktor wird die Testlänge berücksichtigt Verfahren ermöglicht also die Berechnung der Reliabilität auf Basis von Testungen zu einem Zeitpunkt mit einer Testform. mehrere Methoden der Testhalbierung: Teilung des Tests in der Mitte problematisch, da bei Tests mit aufsteigendem Schwierigkeitsgrad (Z.B. IQ-Tests) zwei Hälften resultieren, die nicht vergleichbar sind, da in der ersten Hälfte die meisten Items gelöst werden, in der zweiten Hälfte aber kaum Items gelöst werden odd-even -Methode: Teilung nach geraden ( even ) und ungeraden ( odd ) Items anwendbar bei Leistungstests mit ansteigender Schwierigkeit Zufallsaufteilung: zufällige Zuordnung der Items zu zwei Testhälften Parallelisierung: Aufteilung nach Trennschärfe und Schwierigkeit; beide Hälften sollen gleich schwierig und trennscharf sein. Diese werden dann per Zufall den Halbtests zugeordnet (Methode der Itemzwillinge) bei Speedtests: Halbierung nach der Testzeit, da sonst starke Überschätzung der Reliabilität (Zeitpartitionierungsmethode z.b. gleichartige Items bei Konzentrationstest) Da kürzere Tests i.d.r. weniger reliabel sind werden die Teile mit der Spearman- Brown-Formel auf die ursprüngliche Länge aufgewertet, da ja die Reliabilität des gesamten Tests von Interesse ist Vorteil: Schwankungen von Motivation, Stimmung, Aufmerksamkeit hat keinen Einfluss Probleme: Reliabilität wird bei heterogenen Tests unterschätzt Testhälften können durch unterschiedliche Methoden gebildet werden, was (v.a. bei kleinen Stichproben) zu Unterschieden zwischen den Koeffizienten führt Einen Ausweg aus dieser Problematik bietet die Konsistenzanalyse unter Berechnung von Cronbachs Alpha (). Cronbachs Cronbachs : mittlere Reliabilität, die sich bei der Bildung aller möglichen Testhalbierungen ergibt Jedes einzelne Item wird als eigenständiger Testteil betrachtet die Reliabilität stellt den mittleren Zusammenhang unter Berücksichtigung der Testlänge dar Berechnung der von Cronbachs als Verallgemeinerung der Halbierungsmethode Eine Testskala wird nicht in zwei Hälften, sondern in so viele Teile wie Items vorhanden sind, geteilt umgeht die Problematik der willkürlichen Bildung von Testhälften

56 S e i t e 56 Innere Konsistenz entspricht der Homogenität einer Skala bzw. eines Tests, unabhängig davon, was gemessen wird hohes bedeutet nicht, dass der Test gut ist! kann Werte zwischen 0 und 1 annehmen o 0= perfekte Unabhängigkeit der Items; keine Itemkovarianzen o 1= perfekte Abhängigkeit der Items (irreal, da immer Messfehler!) o ab 0,7 hinreichend, ab 0,9 gut wird höher, je länger der Test ist r = Zahl paralleler Messungen S i ² = Stichprobenvarianz des i-ten Paralleltests, berechnet an der SP von N VP mit N-1 im Nenner S ij = Kovarianz zwischen i und j Cronbachs setzt voraus, dass alle Items die gleiche Schwierigkeit (und somit die gleichen wahren Werte und Fehlervarianzen) aufweisen. Diese Voraussetzung ist in der Praxis häufig nicht gegeben. Stattdessen wendet man das Konzept (essentiell) τ- äquivalenter Testteile an. Tau-äquivalente Messungen stellen abgeschwächte Forderungen bezüglich der Äquivalenz der Messungen: τ-äquivalenz: gleiche wahre Werte (der Testteile/Items), aber verschiedene Fehlervarianzen Essentielle τ-äquivalenz: wahre Werte (der Testteile/Items) um eine additive Konstante verschoben und verschiedene Fehlervarianzen Um die Reliabilität durch Cronbachs schätzen zu können, muss mindestens τ- Äquivalenz vorliegen der gleiche wahre Wert muss gemessen werden! Die interne Konsistenz kann auch varianzanalytisch bestimmt werden. Annahme: bei vollständiger Konsistenz eines Tests bzw. seiner Beantwortung durch Probanden müsste für jede Person pro Item dieselbe Antwort auftreten Wenn dies nicht der Fall ist, es also Varianz innerhalb eines einzelnen Probanden gibt, dann wird die interne Konsistenz geringer Voraussetzung für die Anwendung des varianzanalytischen Verfahrens ist, dass die Itembeantwortung auf kontinuierlich-quantitativ abgestuften Skalen erfolgt Probleme Cronbachs : Nur wenn alle Items die gleichen Merkmale messen, ist die Reliabilitätschätzung durch Cronbachs korrekt Cronbachs macht keine Aussage über Retest-Reliabilität und prädiktive Validität trotz geringer Konsistenz kann eine hohe Retest-Reliabilität und hohe prädiktive Validität erreichet werden, wenn es sich um ein inhaltlich zwar heterogenes, aber zeitlich stabiles Merkmal handelt Cronbachs ist kein Beleg für die Eindimensionalität (ein gemeinsames Merkmal) eines Tests oder einer Skala, da es auch im Falle eines mehrdimensionalen Merkmals hoch sein kann Die Höhe von Cronbachs ist von der Anzahl der Items abhängig, auch wenn der Test mehrere, unabhängige Dimensionen erfasst Invers formulierte Items (eingesetzt, um Antworttendenzen vorzubeugen) können die Reliabilität artifiziell über- oder unterschätzen, da sie unabhängig vom Iteminhalt einen eigenen Faktor bilden können. Die daraus resultierende, methodischbedingte systematische Varianz widerspricht der essentiellen τ- Bedingung. Ein negatives Cronbachs kann resultieren, wenn einzelne Items (z. B. inverse Items ohne Umkodierung) negativ mit den übrigen Items korrelieren (negative

57 S e i t e 57 Kovarianzen führen dann zu einer größeren Summe der Varianz der m Items gegenüber der Gesamtvarianz). Ein negatives Cronbachs ist nicht sinnvoll zu interpretieren. Vorteile Cronbachs : nur eine Messung nötig (weniger Aufwand, kein Problem mit Erinnerungseinflüssen) es müssen keine Parallelformen eines Tests konstruiert werden das erfasste Merkmal muss zeitlich nicht stabil sein Beurteilungsdimensionen der Reliabilität 1. Merkmalsabhängigkeit: Bei Leistungstests der globalen Intelligenzmaße Reliabilitäten von 0,90 0,95 erreicht (z. B. Skala Schlussfolgerndes Denken beim IST 2000-R) Bei Persönlichkeitstests z.t. nur Werte von 0,70 (z. B. Skalen Verträglichkeit oder Offenheit für Erfahrungen beim NEO-FFI). 2. Art der Diagnostik: Individualdiagnostik: hohe Reliabilitäten unverzichtbar, um Fehldiagnosen und ineffektive Interventionsempfehlungen zu vermeiden. Kollektivdiagnostik: höhere Fehlervarianzen führen zwar zu größeren Alphafehlern, dennoch lassen sich Gruppenmittelwerte dann immer noch korrekt schätzen 3. Einsatzbedingungen: Einsatz aufwändiger Testbatterien häufig aus verschiedenen Gründen nicht möglich (z. B. Belastbarkeit von Patienten, entstehende Ausfallzeiten am Arbeitsplatz). Ggf. können nur sog. Screening-Verfahren zum Einsatz kommen (z. B. zur groben Charakterisierung einer Symptomatik). Abhilfe durch adaptives Testen 4. Kosten-Nutzen-Relation: Reliabilitätszugewinn durch aufwändigeres Messverfahren ist hinsichtlich seiner zusätzlichen Kosten abzuwägen. 5. Ausmaß an Fehlerquellen: Einschätzung der Reliabilität ist auch von Durchführungsbedingungen (z. B. den Testleiter) und Art der Auswertung und Ergebnisinterpretation (Objektivität) abhängig, die zu einem vergrößerten Messfehler führen können. 6. Passung von Merkmal und Reliabilitätsschätzung: Tests mit heterogenen Items: durch eine Konsistenzanalyse eher unterschätzt; daher Retest-Reliabilität (geht aber nur bei zeitlicher Stabilität des Merkmals) Bei zeitlich instabilen Merkmalen kann Retest-Reliabilität zu einer Unterschätzung führen; daher Konsistenzanalyse Einschränkungen der Reliabilität 1. Selektivität und Varianzeinschränkung: Bei allen Methoden der Reliabilitätsschätzung ist problematisch, dass die Testwerte eine hohe Abhängigkeit von der Grundgesamtheit zeigen, aus der eine Testperson stammt. Beispiel: Gegenüberstellung eines Reliabilitätskoeffizienten, von Grundgesamtheit von Schulkindern aller Schulformen einer bestimmten Altersklasse, wird voraussichtlich höher ausfallen, als aus einer Grundgesamtheit von Realschülern der gleichen Altersklasse. Grund: keine höhere gemessene Ungenauigkeit des Tests bei den Realschülern, sondern Populationsvarianz und (im Falle einer Messwiederholung auch die) Kovarianz der wahren Messwerte in der Grundgesamtheit der Schulkinder größer als in der Grundgesamtheit der Realschüler. 2. Reliabilität bei Extremwerten: Reliabilität eines Tests bestimmt sich immer für gesamtes Testverfahren, Genauigkeitsmaß über alle Testwerte und alle Personen hinweg

58 S e i t e 58 Genauigkeit eines einzelnen Testwertes bei einer bestimmten Person kann nicht bestimmt werden. Genauigkeit eines Testergebnisses kann allerdings für verschiedene Personen durchaus unterschiedlich genau sein. Beispiel: Erreicht eine Person den extremsten erzielbaren Messwert eines Tests (z. B. den niedrigsten oder höchsten messbaren IQ), kann eine Person mit einer noch extremeren Merkmalsausprägung nicht mehr differenziert werden; sie erhält dann zwangsläufig den gleichen Messwert, verbunden mit einem größeren Messfehler Zusammenfassende Betrachtung der Reliabilitäten Keiner der Reliabilitätskennwerte ist einem anderen vorzuziehen Wichtig: gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen möglichst umfassenden Überblick über die Reliabilität des Verfahrens zu gewinnen Validität/Gültigkeit Def.: Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes. Hohe Validität erlaubt Generalisierung der Testergebnisse aus numerischem Relativ auf empirisches Relativ (z.b. hoher Wert in Skala Extraversion viele soziale Kontakte) von beobachtetem Verhalten in Testsituation auf Verhalten außerhalb (z.b. Fahrprüfung Fahrtauglichkeit im Alltag) Validität = Korrelation Prädiktor/en-Kriterium je höher die Validität, desto besser die Vorhersage Inhaltsvalidität Def.: Ein Test gilt dann als inhaltsvalide, wenn dieser Test bzw. ein Testitem das zu messende Merkmal auch wirklich bzw. hinreichend genau erfasst. Zunächst ist möglichst präzise zu definieren, was der Test erfassen soll. Dazu ist das zu erfassende Merkmal zu definieren: Operationale Merkmalsdefinition: Das Merkmal wird durch die Testinhalte definiert Testaufgaben repräsentieren direkt den interessierenden Anforderungsbereich (z. B. Test für Bruchrechnen erfasst direkt Bruchrechnen) o Es sind keine theoretischen Annahmen darüber notwendig, wodurch Unterschiede in den Testergebnissen zustande kommen (z.b. keine Annahmen über zugrunde liegende kognitive Prozesse des Bruchrechnens); die Unterschiede werden nur anhand der Test- bzw. Iteminhalte festgestellt Operational definierte Merkmale dürfen nicht als Ursache für das Testergebnis betrachtet werden, stehen also in keiner kausalen Beziehung zum Merkmal! o Inhaltsvalidität bei operationaler Merkmalsdefinition: bezieht sich auf die Generalisierung von Interpretationen von Testresultaten über die Inhalte des Tests hinaus Frage nach der Repräsentativität der Items Repräsentationsschluss möglich? Frage der Inhaltsvalidität kann häufig nur durch Expertenurteile objektiviert werden (s.u.) Beispiel: Ein Test (z. B. eine Klausur) soll die im Lehrplan definierten Lehrziele überprüfen. Das Ergebnis (Anzahl richtiger Lösungen) soll Aufschluss über die Zielerreichung geben. Die Generalisierung besteht in der Annahme, dass ein Proband mit

59 S e i t e 59 hohem Testwert auch eine Vielzahl anderer, das Lehrziel repräsentierende Aufgaben, lösen könnte (curriculare Validität). Theoretische Merkmalsdefinition: Das Merkmal wird durch ein theoretisches Konstrukt definiert. Unterschiede in den Testergebnissen werden durch theoretische Annahmen spezifiziert (z. B. Intelligenztest erfasst über verschiedene Fähigkeitsbereiche indirekt Intelligenz) o Inhaltsvalidität bei operationaler Merkmalsdefinition versucht ebenfalls Testergebnisse auf größere Menge von Aufgaben zu generalisieren, aber zusätzlich wird versucht, die Testresultate anhand der dahinter stehenden Theorie zu erklären Dahinter steckt die Annahme, dass unterschiedliche Itemantworten auf Unterschiede im erfassten Konstrukt zurückzuführen sind, so dass von den Antworten Rückschlüsse auf das (nicht direkt beobachtbare) Konstrukt gezogen werden können. Frage, ob das zu erfassende Konstrukt durch die im Test enthaltenen Items (Testinhalt und Antwortformat) angemessen repräsentiert wird Erfassen alle Items das zu messende Konstrukt? Ist ein repräsentativer Ausschnitt aller denkbaren Items enthalten? Inhaltsvalidität ist hoch, wenn die Aufgaben eines Tests völlig identisch sind mit Anforderungen, die in bestimmten Bereichen gestellt werden ist eng verbunden mit den Begriffen logische Validität (~Inhaltsvalidität) und Augenscheinvalidität (Auch Laien erkennen den Zusammenhang zwischen den Items und dem zu erfassenden Konstrukt, z.b. Führerscheinprüfung) wird meist nicht numerisch bestimmt, sondern Rückgriff auf Expertenurteile und Befunde aus der Literatur o Zwei Möglichkeiten der numerische Bestimmung I. Anhand von Expertenurteilen, Vorgehen: 1. Zielkonstrukt festlegen (Fähigkeit, Eigenschaft) 2. Items/Aufgaben/Fragen zur Erfassung definieren 3. Experten beurteilen inwiefern Items das Zielkonstrukt treffen 4. Beurteilerübereinstimmung ermitteln (Urteilsstreuungen pro Item) 5. Ü-Koeffizienten für Inhaltsvalidität bestimmen das Maß der Beurteilerübereinstimmung liefert einen Koeffizienten für die Inhaltsvalidität QS innerhalb = QS maximal = der Beurteiler Beispiel: QS Ü 1 QS innerhalb max imal Ü=Übereinstimmungskoeffizient Quadratsummen innerhalb der Beurteiler maximal mögliche Quadratsumme innerhalb Beurteilung der Originalität von Bildern

60 S e i t e 60 II. Experimentelle Bestimmung: 1. Zwei Personengruppen: Vorgabe von Konstrukt und Regeln nach denen diese Gruppen Items generieren sollen, die dieses Konstrukt erfassen sollen Zwei unabhängige Tests 2. Tests einer großen Gruppe von Versuchspersonen vorlegen 3. Korrelation der Ergebnisse = Maß für die inhaltliche Validität beider Verfahren Kriteriumsvalidität Def.: Die Kriteriumsvalidität ist v.a. auf extrapolierende Interpretationen ausgerichtet, d.h. sie befasst sich mit der Frage, inwiefern aus den Testwerten Kriteriumswerte (Verhalten einer Person außerhalb der Testsituation) vorhergesagt werden können. Kriteriumswerte (Außenkriterien) sollten daher von unmittelbarer Relevanz und hinreichender Messgenauigkeit sein. Außenkriterien sollten sich bestenfalls aus der Theorie ableiten lassen. Die Kriteriumsvalidität wird als Korrelation zwischen Testwert und Kriteriumswert (r tc ) bestimmt Wenn die Vorhersage gut funktioniert, gibt es hohe Korrelationen und somit eine hohe Kriteriumsvalidität Unterschiedliche Arten der Kriteriumsvalidität: Vorhersagevalidität (prognostische, prädiktive Validität) o Korrelation der Testwerte mit zeitlich später erhobenen Kriterien o z.b. IQ vor Beginn einer Ausbildung und Abschlussnote Übereinstimmungsvalidität (konkurrente Validität) o Korrelation mit zeitlich (fast) gleich erhobenen Kriterien o z.b. Konzentrationstest vor Klausur und Klausurnote Retrospektive Validität o Korrelation mit zeitlich vorher ermittelten Kriterien o z.b. IQ im Studium und Abiturnote Inkrementelle Validität o Bezeichnet den Beitrag eines Tests zur Verbesserung der Vorhersage eines Kriteriums über einen anderen Test hinaus o kann im Rahmen einer multiplen (hierarchischen) Regression ermittelt werden Änderungsbetrag erklärter Varianz (R 2 ), der sich auf Signifikanz prüfen lässt o z.b. Berufserfolg wird gut durch Intelligenz vorhergesagt, es wird nun bei jeder anderen Methode geprüft, ob sie über die Intelligenz hinaus noch etwas zur Vorhersage von Berufserfolg beitragen kann

61 S e i t e 61 Regressionsgerade: Schätzung der Kriteriumswerte anhand von Prädiktoren das Vorzeichen sagt nichts über die Güte der Validität aus; schlecht sind geringe Validitätsbeträge wie z.b. -0,21, da hier die Punkte nicht mehr gut durch die Gerade abgebildet werden Problem: Varianzeinschränkung im Prädiktor führt zu geringen Korrelationen, eine gute Vorhersage ist daher nicht mehr möglich! Formel zur Aufwertung des Validitätskoeffizienten auf repräsentative Breite Arten von Kriterien 1. Echte Kriterien o Kriterien, die semantische und theoretische Ähnlichkeit zum Test aufweisen und zusätzlich von höherem Status sind o sie sind feste, messbare, fassbare Größen z.b. Verkaufszahlen, Erkrankung 2. Quasikriterien o Kriterien, die eine Validierung an echten Kriterien bedürfen o Kriterien, die semantische und theoretische Ähnlichkeit zum Test aufweisen, allerdings nicht von einem höheren Status sind o sie sind latente Variablen (Konstrukte) z.b. Persönlichkeit, Intelligenz o Ein Test wird an einem anderen Test validiert, dieser sollte an echten Kriterien validiert werden wird häufig so gemacht, weil Validierung an echten Kriterien teuer und schwer durchführbar o Problem: Inhaltsvalidität des Tests gegeben, an dem validiert wird? 3. Target-Variablen o Kriterien, die aufgrund bestehender Sachzwänge bestimmt werden müssen, egal aufgrund welcher Informationen o z.b. Suizidalität

62 S e i t e 62 Konstruktvalidität Def.: Die Konstruktvalidität ist hoch, wenn ein Test auch die Eigenschaft oder Fähigkeit misst, die er messen soll Konstruktvalidität liegt vor, wenn der Schluss vom Verhalten in der Testsituation auf zugrunde liegende psychologische Konstrukte, latente Variablen, Traits aufgezeigt werden kann Klassische Idealvorstellung der Konstruktvalidierung Die Theorie besteht aus einem Satz von Axiomen, die theoretische Zusammenhänge zwischen (latenten, d. h. nicht direkt beobachtbaren) Konstrukten mathematisch beschreiben. Die einzelnen Terme der Axiome werden mit beobachtbaren/manifesten Variablen verbunden, diese Verbindungen nennt man Korrespondenzregeln (Verbindung zwischen Theorie und Beobachtung) aus den Axiomen werden somit Vorhersagen über die Zusammenhänge von Konstrukten abgeleitet, die dann anhand beobachtbarer Variablen empirisch überprüft werden Diese vorhergesagten Zusammenhänge bilden das empirische Gesetz. Korrespondenzregeln und daraus abgeleitete empirische Gesetze bilden ein sog. nomologisches Netzwerk soll durch Konstruktvalidität schrittweise geprüft werden Zentrale Frage dabei ist, ob die manifesten Testwerte gültige Indikatoren für die Ausprägungen des latenten Konstruktes darstellen Stimmen theoretische Vorhersagen und empirische Vorhersagen überein, ist die Theorie (vorläufig) bestätigt und die Interpretation der Testwerte kann als (vorläufige) Bestätigung des theoretischen Konstrukts angesehen werden Stimmen Beobachtung und Theorie nicht überein, muss das nomologische Netzwerk überarbeitet und ggf. erneut überprüft werden. Eine bestehende konstruktbezogene Testwertinterpretation bleibt solange bestehen, bis diese falsifiziert wird. Fazit: o Ideal schwierig umzusetzen, da psychologische Theorien meist keine ausreichende Formalisierung. Daher heute nach Cronbach (1988) Unterscheidung zwischen starkem Ansatz der Konstruktvalidierung (mit formaler Theorie) und schwachem Ansatz der Konstruktvalidierung (ohne formale Theorie) o Ziel bleibt es, theoriebasierte Tests zu entwickeln, die sich durch theoretisch abgeleitete und empirisch überprüfbare Annahmen auszeichnen. Dabei wird zumeist auf formale Theorien verzichtet. Beeinträchtigung der Konstruktvalidität: 1. Unterrepräsentation des Konstrukts im Test: wichtige Aspekte des Konstrukts sind im Test nicht enthalten Messung zu eng 2. Konstruktirrelevante Varianz: es werden Aspekte anderer Konstrukte erfasst oder Varianzaspekte, die man auf die Methode zurückführen kann Messung zu breit a. konstruktirrelevante Schwierigkeit b. konstruktirrelevante Leichtigkeit Messung wird erschwert/erleichtert durch z.b. Behinderung oder Übung

63 S e i t e 63 Konvergente Validität Es werden Korrelationen mit Tests gleicher oder ähnlicher Gültigkeitsbereiche ermittelt. Diese sollten möglichst hoch ausfallen. z.b. Korrelation des IST-2000 R mit dem HAWIE-R (Intelligenzerfassung) Diskriminante/divergente Validität Es werden Korrelationen mit Tests anderer Gültigkeitsbereiche ermittelt. Diese sollten möglichst gering ausfallen. z.b. Korrelation eines Konzentrationstests mit einem Arbeitsgedächtnistest Wichtig: Korrelationen mit Ergebnissen von Tests, die verwandte Konstrukte messen und nicht nur Ergebnisse von Tests, die offensichtlich etwas anderes messen! Sicherstellen, dass man eben gerade KEIN verwandtes Konstrukt erfasst Es soll ein stimmiges Muster an Zusammenhängen bestehen! 3 Methoden zur empirischen Bestimmung der diskriminanten und konvergenten Validität: 1. Bildung von Korrelationen zwischen den Testwerten X, deren Interpretation validiert werden soll, und einer anderen manifesten Variablen Y o Y kann Testwert, Verhaltensmaß oder andere Personenvariable (z.b. Alter) sein o vor Bildung der Korrelationen, müssen theoretische Annahmen über die Höhe der zu erwartenden Korrelationen bestehen o Wenn die empirisch ermittelten Korrelationen mit den Zusammenhängen übereinstimmen, die aus den theoretischen Annahmen abgeleitet wurden, wird die Interpretation gestützt, dass die Testergebnisse auf das angenommene theoretische Konstrukt zurückzuführen sind. o Da nicht von einer optimalen Reliabilität der beiden Tests (der zu validierende und das Kriterium) ausgegangen werden kann, kann man die errechneten Korrelationen doppelt minderungskorrigieren, um die gesuchte Korrelation zwischen Test und Kriterium zu bestimmen 2. Faktorenanalytisch: o o Untersuchung von Zusammenhängen zwischen verschiedenen Tests homogene, konstruktnahe Inhaltsbereiche werden zusammengefasst und von konstruktfremden Bereichen getrennt Faktorielle Validität 3. Multitrait-Multimethod-Analyse Deskriptive Auswertung mit einer der oberen Methoden reicht nicht aus, zusätzlich: Interferenzstatistische Absicherung: Angaben zur erwarteten Effektgröße, zum - und -Fehler sowie zum optimalen Stichprobenumfang unter Berücksichtigung des angewendeten Verfahrens (z.b. Varianzanalyse) Formulierung gerichteter (Null-/Alternativ-) Hypothesen, die der Fragestellung der Validitätsuntersuchung exakt entsprechen Ferner sind Grenzwerte (Mindest- bzw. Höchstwerte) für Korrelationskoeffizienten zu formulieren, z. B. bei der konvergenten Validität eine unter der Alternativhypothese geforderte Mindesthöhe bei der Korrelation. Multitrait-Multimethod-Analyse (Campbell und Fiske) Grundüberlegungen: Jeder Testwert setzt sich zusammen aus Merkmals- und Methodeneinflüssen Methodeneffekte = Sammelbegriff für verschiedene systematische Varianzquellen

64 S e i t e 64 Methoden erzeugen Methodenvarianz verzerren Beziehung zw. Merkmalen beeinträchtigen Validität Quellen der Methodenvarianz: o Messinstrument o Beurteiler: systematisch andere Einschätzung durch untersch. Beurteiler o Kontext: untersch. Umgebungsbedingungen Herkömmliche Methoden, die aufgrund von Korrelationsbildungen konvergente und diskriminante Validität überprüfen, berücksichtigen nicht, dass die Korrelationen auch durch Methodenvarianz zustande (bzw. nicht zustande) kommen können. Durch Kombination aus negativem Einfluss der Methode und positivem Einfluss des Konstruktes können Nullkorrelationen entstehen, obwohl eigentlich signifikante Zusammenhänge existieren Durch Methodenartefakte können künstliche Korrelationen zwischen Merkmalen entstehen Bsp.: Ein zeitbegrenzter Intelligenztest und ein zeitbegrenzter Konzentrationstest korrelieren miteinander; die Varianz der Testwerte geht nicht nur auf eine Eigenschaft oder Fähigkeit zurück, sondern auch auf Methodenvarianz Lösung: Um den Einfluss von Methodenvarianz zu kontrollieren und dennoch die diskriminante und konvergente Validität bestimmen zu können, schlugen Campbell und Fiske die Anwendung der MTMM vor, die strukturell unterschiedliche Messmethoden verwendet. Es werden mindestens 2 Methoden (Tests) benötigt, die mindestens 3 unterschiedliche Traits (Konstrukte) erfassen. Es wird eine Multitrait-Multimethod-Matrix gebildet. 1. Prüfen der Reliabilitätsdiagonale: Die Reliabilitäten sollten möglichst homogen und hoch sein (Im Prinzip Reliabilität = 1, da Korrelation des Konstrukts mit sich selbst und jeweils gleiche Methode) 2. Validitäten a. konvergente Validität/Validitätsdiagonale(n), r MTHM : Gleiches Konstrukt mit unterschiedlichen Methoden gemessen b. diskriminante Validität: unterschiedliche Konstrukte mit gleichen und unterschiedlichen Methoden gemessen 3. Heterotrait-Monomethod-Block (r HTMM ): Unterschiedliche Konstrukte mit der gleichen Methode gemessen 4. Heterotrait-Heteromethod-Block (r HTHM ): Unterschiedliche Konstrukte mit unterschiedlichen Methoden gemessen

65 S e i t e 65 4 Kriterien für Konstruktvalidität: 1. konvergente Validität: r MTHM > 0 (signifikant) Korrelation zwischen der Erfassung eines Konstrukts/Traits mit zwei Methoden muss signifikant von Null verschieden und genügend hoch sein 2. diskriminante Validität: r MTHM > r HTMM Konvergente Validität soll größer sein als die Korrelation zweier unterschiedlicher Konstrukte mit derselben Methode 3. diskriminante Validität: r MTHM > r HTHM Konvergente Validität soll größer sein als die Korrelation zweier unterschiedlicher Konstrukte mit unterschiedlichen Methoden 4. diskriminante Validität: Äquivalenz der divergenten Validitäten Die Muster der Korrelationskoeffizienten sollen sowohl innerhalb einer Methode (Dreiecksmatrizen unterhalb der Reliabilitätsdiagonale) als auch zwischen den Methoden (Dreiecksmatrizen über und unter den Validitätsdiagonalen) etwa gleich sein meist Überprüfung ob Rangreihen und Vorzeichen gleich Zur Überprüfung der Rangreihen wird eine Korrelation über die Korrelationen aller Dreiecke hinweg berechnet. Unterscheidet sich diese signifikant von Null, können die Muster als äquivalent angenommen werden Die Beziehung zwischen denn Konstrukten ist dann über die Methoden hinweg gültig

66 S e i t e 66 Wenn Korrelationen zwischen unterschiedlichen Traits mit der gleichen Methode gemessen relativ hoch und/oder Korrelationen zwischen gleichen Traits mit unterschiedlichen Methoden gemessen relativ gering ausfallen, gibt es große Einflüsse der Methoden. Vorteile dieser Methode: grober Überblick über die Daten Berücksichtigung der diskriminanten Validität Nachteile: Einzelvergleiche und Häufigkeitsauszählungen: keine Signifikanztestung mit zufallskritischer Absicherung Keine exakten Entscheidungsregeln Entscheidungen bei Verletzung eines Kriteriums zur Annahme oder Ablehnung konvergenter und diskriminanter Validität bleiben dem Anwender überlassen sehr subjektiv häufig unterschiedlich hohe Reliabilität der gemessenen Konstrukte, hier werden aber ähnliche Reliabilitäten vorausgesetzt Auswertung der Korrelationsmatrizen basiert auf manifesten Variablen, während die Interpretation der Kriterien auf Basis latenter Traits und Methoden erfolgt Das Vorgehen bei der Auswertung auf Korrelationsebene ermöglicht keine objektive, d.h. voneinander unabhängige Bestimmung, der konvergenten und diskriminanten Validität, da Trait- und Methodeneffekte in den Schlussfolgerungen über die konvergente und diskriminante Validität konfundiert sind. keine Messfehlerbestimmung möglich o aber: in Reliabilitätsdiagonale können Fehler eigentlich abgelesen werden o man könnte auch minderungskorrigieren, um die Fehlereinflüsse zu eliminieren Lösung: Konfirmatorische MTMM Die MTMM-Matrix wird anhand einer Faktorenanalyse analysiert. Vorteile Trennung von Trait-, Methoden- und Messfehleranteil Überprüfung von zugrunde liegenden Annahmen (z.b. Eindimensionalität der einzelnen Traits, Korreliertheit oder Unkorreliertheit der einzelnen Traits bzw. Faktoren) Darüber hinaus: Überprüfung der Kriteriumsvalidität Vorgehen: 1. Festlegen der Faktoren: Mindestens 3 Traits und mindestens 3 Methoden es resultieren 9 Indikatoren, die jeweils auf einen Trait und auf eine Methode laden

67 S e i t e 67 Konvergente Validität: hohe Faktorladungen auf den Traitfaktoren Diskriminante Validität: geringe Korrelationen zwischen den Traits Einflüsse der Methoden: Höhe der Faktorladungen auf den Methoden je niedriger die Einflüsse der Methoden auf die Variablen sind, desto niedriger ist die durch die Methoden aufgeklärte Varianz (= quadrierter Einfluss = Ladung der jeweiligen Methode auf dem Indikator) Es gibt verschiedene Werte, die angeben, wie gut das faktorenanalytische Modell zu den Daten, die auf Basis der angenommenen Faktoren erhoben wurden, passt: ²: sollte möglichst klein sein RMSEA: sollte kleiner als 0,05 sein CFI (Comparative Fit Index) und NFI (Normed Fit Index): sollten möglichst nahe an 1 sein Beispieltest: Personality Research Form (PRF) Gründe für mangelnde Validität (hauptsächlich Kriteriumsvalidität) Methodenfaktoren: wenn Prädiktor und Kriterium mit unterschiedlichen Methoden gemessen, kann sich dies mindernd auf die Korrelation auswirken (keine Methodenvarianz) Unterscheidung zwischen eigentlichen und aktuellen Kriterien: Oft können eigentliche Kriterien nicht erfasst werden (z.b. kann man Berufserfolg eigentlich erst am Ende einer Karriere bestimmen) stattdessen erfasst man aktuelle Kriterien, die leichter zugänglich sind (z.b. momentaner Erfolg, gefertigte Stückzahlen etc.) o Kriteriumskontamination oder -defizienz: Kriterium erfasst etwas anderes als beabsichtigt oder ist zu eng gefasst Prädiktoren sind nicht geeignet ausgewählt und korrelieren daher nur unzureichend mit den echten Kriterien: o Prädiktionsmesswert korreliert nur mit aktuellem Kriterium, nicht aber mit dem eigentlichen hohe Validität muss daher nicht zwangsläufig bedeuten, dass eine Korrelation zwischen Prädiktionsmesswert und eigentlichem Kriterium besteht! o Prädiktionsmesswert korreliert nicht mit aktuellem Kriterium, weist aber eine hohe Aussagekraft für das eigentliche Kriterium auf Mangelnde Symmetrie zwischen Prädiktor und Kriterium: Prädiktor und Kriterium werden unterschiedlich breit gemessen, dies führt zu geringen Korrelationen Varianzeinschränkung eigentlich vorherrschende Zusammenhänge zwischen Variablen können nicht festgestellt werden Berücksichtigung bei Rekrutierung von Stichproben und bei Interpretation von Ergebnissen

68 S e i t e 68 Mangelnde Reliabilität in Prädiktor und Kriterium: Einfluss von Messfehlern führt zu geringen Korrelationen Transparenz und somit Verfälschbarkeit Zusammenhänge zwischen den Gütekriterien Validität hat die höchste Bedeutung Retestreliabilität und Paralleltestreliabilität können nicht größer sein als Objektivität und Konsistenz Verbesserung der letztgenannten Kriterien schafft deshalb bessere Voraussetzungen für die Reliabilität Reliabilität bestimmt Validität Testverlängerung steigert Reliabilität Erhöhung der Validität. Aber: Verdünnungsparadoxon je höher die Ausgangsreliabilität, desto geringer die Erhöhung der Validität durch Steigerung der Reliabilität (z.b. durch Testverlängerung) Homogene Verfahren haben häufig zwar eine hohe Reliabilität, sind aber nur wenig valide gegenüber Außenkriterien Testveränderung in Richtung größerer Heterogenität ( Einbußen bei Reliabilität) erhöht Validität Variation der Itemschwierigkeit ( Einbußen bei Reliabilität): Extreme Schwierigkeiten mindern Homogenität der Skala Steigerung der Validität Lösung des Problems der partiellen Unvereinbarkeit von Reliabilität und Validität: Testbatterien: o hohe Validität, da heterogen o hohe Reliabilität, da Subskalen in sich homogen Transparenz kann Validität verringern, da Vpn Ergebnis verfälschen können ( Vermeiden transparenter Verfahren in Situationen, in denen Verfälschung Sinn macht) Nebengütekriterien Normierung ermöglicht die eindeutige Einordnung der individuellen Leistung einer Person im Vergleich zu anderen Personen Zuweisung eines Rangs und somit Ermöglichen der Interpretation Testnormen sollten aktuell sein, nicht älter als 8 Jahre (DIN) Testnormen sollten für verschiedene Personengruppen vorliegen Zusammensetzung der Normstichprobe angeben (Alter, Geschlecht, Bildung, ) Mindestgröße von N=300 (Daumenregel) Es sollten folgende Angaben vorliegen: o Repräsentativität (Deutschland, Studenten, ) o Anwerbung der Stichprobe (wie und durch wen?) o Bedingungen (Bezahlung, Rückmeldung, Testsituation, Tageszeit, Einzeloder Gruppentestung?, Länge des Tests, Position in einer Testreihe)

69 S e i t e 69 Charakteristika einer Testung eines Probanden sollten denen der Normstichprobe entsprechen Güte der Normen bestimmt die Güte der individualdiagnostischen Entscheidung Verschiedene Normen: 1. Äquivalentnormen: Zuordnung zu bestimmten Zeitabschnitten wie z.b. Altersstufen z.b. bei Intelligenz Alter als Referenz, bei Entwicklung Reifestatus 2. Variabilitäts- oder Abweichungsnormen: Individuelle Leistung wird mit der Werteverteilung (meist Normalverteilung) einer Vergleichspopulation (z.b. gleiche Altersgruppe) in Beziehung gesetzt wird. Testwerte werden dabei in Werte einer Standardskala transformiert Bereich= Spanne von +/ 2 Standardabweichungen Bei Stanine sind keine extremeren Werte möglich im Gegensatz zu anderen Normskalen Normen sind durch z-transformationen ineinander überführbar Transformation nicht erlaubt, wenn Messwerte nicht normalverteilt 3. Prozentränge Spezielle Form der Transformation: Den Maßzahlen wird eine relative Position auf der nach Größe ranggereihten Messwerteskala der Bezugsgruppe zugordnet Vorteile: keine Voraussetzung für Verteilungsform der Messwerte, leichte Verständlichkeit Nachteil: Abstände nicht interpretierbar Vergleichbarkeit Ein Test ist vergleichbar, wenn eine oder mehrere Parallelformen oder Tests mit gleichen Gültigkeitsbereichen vorhanden sind. Ökonomie Kurze Durchführungszeit? Wenig Material? Einfache Handhabung? Gruppentestungen möglich? Einfache und schnelle Auswertung? Nützlichkeit Ist das gemessene Merkmal praktisch bedeutsam? Gibt es bereits einen Test, der das gemessene Merkmal misst? Wenn ja: Welche Vorteile weist das neue Verfahren gegenüber dem/den alten auf? + Skalierung, Zumutbarkeit, Unverfälschbarkeit, Testfairness

70 S e i t e 70 Testfairness (Wird teilweise zu den Nebengütekriterien gezählt) Bei Entscheidungsprozessen sollen Mitglieder bestimmter Gruppen nicht benachteiligt werden Testfairness kann nicht per se erreicht werden, sondern nur vor dem Hintergrund spezieller Handlungs- und Entscheidungsaspekte, die definiert werden müssen Wahl des Fairnessmodells nach unterschiedlichen Zielen; je nach Ziel kann das gleiche Verfahren mehr oder weniger fair sein Ziele: gesellschaftspolitsch, Erfolgsmaximierung Modelle sind nicht kompatibel o Fehlentscheidungen, die unfair für Individuum sind: Ausgleich durch Cleary o Fehlentscheidungen, die unfair für Gruppe sind: Ausgleich durch Thorndike Je höher die Validität, umso geringer ist das Risiko eines Testbias gegenüber einer relevanten Untergruppe von Merkmalsträgern 3 Testfairnessmodelle 1. Modell der proportionalen Repräsentation/Quotenmodell Eine Selektionsmaßnahme gilt als fair, wenn sie gewährleistet, dass in der Stichprobe der ausgewählten Bewerber die Proportion der miteinander verglichenen Gruppen dieselbe ist wie in der Bewerberpopulation. Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen für relevante Populationssubgruppen (z.b. Geschlecht, soziale Schicht) Perfekte Übereinstimmung der Quoten kaum möglich, daher wird versucht, ungefähr gleiche Proportionen zu erreichen. Problem: Modell nimmt implizit an, dass es keine systematischen Leistungsunterschiede zwischen Bewerbergruppen gibt, diese Annahme trifft für gut konstruierte Tests aber nicht zu, da dies zu Lasten der Validität gehen würde Es wird implizit angenommen, dass die Gruppen gleich leistungsfähig sind und der Test Gruppenunterschiede aufgrund fehlerhafter Konstruktion nur vortäuscht Aussagen über die Effizienz des Verfahrens (im Hinblick auf den Erfolg der ausgewählten Bewerber) werden nicht berücksichtigt, daher wird Quotenmodell in der Praxis nicht angewendet Auch bei Normierungen gibt es das gleiche Problem der Annahme, dass es keine systematischen Gruppenunterschiede gibt; Normierungen liegen so z.b. für Altersgruppen vor, meist aber nicht für soziale Schichten unmöglich, alle Merkmale zu berücksichtigen, um Fairness zu erreichen 2. Regressionsmodell von Cleary (Modell einer fairen Vorhersage) Die Schätzung des Kriteriumswertes durch die Regressionsgerade kann nur dann als fair betrachtet werden, wenn in allen Subgruppen gleiche Regressionsgeraden gelten und somit für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht Überprüfung, ob Verwendung der gemeinsamen Regressionsgerade fair im Sinne des Regressionsmodells ist: o o Erhebung von Prädiktor- und Kriteriumsvariable bei allen Probanden Durchführung von Regressionsanalysen in der Gesamtstichprobe sowie in den entsprechenden Substichproben (z.b. Männer und Frauen) Vergleich der Konstanten und Regressionskoeffizienten zwischen den Regressionsgleichungen aus Gesamtstichprobe und Substichproben (Die Subgruppen können unterschiedliche Mittelwerte haben und trotzdem die gleiche Regressionsgerade aufweisen)

71 S e i t e 71 keine Unterschiede: Zur Prognose der Kriteriumswerte kann die gemeinsame Regressionsgerade verwendet werden, ohne dass dadurch einzelne Vpn je nach Gruppenzugehörigkeit systematisch bevorzugt oder benachteiligt werden. signifikante Unterschiede: Zur Prognose der Kriteriumswerte müssen gruppenspezifischen Regressionsgeraden verwendet werden. Beispiele für unfaire Auswahl (unterschiedliche Regressionsgeraden) Hinter dem Schnittpunkt der beiden Regressionsgeraden der Subgruppen erfolgt sogar eine Rangreihenverschiebung (siehe Ellipse)! Die Frau erreicht objektiv geringere Werte im Kriterium (geringere Steigung der Regressionsgerade in der Subgruppe der Frauen, daher führt höherer Prädiktorwert dennoch zu geringerem Kriteriumswert als bei Männern) Frau wird durch gemeinsame Regressionsgerade im Kriterium sogar besser als der Mann eingeschätzt, obwohl objektiv die Werte umgekehrt sind Bei gleichen Prädiktorwerten liefert Schätzung mit gemeinsamer Regressionsgerade andere Rangreihe im Kriterium als Schätzung mit jeweiliger Regressionsgerade der Subgruppe Wenn der Auswahlprozess als fair zu erachten ist, findet die Auswahl anhand der geschätzten Kriteriumsleistung statt Fairness ist immer nur gegenüber der Variablen gegeben, anhand derer die Subgruppen aufgeteilt wurde

72 S e i t e 72 Es werden die Kandidaten ausgewählt, die voraussichtlich die besten Kriteriumsleistungen zeigen werden. Die Erfolgsrate, d.h. die durchschnittliche Leistung der ausgewählten Kandidaten, wird daher maximiert Diese Vorgehensweise ist fair für jeden einzelnen Kandidaten, da jeder voraussichtlich im Kriterium bessere jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird. (= qualified individualism ) Die wesentliche Problematik dieses Modells kritisiert Thorndike (1971). Er weist nach, dass bei einer derartigen Auswahl relativ mehr Auswahlfehler zu Ungunsten der Probanden in der leistungsschwächeren Gruppe begangen werden 3. Modell konstanter Verhältnisse (constant ratio model, Thorndike) Thorndike (1971) fordert, dass das Verhältnis zwischen ausgewählten Bewerbern und den im Kriterium potentiell fähigen Probanden in allen Gruppen gleich ist und somit keine systematischen Auswahlfehler zu Ungunsten einer Gruppe begangen werden. Der Cut-Off im Kriterium wird festgelegt, dadurch wird automatisch der Cut-Off im Prädiktor festgelegt (oder umgekehrt). die geforderte Konstanz der Verhältnisse kann lediglich durch die Absenkung des Cut-offs (bzw. die Parallelverschiebung der Regressionsgeraden) in der leistungsschwächeren Gruppe gewährleistet werden Da hierdurch zwangsweise auch leistungsschwächere Kandidaten angenommen werden müssen reduziert sich die durchschnittliche Kriteriumsleistung der ausgewählten Kandidaten Diese Vorgehensweise ist fair gegenüber den ausgewählten Kandidaten der leistungsschwächeren Gruppe, da die Auswahlfehler denen in der leistungsfähigeren Gruppe entsprechen Die Vorgehensweise ist unfair gegenüber den Abgelehnten aus der leistungsstärkeren Gruppe, da diese in der schwächeren Gruppe eventuell noch angenommen worden wären Ablehnung, obwohl bei Ihnen höhere Kriteriumsleistungen zu erwarten wären Generelles Problem der Quotenmodelle: Ein Test, der fair ist mit Blick auf die Selegierten, ist unfair gegenüber den Abgelehnten Beispiel: Selektionsraten zweier Subgruppen werden angeglichen fair für die angenommenen Probanden beider Subgruppen da Regressionsgeraden beider Subgruppen nicht exakt identisch (sondern nur nicht signifikant verschieden) ist es möglich, dass sich in diesen zwei Subgruppen die Wahrscheinlichkeiten, fälschlicherweise abgelehnt zu werden (Falsch Negative), unterscheiden somit wäre der Test nur für die Angenommen, nicht aber für die Abgelehnten fair

73 S e i t e 73 Erhebungsstrategien Unimodale vs. multimodale Datenerfassung unimodal: Erhebung mit nur einer Methode Anwendung bei institutioneller Diagnostik, z.b. bei großen Bewerbergruppen multimodal: Erhebung mit mehreren unterschiedlichen Methoden Anwendung bei individueller Diagnostik, z.b. im klinischen Bereich Problem: Mangelnde Konkordanz der Ergebnisse verschiedener Methoden Lösungsansätze: Erfassung zu mehreren Messzeitpunkten und Aggregation der Messwerte Aggregation von Daten aus verschiedenen Kriteriumsbereichen (Abdecken eines breiteren Merkmalsbereichs) Anwendung von Items, die von Vpn als für sie zutreffend eingeschätzt werden Anwendung regressionsanalytischer Kombinationen: Kriterien, die eine hohe Übereinstimmung zeigen, werden stärker gewichtet im klinischen Bereich bzw. der Individualdiagnostik ist eine solche Anwendung nicht möglich Im klinischen Bereich kann ein Befund erst als gesichert betrachtet werden, wenn mindestens 2 möglichst unterschiedliche Methoden ihn bestätigen. Gibt es Diskrepanzen, muss der Diagnostiker weitere Methoden hinzuziehen, um die Befunde integrieren zu können. Messung von Veränderungen und Unterschieden Ein- und dieselbe Messung wird zu mehreren Zeitpunkten durchgeführt, um das Ausmaß der zwischen den Messungen eingetretenen Veränderungen und deren Stabilität abschätzen zu können (z.b. vor und nach Intervention) 1. Zunächst müssen die Unterschiede zwischen den Testungen statistisch abgesichert werden 2. Wenn die Unterschiede signifikant sind, möchte man wissen, ob diese auch zuverlässig interpretiert werden können Berechnung der Reliabilität der Differenzen zwischen zwei Testwerten r (1 2)(12) r11 r 1 r r (1-2)(1-2) = Reliabilität der Differenzen zwischen zwei Testwerten r 11 = Reliabilität der Rohwerte, ausgedrückt als Anteil der wahren Varianz an der Gesamtvarianz r 12 = Korrelation zwischen den beiden Testwerten Formel nur dann geeignet, wenn zweimal der gleiche Test verwendet wurde, da dann davon ausgegangen wird, dass Reliabilität und Streuung der erhobenen Rohwerte zu beiden Zeitpunkten gleich sind Wenn die Reliabilität der Differenzen ausreichend hoch ist (>.70), können die Unterschiede interpretiert werden. Dies ist nur dann der Fall, wenn die Korrelation zwischen Erst- und Zweitmessung niedrig ist. Reliabilitäts-Validitäts-Dilemma: Hohe Reliabilität der Differenzen mit KTT unvereinbar, da diese fordert, dass zu jedem Zeitpunkt höchsthöchstmögliche Reliabilität erzielt wird:

74 S e i t e 74 a) hohe Reliabilität der Ausgangstests hohe Korrelation zwischen beiden Testzeitpunkten geringe Reliabilität der Differenzen, da beide Testungen viel wahre Varianz gemeinsam haben und Differenz primär Fehleranteile widerspiegelt (Extremfall: sehr hohe Korrelation, z.b. Paralleltest Differenz besteht nur aus Fehlern/Zufallsgrößen) b) niedrige Korrelation hohe Reliabilität der Differenzen, Messungen können aber nicht das gleiche bedeuten, zu beiden Zeitpunkten wurde also Verschiedenes erfasst ( geringe Validität!) Obige Formel nur geeignet, wenn Reliabilität und Streuung zu beiden Zeitpunkten gleich o eine verallgemeinerte Formel berücksichtigt die Reliabilität, die Streuung und die Varianz beider Tests o Anwendung: herausfinden, wie reliabel Unterschiede zwischen verschiedenen Leistungs- oder Persönlichkeitsbereichen sind (z.b. reliabler Unterschied zwischen rechnerischem Denken und Wortschatz?) Gleicher Test zweimal durchgeführt, Reliabilität und Streuung aber zu beiden Zeitpunkten verschieden (z.b. nach psychotherapeutischer Intervention, wo sich Unterschiede zwischen den Probanden verändern) Weitere Formel, wenn Reliabilitäten unterschiedlich, Streuungen aber gleich o Anwendung bei der Interpretation individueller Profilwertdifferenzen, also Werte von Skalen innerhalb von Testsystemen, da Untertests hier alle gleiche Streuung haben (z.b. HAWIK) o Profildifferenzen sind dann eher reliabel, wenn Subtests für sich eine hohe Reliabilität haben, aber untereinander nur niedrig (optimal: r = 0) korrelieren Weitere Probleme bei der Interpretation von Veränderungswerten: Regression zur Mitte Bei wiederholter Messung eines psychologischen Merkmals haben die beiden Verteilungen zwar die gleiche Gestalt, anfänglich extrem hohe oder niedrige Werte regredieren bei der zweiten Messung aber etwas zur Mitte. beruht auf unzureichenden Reliabilitäten und somit hohen Messfehlern Begründung: Extremität kommt durch Kombination förderlicher und hinderlicher Faktoren zustande, die in dieser spezifischen Konstellation kaum wieder auftritt o KTT: Messwert = wahrer Wert + Messfehler o Extremer Messwert = extremer wahrer Wert + extremer Fehler unwahrscheinlich, dass Messfehler bei 2. Messung exakt genauso extrem auftritt wie bei 1. Messung wird eher geringer Wert rückt zur Mitte extreme Werte weichen daher nicht exakt identisch vom Mittelwert ab wie bei 1. Messung, stattdessen nehmen andere Werte ursprüngliche Position der Messwerte ein, so dass Verteilung wieder gleich aussieht man weiß also nicht, ob Regression zur Mitte durch wahre Veränderungen in den Messwerte oder durch Messfehlerveränderungen zustande gekommen ist Ausgangswertegesetz Höhe eines Anfangswertes korreliert negativ mit dem Zuwachs/der Veränderung je höher der Ausgangswert, desto größer die Wahrscheinlichkeit, dass danach ein geringerer Wert auftritt je geringer der Ausgangswert, desto größer die Wahrscheinlichkeit, dass danach ein höherer Wert auftritt

75 S e i t e 75 Vorschlag: Werte der Anfangsmessung aus denen der Endmessung herauspartialisieren Annahme: Residualwerte = basefree measures of change Physicalism-subjectivism-dilemma Bedeuten numerisch identische Veränderungen auf verschiedenen Abschnitten des Messwertekontinuums das gleiche? Intervallskalenniveau (bei meisten Leistungs-und Persönlichkeitstests vorhanden) würde dies annehmen Fraglich, ob Leistungssteigerung um z.b. 10-IQ-Punkte im unteren und oberen Intelligenzbereich das gleiche bedeutet wie im mittleren Bereich gleiche Veränderungswerte stehen nicht für gleiche psychologische Veränderungen

76 S e i t e 76 Der diagnostische Prozess = Abfolge von Maßnahmen zur Gewinnung diagnostisch relevanter Information 1. Auftraggeber: Klient/Patient selbst oder andere Person oder Institution 2. Heranziehen von Bewährungskriterien o Grundlage für Gestaltung der Testsituation o Zielkriterien zur Beurteilung des Erfolgs der Intervention (Sollzustand) 3. Entscheidung, ob Fragestellung in Hypothesen übersetzen werden kann, wenn nicht Modifizierung der Fragestellung Bildung von Hypothesen zu Fragestellung (Problemverhalten) und Interventionsmöglichkeiten (Überführung von Ist- in Sollzustand) 4. Überprüfung der Operationalisierbarkeit der Hypothesen 5. Untersuchungsplanung: Hypothesen bestimmen Inhalt der Untersuchung, Auswahl der Verfahren, mit welchen inhaltliche Ziele erreicht werden können, durch technische Aspekte bestimmt (z.b. Gütekriterien, Normen für best. Alter) 6. Nach Auswertung der Testergebnisse zusätzliche Absicherung der Hypothesen evtl: Operationalisieren sich neu ergebender Hypothesen oder Bildung neuer Hypothesen 7. Beantwortung der Fragestellung Häufig erst nach mehrmaligem Durchlaufen Beantwortung der Fragestellung möglich

77 S e i t e 77 Das diagnostische Urteil = Grundlage zur Beantwortung der Fragestellung des Auftraggebers Unterscheidung zweier gegensätzlicher Formen zur Urteilsbildung: 1. Statistische/mechanische/formelle Form: Datenintegration mit statist. Gleichungen o z.b. Regressions- oder Diskriminanzanalysen o Beispiel: Goldberg-Index, der anhand von MMPI-Ergebnissen einschätzt, ob ein Pat. psychotisch ist 2. Klinische/menschliche/informelle Form: Diagnostiker kombiniert Einzeldaten o Beispiel: klinische Experten beurteilen anhand gleicher Information, ob ein Pat. psychotisch ist oder nicht; verlassen sich auf ihre klinische Erfahrung Metanalyse und Studien: statistische Form hinsichtlich Genauigkeit von Urteilen und Prognosegenauigkeit überlegen, v.a. bei Vorhersage von medizinischen und forensischen Kriterien und wenn Informationen als Interviewdaten vorliegen Warum? Problem des klinischen/menschlichen Urteils: Anfälligkeit für Urteilsfehler Ignorieren der Basisrate: Stellen von Diagnosen, die statistisch selten und daher unwahrscheinlich sind Falsche Gewichtung von Informationen: Leicht verfügbare Information wird übergewichtet (availability Heuristik) Regression zur Mitte wird vernachlässigt aber auch Probleme des statistischen Urteils: Urteilsmodelle können nur mit Daten erstellt werden, die für alle Personen vorhanden sind große Fallzahlen notwendig in Forschung häufig unrealistische Beschränkung auf einen Test in diagnostischer Praxis sollten beide Modelle verwendet werden: Bei Zweifel an der Eignung des statistischen Modells: Korrektur der mechanischen Vorhersage und durch Hinzunahme weiterer Informationen, die im statistischen Modell unberücksichtigt sind Evtl. sogar Ersetzen der statistischen Vorhersage durch klinische Vorhersage Das diagnostische Gutachten Zusammenfassende Darstellung der psychodiagnostischen Vorgehensweise, Befunde und Schlussfolgerungen in Bezug auf bestimmte Fragestellung und Person/Institution/Situation dient dem Auftraggeber als wissenschaftlich fundierte Entscheidungshilfe bei einem gegebenen Problem Im Mittelpunkt steht bestimmter Ausschnitt aus dem Verhalten einer Person, nicht die ganze Persönlichkeit Schritte des diagnostischen Entscheidungsprozesses (Westhoff und Kluck) Erstellen eines Gutachtens beruht auf Serie von Entscheidungen: 1. Fragestellung: o ethisch vertretbar? grundsätzlich beantwortbar? o zuständiges Fachgebiet? ausreichende Kompetenz? o eindeutig formuliert? 2. Annahmen des Psychologen über menschliches Verhalten: z.b. Annahme eines regelhaften Zusammenhangs zwischen Situation und Verhalten

78 S e i t e Anforderungsprofil: o es müssen bestimmte Kriterien/Anforderungen vorliegen, die man den Eigenschaften/Fähigkeiten der untersuchten Person gegenüber stellen kann o z.b. welcher Beruf ist geeignet? welche Therapieform? o sollten möglichst verhaltensorientiert definiert sein, um sie exakt beurteilen zu können 4. psychologische Fragen (= Hypothesen) o Übersetzung der Fragestellung in psychologische Hypothesen o Auswahl geeigneter Variablen, basiert u.a. auf Verhaltensgleichung: nicht psychologisch psychologisch V f ( U, O, K, E, M, S) stellt sicher, dass alle relevanten Variablen berücksichtigt Verhalten ist Funktion psychologischer und nichtpsychologischer Variablengruppen, die zur Erklärung, Vorhersage und Beeinflussung individuellen Verhaltens bedeutsam sind: Umgebungsvariablen: äußere Lebensbedingungen (z.b. Wohnsituation) Organismusvariablen: körperliche Bedingungen (z.b. Krankheit) kognitive Variablen: Leistungsfähigkeit und Inhalte des Wahrnehmens, Lernens und Denkens (z.b. Allgemeine Intelligenz) emotionale Variablen: emotionale Belastbarkeit, Umgang mit Gefühlen motivationale Variablen: Leistungs- und Machtmotiv, Interessen soziale Variablen: soziale Intelligenz, Normen, Einflüsse von bedeutsamen anderen + Wechselwirkungen dazwischen 5. Untersuchungsplan o Auswahl von Informationsquellen nach Kosten-Nutzen-Prinzip und anhand von Gütekriterien und Existenz geeigneter Normen o Beschreibung verwendeter Verfahren und sonstiger Informationsquellen, Art der Erhebung relevanter Variablen für Leser nachvollziehbar 6. Durchführen der diagnostischen Untersuchung o eingesetzte Verfahren in allgemeinverständlicher Form darstellen 7. Darstellen der Ergebnisse und Befund: o Ergebnisse im Befund so integrieren, dass sie formulierte Fragen/Hypothesen beantworten o Stellungnahme: Antwort des Gutachters auf beauftragte Fragestellung 8. Vorschläge bzw. Empfehlungen zum weiteren Vorgehen Zuordnungs- und Klassifikationsstrategien Es geht um die Zuordnung von Personen zu bestimmten Interventionen. Interventionen können dabei Therapien, Unterrichtseinheiten, aber auch Arbeitsstellen etc. sein. Bei der Zuordnung kann es zu Problemen und Fehlern kommen. Arten diagnostischer Entscheidungen Zuordnungsentscheidungen setzen das Vorhandensein von mindestens 2 Alternativen voraus (z.b. Annahme und Ablehnung) 7. Testungen einstufig vs. mehrstufig

79 S e i t e 79 zu 1. a) institutionell: Organisation unterzieht alle Personen in der gleichen Weise einem standardisierten Verfahren Ziel: Suche nach Entscheidungsregel, die Nutzen für Institution maximiert b) individuell: Individuum sucht Rat (z.b. Berufswahl) Ziel: Suche nach bester Handlungsalternative für die Person zu 2. a) Festgelegte Annahmequote: Bestimmte Anzahl an Plätzen, denen Personen zugeordnet/ nicht zugeordnet werden müssen Entscheidungen über einzelne Personen nicht unabhängig voneinander, da Entscheidung für Personen gleichzeitig Entscheidung gegen andere b) Variable Annahmequote: z.b. alle Kinder, die mit 7 noch einnässen erhalten Therapie Entscheidungen unabhängig von anderen Personen zu 3. a) singuläre Behandlung: eng umschriebene Maßnahme (z.b. Therapie eines Pat.) b) multiple Behandlung: Kombination vieler Treatments (z.b. Einbezug Familie) zu 4. a) ja: wenn Ablehnung aufgrund der Testung möglich, liegt klassische Struktur eines Selektionsparadigmas liegt vor; für Selektion genügt bereits 1 Prädiktor b) nein: wenn alle Personen im System bleiben (keine Ablehnung) und durch die Testung nur zu einer Intervention zugeordnet werden, liegt Platzierung vor Vorteil: keiner wird von Intervention ausgeschlossen zu 5. a) univariat: Beschränkung auf eine Dimension/einen Prädiktor (z.b. Abiturnote) b) multivariat: mehrere Dimensionen/Prädiktoren Vorteile: erhöht Validität und damit auch Entscheidungssicherheit (ggü. univariat) erlaubt Klassifikation, damit ist hier Zuordnung von Personen anhand von Merkmalskonstellationen gemeint zu 6. a) terminal: Zuordnung einer Person zu einer Behandlung, in der sie mehr oder weniger lange verbleibt, mit Zuordnung ist Diagnostik abgeschlossen (z.b. Einschulung in Sonderschule, Aufnahme in Ausbildungsprogramm) b) investigatorisch: Zuordnung vorläufig und weiter zu untersuchend; Ziel der 1. Untersuchung ist eine oder mehrere neue Frage/n (z.b. Anstellung auf Probe, um Bewährung an konkret anfallenden Anforderungen abschätzen zu können) zu 7. (siehe auch unter Entscheidungsstrategien) a) einstufig: Zuordnung auf der Basis einer punktuellen Einmaldiagnose b) mehrstufig: gestuftes Vorgehen in mehreren Schritten Zielsetzung des diagnostischen Prozesses beeinflusst: infrage kommende Einzelentscheidungen Strategien/Regeln, die angewandt werden, um zu einer Entscheidung zu gelangen Entscheidungsstrategien Kompensatorische vs. konjunktive Entscheidungsstrategien 1. Kompensatorische Strategien derselbe (globale) Prädiktionswert kann durch verschiedene Merkmalskonstellationen in den Einzeltests erreicht werden

80 S e i t e 80 niedrige Leistungen in einem Test können durch hohe in anderem kompensiert werden besonders leicht, wenn man gut in Tests ist, die innerhalb der Batterie ein hohes -Gewicht haben werden in diagnostischer Praxis häufig angewandt (z.b. Versetzung, wenn man in Mathe schlecht, in Deutsch aber gut ist) besonderer Fall: Oder-Konzept o es wird keine (gewichtete) Summe gebildet, sondern es reichen hohe Werte in einem der Prädiktoren aus o diese Auswahlstrategie wird dann angewandt, wenn die durch das Kriterium geforderte Leistung auf verschiedene Arten erbracht werden kann (z.b. gute Leistungen in Schule durch Fleiß oder Begabung) funktioniert nicht, wenn in allen Bereichen bestimmte Mindestleistungen notwendig sind (z.b. intelligenter, aber ungeschickter Chirurg nein danke) 2. Konjunktive Strategien bzw. Und-Konzepte Forderung nach Leistungen in allen Bereichen Festlegung kritischer Trennwerte Bei Anwendung der konjunktiven Strategie sind die Anforderungen höher, in die Kategorie der Zugelassenen zu kommen Vorgehen konservativer ist aber möglich, dass bei bestimmten Trennwerten Personen mit konjunktiver Strategie angenommen, mit kompensatorischer aber abgelehnt würden Bei gleicher Annahmequote resultieren unterschiedliche Trennwerte aus kompensatorischer und konjunktiver Strategie Einstufige vs. mehrstufige Entscheidungsstrategien 1. Einstufige Strategien definitiv terminale Entscheidungen im normalen Leben selten und auf die Fälle beschränkt, in denen eine institutionelle Entscheidungsinstanz eine Person aus ihrem System entlässt und keine weiteren Informationen mehr über sie erhebt in diagnostischer Praxis kommt einstufiges Vorgehen aus Zeit- und Kostengründen häufig vor, man unterscheidet zwischen: o nichtsequentielle Batterie: gesamte Batterie wird allen Probanden vorgegeben, und es werden diejenigen ausgewählt, die im optimal gewichteten Summenwert die höchsten Scores erzielen o single screen/einzelteststrategie: alle weiteren Entscheidungen beruhen allein auf einem Test I und IV = Abgelehnte II und III = Ausgewählte 2. Mehrstufige Strategien sequentielles/mehrstufiges Vorgehen in normalem Leben eher die Regel auf mehrstufigen Entscheidungsstrategien beruhen die meisten: o persönlichen Entscheidungen (z.b. Studium, Studiengangswechsel, Firma gründen, berufliche Neuorientierung )

81 S e i t e 81 o institutionellen Entscheidungen (z.b. Universität: Sammeln von Leistungsnachweisen, Zulassung zu Vorprüfungen, Ausschluss bei Nichtbestehen Universität sammelt ständig diagnostische Information über den Leistungs-/Motivationsstand der Studenten) 3 verschiedene Grundmuster möglich: o Vorauswahl-(Pre-reject-)Strategie: Nach einem Test werden alle Probanden, die einen bestimmten Score nicht erreichen, von weiteren Untersuchungen ausgeschlossen Die verbleibenden Probanden absolvieren weitere Verfahren Entscheidung über Annahme vs. Ablehnung wird aus Kombination zwischen Erst- und Folgetests getroffen Beispiel: Zulassung zur praktischen Führerscheinprüfung nur, wenn theoretische bestanden o Vorentscheidungs-(Pre-accept-)Strategie: Nach einem ersten Teil werden alle Probanden, die einen bestimmten Trennwert überschreiten, bereits (terminal) akzeptiert Mit den verbleibenden Probanden wird analog zur Vorauswahlstrategie verfahren Beispiel: früher bestimmte Plätze im Medizinstudiengang für Schüler mit besten Abinoten bereits reserviert, Rest konnte durch Bestehen eines Test aufgenommen werden o Vollständige sequentielle Strategie: Kombination der beiden ersten Vorgehensweisen Nach Maßgabe der Punktwerte in einem Test erfolgt eine Aufteilung aller Probanden in 3 Gruppen: eine, die (terminal) akzeptiert, eine andere, die definitiv abgewiesen und eine dritte, die mit einem Folgetest untersucht wird I und IV = Abgelehnte II und III = Ausgewählte Entscheidung für sequentielle bzw. einstufige Entscheidung hängt für Institution von Kosten/Nutzen ab o Kosten: wie teuer ist Untersuchung? Nutzen: Wie viel Gewinn kann durch Selektion der Besten erwirtschaftet werden? (s.u.) o Validität und Prozentanteil auszuwählender Bewerber spielen große Rolle Sequentielle Entscheidungen den einstufigen generell überlegen, außer bei extremen Selektionsraten Entscheidungsfehler Entscheidungsstrategien haben d. Ziel, Fehler bei Klassenzuordnung zu vermeiden Entscheidungsfehler liegen vor, wenn Zuordnung durch Prädiktorvariable/n nicht mit der tatsächlichen Klassenzugehörigkeit übereinstimmt kommt vor, da Entscheidungen mit Unsicherheit oder Irrtumsrisiko behaftet Sequentielle Entscheidungen lassen sich in mehrere einstufige Entscheidungen unterteilen, daher gelten folgende Fehler für beide Entscheidungsstrategien

82 S e i t e 82 Arten von Fehlern 1. Fehler 1. Art, -Fehler, (falsch Positive): z.b. gesunde Person wird als krank klassifiziert 2. Fehler 2. Art, -Fehler, (falsch Negative): z.b. kranke Person wird als gesund klassifiziert Gütekriterien einer Entscheidungsstrategie Je besser die Gütekriterien, desto geringer die Wahrscheinlichkeit, Fehler zu machen 1. Sensitivität: Wahrscheinlichkeit, mit der ein vorliegender positiver Zustand auch als solcher erkannt wird (z.b. Anteil der richtig diagnostizierten Kranken an der Gesamtgruppe der Kranken) Hoch ausgeprägt, wenn viele RP und wenige FN Möglichst kein geeigneter soll abgelehnt werden 2. Spezifität: Wahrscheinlichkeit, mit der ein vorliegender negativer Zustand als solcher erkannt wird (z.b. Anteil der richtig diagnostizierten Gesunden an der Gesamtgruppe der Gesunden) Hoch ausgeprägt, wenn viele RN und wenige FP Möglichst kein ungeeigneter soll ausgewählt werden 3. Positiver Prädiktions-/Vorhersagewert: Wahrscheinlichkeit, mit der eine positive Diagnose zutreffend ist (z.b. Anteil der tatsächlich Kranken an allen als krank diagnostizierten Personen) 4. Negativer Prädiktions-/Vorhersagewert: Wahrscheinlichkeit, mit der eine negative Diagnose zutreffend ist (z.b. Anteil der tatsächlich Gesunden an allen als gesund diagnostizierten Personen) RP RP FN RN RN FP RP RP FP RN RN FN Gütekriterien und Basisrate: Sensitivität und Spezifität können unabhängig von Basisrate bestimmt werden, Prädiktionswerte werden hingegen stark durch sie beeinflusst Basisrate/natürlicher Eignungsquotient: Verhältnis der im Kriterium erfolgreichen Probanden zur Gesamtzahl aller Messwertträger auch bei Tests mit sehr geringer Validität kann sehr effizient ausgewählt werden (d.h. nur voraussichtlich erfolgreiche Bewerber werden ausgewählt), wenn die Basisrate der geeigneten Bewerber hoch ist, die Selektionsrate aber nur gering Güte eines Zuordnungsverfahrens hängt daher stark von der Basisrate ab (je höher Basisrate, desto leichter kann effizient ausgewählt werden) Selektiver Eignungsquotient/Effizienz der Auslese: Anteil der Geeigneten an allen Ausgewählten (identisch mit dem positiven Prädiktionswert!) Bedeutung von Fehlerarten RP FN N RP RP FP kann sehr unterschiedlich sein Beispiel: Zuordnung zur Kategorie krank wenn man tatsächlich krank ist (Annahme Alternativhypothese) sehr wichtig, da nur dann Behandlung erfolgt Wahrscheinlichkeit einer fälschlichen Nicht-Zuordnung zu dieser Kategorie (Annahme der Nullhypothese bei gültiger Alternativhypothese) sollte möglichst minimiert werden (möglichst wenige FN, möglichst kein -Fehler)

83 S e i t e 83 Minimierung von Fehlern Mehrere Entscheidungsregeln, um Fehler bei Zuordnungsverfahren gering zu halten Wahl des Kriteriums hängt von diagnostischer Fragestellung ab 1. Neyman-Pearson-Kriterium o Das Entscheidungskriterium wird so weit verschoben, dass das Risiko für den Fehler 1. Art unterhalb eines frei bestimmbaren Wertes liegt (z.b. <0,05) o Problem: mit Reduzierung des -Fehlers wächst -Fehler in unbekanntem Ausmaß an Regel nur in Situationen sinnvoll, wo -Fehler relativ unbedeutend sind in klinischer Diagnostik sind -Fehler aber meist gravierenderer als - Fehler (Keine Behandlung bei Krankheit schlimmer als Stigmatisierung durch Behandlung eines Gesunden)! 2. Minimax-Kriterium o maximaler Zuordnungsfehler in allen Klassen soll möglichst klein sein o Es wird die Alternative gewählt, bei der der Betrag des größten Zuordnungsfehlers am geringsten ist (minimaler Maximalwert) ( größter Zuordnungsfehler möglichst klein) 3. Minimum-Loss-Kriterium o Minimierung der Zuordnungsfehler über alle Klassen hinweg o Im Vergleich zum Minimax-Kriterium kann dies bedeuten, dass eine Konstellation gewählt wird, bei der der Zuordnungsfehler zu einer Kategorie im Vergleich zu allen anderen relativ hoch ist ( Zuordnungsfehler insgesamt möglichst klein) Zuordnungsmethoden Analyse von Entscheidungsfehlern setzt voraus, dass vorher bereits eine Zuordnung stattgefunden hat Verschiedene Zuordnungsmethoden: 1. Zugehörigkeitswahrscheinlichkeiten: o Person wird zu derjenigen Klasse zugeordnet, der sie entsprechend ihrer Ausprägung im Prädiktor mit der größten Wahrscheinlichkeit angehört o man verwendet hierzu x i = Vektor aller Prädiktoren eines Individuums i p( xi / K A ) K A+ = Kategorie der Personen mit positiver L( xi) c Ausprägung des Kriteriums p( xi / K A) K A- = Kategorie der Personen mit negativer Ausprägung des Kriteriums den Likelihood- Quotient: wird c = 1 gesetzt, ergibt sich Zuordnung nach dem Prinzip der maximalen Gruppenzugehörigkeitswahrscheinlichkeit kleinere/größere Werte für c: Verbesserung der Sensitivität zu Lasten der Spezifität und umgekehrt Möglichkeit, den Quotienten zu erweitern, um Basisrate oder Kosten/Nutzen zu berücksichtigen 2. Regressionstechniken: o Bildung einer Regressionsgleichung für ein bestimmtes Problem o Einsetzen individueller Prädiktionswerte in Gleichung Kriteriumswert für diese Person resultiert o Zuordnung zu Kategorien durch Differenzbildung mit kritischen Kriteriumswerten

84 S e i t e Diskriminanzanalyse: o ähnlich wie Regressionsanalyse, aber einfacher o Bildung einer Diskriminanzfunktion o Einsetzen der individuellen Testwerte Wert o Vergleich des resultierenden Werts wird mit kritischem Diskriminationswert, der Klassen voneinander trennt 4. Ähnlichkeits- bzw. Distanzmaße: o z.b. Vergleich eines individuellen Testwerteprofils mit dem durchschnittlichen Profil verschiedener Gruppen o verschiedene Maße zur Berechnung von Distanzen: a) Euklidische Distanz b) adaptierte Cattellsche Formel Zuordnung der Person zu der Gruppe, zu deren Gruppenvergleichsprofil geringste Distanz bzw. größte Ähnlichkeit besteht Problem: Berechnung der Distanz mit diesen Maßen setzt Unabhängigkeit der Prädiktoren voraus oft nicht gegeben Mahalanobis-Distanz (Verallgemeinerung der Euklidischen Distanz; verlangt diese Voraussetzung nicht) Festsetzung von Trennwerten Punkte, die für Festlegung von Trennwerten maßgeblich sind: Je weiter der Cut-Off in Richtung des zu identifizierenden Merkmals (z.b. Krankheit) hin angehoben wird, umso höher fällt der positive Prädiktionswert (selektive Eignungsquotient) aus o Problem: nur FP werden verringert, nicht aber FN Rückgang der Fehlerrate des -Fehlers, FP (Zunahme der Spezifität) bedeutet Zunahme der Fehlerrate des -Fehlers, FN (Abnahme der Sensitivität) Basisrate von Bedeutung ROC-Kurven können unabhängig von der Basisrate berechnet werden, wenn die Verteilungskennwerte der unterschiedlichen Gruppen durch empirische Untersuchungen bekannt sind ROC-Kurve (Receiver-Operating Characteristic, Signalentdeckungstheorie) Bestimmung von Sensitivität u. Spezifität für alle potentiellen Trennwerte/Cut-offs Wertepaare von Spezifität und Sensitivität eines diagnostischen Tests werden für alle möglichen Trennwerte innerhalb des Messbereiches abgetragen stellt Verhältnis zwischen Sensitivität 1- Spezifität dar (es ist üblich, nicht die Spezifität sondern 1-Spezifität abzutragen, da ursprünglich anhand von FP bzw. False Alarms gerechnet wurde) Idealfall Beschreibung des Bildes: Links unten o sehr hohe Trennwerte, man nimmt so gut wie niemanden an/ man klassifiziert niemanden als krank o Sensitivität sehr niedrig (man übersieht alles) o Spezifität sehr hoch (daher ist 1 minus der Spezifität 0; man stuft keinen Gesunden fälschlich als krank ein)

85 S e i t e 85 Rechts oben: o sehr niedrige Trennwerte, man nimmt so gut wie jeden an/ man klassifiziert alle als krank o Sensitivität sehr hoch (man übersieht nichts) o Spezifität ist 0 (und 1 minus der Spezifität ist 1, weil man alle Gesunden auch als krank einstuft) Idealfall: Kurve zieht links oben ganz hinauf, d. h. der Test gewinnt bei sinkenden Entscheidungsgrenzen an Sensitivität ohne an Spezifität zu verlieren, geht dann nach rechts bis ans rechte obere Ende (d.h. bei weiter sinkenden Grenzen verliert er an Spezifität ohne aber an Sensitivität zu verlieren). Kurve bildet dabei mit den Achsen ein Quadrat. In Praxis sinkt meist mit sinkenden Entscheidungsgrenzen die Spezifität und die Kurve geht daher nicht senkrecht nach oben, sondern weicht mehr oder weniger rasch nach rechts ab, bevor sie eine Sensitivität von 1 erreicht Wahl des Trennwertes, der für eigene Untersuchung hinsichtlich Sensitivität und Spezifität am geeignetsten. Problem bei Festlegung kritischer Trennwerte: es gibt keine eindeutige Lösung! bei methodischer Berechnung des besten Trennwertes müssen zusätzlich die einzelnen Ausgänge und Fehlermöglichkeiten bewertet werden Festlegung von Trennwerten nicht allein wissenschaftlich begründbar, sondern auch Berücksichtigung persönlicher, sozialer, ökonomischer u. praktischer Aspekte Zusammenhang mit Fairnessproblematik Nutzenerwägungen Institutionelle/individuelle Entscheidungen werden getroffen, weil man sich durch richtige Entscheidung Gewinn erhofft und durch falsche Entscheidung Verlust vermeiden will Auseinandersetzung mit Frage, wie gewinnbringend der Einsatz z.b. eines Auswahlverfahrens für Unternehmen ist Ist Verfahren nützlich? Erweiterung der psychologischen Diagnostik um ökonomische Dimension Generelle Aspekte (gehen in Nutzenformeln ein): o Validität (Güte einer Entscheidung hängt oft von Güte der Vorhersage ab) o Basisrate o Selektionsquote (bei extrem hoher oder geringer Selektionsquote kann selbst Einsatz eines hochvaliden Tests keinen Nutzen bringen) o erwarteter Nutzen eines Individuums im Kriterium o Streuung im Kriterium ( z.b. wie groß sind Unterschiede zw. guten und schlechten Mitarbeitern?) o Entwicklungs- und Durchführungskosten des Verfahrens o Anzahl der Durchführungen und Individuen Entwicklung einer Nutzenfunktion (Cronbach & Gleser) dient der Bestimmung des Gesamtnutzen eine Entscheidungsstrategie; Vorgehen: 1. notwendige Voraussetzung eine Nutzenfunktion: Strategiematrix o in ihr sind die Regeln festgehalten sind, nach denen auf Basis diagnostischer Informationen Entscheidungen getroffen werden sollen o Werte dieser Matrix geben Wahrscheinlichkeiten an, mit der ein Proband von dem Information x r vorliegt, der Behandlung t zugeführt wird: p(t x r )

86 S e i t e 86 o Strategiematrix: 2. Verknüpfung zwischen vorgenommener Behandlung und Ergebnis (=Erfolg im Kriterium) wird in Validitätsmatrix festgehalten o Werte dieser Matrix geben Wahrscheinlichkeiten dafür an, dass ein Proband mit x r und der Behandlung t den Kriteriumswert c r erlangt: p(c x r,t ) o Kriteriumswerte können dichotom (erfolgreich/nicht erfolgreich einfachster Fall), oder auch kontinuierlich abgestuft sein o Validitätsmatrix: Beispiel einer Validitätsmatrix für Behandlung t 1 (Annahme) für jede Behandlung müsste eine Validitätsmatrix berechnet werden 3. Dann wird jeder Kriteriumsklasse C ein Nutzenvektor e c und jeder Informationsklasse ein Kostenvektor c c zugeordnet o Nutzen: Wert, der sich bei jeder Stufe des Kriteriums für auslesende Institution ergibt (Beispiel: Wert in für erfolgreiche Person, für mäßig erfolgreiche Person, für Versager ) o Kosten: Aufwendungen zur Gewinnung der jeweiligen Information o Nutzen und Kosten müssen auf der gleichen Skala abgetragen sein und mindestens Intervallskalenniveau aufweisen (bei Geld z.b. erfüllt) 4. Eintragungen aus Strategie- und Validitätsmatrix und Werte des Kosten- und Nutzenvektors werden zur Nutzenberechnung in Nutzenfunktion von Cronbach & Gleser eingesetzt Nettonutzen Formel von Cronbach & Gleser kann zur Berechnung des Nettonutzens einer Entscheidungsstrategie verwendet werden hierzu werden Kosten und Nutzen mit der Zahl der untersuchten Probanden multipliziert Wenn für Informations- und Kriteriumskategorien Kontinuitätsmaßnahmen gemacht, konstante Kosten für alle Probanden unterstellt und eine lineare Beziehung zwischen Prädiktoren und Nutzen angenommen werden, geht das Modell von Cronbach & Gleser in das von Brodgen über:

87 S e i t e 87 Nutzenformel von Brodgen Andere Nutzenmodelle A-priori-Nutzen: Personen werden aus Grundgesamtheit durch Zufall ausgewählt Netto-Nutzen: Netto-Nutzen pro untersuchter Person ( per man tested ) ergibt sich, wenn errechneter Nettonutzen durch die Anzahl der Probanden N geteilt wird neuere Modelle berücksichtigen u.a. Zinsen, Zeitfaktor, Einfluss von Gewinnsteuern etc. anderer Ansatz: o durchschnittlicher Wert jedes unselbstständig Beschäftigten wird auf festgesetzt o bei Annahme von nur 5 % Leistungssteigerung durch psychologische Diagnostik (relativ leicht zu erreichen) jährlicher Gewinn von o bei 10-jähriger Anstellung in gleicher Arbeitsstelle Nutzen für jeden psychologisch ausgewählten Mitarbeiter Investitionen und Kosten für Einstellung des/der Psychologen dennoch erheblicher Netto-Übersschuss! Bewertung der Nutzenmodelle - Voraussetzung des linearen Zusammenhangs zwischen Prädiktor und Nutzen (wie bei Brodgen gefordert) oft nicht gegeben (z.b. Regressionsgerade steigt erst ab einem bestimmten Punkt sprunghaft an, umgekehrt U-förmige Regressionslinie durch Über- oder Unterforderung ) - konkrete Ermittlung relevanter Parameter schwierig und mit Unsicherheit behaftet, daher handelt es sich zumindest teilweise nur um scheinbaren Gewinn an Genauigkeit durch Anwendung von Nutzenformeln o z.b. schwierig, Werte für Validitätsmatrizen zu erhalten, da Personen eigentlich zufällig auf Treatments aufgeteilt und längsschnittlich untersucht werden müssten, um Erfolgsraten adäquat zu bestimmen; es darf vorher keine Selektion durch eine Entscheidungsstrategie stattfinden - angemessene Berücksichtigung individueller Kosten und Nutzen fehlt; individuelle Verluste müssten zusätzlich als gesellschaftliche Kosten miteinbezogen werden (z.b. Versorgung durch Staat, wenn eigene Versorgung nicht möglich) - Bestimmung der Geldwertäquivalente: - Verlust bei falscher Ablehnung/Annahme schwierig zu bestimmen:

88 S e i t e 88 einfachster Ansatz: Abgelehnter Bewerber hat Nutzen = 0, da kein weiterer Kontakt mit der Institution eigentlich müsste aber auch dadurch entgangener Gewinn (Opportunitätskosten) berücksichtigt werden + Kosten können relativ leicht bestimmt werden (Ausgaben für Test, Administration und Auswertung des Tests) + Berechnung der Nutzenwerte bei elementaren Leistungen (z.b. Stückzahl bei Akkordarbeit) relativ einfach, aber auch bei komplexen Tätigkeiten möglich + Nutzenbestimmung kann erhebliche Einsparungen leisten (z.b. optimale Platzierung von Personen auf Arbeitsplätze auf unterschiedlichen Beschäftigungshierarchiebenen bessere Produktivität; Kostensenkung durch Psychotherapie kostet zwar, aber weniger als z.b. stationärer Aufenthalt, Arbeitsausfall etc.) Regression 1. Einfache lineare Regression Vorhersage des Kriteriumswertes anhand eines Prädiktors lineare Beziehung: einfachste Beziehung zwischen 2 intervallskalierten Variablen graphische Darstellung Gerade; allgemeine Geradengleichung: y a b x y: Wert auf Ordinate (Kriterium) a: Konstante, y-achsenabschnitt b: Steigung, Gewicht (positiv, negativ oder 0) x: Werte auf Abzisse (Prädiktor) je größer (der Betrag von) b bzw. die Steigung, desto stärker der Zusammenhang zwischen x und y bei SPSS: Kriterium = abhängige Variable, Prädiktor = unabhängige Variable 2. Nonlineare Regressionsmodelle Vorhersage des Kriteriumswertes anhand eines Prädiktors a) quadratisch oder exponentiell, z.b. Vergessenkurve b) parabolischer oder kubischer Zusammenhang, z.b. Yerkes-Dodson-Regel

89 S e i t e 89 c) funktionaler Zusammenhang d) logarithmischer Zusammenhang, z.b. Leistung, die anfangs stark ansteigt und dann abflacht 3. Multiple lineare Regression Vorhersage des Kriteriumswertes aufgrund zweier oder mehrerer Prädiktoren y a b 1 x1 b2 x2 x 1 : Wert Prädiktor 1 x 2 : Wert Prädiktor 2 b 1 : Steigung Prädiktor 1 b 2 : Steigung Prädiktor 2 Graphische Darstellung für zwei Prädiktoren: Ebene (siehe Bild) bei mehr als zwei Prädiktoren ist keine graphische Darstellung mehr möglich Durchführung: o R = multipler Korrelationskoeffizient o R entspricht der Produkt-Moment- Korrelation zwischen den eigentlichen (gemessenen) Werte und den durch die Regressionsgleichung vorhergesagten (geschätzten) Werten o wenn R = 1 perfekte Vorhersage o wenn R = 0 Zufallsniveau o Beispiel: Multiple Korrelation zwischen durch Schulnoten und Gedächtnis vorhergesagten Intelligenzwerten und gemessenen Intelligenzwerten bei SPSS: o es stehen so viele Modelle im Output, wie man Prädiktoren hat o Im 1. Modell wird nur Vorhersage durch den 1. Prädiktor geprüft o Im 2. Modell wird Vorhersage durch 1. und 2. Prädiktor geprüft, es wird geprüft, ob durch Hinzunahme des 2. Prädiktors signifikant mehr Varianz aufgeklärt (höhere multiple Korrelation R) werden kann, als durch den 1. Prädiktor allein liefert Prädiktor 2 inkrementelle Varianz? Regression bei invariantem Kriterium: (z.b. alle Vpn haben Wert 3 im Kriterium) SPSS kann zwar b berechnen, die multiple Korrelation kann aber nicht berechnet werden, da aufgrund mangelnder Varianz durch Null geteilt werden müsste (Berechnung möglich, wenn man statt Wert 3 Wert 3, einsetzt!) Vorhersage umso besser, je näher Punkte um die Regressionsgerade liegen, da dann mehr Varianz aufgeklärt wird

90 S e i t e 90 Probleme und Differenzierungen von Prognosen geht hauptsächlich um die Beeinträchtigung der Validität durch verschiedene Faktoren Kontextuale Faktoren und technische Verbesserungen Konformitätsdruck/Situativer Druck und Verhaltensvariabilität Uneindeutige Situationen erlauben Personen mehrere Handlungsalternativen o schwache Situationen geringer Konformitätsdruck o z.b. Kleidungsstil im Alltag o geringer situativer Druck führt zu Verhaltensvariabilität individuelle Unterschiede in Häufigkeit, Intensität und Stil des Verhaltens zeigen sich Bestimmte Situationen engen Verhaltensspielraum ein o starke Situationen hoher Konformitätsdruck (positiv oder negativ) o z.b. rote Ampel, Freibad, Gottesdienst o hoher situativer Druck führt zu Verhaltenskonformität traitgeleitete individuelle Verhaltensunterschiede verschwinden individuelle Variabilität verschwindet und kann daher nicht mit Testmaßen aufgedeckt werden weniger Varianz im Verhalten/Prädiktorwerten führt zu weniger guten Vorhersagen Berücksichtigung individueller Perzeptionen und Kognitionen: auch starke Situationen können bei verschiedenen Personen unterschiedlich aufgefasst werden, z.b. wenn diese unterschiedliche Erwartungen bzgl. Handlungskonsequenzen haben Eigenschaftstheoretische Ansätze erfordern Situationen, die schwach / uneindeutig strukturiert sind und somit unterschiedliche Bedeutung für Vpn hat o Forderung gilt für Erhebung von Prädiktor- und Kriteriumswerten (Kriterium: z.b. Verhalten in bestimmter Situation) o nur so macht Verhaltensvorhersage bzw. Varianzaufklärung Sinn o Ausgenommen: Leistungsbereich hier ist bessere Darstellung nicht möglich, es wird immer das Maximum abgefragt o Problem im Persönlichkeitsbereich: soziale Erwünschtheit Beispiele: Monson et al. (1982a) o Verhaltensbeobachtung in 3 Situationen Situation 1: hoher Druck introvertiertes Verhalten zu zeigen Situation 2: hoher Druck extravertiertes Verhalten zu zeigen Situation 3: keine Verhaltenskonformität induziert o Zusammenhänge zwischen Selbstbericht (vor Experiment mit Fragebogen erhoben) und Experteneinschätzung sind in der neutralen Situation signifikant höher (r =.56) als in den anderen Situationen (r =.18 bzw. r=.38), da in Situation 1 und 2 zwangsbedingt verminderte Kriteriumsstreuung Situation kann so gestaltet werden, dass sich Dispositionen in voller Bandbreite zeigen Vorhersage in neutraler Situation sehr viel besser möglich Projektive Tests: individuelles, nichtkonformes Verhalten wird angeregt Konkurrenz- bzw. Auslesesituation: konformes Verhalten wird angeregt hoher Druck auf soziale erwünschte Antworten, Testwerte daher unbrauchbar Möglichkeit zur Reduktion dieser Problematik Aggregation von Daten über Situationen (mehrfaches Messen führt zu Ausgleich starker und schwacher Situationen, Einfluss der Situation mittelt sich raus, es ergibt sich ein reinerer Dispositionsindikator)

91 S e i t e 91 Aggregation von Maßen Epstein: o Die Vorhersage einzelner Verhaltensakte gelingt weniger gut, die Zusammenhänge nach Aggregation fallen viel höher aus. o Die Möglichkeit einer Verhaltensvorhersage mithilfe einer Persönlichkeitseigenschaft verbessert sich, wenn das interessierende Verhalten oder Erleben (= Kriterium) wiederholt gemessen wird und über die verschiedenen Messzeitpunkte aggregiert wird (d.h. wenn statt des einmaligen momentanen Verhaltens und Erlebens das typische oder durchschnittliche individuelle Verhalten und Erleben vorhergesagt wird). Aggregation = Reliabilitätsverbesserung auf Kriteriumsseite Testverlängerung = Reliabilitätsverbesserung auf Prädiktorenseite Reliabilitätserhöhung Validitätserhöhung Aggregation auf mehrere Arten möglich: o Aggregation über occasions : Mittelung desselben (prinzipiell) Verhaltens über mehrere Beobachtungszeitpunkte hinweg o Aggregation über modes : Zusammenfassen von single acts (einzelne selbst- oder fremdeingeschätzte Verhaltensweisen) zu multiple referents (durch mehrere Indikatoren repräsentierte Traitmaße) single acts korrelieren aufgrund geringer Stabilität und hoher Spezifität nur gering miteinander, aber hoch mit dem Aggregat anderer für das Konstrukt einschlägiger Verhaltensweisen bewirkt nicht nur Reliabilitätssteigerung, sondern auch Erhöhung der Heterogenität und inhaltlichen Breite höhere Validität und transsituative Verhaltenskonsistenzen o Aggregation über Situationen: Erhöhung der transsituativen Konsistenz nur sinnvoll, wenn das Durchschnittsverhalten in einer Klasse ähnlicher Verhaltensweisen interessiert (hier kann durch Reduktion des Messfehlers Vorhersagegenauigkeit erhöht werden) Wenn Reaktion einer Vp in spezifischen Situationen interessiert, verdeckt Aggregation eher situationsspezifische Varianzanteile Beispiel: Borkenau et al. (2004) Vpn müssen in 15 verschiedenen Situationen bestimmte Aufgaben erfüllen (z.b. Witz erzählen), werden dabei auf Video aufgezeichnet bearbeiten danach NEO-FFI (Persönlichkeitstest) sowie APM und LPS (Intelligenztests) Geschulte Experten schätzen Persönlichkeitsfaktoren und Intelligenz der Vpn jeweils in einzelnen Situationen ein Einschätzungen der Experten werden über verschiedene Anzahlen von Situationen aggregiert (kleinstes Aggregat: 1 Situation, größtes: 15 Situationen) Aggregate werden mit den Fragebogendaten korreliert Ergebnis: je mehr Situationen aggregiert werden, desto höher werden die Korrelationen für alle Persönlichkeitsfaktoren und die Intelligenz, ab bestimmter Anzahl von Situationen keine/geringe Steigerung Erhöhung der Validität durch Selbstaufmerksamkeit Induktion von Selbstaufmerksamkeit führt zu valideren Angaben in Fragebögen Studie von Pryor et al. (1977) o Design: Ausfüllen Soziabilitäts-Fragebogens vor/ohne Spiegel Variation des Ausmaßes selbstzentrierter Aufmerksamkeit

92 S e i t e 92 o o o o Kriterium (Soziabilität) wurde als Kombination aus Fremdrating und Verhaltensbefunden (Anzahl der in Warteraum gesprochenen Worte) erhoben Fragebogendaten und Kriteriumswerte wurden miteinander korreliert Ergebnis: Starke Unterschiede zwischen üblicher Bedingung (r =.16) und Spiegelbedingung (r =.62) Selbstaufmerksamkeit erhöht Validität von Selbstberichten über Soziabilität Induktion selbstzentrierter Aufmerksamkeit kann bei inhaltsvalidem Messverfahren Vorhersagevalidität eines Verfahrens erhöhen Hinweise darauf, dass häufig gegebene Instruktion, bei Beantwortung von Fragen nicht lange nachzudenken, kontraproduktiv ist o scheinbar können gerade sozial erwünschte Antworten sehr schnell gegeben werden o reflektive Gedanken über Persönlichkeit werden eher unterbunden Beeinträchtigung der Validität der Selbstbeschreibung o geeignete situative Rahmenbedingungen für Vp schaffen, damit diese sich selbst möglichst adäquat beschreiben kann (einführendes Gespräch, ausführliche Exploration ) Validität ohne Stabilität Bei der Erfassung von States (meist vermutlich auf eine einzige Person bezogen) ist Retestung kein angemessener Zugang zur Bestimmung der Reliabilität bzw. Stabilität, da diese sich gerade durch Instabilität auszeichnen und dies dem Anspruch, sensitiv auf Veränderungen zu reagieren entgegensteht (da nicht nur kleine Schwankungen, sondern starke Veränderungen bei States müsste sich ja auf die Retest-Reliabilität stark negativ auswirken) gilt für alle Fälle, in denen der wahre Wert Schwankungen aufweist (z.b. auch bei Aufmerksamkeit) hier versagen herkömmliche Reliabilitätsschätzungen, die den Anteil wahrer an der Messwertevarianz bestimmen und es müssen andere Indizes gewählt werden (z.b. Amplitude von Schwankungen um Mittelwert) Moderation Def.: Moderatorvariablen beschreiben interindividuelle Differenzen in der Vorhersagbarkeit eines Kriteriums und korrelieren daher mit der Validität eines Tests Szenarien denkbar, in denen für verschiedene Individuen verschiedene Vorhersagen getroffen werden müssen Variablen, die interindividuelle Differenzen in der Voraussagbarkeit eines Kriteriums erklären, werden konventionell als Moderatorvariablen bezeichnet Fähigkeit eines Prädiktors zur Vorhersage eines Kriteriums kann also von einer dritten Variable beeinflusst sein Moderatorvariablen sind mit der Validität eines Tests (Zusammenhang von Prädiktor und Kriterium) korreliert. Korrelationen des Moderators mit Prädiktor oder Kriterium müssen nicht zwingendermaßen bestehen.

93 S e i t e 93 Variable z hat den Wert 0 r = 0, da insensitiv für z Variable z hat den Wert 1 Die in den Substichproben bestehenden Zusammenhänge können nicht entdeckt werden, wenn die Variable z (Moderator) nicht berücksichtigt wird Innerhalb von größeren Personengruppen kann es Substichproben mit ganz unterschiedlicher Vorhersagbarkeit geben Klassisches Beispiel: Frederiksen und Melville (1954) Vorhersage des Schulerfolges bei rigiden und flexiblen Studenten durch Interessenstests Prädiktor: Interesse; Kriterium: Leistung/Note zwanghafte Studenten: setzen sich Interessenunabhängig überall gleich stark ein nichtzwanghafte Studenten: lernen in Abhängigkeit von ihren Interessen Ergebnis: Leistungen nichtzwanghafter Studenten lassen sich viel besser aus Interessenstests vorhersagen als die zwanghafter Studenten Suche nach Moderatoreffekten (hypothesengeleitet Was könnte Zusammenhang moderieren?) 1. Fraktionierungsmethode Überprüft, ob in moderatorspezifischen Subgruppen unterschiedliche Validitäten bestehen Vorgehen: Gesamtstichprobe wird entsprechend der potentiellen Moderatorvariable aufgeteilt (meist 2-3 Subgruppen; müssen nicht unbedingt gleich groß sein) Bestimmung der Validitätskoeffizienten (Korrelation zwischen Prädiktor und Kriterium) für alle Subgruppen Vergleich der erhaltenen Validitätskoeffizienten keine Unterschiede: Die Variable, entsprechend der die Subgruppen gebildet wurden, hat keinen moderierenden Effekt signifikante Unterschiede: Die Variable, entsprechend der die Subgruppen gebildet wurden, hat einen moderierenden Effekt Methode v.a. dann geeignet, wenn die Validität eines Tests in Gruppen bestimmt werden soll, die in der Realität in alternativer (z.b. Geschlecht) oder mehrklassig diskreter Form vorliegen (z.b. ethnische Abstammung)

94 S e i t e 94 Probleme der Fraktionierungsmethode: hat einige Nachteile, wenn potentieller Moderator in kontinuierlicher und nicht in alternativer o. mehrklassig diskreter Form vorliegt (z.b. Werte in Test, Schulnoten): Will man kontinuierlich-quantitative Variablen in (viele) separate Teilgruppen untergliedern, vergrößert sich der Stichprobenfehler Die zufallskritische Absicherung der Unterschiede zwischen den Validitäten in den (dann relativ kleinen) Stichproben wird erschwert (Unterscheide kleiner Stichproben werden weniger schnell signifikant) Trennwert: o Teilung der Gruppen vermutlich willkürlich (z.b. mittels Mediansplit) entlang des Wertekontinuums unwahrscheinlich, dass sich zugrunde liegende Prozesse nach Überschreitung des Splits qualitativ unterscheiden o Trennwert hängt auch davon ab, welche Personen mit welchen Merkmalsausprägungen in der SP aufgenommen wurden Schwierig, aus den wenigen ermittelten Korrelationen der einzelnen Subgruppen exakte Beziehung zwischen Moderatorvariable und Validität des Tests zu formulieren, z.b. in Form von mathematischer Gleichung bei kontinuierlicher Variable ist regressionsanalytisches Modell besser geeignet 2. Regressionsanalytisches Modell/Moderierte Regression (Saunders) Zentraler Gedanke: Die Steigung (b) und Konstante (a) der einfachen linearen Regression wird mithilfe der Moderatorvariablen vorhergesagt Bei Hinzunahme eines weiteren Prädiktors (zu einem bestehenden Prädiktor) entsteht eine Regressionsfläche bei multipler Regression ist Fläche eben bei moderierte Regression entsteht Falte, da sich in Abhängigkeit von der Ausprägung der Moderatorvariablen Z andere Zusammenhänge zwischen Prädiktor und Kriterium und somit andere Steigungen b der Regressionsgeraden ergeben jeder Prädiktor kann gleichzeitig Moderator sein und umgekehrt Schaubild: 3 Dimensionen X = Prädiktor Y = Kriterium Z = Moderator

95 S e i t e 95 Mathematische/räumliche Darstellung des Modells: 1. Ausgangspunkt der Parameterschätzung ist Formel der linearen Regression y ' a b x 2. Die Steigungen der Regressionsgeraden (im Bild AB, CD, EF etc.) stellen eine lineare Funktion des Moderators Z dar b ' d f z auf jeder Stufe von Z ergibt sich eine andere Steigung b f ist Ausmaß der Änderung von b durch Änderung von Z 3. Aufgrund unterschiedlicher Steigungen ergeben sich unterschiedliche Konstanten, da durch Drehung der Regressionsgerade für jeden Z-Wert andere Schnittpunkte mit Y ergeben a ' c e z jedem b entspricht ein bestimmtes a 4. b und a, die von Z abhängig sind, werden in die Formel der linearen Regression eingesetzt y ' ( c e z) ( d f z) x 5. Auflösung der Klammern ergibt die Formel der moderierten Regression, die für die Entscheidung, ob ein Moderator vorliegt oder nicht, wichtig ist y ' c d x e z f x z entspricht herkömmlicher Regressionsgleichung für Vorhersage auf Basis von 3 Prädiktoren (Moderator wird als kontinuierliche Variable in Regressionsanalyse eingegeben) Zu den zwei Prädiktoren X und Z Y = Kriterium c = Konstante, neuer y-achsenabschnitt d = Gewicht Prädiktor X = Prädiktor e = Gewicht Moderator Z = Moderator f = Gewicht des Interaktionsterms X Z = Interaktionsterm kommt ein 3. Prädiktor hinzu: die Kreuzpunkte zwischen X und Z Berechnung des Interaktionsterms durch Multiplikation der Prädiktor- und Moderatorvariablen für jede einzelne Versuchsperson d signifikant: Haupteffekt des Prädiktors e signifikant: Haupteffekt des Moderators hier nicht so wichtig, da diese Haupteffekte aussagen würden, ob sich das Kriterium hinreichend genau aus Prädiktor oder Moderator vorhersagen lässt Entscheidend: f signifikant (Potentieller Moderator wirkt sich signifikant aus) Man will wissen, ob die Vorhersage des Kriteriums Y (z.b. akademische Leistung) durch den Prädiktor X (z.b. Interesse) in Abhängigkeit des Moderators Z (z.b. Rigidität) variiert ( Interaktionseffekt)

96 S e i t e 96 Wenn die multiple Korrelation zur Vorhersage des Kriteriums aus X und Z durch Hinzunahme des Terms XZ signifikant ansteigt, f also signifikant wird, kann Z als Moderator angenommen werden Beispiele für Moderation Validität von Fremdeinschätzungen, FB (gemessen am Selbstbericht, SB) ist für Personen höher, die ihr eigenschaftsrelevantes Verhalten als gut beobachtbar bezeichnen gut beobachtbares Verhalten kann gut eingeschätzt werden Für Personen mit hohen Punktwerten in Lügenskalen kann von geringerer Validität ihrer Fragebogenbeantwortung ausgegangen werden Geteilte und Spezifische Varianz Normalerweise wird besonders viel Varianz im Kriterium aufgeklärt, wenn Prädiktoren hoch mit dem Kriterium korrelieren (große Anteile a und b) aber untereinander gering korrelieren Mittels schrittweiser multipler Regression kann überprüft werden, ob eine Variable über eine andere Variable hinaus Varianz aufklären kann (= inkrementelle Validität) Diese Betrachtung ignoriert aber Frage, wie viel Varianz sich beide Prädiktoren im Kriterium teilen. Eine derartige Aussage kann jedoch mithilfe der Kommunalitätenanalyse geleistet werden a: spezifische Varianz, die A aufklären kann b: spezifische Varianz, die B aufklären kann ab: geteilte Varianz, die A und B aufklären Partialkorrelation und Part-/Semipartialkorrelation Partialkorrelation: Zusammenhang zweier Variablen, bei dem der Einfluss einer Drittvariablen komplett eliminiert wurde (Anteile von A werden aus B und C heraus gerechnet) Zusammenhang mit Suppression: Z.B. Herausrechnen von Suppressor aus Prädiktor und Kriterium möglich Part-/Semipartialkorrelation: Zusammenhang zweier Variablen, die dem der Einfluss einer Drittvariablen nur aus einer der beiden Variablen eliminiert wird (Anteile von A werden nur aus C heraus gerechnet) Zusammenhang mit Suppression: Partkorrelation ist immer dann größer als Korrelation zwischen Prädiktor und Kriterium (Validität), wenn die Korrelation zwischen Prädiktor und Suppressor ungleich Null ist (der Suppressor also etwas eliminieren kann) Unter idealen Bedingungen (r s,c = 0) wird Partialkorrelation zur Partkorrelation (Suppressor wird aus Prädiktor herausgerechnet, dann Prädiktor mit Kriterium korreliert)

97 S e i t e 97 Unter suboptimalen Bedingungen (r sc ist ungleich Null) resultiert bei Partkorrelation etwas höherer Koeffizient als bei Partialkorrelation, weil hier zusätzlich die Korrelation zwischen Suppressor und Kriterium berücksichtigt wird (in Formel) Wenn ideale Bedingungen verletzt sind, liefert multiple Korrelation höheren Validitätskoeffizienten als Part- oder Partialkorrelation Kommunalitätenanalyse Problem: Die Prüfung, ob B inkrementelle Validität über A hat, ignoriert typischerweise die Komponente ab Kommunalitätenanalyse ermöglicht es, gemeinsame (ab) und spezifische (a und b) Varianzanteile festzustellen Vorgehen: 1. Durchführung einer multiplen Regression: R 2 = a + b + ab (wie viel Varianz teilen sich alle Variablen zusammen?) 2. Semipartialkorrelation bei der B in A kontrolliert wird: r (C; A ohne B) 2 = a 3. Semipartialkorrelation bei der A in B kontrolliert wird: r (C; B ohne A) 2 = b 4. Bei Kenntnis von a und b kann ab so berechnet werden: ab = R 2 -a -b Beispiel: Klingbeil 2004 untersuchte Intelligenz und Fähigkeitsselbstkonzept als Prädiktoren der Mathematiknote bei 9-jährigen Grundschülern Von der erklärten Varianz in der Note gehen o 53% spezifisch auf Intelligenz o 19% spezifisch auf Fähigkeitsselbstkonzept o 28% auf geteilte Varianz beider Prädiktoren zurück geringes Fähigkeitsselbstkonzept kann zwar durch hohe Intelligenz ausgeglichen werden im Umkehrschluss ist dies bei geringer Intelligenz und hohem Fähigkeitsselbstkonzept aber nicht der Fall Suppression Def.: Suppressorvariablen können die Vorhersage/Validität verbessern, indem sie irrelevante Varianz in den Prädiktoren unterdrücken Normalerweise führt Kombination mehrerer Prädiktoren zu Validitätserhöhung (z.b. Testbatterie mit mehreren Subskalen), v.a. dann, wenn Prädiktoren möglichst hoch mit dem Kriterium, aber möglichst gering miteinander korrelieren jeder Prädiktor deckt so einen anderen Aspekt des Kriteriums ab Validitätsverbesserung kann aber auch durch Gegenteil erreicht werden: S P K Aufnahme von Variablen in Testbatterie, die mit dem Kriterium niedrig, aber hoch mit den anderen Prädiktoren korrelieren (Supressoren) paradox: Validitätsteigerung trotz/wegen geringer Korrelation mit Kriterium! Idealfall: Nullkorrelation zwischen Suppressor und Kriterium (wenn keine Nullkorrelation vorliegt, rechnet man relevante Varianz heraus, die eigentlich zur Vorhersage des Kriteriums benötigt wird Durch einen/mehrere Supressoren werden die für die Vorhersage des Kriteriums irrelevanten Varianzanteile der Prädiktoren gebunden bzw. unterdrückt

98 S e i t e 98 Klassisches Beispiel: Horst (1966) Vorhersage des Erfolgs in Ausbildungsprogramm für Piloten Testbatterie erfasste: 1. mechanische Fähigkeit (M) 2. numerische Fähigkeit (N) 3. räumliche Fähigkeit (R) 4. verbale Fähigkeit (V) korrelieren positiv mit Kriterium korreliert nicht mit Kriterium, aber mit den anderen 3 Skalen hohe Ausprägung in V begünstigt Leistung in M, N und R (besseres Verständnis der Testinstruktion, bessere Lösungsprinzipien etc.) Die durch V verursachten Varianzanteile sollten also eliminiert werden, da hohe Punktwerte in V nicht zur Vorhersage des Erfolgs geeignet sind, sondern nur hohe Punktwerte in M, N und R Abzug der Varianz, die auf V zurückgeht (negatives -Gewicht in Regressionsgleichung) führt trotz Nullkorrelation von V mit Trainingserfolg zu erheblicher Validitätssteigerung V ist hier ein hilfreicher Supressor, da er inkrementell zur Varianzaufklärung beiträgt (Aufnahme von V führt zu signifikant höherer Varianzaufklärung) Weiteres Beispiel: Kriterium = Erfolg im Berufsleben Prädiktor = Examensnote, diese setzt sich aus Fachwissen und Prüfungsangst zusammen Prüfungsangst ist aber für beruflichen Erfolg irrelevant Suppressorvariable (z.b. Test), die genau die Prüfungsangst abgreift nach Bereinigung steigt Korrelation zwischen Examensnote und Berufserfolg Veranschaulichung des Suppressionseffekts Korrelationen beruhen auf gemeinsamen Elementen: c hat 16 Elemente, davon 7 gemeinsam mit Prädiktor (c-p) auf diese will man hinaus, da sie zur Vorhersage geeignet sind p hat auch 16 Elemente, von denen 9 für das Kriterium irrelevant sind (8x(p-s)+1p) s erklärt 8 der 9 für c irrelevanten p-elemente diese will man loswerden, da sie die Korrelation verunreinigen s selbst ist eigentlich für die Vorhersage von c irrelevant, da es keine gemeinsamen Elemente mit c hat s bindet aber diejenigen Anteile von p, die keine Kommunalität mit c zeigen Gewichtete s-variable wird hierzu von Prädiktorwerten abgezogen

99 S e i t e 99 Ausmaß der Validitätssteigerung durch Suppressor Validitätssteigerung abhängig von: Höhe Korrelation des Suppressors zu anderem/n Prädiktor/en ursprünglicher Prädiktor-Kriteriums- Korrelation (Validität) Zunahme an Validität (Y-Achse) als Funktion der Korrelation zwischen Suppressor und Prädiktor (X- Achse) sowie der Test-Kriteriums-Validitäten (Linien) je geringer die ursprüngliche Validität, desto stärker die Validitätszunahme je höher Korrelation zwischen Prädiktor und Kriterium, desto stärker Zunahme Erst bei sehr hohen Korrelationen zwischen P und S sind Zunahmen wirklich bedeutsam Fragen aus Vorlesung 1. Wie wird Suppressorvariable zur Erhöhung der Validität eingebracht? zwei Möglichkeiten: a. durch Herausrechnen des Suppressors b. Durch negatives -Gewicht in der Vorhersagegleichung 2. Bedeutet ein signifikates Beta-Gewicht nicht, dass die Variable, deren Gewicht signifikant wird (z.b. Suppressor), mit dem Kriterium korrelieren muss? Nein, da die Bestimmung der Signifikanz des Betagewichts jeder einzelnen Variablen in Abhängigkeit des Vorhandenseins der übrigen Variablen erfolgt Problem des Suppressorkonzeptes Hinzunahme eines weiteren Prädiktors ist viel effektiver als Suppressor: Um gleichen Effekt an Validitätszunahme zu erzielen, muss Suppressor 4 Mal so viel Varianz im Prädiktor erklären wie der neu hinzugenommene Prädiktor im Kriterium! wird daher in Empirie nicht so häufig angewendet Mediation Def.: Mediatorvariablen vermitteln den Einfluss, den ein Prädiktor auf ein Kriterium hat Mechanismus, durch den ein Prädiktor ein Kriterium beeinflusst Prädiktor verursacht Mediator, Mediator verursacht Kriterium Wann verursacht eine Variable eine andere? Drei Kriterien für Kausalität: Zusammenhang Keine Scheinkorrelation (Drittvariable, die nicht berücksichtigt wird, aber eine Korrelation zw. zwei anderen Variablen verursacht wird ihr Einfluss heraus gerechnet, besteht die Korrelation zw. den beiden Variablen nicht mehr) Richtung (Ursache muss dem Effekt vorausgehen) Bedeutung der Mediation Welche Bestandteile eines Treatments sind wirksam, welche nicht? Gibt es mehrere Mediatoren?

100 S e i t e 100 Generierung und Überprüfung von Theorien darüber, welche Variablen für einen Zusammenhang/eine Veränderung verantwortlich sind Planung einer Mediatoranalyse Auswahl von Mediatoren: Auswahl theoriebasiert Ideal: veränderbare Merkmale als Mediator Reliabilität des Messinstruments zur Erfassung des Mediators beachten Maximierung von Power: Je größer Prädiktor-Mediator-Zusammenhang, desto größer muss Stichprobe sein, um gleiche Power zu erhalten: N(1 r PM 2 ) = effektive Stichprobengröße; (r PM = Korr. Prädiktor-Mediator) (meint z.b. dass man effektiv nur 460 Personen getestet hat, obwohl man eigentlich 900 Vpn untersucht hat) Auswahl von Variablen als Mediator, die vergleichbare Zusammenhänge zu Prädiktor und Kriterium haben oder stärkere Zusammenhänge zum Kriterium als zum Prädiktor o Wenn der Mediator stärker mit dem Prädiktor korreliert als mit dem Kriterium, wird der Prädiktor zum Mediator immer die Variable, die stärker mit dem Kriterium korreliert, wird als Mediator angenommen Methode von Kenny: sehr große Stichproben nötig (N>500) oder sehr starker Mediatoreffekt Mediatoranalyse nach Baron und Kenny (Überprüfung von Mediatoreffekten) Nach Baron und Kenny (1986) liegt ein Mediatoreffekt vor, wenn folgenede Bedingungen erfüllt: (Es werden zur Überprüfung drei Regressionen berechnet) Schritt 1: Regression von Kriterium auf Prädiktor: Signifikanter Zusammenhang zwischen Prädiktor und Kriterium (Pfad a)? Schritt 2: Regression von Mediator auf Prädiktor: Signifikanter Zusammenhang zwischen Prädiktor und Mediator (Pfad b)? Schritt 3 und 4: Regression von Kriterium auf Mediator und Prädiktor: Signifikanter Zusammenhang zwischen Mediator und Kriterium (Pfad c) Pfad a nicht mehr signifikant wenn Pfad b und Pfad c kontrolliert Zusammenhang zwischen Prädiktor und Kriterium reduziert/ verschwindet, wenn Mediator in Modell aufgenommen wird Mediatoreffekt = Differenz in der Korrelation Prädiktor-Kriterium ohne Aufnahme des Mediators vs. mit Aufnahme des Mediators Vollständige Mediation: Nach Aufnahme des Mediators in die Analyse unterscheidet sich die Korrelation von Prädiktor und Kriterium nicht mehr signifikant von Null Varianz, die der Prädiktor im Kriterium erklären kann, wird komplett durch den Mediator erklärt Partielle Mediation: Nach Aufnahme des Mediators in die Analyse wird die Korrelation zwischen Prädiktor und Kriterium signifikant kleiner, aber ist noch signifikant von Null verschieden Varianz, die der Prädiktor im Kriterium erklären kann, wird teilweise durch den Mediator erklärt

101 S e i t e 101 Interpretation einer Mediatoranalyse Testung der Mediatoreffekte auf Signifikanz (Sobel-Test): Mediatoreffekt entspricht Produkt aus b und c Signifikanztest dieses Produkts Produkt aus b und c wird durch Standardfehler geteilt Wenn resultierender z-wert > 1,96 dann ist Effekt auf einem Niveau von.05 signifikant Ebenfalls zu berücksichtigen: Gibt es andere Modelle, die ebenfalls mit den Daten konsistent sind? Gibt es nicht berücksichtigte Variablen, die sowohl Mediator als auch Kriterium beeinflussen (z. B. soziale Erwünschtheit)? Beispiel 1: Intelligenzabbau im Alter Hohes Alter (Prädiktor) verursacht schlechtere Sensorik (Mediator), schlechtere Sensorik (Mediator) verursacht geringere Intelligenz (Kriterium) 1. Alter kann Intelligenz signifikant vorhersagen (Pfad a) 2. Alter kann Sensorik signifikant vorhersagen (Pfad b) 3. Bei der Kontrolle von Sensorik kann Intelligenz nicht mehr signifikant durch Alter vorhergesagt werden bei Kontrolle von Sensorik bricht der Zusammenhang zwischen Alter und Intelligenz zusammen (Pfad c und a) Intelligenzabbau im Alter ist durch Verlust von sensorischen Fähigkeiten vermittelt Beispiel 2: Erleben eines traumatischen Erlebnisses und PTBS Daten von Frasier (2003) Telefonbefragung zu traumatischen Erlebnissen und PTBS N=894, zufällig ausgesuchte Frauen Art des traumatischen Erlebnisses (direkt erlebt oder indirekt) hing signifikant zusammen mit Symptomen einer PTBS Ausgewählter Mediator: Schuldgefühle Hypothese: Personen, die das Ereignis selbst erlebt haben, geben eher sich selbst die Schuld Personen mit mehr Schuldgefühlen berichten mehr Symptome einer PTBS Interpretation: Schuldgefühle sind ein partieller Mediator des Zusammenhangs zwischen der Art des traumatischen Erlebnisses und Symptomen einer PTBS Keine Kontrolle anderer Faktoren, die einen Einfluss auf Schuldgefühle oder PTBS haben könnten (z. B. Neurotizismus) Messfehler im Mediator & Pfad a war größer als Pfad b reduzierte Power Unterschätzung des Einflusses des Mediators Alternative Modelle müssen noch ausgeschlossen werden Mediator enthält Implikationen für therapeutische Interventionen bei PTBS Bewertung Mediatoranalysen Mit der Mediatoranalyse können kausale Wirkmechanismen untersucht werden. Es soll die Frage nach distalen (= vorgelagerten) und proximalen (= nachgelagerten) Ursachen psychologischer Phänomene geklärt werden Vorgehen nach Baron und Kenny ist blindanalytisch theoretische Überlegungen werden nicht beachtet

102 S e i t e 102 Modell, das aus den Daten geschätzt wird, muss nicht unbedingt den Überlegungen des Forschers entsprechen. Kann die eigentlich als Prädiktor vorgesehene Variable mehr Varianz aufklären, als die eigentlich als Mediator vorgesehene Variable, so wird der Prädiktor als Mediator geschätzt Einen Ausweg aus dieser Problematik bieten lineare Strukturgleichungsmodelle, bei denen die Plausibilität verschiedener vorgegebener Modelle miteinander verglichen werden kann (vgl. Frazier, Tix & Barron, 2004) Abgrenzung Mediator- und Moderatorvariablen Moderator: Korrelationen des Moderators mit Prädiktor oder Kriterium müssen nicht zwingend bestehen Mediator: Korrelation Mediator-Prädiktor und Korrelation Mediator-Kriterium müssen signifikant sein Validitätsgeneralisierung (Form der Metaanalyse, die nur Validitätskoeffizienten berücksichtigt und keine anderen Kennwerte) Daten, die Validitätsstudien beinhalten sollten, um dieses Modell optimal nutzen zu können: Stichprobengröße Anteil/Grad der Varianzeinschränkung Reliabilität des Kriteriums Reliabilität des Tests Angemessene Arten der Reliabilitätskoeffizienten Komplette Benennung und Beschreibung der verwendeten Tests und/oder der verwendeten Subskalen Sinnhaftigkeit der Zusammenfassung von Forschungsbefunden In der Literatur finden sich viele (auch widersprüchliche) Forschungsbefunde (Werte für r zwischen Schulnoten und IQ-Test schwanken zwischen.15 u..80) Einen Überblick über Primärstudien zu gewinnen erfordert viel Aufwand Aggregation als Ausweg aus der Problematik Traditionelle Form der Verdichtung von Forschungsbefunden ist das narrative Review, in dem die wichtigsten Befunde zu einer Thematik besprochen werden In den 50/60ern dachte man, numerische Aggregation sei nicht sinnvoll, da Validität sehr situationsspezifisch, selbst wenn gleichartige Tests und Kriterien verwendet werden Heute wird die neuere Möglichkeit der numerischen Aggregation von Forschungsbefunden aber angewandt. Die einfachste Form ist die Ermittlung der mittleren Validität U.a. plädieren Schmidt und Hunter (1977) für numerische Aggregation, also für Validitätsgeneralisierung Grundidee der Validitätsgeneralisierung (Schmidt & Hunter, 1977) Hypothese bei Validitätsgeneralisierung: Die Varianz der wahren Testvaliditäten innerhalb spezifischer Prädiktor-Kriteriums-Kombinationen ist Null

103 S e i t e 103 Ein Test hat eine wahre Validität. Könnte man fehlerfrei messen, so sollten sich in allen Studien gleiche Validitäten ergeben!!! Unterschiede zwischen Studien gehen ausschließlich auf studienspezifische Störeinflüsse (=Artefakte) zurück. Daher entsteht in der Verteilung der Validitäten Streuung Werden die Artefakte aus den einzelnen Studien herausgerechnet, so sollten sich die Streuung reduzieren Besteht nach der Korrektur keine Streuung mehr, so kann die mittlere Validität als wahre Validität angenommen werden Schritte der Validitätsgeneralisierung 1. Studienrecherche Zusammenstellung möglichst vollständiger Stichprobe an Studien zu bestimmtem Thema 2. Korrektur statistischer Artefakte Kennwerte werden um die jeweils in den Studien vorhandenen Störeinflüsse korrigiert Arten statistischer Artefakte korrigierbar, 4. und 5. nicht 1. Reliabilität von Prädiktor und Kriterium (minderungskorrigierbar) 2. Größe der Stichprobe Gefahr des Stichprobenfehlers: bei kleiner SP große Wahrscheinlichkeit, ungeeignete VPn zu wählen und somit Varianzeinschränkung ( Formel zur Aufwertung des Validitätskoeffizienten auf repräsentative Breite) 3. Varianzeinschränkung in Prädiktor und Kriterium ( Formel zur Aufwertung des Validitätskoeffizienten auf repräsentative Breite) 4. Fehler bei Datenverarbeitung 5. Ausmaß der Kriterienkontamination Liegen die entsprechenden Kennwerte, die bereinigt werden sollen, nicht vor, müssen diese geschätzt werden. Wenn Schätzung nicht möglich Aussortieren Effekte der Artefaktkorrektur je stärker die Artefakte, desto größer der Effekt der Korrektur Streuung/Varianz der Validitätskoeffizienten: o reduziert sich durch Korrektur o ist trotzdem in der Regel auch nach der Korrektur numerisch nicht exakt Null Daher muss mittels eines sogenannten Homogenitätstests überprüft werden, ob in der korrigierten Verteilung noch bedeutsame Streuung besteht 3. Homogenitätstests überprüft Homogenität der korrigierten Kennwerteverteilung und somit die Aggregierbarkeit zwei Vorgehensweisen: 1. Homogenitätstest mittels χ2-verfahren: Mit dem Homogenitätstest wird überprüft, ob sich die Varianz der korrigierten Verteilung signifikant von Null unterscheidet 2. 75%-Regel:

104 S e i t e 104 Bei der Anwendung der 75%-Regel wir überprüft, ob sich die Streuung der Validitäten durch die Korrektur mindestens um 75% reduziert hat Homogenitätstest vs. 75%-Regel Der Homogenitätstest hat einen geringeren α-fehler (d.h. fälschliche Entscheidung zugunsten der Homogenitätsannahme) während die 75%-Regel einen geringeren β-fehler (d.h. fälschliche Ablehnung der Homogenitätsannahme) Die Entscheidung für eines der beiden Verfahren hängt davon ab, welcher Fehler eher in Kauf genommen werden soll Besteht nach der Korrektur keine bedeutsame Streuung mehr, so wird die mittlere korrigierte Validität als wahre Validität des Tests angenommen! Wenn nach der Korrektur noch erhebliche Varianz übrigbleibt (die Verteilung also nicht homogen ist), sucht man nach Moderatoren, die dafür verantwortlich sein könnten 4. Suche nach Moderatoren Das Übrigbleiben von Varianz könnte dadurch bedingt sein, dass inhomogene Studien zusammengefasst wurden. Um dies zu überprüfen, kann nach Moderatoren gesucht werden. Die Auswahl der Moderatorvariablen sollte dabei theoriegeleitet erfolgen. Die Studien mit den jeweiligen Validitätskoeffizienten können bei Vorliegen eines Moderators in unterschiedliche Substichproben aufgeteilt werden Unterscheiden sich die mittleren korrigierten Validitäten und zeigt sich Homogenität innerhalb der Substichproben, kann ein Moderator angenommen werden die jeweiligen Substichproben weisen eine geringere Streuung der Validitätskoeffizienten auf als die Gesamtstichprobe der Studien Betrachtet wird dann nur eine bestimmte Stufe des Moderators, da hier die Studien bzgl. des Validitätskoeffizienten relativ homogen sein sollten Liegt Homogenität jeweils auf der Moderatorstufe vor, dann kann angenommen werden, dass die mittlere Validität auf der Moderatorstufe der wahren Validität auf dieser Moderatorstufe entspricht Wenn kein Moderatoreffekt vorliegt und somit keine Unterteilung in Substichproben möglich ist, wird geprüft, ob sich die mittlere korrigierte Validität der Gesamtstichprobe signifikant von Null unterscheidet 5. Signifikanzprüfung mittels Konfidenzintervall Aus Mittelwert (mittlere korrigierte Korrelation = mittlere Validität) kann das 95%/99%- Konfidenzintervall berechnet werden: Wenn die Null nicht im Konfidenzintervall liegt, kann mit 95%-iger Wahrscheinlichkeit angenommen werden, dass die wahre Validität größer Null ist Wenn die Null im Konfidenzintervall liegt, kann nicht mit 95%-iger Wahrscheinlichkeit angenommen werden, dass die wahre Validität größer Null ist Je höher die mittlere Validität, desto unwahrscheinlicher ist es, dass die Null im Konfidenzintervall liegt, da dieses weiter von der Null entfernt ist Je geringer die Streuung ist, desto unwahrscheinlicher ist es, dass die Null in dem Konfidenzintervall liegt, da dieses dann kleiner ist Fazit: ist die mittlere korrigierte Korrelation von Null verschieden, kann die wahre Validität zwar nicht exakt bestimmt werden, aber auf jeden Fall größer Null angenommen werden d.h. sie hat einen prädiktiven Wert

105 S e i t e 105 ist die mittlere korrigierte Korrelation nicht von Null verschieden, dann heißt das, dass die Fehlervarianz durch Situationsspezifika nicht eliminiert werden kann und somit keine Generalisierung möglich ist Beispiel: Moderatoreffekt in Validitätsgeneralisierung (Wiesner & Cronshaw; 1988) Metaanalyse der prädiktiven Validität verschiedener Interviewarten Unabhängige Variablen: o strukturierte vs. unstrukturierte Vorstellungsgespräche strukturiert: Interviewer mit Leitfaden: Reihenfolge, Dauer des Gesprächs, Skalen zur Bewertung o ein vs. mehrere Interviewer alle Studien: r =.47 (mittlere korrigierte Validität) [0.08; 1.00] (Validität generalisierbar, 0 nicht im Intervall daher signifikant) o bei einer durch Artefakte aufgeklärten Varianz von 14% o Validitätskoeffizienten sind also nicht homogen, da keine Verminderung um 75% (75%-Regel) d. h. Suche nach Moderatoren ist sinnvoll Strukturiertheit des Interviews ist Moderator o es resultieren zwei homogene SP, die sich in ihren mittleren korrigierten Validitätskoeffizienten signifikant unterscheiden o strukturierte Vorstellungsgespräche erweisen sich als valide unstrukturierte nicht Kritik/Probleme bei Validitätsgeneralisierung Garbage-in Garbage-out Problematik methodische Qualität der Primärstudien per se nicht geprüft Lösung: Heranziehen von Expertenratings zur Qualität der Primärstudien. Evtl. Ausschließen von Studien Äpfel und Birnen Problematik Frage, ob Prädiktoren bzw. Kriterien als gleiche Konstrukte zu werten sind (bspw. ist Intelligenz im HAWIE das Gleiche wie Intelligenz in den APM) Lösung: Berücksichtigung der Homogenität der betrachteten Variablen wichtig, da sonst ein möglicherweise in homogenen Subgruppen bestehender Effekt nicht erkannt wird Problematik abhängiger Untersuchungsergebnisse Werden Teilergebnisse aus einer Studie verwendet, die an ein und derselben Stichprobe durchgeführt wurde, so geht diese Stichprobe mehrfach in die Analyse ein. übermäßiger Einfluss dieser SP Lösung: Lediglich Verwendung von Ergebnissen aus unabhängigen Stichproben. Werden in einer Studie mehrere Teilergebnisse dargestellt, so werden diese gemittelt und als einzelne Validität eingegeben Filedrawer Problematik/Publication-Bias Die Publikationspolitik wissenschaftlicher Zeitschriften begünstigt positive metaanalytische Ergebnisse, weil überwiegend Studien mit signifikanten Ergebnissen veröffentlicht werden und Studien mit nicht-signifikanten Ergebnissen unberücksichtigt bleiben Zur Reduktion dieser Problematik werden sogenannte Fail-Safe -Ns berechnet. Diese geben die Anzahl nicht-signifikanter Untersuchungen an, die noch aufgenommen werden müssten, um den Gesamteffekt auf Null abzusenken

106 S e i t e 106 Übersicht Metaanalyse Definition Gruppe von Verfahren, mit denen die Ergebnisse verschiedener Untersuchungen zu einer gemeinsamen Thematik zusammengefasst werden, um so einen Überblick über den aktuellen Stand der Forschung zu gewinnen Validitätsgeneralisierung vs. Metaanalyse Validitätsgeneralisierung ist ausschließlich auf Validitäten, d.h. den Zusammenhang zwischen Prädiktoren und Kriterien bezogen Metaanalyse bezieht auch andere Kennwerte (z.b. Mittelwertsunterschiede) in die Analyse mit ein Merke: Jede Validitätsgeneralisierung ist eine Metaanalyse aber nicht jede Metaanalyse ist eine Valditätsgeneralisierung Vereinheitlichung von Kennwerten Da im Rahmen einer Metaanalyse unterschiedliche Testkennwerte (z.b. t-werte, χ2- Werte) einbezogen werden, müssen diese vor der Aggregation in ein einheitliches Maß umgerechnet werden Delta-Koeffizient (Δ) von Kraemer (1985) Definition: Das Delta-Maß ist ein universelles Effektgrößenmaß, das der bivariaten Produkt-Moment-Korrelation r entspricht. Es dient dazu, die testspezifischen Effektgrößenmaße vergleichbar und aggregierbar zu machen. Jede testspezifische Effektgröße lässt sich in einen Delta-Wert transformieren. Beispiele für transformierbare Größen: Produkt-Moment-Korrelation t-test für unabhängige Stichproben

107 S e i t e 107 t-test für abhängige Stichproben χ2-werte aus Vierfeldertests χ2-werte aus rxc-kontingenztafeln Effektstärken aus Varianzanalysen (η2) Spearmansrho (r s ) Kendalls tau (τ) Im Anschluss an die Transformation: Prüfung der Homogenität ggf. Suche nach Moderatoren ggf. Signifikanztest mittels Konfidenzintervall Effektstärke (standardisiertes) statistisches Maß, das Größe eines Effektes angibt Effekt liegt vor, wenn die Nullhypothese (=kein Effekt) abgelehnt wird nach Cohen (d = Effektstärke): o d = 0,2 kleiner Effekt o d = 0,5 mittlerer Effekt o d = 0,8 starker Effekt Größe der Effektstärken hängt von verwendetem Maß ab! Anwendungsfelder Arbeits-, Betriebs- und Organisationspsychologie 1. Organisationsdiagnostik Def.: Die psychologische Organisationsdiagnose dient dazu, die psychologischen Aspekte des Erlebens und Verhaltens von Mitgliedern in Organisationen zu diagnostizieren, um Regelhaftigkeiten im Erleben, im Verhalten und in den Interaktionen zu beschreiben, zu erklären und zu prognostizieren Zwei grundlegende Muster der Organisationsdiagnostik 1. Strukturdiagnostik wird genutzt, um verschiedene Organisationen miteinander zu vergleichen geht davon aus, dass Unterschiede in den Organisationsstrukturen nur aufgrund unterschiedlicher Situationen (z.b. Größe der Organisation) bestehen einstufige Datenerhebung 2. Prozessdiagnostik wird genutzt, um Veränderung innerhalb einer Organisation zu erfassen geht davon aus, dass viele Merkmale und Bedingungen in Organisationen sich ständig verändern mehrstufige Datenerhebung Anwendung bei Diagnose von: o organisationale Veränderungen o sozialer Interaktion und Kommunikation innerhalb der Organisation o Wechselwirkungen zwischen Strukturmerkmalen, situativen Faktoren und dem Erleben/Verhalten in Organisationen Organisationsanalyseinstrumentarium (OAI), van de Ven und Ferry (1980) Versuch einer kohärenten Organisationsdiagnostik, die der Verschiedenheit der organisatorischen Anforderungen gerecht wird.

108 S e i t e verschiedene Module, die anhand von Fragebogen verschiedene Bereiche messen: 1. Macroorganizational module: Gesamtstruktur der Organisation 2. Interunit relations module: Koordination zwischen organisationalen Einheiten 3. Organizational unit module: Aufgaben, Strukturen und Prozesse auf verschiedenen Arbeitsebenen 4. Job design module: Merkmale einzelner Arbeitsplätze einschließlich struktureller Anforderungen und der Einstellung/Zufriedenheit der Arbeiter 5. Performance module: Effizienz und Effektivität auf versch. Arbeitsebenen Praxis: es werden meist nur Teilbereiche diagnostiziert, z.b. Diagnose des Organisationsklimas ( Information und Mitsprache, Vorgesetzte, Kollegen ) 2. Organisationsentwicklung Def.: geplante, meist mehrjährige Intervention in der gesamten Organisation Aufgaben, Maßnahmen und Ziele: Autonomie und Selbstverwirklichung der Mitarbeiter, mehr Mitspracherecht Konzipierung und Umsetzung geeigneter Arbeits-, Führungs- und Kooperationsformen Hohes Commitment, Effizienzsteigerung o Schaffen geeigneter Rahmenbedingungen, um Ziele zu erreichen o anfangs Überzeugungsarbeit : flachere Hierarchien müssen v.a. von höheren Ebenen akzeptiert werden Führungs- und Teamfähigkeitstrainings Schulung ausgewählter Mitarbeiter Stärkere Berücksichtigung der Mitarbeiter, Fokus nicht so stark auf wirtschaftlichen Aspekten Unterscheidung in personalen und strukturalen Ansatz (Gebert) beruht auf S(Stimulus)-O(Organismus)-R(Reaktion)-K(Konsequenz)-Modell personaler Ansatz: richtet sich auf O und R; beinhaltet z.b. gruppendynamische Trainings- und Weiterbildungsmaßnahmen strukturaler Ansatz: bezieht sich auf S und K; beinhaltet sog. neue Formen der Arbeitsgestaltung (z.b. job enrichment) und Umsetzung von Gruppenarbeitsmodellen 3. Personalbeurteilung Def.: Leistungs- und Potentialdaten werden hierfür erhoben: individuellen Auswahl, Beurteilung und Förderung Über- und Unterforderung vermeiden Entwicklungsmöglichkeiten sichern Effizienz steigern Unterteilung in 2 Bereiche: 1. Eignungsdiagnostik: Erhebung von Daten über die Eignung von Bewerbern für Stellen oder Funktionen 2. Personalbeurteilung: schließt Eignungsdiagnostik häufig mit ein, außerdem Abschätzung von Potentialen und Zuführung von Personalentwicklungsmaßnahmen

109 S e i t e Ebenen der Personalbeurteilung: Ebene Funktion Verfahrensweise 1. Ebene Alltägliches Arbeitsverhalten 2. Ebene Leistungsbeurteilung Verhaltensteuerung, Lernen Kontingenz zwischen Verhalten und Konsequenz wird aufgezeigt Leistungseinschätzung, Zielsetzung Personalentwicklungund management (z.b. Platzierungs- und Beförderungsentscheidungen) Gespräch, Unterstützung zeitnahes Feedback, solange relevantes Verhalten noch präsent ist unsystematische Beurteilung Gespräch systematische Beurteilung (zumindest halbstandardisiert) evtl. Anwendung von Einstufungsverfahren (z.b. Skalen zur Verhaltensbeobachtung) 3. Ebene Potentialbeurteilung Fähigkeitseinschätzungen, Prognosen Grundlage für Personalentwicklungsmaßnahmen Objektive Beurteilung von Fakten z.b. Verkaufszahlen Eignungsdiagnose (Ergebnisbzw. Verhaltensbeurteilung durch Vorgesetzten); Assessment Center 3.1 (Berufs-)Eignungsdiagnostik Def.: Durchführung, um größtmögliche Übereinstimmung zwischen beruflichen Anforderungen und optimaler Bewerberauswahl und zuordnung zu erreichen Ziel der Maximierung beruflicher Zufriedenheit und Leistung 3 mögliche Aufgabenstellungen: 1. Eignungsdiagnostik: mehrere freie Stellen, ein Bewerber Zuordnung zur geeignetsten Stelle 2. Optimale Zuordnung/Platzierung: Anzahl der offenen Stellen und Anzahl der Bewerber entsprechen sich Zuordnung soll für Bewerber und Stelle optimal sein 3. Konkurrenzauslese: Nur eine freie Stelle, mehrere Bewerber Ermittlung der bestgeeignetsten Person DIN-Normen zur beruflichen Eignungsdiagnostik (2002) wissenschaftlich fundierte Vorgehensweise Festlegung der Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen Gebrauch nicht rechtsverbindlich, sondern freiwillig Zweck der Normen

110 S e i t e 110 Leitsätze für die Vorgehensweise bei berufsbezogenen Eignungsbeurteilungen Eingesetzte Verfahren und deren Validitäten Bewerbungsgespräch o strukturiert (.51) o unstrukturiert (.38) subjektive Interpretation Interview durch implizite Theorien des Untersuchers geleitet Kognitive Leistungstests (.51) o z.b. Tests zur allgemeinen Intelligenz o hoher Zshg. gruppenunabhängig empirisch gut belegt! Arbeitsproben (.54) sollten zukünftigen Tätigkeiten möglichst ähnlich sein, parallele Verhaltensbeobachtung Persönlichkeitstests o Big Five schwacher Zusammenhang (größte r mit Gewissenhaftigkeit, aber auch hier nur r = 0.12) o Integritätstests: Verfahren zur Erfassung kontraproduktiven Verhaltens im Unternehmen, z.b. Diebstahl, Alkohol (.41) inkrementelle Validität ggü. Intelligenz, aber in Deutschlang kaum Anwendung Assessment Center (.37) Biographischer Fragebogen (.35) o Annahme: vergangene Erfahrungen und deren subjektive Verarbeitung sind gute Prädiktoren künftigen Verhaltens o Problem: stark von untersuchter Gruppe abhängig Fragebogen oder Tests zur Leistungsmotivation (schwach positive Korrelationen) Annahme: wichtiger Faktor für Berufserfolg kann so in empirischen Studien nicht belegt werden Einsatz eines gemischten Verfahrens mit verschiedenen Prädiktoren (z.b. Assessment-Center) liefert verlässlichste Prognose Probleme Einsatz von Testverfahren mit ungenügender Prüfung der Gütekriterien o häufig Einsatz selbst entwickelter Testverfahren, die aus Zeit- oder Geldmangel nicht weiter überprüft und somit an neue Anforderungen angepasst werden meist nur Statusdiagnostik o Tagesform bestimmt Chance der Bewerber o Aussagen über künftige Entwicklungen schwierig o Lösung: Assessment Center (s.u.) Probezeit ermöglicht nur bereits ausgewählten/eingestellten Bewerbern sich zu bewähren

111 S e i t e 111 Berufsberatung Platzierung vs. Selektion a) Selektion: nur relevante Merkmale des Bewerbers werden erfasst Verfahren und relevante Kriterien werden durch Anforderungsanalysen und Validitätsuntersuchungen ausgewählt auch wenn mehrere Bewerber geeignet sind, wird nur der Beste ausgewählt Notwendigkeit normierter Werte (um Mindestanforderungen zu bestimmen) und berufsbezogener Vergleichswerte von erfolgreichen Stelleninhabern b) Platzierung/Berufswahlentscheidung: Anforderungen mehrerer Berufe werden mit Eignungsprofil des Ratsuchenden verglichen Auswahl bezieht sich nicht auf Person, sondern auf Berufe Auswahl der Verfahren hängt von Situation und Motivlage ab: Selektion: Verfälschung wahrscheinlich, da Personen sich gut darstellen wollen Platzierung: verfälschbare Verfahren können angewendet werden, da Verfälschung unwahrscheinlich 3.2 Assessment Center Zielsetzung Methode zur Personalauswahl und entwicklung Nachteil: finanziell und zeitlich aufwändig Beschreibung umfassendes, standardisiertes Verfahren mehrere Personen werden 2-5 Tage lang untersucht o Anwendung verschiedener Verfahren: Leistungs- und Persönlichkeitstests Gruppen- und Kommunikationsübungen (z.b. Gruppendiskussionen, Interviews) Arbeits- und Gruppenprozesse werden simuliert: Versuch der Simulation der zukünftigen Anforderungssituation, um individuelle Fähigkeiten im Verhalten beobachtbar und somit diagnostizierbar zu machen o Beurteilung einzelner Mitarbeiter durch ausgebildete Vorgesetzte und Psychologen (am besten nicht im direkten Vorgesetztenverhältnis) Ergebnisse werden Teilnehmern mitgeteilt o dienen bei Personalentwicklungsmaßnahmen personalpolitischen Entscheidungen wie z.b. Beförderung, Versetzung, Karriereplanung o Rückmeldung dient dem Teilnehmer zur individuellen Entwicklungsplanung