Messungen in größerem Umfang Fragebögen und Tests Gute Tests, schlechte Tests Gütekriterien Testtheorie und Testkonstruktion Forschungsethik

DAS THEMA: FRAGEBÖGEN / TESTS / GÜTEKRITERIEN Messungen in größerem Umfang Fragebögen und Tests Gute Tests, schlechte Tests Gütekriterien Testtheorie und Testkonstruktion Forschungsethik Messungen in größerem Umfang Fragebögen und Tests Fragebögen Von der Frage zur Antwort Wie die Frage die Antwort formt Tests Leistungstests Persönlichkeitstests 1

FRAGEBÖGEN UND TESTS Messungen werden sehr häufig durch Fragebögen oder Tests durchgeführt sie enthalten Aufgaben oder Fragen, die gelöst werden müssen: so genannte Items Fragebögen messen Einstellungen und Eindrücke und werden meist auf Gruppenebene ausgewertet Tests messen Persönlichkeitseigenschaften oder die persönliche Leistung und werden meist auf Individuums-Ebene ausgewertet FRAGEBÖGEN fragen in aller Regel Eindrücke, Einstellungen, Meinungen, Gefühle, Gedankeninhalte oder auch demografische Daten ab verwendete Formate: Ratingskalen, Mehrfachantworten, ja/nein-fragen, offene Fragen es gibt keinen Zeitdruck, keine richtigen oder falschen Antworten werden oft vom Forscher selbstständig und nach Augenscheinvalidität konstruiert der Fokus liegt auf der Gruppenebene: die Daten werden gemittelt 2

VON DER FRAGE ZUR ANTWORT Fragebögen messen Selbstauskünfte, aber wie kommen die zustande? Drei Aspekte sind wichtig: 1. wie wird die Frage interpretiert? Fragen müssen interpretiert und richtig verstanden werden Beispiel: Wie bewerten Sie auf einer Skala von 1 bis 10 Italien? 2. wie wird das Urteil gebildet? Ist das Wissen überhaupt vorhanden? Woran denkt der Befragte (an Situationen, Personen, Medienberichte...)? 3. wie wird das Urteil kommuniziert? Wie übersetzt der Befragte sein Urteil in eine Zahl? die Gestaltung der Skala hat hier einen großen Einfluss ebenso wie die möglichen Motive des Befragten (z.b. positive Selbstdarstellung) WIE DIE FRAGE DIE ANTWORT FORMT das Format von Fragen oder Ratingskalen hat großen Einfluss auf die Urteile der Befragten 1. unipolare vs. bipolare Skalen Beispiel: Für wie wichtig halten Sie die Vorlesung XY? a) 0 20 40 60 80 100 b) -50-30 -10 +10 +30 +50 Wich*gkeit 0 100 0 100-50 +50 Werte der bipolaren Skala sind transformiert auf 0 100 3

WIE DIE FRAGE DIE ANTWORT FORMT 2. Skalen mit quantitativen Antwortvorgaben Beispiel: Was schätzen Sie, wie viel Zeit werden Sie zur Vor- und Nachbereitung dieser Vorlesung pro Woche durchschnittlich aufwenden? a) <5min 5-15min 16-30min 30min 1 h >1h b) <30min 30min 1h 1 1,5h 1,5 2h >2h Ergebnis der Umfrage: mehr als 1h geben bei Skala a) 12,2% der Befragten an, bei Skala b) etwa 47,6% à Skalen können Ankereffekte hervorrufen: die Beschriftungen werden als Anker für das eigene Urteil genutzt WIE DIE FRAGE DIE ANTWORT FORMT 3. Skalen mit unterschiedler Anordnung der Antwortalternativen Beispiel: Wenn Sie die Güte einer Lehrveranstaltung einschätzen würden, welches der folgenden Kriterien wäre für Sie am wichtigsten (bitte eines ankreuzen)? a) Praxisbezug Prüfungsvorbereitung Strukturiertheit Schwierigkeit b) Prüfungsvorbereitung Praxisbezug Schwierigkeit Strukturiertheit Version a) Version b) Praxisbezug 29% 21% Prüfungsvorbereitung 19% 17% Strukturiertheit 50% 58% Schwierigkeit 2% 4% à Antwortoptionen werden immer in einem Kontext interpretiert 4

WIE DIE FRAGE DIE ANTWORT FORMT 4. Fragen mit offenen vs. geschlossenen Antwortformaten Beispiel: Was sollte man Kindern beibringen, damit sie im Leben gut zurecht kommen? Selbstständig zu denken. a) offenes Antwortformat, keine Vorgaben b) Antwort ist Teil einer Liste von Antwortalternativen beispielhaftes Ergebnis: bei a) taucht die Antwort bei 5% der Befragten auf, bei b) wird es von 60% der Befragten ausgewählt à Urteile hängen von der Verfügbarkeit von Informationen ab TESTS erfassen Persönlichkeitseigenschaften oder Leistungen verwendete Formate: Ratingskalen, ja/nein-fragen, sowie verbale, grafische oder rechnerische Aufgaben oder praktische Aufgaben Tests werden nach einem bestimmten Schema konstruiert, normiert und in der Regel mit Hilfe von Gütekriterien bewertet der Fokus liegt auf der Individuums-Ebene: Daten einzelner Personen sollen verglichen werden 5

LEISTUNGSTESTS messen individuelle Leistungen oder Fähigkeiten laufen unter Zeitdruck ab, es gibt richtige und falsche Antworten es geht also um objektive Leistungsmaßstäbe Speed-Tests prüfen bei beschränkter Bearbeitungszeit die Leistung (z.b. d2-aufmerksamkeits-test) Power-Tests steigern schrittweise die Schwierigkeit der Aufgaben, um das Leistungsniveau zu erfassen (z.b. HAWIE-Intelligenztest) D2 (BRICKENKAMP, 2002) EXKURS Leistungstest zur Messung der Aufmerksamkeit 14 Reihen mit je 47 Zeichen Person soll alle ds mit zwei Strichen durchstreichen für jede Reihe stehen 20 Sekunden zur Verfügung ausgewertet werden die richtigen und falschen Durchstreichungen 6

HAWIE (TEWES, 1991) EXKURS Test zur Intelligenz-Messung besteht aus 11 Subtests (6 im Verbalteil, 5 im Handlungsteil) Endergebnis ist ein IQ-Wert Verbalteil: Allgemeinwissen, Zahlen nachsprechen, Wortschatz... Handlungsteil: MOSAIK- TEST BILDER ERGÄNZEN FIGURENLEGEN PERSÖNLICHKEITSTESTS messen Persönlichkeitseigenschaften werden meist als Inventare bezeichnet laufen ohne Zeitdruck ab, es gibt keine richtigen oder falschen Antworten können aus einer verschieden großen Anzahl von Facetten bestehen der klassische Ansatz: die BIG 5 (z.b. NEO Five Factor Inventory; NEO-FFI) BIG5 Neurotizismus Extraversion O f f e n h e i t Gewissenhaftigkeit Verträglichkeit 7

Gute Tests, schlechte Tests Gütekriterien Klassische Gütekriterien für Items, Tests und ganze Untersuchungen Schwierigkeit und Trennschärfe von Items Verfälschungen bei Tests und Gegenmaßnahmen KLASSISCHE GÜTEKRITERIEN 1. Objektivität (Unabhängigkeit) Anforderung: die Ergebnisse eines Tests müssen unabhängig sein vom Versuchsleiter, demjenigen der die Ergebnisse auswertet und demjenigen der sie interpretiert sichergestellt durch: genaueste Dokumentation, Protokollierung, Instruktion und Anleitung Formen: Durchführungs-, Auswertungs- und Interpretationsobjektivität 8

KLASSISCHE GÜTEKRITERIEN 2. Reliabilität (Genauigkeit mit der ein Test misst, was er messen soll) Anforderung: die Ergebnisse eines Tests sollten verlässlich sein, d.h., über verschiedene Zeitpunkte oder Testversionen hinweg möglichst wenig schwanken sichergestellt durch: sorgfältige Testkonstruktion Formen: Retestreliabilität (Testwiederholung führt zum selben Ergebnis), Paralleltestreliabilität (parallele Testversionen führen zum selben Ergebnis), Testhalbierungsreliabilität (Testhälften führen zum selben Ergebnis), interne Konsistenz (einzelne Items führen zum selben Ergebnis) KLASSISCHE GÜTEKRITERIEN 3. Validität (Gültigkeit mit der ein Test misst, was er zu messen vorgibt) Anforderung: ein Test sollte inhaltlich plausibel sein, d.h., das interessierende Konstrukt erfassen und nicht irgendetwas anderes sichergestellt durch: theoretische Überlegungen sowie statistische Kriterien (siehe Formen) Formen: Konstruktvalidität (die Testergebnisse sollten mit denen anderer Tests korrespondieren, die dasselbe oder ein ähnliches Konstrukt messen), Kriteriumsvalidität (die Testergebnisse sollten mit externen Kriterien korrespondieren etwa das Ergebnis eines Schuleignungstests mit der tatsächlichen Schulleistung) 9

SCHWIERIGKEIT UND TRENNSCHÄRFE einzelne Items können über die Gütekriterien hinaus noch durch ihre Schwierigkeit und ihre Trennschärfe beurteilt werden die Schwierigkeit ist der Prozentsatz der Personen, die ein Item richtig lösen oder positiv beantworten (möglich: 0 bis 100%) Tests sollten unterschiedlich schwierige Items beinhalten, um gut zwischen Personen mit hohen und niedrigen Ausprägungen differenzieren zu können die Trennschärfe beurteilt, wie gut ein einzelnes Item stellvertretend oder repräsentativ für den gesamten Test stehen kann (möglich: 0 bis 1) je höher die Trennschärfe desto besser aber: hohe Trennschärfen sind nur bei mittlerer Schwierigkeit (50%) möglich VERFÄLSCHUNGEN BEI TESTS bei Leistungstests Raten: die richtigen Antworten können geraten werden Gegenmaßnahmen: Korrektur der Ratewahrscheinlichkeit, Einfügen von Distraktor-Anworten bei Persönlichkeitstests Selbstdarstellung (impression management): Tendenz sich in einer bestimmten Weise darzustellen Soziale Erwünschtheit: Tendenz sich in vermeintlich sozial erwünschter Weise darzustellen Antwortdendenzen: Tendenz eher neutrale oder eher extreme Antworten zu geben oder eher Ja oder eher Nein zu sagen Gegenmaßnahmen: Instruktion ehrlich zu antworten, ausbalanciert formulierte Antwortalternativen, Verwenden von Kontrollskalen 10

Testtheorie und Testkonstruktion Klassische Testtheorie Probabilistische Testtheorie Testkonstruktion KLASSISCHE TESTTHEORIE zentrale Annahmen: X = T + e Fehler (error) Wahrer Wert (True value) Messwert jeder Testwert setzt sich immer aus dem wahren Wert und einem Fehler zusammen der wahre Wert ist prinzipiell unbekannt Fehler entstehen durch Ablenkung, Müdigkeit, äußere Störeinflüsse, technische Messfehler usw. der Fehler ist unsystematisch und daher im Mittel gleich Null à bei wiederholtem Testen sollte er sich also ausmitteln der Fehler ist vom wahren Wert unabhängig (höhere Werte gehen nicht mit systematisch großen oder kleinen Fehlern einher) 11

PROBABILISTISCHE TESTTHEORIE auch Item-Response-Theory (IRT) genannt (auch Latent-Trait oder, bei nominalen Variablen, Latent-Class) zentrale Annahmen: das direkte Messen eines wahren Wertes ist nicht möglich stattdessen äußert sich die Ausprägung einer latenten Variable in der Wahrscheinlichkeit, mit der eine Person ein Item löst die Lösungswahrscheinlichkeit eines Items ist daher ein Indikator für die latente Variable Ausprägung einer latenten Variable (prinzipiell nicht messbar) Item-Characteristic-Curves (ICC) zeigen den Zusammenhang von latenter Variable (Fähigkeit) und Antwortverhalten (Lösungswahrscheinlichkeit) bekanntestes Modell: Rasch-Modell Antwort auf ein Item (messbar) PROBABILISTISCHE TESTTHEORIE Item-Characteristic-Curves Lösungswahrscheinlichkeit Fähigkeit (zu erschließende Ausprägung der Person auf der latenten Variable X) die Kurven zeigen Items mit unterschiedlicher Schwierigkeit 12

TESTTHEORIEN IM VERGLEICH KLASSISCH der wahre Wert einer Person auf einer latenten Variable äußert sich in den Testwerten der manifesten Variablen verschiedene Items sind prinzipiell Wiederholungen, also parallele Testmöglichkeiten der Fokus liegt auf der Testebene PROBABILISTISCH der wahre Wert einer Person auf einer latenten Variable äußert sich in in der Lösungswahrscheinlichkeit der manifesten Variablen verschiedene Items unterscheiden sich in ihrer Schwierigkeit und sind daher alle für sich informativ der Fokus liegt auf der Itemebene der klassische Ansatz ist immer noch vorherrschend, aber der probabilistische Ansatz setzt sich immer mehr durch TESTKONSTRUKTION kleinere Fragebögen oder einzelne Fragen werden meist per Augenscheinvalidität konstruiert und keiner weiteren Analyse unterzogen bei umfangreicheren Fragebögen oder Tests empfiehlt sich jedoch eine Testkonstruktion, die nach einem bestimmen Schema abläuft: 1. Finden geeigneter Items eigene Überlegungen Ableitung aus Theorien Vorstudien oder Expertenbefragung 2. Auswahl geeigneter Items 3. evtl. Itemanalyse Schwierigkeitsanalyse Trennschärfenanalyse 4. Reliabilitätsbestimmung 5. Validitätsbestimmung 6. evtl. Eichung/Normierung an einer größeren Stichprobe (üblich: 1000 2000 Personen) 13

FRAGEBÖGEN - TESTS - GÜTEKRITERIEN STECKBRIEF Fragebögen und Tests bestehen aus Items (Aufgaben, Fragen) Fragebögen messen Einstellungen und Eindrücke und werden meist auf Gruppenebene ausgewertet Tests messen Persönlichkeitseigenschaften oder die persönliche Leistung und werden meist auf Individuums-Ebene ausgewertet Tests werden durch Gütekriterien beurteilt: Objektivität, Reliabilität (Genauigkeit) und Validität (Gültigkeit) einzelne Items können darüber hinaus durch Schwierigkeit und Trennschärfe gekennzeichnet werden laut klassischer Testtheorie setzt sich ein gemessener Wert immer aus dem wahren Wert und einem Fehler zusammen laut probabilistischer Testtheorie äußert sich der wahre Wert durch die Lösungswahrscheinlichkeit unterschiedlich schwieriger Items Forschungsethik Forschungsethik gegenüber den Studienteilnehmern Forschungsethik gegenüber der wissenschaftlichen Gemeinde 14

FORSCHUNGSETHIK oft stehen der Erkenntnisdrang der Wissenschaft und die Integrität der untersuchten Personen und ihrer Daten im Widerspruch die Geschichte der Psychologie ist voll von unrühmlichen Beispielen es gibt daher eine Reihe ethischer Prinzipien, die einzuhalten sind Ethikkommissionen prüfen heute Forschungsanträge und erteilen oder verweigern ein Ethikvotum ethisches Handeln ist relevant sowohl gegenüber den untersuchten Personen als auch gegenüber den wissenschaftlichen Kolleg/innen und der Öffentlichkeit Milgram- Experiment ETHIK UND STUDIENTEILNEHMER Prinzipien (siehe Hussy et al., 2010): Freiwilligkeit der Teilnahme und permanente Möglichkeit des Abbruchs Gewährleistung der psychischen und physischen Unversehrtheit (wichtig: Ausschlusskriterien) Transparenz der Untersuchung (wenn möglich) Kosten-Nutzen-Konflikt Vermeidung von Täuschung (wenn möglich) Zusicherung von Anonymität und Vertraulichkeit der Daten Komplette Aufklärung am Ende der Studie Vertrag zwischen Versuchsleiter und Studienteilnehmer (informed consent) 15

ETHIK UND DIE WISSENSCHAFTSGEMEINDE Prinzipien für verantwortliches Forschen und Publizieren: keine Datenfälschung ehrliches Dokumentieren von Studienabläufen vollständiges Berichten aller Versuchsbedingungen und Daten keine Theoriebildung nach Datenlage keine Signifikanz um jeden Preis Quelle: Stern.de LITERATUR Bühner, M. (2003). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson. Huber, O. (1995). Das psychologische Experiment: Eine Einführung. Bern: Huber. Hussy, W., Schreier, M. & Echterhoff, G. (2010). Forschungsmethoden in Psychologie und Sozialwissenschaften. Heidelberg: Springer. Schäfer, T. (2010). Statistik I. Deskriptive und Explorative Datenanalyse. Wiesbaden: Springer VS. Schuler, H. (1980). Ethische Probleme psychologischer Forschung. Göttingen: Hogrefe. Sedlmeier, P. & Renkewitz, F. (2013). Forschungsmethoden und Statistik: Ein Lehrbuch für Psychologen und Sozialwissenschaftler. München: Pearson. 16