Messungen in größerem Umfang Fragebögen und Tests Gute Tests, schlechte Tests Gütekriterien Testtheorie und Testkonstruktion Forschungsethik

Ähnliche Dokumente
Übung Methodenlehre I, SeKo

Forschungsmethoden VORLESUNG SS 2017

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Was ist eine Testtheorie?

Beispielberechnung Vertrauensintervalle

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Bildungsurlaub-Seminare: Lerninhalte und Programm

Forschungsmethoden VORLESUNG SS 2017

Beispielberechnung Vertrauensintervall

Reliabilitäts- und Itemanalyse

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Forschungsmethoden VORLESUNG WS 2017/2018

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

4.2 Grundlagen der Testtheorie

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

Messtherorie Definitionen

Gliederung. Ursachen von Ergebnisverfälschung. Antworttendenzen/Urteilsfehler. Empirische Forschungsmethoden

Rating-Skalen: Definition

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Persönlichkeitstests in der Personalauswahl: Chancen und Probleme

Modul 1. Dr. Verena Walpurger Lehrkraft für besondere Aufgaben, Modul 1. Fakultät für Kultur- und Sozialwissenschaften

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Grundlagen der Testkonstruktion

Speed als Mittel gegen die Verfälschbarkeit von Persönlichkeitsfragebogen? Ein Experiment

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Aufgaben und Ziele der Wissenschaften

Prinzipien der Fragebogenkonstruktion. Allgemeine Bestandteile. Richtlinien zur Formulierung. Die 10 Gebote der Frageformulierung (II)

Auswahl von Testaufgaben

Grundlagen der Statistik

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Prävention und Intervention im Bereich der vorschulischen Bildung. WS 08/09 Michael Lichtblau 3. VA

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Rekodierung invertierter Items

T E S T G Ü T E K R I T E R I E N W O R K S H O P I N F R E I B U R G N O V E M B E R

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Fragebogenkonstruktion

Einführung in die Theorie psychologischer Tests

INFORMATIONEN ZU DEN ERGEBNISSEN DES NEO-FFI

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Erstellung und Auswertung eines Fragebogens. Gruppe Formalwissenschaften

Differenzierung und Systematik diagnostischer Testverfahren

Psychologisches Testen. informationen FÜR eltern UND lehrkräfte

Teil I: Methoden der Politikwissenschaft

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler

Messung Emotionaler Intelligenz. Prof. Dr. Astrid Schütz - Universität Bamberg

Umfrage, eine Methode für die Maturaarbeit. GM.my in Zusammenarbeit mit der Kantonsschule Olten

Grundlagen sportwissenschaftlicher Forschung Test

Marold Wosnitza & Reinhold S. Jäger (Hrsg.) Daten erfassen, auswerten und präsentieren - aber wie?

Forschungsmethoden VORLESUNG SS 2017

Modul 1. Dr. Verena Walpurger Lehrkraft für besondere Aufgaben, Modul 1. Fakultät für Kultur- und Sozialwissenschaften

IMPULS-Test 2 Wissenschaftliche Basis. Mag. Leonard Schünemann

Theorien der Persönlichkeit

Methodenlehre. Vorlesung 5. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Modul 1. Dr. Verena Walpurger Lehrkraft für besondere Aufgaben, Modul 1. Fakultät für Kultur- und Sozialwissenschaften

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Methodenlehre I Organisatorisches Wiederholung. Überblick Methodenlehre II. Thomas Schäfer. methodenlehre ll Einführung und Überblick

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Inhaltsverzeichnis. Geleitwort... V. Vorwort... VII. Inhaltsverzeichnis... IX. Tabellenverzeichnis... XV. Abbildungsverzeichnis...

Einführung in die Psychologie

III. Methoden der empirischen Kommunikations forschung. Hans-Bernd Brosius Friederike Koschel. Eine Einführung. 3. Auflage - CKIZ

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

3.1 Grundlagen psychologischer Diagnostik

Beobachtung und Befragung

Untersuchungsarten im quantitativen Paradigma

Inhaltsverzeichnis. Vorwort zur 3. Auflage 11. Kapitel 1 Einführung 13. Kapitel 2 Testtheoretische Grundlagen 29

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Prof. Dr. Carolin Strobl

Screening für Somatoforme Störungen. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum:

JOACHIM BEHNKE / NINA BAUR / NATHALIE BEHNKE. Empirische Methoden der Politikwissenschaft

Der Bochumer Burnout-Indikator (BBI) Ein Frühwarninstrument zur Erfassung des Burnout-Risikos

Beispielberechnung Normierung

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Der Stressverarbeitungsfragebogen von Janke und Erdmann angepasst für Kinder und Jugendliche (SVF-KJ)

Forschungsmethoden VORLESUNG SS 2017

Empirische Methoden der Politikwissenschaft

Einführung in die Test- und Fragebogenkonstruktion

Grundlagen der empirischen Sozialforschung

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Transkript:

DAS THEMA: FRAGEBÖGEN / TESTS / GÜTEKRITERIEN Messungen in größerem Umfang Fragebögen und Tests Gute Tests, schlechte Tests Gütekriterien Testtheorie und Testkonstruktion Forschungsethik Messungen in größerem Umfang Fragebögen und Tests Fragebögen Von der Frage zur Antwort Wie die Frage die Antwort formt Tests Leistungstests Persönlichkeitstests 1

FRAGEBÖGEN UND TESTS Messungen werden sehr häufig durch Fragebögen oder Tests durchgeführt sie enthalten Aufgaben oder Fragen, die gelöst werden müssen: so genannte Items Fragebögen messen Einstellungen und Eindrücke und werden meist auf Gruppenebene ausgewertet Tests messen Persönlichkeitseigenschaften oder die persönliche Leistung und werden meist auf Individuums-Ebene ausgewertet FRAGEBÖGEN fragen in aller Regel Eindrücke, Einstellungen, Meinungen, Gefühle, Gedankeninhalte oder auch demografische Daten ab verwendete Formate: Ratingskalen, Mehrfachantworten, ja/nein-fragen, offene Fragen es gibt keinen Zeitdruck, keine richtigen oder falschen Antworten werden oft vom Forscher selbstständig und nach Augenscheinvalidität konstruiert der Fokus liegt auf der Gruppenebene: die Daten werden gemittelt 2

VON DER FRAGE ZUR ANTWORT Fragebögen messen Selbstauskünfte, aber wie kommen die zustande? Drei Aspekte sind wichtig: 1. wie wird die Frage interpretiert? Fragen müssen interpretiert und richtig verstanden werden Beispiel: Wie bewerten Sie auf einer Skala von 1 bis 10 Italien? 2. wie wird das Urteil gebildet? Ist das Wissen überhaupt vorhanden? Woran denkt der Befragte (an Situationen, Personen, Medienberichte...)? 3. wie wird das Urteil kommuniziert? Wie übersetzt der Befragte sein Urteil in eine Zahl? die Gestaltung der Skala hat hier einen großen Einfluss ebenso wie die möglichen Motive des Befragten (z.b. positive Selbstdarstellung) WIE DIE FRAGE DIE ANTWORT FORMT das Format von Fragen oder Ratingskalen hat großen Einfluss auf die Urteile der Befragten 1. unipolare vs. bipolare Skalen Beispiel: Für wie wichtig halten Sie die Vorlesung XY? a) 0 20 40 60 80 100 b) -50-30 -10 +10 +30 +50 Wich*gkeit 0 100 0 100-50 +50 Werte der bipolaren Skala sind transformiert auf 0 100 3

WIE DIE FRAGE DIE ANTWORT FORMT 2. Skalen mit quantitativen Antwortvorgaben Beispiel: Was schätzen Sie, wie viel Zeit werden Sie zur Vor- und Nachbereitung dieser Vorlesung pro Woche durchschnittlich aufwenden? a) <5min 5-15min 16-30min 30min 1 h >1h b) <30min 30min 1h 1 1,5h 1,5 2h >2h Ergebnis der Umfrage: mehr als 1h geben bei Skala a) 12,2% der Befragten an, bei Skala b) etwa 47,6% à Skalen können Ankereffekte hervorrufen: die Beschriftungen werden als Anker für das eigene Urteil genutzt WIE DIE FRAGE DIE ANTWORT FORMT 3. Skalen mit unterschiedler Anordnung der Antwortalternativen Beispiel: Wenn Sie die Güte einer Lehrveranstaltung einschätzen würden, welches der folgenden Kriterien wäre für Sie am wichtigsten (bitte eines ankreuzen)? a) Praxisbezug Prüfungsvorbereitung Strukturiertheit Schwierigkeit b) Prüfungsvorbereitung Praxisbezug Schwierigkeit Strukturiertheit Version a) Version b) Praxisbezug 29% 21% Prüfungsvorbereitung 19% 17% Strukturiertheit 50% 58% Schwierigkeit 2% 4% à Antwortoptionen werden immer in einem Kontext interpretiert 4

WIE DIE FRAGE DIE ANTWORT FORMT 4. Fragen mit offenen vs. geschlossenen Antwortformaten Beispiel: Was sollte man Kindern beibringen, damit sie im Leben gut zurecht kommen? Selbstständig zu denken. a) offenes Antwortformat, keine Vorgaben b) Antwort ist Teil einer Liste von Antwortalternativen beispielhaftes Ergebnis: bei a) taucht die Antwort bei 5% der Befragten auf, bei b) wird es von 60% der Befragten ausgewählt à Urteile hängen von der Verfügbarkeit von Informationen ab TESTS erfassen Persönlichkeitseigenschaften oder Leistungen verwendete Formate: Ratingskalen, ja/nein-fragen, sowie verbale, grafische oder rechnerische Aufgaben oder praktische Aufgaben Tests werden nach einem bestimmten Schema konstruiert, normiert und in der Regel mit Hilfe von Gütekriterien bewertet der Fokus liegt auf der Individuums-Ebene: Daten einzelner Personen sollen verglichen werden 5

LEISTUNGSTESTS messen individuelle Leistungen oder Fähigkeiten laufen unter Zeitdruck ab, es gibt richtige und falsche Antworten es geht also um objektive Leistungsmaßstäbe Speed-Tests prüfen bei beschränkter Bearbeitungszeit die Leistung (z.b. d2-aufmerksamkeits-test) Power-Tests steigern schrittweise die Schwierigkeit der Aufgaben, um das Leistungsniveau zu erfassen (z.b. HAWIE-Intelligenztest) D2 (BRICKENKAMP, 2002) EXKURS Leistungstest zur Messung der Aufmerksamkeit 14 Reihen mit je 47 Zeichen Person soll alle ds mit zwei Strichen durchstreichen für jede Reihe stehen 20 Sekunden zur Verfügung ausgewertet werden die richtigen und falschen Durchstreichungen 6

HAWIE (TEWES, 1991) EXKURS Test zur Intelligenz-Messung besteht aus 11 Subtests (6 im Verbalteil, 5 im Handlungsteil) Endergebnis ist ein IQ-Wert Verbalteil: Allgemeinwissen, Zahlen nachsprechen, Wortschatz... Handlungsteil: MOSAIK- TEST BILDER ERGÄNZEN FIGURENLEGEN PERSÖNLICHKEITSTESTS messen Persönlichkeitseigenschaften werden meist als Inventare bezeichnet laufen ohne Zeitdruck ab, es gibt keine richtigen oder falschen Antworten können aus einer verschieden großen Anzahl von Facetten bestehen der klassische Ansatz: die BIG 5 (z.b. NEO Five Factor Inventory; NEO-FFI) BIG5 Neurotizismus Extraversion O f f e n h e i t Gewissenhaftigkeit Verträglichkeit 7

Gute Tests, schlechte Tests Gütekriterien Klassische Gütekriterien für Items, Tests und ganze Untersuchungen Schwierigkeit und Trennschärfe von Items Verfälschungen bei Tests und Gegenmaßnahmen KLASSISCHE GÜTEKRITERIEN 1. Objektivität (Unabhängigkeit) Anforderung: die Ergebnisse eines Tests müssen unabhängig sein vom Versuchsleiter, demjenigen der die Ergebnisse auswertet und demjenigen der sie interpretiert sichergestellt durch: genaueste Dokumentation, Protokollierung, Instruktion und Anleitung Formen: Durchführungs-, Auswertungs- und Interpretationsobjektivität 8

KLASSISCHE GÜTEKRITERIEN 2. Reliabilität (Genauigkeit mit der ein Test misst, was er messen soll) Anforderung: die Ergebnisse eines Tests sollten verlässlich sein, d.h., über verschiedene Zeitpunkte oder Testversionen hinweg möglichst wenig schwanken sichergestellt durch: sorgfältige Testkonstruktion Formen: Retestreliabilität (Testwiederholung führt zum selben Ergebnis), Paralleltestreliabilität (parallele Testversionen führen zum selben Ergebnis), Testhalbierungsreliabilität (Testhälften führen zum selben Ergebnis), interne Konsistenz (einzelne Items führen zum selben Ergebnis) KLASSISCHE GÜTEKRITERIEN 3. Validität (Gültigkeit mit der ein Test misst, was er zu messen vorgibt) Anforderung: ein Test sollte inhaltlich plausibel sein, d.h., das interessierende Konstrukt erfassen und nicht irgendetwas anderes sichergestellt durch: theoretische Überlegungen sowie statistische Kriterien (siehe Formen) Formen: Konstruktvalidität (die Testergebnisse sollten mit denen anderer Tests korrespondieren, die dasselbe oder ein ähnliches Konstrukt messen), Kriteriumsvalidität (die Testergebnisse sollten mit externen Kriterien korrespondieren etwa das Ergebnis eines Schuleignungstests mit der tatsächlichen Schulleistung) 9

SCHWIERIGKEIT UND TRENNSCHÄRFE einzelne Items können über die Gütekriterien hinaus noch durch ihre Schwierigkeit und ihre Trennschärfe beurteilt werden die Schwierigkeit ist der Prozentsatz der Personen, die ein Item richtig lösen oder positiv beantworten (möglich: 0 bis 100%) Tests sollten unterschiedlich schwierige Items beinhalten, um gut zwischen Personen mit hohen und niedrigen Ausprägungen differenzieren zu können die Trennschärfe beurteilt, wie gut ein einzelnes Item stellvertretend oder repräsentativ für den gesamten Test stehen kann (möglich: 0 bis 1) je höher die Trennschärfe desto besser aber: hohe Trennschärfen sind nur bei mittlerer Schwierigkeit (50%) möglich VERFÄLSCHUNGEN BEI TESTS bei Leistungstests Raten: die richtigen Antworten können geraten werden Gegenmaßnahmen: Korrektur der Ratewahrscheinlichkeit, Einfügen von Distraktor-Anworten bei Persönlichkeitstests Selbstdarstellung (impression management): Tendenz sich in einer bestimmten Weise darzustellen Soziale Erwünschtheit: Tendenz sich in vermeintlich sozial erwünschter Weise darzustellen Antwortdendenzen: Tendenz eher neutrale oder eher extreme Antworten zu geben oder eher Ja oder eher Nein zu sagen Gegenmaßnahmen: Instruktion ehrlich zu antworten, ausbalanciert formulierte Antwortalternativen, Verwenden von Kontrollskalen 10

Testtheorie und Testkonstruktion Klassische Testtheorie Probabilistische Testtheorie Testkonstruktion KLASSISCHE TESTTHEORIE zentrale Annahmen: X = T + e Fehler (error) Wahrer Wert (True value) Messwert jeder Testwert setzt sich immer aus dem wahren Wert und einem Fehler zusammen der wahre Wert ist prinzipiell unbekannt Fehler entstehen durch Ablenkung, Müdigkeit, äußere Störeinflüsse, technische Messfehler usw. der Fehler ist unsystematisch und daher im Mittel gleich Null à bei wiederholtem Testen sollte er sich also ausmitteln der Fehler ist vom wahren Wert unabhängig (höhere Werte gehen nicht mit systematisch großen oder kleinen Fehlern einher) 11

PROBABILISTISCHE TESTTHEORIE auch Item-Response-Theory (IRT) genannt (auch Latent-Trait oder, bei nominalen Variablen, Latent-Class) zentrale Annahmen: das direkte Messen eines wahren Wertes ist nicht möglich stattdessen äußert sich die Ausprägung einer latenten Variable in der Wahrscheinlichkeit, mit der eine Person ein Item löst die Lösungswahrscheinlichkeit eines Items ist daher ein Indikator für die latente Variable Ausprägung einer latenten Variable (prinzipiell nicht messbar) Item-Characteristic-Curves (ICC) zeigen den Zusammenhang von latenter Variable (Fähigkeit) und Antwortverhalten (Lösungswahrscheinlichkeit) bekanntestes Modell: Rasch-Modell Antwort auf ein Item (messbar) PROBABILISTISCHE TESTTHEORIE Item-Characteristic-Curves Lösungswahrscheinlichkeit Fähigkeit (zu erschließende Ausprägung der Person auf der latenten Variable X) die Kurven zeigen Items mit unterschiedlicher Schwierigkeit 12

TESTTHEORIEN IM VERGLEICH KLASSISCH der wahre Wert einer Person auf einer latenten Variable äußert sich in den Testwerten der manifesten Variablen verschiedene Items sind prinzipiell Wiederholungen, also parallele Testmöglichkeiten der Fokus liegt auf der Testebene PROBABILISTISCH der wahre Wert einer Person auf einer latenten Variable äußert sich in in der Lösungswahrscheinlichkeit der manifesten Variablen verschiedene Items unterscheiden sich in ihrer Schwierigkeit und sind daher alle für sich informativ der Fokus liegt auf der Itemebene der klassische Ansatz ist immer noch vorherrschend, aber der probabilistische Ansatz setzt sich immer mehr durch TESTKONSTRUKTION kleinere Fragebögen oder einzelne Fragen werden meist per Augenscheinvalidität konstruiert und keiner weiteren Analyse unterzogen bei umfangreicheren Fragebögen oder Tests empfiehlt sich jedoch eine Testkonstruktion, die nach einem bestimmen Schema abläuft: 1. Finden geeigneter Items eigene Überlegungen Ableitung aus Theorien Vorstudien oder Expertenbefragung 2. Auswahl geeigneter Items 3. evtl. Itemanalyse Schwierigkeitsanalyse Trennschärfenanalyse 4. Reliabilitätsbestimmung 5. Validitätsbestimmung 6. evtl. Eichung/Normierung an einer größeren Stichprobe (üblich: 1000 2000 Personen) 13

FRAGEBÖGEN - TESTS - GÜTEKRITERIEN STECKBRIEF Fragebögen und Tests bestehen aus Items (Aufgaben, Fragen) Fragebögen messen Einstellungen und Eindrücke und werden meist auf Gruppenebene ausgewertet Tests messen Persönlichkeitseigenschaften oder die persönliche Leistung und werden meist auf Individuums-Ebene ausgewertet Tests werden durch Gütekriterien beurteilt: Objektivität, Reliabilität (Genauigkeit) und Validität (Gültigkeit) einzelne Items können darüber hinaus durch Schwierigkeit und Trennschärfe gekennzeichnet werden laut klassischer Testtheorie setzt sich ein gemessener Wert immer aus dem wahren Wert und einem Fehler zusammen laut probabilistischer Testtheorie äußert sich der wahre Wert durch die Lösungswahrscheinlichkeit unterschiedlich schwieriger Items Forschungsethik Forschungsethik gegenüber den Studienteilnehmern Forschungsethik gegenüber der wissenschaftlichen Gemeinde 14

FORSCHUNGSETHIK oft stehen der Erkenntnisdrang der Wissenschaft und die Integrität der untersuchten Personen und ihrer Daten im Widerspruch die Geschichte der Psychologie ist voll von unrühmlichen Beispielen es gibt daher eine Reihe ethischer Prinzipien, die einzuhalten sind Ethikkommissionen prüfen heute Forschungsanträge und erteilen oder verweigern ein Ethikvotum ethisches Handeln ist relevant sowohl gegenüber den untersuchten Personen als auch gegenüber den wissenschaftlichen Kolleg/innen und der Öffentlichkeit Milgram- Experiment ETHIK UND STUDIENTEILNEHMER Prinzipien (siehe Hussy et al., 2010): Freiwilligkeit der Teilnahme und permanente Möglichkeit des Abbruchs Gewährleistung der psychischen und physischen Unversehrtheit (wichtig: Ausschlusskriterien) Transparenz der Untersuchung (wenn möglich) Kosten-Nutzen-Konflikt Vermeidung von Täuschung (wenn möglich) Zusicherung von Anonymität und Vertraulichkeit der Daten Komplette Aufklärung am Ende der Studie Vertrag zwischen Versuchsleiter und Studienteilnehmer (informed consent) 15

ETHIK UND DIE WISSENSCHAFTSGEMEINDE Prinzipien für verantwortliches Forschen und Publizieren: keine Datenfälschung ehrliches Dokumentieren von Studienabläufen vollständiges Berichten aller Versuchsbedingungen und Daten keine Theoriebildung nach Datenlage keine Signifikanz um jeden Preis Quelle: Stern.de LITERATUR Bühner, M. (2003). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson. Huber, O. (1995). Das psychologische Experiment: Eine Einführung. Bern: Huber. Hussy, W., Schreier, M. & Echterhoff, G. (2010). Forschungsmethoden in Psychologie und Sozialwissenschaften. Heidelberg: Springer. Schäfer, T. (2010). Statistik I. Deskriptive und Explorative Datenanalyse. Wiesbaden: Springer VS. Schuler, H. (1980). Ethische Probleme psychologischer Forschung. Göttingen: Hogrefe. Sedlmeier, P. & Renkewitz, F. (2013). Forschungsmethoden und Statistik: Ein Lehrbuch für Psychologen und Sozialwissenschaftler. München: Pearson. 16