Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Ähnliche Dokumente
Reliabilitäts- und Itemanalyse

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Einführung in die Statistik Testgütekriterien

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Gütekriterien. Gütekriterien. Gütekriterien. Reliabilität Validität. Spezifität. Sensitivität. Praktikabilität.

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Auswahl von Testaufgaben

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Psychologische Diagnostik

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Grundlagen der empirischen Sozialforschung

GÜTEKRITERIEN SPEZIFISCH p. 1

Messung, Skalen, Indices

Das Minimale Dokumentationssystem (MIDOS²) als deutsche Version der Edmonton Symptom Assessment Scale (ESAS): - Ein Instrument für die Pflege?

Empirisches Relativ: Eine Menge von Objekten, über die eine Relation definiert wurde.

Forschungsmethoden VORLESUNG SS 2017

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Forschungsmethoden VORLESUNG WS 2017/2018

4.2 Grundlagen der Testtheorie

SF-36 Fragebogen zum Gesundheitszustand. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Julia Plato Datum:

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

I-S-T 2000-R: INTELLIGENZ- STRUKTUR TEST 2000-R BITTE HANDBUCH ANSEHEN

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

"Eigenschaften-Situationen-Verhaltensweisen - ESV" Eine ökonomische Ratingform des 16 PF. Werner Stangl. Zielsetzung

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

FH Magdeburg-Stendal, Studiengang Rehabilitationspsychologie Seminar Testen und Entscheiden Dozentin Susanne Jäger Referentin Angela Franke, 1. Sem.

Rekodierung invertierter Items

6. Faktorenanalyse (FA) von Tests

Die Subskala besteht aus folgenden Items (Ausschnitt aus dem Codeplan):

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Fragebogen zu Gedanken und Gefühlen (FGG)

Übung: Praktische Datenerhebung

Name Vorname Matrikelnummer Unterschrift

Grundlagen sportwissenschaftlicher Forschung Test

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Grundlagen der Testkonstruktion

Differenzierung und Systematik diagnostischer Testverfahren

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Tutorial:Unabhängigkeitstest

Methode der Naturwissenschaften

Rating-Skalen: Definition

Messung Emotionaler Intelligenz. Prof. Dr. Astrid Schütz - Universität Bamberg

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Übung Methodenlehre I, SeKo

Entwicklung und Erprobung eines Verhaltensfragebogens für geistig und lernbehinderte Heimkinder (VFHK)

Forschungsmethoden VORLESUNG WS 2017/2018

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Einführung in die Test- und Fragebogenkonstruktion

Inventar zur Erfassung interpersonaler Probleme (IIP-D)

IBS-KJ Interviews zu Belastungsstörungen bei Kindern und Jugendlichen

ein Reiz aus vielen, der zu einem bestimmten Urteil passt: z.b. " am schönsten" "am größten"

Ablauf. Selbstkonkordanz. Selbstkonkordanz. Selbstkonkordanz. Fokus der Studie. Selbstkonkordanz und Sportteilnahme

Kritik standardisierter Testverfahren. am Beispiel des IST-70

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

Forschungsmethoden VORLESUNG SS 2017

Beispielberechnung Vertrauensintervalle

Bildungsurlaub-Seminare: Lerninhalte und Programm

T E S T G Ü T E K R I T E R I E N W O R K S H O P I N F R E I B U R G N O V E M B E R

Fragebogen zur Internetsucht (ISS-20 r ) und Normwerte André Hahn, Matthias Jerusalem & Sabine Meixner-Dahle 15. November 2014

Effektstärken Nachtrag

III. Methoden der empirischen Kommunikations forschung. Hans-Bernd Brosius Friederike Koschel. Eine Einführung. 3. Auflage - CKIZ

Theorien der Persönlichkeit

Untersuchungsarten im quantitativen Paradigma

Messtherorie Definitionen

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Was ist eine Testtheorie?

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Gütekriterien von Messungen

Grundlagen der Statistik

Gliederung. Ursachen von Ergebnisverfälschung. Antworttendenzen/Urteilsfehler. Empirische Forschungsmethoden

Lehrbuch Psychologische Diagnostik

Einführung Fehlerrechnung

Schuldneigungen - Voraussetzungen und Folgen

Fakultät für Psychologie. Der Bochumer Wissenstest (BOWIT) Eine Analyse hinsichtlich Geschlecht und Testmedium

Psychologische Diagnostik

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Aufgaben und Ziele der Wissenschaften

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Die Skala Angst vor negativer Bewertung-5 (SANB-5) Eine Kurzskala zur Erfassung von Bewertungsängstlichkeit

Statistische Grundlagen I

Gütekriterien: Validität (15.5.)

Transkript:

KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und Tests Systematisierung von Tests Itemarten Skalenarten im Detail Die Likert Skala Skala: Eine Skala ist ein Instrument zur Messung von (theoretischen) Konzepten, wie Intelligenz oder Einstellungen (z.b. Fremdenfeindlichkeit, Arbeitsmotivation, Umweltbewusstsein, Wohnzufriedenheit). Ziel der Skalenbildung: Eine Person auf einer Skala einzustufen, d.h. hinsichtlich eines zu untersuchenden Konzeptes oder Merkmals (z.b. Umweltbewusstsein, Autoritarismus ) einen Skalenwert, zuordnen. Der Skalenmesswert bringt dann zum Ausdruck, wo sich die Person auf der untersuchten Dimension befindet. Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item Basis einer Skala ist eine Anzahl von Items, die zur Erfassung der zu messenden Variablen ausgewählt worden sind und mit Hilfe der Itemanalyse in Hinblick auf ihre Zuverlässigkeit überprüft wurden. Häufige Anwendungsfelder: Einstellungsskalen, psychologische Tests =============== Skalenbildung === Folie 1 ========================

Psychologische Tests (Leistungstests, Intelligenztests etc.) sind ebenfalls Skalen Primäres Einsatzfeld Psychologische Diagnostik Mögliche Systematisierung von Tests nach Brickenkamp (Hrsg.), Handbuch psychologischer und pädagogischer Tests A Leistungstests Entwicklungstests Intelligenzallgemeine Leistungs- Schulspezielle Funktionsprüfungs und Eignungstests B Psychometrische Leistungstests Persönlichkeits-Struktur- Einstellungs- Interessen- Klinische Tests C Persönlichkeits-Entfaltungsverfahren Formdeuteverfahren Verbal-thematische Verfahren Zeichnerische und Gestaltungsverfahren =============== Skalenbildung === Folie 2 ========================

Einstellungsskalen, drei Typen von Skalen Likert Scale: Methode der summierten Schätzwerte Thurstone Scale: Methode der gleich erscheinenden Intervalle Guttman Scale: Skalogramm-Methode Terminologie bei der Skalenbildung: Item Gesamtskala, Subskalen Score (Testwert) Trennschärfe Reliabilität Itemarten Forced-choice Items die Antwort bei einem Item beeinflußt die Beantwortung weitere Items, zumeist werden Dyaden und Triaden mit 2 oder 3 Entscheidungsalternativen eingesetzt =============== Skalenbildung === Folie 3 ========================

Vergleich der Vor- und Nachteile von forced-choice Items der Proband Beeinflussung der Items Vorteil Nachteil normale Items gibt die Intensität eines Urteils an forced-choice muß eine Entscheidung treffen unabhängige Items abhängige Items ökonomische Auswertung und Verrechnung Anfälligkeit gegenüber systematischen Reaktionen der Probanden soziale Erwünschtheit und allgemeine Antworttendenzen spielen geringere Rolle schwierigere Testkonstruktion Skalenarten im Detail Likert Scale umfasst in der Regel eine Reihe von Einstellungsitems oder Wertitems. Zu jedem Item werden die Probanden nach dem Ausmaß der Übereinstimmung oder Nichtübereinstimmung gefragt. Die Messwerte werden summiert, dann ggfs. gemittelt und ergeben den individuellen Messwert einer Person auf dem Kontinuum des untersuchten Merkmals. (Beispiel Skala Umweltbewusstsein) =============== Skalenbildung === Folie 4 ========================

Implizite und explizite Voraussetzungen dieser Art der Skalierung: 1. die Items sind gleichwertig 2. es wird keine Skalierung der Items vorgenommen, sondern der Personen 3. Existenz eines Einstellungsuniversums U mit einer prinzipiell nicht begrenzten Anzahl der Items 4. Jede Teilmenge von Items aus U entspricht theoretisch jeder anderen Beispiel: 3 Items aus der F-Skala zur Messung autoritärer Einstellung (Adorno u.a., The Autoritarian Personality, 1950) Gehorsam und Respekt vor der Autorität sind die wichtigsten Tugenden, die Kinder lernen sollen. Was die Jugend am dringendsten braucht, ist strenge Disziplin, eiserne Entschlossenheit und den Willen zur Arbeit und zum Kampf für Familie und Vaterland. Die Wissenschaften haben zwar ihre Bedeutung, aber es gibt viele Dinge, die der menschliche Geist wohl nie begreifen wird. Problem: Allgemeine Reaktionsformen (z.b. dass jemand eher zu Extremen neigt, jemand anders eher verhaltene Äußerungen von sich gibt) beeinflussen den Skalenwert. =============== Skalenbildung === Folie 5 ========================

Die einzelnen Schritte der Skalenbildung 1. Auswahl der Items, d.h. man sammelt Items, von denen man begründet annimmt, dass sie zur gleichen Dimension gehören. Man wählt eine bestimmte Form von Skala aus, z.b. 3er, 5er, 7er Skala (etwa stimme stark zu bis lehne stark ab ) 2. Voruntersuchung mit etwa 100 Probanden 3. Berechnungsart für den Gesamtpunktwert festlegen 4. Prüfung der Skalenreliabilität (d.h. der Zuverlässigkeit der Messung) durch ein geeignetes Verfahren, z.b. split-half. Frage: wie groß ist das Ausmaß der Streuung bei Wiederholter Messung, wie zuverlässig ist der Meßwert? 5. Prüfung der Dimensionalität der Items 6. Entscheidung über Auswahl und Anordnung der Items auf der endgültigen Skala 7. Prüfung der Validität der Skala Trennschärfe: Die Trennschärfe eines Items ist der Korrelationskoeffizient zwischen den Antworten jedes Probanden auf dieses eine Item und ihrer Werte bzgl. der gesamten Skala. Anders ausgedrückt: "Der Trennschärfe eines Items ist zu entnehmen, wie gut das gesamte Testergebnis aufgrund der Beantwortung eines einzelnen Items vorhersagbar ist." (Bortz/Döring 1995, S. 200) Die Trennschärfe ist das wichtigste Beurteilungskriterium bei der Itemanalyse, denn bei der Itemanalyse sollen ja =============== Skalenbildung === Folie 6 ========================

gerade die Items herausgefunden werden, die 'gute' von 'schlechten' Vpn trennen. Die Trennschärfe kann nur Werte zwischen -1 und +1 annehmen, je höher die Werte im positiven Bereich liegen, desto besser. Konsequenz: Bei der Itemanalyse ist es sinnvoll ist, die Items mit niedrigen Trennschärfen aus der Skala zu entfernen. Items mit hohen Trennschärfewerten führen in der Regel zu einem hohen Alphawert für die Gesamtskala. Prüfung der Skalenreliabilität mittels der SPSS- Prozedur Reliability >> siehe SPSS Beispiel Berechnet wird der Reliabilitätskoeffizient Cronbachs Alpha Alpha ist ein Koeffizient, der angibt, wie reliabel eine Skala ist. Es ist ein sehr häufig benutztes Maß, das auf der internen Konsistenz einer Skala basiert. Es ist ein Maß für die Zuverlässigkeit der Skala. Alpha kann Werte zwischen 0 und 1 annehmen. In der sozialwissenschaftlichen Forschung gelten Skalen mit Alpha zwischen 0,7 und 0,8 als brauchbar. Je höher der Alphawert wird, desto 'besser' ist die interne Konsistenz der Skala. Werte zwischen 0,9 und 0,99 gelten als sehr gut und werden außer in der psychologischen Diagnostik nur selten erreicht. Bedeutung von Alpha: Die durchschnittliche Korrelation von Items innerhalb eines Tests unter der Voraussetzung, dass sie standardisiert sind. =============== Skalenbildung === Folie 7 ========================

Bedingung: Die Items müssen positiv korreliert sein, ansonsten müssen Items umcodiert werden (Umpolung der Skala). Berechnung von Cronbachs Alpha Voraussetzung: die Variablen sind standardisiert) α = k r 1+ ( k 1) r k ist gleich der Anzahl der Items in der Skala und r ist der durchschnittliche Korrelationskoeffizient. Für den Fall, dass man 10 Items mit einer durchschnittlichen Korrelation von r=0,20 hat, ergibt sich ein Alpha von 0,71. Wird die Zahl der Items auf 25 erhöht, beträgt Alpha 0,86. Alpha steigt also mit der Anzahl der Items an und kann auch bei relativ niedriger Korrelation der Items untereinander beträchtlich sein. Alternative Reliabilitätsmodelle: Split-half oder Parallelformen eines Tests =============== Skalenbildung === Folie 8 ========================

Prüfung der Validität Verschiedene Konzepte der Gültigkeitsermittlung: Augenscheinliche Validität (face validity) Inhaltliche Validität (content validity) Expertenvalidität (expert validity) Parallelenvalidität (concurrent validity) = Validierung an einem Außenkriterium Prognosevalidität (predictive validity) Extremgruppenvalidität Known-groups validity Konstruktvalidität (construct validity) = Forderung nach Konsistenz mit den entsprechenden theoretischen Konstrukten Unterscheidung von interner und externer Validität, wobei interne = der Eindeutigkeit der Messung und externe = der Generalisierbarkeit der Ergebnisse Thurstone Scale Items weisen unterschiedlichen Intensitätsgrad auf, sie werden von einer Expertenstichprobe auf einer meist 9 oder 11 Kategorien umfassenden Skala zugeordnet. Jedem Item kann nun ein Skalenwert zugeordnet werden. Individueller Skalenwert wird dann als Summe der mit den Skalenwerten gewichteten Items berechnet. =============== Skalenbildung === Folie 9 ========================