Messung, Skalen, Indices

Ähnliche Dokumente
Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Reliabilitäts- und Itemanalyse

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Empirisches Relativ: Eine Menge von Objekten, über die eine Relation definiert wurde.

Messtherorie Definitionen

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Grundlagen der empirischen Sozialforschung

Forschungsmethoden VORLESUNG WS 2017/2018

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Methode der Naturwissenschaften

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

Einführung in die Statistik Testgütekriterien

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Gütekriterien: Validität (15.5.)

Wo stehen wir? empir. Sachverhalt ( Phänomen der Realität) semantische Analyse( ) Definition ( ).

Messen und Statistik

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Aufgaben und Ziele der Wissenschaften

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

T E S T G Ü T E K R I T E R I E N W O R K S H O P I N F R E I B U R G N O V E M B E R

Fragen zur Selbstkontrolle Operationalisierung & Indikatorenauswahl

2.4 Indexbildung und Einblick in Skalierungsverfahren

Eigene MC-Aufgaben Kap. 4 Operationalisierung & Indikatorenauswahl (X aus 5)

Operationalisierung (1)

Bis heute: Überblick Einheit Literatur lesen. 2. Introspektion. 3. Thema definieren und eingrenzen. Untersuchungsproblem.

Methoden der empirischen Sozialforschung

4.2 Grundlagen der Testtheorie

Rekodierung invertierter Items

Gütekriterien von Messungen

Operationalisierung (nach Meyer 2007: 202f.)

2.3 Das Grundmodell der klassischen Testtheorie (KTT)

Psychologische Diagnostik

Grundlagen sportwissenschaftlicher Forschung Test

Intelligenz, Wissen und Problemlösen

Validitätsprüfung von Skalenitems mittels kognitiver Interviews am Beispiel ISSP National Identity

Radar gesellschaftlicher Zusammenhalt messen was verbindet. Gesellschaftlicher Zusammenhalt in Deutschland Kurze Einführung in die Methode

Empirische Sozialforschung

Übung Methodenlehre I, SeKo

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Übung: Praktische Datenerhebung

Einführung Fehlerrechnung

Theorien der Persönlichkeit

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

Teil 2 Entwicklung einer Bilderskala zur Messung markenrelevanter Emotionen

1 EINLEITUNG... 1 TEIL I: STAND DER FORSCHUNG PROFESSIONELLES WISSEN UND HANDELN VON LEHRKRÄFTEN Fachwissen...

Pädagogisch-psychologische Diagnostik und Evaluation

Modulabschlussprüfung SM 2

Teil I: Methoden der Politikwissenschaft

Inhaltsverzeichnis. 1 Warum und für wen dieses Buch Ziele Überblick Benutzungshinweise... 4

4. STRATEGIEN DER OPERATIONALISIERUNG UND INDIKATORENAUSWAHL

Überblick der heutigen Sitzung

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

Ablauf. Selbstkonkordanz. Selbstkonkordanz. Selbstkonkordanz. Fokus der Studie. Selbstkonkordanz und Sportteilnahme

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

III. Methoden der empirischen Kommunikations forschung. Hans-Bernd Brosius Friederike Koschel. Eine Einführung. 3. Auflage - CKIZ

Differenzierung und Systematik diagnostischer Testverfahren

Überblick über die ProbabilistischeTesttheorie

Psychologische Diagnostik

Phasen des Forschungsprozesses (hypothesenprüfende Studie)

7. Index- und Verhältniszahlen

Angewandte Marktanalyse und Marktforschung

Drum prüfe, wer sich zeitlich bindet und lohnt sich die Investition in ein Einzel-Assessment auch in Zukunft?

Globalisierung und Entwicklung

WAS IST LEBENSQUALITÄT? DIPL. PGW R. BECKER

Auszubildend einstellen ohne Noten? Geht das? Ein neuer Weg der Rekrutierung

Vorlesung 3: Schätzverfahren

Empirische Sozialforschung

Psychologische Methodenlehre Statistik

Klausurvorbereitung - Statistik

6-Variablen-Fall. Dipl.-Ök. John Yun Bergische Universität Wuppertal Gaußstraße Wuppertal

Name Vorname Matrikelnummer Unterschrift

Maximilian Sonnauer. Messung von Diskriminierung

BIP. Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Empirische Forschungsmethoden

Transkript:

VI Messung, Skalen, Indices 1 Der Big Mac - Index - Kaufkraft einer Währung û theoretisches Konstrukt direkt nicht meßbar û Messung durch beobachtbare Indikatorvariable üblich: Wechselkurse - Vorschlag der Messung: û lokaler Preis des BigMac û dafür spricht: homogenes Gut - auf der ganzen Welt in derselben Qualität û dagegen spricht: riskant - nur ein einziger Indikator Warenkorb-Idee gewichtete Preise für bestimmte Waren û welche Waren û welche Gewichte 1

Messung des Lebensstandards - Vorgeschlagene Indices û BSP Bruttosozialprodukt Bruttowertschöpfung, berücksichtigt nicht: Schatten-, Subsistenzwirtschaft, Verteilung des Wohlstands û HDI Human Development Index Index aus Lebenserwartung bei Geburt, Alphabetisierungsrate und Kaufkraftbereinigtem BSP Als Verbesserung des BSP von der UNO angestrebt û ABM Arbeitszeit um einen BigMac zu kaufen Nur zur Illustration hier vorgeschlagen - Prüfung neuer Indices û Ist ABM ein geeigneter (valider) Index für Lebensstandard û Methodisches Hilfsmittel der Validierung: Korrelation - Korrelation û Schätzung des linearen Zusammenhangs zwischen intervallskalierten Variablen û Eigenschaften von Korrelation R -1 < R < 1 0... kein 1... perfekter linearer Zusammenhang Empirischer Validierungstest neuer Indikatoren: û Zusammenhang des vorgeschlagenen Indikators mit einem akzeptierten Maß û Zusammenhang erfaßt durch Korrelation 2

Bsp: Empirische Validierung des ABM-Index Ort ABM BSP HDI Chicago 14 (1) 22 240 (3) 0,961 (5,5) Zürich 21 (2) 33 610 (1) 0,986 (1) Frankfurt 23 (3) 23 650 (2) 0,967 (3) Wien 27 (4) 20 140 (4) 0,961 (5,5) Amsterdam 28 (5) 18 780 (5) 0,984 (2) Madrid 31 (6) 12 450 (6) 0,965 (4) Buenos Aires 66 (7) 2 790 (8) 0,910 (7) Mexiko 90 (8) 3 030 (7) 0,876 (8) Bombay 92 (9) 330 (10) 0,439 (10) Nairobi 177 (10) 340 (9) 0,481 (9) û Validierungsmaß Korrelation: ABM / BSP = -0,79 ABM / HDI = -0,84 BSP / HDI = 0,71 û ABM könnte nicht besser passen! Aber: Nicht den akzeptierten HDI durch ABM ersetzen: û keine akzeptablen theoretischen Gründe û ABM wird der empirischen Validierung mit mehr Daten nicht standhalten 3

Messung eines theoretischen Konstrukts in SoWi - Theoretische Konstrukte û direkt nicht beobachtbar û Auswahl geeigneter, beobachtbarer Indikatoren - Meßfehler û Zufallsfehler û systemat. Fehler durch multiple Indikatoren verringern identifizieren - Gütekriterien der Messung û reliabel - zuverlässig û valide - gültig - Methodisches Hilfsmittel û Korrelation Theoretische Konstrukte: nicht Meßbares der Messung zugänglich machen 4

Wichtige Begriffe - Operationalisierung û genaue Anweisungen, wie man Untersuchungseinheiten zu Kategorien einer Variablen zuweist û werden Zahlen als Werte zugeordnet, so sagt man: Messung - Skalierung - Indexbildung - Messung Objekten werden nach bestimmten Regeln Zahlen zugeordnet - Skalierung Der Messung werden Annahmen (Modell) über die Struktur der Beobachtungen unterstellt - Index Die Werte werden durch Rechnung aus anderen Variablen bestimmt Gebrauch der Begriffe uneinheitlich und überschneidend 5

2 Einstellungsmessung mit der Likert-Technik Idee der Likert-Skala - Konzeptspezifikation für komplexe Begriffe û Zerlegung in Dimensionen û Items zur Erfassung der Dimensionen û Messung der Items: Zustimmung auf einer 5-Punkte-Antwortskala - Technik summierter Einschätzungen û Summe der Item-Antworten û Skala, obwohl kein Meßmodell dahinter C Wenn wir so weiter machen wie bisher, steuern wir auf eine Umweltkatastrophe zu stimme absolut nicht zu stimme nicht zu teils/teils stimme zu stimme voll zu (1) (2) (3) (4) (5) û Ziel: Geeignete Items finden, die den Begriff abdecken û Zustimmung / Ablehnung einzelner Items û Aus allen Items eine Summenantwort 6

Entwicklung und Auswertung von Skalen - Entwicklung von Skalen Items mit mehr als 100 Items 20-30 geeignete ermitteln ausgetestete Skala mit ca. 20 Items für Untersuchungen - Polen von Items positiv / negativ bezüglich Zieldimension spezifisches Antwortverhalten erkennen (Ja-Sager z.b.) - Item - Nonresponse wenn eine Antwortreaktion fehlt, Person eliminieren Voraussetzung: kein Selektionsfaktor Ziel: û Ungeeignete Versuchspersonen erkennen û Geeignete von weniger geeigneten Items zu isolieren û Erprobte Skalen für spätere Untersuchungen 7

Prüfung der Itemzuverlässigkeit Reaktionen der ersten 10 Befragten - Items A-D A* B* C D Person Summenscore 1 3 4 5 2 14 2 3 5 5 5 18 3 5 3 1 5 14 4 3 5 5 4 17 5 3 4 5 -** -** 6 3 -** 5 3 -** 7 2 5 5 4 16 8 4 5 5 5 19 9 5 5 5 4 19 10 1 1 5 5 12 * umgepolt ** missing - Antwortreaktionen konsistent (Nr. 8) - inkonsistent (Nr. 10) zufälliger Meßfehler systematische Verzerrungen (û Fremddimension?) - Zuordnung der Antwort Item A: Wiss. & Technik werden Umweltprobleme lösen Zustimmung von û Technikoptimisten û Umweltbewußten 8

Trennschärfe zur Prüfung der Zuverlässigkeit - Zuverlässigkeit der Person û Antwortmuster û konsistentes Antwortverhalten û unterscheidet sich nicht zu sehr von anderen - Itemzuverlässigkeit û Summenscore = vorläufiges Maß einer Person û Prüfgröße: Trennschärfekoeffizient Korrelationskoeffizient einzelner Items mit Summenscore - Korrelation r: -1 # r # 1 û für einige Items klein, abweichend von anderen: geringer zuverlässig, eliminieren û Voraussetzung: Mehrzahl Items erfaßt wirklich zu messende Einstellung Bsp: Umweltitems B-K: r von 0,43 bis 0,69; nur A 0,39 A weglassen; Fremddimension : Technikeinschätzung - Modifikationen: ûbereinigte Trennschärfekoeffizienten ûsumme standardisierter Scores Vergleichsmaßstab bei û Personen: allgemeine Muster im Antwortverhalten Durchschnitt anderer Personen û Items: Summenscore 9

3 Gütekriterien der Messung: Objektivität, Reliabilität, Validität Objektivität - Unabhängigkeit von Personen Person, die Meßinstrument anwendet, hat keinen Einfluß - Prüfung: Korrelation zwischen Messungen von A und B Punktwolke der Messungen von A und B ist sehr eng - Typen von Objektivität û Durchführungsobjektivität: A und B lösen bei Probanden X dieselbe Antwort aus û Auswertungsobjektivität: A und B berichten bei X dasselbe Meßergebnis Bsp: Bewertung von Aufsätzen in Deutsch Objektivität ist Grundvoraussetzung wissenschaftlicher Messungen 10

Reliabilität - Reproduzierbarkeit von Meßergebnissen: Zusammenhang von Messung und Wiederholungsmessung û Punktwolke eng? û Korrelation hoch? - Art der Wiederholungsmessung û Paralleltest: 2 vergleichbare Meßinstrumente Wiederholung durch ein anderes Instrument û Test-Retest: Wiederholung der Messung Echte Wiederholung der Messung Stabilität!? der zu messenden Eigenschaft û Testhalbierung: Split half eines Meßinstruments Künstlich erzeugte Wiederholung durch Zerlegung eines Tests mit multiplen Indikatoren Welche Aufteilung? Kürzerer Test ist automatisch weniger aussagekräftig Reliabilität Validität Man kann immer wieder denselben Fehler machen - die Ergebnisse sind dann reliabel, aber nicht gültig 11

Reliabilitätsschätzung am Bsp. Umweltskala 10 Items B-K: 10 # Summenscore # 50 bei 367 Personen: min = 14, max = 50 Mittelwert = 36 S 1 = B + D + F + H + J ; S 2 = C + E + G + I + K û Testhalbierungsreliabilität r S 1 S 2 = 0,656 Korrektur wegen Unterschätzung: r S1 = 2 r S1 S 2 = 0,79 1 + r S1 S 2 û Cronbachs á Abhilfe gegen willkürliche Auswahl der Subskala α = n r 1 + r ( n -1) = 0,77 r n ist der Mittelwert der Korrelation einzelner Items untereinander die Zahl aller Items Reliabilität abhängig von Interkorrelation der Items Anzahl der Items Gefahr des Aufblähens der Reliabilität durch viele, ähnliche Items zulasten der Gültigkeit (Validität) des Inhalts 12

Validität objektiv und reliabel valide - Gültigkeit von Meßinstrument = zweckmäßige Definition erfaßt Operationalisierung eines Begriffs des Begriff valide? - Grad der Genauigkeit, mit dem ein Test das Merkmal / die Einstellung mißt, das/die er messen soll Bsp: BET Büroklammern-Entwirr-Test zur Messung der Intelligenz 100 Büroklammern miteinander verknüpft; in 5 Minuten entwirren. Score = Anzahl der entwirrten Klammern Eine Person ist umso intelligenter (Def.=) je größer ihr BET objektiv; sei reliabel unterstellt; valide? Hierarchie der Eigenschaften objektiv = notwendig, aber nicht hinreichend für reliabel = notwendig, aber nicht hinreichend für valide 13

Typen von Validität - Inhaltsvalidität û Ist die Auswahl von Items repräsentativ für die zu messende Eigenschaft? - Kriteriumsvalidität û Korreliert das Resultat des Meßinstruments hoch mit anderen relevanten Merkmalen? û Diese sog. Außenkriterien müssen unabhängig vom Meßinstrument sein û Übereinstimmung / Vorhersage - Konstruktvalidität û Meßinstrument steht mit vielen anderen Variablen in theoretischem Zusammenhang, û aus diesem Zusammenhang Hypothesen ableiten und empirisch prüfen û Vergleichsmaßstab nicht einzelne Außenkriterien, sondern ihr theoretischer Zusammenhang Prüfung der Validität û wichtig û sehr schwierig 14

Kriterien am Bsp: Umweltskala û Inhaltsvalidität sämtliche Aussagen sondieren (öffentliche Diskussion, Literatur etc) Expertenrating û Kriteriumsvalidität Übereinstimmung mit Mitgliedschaft in Umweltorganisationen Vorhersage des Wahlverhaltens (Grüne etc.) û Konstruktvalidität Forschungsprogramm Ansatz Multitrait-multimethod Methode: Interview - Beobachtung Eigenheit: U Umwelthandeln, K Kooperationsverhalten Interview Beobachtung Interview Beobachtung U K U K U (0,80) K 0,40 (0,78) U 0,59 0,25 (0,72) K 0,28 0,50 0,34 (0,70) (...) Gleiche Methode, gleiches Konstrukt: Reliabilität durch split half fett Validitätskoeffizienten: gleiches Konstrukt, andere Methode 15