Messung, Skalen, Indices

VI Messung, Skalen, Indices 1 Der Big Mac - Index - Kaufkraft einer Währung û theoretisches Konstrukt direkt nicht meßbar û Messung durch beobachtbare Indikatorvariable üblich: Wechselkurse - Vorschlag der Messung: û lokaler Preis des BigMac û dafür spricht: homogenes Gut - auf der ganzen Welt in derselben Qualität û dagegen spricht: riskant - nur ein einziger Indikator Warenkorb-Idee gewichtete Preise für bestimmte Waren û welche Waren û welche Gewichte 1

Messung des Lebensstandards - Vorgeschlagene Indices û BSP Bruttosozialprodukt Bruttowertschöpfung, berücksichtigt nicht: Schatten-, Subsistenzwirtschaft, Verteilung des Wohlstands û HDI Human Development Index Index aus Lebenserwartung bei Geburt, Alphabetisierungsrate und Kaufkraftbereinigtem BSP Als Verbesserung des BSP von der UNO angestrebt û ABM Arbeitszeit um einen BigMac zu kaufen Nur zur Illustration hier vorgeschlagen - Prüfung neuer Indices û Ist ABM ein geeigneter (valider) Index für Lebensstandard û Methodisches Hilfsmittel der Validierung: Korrelation - Korrelation û Schätzung des linearen Zusammenhangs zwischen intervallskalierten Variablen û Eigenschaften von Korrelation R -1 < R < 1 0... kein 1... perfekter linearer Zusammenhang Empirischer Validierungstest neuer Indikatoren: û Zusammenhang des vorgeschlagenen Indikators mit einem akzeptierten Maß û Zusammenhang erfaßt durch Korrelation 2

Bsp: Empirische Validierung des ABM-Index Ort ABM BSP HDI Chicago 14 (1) 22 240 (3) 0,961 (5,5) Zürich 21 (2) 33 610 (1) 0,986 (1) Frankfurt 23 (3) 23 650 (2) 0,967 (3) Wien 27 (4) 20 140 (4) 0,961 (5,5) Amsterdam 28 (5) 18 780 (5) 0,984 (2) Madrid 31 (6) 12 450 (6) 0,965 (4) Buenos Aires 66 (7) 2 790 (8) 0,910 (7) Mexiko 90 (8) 3 030 (7) 0,876 (8) Bombay 92 (9) 330 (10) 0,439 (10) Nairobi 177 (10) 340 (9) 0,481 (9) û Validierungsmaß Korrelation: ABM / BSP = -0,79 ABM / HDI = -0,84 BSP / HDI = 0,71 û ABM könnte nicht besser passen! Aber: Nicht den akzeptierten HDI durch ABM ersetzen: û keine akzeptablen theoretischen Gründe û ABM wird der empirischen Validierung mit mehr Daten nicht standhalten 3

Messung eines theoretischen Konstrukts in SoWi - Theoretische Konstrukte û direkt nicht beobachtbar û Auswahl geeigneter, beobachtbarer Indikatoren - Meßfehler û Zufallsfehler û systemat. Fehler durch multiple Indikatoren verringern identifizieren - Gütekriterien der Messung û reliabel - zuverlässig û valide - gültig - Methodisches Hilfsmittel û Korrelation Theoretische Konstrukte: nicht Meßbares der Messung zugänglich machen 4

Wichtige Begriffe - Operationalisierung û genaue Anweisungen, wie man Untersuchungseinheiten zu Kategorien einer Variablen zuweist û werden Zahlen als Werte zugeordnet, so sagt man: Messung - Skalierung - Indexbildung - Messung Objekten werden nach bestimmten Regeln Zahlen zugeordnet - Skalierung Der Messung werden Annahmen (Modell) über die Struktur der Beobachtungen unterstellt - Index Die Werte werden durch Rechnung aus anderen Variablen bestimmt Gebrauch der Begriffe uneinheitlich und überschneidend 5

2 Einstellungsmessung mit der Likert-Technik Idee der Likert-Skala - Konzeptspezifikation für komplexe Begriffe û Zerlegung in Dimensionen û Items zur Erfassung der Dimensionen û Messung der Items: Zustimmung auf einer 5-Punkte-Antwortskala - Technik summierter Einschätzungen û Summe der Item-Antworten û Skala, obwohl kein Meßmodell dahinter C Wenn wir so weiter machen wie bisher, steuern wir auf eine Umweltkatastrophe zu stimme absolut nicht zu stimme nicht zu teils/teils stimme zu stimme voll zu (1) (2) (3) (4) (5) û Ziel: Geeignete Items finden, die den Begriff abdecken û Zustimmung / Ablehnung einzelner Items û Aus allen Items eine Summenantwort 6

Entwicklung und Auswertung von Skalen - Entwicklung von Skalen Items mit mehr als 100 Items 20-30 geeignete ermitteln ausgetestete Skala mit ca. 20 Items für Untersuchungen - Polen von Items positiv / negativ bezüglich Zieldimension spezifisches Antwortverhalten erkennen (Ja-Sager z.b.) - Item - Nonresponse wenn eine Antwortreaktion fehlt, Person eliminieren Voraussetzung: kein Selektionsfaktor Ziel: û Ungeeignete Versuchspersonen erkennen û Geeignete von weniger geeigneten Items zu isolieren û Erprobte Skalen für spätere Untersuchungen 7

Prüfung der Itemzuverlässigkeit Reaktionen der ersten 10 Befragten - Items A-D A* B* C D Person Summenscore 1 3 4 5 2 14 2 3 5 5 5 18 3 5 3 1 5 14 4 3 5 5 4 17 5 3 4 5 -** -** 6 3 -** 5 3 -** 7 2 5 5 4 16 8 4 5 5 5 19 9 5 5 5 4 19 10 1 1 5 5 12 * umgepolt ** missing - Antwortreaktionen konsistent (Nr. 8) - inkonsistent (Nr. 10) zufälliger Meßfehler systematische Verzerrungen (û Fremddimension?) - Zuordnung der Antwort Item A: Wiss. & Technik werden Umweltprobleme lösen Zustimmung von û Technikoptimisten û Umweltbewußten 8

Trennschärfe zur Prüfung der Zuverlässigkeit - Zuverlässigkeit der Person û Antwortmuster û konsistentes Antwortverhalten û unterscheidet sich nicht zu sehr von anderen - Itemzuverlässigkeit û Summenscore = vorläufiges Maß einer Person û Prüfgröße: Trennschärfekoeffizient Korrelationskoeffizient einzelner Items mit Summenscore - Korrelation r: -1 # r # 1 û für einige Items klein, abweichend von anderen: geringer zuverlässig, eliminieren û Voraussetzung: Mehrzahl Items erfaßt wirklich zu messende Einstellung Bsp: Umweltitems B-K: r von 0,43 bis 0,69; nur A 0,39 A weglassen; Fremddimension : Technikeinschätzung - Modifikationen: ûbereinigte Trennschärfekoeffizienten ûsumme standardisierter Scores Vergleichsmaßstab bei û Personen: allgemeine Muster im Antwortverhalten Durchschnitt anderer Personen û Items: Summenscore 9

3 Gütekriterien der Messung: Objektivität, Reliabilität, Validität Objektivität - Unabhängigkeit von Personen Person, die Meßinstrument anwendet, hat keinen Einfluß - Prüfung: Korrelation zwischen Messungen von A und B Punktwolke der Messungen von A und B ist sehr eng - Typen von Objektivität û Durchführungsobjektivität: A und B lösen bei Probanden X dieselbe Antwort aus û Auswertungsobjektivität: A und B berichten bei X dasselbe Meßergebnis Bsp: Bewertung von Aufsätzen in Deutsch Objektivität ist Grundvoraussetzung wissenschaftlicher Messungen 10

Reliabilität - Reproduzierbarkeit von Meßergebnissen: Zusammenhang von Messung und Wiederholungsmessung û Punktwolke eng? û Korrelation hoch? - Art der Wiederholungsmessung û Paralleltest: 2 vergleichbare Meßinstrumente Wiederholung durch ein anderes Instrument û Test-Retest: Wiederholung der Messung Echte Wiederholung der Messung Stabilität!? der zu messenden Eigenschaft û Testhalbierung: Split half eines Meßinstruments Künstlich erzeugte Wiederholung durch Zerlegung eines Tests mit multiplen Indikatoren Welche Aufteilung? Kürzerer Test ist automatisch weniger aussagekräftig Reliabilität Validität Man kann immer wieder denselben Fehler machen - die Ergebnisse sind dann reliabel, aber nicht gültig 11

Reliabilitätsschätzung am Bsp. Umweltskala 10 Items B-K: 10 # Summenscore # 50 bei 367 Personen: min = 14, max = 50 Mittelwert = 36 S 1 = B + D + F + H + J ; S 2 = C + E + G + I + K û Testhalbierungsreliabilität r S 1 S 2 = 0,656 Korrektur wegen Unterschätzung: r S1 = 2 r S1 S 2 = 0,79 1 + r S1 S 2 û Cronbachs á Abhilfe gegen willkürliche Auswahl der Subskala α = n r 1 + r ( n -1) = 0,77 r n ist der Mittelwert der Korrelation einzelner Items untereinander die Zahl aller Items Reliabilität abhängig von Interkorrelation der Items Anzahl der Items Gefahr des Aufblähens der Reliabilität durch viele, ähnliche Items zulasten der Gültigkeit (Validität) des Inhalts 12

Validität objektiv und reliabel valide - Gültigkeit von Meßinstrument = zweckmäßige Definition erfaßt Operationalisierung eines Begriffs des Begriff valide? - Grad der Genauigkeit, mit dem ein Test das Merkmal / die Einstellung mißt, das/die er messen soll Bsp: BET Büroklammern-Entwirr-Test zur Messung der Intelligenz 100 Büroklammern miteinander verknüpft; in 5 Minuten entwirren. Score = Anzahl der entwirrten Klammern Eine Person ist umso intelligenter (Def.=) je größer ihr BET objektiv; sei reliabel unterstellt; valide? Hierarchie der Eigenschaften objektiv = notwendig, aber nicht hinreichend für reliabel = notwendig, aber nicht hinreichend für valide 13

Typen von Validität - Inhaltsvalidität û Ist die Auswahl von Items repräsentativ für die zu messende Eigenschaft? - Kriteriumsvalidität û Korreliert das Resultat des Meßinstruments hoch mit anderen relevanten Merkmalen? û Diese sog. Außenkriterien müssen unabhängig vom Meßinstrument sein û Übereinstimmung / Vorhersage - Konstruktvalidität û Meßinstrument steht mit vielen anderen Variablen in theoretischem Zusammenhang, û aus diesem Zusammenhang Hypothesen ableiten und empirisch prüfen û Vergleichsmaßstab nicht einzelne Außenkriterien, sondern ihr theoretischer Zusammenhang Prüfung der Validität û wichtig û sehr schwierig 14

Kriterien am Bsp: Umweltskala û Inhaltsvalidität sämtliche Aussagen sondieren (öffentliche Diskussion, Literatur etc) Expertenrating û Kriteriumsvalidität Übereinstimmung mit Mitgliedschaft in Umweltorganisationen Vorhersage des Wahlverhaltens (Grüne etc.) û Konstruktvalidität Forschungsprogramm Ansatz Multitrait-multimethod Methode: Interview - Beobachtung Eigenheit: U Umwelthandeln, K Kooperationsverhalten Interview Beobachtung Interview Beobachtung U K U K U (0,80) K 0,40 (0,78) U 0,59 0,25 (0,72) K 0,28 0,50 0,34 (0,70) (...) Gleiche Methode, gleiches Konstrukt: Reliabilität durch split half fett Validitätskoeffizienten: gleiches Konstrukt, andere Methode 15