55.1 Indexbildung, Skalierungsverfahren, Skalen und Skalieren: eine kurze begriffliche Einleitung

Ähnliche Dokumente
Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Reliabilitäts- und Itemanalyse

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Operationalisierung (1)

Wo stehen wir? empir. Sachverhalt ( Phänomen der Realität) semantische Analyse( ) Definition ( ).

Was ist eine Testtheorie?

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Gruppenbezogene Menschenfeindlichkeit

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Eigene MC-Aufgaben Kap. 4 Operationalisierung & Indikatorenauswahl (X aus 5)

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Empirisches Relativ: Eine Menge von Objekten, über die eine Relation definiert wurde.

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Grundlagen der empirischen Sozialforschung

Empirische Forschungsmethoden

4. STRATEGIEN DER OPERATIONALISIERUNG UND INDIKATORENAUSWAHL

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Explorative Faktorenanalyse

Forschungsmethoden in der Sozialen Arbeit

Wissenschaftstheoretische Grundlagen

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Rekodierung invertierter Items

Empirische Sozialforschung

III. Methoden der empirischen Kommunikations forschung. Hans-Bernd Brosius Friederike Koschel. Eine Einführung. 3. Auflage - CKIZ

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Konzeptualisierungen, Daten und Indikatoren: Globale Wohlfahrtsmaße. Daniel Landes, Christian Flörchinger, Jens Siefert

Operationalisierung (nach Meyer 2007: 202f.)

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

6. Faktorenanalyse (FA) von Tests

Die Beziehung zwischen werbungtreibendem Unternehmen und Werbeagentur

Klausuraufgaben für Probeklausur. 1.Die Zuverlässigkeit von Kodierern in der Inhaltsanalyse kann man berechnen.

Aufgaben und Ziele der Wissenschaften

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Bis heute: Überblick Einheit Literatur lesen. 2. Introspektion. 3. Thema definieren und eingrenzen. Untersuchungsproblem.

Messung, Skalen, Indices

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Empirische Sozialforschung

Teil 1: Theorie des Kaufverhaltens bei Dienstleistungen

XIV. fragebogen. Wirtschaftsstatistik Datenproduktion und -analyse in der amtlichen Statistik. Statistisches Bundesamt

Einführung in die Theorie psychologischer Tests

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Tabelle 1.5: Relative Wichtigkeit von Ausprägungen.

Parametrische vs. Non-Parametrische Testverfahren

4.2 Grundlagen der Testtheorie

Vortrag Evaluation und Fragebogenkonstruktion

einzelne Items werden mit Zahlen verknüpft und nach festgelegten Regeln zu einem Score verrechnet

Teil I: Offenes Beispiel

Messtherorie Definitionen

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

0 Einführung: Was ist Statistik

Grundlagen der Statistik

Inhaltsanalyse: quantitativ und qualitativ Befragung: standardisiert, teil- und nichtstandardisiert Beobachtung Experiment

Gruppenbezogene Menschenfeindlichkeit in Bayern

Verhaltenswissenschaftliche Determinanten der Spenderbindung

Allgemeine Messtheorie erläutert im Bezug auf Armutsmessung Vorbereitungsmaterial

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Teil I: Methoden der Politikwissenschaft

Psychologische Diagnostik

Statistik. Jan Müller

Bivariate Analyseverfahren

Name Vorname Matrikelnummer Unterschrift

Konfirmatorische Faktorenanalyse

Einführung in die quantitative und qualitative Sozialforschung

Die Faktorenanalyse. Anwendung dann, wenn zwischen beobachtbaren und nicht direkt beobachtbaren Variablen ein kausales Verhältnis vermutet wird

Statistische Tests (Signifikanztests)

Exakter Binomialtest als Beispiel

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler

TESTS & BEOBACHTUNGSBÖGEN ALS INSTRUMENTE PÄDAGOGISCHER DIAGNOSTIK

AUSBLICK AUF WEITERE ANALYSEVERFAHREN IN DER STATISTIK 1

Auswahl von Testaufgaben

Modulprüfung Methoden der Dienstleistungsforschung

Wissenschaftstheoretische Grundlagen

Unternehmenskultur und radikale Innovation

1 Inhaltsverzeichnis. 1 Einführung...1

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Evaluation (10.7.) Definition Beschreibungsmerkmale von Evaluation Zu den Hausaufgaben Methodische Aspekte der (summativen) Evaluation

Marco Vannotti (Autor) Die Zusammenhänge zwischen Interessenkongruenz, beruflicher Selbstwirksamkeit und verwandten Konstrukten

5.6 Empirische Wirtschaftsforschung

Vorlesung 3: Schätzverfahren

Ein Modell für den Qualitätstest - Welche Fehler sind möglich?

Das Experiment als Teil quantitativer Datenerhebung Eine Einführung in die quantitative Erhebungspraxis

Bildungsurlaub-Seminare: Lerninhalte und Programm

Ja-Prozente bei 6-stufigen Antwortskalen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

Die Bedeutung der Evaluationsfragestellung für das Bewerten

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:

Phasen des Forschungsprozesses (hypothesenprüfende Studie)

Sandra Linke. Glück - Lebensqualität - Wohlbefinden. Tectum AR.URG 2006

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Auswertung und Lösung

Wahrnehmung, Einstellung und Verhalten von Menschen in alternden und schrumpfenden Belegschaften

Topologische Begriffe

Transkript:

Skalen und Indizes 55 Rossalina Latcheva & Eldad Davidov 55.1 Indexbildung, Skalierungsverfahren, Skalen und Skalieren: eine kurze begriffliche Einleitung In der sozialwissenschaftlichen Literatur existiert keine einheitliche Definition, was unter Index oder Indexbildung subsumiert werden kann und ob und wie sich Indexbildung von Skalierungsverfahren abgrenzt. Diese fehlende definitorische Eindeutigkeit entspringt nicht zuletzt der Frage, ob Indizes auch als Instrumente zur Messung sozialwissenschaftlicher Konzepte bezeichnet werden dürfen (Diekmann 2009: 230ff.). 55.1.1 Index Unter dem Begriff Index wird zum einen die Zusammenfassung mehrerer Einzelindikatoren zu einer neuen Variable nach festgelegten Vorschriften verstanden, z.b. dem (Auf) Summieren der Anzahl zustimmender Antworten zu einem bestimmten Thema. Damit ist die Indexbildung explizit ein Auswertungs- und kein Erhebungs- oder Messverfahren. Soziale Schicht ist ein Beispiel für einen Index auf der Individualebene, er wird meistens aus den Individualmerkmalen Bildung, Einkommen und Berufsposition errechnet (Huinink, Kapitel 82 in diesem Band). Ein Beispiel auf der Aggregatebene (Graeff, Kapitel 72 in diesem Band) wäre der Human Development Index (HDI), der die Lebensverhältnisse in einem Land u.a. auf Basis der Lebenserwartung bei Geburt, des Pro-Kopf-Sozialprodukts und der durchschnittlichen Ausbildungsdauer eines Landes (UNDP 2010: 143) erfasst. Zum anderen wird unter dem Begriff Index I k auch ein Messmodell der allgemeinen Form I k = f(x 1, X 2,..., X k ) verstanden, in dem die Variablen X 1, X 2,..., X k als Indikatoren (Burzan, Kapitel 81 in diesem Band) der zu messenden Variable X bezeichnet werden und die Elemente des Index I k darstellen (Besozzi/Zehnpfennig 1976: 12). Beispiele für letzteres wären die Messung der sozialen Schicht, der Lebenszufriedenheit oder des Intelligenzquotienten allesamt nicht direkt beobachtbare (latente) Merkmale, die meistens über eine 1

2 Rossalina Latcheva & Eldad Davidov Reihe von Indikatorvariablen, welche dieselbe latente Eigenschaft reflektieren, gemessen werden (wie etwa mittels Intelligenztests). Die Antworten der einzelnen Befragten auf die unterschiedlichen Testfragen (bzw. ihre Testwerte) werden dann nach einem vorgeschlagenen statistischen Verfahren zu dem Gesamtwert eines Befragten zusammengefasst. 55.1.2 Skala Skalen beinhalten meistens eine Vielzahl von Indikatoren (Items), die dasselbe theoretische Konstrukt reflektieren (z.b. analytische Intelligenz). Eine Person wird dann dadurch skaliert, dass man aus ihren Antworten auf mehrere Items einen sie charakterisierenden Skalenwert in dem zu messenden Merkmal berechnet (Borg/Staufenbiel 2007: 389; Hervorhebung durch die Autoren). Der Begriff Skala wird im Kontext der Befragungsforschung aber häufig schon dann verwendet, wenn Befragte anhand einer abgestuften Antwortskala (Franzen, Kapitel 51 in diesem Band) eine Frage beantworten. Es wird weiterhin auch das Skalenniveau (Blasius/Baur, Kapitel 79 in diesem Band) von einzelnen Variablen diskutiert. In dieser Mehrdeutigkeit sei betont, dass mit einer Skala, die ein Merkmal skalieren soll, das gesamte Instrument gemeint ist, d.h. alle Indikatoren (Burzan, Kapitel 81 in diesem Band) sowie die Vorschrift ihrer Verrechnung, welche durch ein Skalierungsverfahren erarbeitet wurden. Beispielsweise werden die folgenden zehn Indikatoren, welche Zentrale Arbeitsperzeptionen Berufstätiger messen, durch Addition der Itemwerte zu einem Skalenwert zusammengeführt (GESIS 2010, Fischer/Kohr 1980): 1. (+) Irgendwie, meine ich, ist meine Arbeit doch wichtig. 2. (-) Bei meiner Arbeit fühle ich mich oft irgendwie leer. 3. (+) Ich habe das Gefühl, bei meiner Arbeit etwas Sinnvolles zu tun. 4. (+) Ohne Arbeit hat das Leben wenig Sinn. 5. ( ) Meine Arbeit ist eine einzige Tretmühle. 6. ( ) Ich sehe kaum, welchen Sinn meine Arbeit hat. 7. (+) Bei meiner Arbeit kann man immer noch etwas dazu lernen. 8. ( ) Meine Arbeit bietet mir kaum Abwechslung. 9. ( ) Mir fehlt der Überblick über das, was ich bei meiner Arbeit tue. 10. ( ) Manchmal ist es mir fast unangenehm, zu sagen, was ich arbeite. Dabei bedeutet (+), dass die Frage im Sinne der zu erfassenden Dimension positiv formuliert ist und ( ), dass die Frage im Sinne der zu erfassenden Dimension negativ formuliert ist. Jede Frage hat fünf Antwortkategorien: 1 steht für unzutreffend und 5 für zutreffend. In diesem Sinn wird in diesem Beitrag der Begriff Skala verwendet.

55 Skalen und Indizes 3 55.1.3 Skalierungsverfahren und Indexbildung Skalierungsverfahren (Blasius, Kapitel 83 in diesem Band) sind Techniken zur Konstruktion von Messinstrumenten bzw. von Skalen und beinhalten jeweils eigene Vorschriften, wie einzelne Messwerte zu einem Skalenwert verrechnet werden müssen. Aus dem Gesagten folgt, dass Skalierungsverfahren nicht nur als Auswertungs-, sondern auch als Erhebungsverfahren von latenten Variablen charakterisiert werden können. Es sei jedoch angemerkt, dass Erhebungs- und Analyseverfahren untrennbar miteinander verbunden sind: die Konstruktion einer Skala wird primär von den Zielen darauffolgender Analysen geleitet. Sowohl bei der Berechnung eines Index als auch bei der Berechnung eines Skalenwertes werden mehrere Variablen nach bestimmten Rechenregeln (z.b. Addition, Multiplikation etc.) und auf Basis (mess-)theoretischer Überlegungen wie etwa Fragen der Validität und Reliabilität (Krebs/Menold, Kapitel 30 in diesem Band) zu einer neuen Variable kombiniert. Skalierungsverfahren greifen in erster Linie auf Items zur Erfassung subjektiver Eigenschaften resp. Einstellungen zurück, welche dasselbe theoretische Konzept bzw. dieselbe Dimension reflektieren als Beispiele können Einstellungen zu Immigranten, Zufriedenheit mit der Demokratie oder nationale Identität genannt werden. Skalierungsmodelle bieten zudem standardisierte Kriterien zur Beurteilung, welche Items zu einer Skala gehören. Bei der Indexbildung hingegen können auch Indikatoren, die unterschiedliche Dimensionen indizieren, zu einer neuen Größe zusammengefasst werden, eine solche ist die soziale Schicht (s. oben). 55.2 Gründe für die Verwendung multipler Indikatoren für die Konstruktion von Skalen und Indizes Bevor wir uns mit weiteren Details und Beispielen zu Indexbildung und Skalierungsverfahren befassen und die Diskussion auf Gemeinsamkeiten bzw. Unterschiede zwischen Skalen und Indizes ausdehnen, wollen wir wichtige Gründe für die Verwendung von multiplen Indikatoren anstelle von einzelnen Items umreißen. Drei Gründe seien hier besonders hervorgehoben: 55.2.1 Erfassung möglichst vieler relevanter Aspekte eines theoretischen Begriffs Ein wesentliches Ziel sozialwissenschaftlicher Theoriebildung und Analysen ist die Reduktion von Komplexität. Zur Beschreibung komplexer sozialer Phänomene werden meist eine Reihe theoretischer Konzepte bzw. Begriffe verwendet, die ihrerseits vorwiegend mehrere Aspekte der zu untersuchenden sozialen Wirklichkeit erfassen. Werden in einem Begriff

4 Rossalina Latcheva & Eldad Davidov mehrere Aspekte gebündelt, wie etwa beim Begriff der Lebensqualität (Huinink, Kapitel 82 in diesem Band), der meistens die Aspekte Wohlbefinden, Glück und Zufriedenheit umfasst, braucht es auch eine Vielzahl an isolierten Indikatoren, welche die interessierenden Dimensionen in der Datenerhebung repräsentieren. Zudem ist es wesentlich einfacher, in der weiteren Forschung mit dem Begriff bzw. Konstrukt Lebensqualität zu arbeiten, als mit dessen Einzelindikatoren. Diese Überlegung ist insofern für die Indexbildung von Bedeutung, als die Kombination mehrerer Variablen zur Messung eines theoretischen Begriffs validere Messungen produziert als die Verwendung einer einzelnen Variable (Besozzi/Zehnpfennig 1976: 12). Jeder Indikator repräsentiert nur partiell die spezifischen Aspekte eines Konstrukts, d.h. die Korrelationen zwischen den gemessenen Variablen und dem dahinter liegenden theoretischen Konstrukt sind nicht perfekt (oder mit anderen Worten kleiner als + 1 und größer als 1). Skalen kommen daher besonders dann zur Anwendung, wenn theoretische Begriffe bzw. gesellschaftliche Phänomene als mehrdimensional definiert werden (wie etwa verbale, analytische und emotionale Dimensionen in der Definition von Intelligenz) und wenn jede Subdimension durch eine Anzahl empirischer Variablen repräsentiert wird. Im Rahmen der Skalenbildung könnte dann für jede Subdimension eine eigene eindimensionale Skala berechnet werden oder mehrere Dimensionen könnten in einer neuberechneten (mehrdimensionalen) Indexvariable kombiniert werden. Beispiele sind die bereits oben erwähnte soziale Schicht auf der Mikro- und der HDI auf der Makroebene. 55.2.2 Verringerung sozialer Erwünschtheit Im besonderen Fall der Erfassung subjektiver Eigenschaften wird die Verwendung multipler Indikatoren um einen weiteren Grund ergänzt. Die interessierende Eigenschaft wie z.b. Einstellung(en) zur Todesstrafe kann unter anderem in der Umfragesituation einer allgemein gültigen sozialen Norm unterliegen, was eine Selbsteinschätzung der Befragten bezüglich des interessierenden Merkmals erschwert oder dazu führt, dass die als unerwünscht wahrgenommene Eigenschaft nur ungern angegeben wird (zum Problem der sozialen Erwünschtheit im Antwortverhalten siehe: Hlawatsch/Krickl, Kapitel 20 in diesem Band). Soll die Einstellung zur Todesstrafe erfasst werden, so würden wir mit hoher Wahrscheinlichkeit kein realistisches Bild der Einstellungen der Zielpersonen erhalten, wenn sie direkt mithilfe einer Skala von 1 bis 10 (wo 1 eine starke Ablehnung und 10 eine starke Zustimmung misst) abgefragt werden. Deshalb wird diese Einstellung meistens indirekt über verschiedene, mit ihr eng verbundene, weniger abstrakte Inhalte erfasst. Damit laufen Forschende aber auch Gefahr, nur einen Teil des Konstrukts einzufangen und andere Teile zu vernachlässigen. Dies wird

55 Skalen und Indizes 5 als Problem der Validität oder der inhaltlichen Gültigkeit der Messung diskutiert (Krebs/ Menold, Kapitel 30 in diesem Band). 55.2.3 Reduktion von Messungenauigkeiten Der dritte Grund für die Verwendung multipler Indikatoren ist eine Reduktion des Messfehlers im Vergleich zur Nutzung mehrerer Einzelindikatoren. Solche Messfehler, die sowohl zufällig, als auch systematisch sein können und Messungen verschlechtern, wiegen bei der Verwendung mehrerer Indikatoren weniger schwer, da angenommen wird, dass sich die Zufallsfehler der Einzelindikatoren gegenseitig ausgleichen (zum Problem der Reliabilität oder Zuverlässigkeit der Messung siehe: Krebs/Menold, Kapitel 30 in diesem Band). Die Verwendung mehrerer Indikatoren erhöht die Chance, Messungenauigkeiten zu verringern und so den gemeinten, wahren Sachverhalt eher abzubilden (Kromrey 2009: 184). Diese Idee entspringt der klassischen Testtheorie (KTT), welche das theoretische Fundament für den Großteil der heute bestehenden Skalen bildet (Borg/Staufenbiel 2007: 313). Ausgangspunkt der KTT ist die Vorstellung von einem hypothetischen wahren Wert, der die Beobachtungsperson entlang der interessierenden Eigenschaft charakterisieren würde. Bei dem Versuch, diese Eigenschaft mittels eines Indikators zu messen, würde die Beobachtung, die wir erhalten, durch zufällige Fehler mal nach oben und mal nach unten von diesem wahren Wert abweichen. Wenn davon ausgegangen wird, dass der Zufallsfehler (Häder/Häder, Kapitel 18 in diesem Band) mit gleicher Wahrscheinlichkeit positive wie negative Werte annimmt und sich somit bei unendlich vielen Messungen zu Null summieren würde, dann könnte der wahre Wert hypothetisch erhalten werden, indem unendlich viele Male gemessen und dann der Durchschnitt berechnet würde. Da sich diese theoretische Idee aber nicht praktisch umsetzen lässt, entstand der Ansatz, multiple Indikatoren zur Messung der gleichen Eigenschaft zu verwenden. Es wird angenommen, dass sich auch die Zufallsfehler unterschiedlicher Indikatoren zu Null ausgleichen. Davon abgesehen müssen auch systematische Messfehler (Krebs/Menold, Kapitel 30 in diesem Band) verhindert werden, welche unter dem Begriff der Validität behandelt werden. Hierbei handelt es sich um Messfehler, die sich nicht zu Null ausgleichen würden, sondern die Werte in eine bestimmte Richtung verzerren. Zum Beispiel würden, wenn Einstellungen gegenüber der Todesstrafe erfragt werden und wenn die Zustimmung zur Todesstrafe sozial unerwünscht ist, die Antworten zu allen Fragen zur Todesstrafe der Gefahr ausgesetzt sein, nicht nur die wahre Einstellung zu messen, sondern auch den Einfluss der (erwarteten) sozial erwünschten Antwort. Mit zwei Indikatoren können zufällige Messfehler kontrolliert werden. Mit drei Indikatoren können auch systematischen Messfehlern Rechnung getragen werden (Brown 2006, Saris/Gallhofer 2007).

6 Rossalina Latcheva & Eldad Davidov 55.3 Manifeste versus latente Variablen und reflektive versus formative Indikatoren Im Folgenden gehen wir kurz auf zwei Differenzierungen ein, die bei der Diskussion von Indexbildung und Skalierungsverfahren relevant sind: manifeste versus latente Variablen und reflektive versus formative Indikatoren. Latente Variablen werden häufig auch als Konstrukte bezeichnet, weil sie von den Forschenden mittels Explikation konstruiert werden, um theoretische Konzepte bzw. Begriffe in mathematischen Modellen zur Überprüfung von Zusammenhangsannahmen zu repräsentieren. Latent bedeutet nicht direkt beobachtbar und damit auch nicht direkt messbar. Latente Variablen repräsentieren theoretische Konstrukte und sind damit einer direkten Messung oder Beobachtung nicht zugänglich. Die Übersetzung theoretischer Konzepte in messbare Größen (Indikatoren, die auch Items oder manifeste Variablen genannt werden) wird als Operationalisierung bezeichnet (Bollen 1989: 181, Saris/Gallhofer 2007: 6; Burzan, Kapitel 81 in diesem Band). Bekannte Beispiele für konstruierte latente Variablen können in unterschiedlichen sozialwissenschaftlichen Disziplinen gefunden werden, z.b. analytische Intelligenz, Lebensqualität, Anomie, Ethnozentrismus und politische Partizipation. Abbildung 55.1 ((a) und (b)) zeigt die Verknüpfung zwischen latenten Variablen (Ellipsen) und manifesten Variablen oder Indikatoren (Rechtecke), so wie sie konventionell graphisch dargestellt werden. Die Richtung des unterstellten Kausalzusammenhangs zwischen latenten und manifesten Variablen ist maßgeblich für die Unterscheidung zwischen reflektiven und formativen Indikatoren. Reflektive Indikatoren bzw. effect indicators (Bollen 1989: 65) spiegeln die dahinter liegende latente Variable wider. Ihre Zusammenhänge (d.h. statistisch ihre Korrelationen) entstehen dadurch, dass die Indikatoren die gleiche latente Variable reflektieren bzw. dass die Indikatoren von der gleichen latenten Variable beeinflusst oder verursacht werden (Kühnel/Dingelstedt, Kapitel 80 in diesem Band). Reflektive Indikatoren weisen typischerweise hohe Korrelationen miteinander auf. Demgegenüber werden formative Indikatoren als causes bzw. als induced indicators bezeichnet (Bollen 1989: 65), weil sie die latente Variable nicht reflektieren, sondern diese bedingen. Somit können formative Indikatoren unterschiedliche Dimensionen erfassen und müssen nicht miteinander korrelieren. In Abb. 55.1 (b) wird das latente Konstrukt sozialer Status als Kombination bzw. Ergebnis von drei inhaltlich unterschiedlichen Variablen Bildungsabschluss, Einkommen und Berufsprestige dargestellt, die jeweils unterschiedliche inhaltliche Dimensionen erfassen und folglich nicht notwendigerweise miteinander korrelieren müssen. Das Beispiel in Abb. 1b kann über einen einfachen Summenindex oder durch eine andere mathematische Verknüpfung (z.b. indem jede Variable ein unterschiedliches Gewicht erhält) berechnet werden.

55 Skalen und Indizes 7 (a) (b) Abb. 55.1 (a) Latente Variable mit reflektiven Indikatoren, (b) Latente Variable mit formativen Indikatoren Dementgegen setzt das Beispiel in Abb. 55.1 (a) voraus, dass die Variablen korrelieren. Diese reflektieren die Antworten zu drei Umfrage-Items über Zufriedenheit, Glück und Wohlbefinden (erhoben durch direkte Fragen, z.b. wie zufrieden, wie glücklich und wie wohl sich die Befragten im Alltag fühlen) und beschreiben damit dasselbe latente Konstrukt allgemeine Lebenszufriedenheit. Indikatoren dieser Art werden vorwiegend im Konstruktionsprozess einer Skala entwickelt und somit können auch signifikante (positive) Korrelationen zwischen den drei Variablen erwartet werden. Es wird also angenommen, dass die Antworten auf die Fragen zum Glück, zur Zufriedenheit und zum Wohlbefinden Aufschluss über drei zusammenhängende Nuancen eines latenten Inhalts (der Lebenszufriedenheit) geben. Die drei reflektiven Indikatoren sollten daher die gleiche und möglichst nur diese latente Eigenschaft widerspiegeln bzw. messen, wobei die Eindimensionalität solcher reflektiven Indikatoren mithilfe einer konfirmatorischen Faktorenanalyse (Bollen 1989, Blasius, Kapitel 83 in diesem Band) getestet werden kann. Die Unterscheidung zwischen reflektiven und formativen Indikatoren ist insofern von Bedeutung, als dass bei den gängigen Methoden zur Überprüfung der Dimensionalität von Skalen vor allem reflektive Indikatoren zur Anwendung kommen, bei der Indexbildung jedoch sowohl reflektive als auch formative Indikatoren verwendet werden können. Fassen wir zusammen: Ein Index kann auf Basis von mehreren (reflektiven) Indikatoren gebildet werden, die einer Skala entstammen bzw. die gleiche Dimension messen, aber er kann auch unabhängig von einer Skala konstruiert werden, d.h. Variablen unterschiedlicher Dimensionen (formative Indikatoren) werden zu einer neuen Größe verrechnet (wie etwa beim sozialen Status ). Nach den bisherigen Ausführungen sollte klar geworden sein, dass sowohl für Skalen- als auch Indexbildung Informationen über mehrere Variablen/Indikatoren benötigt werden, die erstens nach bestimmten Regeln ausgewählt und zweitens zu etwas Neuem verrechnet werden. Im Folgenden gehen wir kurz auf einige Punkte ein, die bei der Indexkonstruktion besonders wichtig sind.

8 Rossalina Latcheva & Eldad Davidov 55.4 Indexbildung Rohwer und Pötter (2002: 88) weisen darauf hin, dass jede Indexbildung eine Datenreduktion darstellt. Die Aussagekraft von Indizes hängt folglich stark von der Methodik ihrer Berechnung bzw. dem Konstruktionsverfahren ab (Rohwer/Pötter 2002: 65f.). Für die Berechnung von Indizes können unterschiedliche mathematische Funktionen resp. Rechenoperationen zur Anwendung kommen. Je nach Rechenoperation wird meistens zwischen additiven und multiplikativen sowie zwischen gewichteten und ungewichteten Indizes unterschieden. Daher sind sowohl eine grundlegende theoretische Begründung als auch die Transparenz der Indexberechnung (d.h. welche Indikatoren werden wie bei der Berechnung berücksichtigt) von besonderer Bedeutung. Die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) hat zum Beispiel ein eigenes Handbuch über die Konstruktion von composite indicators (ein anderer Begriff für Indizes) herausgegeben, in dem die Methodologie und wichtige (technische) Leitlinien für die Berechnung von Indizes zusammengefasst sind, anhand derer Länder bezüglich ihrer industriellen Wettbewerbsfähigkeit, nachhaltigen Entwicklung, Globalisierung und Innovation klassifiziert werden können (für Details siehe OECD 2008, Saisana/Tarantola 2002). Andere Autoren legen das Hauptaugenmerk für die Indexbildung auf folgende Regeln: 1. Bei reflektiven Indikatoren können unterschiedliche Items nur dann zu einer Skala zusammengefasst werden, wenn sie untereinander positiv korrelieren. Eine negative Korrelation zwischen zwei Items würde sich in diesem Fall nur dann ergeben, wenn eine der beiden Fragen positiv, die andere jedoch negativ formuliert ist. Tabelle 55.1 zeigt, wie eine Korrelationsmatrix mit reflektiven Indikatoren aussehen könnte. Alle Korrelationen zwischen den Indikatoren sind positiv und verhältnismäßig hoch, d.h. höher als 0.30. 2. Bei formativen Indikatoren dürfen die Indikatoren auch deutlich schwächere Korrelationen aufweisen. Allerdings müssen alle Indikatoren (in unserem Beispiel: Zufriedenheit, Glück und Wohlbefinden), die zu einem Index (hier Lebensqualität ) zusammengefasst werden, in die gleiche Richtung mit einer abhängigen Variable (z.b. politische Partizipation ) korrelieren d.h. alle Korrelationen zwischen der abhängigen Variable ( politische Partizipation ) und dem jeweiligen Indikator (Zufriedenheit, Glück, Wohlbefinden) des Index ( Lebensqualität ) müssen entweder positiv oder negativ sein (Kromrey 2009: 184). Zu bedenken ist auch, dass bei der Konstruktion von additiven Indizes durch das Zusammenzählen von Ausprägungen einer Vielzahl dichotomer Variablen (d.h. Variablen mit nur zwei Ausprägungen) neue ordinal- bzw. intervallskalierte Variablen entstehen, welche die soziale Realität nicht notwendigerweise wiedergeben (Rohwer/Pötter 2002). Deshalb muss die praktische Tauglichkeit sowie analytische Anwendbarkeit von Indizes stets an der Realität überprüft werden. Nehmen wir als Beispiel das Konzept des freiwilligen Engagements, das meistens mittels einer Reihe dichotomer Items zu Mitgliedschaft und

55 Skalen und Indizes 9 Tab. 55.1 Beispiel für eine Korrelationstabelle mit reflektiven Indikatoren Zufriedenheit Glück Wohlbefinden Zufriedenheit 1.00 Glück 0.40 1.00 Wohlbefinden 0.35 0.55 1.00 Tätigkeiten in Non-Governmental Organizations (NGOs) abgefragt wird. Befragte können jede Frage, die eine Organisation aufzählt, in der man Mitglied sein könnte, mit Ja oder Nein beantworten, was mit 1 für Ja und 0 für Nein kodiert wird. Durch ein Zusammenzählen aller mit 1 kodierten Antworten (d.h. aller Mitgliedschaften) entsteht eine neue Variable (Anzahl von Mitgliedschaften), die mehr Ausprägungen beinhaltet als die ursprünglichen Variablen (z.b. könnten bei zehn Fragen zu Mitgliedschaften durch das Zusammenzählen Werte zwischen einem Minimalwert von 0 und einem Maximalwert von 10 erreicht werden). Eine höhere Anzahl an Mitgliedschaften muss jedoch nicht notwendigerweise mit einer höheren Intensität des freiwilligen Engagements einhergehen. Intensität könnte zum Beispiel viel besser mit einer anderen Frage, etwa der Anzahl der Wochenstunden, in denen Befragte freiwillig tätig sind, gemessen werden. 55.5 Skalenbildung Wie bereits erwähnt sind Skalierungsverfahren (Blasius, Kapitel 83 in diesem Band) Techniken zur Konstruktion von Messinstrumenten bzw. von Skalen und beinhalten jeweils eigene Vorschriften, wie einzelne Messwerte zu einem Skalenwert verrechnet werden. In diesem Kapitel wurden keine bestimmten Skalierungsverfahren erwähnt. In Methoden-Lehrbüchern werden neben Likert meistens die Verfahren nach Thurstone und Guttman erklärt, obwohl diese in ihrer ursprünglichen Form praktisch kaum mehr eine Rolle spielen (Borg/Staufenbiel 2007: 308). Deren Studium kann aber sehr lehrreich sein, weil sie Grundideen vorweg [nehmen], die in späteren Skalenkonstruktionsverfahren [ ] wieder aufgegriffen wurden (Borg/Staufenbiel 2007: 308), welche wesentlich komplexer und voraussetzungsvoller im Verständnis sind. Neben der hier erwähnten Klassischen Testtheorie gewinnt die Probabilistische Testtheorie immer mehr an Bedeutung. Als umfassende deutschsprachige Lektüre zu Skalierung im Allgemeinen und auch zu sehr vielen spezifischen Verfahren wird das viel zitierte Lehrbuch Theorien und Methoden der Skalierung von Borg Staufenbiel (2007) empfohlen. Skalierungsverfahren können als theoretische Modelle aufgefasst werden (u.a. Borg/ Staufenbiel 2007, Schnell et al. 2008: 183). Am wichtigsten sind dabei die Annahmen darüber, wie die Reaktionen der Befragten auf die ihnen präsentierten Stimuli mit der Ausprägung der latenten, interessierenden Eigenschaft zusammenhängen. Aus diesen Annahmen wird schließlich abgeleitet, welche Art von Indikatoren benötigt wird, wie deren Messqualität geprüft wird und wie sie zu einem Skalenwert verrechnet werden sollten. Um den

10 Rossalina Latcheva & Eldad Davidov Zusammenhang von latentem Konstrukt und Beobachtung modellhaft darzustellen, sei die folgende Gleichung erläutert: P = f ( T, S ), wobei P die Wahrscheinlichkeit ist, dass ein Item im Sinne der zu messenden Eigenschaft beantwortet man sagt auch gelöst wird. Das hieße z.b. bei einem Test der Rechenfähigkeit die korrekte Lösung der Aufgabe. T bezeichnet die vorgestellte wahre Ausprägung der latenten Variablen bei den Befragten, was um bei dem Beispiel zu bleiben die wahre Rechenfähigkeit wäre. P wird also in Abhängigkeit von T betrachtet, wobei f die Art des Zusammenhangs symbolisiert. Die Schwierigkeit S des Items ist eine weitere Größe, welche die Wahrscheinlichkeit der Lösung eines Items beeinflusst. Ein Beispiel zur Verdeutlichung: Ein Schüler mit einer gegebenen Rechenfähigkeit wird die folgenden zwei Aufgaben mit einer unterschiedlichen Wahrscheinlichkeit lösen, weil sie unterschiedlich schwierig sind und somit die Eigenschaft Rechenfähigkeit unterschiedlich stark abfragen: 4 + 6 20 und 14 7 164 : 4. An diesem Beispiel wird auch deutlich, weshalb sich die Worte Lösung und Schwierigkeit durchgesetzt haben. Viele Skalierungsverfahren basieren auf der Annahme eines monotonen Zusammenhangs zwischen der Wahrscheinlichkeit der Lösung und dem Niveau (T) der latenten Variable. Das würde z.b. für Lebenszufriedenheit bedeuten, dass für jedes Item die Wahrscheinlichkeit einer Antwort, die auf Zufriedenheit hinweist, mit steigender tatsächlicher Zufriedenheit bei den Personen zunimmt. Drei bis vier gute Items können dabei hinreichend sein, um eine theoretische Dimension (z.b. eine Eigenschaft, eine Einstellung etc.) zu messen (zu reflektieren) (s. z.b. Bollen 1989: 179-225). Die Qualität ( Güte ) der Items einer Skala wird mittels Itemanalyse (die den Regeln des jeweiligen Skalierungsverfahrens folgt), der Analyse von Validität, Reliabilität und bei vergleichenden Studien insbesondere auch der Äquivalenz der Skala (d.h. der Angemessenheit der Skala in unterschiedlichen Erhebungen) überprüft (Krebs/Menold, Kapitel 30 in diesem Band). Hierzu gehört z.b. auch die Prüfung der Eindimensionalität und wenn möglich die Überprüfung der theoretischen Annahmen, die jedem Skalierungsverfahren zu Grunde liegen. Im Folgenden werden zwei Aspekte der Qualitätsüberprüfung einer Skala herausgegriffen und im Detail besprochen. 55.5.1 Eindimensionalität vs. Multidimensionalität einer Skala Wenn ein Skalierungsverfahren zum Ziel hat, eine Eigenschaft in einer Variablen zu erfassen, ist ein wesentlicher Teil der Aufgabe, die Eindimensionalität der Skala sicherzustellen. Die vielen Indikatoren, die zu einem Skalenwert verrechnet werden, sollten alle die gleiche und möglichst nur diese Eigenschaft messen. Das Syndrom der gruppenbezogenen Menschenfeindlichkeit stellt beispielsweise ein mehrdimensionales Konzept dar (Zick et al. 2008), das folgende Subdimensionen umfasst: Ausländerfeindlichkeit, Islamophobie, Antisemitismus, Homophobie, Sexismus, Rassismus, Abwertung von Obdachlosen, gesundheitlich beeinträchtigten Personen und Langzeitarbeitslosen, sowie Etabliertenvorrechte. Selbst bei dem Versuch, eine dieser Subdimensionen zu messen, muss wiederum die Eindimensionalität sichergestellt

55 Skalen und Indizes 11 werden, bevor Items, welche zu dem Zweck erhoben wurden, zu einer neuen Variable (z.b. zu einem additiven Index) verrechnet werden. So kann beispielsweise mit Faktoranalysen (Brown 2006, Blasius, Kapitel 83 in diesem Band) herausgefunden werden, ob einem Bündel von Indikatoren eine oder mehrere Dimensionen zu Grunde liegen. 55.5.2 Konstruktäquivalenz Bei der Anwendung von Messinstrumenten (Skalen) in verschiedenen nationalen Kontexten (Braun, Kapitel 56 in diesem Band) oder über die Zeit hinweg (Schupp, Kapitel 73 in diesem Band) ist die Sicherstellung, dass die Messung des relevanten theoretischen Konstrukts äquivalent ist, d.h. über Kontexte und Zeitpunkte invariant ist und damit das Gleiche misst, ein wesentliches Anliegen. Die Überprüfung der Messinvarianz ist notwendig, bevor zum Beispiel Vergleiche zwischen Ländern oder über die Zeit gemacht werden können. Horn und McArdle (1992: 117) definieren Messinvarianz als die Frage ob Messoperationen unter verschiedenen Bedingungen der Beobachtung und des Studiums von Phänomenen Messungen desselben Attributs erzielen. In anderen Worten garantiert die Messinvarianz, dass Items in unterschiedlichen Kontexten in ähnlicher Weise verstanden werden. Fehlende Invarianz bzw. Äquivalenz der Messung führt zum Beispiel dazu, dass Mittelwertunterschiede nicht notwendigerweise auf substantielle Unterschiede zurückzuführen sind, sondern ein methodisches Artefakt sein können, das sich aus unterschiedlichen Antwortverzerrungen über Länder und Zeitpunkte bzw. unterschiedlichen Verständnissen der Konzepte ergibt (Steenkamp/Baumgartner 1998). Ebenso wichtig ist, dass fehlende empirische Unterschiede zwischen Ländern dann die Abwesenheit von echten Unterschieden nicht sicherstellen. Steenkamp und Baumgartner (1998) liefern Leitfäden darüber, wie Konstruktäquivalenz bei reflektiven Indikatoren untersucht werden kann. 55.6 Fazit Abschließend möchten wir nochmals hervorheben, dass die Aussagekraft von Indizes und Skalen stark von der Methodik ihrer Berechnung bzw. dem Konstruktionsverfahren abhängt. Dabei werden mehrere Variablen nach bestimmten Rechenregeln und auf Basis (mess-)theoretischer Überlegungen zu neuen Variablen kombiniert. Eine theoretische Fundierung der Skalenkonstruktion sowie die Transparenz der Indexberechnung sind aus diesem Grund unerlässlich. Dass Erhebungs- und Analyseverfahren untrennbar miteinander verbunden sind, dass sie theoriegeleitet angewendet werden müssen, haben wir in diesem Kapitel anhand verschiedener Beispiele illustriert.

12 Rossalina Latcheva & Eldad Davidov Literatur Besozzi, Claudio/Zehnpfennig, Helmut (1976): Methodologische Probleme der Index- Bildung. In: Koolwijk, Jürgen von /Wieken-Mayser, Maria (Hg.): Techniken der empirischen Sozialforschung 5: Testen und Messen. München: Oldenbourg. 9-55 Bollen, A. KIenneth (1989): Structural Equations with Latent Variables. New York: Wiley Borg, Ingwer/Staufenbiel, Thomas (2007): Lehrbuch Theorien und Methoden der Skalierung. Bern: Hans Huber Brown, Timothy A. (2006): Confirmatory Factor Analysis for Applied Research. New York: The Guilford Press Diekmann, Andreas (2009): Empirische Sozialforschung. Reinbek: Rowohlt Fischer, Arthur/Kohr, Heinz-Ulrich (1980): Politisches Verhalten und empirische Sozialforschung. München: Juventa GESIS (2010): ZIS Zusammenstellung sozialwissenschaftlicher Items und Skalen- ZIS Version 14.00. URL: http://www.gesis.org/unser-angebot/studien-planen/zis-ehes/zis/ Horn, John L./McArdle, John J. (1992): A Practical and Theoretical Guide to Measurement Invariance in Aging Research. In: Experimental Aging Research 18: 117-144 Kromrey, Helmut (2009): Empirische Sozialforschung. Stuttgart: Lucius + Lucius OECD (2008): Handbook on Constructing Composite Indicators. Methodology and User Guide. OECD Publishing Rohwer, Götz/Pötter, Ulrich (2002): Methoden der sozialwissenschaftlichen Datenkonstruktion. Weinheim/München: Juventa Saisana, Michaela/Tarantola, Stefano (2002): State-of-the-art Report on Current Methodologies and Practices for Composite Indicator Development. Ispra: European Commission Saris, Willem E./Gallhofer, Irmtraud N. (2007): Design, Evaluation and Analysis of Questionnaires for Survey Research. New York: Wiley Schnell, Rainer/Hill, Paul B./Esser, Elke (2008): Methoden der empirischen Sozialforschung. München: Oldenbourg Steenkamp, Jan-Benedict E.M./Baumgartner, Hans (1998): Assessing Measurement Invariance in Cross-National Consumer Research. In: Journal of Consumer Research 25: 78-90 United Nations Development Programme (2010): The Real Wealth of Nations: Pathways to Human Development. URL: http://hdr.undp.org/en/media/hdr_2010_en_table1_ reprint.pdf am 24.5.2011 Zick, Andreas/Wolf, Carina/Küpper, Beate/Davidov, Eldad/Schmidt, PeterHeitmeyer, Wilhelm (2008): The Syndrome of Group-Focused Enmity. In: Journal of Social Issues 64 (2): 363-383