Inhaltsverzeichnis GRUNDLAGEN DER TESTKONSTRUKTION. Bernd Marcus & Markus Bühner

Größe: px
Ab Seite anzeigen:

Download "Inhaltsverzeichnis GRUNDLAGEN DER TESTKONSTRUKTION. Bernd Marcus & Markus Bühner"

Transkript

1 Inhaltsverzeichnis 3 Inhaltsverzeichnis GRUNDLAGEN DER TESTKONSTRUKTION Bernd Marcus & Markus Bühner Einführung in den Kurs Grundlagen psychologischer Testverfahren Anwendungsbereiche und Klassifikation von Testverfahren Tests und Testtheorie Grundlagen der Testtheorie Einführung in die Klassische Testtheorie (KTT) Kritische Anmerkungen zur Klassischen Testtheorie Grundideen der Probabilistischen Testtheorie (PTT) Testkonstruktion: Von der Planung zum ersten Entwurf Merkmalsbereich und Geltungsbereich Festlegung des generellen Konstruktionsprinzips Generierung eines Itempools Sprachliche Formulierungsregeln und Antwortformate Itemanalyse: Kürzung und Revision des Entwurfs Itemanalyse nach Klassischer Testtheorie (KTT) Rekodierung, Deskriptive Itemanalyse und Itemschwierigkeiten Trennschärfenanalyse Überblick über die Probabilistische Testtheorie Grundlagen des Rasch-Modells Weitere probabilistische Testmodelle für dichotome Daten Probabilistische Modelle für Ratingskalen Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Explorative Faktorenanalyse (EFA) Grundlagen der Faktorenanalyse Varianten und Vorgehensweise bei der Explorativen Faktorenanalyse Beispiel für die Durchführung einer EFA mit SPSS Bewertung der Explorativen Faktorenanalyse Konfirmatorische Faktorenanalyse (CFA) Grundbegriffe Linearer Strukturgleichungsmodelle (SEM) Vorgehensweise bei einer Konfirmatorischen Faktorenanalyse Aggregation zu Skalenwerten, Normierung und Interpretation Zusammenfassung der Schritte der Testkonstruktion Evaluation psychologischer Testverfahren Richtlinien und Beurteilungssysteme für Tests...165

2 4 Inhaltsverzeichnis 5.2 Psychometrische Gütekriterien Objektivität und Reliabilität Validität Weitere allgemeine Gütekriterien Kriterien mit vorwiegend praktischem Anwendungsbezug Kriterien mit Bezug zu Rechten und Reaktionen der Teilnehmer Kriterien mit Bezug zum Verhalten der Teilnehmer Gütekriterien für die Einzelfalldiagnostik Anforderungen an die Normierung Kennwerte mit Bezug zur Messgenauigkeit Literaturverzeichnis Stichwortverzeichnis...231

3 Einführung in den Kurs 5 Einführung in den Kurs Was Ihre Frisur über Sie verrät. Eine Online-Frauenzeitschrift beantwortet diese Frage, indem einfach aus sechs verschiedenen Frisuren ausgewählt werden kann. Der Erstautor dieses Studienbriefs hat diesen psychologischen Test nach bestem Wissen unter Auswahl der subjektiv ähnlichsten Frisur (Stirn frei) bearbeitet, mit folgendem Ergebnis: Sie begegnen dem Leben auf direkte Weise und Sie haben keine Angst, direkt auf Ihr Ziel zuzugehen. Sie sind offen und ehrlich und haben dynamische Qualitäten. Durch Ihre aktive Energie kann es Ihnen manchmal an Feinheit fehlen, denn Sie kümmern sich nicht unbedingt immer um die Details. Sie gehen schnell zum Wesentlichen über. Sie lieben den Kontakt mit Ihren Mitmenschen und Sie sind optimistisch. Ihre Frisur zeigt, dass Sie der Welt und dem Leben gegenüber offen sind. Unter Zuhilfenahme eines Kammes wäre es ihm nach diesem Test auf recht einfache Weise gelungen, seine Persönlichkeit grundlegend zu verändern (Mittelscheitel): Sie möchten in einer harmonischen und ausgeglichenen Atmosphäre leben. Mit einer gewissen Strenge versuchen Sie, in allen Dingen gerecht zu sein. Sie sind geradeheraus und Sie streben nach einer einfachen, direkten und soliden Existenz und ebensolchen Beziehungen. Sie wünschen sich eine moralische Ordnung, die Ihnen entspricht. Sie brauchen geistreiche Kontakte und ein Leben, das reibungslos und ohne zu viel Aufregung verläuft. Ihre Frisur offenbart Ihren leidenschaftlichen und energischen Charakter. (alle Zitate nach Gofeminin.de, n.d.) Wenn Sie es sich nicht ohnehin schon dachten, sollte Ihnen nach der Lektüre dieses Studienbriefs klar werden, dass es sich bei Was Ihre Frisur über Sie verrät nicht um einen psychologischen Test handelt. Zwischen dem, was sich eine Redakteurin vermutlich bei einer Tasse Kaffee ausgedacht hat und dem, was Psychologinnen in jahrelanger intensiver Arbeit entwickeln, bestehen bestenfalls oberflächliche Ähnlichkeiten. Die Konstruktion psychologischer Tests nach psychometrischen Prinzipien gilt als eine der bedeutendsten Leistungen der wissenschaftlichen Psychologie und als ein wesentlicher Beitrag der Verhaltenswissenschaften zur Gesellschaft (z.b. American Educational Research Association, American Psychological Association & National Council on Measurement in Education, 1999). Die vertiefte Kenntnis dieser Prinzipien gehört zu den Qualifikationen, welche die Psychologie normalerweise von allen anderen Disziplinen unterscheidet und ist damit auch ein Alleinstellungsmerkmal für Psychologen im Wettbewerb auf dem Arbeitsmarkt. In diese Kenntnisse soll der vorliegende Studienbrief einführen. Allerdings werden Tests keineswegs nur von Psychologen angewandt (vgl. Kap. 1.1). Psychologische Testkonstruktion ist ein im Wesentlichen methodisches Teilgebiet der Psychologie, das eine bestimmte statistisch fundierte Sozialtechnologie bereitstellt. Viele Aspekte werden in der Fachliteratur auf einem mathematisch recht anspruchsvollen Niveau diskutiert. Natürlich kann eine Einführung hier nur die Grundprinzipien vermitteln. Vorausgesetzt werden Kenntnisse zu statistischen Die Konstruktion psychologischer Tests gilt als eine der bedeutendsten Leistungen der wissenschaftlichen Psychologie. Psychologische Testkonstruktion als statistisch fundierte Sozialtechnologie

4 6 Einführung in den Kurs Grundlagen wie z.b. Skalenniveaus oder Korrelationskoeffizienten, die in den Modulen 1 und 2 des Studiengangs vermittelt wurden. Wir haben uns bemüht, hier vor allem das grundsätzliche Verständnis des Vorgehens bei der Testkonstruktion in den Vordergrund zu rücken und mathematisch-technische Details wie z.b. Formeln nur insoweit darzustellen, wie es die Nachvollziehbarkeit des Gesagten erfordert. Auf eine vertiefende Zusatzlektüre kann jedoch in vielen Fällen nicht verzichtet werden. Am Ende der einzelnen Abschnitte des vorliegenden Textes werden dazu jeweils Literaturhinweise gegeben. Der Studienbrief beruht in Teilen auf dem Lehrbuch Einführung in die Test- und Fragebogenkonstruktion von Markus Bühner (2006). Einige Abschnitte wurden dabei in gekürzter und überarbeiteter Fassung für den vorliegenden Text übernommen, ohne dies, um der besseren Lesbarkeit willen, im Detail durch Zitate kenntlich zu machen. Das Lehrbuch geht jedoch vielfach inhaltlich erheblich über diesen Studienbrief hinaus und wird dementsprechend auch als vertiefende Lektüre empfohlen. Weitere vertiefende und ergänzende Elemente können, wie Sie es aus anderen Modulen gewohnt sind, in Form von Online-Vorlesungen, Texten und Aufgaben in der Lernumgebung Moodle abgerufen und bearbeitet werden. Struktur des Studienbriefs Dieser Studienbrief unterscheidet sich außerdem von vielen Lehrtexten zur Testkonstruktion dadurch, dass der Aufbau sich weniger an den statistischen Grundlagen orientiert als an dem idealtypischen Ablauf einer Testkonstruktion. Nach einer generellen Einführung in Kapitel 1 werden in Kapitel 2 zunächst Möglichkeiten besprochen, nach welchen grundsätzlichen Konzepten Tests und ihre einzelnen Elemente (Skalen, Aufgaben bzw. Items) generiert werden können. Das dritte Kapitel beschäftigt sich mit empirischen Informationen, die genutzt werden können, um die in einem so entstandenen Rohentwurf enthaltenen einzelnen Aufgaben oder Fragen zu beurteilen. Dazu zählen insbesondere Verfahren der Itemanalyse nach der Klassischen und Probabilistischen Testtheorie. Im folgenden vierten Kapitel geht es um die Zusammenfassung einzelner Aufgaben zu Skalen mittels verschiedener Varianten der Faktorenanalyse. Im fünften und letzten Hauptteil geht es um Anforderungen an eine anwendungsbezogene Dokumentation und Evaluation (psychometrische und anwendungsbezogene Gütekriterien) von Testverfahren. Dabei ist es gar nicht so erheblich, ob diese Kenntnisse genutzt werden, um ein eigenes Testverfahren zu entwickeln (was eher die Ausnahme sein dürfte) oder ob vorhandene Testverfahren für ein bestimmte Fragestellung bewertet und daraus die bestmögliche Auswahl getroffen werden soll. Auch für eine qualifizierte Bewertung ist es erforderlich, mit den Prinzipien der Testkonstruktion vertraut zu sein.

5 Einführung in den Kurs 7 Im Einzelnen sollen in diesem Kurs die folgenden Ziele und Lernergebnisse erreicht werden. Sie sollen nach erfolgreicher Absolvierung des Kurses Ziele und Lernergebnisse das Spektrum psychologischer Testverfahren kennen und deren Relation zur zugrunde liegenden Testtheorie einschätzen können. Um übrigens ein mögliches Missverständnis zu vermeiden: Die Begriffe Test(verfahren), Testkonstruktion, Testtheorie etc. beziehen sich hier stets auf Tests im Sinne bestimmter psychologischer Messverfahren, nicht auf statistische Signifikanztests (vgl. Modul 2) und deren Theorie. mit den grundsätzlichen Möglichkeiten, psychologische Konstrukte mittels Tests zu operationalisieren und die Testitems in einer dem Anwendungszweck und den Teilnehmern angemessenen Weise zu formulieren vertraut sein. die wichtigsten Itemkennwerte berechnen und angemessen interpretieren können und in der Lage sein, diese Informationen für die Konstruktion der Endform von Tests und die Beurteilung vorhandener Testverfahren zu nutzen sowie dabei mit den Voraussetzungen und Grenzen der nach der Klassischen Testtheorie berechneten Kennwerte vertraut sein und die Möglichkeiten der Probabilistischen Testtheorie einschätzen können. die wichtigsten Verfahren der exploratorischen Faktorenanalyse kennen und hinsichtlich ihres Stellenwerts für die Skalenbildung beurteilen sowie deren Nutzen vor dem Hintergrund eines Grundverständnisses der konfirmatorischen Faktorenanalyse einschätzen können. die Einflussfaktoren und die Möglichkeiten zur Bestimmung der Reliabilität und zur Validierung von Tests kennen und diese Gütekriterien in ihrer Bedeutung einschätzen können. Darüber hinaus besitzen Sie ein Verständnis für die Bedeutung anwendungsbezogener Kriterien und können diese in die Beurteilung der Güte von Testverfahren einbeziehen. in der Lage sein, anhand der in Testmanualen und aus anderen Quellen zugänglichen Informationen eine dem Anwendungszweck angemessene Auswahl aus vorhandenen Tests zu treffen. Wir wünschen Ihnen bei der Erarbeitung des Kursmaterials viel Erfolg und viel Freude. Bernd Marcus und Markus Bühner

6 8 Grundlagen psychologischer Testverfahren 1 Grundlagen psychologischer Testverfahren Warum ist das eingangs der Einführung in diesen Kurs erwähnte Verfahren Was Ihre Frisur über Sie verrät eigentlich kein psychologischer Test? Hier erhalten Teilnehmerinnen die Möglichkeit, auf standardisierte Vorlagen die Bilder der Frisuren sind immer gleich zu reagieren, indem sie eine davon auswählen. Darauf erfolgt eine genau vorgegebene Interpretation, durch die den einzelnen Frisuren Aussagen über psychologische Merkmale der Teilnehmerinnen, nämlich ihre Persönlichkeit, zugeordnet werden. All dies erfüllt tatsächlich einige Bestimmungsstücke der Definition psychologischer Testverfahren. Anderes dagegen, insbesondere wesentliche Kriterien psychometrischer Güte, ist auf so katastrophale Weise verletzt, dass von einem psychologischen Test keine Rede sein kann. Am Ende dieses Kapitels sollten Sie in der Lage sein, diese Aussage konkret und detailliert zu belegen. Wir können nur hoffen, dass derartige Tests ähnlich wie Horoskope, mit denen sie einiges gemeinsam haben lediglich als Unterhaltungslektüre dienen und keinesfalls als Grundlage ernsthafter Urteile über die Persönlichkeit. Den obigen Aussagen über das Verfahren Was Ihre Frisur über Sie verrät dürfte kaum ein Fachkollege widersprechen, dennoch wird die Bezeichnung Test auch in der Fachliteratur keineswegs einheitlich gehandhabt. Nach einem engeren Verständnis wird der Begriff auf solche Verfahren beschränkt, deren Ergebnis frei von jeder subjektiven Beurteilung seitens der Testteilnehmer entsteht, also z.b. Fähigkeits- und Leistungstests, zu deren bekanntesten Vertretern sog. Intelligenztests gehören. Ein solches Verständnis schließt bspw. Persönlichkeitsfragebogen aus, in denen subjektive Selbstbeurteilungen erhoben werden. Wir folgen hier nicht der Unterscheidung in (Leistungs- oder objektive) Test- und (subjektive) Fragebogenverfahren, sondern verwenden ein breiteres Konzept, nach dem diese Unterscheidung lediglich zur Klassifikation von Testverfahren herangezogen wird (s.u.). Allgemein verstehen wir mit Lienert und Raatz (1998, S.1) unter einem psychologischen Test: Definition psychologischer Test Wissenschaftlichkeit ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. In dieser Definition stecken verschiedene Bestimmungsstücke. Wissenschaftlich bedeutet in diesem Zusammenhang, dass Tests relativ eindeutig definierte und nachweisbar relevante Merkmale erfassen sollen, ihre Konstruktion auf statistischen Modellen psychologischer Testtheorien aufbaut und sie sich gemäß psychometrischen Gütekriterien empirisch bewähren müssen (dazu mehr in späteren Kapiteln). Außerdem ist ein wichtiger Indikator der wissenschaftlichen Fundierung, dass Entwicklung, empirische Bewährung und Anwendung des Verfahrens in einer für Fachleute im Detail nachvollziehbaren Form dokumentiert werden.

7 Grundlagen psychologischer Testverfahren 9 Bei kommerziell vermarkteten Tests, die das Attribut wissenschaftlich verdienen, erfolgt dies regelmäßig in Form sog. Testmanuale oder Handanweisungen. Es gibt aber auch zahlreiche frei zugängliche Tests, die nach durchaus wissenschaftlichen Kriterien entwickelt wurden und für manche Zwecke sinnvoll einsetzbar sind, bei denen die wissenschaftliche Fundierung aber häufig nicht in Form eines handlichen Manuals, sondern auf oft mehrere Zeitschriftenartikel und technische Reports verteilt dokumentiert ist. Das Fehlen jeglicher Dokumentation ist aber auf jeden Fall ein sicherer und für die Anwendungspraxis sehr einfach handhabbarer Indikator mangelnder wissenschaftlicher Fundierung. Merksatz: Der einfachste Weg, wissenschaftliche von unwissenschaftlichen Testverfahren zu unterscheiden, ist, nach der Existenz eines Testmanuals oder einer äquivalenten Dokumentation zu fragen. Deren Nichtvorliegen ist ein zuverlässiges Ausschlusskriterium; allerdings garantiert das bloße Vorliegen noch nicht die Wissenschaftlichkeit des Verfahrens und schon gar nicht die Eignung für einen bestimmten Zweck. Routineverfahren sind Tests deshalb, weil Inhalt, Verfahrensablauf und Bewertung der Aussagen genau vorgegeben (standardisiert) und damit routinemäßig wiederholbar sind. Der Begriff Persönlichkeitsmerkmal ist hier weit zu verstehen und schließt im Grunde alle Arten interindividueller Differenzen ein. Testergebnis ist eine quantitative Aussage über das Merkmal, das heißt die Reaktionen (Antworten) auf die einzelnen Items, aus denen sich der Test zusammensetzt (i.d.r. sind dies zahlreiche zu lösende Aufgaben bzw. zu beantwortende Fragen), werden mit Zahlen verknüpft und am Ende nach einer festgelegten Regel zu einem Testwert (Score) zusammengefasst. Dieser Rohwert ist für sich betrachtet noch nicht aussagekräftig, erlaubt aber dann eine relative Aussage über die individuelle Merkmalsausprägung, wenn er mit einer Vergleichsgruppe oder einem Zielkriterium in Beziehung gesetzt wird. Die Begriffe quantitativ und relativer Grad sind dabei insofern vielleicht etwas missverständlich als mit einem Testwert durchaus auch die Zuordnung zu einem qualitativen, kategorial skalierten Merkmal, z.b. einem Persönlichkeitstyp, verknüpft sein kann (vgl. Rost, 2004). Der Begriff qualitativ bezieht sich in diesem Fall auf die Skalierung des zu messenden Merkmals. Qualitative Erhebungsmethoden, z.b. un- oder teilstrukturierte Interviews, sind dagegen keine psychometrischen Tests, weil ihnen u.a. das Merkmal der Standardisierung fehlt. weitere Bestimmungsstücke der Definition Obwohl sich die Ursprünge psychologischen Testens bis in die Antike zurückverfolgen lassen hier ist insbesondere das Auswahlverfahren für Beamte im kaiserlichen China zu nennen spielten für die Entwicklung der modernen Testtheorie besonders die Fortschritte beim Bemühen um die Messung der menschlichen Intelligenz im 19. und frühen 20. Jahrhundert eine zentrale Rolle. Meilensteine waren hier u.a. Arbeiten von Sir Francis Galton ( ), Alfred Binet ( ) oder die Entwicklung des Army Alpha Tests im 1. Weltkrieg (vgl. für einen kurzen Überblick Amelang, Bartussek, Stemmler & Hagemann, 2006, sowie die

8 10 Grundlagen psychologischer Testverfahren Alfred Binet ( ), Pionier psychologischen Testens Module 1 und 7). Aus diesen Wurzeln in der Intelligenzmessung erklärt sich auch die noch heute gültige Terminologie, die z.b. auch dann von Aufgaben und deren Schwierigkeit spricht, wenn es etwa bei Persönlichkeitstests keine objektiv richtigen oder falschen Lösungen, sondern lediglich unterschiedliche Antwortmöglichkeiten gibt. 1.1 Anwendungsbereiche und Klassifikation von Testverfahren Psychologische Tests werden für zahlreiche Zwecke und an zahlreichen unterschiedlichen Institutionen eingesetzt. Einen unvollständigen Überblick gibt die folgende Aufzählung: Tabelle 1.1: Anwendungsgebiete psychologischer Tests Kliniken Psychische Störungen Psychosomatische Störungen Somatische Störungen Auf somatische Ursachen zurückgehende psychologische Störungen (z.b. Hirnschäden) Belastung und Schmerz Krankheitsbewältigung Therapieverlaufs- und Erfolgskontrolle Beratungsstellen Allgemeine psychosoziale Beratung Familienberatung Eheberatung Erziehungsberatung Suchtberatung Staatliche Verwaltung Berufsberatung Auslese Jugendhilfe Verkehrseignung (TÜV) Forensischer Bereich Strafvollzug (Haftentlassung) Im Rahmen von Gerichtsverfahren (zivil- und strafrechtliche Verantwortlichkeit, Glaubwürdigkeit von Zeugen, Sorgerecht)

9 Grundlagen psychologischer Testverfahren 11 Betriebe/Personalverwaltung Eignung/Auslese Arbeitsplatzgestaltung/Ergonomie Arbeitsanalyse Prozesse innerhalb und zwischen Arbeitsgruppen Schulen, pädagogischer Bereich Entwicklung/Entwicklungsstörungen Lernprozesse Schulreife Sonderschulbedürftigkeit/geistige Behinderung Spezifische Lernschwierigkeiten Leistungsstörungen Hochbegabung Schulleistung Hochschuleignung Intelligenzdiagnostik allgemein Militär Eignungsprüfungen Marktforschung/Werbepsychologie Produktbeurteilung Werbung Einstellungsmessung Forschung Einstellungen/Interessen Eigenschaften Momentane Zustände Verlaufsprozesse Viele Testverfahren werden eigens für genau spezifizierte Anwendungsbereiche konstruiert, etwa für die Diagnostik bestimmter klinischer Störungen oder für die Arbeitsanalyse in bestimmten Berufsgruppen. Andere Verfahren, z.b. aus der Intelligenzdiagnostik, können dagegen in vielen verschiedenen Gebieten zum Einsatz kommen. Für den praktischen Einsatz ist es von zentraler Bedeutung, dass die Anwendung in einem spezifischen Gebiet theoretisch und empirisch begründet werden kann. Ein und dasselbe Verfahren kann für einen Zweck sehr nützlich und für einen anderen völlig ungeeignet sein. Diese Aussage mag trivial erscheinen, ist aber notwendig, wenn man bedenkt, dass z.b. klinische Tests zur Diagnostik von Persönlichkeitsstörungen manchmal bedenkenlos für die Personalauswahl eingesetzt werden. Die Güte eines Tests kann daher nicht unabhängig vom Tests sollten nur hinsichtlich spezifischer Anwendungen beurteilt werden.

10 12 Grundlagen psychologischer Testverfahren Einsatzzweck beurteilt werden (etwa mit der Aussage: Dieser Test ist valide. ). Mehr oder weniger gut sind nicht die Tests selbst, sondern deren Eignung als Grundlage für spezifische diagnostische Aussagen. Klassifikationsmöglichkeiten von Tests Mit den Anwendungsbereichen ist bereits ein mögliches Kriterium zur Klassifikation von Tests angesprochen. Da, wie erwähnt, viele Tests in mehreren Gebieten eingesetzt werden, ist damit nicht immer eine eindeutige Zuordnung möglich. Gebräuchlich sind daneben auch Einteilungen nach dem Inhalt, den Testungsstrategien sowie nach formalen Gesichtspunkten (vgl. z.b. Amelang & Schmidt- Atzert, 2006; Brähler, Holling, Leutner & Petermann, 2002; Schütz & Marcus, 2005). Nach dem Inhalt unterscheiden z.b. Brähler et al. (2002) folgende Kategorien: Inhalt: Leistungstests Inhalt: Psychometrische Persönlichkeitstests Inhalt: Persönlichkeits- Entfaltungsverfahren Leistungstests (Entwicklungstests, Intelligenztests, Allgemeine Leistungstests, Schultests, spezielle Funktionsprüfungs- und Eignungstests) geben Aufschluss über Fähigkeiten und Fertigkeiten eines Individuums. Sie bestehen in der Regel aus einer Vielzahl von Problemlöseaufgaben, deren Beantwortung als richtig oder als falsch eingestuft wird. Psychometrische Persönlichkeitstests (Persönlichkeits-Struktur-Tests, Einstellungs- und Interessentests, Klinische Tests) sind meistens Fragebogen, deren Fragen sich auf Gefühle, Vorlieben, Abneigungen, Interessen und Meinungen der Probanden beziehen. Die Probandin soll dabei eine subjektive Selbstbeurteilung oder Selbstbeschreibung vornehmen; daher gibt es keine objektiv richtigen oder falschen Lösungen bzw. Antworten. Wenn Fragebogen mehrere Merkmale erfassen, also aus verschiedenen Subtests bestehen, bezeichnet man sie auch als Inventare. Persönlichkeits-Entfaltungsverfahren (Formdeuteverfahren, Verbalthematische Verfahren, Zeichnerische und Gestaltungsverfahren) sind sog. projektive Tests. Sie bestehen aus weitgehend unstrukturiertem Material (z. B. Farbkleckse, Satzanfänge, Spielmaterial) oder mehrdeutigen Bildern, die vom Probanden vollendet bzw. gedeutet werden müssen. Dabei wird davon ausgegangen, dass die Testpersonen bei der Strukturierung des Materials ihre unbewussten Motive, Gefühle oder Einstellungen in die Geschichte oder das Bild projizieren. Allerdings sind solche Verfahren häufig nicht nach testtheoretischen Prinzipien konstruiert und überprüft; die Auswertung erfolgt nach Regeln mit weiten subjektiven Interpretationsspielräumen, so dass sie streng genommen nicht den Tests zuzurechnen sind. Anders zu beurteilen sind semi-projektive Tests, bei denen das Prinzip der Projektion mit dem der Standardisierung verbunden wird.

11 Grundlagen psychologischer Testverfahren 13 Nach der Testungsstrategie lässt sich zwischen normorientierten Konstrukttests und kriterienorientierten Tests unterscheiden. Konstrukttests erlauben einen wissenschaftlich begründbaren Rückschluss vom Testverhalten auf dahinter liegende Eigenschaften und Fähigkeiten (Konstrukte). Diese Tests sind normorientiert, da das Testergebnis einer Person relativ zur durchschnittlichen Ausprägung (= Norm) einer Bezugsgruppe gesehen wird. Bei den aus dem pädagogischen Bereich stammenden kriterienorientierten Tests (lehrzielorientierte Leistungsmessung) wird dagegen die individuelle Testleistung nicht mit einer Bezugsgruppe verglichen, sondern mit einer Idealnorm, dem Lehrziel. Diese Tests gestatten keine Aussagen über die Fähigkeiten und Eigenschaften eines Schülers, sondern informieren darüber, ob das Unterrichtsziel erreicht wurde. Als psychometrisch konstruierte Verfahren sind kriterienorientierte Tests erheblich seltener als Konstrukttests, das kriterienorientierte Prinzip findet sich aber im Grunde auch in einer gewöhnlichen Klausur realisiert. So lassen sich etwa nach dem Mehrfachwahlprinzip (multiple choice) konstruierte Klausuren ohne Schwierigkeiten mit testtheoretischen Mitteln auswerten und beurteilen. Daneben lassen sich Tests auch nach verschiedenen formalen Gesichtspunkten ordnen. Nach der Durchführungszeit kann man zeitgebundene Schnelligkeitstests (Speedtests) von Tests ohne Zeitbeschränkung, sog. Niveautests (Powertests), unterscheiden. Diese Unterscheidung ist für die Konstruktion von Leistungstests besonders bedeutsam. In beiden Fällen steigt in der Regel der Schwierigkeitsgrad von Item zu Item an. Während jedoch bei zeitbegrenzten Speedtests alle Items bei unbegrenzter Lösungszeit für die meisten Probanden lösbar wären, erreichen Aufgaben in Powertests ein Niveau, an dem eine im Verlauf zunehmende Anzahl von Teilnehmern scheitert. Für die Konstruktion von Leistungs- wie Persönlichkeitstests außerordentlich wichtig ist die Unterscheidung nach der Anzahl der zu erfassenden Merkmale zwischen ein- und mehrdimensionalen Tests. Die Durchführung eines Tests kann des Weiteren entweder in einer Gruppe oder nur mit Einzelpersonen erfolgen (Gruppen- bzw. Individualtests). Nach der Sprachgebundenheit der Items lässt sich zwischen verbalen und nicht-verbalen Tests unterscheiden. In Abhängigkeit vom Medium, in dem sie durchgeführt werden, ergibt sich ferner durch die Einführung neuer Technologien die Unterscheidung in Papier-und- Bleistift-, PC-gestützte und Online-Tests. Die Einführung der Computertechnologie hat dabei u.a. die Entwicklung sog. adaptiver Tests erst ermöglicht, bei denen die Schwierigkeit der Aufgaben dynamisch dem individuellen Leistungsniveau angepasst wird, was eine erheblich kürzere und weniger belastende Durchführung zulässt. Jeder Test kann natürlich mehreren der vorgenannten Kategorien zugeordnet sein. Testungsstrategie: Konstrukt- vs. kriterienorientierte Tests Formale Kriterien: Speed vs. power, einvs. mehrdimensional, Gruppe vs. Einzel, mediale Unterstützung

12 14 Grundlagen psychologischer Testverfahren 1.2 Tests und Testtheorie Testtheorie als Theorie des Zusammenhangs zwischen Testverhalten und psychischen Merkmalen Während psychologische Tests eine Klasse in bestimmter Weise definierter Verfahren zur Messung psychologischer Merkmale darstellen, beschäftigt sich die psychologische Testtheorie mit dem Zusammenhang dieser Merkmale mit dem Testverhalten (Rost, 2004). Die Testtheorie beschreibt diesen Zusammenhang durch formale, mathematisch formulierte Modelle. Es geht bei der Testtheorie also weder um eine Theorie der psychologischen Merkmale (Konstrukte) noch um die Tests und deren Klassifikation, sondern um die Schlüsse, die aufgrund der Antworten im Test auf die zugrunde liegenden Merkmale gezogen werden und in einem sehr allgemeinen Sinn um die Qualität dieser Schlussfolgerungen. Damit ist angesprochen, dass psychologische Konstrukte nicht direkt beobachtet werden können, sondern aus dem Verhalten von Personen erschlossen werden müssen. Menschen tun dies im Alltag intuitiv, wenn sie sich aus dem Verhalten einer anderen Person ein Urteil darüber bilden, ob sie diese Person z.b. für kompetent oder zuverlässig halten. Tests unterscheiden sich von diesen Alltagsbeobachtungen u.a. dadurch, dass hier systematisch standardisierte Verhaltensgelegenheiten geschaffen werden, um auf die Ausprägung des interessierenden Merkmals zu schließen. Anstatt sich also z.b. darauf zu verlassen, die Intelligenz eines anderen Menschen aufgrund dessen zufällig beobachteter Äußerungen oder Leistungen vor dem Hintergrund der eigenen Lebenserfahrung einzuschätzen, wird in Intelligenztests allen Teilnehmern eine Anzahl gleicher Aufgaben gestellt, um aus der Zahl der richtigen Lösungen auf deren Intelligenz zu schließen. Das beobachtete Verhalten kann dabei im Prinzip sowohl verbaler als auch nonverbaler Natur sein, die Erhebung also mittels Beobachtungen i.e.s., mündlich oder schriftlich gestellter Fragen erfolgen. Da es entscheidend auf die Vergleichbarkeit ankommt und sich die Untersuchungsbedingungen einschließlich der Reiz- und Reaktionsmöglichkeiten im schriftlichen Fragebogen besonders einfach standardisieren lassen, dominiert bei psychologischen Tests das Verfahren der Erhebung mittels Papier und Bleistift oder neuerdings auch mittels Maus und Tastatur. Items als manifeste Indikatoren latenter Konstrukte Die einzelnen Verhaltensgelegenheiten heißen bei Tests allgemein Aufgaben oder Englisch Items, was bei Nicht-Leistungstests weniger missverständlich ist. Ein Item besteht aus einem Reiz (einer Testaufgabe oder Frage) und einer Anzahl möglicher Reaktionen (Antwortmöglichkeiten). Bei offenem Antwortformat, etwa bei projektiven Tests, ist die Zahl möglicher Reaktionen unbegrenzt, was die Vergleichbarkeit erheblich einschränkt. In den meisten Tests wird daher durchgängig ein geschlossenes Antwortformat verwendet. Von jedem Item wird angenommen, dass es ein beobachtbarer Indikator (manifeste Variable) für ein zugrunde liegendes nicht beobachtbares Konstrukt (latente Variable) sei. Das beobachtete (Antwort-)Verhalten liefert also einen Hinweis auf die Ausprägung der latenten Variable, für die man sich eigentlich interessiert.

13 Grundlagen psychologischer Testverfahren 15 Keiner dieser Hinweise ist für sich betrachtet perfekt. Zum Beispiel kann aufgrund der richtigen oder falschen Lösung eines einzelnen Items im Intelligenztest sicher noch kein abschließendes Urteil über die individuelle Intelligenz getroffen werden. Deshalb werden in Tests regelmäßig mehrere, manchmal sehr viele Items zu Skalen zusammengefasst. Der nach einer festgelegten Vorschrift, meist durch einfache Aufsummierung oder Durchschnittsbildung, berechnete Gesamtwert oder Testscore wird dann als eigentlicher Indikator für die Ausprägung des Konstrukts angesehen. Abbildung 1.1 fasst diese beschriebenen Schritte zusammen. Items werden zu Skalen zusammengefasst. Item 1 Schlussfolgerung Konstrukt Item 2 Testscore Item n Latenter Bereich beeinflusst manifester Bereich Abb. 1.1: Gegenstandsbereich der Testtheorie Die Testtheorie beschäftigt sich konkret damit, in welchem Ausmaß es zulässig und sinnvoll ist, die einzelnen Items als Indikatoren des latenten Konstrukts anzusehen, sie zu einem oder mehreren Testscores zusammenzufassen und aus diesem Wert schließlich wieder auf die Ausprägung des psychologischen Merkmals zu schließen. Sie stellt eine Reihe von Kennwerten zur Verfügung, um diese auch in der Abbildung dargestellten Zusammenhänge zu beurteilen. Dem didaktischen Prinzip dieses Lehrbriefs folgend, werden wir diese Kennwerte jeweils dort einführen, wo sie im Prozess der Konstruktion eines Tests typischerweise benötigt und berechnet werden. Im folgenden Abschnitt werden lediglich einige grundsätzliche Annahmen der Testtheorie sowie die Unterscheidung der beiden Varianten Klassische und Probabilistische Testtheorie in Grundzügen dargestellt. Merksatz: In der Testtheorie geht es um die Beurteilung sowohl des Gesamtwerts im Test als auch von dessen Bestandteilen hinsichtlich des Zusammenhangs zwischen Testverhalten und psychologischen Merkmalen. Die Prinzipien der Testtheorie lassen sich zumindest in Teilen häufig auch auf Erhebungsverfahren anwenden, die eigentlich keine psychologischen Tests sind. Zum Beispiel lässt sich mit den gleichen empirischen und statistischen Methoden wie bei psychologischen Tests ermitteln, welche Bedeutung die einzelnen Aufga- Testtheorie lässt sich auch auf andere Erhebungsmethoden anwenden.

14 16 Grundlagen psychologischer Testverfahren ben einer Klausur für deren Gesamtergebnis haben und wie gut dieses Gesamtergebnis schließlich den Studienerfolg vorhersagt, ohne dass man deshalb die Klausur als psychologischen Test bezeichnen würde. Tests zeichnen sich jedoch, außer durch die Messung psychologischer Merkmale, gegenüber anderen Erhebungsverfahren auch dadurch aus, dass sie von Anfang an nach den Prinzipien der Testtheorie in einer ihrer Varianten entwickelt werden und die empirischen Kennwerte der Testtheorie in die endgültige Gestalt der Tests einfließen. Man spricht auch von psychometrischen Verfahren, weil Tests nach der Lehre von der quantitativen Messung psychischer Merkmale, der Psychometrie, entwickelt wurden. Da die gleichen Prinzipien oft auch zur nachträglichen Beurteilung anderer Verfahren herangezogen werden können, geht der Gegenstandsbereich der Testtheorie über das diagnostische Instrument Test hinaus. 1.3 Grundlagen der Testtheorie Beispiel 1.1 Noch einmal zurück zum für Tests eher untypischen Beispiel einer Klausur: Nehmen wir an, eine Klausur solle so gestaltet werden, dass sie Kenntnisse in der Konstruktion psychologischer Tests gut misst. Inwiefern können diese Kenntnisse selbst dazu beitragen, diese Klausur zu gestalten und zu evaluieren? Wenn wir Kenntnisse der Testkonstruktion als ein Konstrukt definieren, das in der Klausur gemessen werden soll, müssen wir zunächst eingestehen, dass dies im Rahmen einer einzelnen Klausur nicht vollkommen möglich ist. Das liegt zum einen am Konstrukt selbst, das viel zu umfangreich ist, um in einer Klausur vollständig erfasst werden zu können. Das wäre aber auch gar nicht sinnvoll, weil vermutlich niemand auf der Welt im Besitz wirklich lückenlos vollständiger Kenntnisse der Testkonstruktion ist und es kein vernünftiger Anspruch an Studierende der Psychologie wäre, solche Kenntnisse nachzuweisen. Besser vertretbar wäre es, sich an den jeweiligen Lernzielen und den Inhalten des Kurses zu orientieren. In diesem Fall könnte man den Anspruch an die Klausur formulieren, dass diese die Lerninhalte repräsentativ und auf angemessenem Niveau abbilden soll. Repräsentativität bedeutet, dass die Aufgaben unterschiedliche, wesentliche Inhaltsbereiche nicht unbedingt vollständig, aber ausgewogen abbilden und dabei keine irrelevanten Inhalte hinzufügen sollten. Testtheoretisch gesprochen betrifft dies den Aspekt der Inhaltsvalidität, der zwar formal zum Bereich der Evaluation von Tests gehört (vgl. Abschnitt 5.2.2), aber unbedingt bereits beim Entwurf der Klausur berücksichtigt werden sollte. Unter einem angemessenen Niveau könnte man verstehen, dass die Klausuraufgaben weder zu leicht noch zu schwer sind. Wiederum eher technisch betrachtet geht es darum, dass die Klausur gut vorbereitete Studierende von weniger gut Vorbereiteten unterscheiden können sollte, was nicht möglich ist, wenn am Ende alle gleich gute oder schlechte Noten bekom-

15 Grundlagen psychologischer Testverfahren 17 men. Dahinter steckt allerdings die Annahme, dass es tatsächlich Leistungsunterschiede zwischen den Studierenden gibt, was bei größeren Gruppen zwar erfahrungsgemäß meist zutrifft, aber nicht logisch zwingend ist. Die Testtheorie bietet Kennwerte an, um sowohl für einzelne Fragen als auch die Klausur insgesamt zu prüfen wie gut damit Niveaunterschiede aufgedeckt werden. Eine weitere bislang ungeprüfte Annahme ist, dass es sich bei Kenntnissen in Testkonstruktion um ein einheitliches, homogenes Konstrukt handelt. Es ist aber durchaus möglich, dass manche Studierende z.b. besonders bei Aufgaben zum praktischen Vorgehen bei der Testkonstruktion gut abschneiden, während Anderen Fragen zum mathematisch-methodischen Hintergrund besser liegen. Um zu prüfen, ob ein psychologischer Test tatsächlich ein einheitliches Merkmal misst oder mehrere unabhängige Konstrukte, bedient sich die Testtheorie faktorenanalytischer Methoden. Ebenso ist es aber auch möglich, dass unsere Klausur zwar insgesamt einen recht einheitlichen Wissensbereich abdeckt, einzelne Klausuraufgaben aber weniger gut zu diesem Bereich passen. Empirisch würde sich das darin zeigen, dass Kandidatinnen, die insgesamt besonders gut in der Klausur abschneiden, bei einzelnen Aufgaben nicht oder kaum bessere Ergebnisse erzielen als andere. Auch um solche misslungenen Aufgaben zu identifizieren bzw. die Qualität jedes einzelnen Items zu prüfen, stellt die Testtheorie verschiedene Kennwerte zur Verfügung. In obigem Beispiel sind schon einige konkrete Kennwerte angeklungen, die im Rahmen testtheoretischer Prüfungen berechnet werden können. In späteren Kapiteln wird auf diese und andere Berechnungen noch näher eingegangen. An dieser Stelle sollen lediglich einige Grundprinzipien eingeführt werden. Zu unterscheiden sind dabei die Varianten der Klassischen (KTT) und der Probabilistischen Testtheorie Einführung in die Klassische Testtheorie (KTT) Die Klassische Testtheorie (KTT) ist gegenwärtig die Grundlage der meisten psychologischen Testverfahren. Nach Rost (1999) basieren 95 Prozent aller Tests auf der Klassischen Testtheorie. Damit ist es schon aus rein pragmatischen Gesichtspunkten notwendig, sich mit dieser Theorie auseinander zu setzen. Klassisch heißt sie deshalb, weil sie die erste Theorie war, die zur Konstruktion von psychologischen Tests herangezogen wurde (zugeschrieben Gulliksen, 1950, dessen Arbeit jedoch auf noch ältere Grundlagen zurückgreift; vgl. z.b. Amelang et al., 2006). Die Probabilistische Testtheorie überwindet einige Schwächen der KTT, allerdings auf Kosten erheblich größerer mathematischer Komplexität. Die meisten psychologischen Tests beruhen auf der KTT. Ein großer Vorteil der KTT liegt also in ihrer einfachen Anwendbarkeit (Henard, 2000). Zudem haben sich Tests, die nach der KTT konzipiert wurden, bewährt. Beides erklärt wahrscheinlich auch zum großen Teil ihre bis heute ungebrochene

16 18 Grundlagen psychologischer Testverfahren Popularität. Im Folgenden werden die Grundannahmen der Klassischen Testtheorie einfach und ohne formale Herleitung oder Einbettung geschildert. Sehr umfassend ist die Klassische Testtheorie bei Steyer und Eid (2001) dargestellt. Die KTT ist eine Theorie der Messfehler bzw. der Reliabilität Die KTT trägt dem Umstand Rechnung, dass Testergebnisse einzelner Personen mit dem gleichen Test zwischen verschiedenen Messzeitpunkten variieren. Steyer und Eid (2001) nennen dafür unterschiedliche Gründe. Übertragen auf unser obiges Beispiel kann zum einen das gemessene Konstrukt durch Lernen (Übungsund Transfereffekte) verändert werden, was bei der Verbesserung des in einer Klausur überprüften Wissens erwünscht, bei der Messung als stabil angenommener Merkmale wie Intelligenz aber dann unerwünscht ist, wenn sich nur die Lösungsstrategien für Testaufgaben, aber nicht das zugrunde liegende Merkmal verbessert. Weiter ist es möglich, dass die Messung durch unsystematische äußere Einflüsse, wie Lärm oder stickige Luft, oder unsystematische innere Einflüsse, wie Müdigkeit oder mangelnde Motivation, zufällig schwanken (Messung ist fehlerbehaftet). Diese Einflussfaktoren treten oft in Kombination auf. Der Fehlerbegriff in der KTT berücksichtigt jedoch nur unsystematische Fehler. Darüber hinaus erfolgen keine Annahmen darüber, wie Items beantwortet werden oder wie eine Testleistung zustande kommt (Fischer, 1974), sondern nur, aus welchen Komponenten Messwerte bestehen. Die KTT ist eine reine Theorie der Messfehler bzw. der Freiheit von Messfehlern oder Reliabilität. In der KTT werden bestimmte Grundannahmen (Axiome) vorausgesetzt, aus denen sich dann bestimmte Folgerungen logisch ergeben, wobei die Unterscheidung zwischen Axiomen und Folgerungen sich im wissenschaftlichen Diskurs teilweise verschoben hat (z.b. Novick, 1966, vgl. Steyer & Eid, 2001) und uns hier nur am Rande beschäftigen soll. Ausgangspunkt der Überlegungen ist in jedem Fall die Varianz von Messwerten, wobei diese Messwerte prinzipiell (1) schon bei der Testung einer einzelnen Person bei einer einzigen Gelegenheit zwischen den Teilen (Items) eines Tests variieren können (vgl. dazu Kapitel 4), ferner (2) intraindividuell, wenn dieselbe Person mehrfach mit dem gleichen Verfahren getestet wird sowie (3) interindividuell zwischen verschiedenen Teilnehmern einer einzelnen Testung. Die KTT unterstellt Zufallsziehung und Zufallsfehler. Es ist wichtig, zwischen diesen Quellen der Varianz gedanklich zu unterscheiden, wobei wir hier zur Vereinfachung zunächst von der ersten genannten Quelle (Interitemvarianz) abstrahieren wollen. Bezüglich der beiden anderen Varianzquellen geht die KTT davon aus, dass jede getestete Person zufällig aus einer Population entnommen wurde und dass das Testergebnis derselben Person bei mehreren Testungen rein zufallsabhängig variiert. Wenn wir jetzt weiter annehmen, wir könnten bei einer Person i den gleichen Test unter gleichen Bedingungen beliebig oft anwenden, dann würden sich die beobachteten Testergebnisse X i dieser Person einer Normalverteilung annähern. Der Mittelwert dieser (hypothetischen) Normalverteilung ist in der KTT als der wahre Wert T i (von Englisch: true score) definiert. Diese Aussage wird auch als Existenzaxiom bezeichnet (Moosbrugger &

17 Grundlagen psychologischer Testverfahren 19 Hartig, 2003), wobei der etwas suggestive Begriff wahrer Wert nüchterner auch als Verhaltenstendenz einer Person in einer konkreten Situation interpretiert werden kann (Steyer & Eid, 2001). Bei einer einzelnen Messung ist es unwahrscheinlich, dass wir exakt den wahren Wert beobachten, da jede einzelne Messung mit einem Fehler E i (für error) behaftet ist. Dieser Fehler umfasst per Definition alle unkontrollierten und unsystematischen Störeinflüsse (vgl. Amelang & Schmidt- Atzert, 2006, S. 34) und schwankt im Ausmaß ebenfalls zufällig um einen Mittelwert 1. Das zentrale Grundaxiom der KTT besagt nun, dass sich jeder beobachtete Wert additiv aus einem wahren Wert und einer Fehlerkomponente zusammensetzt: X i = T i + E i Grundannahme der KTT Durch einfaches Umstellen ergibt sich, dass der Messfehler sich aus der Differenz zwischen beobachtetem Testwert einer Person und deren wahrem Wert zusammensetzt: E i = X i - T i Aus dieser Festsetzung bzw. Definition von wahrem Wert und Messfehler ergeben sich Folgerungen für die Eigenschaften des Messfehlers und des Zusammenhangs zwischen Messfehler und wahrem Wert. Die beiden Folgerungen oder Ableitungen können nach Steyer und Eid (2001) in der empirischen Anwendung nicht falsch sein und sind aus logischen Gründen wahr. Die erste Folgerung besagt, dass der Mittelwert M des Messfehlers null ist, der wahre Wert in einer einzelnen Messung also mit gleicher Wahrscheinlichkeit über- oder unterschätzt wird und sich über viele Messungen tendenziell ausmittelt. Dies gilt sowohl für unendlich viele Messungen bei einer Person i als auch für den Mittelwert der Fehler in einer Population oder Teilpopulation P: Messfehler verteilen sich um den Wert Null. M (E) i = 0 (1a) und M (E) P = 0 (1b) Die zweite Folgerung besagt, dass kein Zusammenhang (r) zwischen dem Messfehler und dem wahren Wert besteht. Dies gilt ebenfalls sowohl für eine Person als auch in einer Population oder Teilpopulation. Inhaltlich bedeutet dies, dass der Wahrer Wert und Fehler sind unkorreliert. 1 Es handelt sich bei den Verteilungen des Messfehlers und der wahren Werte jeweils um theoretische Verteilungen, bei deren Mittelwerten also eigentlich um Erwartungswerte. Der Konvention entsprechend müssten in der Notation auch an die Stelle der lateinischen Buchstaben T und E das griechische τ bzw. ε treten, worauf wir zur Vereinfachung verzichtet haben.

18 20 Grundlagen psychologischer Testverfahren Messfehler nicht davon abhängt, ob die Ausprägung des wahren Werts einer Person hoch, niedrig oder durchschnittlich ist (zur Kritik s.u.): r (E, T) = 0 (2) Fehler verschiedener Tests sind unkorreliert. Weiterhin wurden folgende zusätzliche Annahmen formuliert: Der Messfehler (E A ) eines Tests A (z.b. Gedächtnistest) weist keinen Zusammenhang (r) mit dem Messfehler (E B ) eines anderen Tests B (z.b. Leistungsmotivationstest) auf: r (E A, E B ) = 0 (3) Diese Annahme gilt nur dann, wenn beide Messvorgänge (Tests) experimentell (nicht: empirisch!) unabhängig sind (Kristof, 1983). Das heißt, für einen beliebigen Probanden darf der beobachtete Punktwert im Test A nicht logisch den Punktwert in Test B beeinflussen, was z.b. dann der Fall wäre, wenn die Teilnahme am zweiten Test vom erreichten Punktwert beim ersten abhinge. Steyer und Eid (2001) bemerken, dass die Annahme eines nicht vorhandenen Zusammenhangs von Messfehlern in der Praxis falsch sein kann. Die Annahme sei für mathematische Ableitungen zwar bequem, aber nicht zwingend notwendig. Kreuzweise Unkorreliertheit von Fehlern und wahren Werten verschiedener Tests Die Unabhängigkeit von Messfehler und wahrem Wert gilt ferner auch überkreuz, die Messfehler (E A ) eines Tests A weisen also keinen Zusammenhang (r) mit dem tatsächlichen Wert (T B ) aus einem Test B auf: r (E A, T B ) = 0 (4) Nimmt man die Definition X = T + E ernst, ergibt sich daraus die Implikation, dass die Klassische Testtheorie nur für solche Messwerte definiert ist, für die die Berechnung von Differenzen sinnvoll ist. Streng genommen erfordert dies mindestens Intervallskalenniveau, was bei den willkürlich festgelegten Antwortformaten der meisten Fragebogen zumindest fraglich ist. Hilfsweise vertraut man in der Regel jedoch darauf, dass sich durch Aufsummierung der Anzahl richtiger Lösungen oder von Itemantworten generell Differenzen annähern und daher sinnvoll interpretieren lassen. Dies wird auch als Per fiat - ( Es möge sein -) Messung bezeichnet. Reliabilität als Anteil wahrer Varianz an der gesamten Testvarianz Durch die aufgeführte Definition und die dargestellten Annahmen lässt sich ein Kernkonzept der Klassischen Testtheorie herleiten, die Reliabilität (r tt ) oder Messgenauigkeit eines Tests (siehe zur Vertiefung der folgenden Ausführungen Abschnitt 5.2.1). Die Grundgleichung X i = T i + E i bezieht sich auf eine einzelne Messung. Erweitert man dies auf mehrere oder viele Messungen wiederum entweder bei einer Person oder in einer Gruppe oder Population ergeben sich für beobachtete Werte, wahre Werte und Messfehler jeweils Verteilungen und zu jeder Verteilung die entsprechenden Streuungen oder Varianzen S 2 X, S 2 T und S 2 E. Die Reliabilität ist in der KTT definiert als der Anteil der wahren Varianz S 2 T an der gesamten beobachteten Varianz S 2 X. Da T und E unkorreliert sind (Gleichung

19 Grundlagen psychologischer Testverfahren 21 2), lassen sich deren Varianzen wiederum einfach addieren (vgl. Modul 2): S 2 X = S 2 T + S 2 E. Daraus ergeben sich folgende Formeln für die Schätzung der Reliabilität eines Tests: r tt = S S 2 T 2 2 T + SE r tt = S S 2 T 2 X Was bedeutet das inhaltlich? Nehmen wir an, wir hätten eine Gruppe von Versuchspersonen den gleichen Intelligenztest bearbeiten lassen. Die Varianz der beobachteten Messwerte S 2 X lässt sich leicht ermitteln (vgl. Modul 2). Wenn wir die Varianz der wahren Werte kennen würden, könnten wir bestimmen, in welchem Ausmaß der Test zu systematischen, reproduzierbaren Resultaten führt, also tatsächlich etwas misst, und in welchem Umfang relativ dazu die Ergebnisse nur zufällig und unsystematisch zustande kamen. Wie man leicht nachvollziehen kann, ist die Varianz der wahren Werte jedoch nicht beobachtbar. Daher müssen Wege gefunden werden, dieses Varianzverhältnis zu schätzen. Es geht, wie schon oben erwähnt, um die Reproduzierbarkeit von Antworten und Leistungen unter identischen Bedingungen. Da aber in der Praxis oft nur eine Messung vorliegt und es auch bei wiederholten Messungen kaum möglich ist, identische Bedingungen herzustellen, existieren unterschiedliche Schätzverfahren für die Reliabilität mit jeweils spezifischen Vor- und Nachteilen. Mit der Reliabilität ist bereits eines der sog. psychometrischen Gütekriterien angesprochen, nach denen psychologische Tests üblicherweise beurteilt werden. Diese Kenngröße spielt nicht nur für die Beurteilung von Testverfahren, sondern auch für die Prüfung der Genauigkeit einer einzelnen Messung eine wichtige Rolle. Wie ebenfalls in Kapitel 5 näher behandelt, ist die Reliabilität die wesentliche Information zur Bestimmung von Standardschätz und Standardmessfehler, die benötigt werden um zu beurteilen, wie gut sich die psychologische Gutachterin auf das Testergebnis einer einzelnen Person verlassen kann. Obwohl dies in Darstellungen der KTT nicht üblich ist, lassen sich die obigen Formeln aber auch sehr gut heranziehen, um den Unterschied der Reliabilität von einem noch wichtigeren Gütekriterium zu illustrieren: der Validität. Ungeachtet der Bezeichnung wahrer Wert werden in den Kenngrößen T bzw. S 2 T alle Faktoren, die den beobachteten Testwert systematisch beeinflussen, unterschiedslos zusammengefasst. Dies wird noch deutlich werden, wenn wir uns mit den Methoden zur empirischen Schätzung der Reliabilität beschäftigen. Bei der Reliabilität geht es um das Ausmaß, in dem ein Test irgendetwas misst. Das schließt sowohl die beabsichtigte Messung des Zielkonstruktes ein als auch Fehler, die nicht zufällig, sondern systematisch immer wieder auftreten. Zum Beispiel werden Ergebnisse in Intelligenztests nicht nur von der wahren Intelligenz und von Zufallsfaktoren beeinflusst, sondern u.a. auch von dem stabilen Merkmal Standardschätz- und Standardmessfehler als Ableitungen aus der Reliabilität Unterscheidung von Konstruktvarianz und systematischen Fehlern (bias)

20 22 Grundlagen psychologischer Testverfahren Testangst, das davon betroffene Personen daran hindert, in Testsituationen eine ihrer tatsächlichen Intelligenz angemessene Leistung abzurufen. Da Testangst einerseits auch bei wiederholten Testungen dieselben Personen betrifft, andererseits nichts mit dem Konstrukt Intelligenz zu tun hat, lässt sich die Ausprägung in diesem Merkmal inhaltlich weder als wahr (T) noch als unsystematischer Fehler (E) interpretieren. Zur Unterscheidung von beiden werden derartige systematische Fehlerkomponenten (neben Testangst können dies u.v.a. so unterschiedliche Faktoren wie soziale Erwünschtheit oder Stereotype von Interviewern sein) zusammenfassend als bias bezeichnet. In der KTT-Definition von Reliabilität wird das bias generell der wahren Varianz zugeschlagen. Formal ließe sich das Grundaxiom der KTT erweitern, indem man die Komponente T i zerlegt in die im engeren Sinne wahren Werte im Zielkonstrukt C i und systematische Fehler B i. Dementsprechend lautet die erweiterte Grundgleichung: X i = C i + B i + E i Validität als von der Reliabilität abgegrenzte Varianzkomponente Bei der Validität (r tc ) geht es nun, im Unterschied zur Reliabilität, ausschließlich um die Messung des Zielkonstruktes bzw. allgemeiner um die Gültigkeit inhaltlicher Aussagen auf der Grundlage von Testergebnissen. Es geht also nicht darum, in welchem Ausmaß ein Test irgendetwas misst, sondern vereinfacht darum in welchem Ausmaß er in der jeweiligen Situation das misst, was er messen soll. Formal lässt sich dies in Analogie zu den Formeln der Reliabilität ausdrücken als Anteil der Zielkonstruktvarianz S 2 C an der Gesamtvarianz: r tc = S 2 C / (S 2 C + S 2 B + S 2 E) Die empirische Schätzung der Validität ist allerdings noch erheblich schwieriger als die Ermittlung der Reliabilität und in der Regel eher in einem sehr langwierigen Prozess der kleinen Schritte als in einem großen Wurf zu lösen Kritische Anmerkungen zur Klassischen Testtheorie Axiome der KTT sind in der Praxis nicht immer haltbar. Wie bereits geschildert, sind einige Annahmen der KTT nicht überprüfbar, sondern ergeben sich logisch aus der Festsetzung des beobachteten Wertes als wahrer Wert plus Messfehler. Auch wenn die KTT mathematisch durchaus befriedigend formuliert ist, sind manche der Annahmen in der psychologischen Praxis nur schwer haltbar (vgl. Fischer, 1974). Nicht intendierte systematische Varianzanteile (bias) werden dem wahren Wert zugerechnet. Die KTT stellt keine Verbindung zwischen einer Fähigkeit, einem Merkmal oder einer Eigenschaft und der Itembeantwortung her. Außerdem wirken sich unter Umständen Übungs- und Transfereffekte systematisch auf die Testleistung aus und verändern die wahre Leistungsfähigkeit einer Person. In letzter Konsequenz ist damit sowohl die Annahme eines fehlenden Zusammenhangs zwischen wahrem Wert und Messfehler zu bezweifeln als auch die Konstanz des wahren Wertes über verschiedene Messwiederholungen. Aus diesen Beispielen wird ersichtlich, dass innerhalb der KTT kei-

21 Grundlagen psychologischer Testverfahren 23 ne Annahmen hinsichtlich des Zustandekommens der Leistungen erfolgen, und unter Verletzung der Annahme von Eindimensionalität (Test oder Skala misst nur ein Konstrukt) sowohl der wahre Wert einer Person als auch die Messgenauigkeit eines Tests über- oder in manchen Fällen auch unterschätzt werden. Fischer (1974) verweist darauf, dass gerade bei extrem hohen und niedrigen Fähigkeitsausprägungen Leistungen ungenauer als im mittleren Bereich gemessen werden können. Tests werden aus Gründen, auf die in Kapitel 3 näher eingegangen wird, in der Regel so konstruiert, dass Items mit extremen Schwierigkeiten bzw. Antwortverteilungen nur selten oder gar nicht vorkommen. Solche Items sind aber notwendig oder zumindest sehr nützlich, um z.b. in einem Intelligenztest Hochbegabte von nur überdurchschnittlich Begabten unterscheiden zu können. Außerdem stehen Personen mit extremen Merkmalsausprägungen aufgrund ihrer Seltenheit für empirische Studien oft nur in geringer Zahl zur Verfügung. Dieselbe Messgenauigkeit in allen Eigenschafts- bzw. Fähigkeitsbereichen stellt aber z.b. für die psychologische Einzelfalldiagnostik (siehe Kapitel 5) eine wichtige Voraussetzung dar. Weitere Annahmen der Klassischen Testtheorie sind zum Teil nicht zwingend oder auch widerlegbar, wie zum Beispiel die Annahme des fehlenden Zusammenhanges zwischen verschiedenen Fehlerwerten (vgl. Steyer & Eid, 2001). Treten keine korrelierten Fehler zwischen Messwerten auf, liegt Eindimensionalität vor. Hier wird deutlich, dass die KTT streng genommen Eindimensionalität annimmt, diese Annahme aber, anders als die Probabilistische Testtheorie, an keiner Stelle überprüft. Eine Methode, um solche Verletzungen aufzuzeigen, bietet die Verwendung von konfirmatorischen Faktorenanalysen (siehe Kapitel 4). Ein weiteres Problem mit großem Gewicht ist sicherlich, dass die Testwerte der KTT stichprobenabhängig sind. Das heißt, für Abiturienten mag ein Intelligenztest andere Testkennwerte (z.b. Schwierigkeiten) besitzen als für Hauptschüler und Realschüler. Vergleicht man einen Probanden zum Beispiel mit einer Normgruppe von Hauptschülern, ergibt sich vielleicht ein IQ von 115. Mit derselben Anzahl an gelösten Items würde im Vergleich mit Gymnasiasten jedoch nur ein IQ von 100 festgestellt werden. Mit anderen Worten bedeutet das, dass sich je nach Referenzgruppe völlig andere Bedeutungen der individuellen Leistung ergeben können. Hier weist die Probabilistische Testtheorie einen großen Vorzug auf, denn im Rahmen einzelner probabilistischer Modelle ist es möglich, stichprobenunabhängige Item- und Personenkennwerte zu ermitteln. Bei Testverfahren, die nach der KTT konzipiert sind, behilft man sich damit, dass man Gütekriterien für verschiedene Teilstichproben zur Verfügung stellt. Allerdings wird dies nicht immer konsequent verfolgt, was in der Praxis einen großen Mangel darstellen kann. Ungenaue Messung in Extrembereichen KTT setzt Eindimensionalität ohne Prüfung voraus. Stichprobenabhängigkeit der Testwerte Die oben genannten Punkte zu Unzulänglichkeiten der KTT, die noch problemlos erweitert werden könnten (vgl. Amelang und Schmidt-Atzert, 2006, S. 60 f.), sind grundsätzlich berechtigt und schwerwiegend. Insgesamt könnte nun der Eindruck entstehen, dass die KTT so unzulänglich ist, dass sie in der Praxis nicht eingesetzt

22 24 Grundlagen psychologischer Testverfahren werden sollte. Dieser Eindruck täuscht, hat sich die KTT doch in der Praxis bewährt (vgl. z.b. Amelang & Schmidt-Atzert, 2006; Stumpf, 1996). Dies mag zum Teil daran liegen, dass die Brauchbarkeit eines Tests vor allem von einer inhaltlich begründeten Konstruktion der Items und der Skalen abhängt. Im Folgenden soll kurz und überblicksartig auf wenige Grundüberlegungen der Probabilistischen Testtheorie als Alternative zur KTT eingegangen werden Grundideen der Probabilistischen Testtheorie (PTT) Die Probabilistische Testtheorie (PTT) wird in Kapitel 3.2 einführend beschrieben. Daher wird an dieser Stelle nur ein ganz kurzer Ausblick gegeben. Die folgenden Ausführungen beziehen sich dabei besonders auf das Rasch-Modell (Rasch, 1960), das eigentlich nur ein Modell aus der Familie der PTT ist, aber aufgrund seiner praktischen Bedeutung manchmal als Synonym für die gesamte Familie verwendet wird. In der PTT geht es im Gegensatz zur KTT darum, wie Antworten auf Items zustande kommen. Genauer geht es um den Zusammenhang zwischen der Fähigkeit (oder Eigenschaft) einer Person und der Wahrscheinlichkeit, mit der diese Person eine Aufgabe löst (oder z.b. einer Aussage zustimmt), die besagte Fähigkeit bzw. Eigenschaft messen soll. Die Terminologie ist, wie auch in der KTT, aus der Intelligenzmessung abgeleitet, so dass allgemein von Fähigkeiten, Aufgabenlösungen und deren Schwierigkeit die Rede ist, auch wenn diese Konzepte z.b. auf die Eigenschafts- oder Einstellungsmessung übertragen werden. Ein sehr wesentlicher Unterschied zur KTT ist, dass im Rahmen der PTT ein Modelltest durchgeführt werden kann, der die Erfüllung der Voraussetzungen prüft. So wird in der KTT für den Summenwert einer Person in einem Test Intervallskalenniveau unterstellt, während in der PTT die Zulässigkeit der Summation (und damit das Skalenniveau) geprüft wird. Ebenso prüft man im Rasch-Modell durch den Modelltest zumindest indirekt die in der KTT einfach vorausgesetzte Eindi- Lösungswahrscheinlichkeit eines Items hängt ab Person- und Itemparameter. PTT erlaubt Modelltests der Voraussetzungen. In der PTT werden nicht wie in der KTT Rohwertvarianzen und Kovarianzen untersucht, sondern Antwortmuster, die einem bestimmten Modell folgen müssen. Im Rasch-Modell hängt die Lösungswahrscheinlichkeit für ein bestimmtes Item (1) von der Fähigkeit oder Eigenschaftsausprägung einer Person sowie (2) der Schwierigkeit eines Items ab. Die Fähigkeitsausprägung heißt auch Personparameter, die Schwierigkeit Itemparameter. Beides wird im Rahmen von PTT- Analysen empirisch geschätzt (in erweiterten PTT-Modellen können noch weitere Parameter geschätzt werden, leider auf Kosten enorm ansteigender Komplexität). Die Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit ist dabei probabilistisch. Das heißt, auch eine Person mit geringer Fähigkeit im Vergleich zur Schwierigkeit eines Items hat eine, wenn auch relativ geringe, Wahrscheinlichkeit, ein solches Item zu lösen. Das Modell sagt also voraus, dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung, einer bestimmbaren mathematischen Funktion folgend, zunimmt.

23 Grundlagen psychologischer Testverfahren 25 mensionalität. Die Modelltests der PTT lassen sich im Prinzip auch auf Tests anwenden, die ursprünglich nach der KTT konstruiert wurden (für ein Beispiel siehe Harris & Sackett, 1987). Wird das Modell durch den Modelltest nicht abgelehnt, sagt der Summenwert der Itemantworten auch wirklich etwas über den Ausprägungsgrad einer Person auf der latenten Variable (Fähigkeit) aus. Dann ist der Summenwert auch eine erschöpfende Statistik der Personenfähigkeit. Erschöpfend heißt, der Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung der Person. Demnach muss das Antwortmuster der Person nicht mehr Item für Item betrachtet werden. Ein Item ist dann ein guter Indikator für eine latente Variable, wenn die Leistung in diesem Item komplett auf die Fähigkeitsausprägung auf der latenten Variable zurückzuführen ist und nicht auf andere Fähigkeiten. Dies ist eine höchst wünschenswerte Annahme für die Testkonstruktion, da sie eine sehr präzise Definition von Itemhomogenität darstellt (vgl. Stelzl, 1993). Formalisiert wird diese Eigenschaft durch die lokale stochastische Unabhängigkeit, die im Prinzip besagt, dass man die Lösungswahrscheinlichkeiten der Items für alle Personen multiplizieren darf. Wenn das Rasch-Modell durch den Modelltest nicht verworfen wird, liegt auch diese Eigenschaft vor. Das Rasch-Modell implementiert damit eine echte Messtheorie in die Psychologie. Bei Geltung des Modells misst der Summenwert die Fähigkeitsausprägung. Übungsaufgabe: Validität und Reliabilität unterscheiden sich unter anderem dadurch, dass a) die Reliabilität ein Maß für die Güte der Diagnostik von Einzelfällen ist b) systematische Fehler zur Erhöhung der Validität beitragen c) systematische Fehler zur Erhöhung der Reliabilität beitragen d) Reliabilität in der KTT vorausgesetzt, aber nicht geprüft wird (richtige Lösung: c)

24 26 Grundlagen psychologischer Testverfahren Weiterführende Literaturempfehlungen: Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention (4. Aufl.). Heidelberg: Springer. (insbes. Kap ) Brähler, E., Holling, H., Leutner, D. & Petermann, F. (2002). Brickenkamp Handbuch psychologischer und pädagogischer Tests (3. Aufl.). Göttingen: Hogrefe. (insbes. S. XI ff.) Steyer, R. & Eid, M. (2001). Messen und Testen. Berlin: Springer. (insbes. Kap. 9) Stumpf, H. (1996). Klassische Testtheorie. In E. Erdfelder, R. Mausfeld, T. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S ). Weinheim: Beltz.

25 Testkonstruktion: Von der Planung zum ersten Entwurf 27 2 Testkonstruktion: Von der Planung zum ersten Entwurf Die Konstruktion eines psychologischen Tests beginnt in der Regel so wie das Verfassen eines Textes: mit einem weißen Blatt Papier. Es existieren in der Praxis der Testentwicklung zahlreiche Möglichkeiten, dieses weiße Blatt zu füllen, wobei das Spektrum von naiver Intuition bis zu sehr aufwändigen und sophistizierten Methoden reicht. Es gab in der Literatur einige verstörende, lebhaft diskutierte Befunde, nach denen sich ein methodisch versiertes Vorgehen durch Experten nicht unbedingt in valideren Ergebnissen niederschlägt (vgl. z.b. Paunonen & Jackson, 1985 vs. Burisch, 1985). Dennoch zählen strukturiertes Vorgehen beim Entwurf von Tests und vor allem die Anwendung psychometrischer Methoden bei der Entwicklung und Evaluation der endgültigen Version (s. dazu die folgenden Kapitel) zu den anerkannten Merkmalen wissenschaftlicher Fundierung und damit zu den Bestimmungsstücken der Definition psychologischer Tests (vgl. Kap. 1). In diesem Kapitel werden einige Varianten der Schritte der Testentwicklung besprochen, die notwendig sind, bevor in größerem Umfang empirische Daten erhoben und analysiert werden können. Im Einzelnen müssen dazu zunächst Merkmals- und Geltungsbereich abgegrenzt werden, die grundsätzliche Vorgehensweise bei der Testentwicklung muss aus den bestehenden Möglichkeiten ausgewählt werden, und es muss ein Itempool generiert werden, wobei auch Festlegungen zur Formulierung der Fragen und zum Format der Antwortmöglichkeiten zu treffen sind. Entwicklungsschritte vor Datenerhebung Wir konzentrieren uns dabei auf die Erhebungsform des Fragebogens (was auch in schriftlicher Form applizierte Intelligenz- und Leistungstests sowie die Präsentation in elektronischen Medien einschließt), weil der weitaus größte Teil psychologischer Tests in dieser Form vorliegt. Eine ausführliche und anschauliche Darstellung dieser Methode findet sich bei Mummendey und Grau (2008). Grundsätzlich können auch hoch strukturierte Formen des Interviews und der Beobachtung die Definition psychologischer Tests erfüllen, wobei sich vieles des im Folgenden Gesagten auf diese Erhebungsformen übertragen lässt (s. Modul 7). 2.1 Merkmalsbereich und Geltungsbereich Am Beginn der Testkonstruktion ist es sinnvoll, sich zwei Fragen zu stellen: Merkmalsbereich: Was soll der Test messen? Geltungsbereich: Wo, bei wem und wofür soll der Test eingesetzt werden? Die erste Frage richtet sich auf das oder die Konstrukt(e), die erfasst werden sollen, die zweite auf Zielgruppe, Kontext und Zweck der Anwendung. Diese Fragen sind natürlich nicht unabhängig voneinander und haben weit reichende Implikati- Wechselwirkungen und Implikationen von Merkmalsbereich und Geltungsbereich

26 28 Testkonstruktion: Von der Planung zum ersten Entwurf onen für das weitere Vorgehen. Wenn es sich bei dem Zielkonstrukt z.b. um eine Persönlichkeitsstörung handelt, kommen Anwendungen in der klinischen Psychologie und ggf. in der Forschung in Frage, nicht aber z.b. für die Personalauswahl und entwicklung, obwohl dies in der Praxis leider vorkommt. Bestimmte Konstrukte entwickeln oder verändern sich mit dem Lebensalter, so dass ein vorwiegend für junge Erwachsene entwickeltes Verfahren nicht unbedingt bei Kindern oder älteren Menschen anwendbar ist. Neben dem Alter können für die Itemformulierung u.a. der vermutete Bildungsstand der Zielgruppe sowie der Anwendungskontext (bei heiklen Fragen z.b. anonyme vs. offene Erhebungssituation) eine erhebliche Rolle spielen. Soll ein Test mehreren Zwecken dienen, sind die Normen und Validitätsbefunde nicht ohne weiteres von einer Situation auf die andere übertragbar. Dies sind nur Beispiele für die vielfältigen Wechselbeziehungen zwischen den genannten Fragen. Probleme bei der Abgrenzung des Merkmalsbereichs Die Abgrenzung des Merkmalsbereichs bzw. Konstruktes erscheint vielleicht trivialer als sie oftmals ist. Insbesondere bei Tests, die nach der externalen Methode konstruiert sind (vgl. den folgenden Abschnitt 2.2), ist der vordringliche Zweck manchmal nicht die Erfassung eines mehr oder weniger gut definierten Konstrukts, sondern die Vorhersage eines bestimmten Verhaltensbereichs, z.b. beruflicher oder schulischer Leistung. Da sehr vielfältige Merkmale zur Prognose solcher Verhaltensbereiche beitragen können, kann es am Ende sehr schwierig sein zu definieren, was der betreffende Test eigentlich misst. Aber auch im häufigeren Fall, dass am Beginn der Testkonstruktion theoretische Vorstellungen über das Zielkonstrukt vorliegen, können diese unterschiedlich präzise ausfallen. Manche Konstrukte (z.b. Kontrollüberzeugung oder Verarbeitungsgeschwindigkeit ) sind bereits theoretisch sehr genau umrissen, so dass für die Umsetzung in ein Testverfahren nur wenig definitorische Arbeit zu leisten ist. Unglücklicherweise liegt es in der Natur der Sache, dass gerade neue Tests oft für weniger gut definierte Konstrukte benötigt werden. Versuchen Sie zur Übung einmal, eine konsensfähige Definition zu dem in der Praxis verschiedener Anwendungsfelder der Psychologie (vor allem bei Nichtpsychologen) außerordentlich beliebten Begriff soziale Kompetenz zu entwickeln. Übung: Abgrenzung sozialer Kompetenz Entwickeln Sie auf der Grundlage einer Literaturrecherche eine Definition des Begriffs soziale Kompetenz, die sich als Grundlage einer Testentwicklung eignet. Gehen Sie dabei davon aus, dass das so entstandene Testverfahren im Rahmen von Bewerbungsverfahren zur Personalauswahl eingesetzt werden soll. Dabei soll die Zielgruppe möglichst breit sein und die soziale Kompetenz beim Umgang mit Mitarbeiterinnen (Führungsnachwuchs), Kunden (Verkauf) und Klienten (sozialer Bereich) einschließen. Grenzen Sie den Merkmalsbereich anhand von Stichworten ab und geben Sie für jedes Stichwort eine erläuternde Definition.

27 Testkonstruktion: Von der Planung zum ersten Entwurf 29 Wenn Sie diese Übung gründlich durchführen, wird Ihnen vielleicht auffallen, dass eine Literaturrecherche zu einem so unscharf definierten Merkmal wie soziale Kompetenz ausgesprochen heterogene Konstrukte zu Tage fördern kann. Womöglich sind Sie sogar auf offene Widersprüche gestoßen, wenn etwa in einem Fall unter sozialer Kompetenz Durchsetzungsfähigkeit verstanden wird, in anderen Fällen dagegen Kompromissfähigkeit. Ehrlich gesagt haben wir Ihnen mit dieser Übung bewusst eine fast unlösbare Aufgabe gestellt, indem wir mit sozialer Kompetenz einen besonders populären, aber leider auch schwammigen Konstruktbegriff gewählt haben. Dies ist kein Einzelfall (versuchen Sie sich z.b. auch an den Begriffen Schlüsselqualifikation oder emotionale Intelligenz ) und kann im Rahmen der Testkonstruktion dazu führen, dass es sich bereits am Anfang als sinnvoll erweist, den Merkmalsbereich umzudefinieren und einzuschränken. Umgekehrt kann die Literaturrecherche auch dadurch erschwert werden, dass ein Konstrukt oder Teile des Merkmalsbereichs unter anderen, mehr oder weniger synonymen Begriffen ebenfalls untersucht wurde. Deshalb empfiehlt es sich, bei der Recherche auch nach verwandten Schlagwörtern zu suchen (vgl. Modul 1). Neben der theoretischen Ableitung und einer gründlichen Literaturrecherche, die übrigens oft ergibt, dass eine Neukonstruktion aufgrund vorhandener Instrumente gar nicht nötig oder sinnvoll ist, stehen zur Abgrenzung des Merkmalsbereichs noch weitere Hilfsmittel zur Verfügung (vgl. Mummendey & Grau, 2008). Dazu zählen explorative Verfahren der Datenerhebung wie die Befragung von Experten oder anderen relevanten Personen mittels qualitativer Interviews sowie einige strukturierte Varianten der Merkmalsabgrenzung wie z.b. die Facettentheorie (Guttman, 1959), der act frequency approach (AFA; Buss & Craik, 1983) oder die Methode der kritischen Ereignisse bzw. critical incident technique (CIT, Flanagan, 1954). Auf die beiden letztgenannten Methoden kommen wir in Abschnitt 2.3 zurück. Die Facettentheorie ist eine Methode zur Systematisierung wissenschaftlicher Fragestellungen. Sie stellt Werkzeuge zur Verfügung, um einen Merkmalsbereich vollständig einzugrenzen, in einzelne Teilmerkmale (Facetten) und deren Ausprägungen bzw. Typen zu zergliedern und die Beziehungen zwischen den Facetten darzustellen und anschließend auch empirisch zu skalieren. Eine Einführung in diese anspruchsvolle Methode gibt Borg (1996). Während beim AFA und mit Einschränkungen auch bei der CIT Definition und Itemformulierung gewissermaßen in einem Schritt erfolgt, bildet in den meisten anderen Fällen eine Arbeitsdefinition die Grundlage der Formulierung. Die Arbeitsdefinition kann durchaus auch aus einer (überschaubaren!) Liste konkurrierender Definitionen bestehen. Dies setzt voraus, dass mit dem Test überhaupt eines oder mehrere definierte psychologische Konstrukte wie Fähigkeiten, Eigenschaften oder Einstellungen gemessen werden sollen. Bei kriterienorientierten Tests ist der Merkmalsbereich dagegen durch Inhalt und Umfang der Lernziele definiert. Eine nochmals andere Zielstellung haben die oben erwähnten Tests zur Vorhersage bestimmter Verhaltensbereiche. Hier muss das zu prognostizierende Verhalten definitorisch eingegrenzt werden (z.b. mit Hilfe arbeits- und anforde- Literaturrecherche als Grundlage Weitere Hilfsmittel zur Abgrenzung des Merkmalsbereichs Arbeitsdefinition

28 30 Testkonstruktion: Von der Planung zum ersten Entwurf rungsanalytischer Verfahren, vgl. Modul 8), während die Tests selbst oft inhaltlich sehr heterogen sind und diese Unschärfe zur Maximierung der prognostischen Validität (vgl. Abschnitt 5.2.2) bewusst in Kauf genommen wird. Eingrenzung des Geltungsbereichs Bei der Eingrenzung des Geltungsbereichs, also von Zweck, Zielgruppe und Kontext des Testeinsatzes, ist der Entscheidungsspielraum der Testautorin häufig durch Spezifikationen des Auftraggebers eingeschränkt. Es obliegt aber auch bei Auftragsarbeiten generell der Autorin, für die Einhaltung ethischer Richtlinien (vgl. Abschnitt 5.1) zu sorgen und an dieser frühen Stelle z.b. die Erfassung gesetzeswidriger Inhalte (etwa diskriminierende Merkmalsbereiche), die nicht altersgemäße Anwendung oder die Verknüpfung unvereinbarer Zwecke abzulehnen bzw. so gut es geht auszuschließen. Ein in der Praxis sehr häufiges Beispiel für konfligierende Zwecke ist die Verwendung derselben betrieblichen Leistungsbeurteilung sowohl für die Festlegung von Gehaltsbestandteilen als auch als Informationsgrundlage der Personalentwicklung (Cleveland, Murphy & Williams, 1989), womit Konflikte quasi vorprogrammiert sind (vgl. Modul 8). Generell steigen die Ansprüche an die empirische Prüfung und Normierung, je breiter Anwendungsbereich und Zielgruppe definiert sind. Grundsätzlich sollte die empirische Fundierung in der Entwicklungsphase dem angestrebten Geltungsbereich entsprechen, weshalb Entscheidungen über den Geltungsbereich Einfluss auf die Planung der späteren Entwicklungsschritte haben (vgl. Jonkisz & Moosbrugger, 2007). 2.2 Festlegung des generellen Konstruktionsprinzips grundlegende Konstruktionsprinzipien Prinzip der rationalen Testkonstruktion Eng mit der Abgrenzung des Merkmalsbereichs und der nachfolgenden Itemgenerierung verknüpft ist die Entscheidung über das grundsätzliche Vorgehen bei der Konstruktion des Tests. In der Literatur werden unter teils variierenden Begriffen drei, manchmal auch vier oder fünf Prinzipien bzw. Strategien der Testkonstruktion diskutiert (einführend z.b. Amelang & Schmidt-Atzert, 2006; Schuler & Marcus, 2006). Zu den wichtigsten Prinzipien zählen die rationale oder auch deduktive oder theoriegeleitete Konstruktion, als deren Gegenpol die externale, empirische oder kriteriumsorientierte Strategie sowie drittens das internale, induktive bzw. faktorenanalytische Vorgehen, das gewissermaßen zwischen den Extremen der beiden anderen Prinzipien steht. Relativ seltene Sonderfälle stellen der typologisierende und der Prototypenansatz dar. Jedes dieser Grundprinzipien steht für eine ganze Familie von Varianten, die sich im Detail deutlich unterscheiden können und in der Praxis oft auch prinzipienübergreifend kombiniert werden. Ausgangspunkt der rationalen Testkonstruktion in reiner Form ist eine operationale, also zur Umsetzung in eine Messung oder Beobachtung geeignete theoretische Definition des Zielkonstrukts. Aus der allgemeinen Definition leitet die Testautorin spezifische Indikatoren (deduktiv) ab, die sich direkt beobachten bzw. erfragen lassen. Sofern vorhanden, kann auch ein theoretische Auswahl aus einem Itempool getroffen werden. So könnte die Definition von Merkfähigkeit als Einprä-

29 Testkonstruktion: Von der Planung zum ersten Entwurf 31 gen und späteres Wiedererkennen und Reproduzieren von Lernmaterial umgesetzt werden, indem Probanden in einem Merkfähigkeitstest eine Liste Ihnen unbekannter Gegenstände vorgelegt wird und man sie nach einem festgelegten zeitlichen Abstand bittet, eine möglichst große Zahl dieser Gegenstände aktiv zu benennen (Reproduktion) bzw. aus einer Liste, die auch zuvor nicht gezeigte Dinge enthält, auszuwählen (Rekognition). Anders als in diesem relativ einfachen Beispiel ist der Schritt der Umsetzung von der theoretischen Definition in eine Messvorschrift bzw. konkrete Items oft nicht ohne ein hohes Maß an Intuition bzw. subjektiver Bewertung seitens der Testautorin zu leisten, sofern nicht auf aufwändige Techniken wie die schon erwähnten AFA oder CIT zurückgegriffen wird. Insofern sind die Übergänge zwischen rationaler und intuitiver oder erfahrungsgeleiteter Testkonstruktion (Jonkisz & Moosbrugger, 2007, sprechen von intuitiver Konstruktion bei relativ geringem theoretischem Kenntnisstand) in der Praxis der Testkonstruktion fließend. Sofern es sich um ein hierarchisch strukturiertes Konstrukt handelt, das in seiner ganzen Breite gemessen werden soll, sollte die Definition auch alle Subkonstrukte bzw. Facetten einschließen. Ein Beispiel für einen rational konstruierten Test mit einer komplexen theoretischen Grundlage ist der Berliner Intelligenzstruktur-Test (BIS-Test, Jäger, Süß & Beauducel, 1997), der auf dem Berliner Intelligenzstruktur-Modell von Jäger (1984; vgl. Modul 7) beruht. Dieses Modell geht von einer hierarchischen Struktur der Intelligenz aus (d.h. es existieren unterscheidbare spezielle Fähigkeiten, deren gemeinsames Element auf einer höheren Ebene generelle Intelligenz ist). Jede der im Modell sieben speziellen Fähigkeiten lässt sich einem der beiden Modi Inhalte und Operationen zuordnen (vgl. Abb. 2.1). Intelligenzleistungen entstehen bimodal, es ist also stets eine Kombination mindestens einer inhaltsgebundenen und einer operationalen Komponente beteiligt. Entsprechend erfassen die Subtests des BIS-Test jeweils die Kombination einer inhaltlichen mit einer operationalen Fähigkeit, lassen sich also einem der 12 Felder in Abbildung 2.1 zuordnen. Zum Beispiel wird die verbale Verarbeitungskapazität (V-K) u.a. durch einen Wortschatztest gemessen. Rationale Konstruktion von mehrdimensionalen Tests

30 32 Testkonstruktion: Von der Planung zum ersten Entwurf Abbildung 2.1: Berliner Intelligenzstruktur-Modell Rationale Konstruktion eindimensionaler Tests Einfacher gestaltet sich die rationale Konstruktion natürlich, wenn nur ein homogenes Konstrukt gemessen werden soll. Im Folgenden ist ein Beispiel einer solchen Konstruktion dargestellt Beispiel 2.1: Rationale Testkonstruktion Die Retrospective Behavioral Self-Control Scale (RBS, Marcus, 2003a, 2004) beruht auf der Definition von Selbstkontrolle in der kriminologischen Theorie von Gottfredson und Hirschi (1990). Diese Autoren definierten Selbstkontrolle sehr verhaltensnah und utilitaristisch, nämlich als die Meidung von Handlungen, die dem Handelnden selbst langfristig mehr schaden als nutzen. Dementsprechend wurde für die Konstruktion der RBS ein Pool von Items generiert, in dem nach solchen konkreten Handlungen gefragt wird, nicht aber z.b. nach Generalisierungen ( Ich handle oft spontan aus dem Augenblick heraus ) oder nach Einstellungen ( Man sollte immer überlegen, bevor man etwas tut ), was bei Tests verwandter Konstrukte häufig vorkommt. Beispielitems der RBS nie einmal zwei- bis dreimal mehrmals häufig sehr häufig immer Mein Taschengeld war lange ausgegeben, bevor das nächste kam. Ich habe so viel Alkohol getrunken, daß ich mich am nächsten Tag nicht mehr an alles erinnern konnte. Zu wichtigen Terminen kam ich schon mal unpünktlich

31 Testkonstruktion: Von der Planung zum ersten Entwurf 33 Ferner soll nach Gottfredson und Hirschi Selbskontrolle über die Lebensspanne relativ stabil sein, weshalb die Items in der RBS nach Lebensabschnitten geordnet sind. Von den obigen Beispielitems bezieht sich je eines auf die Abschnitte Kindheit, Jugend und Erwachsenenalter. Außerdem postulieren die Autoren ein homogenes Konstrukt, d.h. ein Test, der sich aus theoriekonformen Items zusammensetzt, sollte sich empirisch als eindimensional erweisen. Dies wurde für die RBS mittels konfirmatorischer Faktorenanalysen (vgl. Abschnitt 4.2) überprüft (Marcus, 2003a). Theoriegeleitete Entwicklung bedeutet, dass die Formulierung und Auswahl von Items und deren Zuordnung zu Subtests aufgrund von inhaltlichen Erwägungen und nicht hauptsächlich auf der Grundlage empirischer Daten erfolgt. Es ist jedoch auch im Rahmen der rationalen Testkonstruktion üblich, eine zunächst theoriegeleitet konstruierte Skala mittels empirischer Itemanalysen zu verkürzen, also Items aus der Skala zu eliminieren. Notwendig wird die Erhebung empirischer Daten spätestens bei der Validierung rational konstruierter Skalen (vgl. Amelang & Schmidt-Atzert, 2006). Bei der in Beispiel 2.1 zitierten RBS erforderte etwa die Prüfung des theoretischen Homogenitätspostulats zwingend empirische Untersuchungen. Keinesfalls enthebt die rationale Strategie den Testautor also grundsätzlich der Notwendigkeit der empirischen Prüfung der psychometrischen Gütekriterien (vgl. Abschnitt 5.2). Aus u.a. diesem Grund ist Was Ihre Frisur über Sie verrät zwar ein intuitiv und damit bei großzügiger Auslegung rational konstruiertes Instrument, aber eben kein psychologischer Test. Im Gegensatz zur rationalen Skalenkonstruktion stehen bei der externalen Testkonstruktion aber bereits in frühen Stadien der Testentwicklung empirische Daten im Vordergrund. Amelang und Schmidt-Atzert (2006) nennen als kennzeichnend für die externale Strategie (dem schließen wir uns so nicht an, s.u.) das Vorliegen verschiedener Gruppen von Personen, die mit Hilfe des Tests unterschieden (in einem technischen Sinn diskriminiert ) werden. Dies können etwa Angehörige bestimmter Berufsgruppen oder Schüler verschiedener Schultypen sein. Ein besonders relevanter Fall für die externale Skalenkonstruktion ist die Unterscheidung des Vorliegens von Persönlichkeitsstörungen von deren Nichtvorliegen. In den Test werden dann solche Items aufgenommen, die empirisch zwischen den Gruppen unterscheiden bzw. diskriminieren. Auch zur Vorhersage grundsätzlich kontinuierlich verteilter Merkmal wie beruflicher Leistung mittels external konstruierter Tests werden oft künstlich Gruppen gebildet, die sich maximal (Extremgruppen von Niedrigstleistern und Höchstleistern ) voneinander unterscheiden. Diese Praxis hat damit zu tun, dass einige traditionelle Methoden der externalen Skalenkonstruktion die Aufteilung in Gruppen technisch voraussetzen (z.b. die sog. vertikale Prozentmethode nach England, 1971; vgl. Schuler & Marcus, 2006 sowie Modul 8). Erhebung empirischer Daten im Rahmen der rationalen Konstruktion externale Testkonstruktion Typische Anwendungsfälle der externalen Strategie

32 34 Testkonstruktion: Von der Planung zum ersten Entwurf Prinzip der externalen Konstruktion Bewertung der externalen Strategie Beispiele external konstruierter Tests Grundsätzlich setzt die externale Strategie die Existenz von Gruppen nicht voraus. Auch in der Klinischen Psychologie werden zunehmend fließende Übergänge zwischen normalem und pathologischem Bereich der Persönlichkeit diskutiert; und auch ein Test, dessen Items nach ihrer maximalen Korrelation mit dem kontinuierlich verteilten Kriterium Berufsleistung ausgewählt werden, ist external konstruiert. Dafür kommt es allein auf die Auswahl der Items nach dem Prinzip der Maximierung des empirischen Zusammenhangs mit einem Kriterium an, wobei im Extremfall ( blinder Empirizismus oder dust bowl empiricism ) auf inhaltliche Erwägungen ganz verzichtet wird (Mischformen mit rationalen Anteilen beschreiben z.b. Mael & Hirsch, 1993). In diesem Sinne ist die externale Testkonstruktion kriterienorientiert. Sie sollte allerdings nicht mit kriteriumsorientierten Tests verwechselt werden, bei denen der Begriff Kriterium eine gesetzte Norm (z.b. eine Lernziel) bezeichnet und die Items durch inhaltslogische Überlegungen aus einem definierten Universum abgeleitet werden (vgl. Kapitel 1 und 5 sowie Amelang & Schmidt-Atzert, 2006, S. 89 ff.). Die externale Testkonstruktion bezeichnet dagegen dem Grunde nach ein Vorgehen analog zum regressionsanalytischen Ansatz. Das Grundproblem besteht wie auch bei der Multiplen Regression in der atheoretischen Anpassung an die Stichprobe. Die Folge sind inhaltlich oft schwer interpretierbare Skalen, das Erfordernis großer und repräsentativer Stichproben bei der Entwicklung sowie zusätzlich die unabhängige Replikation (Kreuzvalidierung) der Befunde aus der ersten Datenerhebung. Der Vorzug der externalen Methode liegt vor allem darin, dass sie, sachgemäße Anwendung vorausgesetzt, auch bei geringem theoretischem Vorwissen eine gewisse kriterienbezogene Validität und damit praktischen Nutzen gewährleistet. Zu den prominentesten external konstruierten Tests im klinischen Bereich zählt das mehr als 50 Jahre alte Minnesota Multiphasic Personality Inventory (in der aktuellen deutschen Version von Hathaway, McKinley & Engel, 2000). Hier wurden bei der Konstruktion nach der Kontrastgruppenmethode aus einem großen Pool Items ausgewählt, die signifikant zwischen psychisch unauffälligen und z.b. als schizophren, manisch usw. eingestuften Gruppen unterschieden. Nach dem gleichen Prinzip sind die meisten Skalen des California Psychological Inventory (CPI, aktuell Gough & Bradley, 1996) konstruiert, der sich jedoch auf den Normalbereich der Persönlichkeit bezieht. Eine Skala aus diesem Inventar wird in Beispiel 2.2 vorgestellt. Beispiel 2.2: Externale Testkonstruktion Die Skala Socialization (CPI-So, Gough, 1960; Gough & Peterson, 1952) wurde zunächst unabhängig vom CPI entwickelt, um eine psychologische Prädisposition zu kriminellem Verhalten zu identifizieren. Die Formulierung des ursprünglichen Itempools erfolgte teils intuitiv, teils auch theoriegeleitet, die Auswahl der Items aus diesem Pool jedoch ausschließlich nach dem empirischen Kriterium der Unterscheidung überführter Delinquenten von unauffälligen Kontrastgruppen. Die so

33 Testkonstruktion: Von der Planung zum ersten Entwurf 35 entstandene Skala ist inhaltlich sehr heterogen; die Validität zur Vorhersage devianten Verhaltens ist jedoch empirisch gut belegt (z.b. Gough, 1960) Einige Beispielitems, im Fragebogen jeweils mit den Antwortalternativen richtig oder falsch präsentiert, lauten (eigene Übersetzung nach Gough & Peterson, 1952): Ich würde niemals mit einem Fremden Karten (Poker) spielen. Meine Eltern haben mich Entscheidungen im Allgemeinen selbst treffen lassen. Die meiste Zeit fühle ich mich glücklich. Ich glaube Lincoln war größer als Washington. Diese Beispiele illustrieren vielleicht die für external konstruierte Skalen typische inhaltliche Heterogenität wie auch den ebenso typischen Umstand, dass die Polung der Items hinsichtlich des Kriteriums in sehr unterschiedlichem Maße intuitiv sein kann. Bei den vorliegenden Beispielitems sprach übrigens in allen Fällen die Antwort falsch für eine höhere Wahrscheinlichkeit kriminellen Verhaltens. Ein weiteres häufig verwendetes Prinzip ist die internale Testkonstruktion oder induktive Methode. Internal heißt sie deshalb, weil zwar wie bei der externalen Strategie auf empirische Informationen zurückgegriffen wird, die sich jedoch nicht wie bei dieser auf ein Außenkriterium (z.b. die Unterscheidung von Gruppen), sondern auf die Binnenstruktur des Tests beziehen. Dazu wird auf unterschiedlichen Wegen zunächst ein Itempool generiert, der häufig einen sehr breit definierten Merkmalsbereich abdeckt. Anschließend werden die Items einer Stichprobe zur Bearbeitung vorgelegt und die Daten hinsichtlich der Korrelationsmuster zwischen den Items untersucht, typischerweise mittels explorativer Varianten der Faktorenanalyse (vgl. Abschnitt 4.1). Das Ergebnis sind in der Regel mehrdimensionale Inventare, deren Subskalen jeweils homogene Konstrukte messen, insgesamt aber einen breiten und heterogenen Merkmalsbereich abdecken. Prinzip der internalen Testskonstruktion Das induktive Vorgehen ist insofern empirisch als über die Binnenstruktur üblicherweise keine theoretischen Vorannahmen getroffen werden, sondern diese aus den Daten abgeleitet werden. Die Ergebnisse bilden nicht selten die Grundlage späterer theoretischer Modelle, in dem aus den spezifischen Daten induktiv auf ein allgemeines Modell geschlossen wird. Auf diese Weise sind einige der prominentesten Theorien u.a. der Intelligenz und der Persönlichkeitseigenschaften entstanden (vgl. Modul 7). Über die Abgrenzung des Merkmalsbereichs nach außen sollten allerdings durchaus theoretische Vorstellungen existieren, bevor mit der Itemsammlung begonnen wird.

34 36 Testkonstruktion: Von der Planung zum ersten Entwurf Beispiele internal konstruierter Tests und Modelle Ein Klassiker der induktiven Theorieentwicklung ist das Primärfaktorenmodell der Intelligenz (Thurstone & Thurstone, 1941), auf dem zahlreiche Intelligenztests beruhen. Nicht weniger verbreitet sind faktorenanalytisch begründete Modelle und entsprechende Inventare im Bereich der Persönlichkeitseigenschaften, darunter die klassischen Modelle von Guilford, Eysenck sowie die unterschiedlichen Varianten des Fünf-Faktoren-Modells (vgl. Amelang et al., 2006 sowie Modul 7). Ein relativ neues Fünf-Faktoren-Inventar wird in Beispiel 2.3 vorgestellt. Beispiel 2.3: Internale Testkonstruktion Ausgangspunkt des Fünf-Faktoren-Modells ist die Idee des sog. lexikalischen Ansatzes, nach dem sich menschliche Eigenschaften von überindividueller Bedeutung als Adjektive in der natürlichen Sprache niederschlagen. Entsprechend wurden Adjektivlisten aus Lexika unterschiedlicher Sprachen zusammengestellt, Selbst- und Fremdeinschätzungen von Probanden auf diesen Adjektiven erhoben und mittels Faktorenanalysen auf strukturelle Ähnlichkeiten untersucht. Ein Problem dabei ist die ungeheuer große Zahl von Adjektiven, was eine Vorauswahl nötig macht, wobei oft willkürliche Entscheidungen getroffen werden. Das niederländische, inzwischen aber in viele Sprachen übersetzte Five Factor Personality Inventory (FFPI, Hendriks, Hofstee & DeRaad, 1999) beruht auf einem Versuch, diese Vorauswahl auf der Grundlage einer repräsentativen Abdeckung des Gesamtbereichs der Persönlichkeit zu treffen (vgl. zu Details Hendriks et al., 1999). Bei der Itemformulierung wurde zudem großer Wert auf Verständlichkeit gelegt, indem an die Stelle nackter Adjektive knappe Statements traten, was weniger abstrakt ist aber immer noch kürzer als die in vielen Fragebogen übliche Verwendung ganzer Sätze. Aus einem Pool von mehr als 900 Items wurden letztlich 100 für die endgültige Version ausgewählt, wobei neben Faktorenanalysen auch Außenkriterien (v.a. die Korrelation zwischen Selbst- und Fremdurteil) herangezogen wurden. Der FFPI ist also kein lupenreiner Vertreter der induktiven Methode, sondern eher ein Beispiel für die in der Praxis häufige Kombination verschiedener Konstruktionsprinzipien. Nachfolgend ist ein Beispielitem je Faktor genannt, wobei als Antwortformat jeweils eine fünfstufige Zustimmungsskala vorgegeben ist: Liebt es sich zu unterhalten (Extraversion) Respektiert die Gefühle anderer (Verträglichkeit) Befolgt bei der Ausführung von Handlungen einen Plan (Gewissenhaftigkeit) Kann Rückschläge einfach verkraften (emotionale Stabilität) Kann Fakten leicht miteinander verknüpfen (Autonomie; Anm.: dieser Faktor weicht von anderen Varianten des Fünf-Faktoren-Modells etwas ab)

35 Testkonstruktion: Von der Planung zum ersten Entwurf 37 Erheblich seltener als die bisher diskutierten Prinzipien sind Ansätze einer typologisierenden Testkonstruktion. In gewisser Weise werden dabei Elemente der externalen und der internalen Strategie verbunden. Während bei der externalen Strategie häufig die Unterscheidung vorgefundener Gruppen als Außenkriterium dient und bei der internalen Strategie Merkmale innerhalb des Tests empirisch unterschieden werden, geht es bei der typologisierenden Strategie um die Identifikation von Gruppen von Personen oder Objekten auf der Grundlage empirischer Information. Das dominierende statistische Verfahren ist dabei die Klassifikation von Personen aufgrund mehrerer, simultan erfasster Merkmale mittels der Clusteranalyse. Dabei werden Personen zu Gruppen zusammengefasst, die sich durch eine ähnliche Konfiguration von Ausprägungen auf mehreren Merkmalen auszeichnen. Häufig werden für diesen Zweck keine Tests neu konstruiert, sondern Daten zu vorhandenen, z.b. internal konstruierten Inventaren reanalysiert. Allerdings ist dies gegenüber der Verwendung von Dimensionen regelmäßig mit einem Informations- und damit Validitätsverlust verbunden (z.b. Roth & v. Collani, 2007). Der Popularität von Persönlichkeitstypologien insbesondere bei psychologischen Laien tut dies keinen Abbruch, zumal gerade bei Tests, die von Anfang an typologisch konstruiert sind (der wohl prominenteste Test dieser Art ist der in der Personalberaterszene stark verbreitete Myers-Briggs-Type Indicator, MBTI, Myers, McCaulley, Quenk & Hammers, 1998), auf empirische Fundierung und Prüfung gern weitgehend verzichtet wird. Von der typologisierenden Gruppenbildung zu unterscheiden ist der Prototypenansatz, bei dem die Ähnlichkeit mit einem als idealtypisch eingeschätzten Vertreter eines Typus oder auch einer Verhaltensweise als kognitiver Ankerreiz für die Einschätzung anderer Objekte vorgegeben wird (vgl. Amelang & Schmidt-Atzert, 2006). Zum Beispiel könnten für die Auswahl erfolgreicher Verkäufer Merkmale und Angaben besonders erfolgreicher Stelleninhaber untersucht und Interviewern zur Einschätzung der Antworten von Stellenbewerbern vorgelegt werden. Die Gefahr liegt in diesem Beispiel offensichtlich in einer Stereotypisierung. Im folgenden Abschnitt wird mit dem AFA-Ansatz eine Variante diskutiert, bei der prototypische Verhaltensweisen unmittelbar zur Abgrenzung des Merkmalsbereichs und der Itemgenerierung genutzt werden. In verschiedenen Vergleichsstudien haben sich kaum systematische Validitätsvorteile einer der drei Hauptsstrategien gegenüber den anderen ergeben, z.t. aber leichte Vorteile der rationalen sowie Nachteile der internalen Strategie bei der kriterienbezogenen Validität (z.b. Burisch, 1984; Hough & Paullin, 1994). Ein wesentlicher Vorzug der rationalen Methode liegt zweifellos in der theoretischen Fundierung und damit der Interpretierbarkeit der Testergebnisse. Dies ist insbesondere bei der externalen Strategie häufig nicht gegeben, die aber andererseits dafür den geringsten Voraussetzungen an den theoretischen Kenntnisstand unterliegt. Die Wahl der am besten geeigneten Strategie dürfte also im Wesentlichen von den Vorkenntnissen über den Merkmalsbereich (Faustregel: so rational wie möglich) und dem angestrebten Geltungsbereich abhängen. Zum Abschluss und typologisierende Strategie Prototypenansatz Vergleichende Bewertung der drei Hauptprinzipien

36 38 Testkonstruktion: Von der Planung zum ersten Entwurf als Zusammenfassung dieses Abschnitts sind in Tabelle 2.1 (verändert nach Schuler & Marcus, 2006; S. 207) Merkmale sowie einige Vor- und Nachteile der drei wichtigsten Konstruktionsprinzipien zusammengestellt. Tabelle 2.1: Merkmale unterschiedlicher Konstruktionsprinzipien für Tests rational external internal konzeptionelles Prinzip: theoriegeleitete Itemgenerierung und Skalenbildung vor Erhebung von Validitätsdaten Selektion und ggf. Gewichtung einzelner Items gemäß ihrer Validität bzgl. eines Außenkriteriums Bildung homogener Subskalen auf der Grundlage von Inter- Item-Korrelationen (kein Außenkriterium) methodisches Prinzip: bei Skalenbildung keines (später Überprüfung auf testtheoretische Gütekriterien) Regressionsanalyse Faktorenanalyse Schwerpunkt der Zielsetzung: Inhaltsvalidität; Interpretierbarkeit Kriteriumsvalidität Konstruktvalidität; Homogenität der Subskalen Vorteile: Probleme: intuitiv unmittelbar zugängliche Ergebnisse kein oder geringer Validitätsverlust bei Übertragung auf andere Situationen bzw. Replikation subjektive Vorentscheidungen ungeeignet bei schlecht definierten oder wenig erforschten Situationen großer konzeptioneller Aufwand im spezifischen Bereich sehr gute Kriteriumsvalidität geeignet zur Exploration unbekannter Situationen, Konstrukte Ergebnisse situativ instabil (auf Stichprobe und Kriterium zugeschnitten) schlecht interpretierbare Skalen große Stichproben erforderlich Kreuzvalidierung zwingend erleichtert Interpretation bei Exploration unbekannter Situationen Identifikation homogener, abgrenzbarer Konstrukte innerhalb breiter Merkmalsbereiche Große Stichproben zur Replikation von Faktorenlösungen nötig Subjektive Interpretation der Skalen Kriterienbezogene Validität kann eingeschränkt sein 2.3 Generierung eines Itempools Unterscheidung inhaltlicher und formaler Aspekte, objektiver und subjektiver Information Mit der Festlegung von Gegenstandsbereich und Konstruktionsprinzip ist noch nicht geklärt, wie die konkreten Testaufgaben oder Items aussehen sollen. Dabei kann zwischen inhaltlichen (Was frage ich?) und formalen (Wie frage ich?) Aspekten unterschieden werden. Bei der zweiten Frage geht es um sprachliche Aspekte der Itemformulierung und um die Festlegung des Antwortformats, die im folgenden Abschnitt besprochen werden. In diesem Abschnitt beschäftigt uns zu-

37 Testkonstruktion: Von der Planung zum ersten Entwurf 39 nächst die Frage nach den Inhalten der einzelnen Items. Grundsätzlich ist dabei zu klären, ob objektive (Leistungstests) oder subjektive Informationen erhoben werden sollen, wobei bei letzteren noch zwischen Selbst- und Fremdeinschätzungen zu unterscheiden ist. Ordnungsschemata für Itemtypen richten sich meist an formalen Aspekten aus und sind häufig auf Aufgaben in Fähigkeits- und Leistungstest zugeschnitten (z. B. Jonkisz & Moosbrugger, 2007, S. 39; vgl. Abschnitt 2.4) Eine Gliederung von Persönlichkeitsitems nach inhaltlichen Gesichtspunkten haben etwa Angleitner, John und Löhr (1986) vorgeschlagen: Inhaltliche Aufgabentypen Kategorien von Persönlichkeitsitems (verkürzt nach Angleitner et al., 1986) 1. Beschreibung von Reaktionen, darunter: a) offene, beobachtbare Handlungen (Bsp.: Ich gehe oft auf Parties) b) Verborgene, interne Reaktionen (Bsp.: Ich denke viel über mich selbst nach) c) Symptome, physische Reaktionen (Bsp.: Ich schwitze viel) 2. Eigenschaftszuschreibungen (Bsp.: Ich habe gute schauspielerische Fähigkeiten) 3. Wünsche und Interessen (Bsp.: Manchmal würde ich am liebsten laut fluchen) 4. Biografische Fakten (Bsp.: Ich hatte in meiner Jugend schon mal Ärger mit dem Gesetz) 5. Einstellungen und Überzeugungen (Bsp.: Ich glaube Gesetze sollten mit aller Härte durchgesetzt werden) 6. Reaktionen anderer auf die eigene Person (Bsp.: Ich stehe auf Parties selten im Mittelpunkt). Hier könnten über Angleitner et al. hinaus auch Eigenschaftszuschreibungen durch andere ergänzt werden (Bsp.: Meine Freunde halten mich für etwas schüchtern) 7. Bizarre Items (Bsp.: Jemand versucht mich zu vergiften) Eine nicht seltene Quelle der Items neuer Testverfahren sind die Items bereits vorhandener Testverfahren. Dies kann eine Verletzung des Urheberrechts bedeuten, muss es aber nicht. Gerade external konstruierte Skalen schöpfen oft aus einem öffentlich oder mit Zustimmung der Originalautoren zugänglichen Itempool. Auswahl aus vorhandenen Itempools

38 40 Testkonstruktion: Von der Planung zum ersten Entwurf Aus den Items des schon erwähnten MMPI sind z.b. zahlreiche neue inoffizielle (d.h. in der Standardauswertung nicht vorgesehene) Subskalen entstanden (vgl. Spreen, 1963). Auch für die rationale oder internale Entwicklung von Persönlichkeitsskalen steht mit dem International Personality Item Pool (IPIP, n.d.; online unter der unter Einhaltung bestimmter Standards frei zugänglich ist, ein umfangreicher Itempool zur Verfügung. Außerdem ist es möglich, dass Items verschiedener Fragebogen einander ohne plagiatorische Absicht oder Kenntnis der Autoren ähneln. Angleitner und Löhr (1980) untersuchten inhaltliche Überlappungen einiger verbreiteter Persönlichkeitsinventare und fanden erhebliche Schnittmengen, ohne dass sich deren Ursache eindeutig klären ließ. Intuitive und regelgeleitete Itemgenerierung Hilfsmittel zur systematischen Itemgenerierung Prinzip des AFA In der Regel wird bei der Entwicklung eines neuen Testverfahrens aber ein Pool neuer Aufgaben generiert. Dieser Vorgang dürfte bei den meisten Testentwicklungen weitgehend unsystematisch erfolgen, geleitet im Wesentlichen von der Intuition und dem Geschick des Testautors, z.b. von dessen Einfühlungsvermögen in die Testperson. Als sehr wesentlich erweist sich hier die Qualität der Arbeitsdefinition des Merkmalsbereichs. Jedes einzelne Item sollte innerhalb des definierten Bereichs liegen und die Itemmenge sollte insgesamt diesen Bereich repräsentativ abdecken. Im Übrigen empfiehlt es sich, abgesehen von der Einhaltung genereller Empfehlungen zur Formulierung (vgl. den folgenden Abschnitt) ein Regelsystem für die spezifische Testentwicklung aufzustellen. Die Regeln können sich sowohl auf inhaltliche (vgl. Beispiel 2.1 oben) als auch formale Aspekte beziehen. Ein Beispiel für ein Regelsystem, das beide Aspekte einschließt, sowie für dessen Begründung findet sich bei Hendriks et al. (1999, pp ) für den in Beispiel 2.3 erwähnten FFPI. Darüber hinaus stehen einige Techniken zur systematischen Unterstützung der Generierung von Items zur Verfügung, die gleichzeitig auch bei der Abgrenzung des Merkmalsbereichs helfen. Zwei dieser Techniken, die bereits in Abschnitt 2.1 erwähnt wurden, sollen an dieser Stelle kurz beschrieben werden. Beide haben, wie auch die Facettentheorie, den Anspruch, sehr viel mehr zu sein als bloße Hilfsmittel zur Formulierung von Fragebogenitems, haben aber ihren Nutzen für diesen Zweck vielfach praktisch nachgewiesen. Der Ansatz der Verhaltenshäufigkeiten oder act frequency approach (AFA, Buss & Craik, 1983) stellt im Grunde eine Metatheorie der Persönlichkeit dar. Dispositionen werden als kognitive Kategorien aufgefasst, in denen Verhaltensweisen nach der Häufigkeit ihres Auftretens ohne eigentlichen Erklärungswert zusammengefasst werden. Die Feststellung Maria ist arrogant bedeutet nach dieser Auffassung zum Beispiel, dass Maria in einem gegebenen Zeitraum relativ zu einer sozialen Norm eine große Zahl arroganter Verhaltensweisen gezeigt hat (Beispiel aus dem Originalbeitrag). Die Grenzen des Konstrukts Arroganz sind dabei nicht klar umrissen: es gibt Handlungen, die für die Eigenschaft besonders zentral oder prototypisch sind und solche mit eher peripherer Zugehörigkeit zur

39 Testkonstruktion: Von der Planung zum ersten Entwurf 41 Kategorie. Der AFA stellt nun auch eine Methodologie zur Verfügung, um solche Unterschiede aufzudecken und in ein Messinstrument umzusetzen. Versuchspersonen, in der Regel psychologischen Laien, wird eine Eigenschaft wie z.b. Dominanz vorgegeben und sie werden gebeten, sich Personen aus ihrem Bekanntenkreis vorzustellen, die eine besonders hohe Ausprägung dieser Eigenschaft aufweisen. Anschließend sollen sie konkrete Verhaltensweisen aufschreiben, die sie bei den Zielpersonen beobachtet haben und aus denen sie auf die Ausprägung der Eigenschaft geschlossen haben. So entsteht eine Itemsammlung, die von einer weiteren unabhängigen Teilnehmergruppe hinsichtlich ihrer Prototypizität für die Eigenschaft eingeschätzt wird. Die nach diesem Urteil besten (besonders prototypischen) Items können beibehalten und, in die Ich-Form übertragen, zu einem Test zur Selbsteinschätzung der Persönlichkeit verwendet werden. Prototypisch für Dominanz sind nach einschlägigen Studien z.b. die Items Ich verbat ihm/ihr den Raum zu verlassen oder Ich gab Ratschläge, ohne darum gebeten worden zu sein. Beurteilungen der Prototypizität stimmen nach empirischen Befunden zumeist gut überein (Buss & Craik, 1983). Die AFA erlaubt die Generierung und Zuordnung von Items zu Skalen bzw. von Verhalten zu Eigenschaften unabhängig von der Intuition des Testautors. Allerdings liegt ein von Buss und Craik selbst eingestandenes psychometrisches Problem bei der Umsetzung in Selbstberichte im Befund sog. Aktivitätsfaktoren. Manche Versuchspersonen neigen generell häufiger als andere dazu anzugeben, dass sie Verhalten jeglicher Art gezeigt haben (oder sie sind tatsächlich generell aktiver), weshalb unterschiedliche Eigenschaften in nach AFA konstruierten Tests tendenziell höher miteinander korrelieren als bei konventionell konstruierten Persönlichkeitsinventaren (zu einer fundamentalen Kritik des AFA siehe Block, 1989). Die Methode der kritischen Ereignisse oder critical incident technique (CIT, Flanagan, 1954) ist ein dem AFA in der Vorgehensweise verwandter Ansatz mit allerdings völlig anderer Entwicklungsgeschichte. Er entstammt der Organisationspsychologie und wurde ursprünglich als Verfahren der beruflichen Leistungsbeurteilung konzipiert. Inzwischen dient er vorwiegend der anforderungsanalytischen Fundierung zahlreicher Instrumente der Arbeits- und Organisationspsychologie. Details dieser praktisch bedeutsamen Methode werden in Modul 8 vorgestellt. An dieser Stelle sei nur die für die Itemgenerierung wichtige Grundidee skizziert. Ansatzpunkt der CIT ist der Gedanke, dass sich gute oder unbefriedigende Leistungen in konkreten erfolgskritischen Ereignissen niederschlagen. Zum Beispiel kann die Nichteinhaltung von Wartungsintervallen durch einen Maschinenbediener irgendwann zu einem kostspieligen Stillstand führen. Ähnlich wie die Handlungen beim AFA werden solche kritischen Ereignisse durch von Einschätzungen des Testautors unabhängige Befragungen generiert. Teilnehmer sind dabei in der Regel Stelleninhaber oder andere Experten für die fragliche Position, die, wiederum wie beim AFA, instruiert sind, sehr konkret und Vorgehensweise beim AFA Bewertung der AFA Prinzip und Vorgehensweise der CIT

40 42 Testkonstruktion: Von der Planung zum ersten Entwurf verhaltensnah zu antworten. Allerdings sind kritische Ereignisse i.d.r. umfangreicher als die acts beim AFA und schließen den situativen Kontext mit Vor- und Nachgeschichte ein. Die Umsetzung in ein Erhebungsinstrument wie z.b. ein strukturiertes Einstellungsinterview erfolgt wiederum mittels unabhängiger Einschätzungen der Erfolgswirksamkeit, wobei kurze Zusammenfassungen der kritischen Ereignisse am Ende als Anker für unterschiedliche Performanz dienen. Bewertung der CIT Eignungsdiagnostische Instrumente, die mittels CIT fundiert sind, haben sich besonders hinsichtlich ihrer Validität zur Vorhersage beruflicher Leistung vielfach empirisch bewährt (zusammenfassend z.b. Schuler & Marcus, 2006; vgl. Modul 8 zu Details). Da die CIT sich auf ein bestimmtes Kriterium richtet, ist sie ein Hilfsmittel vor allem zur anforderungsanalytischen Unterstützung der Entwicklung von Verfahren, deren vordringliches Ziel die Maximierung der kriterienbezogenen Validität ist. Sie erlaubt es auch dann den relevanten Merkmalsbereich abzugrenzen, wenn dies mangels Daten mit den empirischen Mitteln der externalen Testkonstruktion nicht möglich ist. Allerdings ist der Entwicklungsaufwand erheblich, Verhaltensbeispiele für mittlere Leistung sind schwer zu finden und auch die Sammlung kritischer Ereignisse ergibt nicht notwendig ein homogenes und interpretierbares Konstrukt. 2.4 Sprachliche Formulierungsregeln und Antwortformate Itemstamm und Antwortmöglichkeiten Richtlinien zur Formulierung von Itemstämmen Grundsätzlich besteht jedes Item aus einem Itemstamm, also der eigentlichen Frage oder Aufgabe bzw. dem Reiz, und der Vorgabe des Antwortformats bzw. den möglichen Reaktionen. Beides unterscheidet sich natürlich stark zwischen Leistungstests und subjektiven Persönlichkeits- oder Einstellungsfragebogen. Gängige Gliederungen von Aufgabentypen beziehen sich vor allem auf unterschiedliche Antwortformate. Diese behandeln wir in diesem Abschnitt nach der Einführung einiger Grundregeln zum Itemstamm. Ein weiterer formaler Aspekt, den wir abschließend ansprechen, ist die Reihenfolge der Items bei der Zusammenstellung des Fragebogens. In der Literatur werden unterschiedlich differenzierte Hinweise zur Formulierung von Itemstämmen gegeben, die zum Teil auch auf Aufgaben bestimmter Testtypen zugeschnitten sind (vgl. Bortz & Döring, 2006; Mummendey & Grau, 2008). Im Allgemeinen beziehen sich diese Richtlinien auf die Förderung der Verständlichkeit, die Eindeutigkeit der Formulierung und die Vermeidung der Bevorzugung bestimmter Antwortalternativen. Eine Auswahl von Richtlinien ist zusammen mit Negativbeispielen im Folgenden zusammengestellt (s. auch Mummendey & Grau, S. 68ff.). Die Beispiele zu Richtlinie 7 illustrieren dabei auch die Schwierigkeit, besonders zum dritten genannten Bereich allgemeingültige Regeln aufzustellen.

41 Testkonstruktion: Von der Planung zum ersten Entwurf 43 Einige Beispiele für Formulierungsrichtlinien Verständlichkeit 1. Meide (auch versteckte) doppelte Verneinungen. Bsp.: Ich bin nicht oft traurig O trifft zu O trifft nicht zu In diesem Beispiel enthält der Itemstamm nur eine einfache Verneinung. Durch die Antwortvorgabe muss jemand, der oft traurig ist, aber angeben nicht nicht oft traurig zu sein. 2. Meide Ausdrücke, die nicht von allen Teilnehmern verstanden werden. Bsp.: Das HIV-Virus wird vor allem durch Promiskuität verbreitet. Dieses Item enthält gleich zwei Ausdrücke, deren Verständnis vermutlich bildungsabhängig ist (besser: AIDS wird vor allem durch Sex mit wechselnden Partnern verbreitet). 3. Drücke den Sachverhalt so kurz wie möglich und so lang wie nötig aus. Bsp.: Neben Fleiß, Geschick, dem richtigen Riecher, dem nötigen Kapital und einer Portion Glück kommt es für den Erfolg im Geschäftsleben auch darauf an, langfristige Beziehungen zu Geschäftspartnern aufzubauen, die auf Ehrlichkeit gegründet sind. Bsp.: Ehrlichkeit zahlt sich aus. Das erste Item im Beispiel ist so umständlich formuliert, dass nicht klar wird, was eigentlich beurteilt werden soll. Dem zweiten Item fehlt dagegen der zeitliche und situative Bezug, so dass unklar bleibt, ob gemeint sein könnte, dass sich Ehrlichkeit immer und überall auszahlt. Ein Kompromiss wäre zum Beispiel: Auf lange Sicht zahlt sich Ehrlichkeit im Geschäftsleben meistens aus. Eindeutigkeit 4. Lege jedem Item nur einen sachlichen Gedanken zugrunde. Bsp.: Ich gehe gern auf Parties, um neue Bekanntschaften zu machen. In dem Beispiel sind zwei Aussagen vermischt, die sich nicht gegenseitig bedingen müssen. Man kann auch gern auf Parties gehen, um z.b. alte Freunde zu treffen, oder man kann neue Bekanntschaften bei anderen Gelegenheiten machen. Besser wäre es hier, die beiden Aussagen in zwei getrennten Items zu formulieren oder sich auf den zentralen Sachverhalt zu beschränken. 5. Vermeide starke Verallgemeinerungen Bsp.: Kinder machen ständig Lärm. Wörtlich genommen kann dieser Aussage niemand ernstlich zustimmen, im alltagssprachlichen Gebrauch des Wortes ständig im Sinne von oft mglw. aber schon. Da die Testautorin keine Kontrolle darüber hat, wie die Teilnehmer die

42 44 Testkonstruktion: Von der Planung zum ersten Entwurf Formulierung auffassen, sind solche verallgemeinernden Begriffe (immer, niemals, alle, keiner) missverständlich. Das gilt eventuell auch dann, wenn sie bewusst eingesetzt werden, um Antworttendenzen aufzudecken. Zum Beispiel kann die kategorische Feststellung Ich habe noch nie ein Sexmagazin angeschaut, zu der Zustimmung als Indikator für sozial erwünschtes Antwortverhalten gewertet wird, von einigen Testteilnehmern durchaus auch als Tendenzaussage aufgefasst und wahrheitsgemäß bejaht werden (im Sinne von Ich gehöre nicht zu den Leuten, die sich regelmäßig Sexmagazine anschauen ). 6. Verwende nur eindeutige zeitliche und situative Bezüge. Bsp.: Ich habe im letzten Jahr eine neue Beschäftigung aufgenommen. Bei der Formulierung im letzten Jahr ist unklar, ob sie sich auf die letzten 12 Monate oder das letzte Kalenderjahr bezieht. Wer den Fragebogen z.b. im August 2010 bearbeitet und im Mai 2009 die Stelle gewechselt hat, kann so oder so antworten. Außerdem ist bei dem Begriff Beschäftigung nicht klar, ob er sich auf Berufsarbeit beschränkt oder auch Hobbies oder Ehrenämter einschließt. (besser: Ich habe in den letzten 12 Monaten eine neue Arbeitsstelle angetreten). Meidung von Antworttendenzen 7. Meide (unnötig) suggestive und (unnötig) wertende Formulierungen Bsp.: Viele Arbeitgeber nutzen ihr Mitarbeiter aus, wo es nur möglich ist. Da müssen sie sich nicht wundern, wenn die Mitarbeiter umgekehrt genauso handeln. Diese Formulierung legt zweifellos eine bestimmte Antwortrichtung nahe. Allerdings handelt es sich bei diesem Beispiel um ein Item, das absichtsvoll so formuliert wurde, um das Konstrukt der Rationalisierung normabweichenden Verhaltens zu messen (Marcus, 2006). In diesem Fall erschien es sinnvoll, den Grad der Zustimmung zu solchen ihrem Wesen nach autosuggestiven Rationalisierungen zu erheben. Wenn eine solche inhaltliche Begründung fehlt, sind suggestive Formulierungen aber unbedingt zu vermeiden. Verwandt mit Suggestivfragen sind wertende Formulierungen: Bsp.: Man kann sich hundertprozentig auf mich verlassen. Zustimmung zu diesem Item ist sicher sozial erwünscht. Das hängt in diesem Beispiel damit zusammen, dass die gemessene Persönlichkeitseigenschaft (Zuverlässigkeit) gleichzeitig eine allgemeine soziale Norm darstellt. Sehr viele psychologische Konstrukte sind ihrem Wesen nach (selbst-)evaluativ und können durch wertfreie Items kaum sinnvoll gemessen werden. Dennoch sollte auf einseitig wertende Aussagen so weit wie möglich verzichtet werden. Das gilt besonders für Fragen zu sozialen Einstellungen, bei denen die Wertung durch den Teilnehmer Gegenstand der Testung ist und nicht durch die Formulierung nahe gelegt werden sollte: Bsp.: Ich lehne jede Form von Rassismus ab.

43 Testkonstruktion: Von der Planung zum ersten Entwurf 45 Rassismus ist ein negativ belegter Begriff. Auch wenn wir uns dieser negativen Bewertung vorbehaltlos anschließen, sollten wir es als Testautoren vermeiden, den Testteilnehmern durch die Verwendung des evaluativen Begriffs Zustimmung zu der Aussage im Beispielitem in den Mund zu legen. 8. Meide Gemeinplätze. Bsp.: Ich möchte in meinem Beruf selber Entscheidungen treffen können. Dieser Aussage wird kaum jemand kategorisch widersprechen. Items, die von allen Teilnehmern gleich beantwortet werden, enthalten aber keinerlei empirische Information. Es gibt jedoch sehr wohl individuelle Unterschiede im Stellenwert, der dem Entscheidungsspielraum beigemessen wird. Besser wäre deshalb z.b. folgende Formulierung: Es ist mir in meinem Beruf besonders wichtig, selbständig Entscheidungen treffen zu können. Obwohl diese und weitere Richtlinien seit Jahrzehnten zum Allgemeingut der Methodenausbildung in sozialwissenschaftlichen Fächern gehören, ist ihre Befolgung auch bei professionellen Testautoren keineswegs selbstverständlich. Angleitner et al. (1986) berichten eine Studie, in der knapp 1000 Items aus verbreiteten Persönlichkeitsinventaren von einer Gruppe von Studierenden der Psychologie eingeschätzt wurde. Die Mehrheit der Beurteiler befand über die Hälfte der Items als nicht unmittelbar verständlich und mehr als ein Viertel als mehrdeutig. Es empfiehlt sich daher stets, zumindest Verständlichkeit und Eindeutigkeit in einem Vortest an einer kleineren Stichprobe unabhängig vom Testautor zu überprüfen, bevor Daten in größerem Maßstab erhoben werden. Bezüglich des Antwortformats lassen sich zunächst gebundene und offene Beantwortung unterscheiden. Bei gebundenen Antwortformaten sind konkrete Lösungsmöglichkeiten oder Antwortalternativen vorgegeben. Die freie Aufgabenbeantwortung ist nicht oder nur wenig durch Antwortvorgaben eingeschränkt. Jonkisz und Moosbrugger (2007) untergliedern weiter in acht spezifische Aufgabentypen (siehe Abb. 2.2), die im Folgenden näher beschrieben werden. Auf eine Darstellung der seltenen atypischen Antwortformate verzichten wir hier. Notwendigkeit von Vorprüfungen der Formulierung Typologie von Antwortformaten

44 46 Testkonstruktion: Von der Planung zum ersten Entwurf Abb. 2.2: Gliederung von Aufgabentypen nach dem Antwortformat (nach Jonkisz und Moosbrugger, 2007, S.39) Anwendung und Arten von Aufgaben mit freiem Antwortformat Items mit freier Aufgabenbeantwortung kommen im Rahmen psychologischer Tests eher bei Fähigkeits- und Leistungstests vor, da es hier eine endliche Zahl objektiv richtiger Lösungen gibt. Eine Ausnahme unter den Persönlichkeitstests bilden projektive Verfahren. Obwohl es inzwischen auch sog. semi-projektive Tests mit gebundenem Antwortformat gibt, dominiert hier aus theoretischen Gründen das Prinzip der freien Assoziation und damit der freien Beantwortung (i.d.r. formal als Kurzaufsatz). Teilstrukturierung der Antworten liegt vor, wenn ein Teil der Lösung vorgegeben ist (z.b. bei Lückentexten als Variante der Ergänzungsaufgabe). Im Folgenden werden Beispiele für Ergänzungsaufgaben und einen Kurzaufsatz mit völlig freiem Antwortformat bei Leistungstests gegeben.

45 Testkonstruktion: Von der Planung zum ersten Entwurf 47 Beispiel 2.4: Aufgaben mit freiem Antwortformat Ergänzungsaufgaben In welchem Land liegt die Stadt Lima? Der absolute Nullpunkt liegt bei? Apfel verhält sich zu Obst wie Weizen zu? Lösungen: Peru, 273 C, Getreide Kurzaufsatz Bei Kurzaufsätzen müssen auf Fragen kurze, freie Antworten niedergeschrieben werden. Für die Auswertung werden im Manual oft Musterlösungen genannt, die für die Teilnehmer natürlich nicht sichtbar sind. Bsp.: Wie kommen Sommer und Winter zustande? (mögliche Antworten: die Sonne steht im Winter am tiefsten und im Sommer am höchsten; die Sonne scheint im Sommer lang, im Winter hingegen nur kurz; die nördliche Halbkugel der Erde, auf der wir leben, ist der Sonne im Sommer zugewandt, im Winter abgewandt; die Wetterlage und die klimatischen Bedingungen ändern sich rhythmisch) Zufallslösungen sind bei offenem Antwortformat kaum möglich, eventuell ist a- ber der Lösungsweg erkennbar. Es kann daher eine qualitative Auswertung dieser Aufgaben vorgenommen werden. Inhaltlich besteht die Möglichkeit der Konstruktion komplexer Aufgaben. Bei bestimmten Fragestellungen sind offene Formate unerlässlich, z.b. bei der Erfassung von stilistischer Begabung oder der Reproduktion von Wissen durch einen Gedächtnistest. Zu den Nachteilen offener Fragen gehört an erster Stelle die fehlende Standardisierung der Antworten. Für die Konstruktion ergibt sich daraus das Problem erschöpfender Musterlösungen. Bei der Bearbeitung kann es z.b. bei zusammenhängenden Lückentexten zu Folgefehlern kommen und damit psychometrisch zur mangelnden stochachistischen Unabhängigkeit der Items (s.u.). Besonders bei Kurzaufsätzen kann es schwierig sein, die Antworten verschiedener Teilnehmer zu vergleichen, so dass subjektive Elemente in die Auswertung einfließen. Die Auswertung der Items projektiver Verfahren muss oft in speziellen Zusatzausbildungen erlernt werden, ohne dass deren Objektivitätsproblem bislang befriedigend gelöst wurde. Das für die An- Bewertung offener Antwortformate

46 48 Testkonstruktion: Von der Planung zum ersten Entwurf wendungspraxis vielleicht schwerwiegendste Problem ist der gegenüber gebundenen Antworten erheblich größere Auswertungsaufwand. Aufgrund dieser Nachteile dominieren in der Testpraxis gebundene Antwortformate. Prinzip und Gestaltungselemente gebundener Antwortformate Prinzip der Ratingskala Gestaltungselemente von Ratingskalen: Abstufung, Polarität, Verankerung Bei gebundenen Antwortformaten werden die Antwortmöglichkeiten durch den Testautor vollständig vorgegeben. Das ermöglicht eine sehr schnelle, heute häufig automatisierte Auswertung. Zudem hat die Auswerterin keinerlei Interpretationsspielraum, die Items sind im testtheoretischen Sinne vollkommen auswertungsobjektiv (s. Abschnitt 5.2.1). Allerdings können die Antwortvorgaben von verschiedenen Teilnehmern durchaus unterschiedlich interpretiert werden. Zu den Ursachen dieser Unterschiede und deren Folgen u.a. für die Anzahl und Formulierung der Antwortvorgaben, für deren grafische Gestaltung sowie für die Reihung der Items innerhalb des Tests existiert eine umfangreiche Spezialliteratur (z.b. Schwarz, 1999; Sudman, Bradburn & Schwarz, 1996), aus der im Folgenden nur einige wenige Ausschnitte referiert werden können (ausführlicher z.b. Mummendey & Grau, 2008). Das in der Persönlichkeits- und Einstellungsforschung wohl häufigste Antwortformat ist die Einstufungs- oder Ratingskala. Ratingskalen können verschiedene Benennungen ihrer Kategorien (z.b. von trifft zu bis trifft nicht zu oder von sehr gut bis sehr schlecht ) aufweisen. Ihnen ist gemeinsam, dass sie aus mehr als zwei abgestuften Antwortkategorien bestehen und damit eine quantitative Beurteilung einer Merkmalsausprägung ermöglichen sollen. Vor der Konstruktion von Ratingskalen muss festgelegt werden, wie differenziert die Abstufung werden soll (z.b. dreistufig, vierstufig oder zehnstufig). Dies hängt unter anderem davon ab, wie genau die Probanden die entsprechende Frage beantworten können und wie genau der Testkonstrukteur zwischen den Probanden differenzieren will. Zu wenige Stufen bedeuten den Verzicht auf Information und damit auf psychometrische Güte; zu viele Stufen können Probanden überfordern und die Gütekriterien wiederum vermindern (z.b. Matell & Jacoby, 1971; Bortz & Döring, 2006). Ein psychometrisches Optimum scheint im Bereich von ca. 5 bis maximal 9 Stufen zu liegen (vgl. Bernardin & Beatty, 1984). Ein Sonderfall ist die stufenlos einstellbare Analogskala (vgl. Bsp. 2.5 ganz unten). Die Wahl einer ungeraden Zahl von Stufen empfiehlt sich, wenn eine als neutral wahrgenommene Mittelkategorie vorgegeben werden soll, eine gerade Zahl wenn genau das vermieden und die Probanden gezwungen werden sollen, sich zu entscheiden. Gegen die Verwendung der Mittelkategorie sprechen Befunde, nach denen diese von manchen Testpersonen als Ausweichoption genutzt wird, dafür aber der Umstand, dass der Zwang sich zu entscheiden die Akzeptanz vermindern kann (vgl. Bortz & Döring, 2006; Rost, 2004). Die Alternative der Verwendung einer echten Ausweichkategorie ( weiß nicht, keine Angabe ) wird wegen der Erhöhung des Anteils fehlender Werte mit Auswertungsproblemen erkauft. Weiter muss geklärt werden, ob die Items unipolar (mit einem logischen Minimum; Bsp.: bei Häufigkeitsskalen ist nie ein definierter Nullpunkt) oder bipolar (Extrem-

47 Testkonstruktion: Von der Planung zum ersten Entwurf 49 ausprägungen sind durch gegensätzliche Begriffe gekennzeichnet) vorgegeben werden sollen. Schließlich kann jede einzelne Stufe oder nur die Enden der Skala durch numerische (z.b. von 0 bis 4 oder -2 bis +2), verbale oder grafische bzw. symbolische Verankerungen beschrieben werden. Krosnik (1999) berichtet, dass die Benennung jeder einzelnen Stufe bei einer Ratingskala zu Verbesserungen der Reliabilität und Validität führt. Einige spezielle Techniken zur Verankerung von Skalen werden in Modul 8 beschrieben. Im folgenden Kasten sind u.a. einige Beispiele für verbale Verankerungen genannt, die sich empirisch bewährt haben (Rohrmann, 1978; vgl. zu ausführlichen Empfehlungen auch Bernardin & Beatty, 1984). Beispiel 2.5: Ratingskalen Empfehlenswerte Formate für vier Urteilsdimensionen (nach Rohrmann, 1978) Häufigkeitsskalen: nie selten gelegentlich oft immer sehr selten selten gelegentlich oft sehr oft Intensität: gar nicht wenig mittelmäßig überwiegend völlig Wahrscheinlichkeit: keinesfalls wahrscheinlich vielleicht ziemlich ganz sicher Bewertung: nicht wahrscheinlich trifft gar trifft trifft teils- trifft trifft nicht zu wenig zu teils zu ziemlich zu völlig zu

48 50 Testkonstruktion: Von der Planung zum ersten Entwurf Weitere Beispiele für Ratingskalen Beispiel eines Items mit bipolarer Zustimmungsskala aus dem NEO- Fünf Faktoren Inventar (NEO-FFI, Borkenau & Ostendorf, 1993), einem Persönlichkeitstest. (Zutreffendes wird angekreuzt): Item Ich fühle mich oft angespannt und nervös. starke Ablehnung Ablehnung weder Ablehnung noch Zustimmung Zustimmung starke Zustimmung Beispiel eines bipolaren Items ohne Mittelkategorie und mit nonverbaler Verankerung bzw. Symbolen (hier sog. Gesichterskala, zuerst bei Kunin, 1955), wie er in der Einstellungsforschung häufig verwandt wird: Wie gut fanden Sie den Vortrag? Beispiel einer unipolaren Analogskala, in diesem Fall eine Variante der in der Schmerzforschung verbreiteten visuellen Analogskala (z.b. Huskisson, 1974) Geben Sie mit Hilfe des schwarzen Striches die von Ihnen empfundene Schmerzstärke an:

49 Testkonstruktion: Von der Planung zum ersten Entwurf 51 Eine für die weitere Skalierung und statistische Auswertung bedeutsame Frage ist, ob mit mehrstufigen Ratingformaten ein metrisches Skalenniveau erreicht werden kann (für den Sonderfall der Analogskala kann dies unterstellt werden). Streng genommen erreichen Ratingskalen nur Ordinalniveau. Vertretbar ist die trotzdem verbreitete Unterstellung einer Intervallskala um so eher, (1) je mehr Skalenstufen je Item vorgegeben werden, (2) je mehr Items zu einem Testwert aggregiert werden und (3) je gleichmäßiger die Abstände zwischen den Skalenstufen von den Testteilnehmern empfunden werden. Problematisch ist besonders die dritte Voraussetzung, die lineare Veränderungen zwischen den Stufen unterstellt. Die im ersten Teil von Beispiel 2.5 genannten Verankerungen haben sich in der Studie von Rohrmann (1978) in dieser Hinsicht als günstig erwiesen (vgl. auch Bernardin & Beatty, 1984; Bortz & Döring, 2006). Unter bestimmten Umständen kann es aber auch gewollt sein, entlang der Skala asymmetrische Abstufungen vorzusehen, zum Beispiel um bei seltenen oder sozial erwünschten Merkmalen in solchen Bereichen der Skala besser differenzieren zu können, in denen sich die Antworten sonst häufen würden (für Beispiele s. Marcus & Schuler, 2006, S. 450f. sowie Beispiel 2.1 oben). Neben der Frage nach dem Skalenniveau gilt als ein Kernproblem von Ratingskalen die Anfälligkeit für Antworttendenzen. Dazu zählen u.a. die Tendenz, bewusst oder unbewusst im Sinne sozialer Normen ( sozial erwünscht ) zu antworten, die generelle Tendenz zur Zustimmung (Akquieszenz) zu oder auch Ablehnung von Aussagen sowie die Bevorzugung bestimmter Skalenbereiche wie der Mitte oder den Extremen. Allerdings betrifft nur die letzte Gruppe von Antworttendenzen speziell Ratingskalen (zu allgemeinen Hinweise zu Antworttendenzen vgl. Abschnitt 5.3). Eine mögliche Ursache von Antworttendenzen kann es, wie bereits angesprochen, sein, dass Formulierungen von unterschiedlichen Personen unterschiedlich interpretiert werden. Wenn etwa auf einer Häufigkeitsskala Begriffe wie oft oder selten verwendet werden, können zwei verschiedene Personen damit objektiv sehr verschiedene Häufigkeiten verbinden. Dies stellt unter Umständen den ganzen Messvorgang in Frage. Trotz der allgemeinen und spezifischen Probleme haben sich Ratingskalen vielfach bewährt und erfreuen sich nicht zuletzt aufgrund des zumindest formal hohen Differenzierungsgrads und der ökonomischen Anwendung in der Testpraxis großer Beliebtheit. Nicht ganz so häufig kommen inzwischen dichotome Auswahlaufgaben mit genau zwei Antwortalternativen vor. Es gibt sie bei Leistungstestaufgaben (Richtig- Falsch-Aufgaben) oder auch in Persönlichkeitstests als Ja-Nein-Fragen (z.b. Trifft zu/trifft nicht zu). Je ein Beispielitem ist in Beispiel 2.6 aufgeführt. Problem des Skalenniveaus von Ratingskalen Antworttendenzen und Bewertung von Ratingskalen Prinzip dichotomer Auswahlaufgaben

50 52 Testkonstruktion: Von der Planung zum ersten Entwurf Beispiel 2.6: Dichotome Auswahlaufgaben Beispiel eines Ja-Nein-Fragebogenitems aus dem Freiburger Persönlichkeitsinventar, revidierte Form (FPI-R, Fahrenberg, Hampel & Selg, 2001): Ich gehe abends gerne aus. stimmt stimmt nicht Beispiel eines Leistungstestitems aus dem Revisions-Test zur Erfassung der Konzentrationsfähigkeit von Marschner (1972) (Additionsaufgaben: Falsche Ergebnisse werden durchgestrichen und richtige Ergebnisse mit einem Haken markiert): Falsch: 6 Richtig: 7 Bewertung dichotomer Auswahlaufgaben Prinzip der Mehrfachwahlaufgaben Die Popularität dieses einfachsten aller gebundenen Antwortformate rührte in der Prä-Computer-Ära zum Teil von der Einfachheit der Auswertung her, besonders bei der Diskriminierung von Gruppen bei external konstruierten Tests. Dies wird bei Leistungstestaufgaben mit einem hohen Anteil an richtigen Zufallslösungen (rechnerisch 50 %) erkauft, bei Ja-Nein-Fragen mit einem gegenüber mehrstufigen Ratingskalen deutlichen Informationsverlust. Beides muss in der Praxis durch längere Tests (mehr Items) ausgeglichen werden. Obwohl nicht nur die Auswertung, sondern auch die Beantwortung durch die Probanden relativ leicht ist, sprechen die Argumente heute insgesamt eher gegen die Verwendung dichotomer Items. Ein Vorzug des dichotomen Antwortformats ist allerdings, dass es die Anwendung der Probabilistischen Testtheorie erheblich erleichtert. Mehrfachwahlaufgaben haben mehr als zwei, am häufigsten vier bis fünf Antwortalternativen. Auch hier existieren verschiedene Formen, wobei die Verwendung in Leistungs- und Persönlichkeitstests formal sehr ähnlich, inhaltlich aber zu unterscheiden ist. Je ein Item aus beiden Bereichen findet sich in Beispiel 2.7.

51 Testkonstruktion: Von der Planung zum ersten Entwurf 53 Beispiel 2.7: Mehrfachwahlaufgaben Multiple-Choice-Aufgabe aus einem Leistungstest Das Beispiel ist dem Intelligenz-Struktur-Test, revidierte Form A (IST-2000 R, Amthauer, Brocke, Liepmann & Beauducel, 2001) entnommen: Aus sechs gegebenen Wörtern sollen die beiden mit einem gemeinsamen Oberbegriff gewählt (markiert) werden (Lösung in Fettdruck: Lebensmittel): a) Messer b) Butter c) Zeitung d) Brot e) Zigarre f) Armband Forced-Choice-Item aus einem Persönlichkeitstest Ihnen werden vier Aussagen vorgegeben: A, B, C und D. Ihre Aufgabe besteht darin, jeweils die Aussage auszuwählen, die für Sie am meisten und am wenigsten zutrifft. Markieren Sie die am meisten zutreffende Aussage mit einem M und die am wenigsten zutreffende Aussage mit einem W. Ich bin ein Mensch, der... A) gerne Freunde um sich hat. B) gerne Parties organisiert. C) mit Stress gut zurechtkommt. D) Abwechslung sucht. In Leistungstests kommen unterschiedliche Varianten des allgemein auch aus Klausuren (oder aus Quiz-Sendungen wie Wer wird Millionär? ) bekannten Multiple-Choice-Formats zum Einsatz. Es können dabei genau eine oder mehrere richtige Lösungen vorgegeben werden, wobei dies den Probanden in der Instruktion offen gelegt werden sollte. Im ersten Fall ist darauf zu achten, dass die Antwortvorgaben disjunkt sind, also keine inhaltlichen Schnittmengen zwischen ihnen bestehen (Negativbeispiel: Die Richtig-Falsch-Aufgabe ist ein Beispiel für (a) ein offenes Antwortformat, (b) ein gebundenes Antwortformat, (c) eine Aus- Mehrfachwahlaufgaben in Leistungstests

52 54 Testkonstruktion: Von der Planung zum ersten Entwurf wahlaufgabe, (d) eine Beurteilungsaufgabe -> (b) und (c) überlappen sich und sind beide richtig). Manche Teilnehmer entwickeln irrationale Lösungsstrategien ( Wähle stets Antwort (c), Wähle nie zweimal hintereinander die Alternative mit der gleichen Nummer ). Daher ist bei der Reihung der Alternativen darauf zu achten, dass solche Strategien die Ergebnisse zumindest nicht systematisch verfälschen können, die Stellung der richtigen Lösungen also ausgewogen aber unsystematisch über den Test verteilt ist. Distraktoren Mehrfachwahlaufgaben im Persönlichkeitsbereich Bewertung von Mehrfachwahlaufgaben; ipsative Messung Die falschen Antwortalternativen heißen in der Fachsprache Distraktoren. Die Schwierigkeit des Items hängt bei Mehrfachwahlaufgaben ganz wesentlich nicht nur von der Frage und richtigen Antwort, sondern auch von der Wahl der Distraktoren ab. Eine scheinbar schwierige Frage kann durch die Wahl offensichtlich unsinniger Distraktoren objektiv sehr leicht gemacht werden, während die Schwierigkeit derselben Frage durch hochplausibel erscheinende falsche Antworten noch unter die Zufallswahrscheinlichkeit der Lösung gesenkt werden kann (die Sendung Wer wird Millionär? bietet dafür übrigens reichhaltiges Anschauungsmaterial). Die Generierung der Antwortalternativen ist oft der schwierigste und aufwändigste Schritt bei der Konstruktion von Mehrfachwahlaufgaben. Bei Persönlichkeits- und Einstellungstests hat die Verwendung des Mehrfachwahlformats meist einen ganz anderen Hintergrund. Hier soll in sog. Forced- Choice-Items (formal von Multiple-Choice nicht zu unterscheiden) Tendenzen zu sozial erwünschtem Antwortverhalten entgegen gewirkt werden, indem Antwortalternativen, die bei freier Auswahl ähnlich häufig bevorzugt würden, zusammen gruppiert werden mit der Instruktion, genau eine davon auszuwählen. Bei Varianten dieses Vorgehens werden die Probanden aufgefordert, die auf sie am meisten und die am wenigsten zutreffende Aussage auszuwählen, oder sie sollen alle Alternativen in eine Rangreihe bringen (das Prinzip der Rangordnung liegt z.b. auch der in Deutschland wenig bekannten Q-Sort-Technik zugrunde, die zur typologisierenden Persönlichkeitsmessung verwendet wird, Block, 1978). Da die Auswahlwahrscheinlichkeit aller Alternativen in einer Normgruppe ungefähr gleich ist dies wird i.d.r. durch Vortests geprüft lautet die dahinter stehende Annahme, dass tatsächlich die individuell am besten zutreffende und nicht die allgemein am meisten erwünschte Alternative ausgewählt wird. Die Idee hinter Forced-Choice-Items ist sicher auf den ersten Blick bestechend. Der Aufwand bei der Konstruktion ist allerdings erheblich. Zudem ist die Maßnahme zur Verbesserung der Güte etwa von Personalauswahlverfahren empirisch von eher wechselndem Erfolg gekrönt (positiv z.b. bei D. L. Jackson, Wroblewski & Ashton, 2000; negativ bei Heggestad, Morrison, Reeve & Mc- Cloy, 2006). Werden die Antwortalternativen nicht unterschiedlichen Graden der Ausprägung eines Merkmals zugeordnet, sondern verschiedenen Merkmalen in mehrdimensionalen Tests (wie im unteren Item in Beispiel 2.7), liegt eine sog. ipsative Messung vor. Ein spezifisches psychometrisches Problem dieser Variante ist die fehlende stochastische Unabhängigkeit der Antwortalternativen. Wer

53 Testkonstruktion: Von der Planung zum ersten Entwurf 55 sich im Beispiel für Alternative A entscheidet, entscheidet sich automatisch auch gegen die Alternativen B, C und D und erhält damit schon einen geringeren als den höchst möglichen Wert in den Persönlichkeitsdimensionen, denen letztere Alternativen zugeordnet sind. Dies führt zu künstlichen negativen Korrelationen zwischen den Merkmalen mit einer Reihe von psychometrischen Folgeproblemen u.a. für die Berechnung von Reliabilitäten und Faktorenanalysen. An der Lösung dieser Probleme wird gearbeitet (z.b. A. Brown, 2007). Derzeit erscheint das Mehrfachwahlformat für den Persönlichkeitsbereich noch als eine zwar anspruchsvolle Alternative zu Ratingskalen, bei der aber auch noch einige Fragen offen sind. Die Anwendung im Bereich der Leistungstests ist weit weniger problematisch, da die Distraktoren hier nicht zur Messung anderer Konstrukte dienen. Hauptsächlich in Leistungstests kommen Sortier- oder Ordnungsaufgaben vor, die es in den Varianten der Zuordnungs- und der Umordnungsaufgabe gibt. Das Prinzip der Sortierung von Antwortvorgaben liegt aber auch den oben als Variante der Mehrfachwahlaufgaben beschriebenen Rangordnungsaufgaben zugrunde. Die Übergänge zwischen Aufgabentypen sind hier manchmal fließend. Bei Zuordnungsaufgaben werden bestimmte Symbole oder Begriffe anderen Symbolen oder Kategorien zugeordnet, so dass jeweils eine sinnvolle Paarung entsteht. Bei Umordnungsaufgaben müssen vorgegebene Fragmente der Reihenfolge entsprechend sortiert werden. Je ein fiktives Item ist in Beispiel 2.8 aufgeführt. Prinzip der Ordnungsaufgaben Zuordnungs- und Umordnungsaufgaben Beispiel 2.8: Ordnungsaufgaben Zuordnungsaufgabe Ordnen Sie je einen der Aufgabentypen a) bis d) psychologischer Tests den passenden Oberbegriffen 1) bis 3) zu. Beachten Sie, dass einer der Aufgabentypen nicht korrekt zuordenbar ist. 1) Ordnungsaufgaben a) dichotome Aufgabe 2) Auswahlaufgaben b) Ergänzungsaufgabe 3) Beurteilungsaufgaben c) Analogskalaaufgabe d) Umordnungsaufgabe (Lösung: 1-d, 2-a, 3-c; b ist eine Aufgabe mit freiem Antwortformat) Umordnungsaufgabe Bringen Sie die folgenden Wörter in eine Reihenfolge, die einen sinnvollen Satz ergibt. Herrn seinen ein rettete treuer Hund (6) (5) (1) (4) (2) (3)

54 56 Testkonstruktion: Von der Planung zum ersten Entwurf Bewertung von Ordnungsaufgaben Reihenfolgeeffekte bei der Zusammenstellung von Items Minimierung von Reihenfolgeeffekten Zuordnungsaufgaben eignen sich besonders zur Abfrage von Wissen und Kenntnissen in sehr kompakter und ökonomischer Form. Allerdings erhöht sich durch den sukzessiven Ausschluss von Antwortmöglichkeiten die Ratewahrscheinlichkeit wie auch die Wahrscheinlichkeit von Folgefehlern mit jeder Zuordnung innerhalb eines Items. Wenn alle Antwortmöglichkeiten zugeordnet werden sollen, ist die letzte Zuordnung redundant. Deshalb empfiehlt es sich, unter die korrekten Lösungen zusätzlich mindestens eine ganz falsche Antwort zu mischen (vgl. Beispiel 2.8 oben). Umordnungsaufgaben erlauben die Erfassung etwa von schlussfolgerndem Denken auch mit nonverbalem Material und damit unabhängig von der Lesefähigkeit (für Beispiele siehe etwa die Bildersortieraufgaben im Hamburg-Wechsler-Intelligenztest für Kinder, HAWIK, Hardesty & Priester, 1963). Sofern das Material physisch vorgegeben werden muss, ist diese Art der Testung allerdings mit erheblichem Aufwand bei der Durchführung verbunden. Wenn ein Pool aus einzelnen Aufgaben konstruiert ist, müssen diese Items noch in eine Reihenfolge innerhalb des Tests gebracht werden. Dabei kann die Stellung der Items innerhalb des Tests die Antwort auf nachfolgende Items beeinflussen. Solche Reihenfolgeeffekte waren ebenfalls Gegenstand intensiver Forschung, die besonders von sozial-kognitivistischen Theorien beeinflusst war (z.b. Schwarz, 1999; Sudman et al. 1996). So fanden etwa Schwarz und Bless (1992; nach Sudman et al., 1996) in einer Studie, dass die Partei Christlich Demokratische Union (CDU) deutlich positiver beurteilt wurde, wenn in der vorangegangenen Frage die CDU-Mitgliedschaft des populären damaligen Bundespräsidenten Richard von Weizsäcker erwähnt wurde. Wenn jedoch nur dessen Präsidentschaft angesprochen war fielen die Urteile über die CDU negativer aus als wenn Weizsäcker gar nicht erwähnt wurde. Die positive Verzerrung ist ein Beispiel für einen Assimilationseffekt, der durch die Verbindung Weizsäckers mit der CDU in der gleichen kognitiven Kategorie theoretisch zu erklären ist, während beim negativen Effekt diese Verbindung fehlte und ein Kontrasteffekt entstand. Bei mehrdimensionalen Persönlichkeitstests können sich ähnliche Effekte auch in verzerrten Korrelationen zwischen den Merkmalsbereichen niederschlagen, wenn z.b. Fragen ähnlichen Inhalts zusammen gruppiert und damit als zusammengehörig präsentiert werden. Außerdem können Kontexteffekte der beschriebenen Art auch durch die Zusammenstellung von Antwortalternativen innerhalb eines Items auftreten, besonders bei Mehrfachwahlaufgaben. Man versucht zumindest systematischen Verzerrungen durch Reihenfolgeeffekte in Fragebogen durch zufällige Reihung zu begegnen, dem Problem überhöhter Korrelationen bei mehrdimensionalen Tests auch dadurch, dass inhaltlich zusammenhängende Items möglichst weit voneinander entfernt präsentiert werden. Letzteres verlangt allerdings keine Zufallsreihung, sondern eine systematische Gruppierung, bei einem nach dem Fünf-Faktoren-Modell der Persönlichkeit (vgl. Modul 7) konstruierten Inventar etwa nach dem Muster N-E-O-A-C--N-E-O-A-C usw. (so z.b. im NEO-FFI, Borkenau & Ostendorf, 1993). Bei Leistungstests mit zumindest anteiliger Powerkomponente sind die Aufgaben dagegen i.d.r. nach

55 Testkonstruktion: Von der Planung zum ersten Entwurf 57 aufsteigender Schwierigkeit sortiert, um Probanden mit geringerer Fähigkeitsausprägung nicht gleich anfangs zu entmutigen und die Zahl der insgesamt bearbeiteten Aufgaben zu maximieren. Übungsaufgabe: Formulieren Sie je ein mögliches Item für einen Persönlichkeitstest, in dem die folgenden Formulierungsregeln verletzt werden: a) Meide (auch versteckte) doppelte Verneinungen. b) Lege jedem Item nur einen sachlichen Gedanken zugrunde. c) Verwende nur eindeutige zeitliche und situative Bezüge. d) Meide Gemeinplätze. (mögliche Lösungen finden sich im Kasten Beispiele für Formulierungsregeln. Didaktisch sinnvoller ist es natürlich, wenn Sie sich zur Übung eigene Beispiele sowie jeweils bessere Formulierungen für Items ähnlichen Inhalts überlegen) Weiterführende Literaturempfehlungen: Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention (4. vollst. überrarb. und erw. Aufl.). Heidelberg: Springer. (insbes. Kap bis 2.2.6) Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2. akt. Aufl.). München: Pearson Studium. (insbes. Kap. 3.1 bis 3.3). Jonkisz, E. & Moosbrugger, H. (2007). Planung und Entwicklung von psychologischen Tests und Fragebogen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S ). Heidelberg: Springer. Mummendey, H. D. & Grau, I. (2008). Die Fragebogenmethode (5. überarb. und erw. Aufl.). Göttingen: Hogrefe. (insbes. Kap. 3, 4.1 bis 4.11, 6, 7). Schwarz, N. (1999). Self-reports: How the questions shape the answers. American Psychologist, 54,

56 58 Itemanalyse: Kürzung und Revision des Entwurfs 3 Itemanalyse: Kürzung und Revision des Entwurfs Gegenstand des Pretests Wenn die erste Rohfassung des Testentwurfs vorliegt, d.h. eine geordnete Itemsammlung, sollte wie im vorigen Kapitel erwähnt zunächst ein Pretest durchgeführt werden, um die Items auf Verständlichkeit und Eindeutigkeit zu prüfen. Sinnvoll ist dabei auch die Erfassung möglicher Probleme mit der Akzeptanz durch Fragen, die als invasiv, belastend oder aus anderen Gründen als inakzeptabel empfunden werden. Dafür eignet sich eine qualitative Erhebung mit der Möglichkeit, Kommentare abzugeben. Es genügt i.d.r. eine kleine Stichprobe, deren Mitglieder allerdings zur Zielgruppe des Tests gehören sollten. Nachdem auf diese Weise besonders missverständliche und inakzeptable Items identifiziert und ggf. eliminiert oder umgeschrieben wurden, kann die quantitative empirische Prüfung der Vorform des Tests in größerem Rahmen beginnen. In diesem Kapitel beschäftigen wir uns mit empirischen Kennwerten für einzelne Items. Diese Kennwerte werden insbesondere genutzt, um Unterschiede in den Messeigenschaften einzelner Items zu identifizieren und zur Kürzung der Vorform des Tests bzw. zu Eliminierung weniger gut geeigneter Aufgaben zu nutzen. In der Klassischen Testtheorie (KTT) sind dies an erster Stelle die Kennwerte Itemschwierigkeit und Itemtrennschärfe. In der Probabilistischen Testtheorie (PTT) können in unterschiedlich komplexen Modellen unterschiedliche Parameter berechnet werden. Dafür stehen in der PTT Statistiken zur Prüfung der Modellverträglichkeit einzelner Items wie auch des gesamten Modells zur Verfügung. Innerhalb der PTT ist die Analyse einzelner Items logisch schwer von der Beurteilung des gesamten Tests zu trennen. Wir stellen im zweiten Teil dieses Kapitels die Prinzipien wichtiger Modelle der PTT in Grundzügen und in eher allgemeiner Form vor. Zuvor werden wir uns mit der Itemanalyse nach KTT vor allem anhand eines konkreten Beispiels beschäftigen. 3.1 Itemanalyse nach Klassischer Testtheorie (KTT) Beschreibung des Beispieldatensatzes Wir werden im Folgenden die wichtigsten Kennwerte einer Itemanalyse nach KTT am Beispiel eines echten empirischen Datensatzes und mit Hilfe der Statistiksoftware SPSS 17 (SPSS, Inc., 2008) darstellen. Wir benutzen dafür Teile eines umfangreichen Datensatzes aus einer Stichprobe, bei der u.a. eine deutsche Version des Big Five Inventory (BFI, John & Srivastava; deutsch von Lang, Lüdtke & Asendorpf, 1999) zum Einsatz kam (vgl. Marcus, Machilek & Schütz, 2006). Das BFI ist ein weiteres kurzes Inventar zur Messung des Fünf-Faktoren-Modells der Persönlichkeit (vgl. Modul 7). Es besteht aus insgesamt 44 Items, von denen jeweils zwischen sieben und zehn den Persönlichkeitsdimensionen Neurotizismus (N), Extraversion (E), Offenheit für Erfahrungen (O), Verträglichkeit (A für agreeableness) und Gewissenhaftigkeit (C für conscientiousness) zugeordnet sind.

57 Itemanalyse: Kürzung und Revision des Entwurfs 59 Zur Beantwortung dient eine fünfstufige, bipolare Ratingskala, auf der jeweils der Grad der Zustimmung zu den Aussagen ausgedrückt werden kann (von trifft überhaupt nicht auf mich zu bis trifft sehr gut auf mich zu ). Bei den Aussagen handelt es sich, ähnlich wie beim oben beschriebenen FFPI, um kurze Satzfragmente, die ursprünglich aus Adjektiven abgeleitet wurden ( Ich sehe mich als jemand, der z.b. sich viele Sorgen macht. (N), Aufgaben gründlich erledigt. (C)). Beim BFI wurden die ursprünglichen Adjektive von Experten als besonders kennzeichnend für die fünf Persönlichkeitsfaktoren eingeschätzt. Im Grunde handelt es sich beim BFI also um einen rational konstruierten Test zur Messung eines faktorenanalytisch begründeten Persönlichkeitsmodells. In verschiedenen Studien war die Übereinstimmung mit anderen Inventaren zur Messung der fünf Faktoren hoch (vgl. Lang et al., 2001). Zunächst interessieren wir uns in einer deskriptiven Datenanalyse für die Verteilungseigenschaften der einzelnen Items, deren wichtigster im Rahmen der Itemanalyse die Itemschwierigkeit ist. In einem weiteren Schritt geht es um Zusammenhangsmaße, die für die Items des Tests berechnet werden können. Für die Beurteilung der einzelnen Items ist dabei besonders die Trennschärfe oder Korrelation des Items mit dem gesamten Test von Bedeutung Rekodierung, Deskriptive Itemanalyse und Itemschwierigkeiten Die Items des BFI sind unterschiedlich gepolt, d.h. hohe Werte stehen manchmal für hohe, manchmal auch für niedrige Ausprägungen des jeweiligen Merkmals. Bevor wir irgendwelche Berechnungen mit den Daten durchführen, ist es sinnvoll die Items so zu rekodieren, dass sämtliche Items gleich gepolt sind. In SPSS erfolgt dies durch den Befehl TRANSFORMIEREN -> UMKODIEREN IN DIE- SELBEN VARIABLEN (wer einen Datensatz mit originaler Polung erhalten will, kann auch UMKODIEREN IN ANDERE VARIABLEN wählen). Es öffnet sich das in Abb. 3.1 gezeigte Fenster. In unserem Datensatz kennzeichnet der erste Buchstabe jedes Items die Dimension des Fünf-Faktoren-Modells, zu der das Item gehört (z.b. e für Extraversion). Umgepolte (invertierte) Items sind jeweils am Ende durch ein i gekennzeichnet. Diese Items werden in die Liste NUMERI- SCHE VARIABLEN verschoben (Abb. 3.1). Anschließend wird über den Befehl ALTE UND NEUE WERTE die Rekodierung spezifiziert. Es öffnet sich das Fenster in Abb. 3.2, in dem für jeden alten Wert (z.b. 5) der jeweils entsprechend umkodierte neue Wert (hier 1) definiert und durch den Befehl HINZUFÜGEN in die Liste ALT -> NEU aufgenommen wird. Durch den Befehl WEITER gelangt man zurück zum vorigen Menü, wo die Rekodierung jetzt durchgeführt werden kann. Rekodierung invertierter Items steht vor allen Berechnungen

58 60 Itemanalyse: Kürzung und Revision des Entwurfs Abb. 3.1: SPSS-Fenster Umkodieren in dieselben Variablen Abb. 3.2: SPSS-Fenster Alte und neue Werte Optionen zur Ausführung von SPSS- Befehlen Für die Ausführung von SPSS-Befehlen stehen immer zwei Optionen zur Verfügung. Mit dem Befehl OK wird die jeweilige Berechnung unmittelbar ausgeführt und das Ergebnis in der SPSS-Ausgabe angezeigt. Mit der Option EINFÜGEN wird der Befehl zunächst in ein SPSS-Syntax-Dokument geschrieben, wo er jederzeit markiert und durch Anklicken des Buttons ausgeführt werden kann. Wir empfehlen grundsätzlich die zweite Option. Nur so können Sie Ihre Aktionen jederzeit, auch nachträglich, nachvollziehen und Fehler ggf. vor Ausführung korrigieren. Im vorliegenden Fall erlaubt die Inspektion der Syntax (Abb. 3.3) zum

59 Itemanalyse: Kürzung und Revision des Entwurfs 61 Beispiel die Kontrolle, ob Sie tatsächlich alle invertierten Items, aber auch nur diese, in die Liste zur Rekodierung aufgenommen haben. Merksatz: Wählen Sie zum Ausführen von SPSS-Befehlen stets die Option EIN- FÜGEN, mit der die jeweilige Anweisung zunächst in eine Syntax-Datei geschrieben und erst dann ausgeführt wird. Abb. 3.3: SPSS-Syntax zur Rekodierung Nach Durchführung der Rekodierung können die eigentlichen Berechnungen beginnen. Die wichtigsten Kennwerte zur Kennzeichnung von univariaten Verteilungseigenschaften jeweils in Abhängigkeit vom Skalenniveau nach zentraler Tendenz (z.b. Mittelwert, Median, Modus), Streuung (z.b. Varianz, Perzentile, Streubreite) und Form der Verteilung (z.b. Schiefe, Exzess) werden hier als aus Modul 2 bekannt vorausgesetzt. Diese Kennwerte lassen sich auch für die Items eines Tests berechnen. Ebenso bedeutsam für die Exploration von Auffälligkeiten innerhalb der Daten sind grafische Hilfsmittel wie z.b. Histogramme oder die Identifikation von Ausreißern in unterschiedlichen Arten von Diagrammen. Sofern dies sinnvoll ist, etwa bei Ratingskalen, kann auch die Annahme einer Normalverteilung für einzelne Items überprüft werden. Allerdings ist es nicht unbedingt notwendig oder auch nur erwünscht, dass alle Items individuell normalverteilt sind. Prüfung univariater Verteilungseigenschaften In SPSS lassen sich deskriptive Statistiken in sehr vielen Menüs für Datenanalysen als Zusatzinformation abrufen. Ein direkter Weg führt über ANALYSIEREN -> DESKRIPTIVE STATISTIKEN -> DESKRIPTIVE STATISTIK. Es öffnet sich das in Abb. 3.4 dargestellte Fenster, wobei wir hier schon alle 44 Items des BFI in die Liste VARIABLE(N) verschoben haben. In den OPTIONEN wählen wir über die Standardauswertung hinaus auch Kurtosis (Exzess) und Schiefe (Abb. 3.5).

60 62 Itemanalyse: Kürzung und Revision des Entwurfs Abb. 3.4: SPSS-Fenster Deskriptive Statistik Abb. 3.5: SPSS-Fenster Optionen Deskriptive Statistik Tests auf Normalverteilung und Histogramme Die Ergebnisse werden in einer Tabelle (Abb. 3.6) ausgegeben. Über ANALY- SIEREN -> DESKRIPTIVE STATISTIKEN -> EXPLORATIVE DATENANA- LYSE -> DIAGRAMME lassen sich zusätzlich Tests auf Normalverteilung und Histogramme abrufen, auf deren Darstellung wir hier verzichtet haben.

61 Itemanalyse: Kürzung und Revision des Entwurfs 63 Deskriptive Statistik N Minimum Maximum Mittelwert Standardabweichung Schiefe Kurtosis Stan- Stan- dardfeh- dardfeh- Statistik Statistik Statistik Statistik Statistik Statistik ler Statistik ler eb ,57,973 -,218,083 -,565,166 ab02i ,97,942,000,083 -,420,166 cb ,97,798 -,494,083,010,166 nb ,11 1,020,779,083,208,166 ob ,77,863 -,330,083 -,255,166 eb06i ,13 1,100 -,062,083 -,633,166 ab ,70,803 -,244,083 -,161,166 cb08i ,50,902 -,195,083 -,436,167 nb09i ,82,978,128,083 -,443,167 ob ,22,755 -,783,083,338,166 eb ,59,820 -,019,083 -,357,167 ab12i ,15,823 -,920,083,843,167 cb ,06,721 -,407,083 -,077,167 nb ,57,919,203,083 -,357,166 ob ,90,930 -,590,083 -,151,166 eb ,58,898 -,320,083 -,237,166 ab ,42 1,005 -,224,084 -,645,167 cb18i ,95 1,187,049,083 -,857,166 nb ,95 1,121,147,083 -,768,166 ob ,77,933 -,426,083 -,418,167 eb21i ,52 1,123 -,342,083 -,625,167 ab ,66,806 -,553,083,468,166 cb23i ,01 1,086 -,059,083 -,614,166 nb24i ,49,930,356,083 -,279,166 ob ,85,812 -,465,083,054,166 eb ,37,884 -,143,083 -,401,166 ab27i ,08 1,117 -,086,083 -,800,166 cb ,86,833 -,441,083,013,166 nb ,71 1,113,372,083 -,614,166 ob ,49 1,099 -,461,083 -,521,166 eb31i ,90 1,103,133,083 -,732,166 ab ,65,774 -,312,083,100,167

62 64 Itemanalyse: Kürzung und Revision des Entwurfs cb ,71,776 -,243,083 -,117,166 nb34i ,50,909,238,083 -,380,166 ob35i ,66 1,002 -,409,083 -,477,166 eb ,16,992 -,103,083 -,465,166 ab37i ,52,990 -,386,083 -,415,166 cb ,75,783 -,251,083 -,073,166 nb ,39,983,589,083 -,066,166 ob ,09,778 -,565,083 -,004,166 ob41i ,62 1,167 -,487,083 -,709,166 ab ,71,900 -,392,083 -,091,167 cb43i ,51,981 -,400,083 -,329,166 ob ,92 1,062 -,010,083 -,536,166 Gültige Werte (Listenweise) 800 Abb. 3.6: SPSS-Ausgabe Deskriptive Statistik Interpretation der deskriptiven Statistiken Zunächst ist zu erkennen, dass zwischen 857 und 864 Personen jeweils die einzelnen Items bearbeitet haben, jedoch nur 800 Personen alle 44 Items. Für nachfolgende Berechnungen, bei denen vollständige Datensätze zum gesamten BFI benötigt werden, ist unser N also 800 (s. Switzer & Roth, 2002, zu alternativen Möglichkeiten des Umgangs mit fehlenden Daten). Mit Ausnahme der Items ob10 und cb13 wurde die gesamte Bandbreite der Skala ausgenutzt. Die Mittelwerte werden uns gleich noch intensiver beschäftigen. Die Standardabweichungen sollten bei einer fünfstufigen Skala idealer Weise ungefähr den Wert 1 annehmen. Dies ist bei den meisten Items der Fall, wobei die Streuung in einigen Fällen aber tendenziell eingeschränkt ist. Dies geht, wie man erkennen kann (siehe z.b. Items 3, 10, 40), in der Regel mit einer rechtssteilen Verteilung (negative Schiefe) einher. Auch der Exzess (Kurtosis) ist häufiger negativ als positiv, was auf eine Tendenz zu eher breitgipfligen Verteilungen hindeutet. Allerdings überschreiten Schiefe und Exzess in keinem Fall den absoluten Wert von 1, der z.b. für die Anwendung von Strukturgleichungsmodellen als kritisch angesehen wird (Bollen, 1989). Andererseits ergeben die (hier nicht dargestellten) Kolmogorov-Smirnov- Tests (über EXPLORATIVE DATENANALYSE), dass die Annahme der Normalverteilung für sämtliche Items zurückgewiesen werden muss. Dies kann die Berechnung von Korrelationen (einschließlich multivariater Verfahren wie der Faktorenanalyse, die auf Korrelationen aufbauen) verzerren. Insgesamt erscheinen die Verteilungseigenschaften nach dieser ersten Analyse aber in keinem Fall so extrem, dass allein deshalb Items eliminiert werden müssten. Außer Betracht blieben dabei aber bislang die Mittelwerte.

63 Itemanalyse: Kürzung und Revision des Entwurfs 65 Bei den vorliegenden Ratingskalen bilden die Mittelwerte die Grundlage zur Berechnung von Itemschwierigkeiten. Da dies einer der wichtigsten Kennwerte der Itemanalyse ist und sich die Berechnung je nach Skalenformat unterscheidet, führen wir in die Schwierigkeitsanalyse zunächst allgemeiner ein. In ihrer einfachsten Form ist die Itemschwierigkeit definiert als der prozentuale Anteil der richtigen Lösungen (bei Ja-Nein-Fragen: Anteil der Zustimmungen) an allen Lösungen eines Items innerhalb einer Stichprobe. Itemschwierigkeitsindex ohne Korrektur P = N N R 100 Dabei ist: N R = Anzahl der Probanden, die die Aufgabe richtig (im Sinne des Aufgabenkriteriums) gelöst haben N = Anzahl aller Probanden P = Schwierigkeitsindex ohne Korrektur Es ist leicht zu erkennen, dass der Index mit der Anzahl der richtigen Lösungen steigt bzw. entsprechend sinkt, je weniger richtige Lösungen vorliegen. Im Grunde handelt es sich also um die Itemleichtigkeit. Bei Persönlichkeitstests kann man den Index als Anteil der im Sinne einer hohen Ausprägung des Konstrukts gegebenen Antworten interpretieren. Bei Leistungstests mit Mehrfachwahlformat entsteht ein gewisser Prozentsatz richtiger Lösungen auch durch Zufall bzw. durch bloßes Raten. Bei nur zwei Antwortmöglichkeiten (richtig-falsch) beträgt die Ratewahrscheinlichkeit z.b. 50 %. Je mehr Antwortmöglichkeiten vorgegeben werden, desto geringer ist die Wahrscheinlichkeit, zufällig die richtige Lösung zu finden. Der Zufallsfaktor sollte bei dichotomen und bei Mehrfachwahlaufgaben deshalb korrigiert werden. Die entsprechende Formel lautet: Schwierigkeitsindex mit Zufallskorrektur P ZK = N R N F m N Dabei ist: N F =Anzahl der Probanden, die die Aufgabe falsch (im Sinne des Aufgabenkriteriums) gelöst haben m = Anzahl der Wahlmöglichkeiten (bei dichotomen Aufgaben mit m = 2 entfällt der Ausdruck m - 1) P ZK = Schwierigkeitsindex mit Zufallskorrektur

64 66 Itemanalyse: Kürzung und Revision des Entwurfs Bei einer dichotomen Aufgabe entspricht also z.b. ein Anteil richtiger Lösungen von 75 % einer korrigierten Itemschwierigkeit von 50 %. Bei fünf Optionen in einer Multiple-Choice-Aufgabe errechnet sich die gleiche korrigierte Schwierigkeit für 60 % richtige Lösungen. Schwierigkeitsindex mit Inangriffnahmekorrektur Transformation und Schwierigkeitsanalyse bei Ratingskalen Bedeutung der Itemschwierigkeit Bei zeitbegrenzten Leistungstests, bei denen nicht alle Items von allen Probanden bearbeitet werden können, oder bei einem aus sonstigen Gründen hohen Anteil fehlender Werte, kann bei den obigen Formeln anstelle des gesamten N im Nenner auch N B für die Anzahl derjenigen eingesetzt werden, die das Item überhaupt bearbeitet haben. Der entsprechende Index nennt sich dann Schwierigkeitsindex mit Inangriffnahmekorrektur. Bei Ratingskalen muss ggf. zunächst die Antwortskala so transformiert werden, dass das theoretische Minimum den Wert Null annimmt (analog zu null richtigen Lösungen). In unserem Beispieldatensatz entspricht dies einer linearen Transformation um den Wert -1 (von 1 bis 5 nach 0 bis 4). Bei einer bipolaren Skala von - 2 bis +2 wäre entsprechend zu jedem Wert die Zahl 2 zu addieren. Wenn dies geschehen ist, berechnet sich die Schwierigkeit nach der obigen Formel für den Schwierigkeitsindex ohne Korrektur, wobei jedoch für die Anzahl richtiger Lösungen der (transformierte) Mittelwert M i des Items i eingesetzt werden muss und für die Anzahl aller Probanden der (transformierte) Maximalwert x max des Items. Im Beispieldatensatz (vgl. Abb. 3.6) berechnen wir z.b. für das erste Item eb01 eine Schwierigkeit von: ((3,57 1) / (5 1)) x 100 = 64,25. Die geringste Schwierigkeit erreicht Item nb04 mit 27,75, die höchste Item ob10 mit 80,5. Warum ist diese Information nun für die Beurteilung der Testaufgaben bedeutsam und was genau bedeutet sie? Man möchte mit einem Test grundsätzlich Personen mit hoher Ausprägung eines Merkmals von solchen mit geringerer Ausprägung unterscheiden. Die Zahl der theoretisch möglichen Unterscheidungen, und damit die Informationshaltigkeit eines Items, hängt direkt von dessen Schwierigkeit ab (vgl. dazu detailliert Lienert & Raatz, 1998). Sie erreicht ihr theoretisches Maximum bei genau mittlerer Schwierigkeit. Wenn 100 Personen an einem Test teilnehmen, kann ein (dichotomes) Item, das von exakt 50 Personen richtig gelöst wird, jede dieser 50 Personen von jeder der anderen 50 Personen unterscheiden. Dies ergibt im Beispiel 50 x 50 = Unterscheidungen. Bei einer Schwierigkeit von 10 (oder 90) % ergeben sich nur mehr 10 x 90 = 900 Unterscheidungen, wenn nur noch eine Person (oder 99 Personen) auf die richtige Lösung kommt, sogar nur noch 1 x 99 = 99 Unterscheidungen. Ein Item, das entweder niemand oder alle Probanden richtig lösen enthält keinerlei empirische Information und ist damit wertlos. Der Zusammenhang zwischen Itemschwierigkeit und Informationshaltigkeit eines Items ist also umgekehrt u-förmig mit dem Maximum in der Mitte. Deshalb werden Items mit mittlerer Schwierigkeit bei der Testkonstruktion allgemein bevorzugt und Items mit extremen Schwierigkeiten manchmal von vornherein ausgeschlossen (sehr einfache und sehr schwierige Items sind im Prinzip gleich schlecht).

65 Itemanalyse: Kürzung und Revision des Entwurfs 67 Man kann in der Literatur unterschiedliche Faustregeln lesen, ab welchen Schwierigkeitsindizes Items besser eliminiert werden sollten (z.b. unterhalb von 20 und oberhalb von 80 % oder jenseits der Grenzen 10 und 90). Wie alle Faustregeln sind auch diese mit Vorsicht zu genießen. Erstens hängt die Lösungswahrscheinlichkeit eines Items annahmegemäß von der individuellen Ausprägung des gemessenen Merkmals ab (eine Annahme, die in der PTT explizit geprüft wird, s. Abschnitt 3.2). Wenn z.b. in einem Intelligenztest ausschließlich Items mit mittlerer Schwierigkeit enthalten wären, könnte es passieren, dass diese Items sowohl von Personen mit einem IQ von 115 als auch von solchen mit einem IQ von 130 durchgängig gelöst würden. Im höheren Merkmalsbereich wären in diesem konstruierten Beispiel gar keine Unterscheidungen mehr möglich; dafür sind Items mit extremeren Schwierigkeiten sogar notwendig. Zweitens sagt die Schwierigkeit nur etwas über die maximal in einem Item enthaltene Information aus, dagegen nichts über die tatsächliche Informationshaltigkeit. Ein Item mit der optimalen Schwierigkeit von 50 % kann völlig wertlos sein, wenn es inhaltlich das Zielkonstrukt nicht erfasst, während umgekehrt inhaltlich adäquate Items mit relativ extremen Schwierigkeiten einen Test wesentlich verbessern können. Technisch gesehen beeinflusst die Schwierigkeit die Varianz eines Items, die ihrerseits wiederum eine notwendige, aber nicht hinreichende Bedingung für die Korrelation mit anderen Variablen ist. Ein Test, der hauptsächlich aus Items mit extremen Schwierigkeiten besteht, ist hinsichtlich anderer Kennwerte und Gütekriterien (Itemhomogenität, Trennschärfe, Reliabilität, Validität) eingeschränkt, hinsichtlich der Korrelation der Items untereinander z.b. besonders dann, wenn viele links- und viele rechtsschiefe (bzw. sehr schwierige und sehr einfache) Items kombiniert werden (vgl. z.b. Hutchinson, 1997). Dieser unbestreitbare Nachteil ist in der praktischen Testkonstruktion aber stets abzuwägen gegen die Notwendigkeit einer vollständigen Abdeckung des Merkmalsbereichs. Die Beibehaltung von Items mit Schwierigkeiten jenseits von 5 bzw. 95 % dürfte jedoch selten zu rechtfertigen sein. Interpretation der Itemschwierigkeit Für den Beispieldatensatz zum BFI (vgl. Abb. 3.6) ist anzumerken, dass hier tendenziell im oberen Merkmalsbereich besser differenziert wird als im unteren (die meisten Schwierigkeitsindizes liegen über 50 %). Eine Ausnahme davon bildet Neurotizismus, der allerdings auch als einziger der fünf Faktoren mit einer eher negativen sozialen Wertigkeit belegt ist. Dies illustriert vielleicht die Schwierigkeit, Persönlichkeitsmerkmale unabhängig von ihrer evaluativen Komponente zu messen. Insgesamt kann aber von einer Häufung der Schwierigkeiten der BFI- Items an den Extremen eher nicht die Rede sein, so dass wir die Itemanalyse mit allen Variablen fortsetzen können.

66 68 Itemanalyse: Kürzung und Revision des Entwurfs Trennschärfenanalyse Bedeutung und Varianten der Trennschärfe Part-whole-Korrektur und Höhe der Trennschärfen Eine Skala besteht aus mehreren aufsummierten oder gemittelten Items, die inhaltlich dieselbe Eigenschaft oder Fähigkeit erfassen sollen. Die Trennschärfe ist in der KTT der wichtigste Indikator dafür, wie gut jedes einzelne Item das zugrunde liegende Merkmal abbildet (zu Indikatoren für die gesamte Skala in späteren Kapiteln mehr). Eine Trennschärfe stellt die korrigierte Korrelation (Partwhole-Korrektur, s.u.) einer Aufgabe mit einer Skala dar. Inhaltlich drückt eine Trennschärfe also aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, widerspiegelt bzw. wie prototypisch ein Item für diese Skala ist. Ein Indikator für die inhaltliche Angemessenheit eines Items zur Messung des psychologischen Konstrukts ist die Trennschärfe also nur unter der Annahme, dass die Summe der übrigen Items bzw. die gesamte Skala dieses Merkmal valide misst. Diese Annahme wird in Validierungsstudien geprüft, die durch die Trennschärfenanalyse nicht ersetzt werden können. In der eben beschriebenen Form geht es dabei um die Prüfung von Eigentrennschärfen. Davon unterscheidet man Fremdtrennschärfen. Fremdtrennschärfen sind Korrelationen von Items mit den Skalen oder Testwerten anderer Fragebögen oder mit Kriterien (z.b. Berufserfolg) und können insbesondere für die externale Skalenkonstruktion herangezogen werden. Eine Trennschärfe ist also eine Korrelation zwischen einem Item und einer Skala und liegt daher immer zwischen -1 und +1. Vor der Berechnung der Trennschärfe mit der Skala wird eine Part-whole- Korrektur vorgenommen, da das betreffende Item sonst mit in den Skalenwert eingeht, was zu einer Überschätzung der Trennschärfe führen würde. Ohne Partwhole-Korrektur ginge nämlich ein Teil der Skalenstreuung auf das entsprechende Item zurück, mit dem die Skala korreliert wird. Der unkorrigierte Wert stellt damit also eine partielle Eigenkorrelation dar. Dieses Artefakt ist um so stärker, (1) je kürzer die Skala ist, da in diesem Fall das anteilige Gewicht jedes Items an der Skala steigt, und (2) je heterogener eine Skala ist, d.h. je geringer die Items im Mittel untereinander korrelieren (Trennschärfe und Reliabilität der Skala bedingen sich tw. gegenseitig, Lienert & Raatz, 1998). Sehr homogene Skalen bestehen aus hoch positiv korrelierten Items. Dies ist einerseits erwünscht, da theoretisch zusammengehörige Items empirisch miteinander korrelieren sollten, andererseits können sehr hohe Korrelationen auch auf die Redundanz einzelner Items hindeuten. Überspitzt formuliert: Wenn ich mehrmals dasselbe frage, kann ich empirische Kennwerte für Trennschärfe und Reliabilität sehr einfach verbessern, ohne dass sich die Messung inhaltlich wirklich verbessert hat, da der erfasste Verhaltensausschnitt gleich geblieben ist. Die empirische Itemanalyse kann die inhaltliche Beurteilung informieren und ergänzen, aber nicht vollständig ersetzen. Deshalb sei an dieser Stelle vor einer inhaltlich blinden Selektion von Items allein aufgrund empirischer Trennschärfen gewarnt. Möglich ist aber auch das umgekehrte Problem, nämlich die Beobachtung negativer Trennschärfen (d.h. ein Item korreliert mit der Gesamtskala entgegen der erwarteten Richtung). Ein solcher Befund ist inhaltlich nicht zu rechtfertigen und kann als ein sicheres Ausschlusskriterium für das betroffene Items gelten vorausgesetzt allerdings, das Item

67 Itemanalyse: Kürzung und Revision des Entwurfs 69 wurde vor Durchführung der Trennschärfenanalyse korrekt gepolt (s. Abschn oben)! Es lohnt sich jedenfalls, dies vor Eliminierung des Items zu prüfen. Bei Ratingskalen entspricht die Trennschärfe der Produkt-Moment-Korrelation nach Part-Whole-Korrektur. Die entsprechende Korrekturformel lautet: Trennschärfe bei Ratingskalen r j( t j) = S 2 t r jt + S 2 j S t S 2 r jt j S S t j Dabei ist: r j(t j) = Trennschärfekoeffizient der Aufgabe j mit der Skala t, bei der Aufgabe j nicht berücksichtigt ist r jt = Korrelation des Items j mit der Skala t S j = Standardabweichung des Items j S t = Standardabweichung der Skala t Bei dichotomen Items kommt dagegen die punktbiseriale Korrelation zur Anwendung (dies erfolgt in SPSS automatisch und muss nicht eigens angegeben werden). Die Formel dafür lautet: Trennschärfe bei dichotomen Items r j( t j) = S 2 t + p r j jt q S j t 2 r p jt j q S t j p j q j Dabei ist: r j(t j) = Trennschärfekoeffizient der Aufgabe j mit der Skala t, bei der Aufgabe j nicht berücksichtigt ist r jt = Korrelation des Items j mit der Skala t p j = Schwierigkeitsindex des Items j q j = 1 p j S t = Standardabweichung der Skala t Wie alle Korrelationen können Trennschärfen nach oben oder unten verzerrt sein, indem die Varianz der eingehenden Variablen artifiziell erweitert (z.b. durch Ausreißer oder bimodale Verteilungen) oder eingeschränkt (z.b. durch Schiefe bzw. extreme Schwierigkeiten) ist. Dies kann statistisch (z.b. Schwierigkeitsanalyse, s ) oder visuell (z.b. durch Inspektion der Histogramme) geprüft werden. Allgemein wirken sich Ausreißer bei den meist nur wenigen Optionen einer Ratingskala selten gravierend aus; durch bimodale Verteilungen (weil z.b. die Mit- Ursachen für verzerrte Trennschärfen und Schwierigkeitskorrektur

68 70 Itemanalyse: Kürzung und Revision des Entwurfs telkategorie bei Ratingskalen selten gewählt wird) kann es jedoch zu erheblichen Varianzerweiterungen kommen. Varianzeinschränkungen durch schiefe Verteilungen dürften aber wesentlich häufiger sein. Wie erwähnt ist dieser Nachteil aber gegen inhaltliche Erwägungen abzuwägen. Ein alternatives Verfahren zur Korrektur der Trennschärfen von Items mit extremen Schwierigkeiten haben Moosbrugger und Zistler (1993) mit der schwierigkeitsproportionalen Stichprobenverteilung vorgeschlagen. Die Trennschärfe dichotomer Items wird dabei aufgewertet, indem ein sog. Selektionskennwert berechnet wird, der eine Art Korrektur der Trennschärfe um Varianzeinschränkung darstellt (s. zu Details auch Bühner, 2006). Dies führt zu einer Selektion von Items, bei der solche mit extremen Schwierigkeiten weniger stark benachteiligt sind als bei Anwendung der unkorrigierten Trennschärfen. Trennschärfenanalyse in SPSS In SPSS erfolgt die Trennschärfenanalyse über den Befehl ANALYSIEREN -> SKALIERUNG -> RELIABILITÄTSANALYSE. Es erscheint das Fenster aus Abb Hier müssen zunächst die Items in die Itemliste verschoben werden (bei einem mehrdimensionalen Inventar wie dem BFI für jede Dimension einzeln!) und dann über den Button STATISTIKEN die Option SKALA WENN ITEM GELÖSCHT angewählt werden (Abb. 3.8). Zusätzlich haben wir hier noch einmal die deskriptiven Statistiken für jedes ITEM angefordert (s. Abb. 3.6 oben). Mit den Auswertungsoptionen MITTELWERT und KORRELATIONEN erhalten wir außerdem noch Informationen zur mittleren Schwierigkeit der Items sowie dessen Bandbreite und zu der mittleren Interkorrelation der Items untereinander, die sich als Indikator für die Itemhomogenität interpretieren lässt. Abb 3.7: SPSS-Fenster Reliabilitätsanalyse

69 Itemanalyse: Kürzung und Revision des Entwurfs 71 Abb. 3.8: SPSS-Fenster Reliabilitätsanalyse: Statistik In den folgenden Abbildungen 3.9 bis 3.13 sind Ausschnitte der SPSS-Ausgabe zu den fünf Skalen des BFI wiedergegeben. Skala: Extraversion Reliabilitätsstatistiken Cronbachs Alpha Cronbachs Alpha für standardisierte Items Anzahl der Items,861,858 8 Auswertung der Itemstatistiken Maximum / Anzahl Mittelwert Minimum Maximum Bereich Minimum Varianz der Items Item-Mittelwerte 3,352 2,902 3,593,691 1,238,066 8 Inter-Item-Korrelationen,431,252,709,457 2,817,014 8

70 72 Itemanalyse: Kürzung und Revision des Entwurfs Item-Skala-Statistiken Skalenmittelwert, Skalenvarianz, Cronbachs Alpha, wenn Item wegge- wenn Item wegge- Korrigierte Item- Quadrierte multip- wenn Item wegge- lassen lassen Skala-Korrelation le Korrelation lassen eb01 23,25 24,785,637,489,840 eb06i 23,68 23,219,708,579,831 eb11 23,22 27,240,474,289,857 eb16 23,24 26,275,526,362,852 eb21i 23,31 22,722,743,622,826 eb26 23,44 26,683,488,285,856 eb31i 23,91 24,375,581,420,848 eb36 23,65 24,183,692,510,834 Abb. 3.9: SPSS-Ausgabe zur BFI-Skala Extraversion Skala: Verträglichkeit Reliabilitätsstatistiken Cronbachs Alpha Cronbachs Alpha für standardisierte Items Anzahl der Items,715,718 9 Auswertung der Itemstatistiken Maximum / Anzahl der Mittelwert Minimum Maximum Bereich Minimum Varianz Items Item-Mittelwerte 3,543 2,963 4,159 1,195 1,403,127 9 Inter-Item- Korrelationen,221,094,551,458 5,890,009 9

71 Itemanalyse: Kürzung und Revision des Entwurfs 73 Item-Skala-Statistiken Skalenmittelwert, Skalenvarianz, Cronbachs Alpha, wenn Item wegge- wenn Item wegge- Korrigierte Item- Quadrierte multip- wenn Item wegge- lassen lassen Skala-Korrelation le Korrelation lassen ab02i 28,92 16,768,383,187,692 ab07 28,18 17,567,355,204,697 ab12i 27,72 16,992,435,228,683 ab17 28,47 16,760,345,136,700 ab22 28,22 17,564,357,173,696 ab27i 28,80 15,625,424,322,685 ab32 28,23 17,258,429,258,685 ab37i 28,35 15,473,536,401,660 ab42 28,17 17,798,263,085,713 Abb. 3.10: SPSS-Ausgabe zur BFI-Skala Verträglichkeit Skala: Gewissenhaftigkeit Reliabilitätsstatistiken Cronbachs Alpha Cronbachs Alpha für standardisierte Items Anzahl der Items,801,811 9 Auswertung der Itemstatistiken Maximum / Anzahl der Mittelwert Minimum Maximum Bereich Minimum Varianz Items Item-Mittelwerte 3,587 2,943 4,057 1,113 1,378,156 9 Inter-Item- Korrelationen,323,151,659,508 4,360,010 9

72 74 Itemanalyse: Kürzung und Revision des Entwurfs Item-Skala-Statistiken Skalenmittelwert, Skalenvarianz, Cronbachs Alpha, wenn Item wegge- wenn Item wegge- Korrigierte Item- Quadrierte multip- wenn Item wegge- lassen lassen Skala-Korrelation le Korrelation lassen cb03 28,31 20,665,594,505,770 cb08i 28,79 21,252,423,233,790 cb13 28,23 21,057,609,506,771 cb18i 29,34 19,250,477,284,788 cb23i 29,28 19,184,554,346,773 cb28 28,43 21,433,449,269,787 cb33 28,59 21,287,515,350,779 cb38 28,54 21,780,440,241,788 cb43i 28,78 20,535,461,232,786 Abb. 3.11: SPSS-Ausgabe zur BFI-Skala Gewissenhaftigkeit Skala: Neurotizismus Reliabilitätsstatistiken Cronbachs Alpha Cronbachs Alpha für standardisierte Items Anzahl der Items,850,853 8 Auswertung der Itemstatistiken Maximum / Anzahl der Mittelwert Minimum Maximum Bereich Minimum Varianz Items Item-Mittelwerte 2,566 2,101 2,945,844 1,402,071 8 Inter-Item- Korrelationen,420,286,626,340 2,187,008 8

73 Itemanalyse: Kürzung und Revision des Entwurfs 75 Item-Skala-Statistiken Skalenmittelwert, Skalenvarianz, Cronbachs Alpha, wenn Item wegge- wenn Item wegge- Korrigierte Item- Quadrierte multip- wenn Item wegge- lassen lassen Skala-Korrelation le Korrelation lassen nb04 18,43 24,433,569,400,835 nb09i 17,70 24,474,595,465,831 nb14 17,96 24,762,612,423,830 nb19 17,58 23,968,544,359,839 nb24i 18,05 24,588,623,474,828 nb29 17,81 23,645,585,402,833 nb34i 18,03 24,805,613,525,830 nb39 18,14 24,504,589,375,832 Abb. 3.12: SPSS-Ausgabe zur BFI-Skala Neurotizismus Skala: Offenheit für Erfahrungen Reliabilitätsstatistiken Cronbachs Alpha Cronbachs Alpha für standardisierte Items Anzahl der Items,794, Auswertung der Itemstatistiken Maximum / Anzahl der Mittelwert Minimum Maximum Bereich Minimum Varianz Items Item-Mittelwerte 3,733 2,925 4,229 1,304 1,446, Inter-Item- Korrelationen,286,055,663,608 12,008,017 10

74 76 Itemanalyse: Kürzung und Revision des Entwurfs Item-Skala-Statistiken Skalenmittelwert, Skalenvarianz, Cronbachs Alpha, wenn Item wegge- wenn Item wegge- Korrigierte Item- Quadrierte multip- wenn Item wegge- lassen lassen Skala-Korrelation le Korrelation lassen ob05 33,55 25,888,558,458,767 ob10 33,10 27,512,442,203,780 ob15 33,43 27,092,373,218,787 ob20 33,55 25,403,560,388,765 ob25 33,47 26,561,519,469,772 ob30 33,82 24,307,559,502,764 ob35i 33,66 28,225,221,091,806 ob40 33,24 26,841,506,352,774 ob41i 33,70 23,819,561,507,764 ob44 34,40 25,796,431,288,782 Abb. 3.13: SPSS-Ausgabe zur BFI-Skala Offenheit für Erfahrungen Interpretation der Statistiken zur Itemanalyse im Beispieldatensatz Auf die Interpretation der Reliabilitätsstatistiken (Cronbachs Alpha) kommen wir in Abschnitt zurück. In der jeweils zweiten Tabelle in den Abb. 3.9 bis 3.13 finden sich die Auswertungen über alle Items der jeweiligen Skala. Aus dem Mittelwert der Item-Mittelwerte ergibt sich dabei die mittlere Schwierigkeit je Skala durch Anwendung der in Abschnitt genannten Transformationen und Berechnungen. Man erkennt, wie schon dort angedeutet, dass die Items der Skala Neurotizismus im Mittel wesentlich geringere Schwierigkeitsindizes aufweisen als die Items der anderen Skalen. Ebenfalls leicht erkennbar ist der Zusammenhang zwischen der mittleren Inter-Item-Korrelation und der Reliabilität. Die eigentlichen Trennschärfen je Item stehen jeweils in der mittleren Spalte der unteren Tabelle ( Korrigierte Item-Skala-Korrelation ). In der letzten Spalte derselben Tabellen ( Cronbachs Alpha, wenn Item weggelassen ) lässt sich außerdem ablesen, wie sich eine Eliminierung des jeweiligen Items auf die Messgenauigkeit der Skala auswirken würde. Was lässt sich nun auf der Grundlage dieser Daten über die Items des BFI aussagen? Beginnen wir der Skala Extraversion in Abb Die Trennschärfen der Items dieser Skala sind mit r j(t j) =.47 bis.74 durchgängig hoch bis sehr hoch. Auch würde durch Eliminierung jedes einzelnen Items die Reliabilität der Gesamtskala sinken, wenn auch zum Teil nur sehr geringfügig. Zwingende Gründe für eine Skalenverkürzung ergeben sich aus diesen Daten nicht. Am ehesten käme aufgrund der Trennschärfe Item eb11 als Streichkandidat in Frage. Inhaltliche Erwägungen ergeben jedoch, dass Item eb11 ( Ich sehe mich selbst als jemand, der voller Energie und Tatendrang ist ) einen anderen, nämlich eher den energetischen Aspekt von Extraversion abbildet als z.b. das Item mit der höchsten

75 Itemanalyse: Kürzung und Revision des Entwurfs 77 Trennschärfe eb21i ( eher still und wortkarg ist. ), das den sozialen Kern des Konstrukts trifft. Die Eliminierung von Item eb11 würde die Skala also auch inhaltlich verkürzen bzw. verengen und damit ihren Gehalt verändern. Das Bild ändert sich tendenziell, wenn wir die nächste Skala Verträglichkeit betrachten (Abb. 3.10). Die Trennschärfen fallen hier mit r j(t j) =.26 bis.56 deutlich geringer aus als bei Extraversion. Das Item ab42 unterschreitet die Grenze von r j(t j) =.30, die manchmal als Untergrenze einer noch akzeptablen Trennschärfe genannt wird. Auch diese Faustregel ist wieder mit Vorsicht anzuwenden, da die Eliminierung des Items z.b. die Reliabilität nicht verbessern würde (auf.713 statt.715). Inhaltlich ist Item ab42 ( sich kooperativ verhält, Zusammenarbeit dem Wettbewerb vorzieht. ) stärker auf den Kontext Arbeitsleben eingegrenzt als etwa das Item ab37i ( schroff und abweisend zu anderen sein kann ), das die höchste Trennschärfe aufweist. Bei einer Neukonstruktion wäre Item ab42 sicher ein Grenzfall. Wenn das Ziel eine Verkürzung der Skala ist, könnte man auf dieses Item ggf. verzichten. Da der BFI jedoch ein etablierter Fragebogen ist und man die Ergebnisse der eigenen Studie mglw. mit anderen Untersuchungen mit demselben Instrument vergleichen möchte, müssten schon starke Argumente für eine Veränderung des Inhalts durch Modifikation der Skalen angeführt werden. Bei den nächsten beiden Skalen Gewissenhaftigkeit (Abb. 3.11) und Neurotizismus (Abb 3.12) sind die Trennschärfen wieder höher und besonders bei Neurotizismus auch ausgesprochen gleichmäßig bzw. homogen (r j(t j) =.54 bis.62). Dies ist, unabhängig von der Höhe der Korrelationen, eine wünschenswerte Eigenschaft, da man es als zusätzlichen Hinweis auf die Homogenität der Skala werten kann (vgl. Kap 5). Wie in den jeweils letzten Spalten der Tabellen zu erkennen ist, tragen außerdem sämtliche Items der beiden Skalen deutlich zur Verbesserung der Reliabilität bei. Dieses Bild ändert sich bei der Skala Offenheit für Erfahrungen (Abb. 3.13) wieder. Das Item ob35i hat mit r j(t j) =.22 die geringste Trennschärfe von allen Items des BFI und es verschlechtert als einziges auch die Reliabilität der betreffenden Skala. Gegenüber jenen vier Items der Skala, die hohe und fast identische Trennschärfen aufweisen (z.b. ob41i: nur wenig künstlerische Interessen hat ; ob20: eine lebhafte Vorstellungskraft hat, phantasievoll ist ), lässt sich Item ob35i ( routinemäßige und einfache Aufgaben bevorzugt ) inhaltlich auch so interpretieren, dass man es anderen Persönlichkeitsmerkmalen zuordnen könnte (z.b. als geringer Ehrgeiz, was im Fünf-Faktoren-Modell eher zwischen Extraversion und Gewissenhaftigkeit einzuordnen wäre). Vielleicht lässt sich Item ob35i ja eher einem anderen Faktor als Offenheit für Erfahrungen subsumieren? Hier zeigt sich eine weitere Grenze der Eigentrennschärfenanalyse. Sie beschränkt sich auf Korrelationen mit nur einer Skala und ermöglicht so noch nicht den externen Vergleich. Zur Überprüfung berechnen wir hier Fremdtrennschärfen, indem wir Item ob35i mit den Summenwerten der anderen vier Faktoren korrelieren (womit wir allerdings Kapitel 4 schon etwas vorgreifen). Hier ist natürliche keine Part-whole- Berechnung von Fremdtrennschärfen

76 78 Itemanalyse: Kürzung und Revision des Entwurfs Korrektur notwendig, da das Item nicht Bestandteil der anderen Skalen ist. Durch den Befehl ANALYSIEREN -> KORRELATION -> BIVARIAT lässt sich die Korrelationstabelle in Abb generieren. Korrelationen ob35i ob35i Korrelation nach Pearson 1 Signifikanz (2-seitig) N 861 BFI, Extraversion Korrelation nach Pearson,215 ** Signifikanz (2-seitig),000 N 859 BFI, Verträglichkeit Korrelation nach Pearson -,019 Signifikanz (2-seitig),572 N 860 BFI, Gewissenhaftigkeit Korrelation nach Pearson,135 ** Signifikanz (2-seitig),000 N 861 BFI, Neurotizismus Korrelation nach Pearson -,159 ** Signifikanz (2-seitig),000 N 859 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. Abb. 3.14: SPSS-Ausgabe Korrelationen Es zeigt sich, dass Item ob35i auch mit drei dieser Skalen korreliert, zwar in keinem Fall höher als mit der eigenen Skala (Trennschärfe =.221; vgl. Abb 3.13), aber zumindest im Fall von Extraversion doch in einer sehr ähnlichen Höhe. Die Zuordnung zur Skala Offenheit für Erfahrungen erscheint damit nicht mehr eindeutig und es spricht manches dafür, das Item zu eliminieren. Bevor wir darüber eine endgültige Entscheidung treffen, werden wir es in Kapitel 4 allerdings noch faktorenanalytisch untersuchen. Selektion von Items aufgrund der Itemanalyse Für die endgültige Itemselektion empfiehlt es sich, zumindest die Indikatoren Itemschwierigkeit und Trennschärfe, ggf. auch die Varianz und andere deskriptive Statistiken sowie die Korrelation mit Außenkriterien, simultan zu betrachten und gegen inhaltliche Gesichtspunkte abzuwägen. Faustregeln zu einzelnen Indizes können dabei nur eine grobe Richtschnur sein. Unter den genannten statistischen Kennwerten sind die korrelativen (Trennschärfe und in inhaltlich begründeten Fällen auch die Korrelation mit Außenkriterien) relativ bedeutsamer als die univariaten Indizes. Die Beibehaltung von Items mit extremen Schwierigkeiten

77 Itemanalyse: Kürzung und Revision des Entwurfs 79 lässt sich bei gleichzeitig angemessen hohen Trennschärfen z.b. in aller Regel rechtfertigen (allerdings auch nur dann!), während umgekehrt eine mittlere Schwierigkeit eine unzureichende Trennschärfe keinesfalls kompensieren kann. Trennschärfen nahe Null und darunter sind ein Hinweis darauf, dass das betreffende Item etwas anderes misst als das Zielkonstrukt, und betroffene Items haben deshalb in einer Skala zur Messung dieses Konstrukts unabhängig von ihren sonstigen Eigenschaften keinen Platz. Ein Ausnahme von dieser Regel können lediglich strikt external konstruierte Skalen bilden, bei denen der Zusammenhang mit dem äußeren Zielkriterium (einschließlich der Unterscheidung zwischen Gruppen) letztlich den alles überragenden Faktor auch zur Beurteilung einzelner Items darstellt. In allen anderen Fällen ist der Wert Null als Untergrenze für eine noch akzeptable Trennschärfe sicherlich ein sehr liberaler Maßstab; andere als Faustregel genannte absolute Werte (z.b. 0,30) können dafür in nicht seltenen Einzelfällen zum Ausschluss brauchbarer Items führen. Eine flexiblere, in der Praxis häufig angewandte Regel lautet: Behalte Items bei, solange sie positiv zur Erhöhung der Reliabilität beitragen. Auch diese Faustregel ist aber sehr stichprobenabhängig und der Einfluss einzelner Items auf die Reliabilität ist gerade bei längeren Skalen in vielen Fällen minimal (s. die jeweils letzten Datenspalten in Abb. 3.9 bis 3.13). Die Selektion von Items bleibt im Rahmen der KTT letztlich ein nicht automatisierbarer Prozess des Abwägens und Begründens. Zum hier verwendeten Zahlenbeispiel ist anzumerken, dass sich bei ersten Entwürfen neu konstruierter Tests i.d.r. sehr viel häufiger Anhaltspunkte zur Eliminierung von Items ergeben als bei dem bereits publizierten BFI. 3.2 Überblick über die Probabilistische Testtheorie Die Grundlagen des Rasch-Modells als das wichtigste Modell der Probabilistischen Testmodelle (PTT) werden im Folgenden kurz beschrieben. In der vertiefenden Darstellung bei Bühner (2006) werden auch Itemanalysen nach der PTT beschrieben und weitere Informationen gegeben. Leser, die sich darüber hinaus mit der Probabilistischen Testtheorie befassen möchten, seien an das Buch von Jürgen Rost (2004) verwiesen. Dort wird eine Vielzahl probabilistischer Testmodelle dargestellt. In der Probabilistischen Testtheorie geht es im Gegensatz zur Klassischen Testtheorie darum, wie Antworten auf Items zustande kommen. Aus diesem Grund werden Antwortmuster untersucht. Welche Parameter bei der Itemlösung eine Rolle spielen, wird in verschiedenen Testmodellen formalisiert. Die folgenden Ausführungen beziehen sich auf das Rasch-Modell, dem für die Testkonstruktion wichtigsten Modell aus der Familie der Probabilistischen Testmodelle. Das Rasch- Modell besitzt Eigenschaften, die für die Testkonstruktion sehr wichtig sind. Rasch-Modell das wichtigste Probabilistische Testmodell Betrachtung von Antwortmustern in der Probabilistischen Testtheorie

78 80 Itemanalyse: Kürzung und Revision des Entwurfs Grundlagen des Rasch-Modells Itemlösungswahrscheinlichkeit hängt von zwei Parametern ab Unter Geltung des Rasch-Modells dürfen Itemantworten aufsummiert werden Das Rasch-Modell sagt voraus, dass mit steigender Personenfähigkeit die Wahrscheinlichkeit einer Itemlösung zunimmt. Die Lösungswahrscheinlichkeit für ein bestimmtes Item hängt dabei (1) von der Fähigkeit oder Eigenschaftsausprägung einer Person sowie (2) der Schwierigkeit eines Items ab. Das heißt, das Rasch- Modell nimmt an, dass nur diese zwei Parameter an der Itemlösung beteiligt sind. Die Beziehung zwischen Personenfähigkeit und Itemlösungswahrscheinlichkeit ist probabilistisch. Das heißt, wie erwähnt, auch eine Person mit geringer Fähigkeit im Vergleich zur Schwierigkeit eines Items hat eine gewisse Wahrscheinlichkeit, ein solches Item zu lösen. Im Rahmen der PTT können verschiedene Modelltests durchgeführt werden. Wird das Rasch-Modell durch den Modelltest nicht abgelehnt, sagt der ungewichtete Summenwert der Itemantworten auch wirklich etwas über den Ausprägungsgrad einer Person auf der latenten Variable (Fähigkeits- oder Eigenschaftsausprägung) aus. Erst dann ist der Summenwert eine erschöpfende Statistik der Personenfähigkeit. Erschöpfende Statistik heißt, der Summenwert einer Person liefert alle Informationen über die Fähigkeitsausprägung der Person. Demnach muss das Antwortmuster der Person nicht mehr Item für Item betrachtet werden. Stellen wir uns vor, wir springen im Rahmen eines Hochsprungwettbewerbs über drei Höhen, 1.10, 1.20 und 1.30 Meter. Für jede übersprungene Höhe bekommen wir einen Punkt. Jürgen und Dieter springen über die Hochsprunganlage. Jürgen und Dieter erzielen jeweils einen Punkt. Dieter hat 1.10 Meter übersprungen und 1.20 sowie 1.30 Meter nicht. Jürgen hat 1.20 Meter übersprungen, aber 1.10 und 1.30 Meter nicht. Man kann sich nun fragen, ob das Zählen der Punkte etwas über die Fähigkeiten von Jürgen und Dieter aussagen. Dieselbe Frage muss man sich für die Beantwortung von Testitems auch stellen. Nur wenn alle Items gleich viel wert sind, ist das Zählen bzw. das einfache Verrechnen der Itemantworten erlaubt. Unter Geltung des Rasch-Modells ist der Test eindimensional Ein Item ist vor allem dann ein guter Indikator für eine Fähigkeit oder Eigenschaft, wenn Antwort auf dieses Item komplett auf eine einzige Fähigkeits- oder Eigenschaftsausprägung zurückzuführen ist und nicht auf mehrere Fähigkeiten oder Eigenschaften. Es wird auch davon gesprochen, dass ein Test ein eindimensionales Konstrukt misst. Wenn eine Person dann in einem Test besonders gut oder schlecht abschneidet, können wir genau sagen, welche Fähigkeit oder Eigenschaft für dieses Abschneiden verantwortlich war. Wenn das Rasch-Modell durch den Modelltest nicht verworfen wird, ist der Test eindimensional. Formal ist Eindimensionalität dann gegeben, wenn die Korrelation zwischen den Items eines Tests nach Auspartialisierung der latenten Eigenschaft (d.h. bei deren konstanter Ausprägung) verschwindet (lokale Unabhängigkeit). Eine noch strengere, in den meisten Fällen jedoch äquivalente Formalisierung der Eindimensionalität ist die lokale stochastische Unabhängigkeit. Letztere ist dann gegeben, wenn für jede einzelne Person die Lösungswahrscheinlichkeiten zweier beliebiger Items multipliziert werden dürfen,

79 Itemanalyse: Kürzung und Revision des Entwurfs 81 um die kombinierte Lösungswahrscheinlichkeit beider Items zu ermitteln. Wenn z.b. einer Person zwei Items mit Lösungswahrscheinlichkeiten von je.50 vorgelegt, beträgt bei lokaler stochastischer Unabhängigkeit die Wahrscheinlichkeit, dass diese Person beide Items löst,.25. Neben den oben genannten Eigenschaft der Eindimensionalität und der erschöpfenden Statistiken, ergibt sich ein weiterer Aspekt eines Rasch-skalierten Tests: Spezifische Objektivität. Dieses Konzept ist von besonderer Bedeutung und stammt von Rasch selbst. Rasch glaubte (zitiert nach Embretson & Reise, 2000, S. 143), dass spezifische Objektivität im Kontext einer psychologischen Messung durch zwei Arten invarianter Vergleiche gekennzeichnet ist: (1) Vergleiche zwischen Personen sind invariant über die spezifischen Items und Maße, die verwendet werden, und (2) Vergleiche zwischen Items sind invariant über die spezifischen Personen, an denen die Items kalibriert werden. Auch diese Eigenschaften treffen auf Rasch-skalierte Tests zu. Wie wir weiter oben erwähnt haben, nimmt das Rasch-Modell an, dass die Itemlösung von zwei Parametern abhängt. Diese Parameter sind der Itemparameter, der die Itemschwierigkeit σ (Sigma) kennzeichnet und der Personenparameter, der die Fähigkeitsausprägung θ (Theta) einer Person kennzeichnet. Der Personenparameter stellt den Ort oder den Wert einer Person auf der latenten Variablen θ dar. Erfasst man beispielsweise die latente Variable Intelligenz, entspricht der Wert einer Person auf der latenten Variablen seiner Intelligenz. Aus diesem Grund bekommen Personenfähigkeit und latente Variable dieselbe Bezeichnung (θ : Theta). Um die Personenfähigkeit festzustellen, benötigt man zunächst die Itemparameter. Diese kann man mithilfe der conditional Maximum-Likelihood-Methode (cml) schätzen. Man verwendet deshalb nicht die Itemrohwerte zur Bestimmung der Personenfähigkeit, da diese nicht intervallskaliert sind und man daher keine belastbaren Aussagen über die Unterschiede von Personen treffen kann. Die Personenparameter besitzen Differenzskalenniveau (logarithmierte Verhältnisskala) und haben eine sogenannte Logit-Einheit. Diese Einheit ist zwar erst einmal abstrakt, hat aber die besagten Vorteile im Gegensatz zu den Rohwerten. Man kann sich dies an einem Beispiel veranschaulichen: Wie viele Orangen ergeben einen Liter Orangensaft? Diese Frage ist nicht eindeutig zu beantworten. Dies hängt von der Größe der Orangen ab. Das heißt, das Zählen von Orangen löst das Problem nicht. Erst wenn man auf abstrakte Einheiten wie Liter zurückgreift, kann man eine bestimmte Menge (in der Psychologie eine Merkmalsausprägung) messtheoretisch befriedigend abbilden. Da man den Ort einer Person auf der latenten Variablen nicht kennt, schätzt man ihn mithilfe eines Personenparameters, der eine abstrakte Logit- Einheit besitzt. Eine Methode zur Schätzung der Personenparameter setzt die Kenntnis der Itemparameter voraus. Die so geschätzten Item- und Personenparameter erfüllen eine wichtige Forderung von Messungen: Sie besitzen die gleiche Einheit, eben die erwähnte Logit-Einheit. Um diese Einheit zu erhalten, sind komplizierte Rechenschritte nötig. Letztendlich Unter Geltung des Rasch-Modells sind Vergleiche zwischen Personen spezifisch objektiv Modellparameter θ und σ Schätzung der Modellparameter Einheit der Modellparameter

80 82 Itemanalyse: Kürzung und Revision des Entwurfs stellt diese Logit-Transformation nichts anderes als eine Transformation der Rohwerte in die geforderte abstrakte Einheit dar. Ähnliches wird auch durch eine IQoder T-Wert Transformation erreicht (vgl. Abschn.4.3). Bei Letzteren handelt es sich jedoch um lineare Transformationen der Rohwerte (z. B. IQ-Norm: z). Dadurch wird jedoch kein Intervallskalenniveau der Rohwerte erzielt. Bei der Logit-Transformation handelt es sich um eine nichtlineare Transformation, die Differenzskalenniveau von Item- und Personenparameter sichert und damit im Gegensatz zu ordinalskalierten Rohwerten die Interpretation von Differenzen zwischen Fähigkeits- oder Eigenschaftsausprägungen zulässt. Wertebereich der Modellparameter Verknüpfung der Modellparameter Der Logit-Wertebereich der Personen- und Itemparameter liegt zwischen plus und minus unendlich, in der Regel aber zwischen plus drei und minus drei. Dabei kennzeichnen negative Parameter (Werte) leichte Items oder Personen mit geringerer Fähigkeit und positive Werte schwere Items (von wenigen Personen gelöst bzw. geringe Zustimmung) oder Personen mit höherer Fähigkeit. Es ist auch plausibel, dass sowohl Item- als auch Personenparameter einen Wertebereich von plus bis minus unendlich besitzen: In der Regel gibt es nahezu unendlich viele Möglichkeiten, Items zu konstruieren. Es ist auch wahrscheinlich, dass ein Item aus einem theoretisch unendlichen Itempool noch leichter oder noch schwerer ist als die Items, die man im Test verwendet. Es ist genauso plausibel, dass in Zukunft Personen getestet werden, die eine höhere oder geringere Fähigkeitsausprägung aufweisen als die bisher getesteten Personen. Kennt man Item- und Personenparameter, kann man direkt berechnen, wie hoch die Lösungswahrscheinlichkeit einer Person für ein Item ist. Dabei ist die gleiche Einheit eine Voraussetzung für die Berechnung, da man sonst Äpfel mit Birnen verrechnen würde. Verantwortlich dafür, ob ein Proband ein Item löst (+) oder nicht ( ), sind dabei seine Fähigkeitsausprägung bzw. sein Personenparameter θ (Theta) und die Schwierigkeit des Items bzw. der Itemparameter σ (Sigma). Je größer die Fähigkeit eines Probanden θ im Vergleich zur Schwierigkeit des Items σ ist, desto größer wird die Wahrscheinlichkeit (p), die Aufgabe zu lösen. Wie sind nun Personen- und Itemparameter verknüpft? Beide Parameter besitzen dasselbe Skalenniveau und dieselbe Einheit und können dadurch additiv (Additivität, genauer gesagt subtraktiv) verknüpft werden. Die Idee des Rasch-Modells ist, dass die Lösung eines Items immer wahrscheinlicher wird, je weiter die Fähigkeit oder Eigenschaftsausprägung die Itemschwierigkeit übersteigt: θ - σ. Die Beziehung zwischen Itemlösungswahrscheinlichkeit sowie Fähigkeits- oder Eigenschaftsausprägung und Itemschwierigkeit ist dabei eine logistische Funktion (siehe dazu Abbildung 3.15). Eine logistische Funktion zwischen Itemlösungswahrscheinlichkeit und den Parametern im Modell anzunehmen ist psychologisch und mathematisch sehr plausibel. Man bezeichnet diese logistischen Funktionen für ein Item auch als Item-Characteristic-Curve (ICC).

81 Itemanalyse: Kürzung und Revision des Entwurfs 83 Abb. 3.15: Logistische Funktionen bzw. Item-Characteristic-Curves (ICC) für drei Items. In Abbildung 3.15 ist auf der Y-Achse die Itemlösungswahrscheinlichkeit aufgetragen und auf der X-Achse die gemeinsame Einheit von Personen- und Itemparameter. Die Itemschwierigkeit kann man ermitteln, indem man von der Y-Achse bei 0.5 nach rechts geht bis zur logistischen Funktion für das erste Item und dann von diesem Schnittpunkt ein Lot auf die X-Achse fällt. Die gleiche Einheit von Item- und Personenparameter sowie deren additive (genauer subtraktive) Verknüpfung im Rasch-Modell ermöglichen eine kriteriumsorientierte Interpretation der Personenparameter. Alle diese Maßnahmen haben zur Konsequenz, dass zur Interpretation eines Personenparameters ein Rückgriff auf eine Normstichprobe (vgl. Abschn. 4.3 und 5.4) nicht unbedingt erforderlich ist. Item- und Personenparameter gemeinsam enthalten auch ohne Normstichprobe Informationen über die Leistungsfähigkeit oder Eigenschaftsausprägung einer Person bzw. die Schwierigkeit eines Items. Es ist möglich, aufgrund des Personenund Itemparameters die Wahrscheinlichkeit zu bestimmen, mit der eine Person ein Item löst. Eine ähnliche Aussage kann auch für einen Test getroffen werden, dabei stellen die zusammengefassten Testitems das Kriterium dar (siehe Rost, 2004) und der Personenparameter die mittlere Lösungswahrscheinlichkeit einer Person hinsichtlich des Kriteriums. Mithilfe der folgenden Formel erhält man die Lösungswahrscheinlichkeit für ein dichotomes Item im Rahmen des Rasch-Modells bei gegebenen Item- und Personenparameter: p ( X x) vi [ x vi ( θ v σ i )] exp ( θ σ ) exp = =, x = 1 + v i 0, 1 Vorhersage der Itemlösungswahrscheinlichkeit mithilfe der Modellparameter p(x vi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortkategorie x zu wählen θ v = Personenparameter für eine Person v σ i = Itemparameter eines Items i

82 84 Itemanalyse: Kürzung und Revision des Entwurfs Exp = Exponentialfunktion x vi = Wert einer Person v auf dem Item i (im dichotomen Fall: 0 für falsch gelöst und 1 für richtig gelöst ) Modelltests und Stichprobenunabhängigkeit Ob das Rasch-Modell durch die Daten abgelehnt werden muss, wird durch Modelltests festgestellt. Die einfachste Methode, um einen Eindruck davon zu bekommen, ob das Rasch-Modell mit den Daten vereinbar ist, stellt der Grafische Modelltest dar. Es handelt sich hier um ein Streudiagramm. In diesem Streudiagramm werden die geschätzten Itemparameter aus zwei Stichproben dargestellt. In einem Intelligenztest kann beispielsweise die Stichprobe am Median der Testleistung in zwei Stichproben mit überdurchschnittlichem und unterdurchschnittlichem Summenwert eingeteilt werden. Liegen die Schätzungen der Itemparameter in beiden Stichproben auf der Winkelhalbierenden, fallen sie in beiden Stichproben gleich groß aus. Das heißt, die Schätzung der Itemparameter ist unabhängig von beiden Stichproben. Ein solcher Test in Abbildung 3.16 dargestellt. Es handelt sich um einen Intelligenztest. Auf der X- und Y-Achse sind die Logit-Einheiten der Itemparameter für die jeweiligen beiden am Median des Summenwerts geteilten Stichprobe aufgetragen. Abb Grafischer Modelltest. Signifikanztests und Modellvergleiche Der Grafische Modelltest hat den Nachteil, dass es sich nicht um einen Signifikanztest handelt. Es existieren viele Signifikanztests, von denen sich jedoch nur der Anderson Likelihood-Quotienten-Test bewährt hat. Er ist die teststatistische Umsetzung des grafischen Modelltests. Das genaue Vorgehen wird bei Bühner (2006) beschrieben. Andere von Bühner (2006) aufgeführte Modelltests haben sich als kritisch erwiesen, beispielsweise der Pearson-χ²-Test (Chi) sowie die Bootstrap-Methode für verschiedene Prüfgrößen. Die Bootstrapmethode simuliert für verschiedene Modelltests eine Verteilung der jeweiligen Prüfgrößen unter Geltung des Rasch-Modells. Dies ist deshalb nötig, da die Verwendung der asympto-

83 Itemanalyse: Kürzung und Revision des Entwurfs 85 tischen Prüfgrößen der χ²-verteilung an Voraussetzungen geknüpft ist, die im Rahmen des Rasch-Modells selten erfüllt sind. Ferner besteht die Möglichkeit, die Passung verschiedener konkurrierender Modelle nicht wie in den beschriebenen Signikanztests absolut, sondern relativ zueinander (Welches Modell passt am besten?) zu prüfen. Formal erfolgt dies in sehr ähnlicher Weise wie bei den später (Abschn (4c)) dargestellten alternativen Modellvergleichen im Rahmen der konfirmatorischen Faktorenanalyse. Wird das Rasch-Modell durch einen Modell-Test nicht abgelehnt, dann trifft eine Reihe von Annahmen zu: Zusammenfassung Die Lösungswahrscheinlichkeit wird durch eine logistische Funktion beschrieben. Summenwerte sind suffiziente oder erschöpfende Statistiken der Personenfähigkeit. Vergleiche zwischen Items und Personen sind spezifisch objektiv. Items sind abgesehen von wenigen Ausnahmen eindimensional (die Forderung der lokalen stochastischen Unabhängigkeit der Items ist erfüllt). Häufig wird eine fünfte Annahme zusätzlich formuliert, und zwar dass alle Items die gleiche Trennschärfe besitzen. Diese Annahme ist jedoch nur im Rahmen des dichotomen Rasch-Modells notwendig und sie ist eine Grundvoraussetzung für erschöpfende Statistiken. Für ordinale Rasch-Modelle (mehr als zwei geordnete Antwortalternativen, z.b. Likert-Skala) sind gleiche Itemtrennschärfen nicht zwingend, dafür jedoch geordnete Antwortschwellen Weitere probabilistische Testmodelle für dichotome Daten Die zwei im Folgenden dargestellten Modelle beinhalten zusätzliche Parameter, die die Itemlösungswahrscheinlichkeit mitbestimmen. Die beiden wichtigsten Einflussgrößen sind unterschiedliche Diskriminationsmacht der Items (Trennschärfe) und Effekte des Ratens (Rateparameter). Eine Erweiterung des Rasch-Modells (1 Parameter-Modell) stellt das 2- Parameter-Modell (auch Birnbaum-Modell genannt) dar. Es enthält einen sogenannten Trennschärfeparameter (β i ). Trennschärfe als zusätzliche Einflussgröße der Itemlösung p ( X x) vi [ xvi βi ( θv σ i )] [ β ( θ σ )] exp = =, x = 0,1 1+ exp i p(x vi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortkategorie x zu wählen θ v = Personenparameter für eine Person v v i

84 86 Itemanalyse: Kürzung und Revision des Entwurfs σ i = Itemparameter eines Items i Log = Logarithmus x vi = Wert einer Person v auf dem Item i (im dichotomen Fall: 0 für falsch gelöst und 1 für richtig gelöst ) β i = Trennschärfeparameter von Item i Trennschärfen als Tangente der ICC Die Trennschärfe ist in der PTT anders formalisiert als in der KTT. Daher wird an dieser Stelle auf die Trennschärfe eingegangen. Die Trennschärfe in der PTT spiegelt die Steigung der Itemfunktion (Item Characteristic Curve = ICC) wieder. Gemeint ist die Steigung einer Tangente (siehe Abbildung X.3) am Wendepunkt (p =.50) der ICC-Funktion. Je höher die Trennschärfe ist, desto steiler ist der Anstieg der ICC. Der Trennschärfeparameter kann Werte zwischen Null und plus Unendlich annehmen und wird beispielsweise im dichotomen Rasch-Modell für alle Items gleich Eins gesetzt. Im 2-Parameter-Modell unterscheiden sich die Trennschärfen einzelner Items. Dies hat gravierende Konsequenzen. Dies wird mithilfe von Abbildung 3.17 näher erläutert. Um deutlich zu machen, wie stark die ICC ansteigt, wenn unterschiedliche Trennschärfeparameter eingesetzt werden, sind in Abbildung 3.17 die ICCs für Items mit einer Trennschärfe von 0, 1 und 10 dargestellt. Abb. 3.17: ICCs mit verschiedenen Trennschärfen. Gleiche Itemtrennschärfen als Gütemaßstab Um zu verstehen, warum unterschiedliche Itemtrennschärfen für den Messvorgang kritisch sind ist es zuerst einmal wichtig, die Itemschwierigkeit zu bestimmen. Die Itemschwierigkeit ist definiert als die Stelle auf der x-achse, an der die Lösungswahrscheinlichkeit.50 ist. Sie lässt sich grafisch ermitteln, indem man von einer Lösungswahrscheinlichkeit von.50 auf der y-achse eine Linie zu der entsprechenden ICC zieht und dann ein Lot von dem ICC-Schnittpunkt auf die x- Achse fällt. Damit zeigt sich, dass Item A leichter (σ ca ) als Item B (σ ca ) ist. In Abbildung 3.18 sind die ICCs der Items A und B dargestellt. Item A hat eine größere Steigung als Item B (es ist im Anstieg steiler), das heißt, Item A ist trennschärfer als Item B. Markus löst nun bedingt durch die unterschiedli-

85 Itemanalyse: Kürzung und Revision des Entwurfs 87 chen Itemtrennschärfen das schwerere Item B mit einer höheren Wahrscheinlichkeit (p =.24) als das leichtere Item A (p =.10). Kommen wir auf das Hochsprungbeispiel zurück. Hier würden unterschiedliche Trennschärfen bedeuten, dass Markus eine Höhe von 1.50 m mit einer höheren Wahrscheinlichkeit überspringt als eine Höhe von 1.20 m. Abgesehen davon, dass es für diesen Sachverhalt schwer ist, eine Begründung zu finden, haben unterschiedliche Trennschärfen auch negative Konsequenzen für die Berechnung der Itemparameter. Die unterschiedlichen Trennschärfen müssen zusätzlich geschätzt werden und erhöhen so die Anzahl der zu schätzenden Parameter. Dies geht auf Kosten der Schätzgenauigkeit. Außerdem ist die ungewichtete Summenwertbildung nicht mehr zulässig, da wegen unterschiedlicher Trennschärfen eine Gewichtung mit der Itemtrennschärfe vorgenommen werden müsste. Daher wird im dichotomen Rasch-Modell die Annahme gemacht, dass alle Trennschärfen gleich sind. Die Frage, warum sich die Lösungswahrscheinlichkeiten umkehren, ließe sich allenfalls damit erklären, dass Item B noch eine andere Dimension als die gewünschte Dimension misst oder die Messung von jedem Item mit einem Messfehler behaftet ist. Im Rasch-Modell hingegen trägt jedes Item zum Personenparameter gleich viel bei (konstante Trennschärfe). Soll das 2-PL Modell sinnvoll angewandt werden, muss der Nachweis erbracht werden, dass der Test eindimensional ist. Dieser Nachweis wird in der Praxis selten erbracht. Abb. 3.18: Darstellung unterschiedlicher Itemtrennschärfen. Es gibt eine dritte Variante des logistischen Modells, das sogenannte 3- Parameter-Modell. Es berücksichtigt neben Trennschärfeparametern zusätzlich die Ratewahrscheinlichkeit (siehe Abschn. 2.4). Der Parameter γ i steht für den Rateparameter. Man setzt hier z.b für eine Ratewahrscheinlichkeit von 50 Prozent ein. Rateparameter als zusätzliche Einflussgröße der Itemlösung p ( X x) = γ + ( γ ) vi βi ( θv σ i ) [ β ( θ σ )] 1 xvi =, 1 exp = i i x + i v i 0, 1

86 88 Itemanalyse: Kürzung und Revision des Entwurfs p(x vi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortkategorie x zu wählen θ v = Personenparameter für eine Person v σ i = Itemparameter eines Items i Log = Logarithmus x vi = Wert einer Person v auf dem Item i β i = Trennschärfeparameter von Item i γ i = Rateparameter des Items i Rate- und Irrtumswahrscheinlichkeit Ratewahrscheinlichkeit durch andere Maßnahmen kontrollieren In Abbildung 3.19 ist dies grafisch veranschaulicht. Nehmen wir an, wir betrachten Items aus einem Intelligenztest. Für jede Frage liegen vier Antwortmöglichkeiten vor, von denen eine die richtige Lösung ist. Damit beträgt die Ratewahrscheinlichkeit, bei Annahme konstanter Ratewahrscheinlichkeiten über alle Items, 25 Prozent. Der Bereich unter.25 auf der y-achse kennzeichnet diese Ratewahrscheinlichkeit. Dies heißt, dass eine Person bei einem, relativ zu ihrer Fähigkeit, schweren Item eine 25-prozentige Lösungswahrscheinlichkeit besitzt. Es wäre auch möglich, eine Irrtumswahrscheinlichkeit einzuführen (siehe Rost, 2004, S. 105). Unter einer Irrtumswahrscheinlichkeit versteht man, dass eine Person trotz hoher Fähigkeit ein im Verhältnis zu ihrer Fähigkeit leichteres Item mit einer konstanten Wahrscheinlichkeit nicht löst. Nimmt man eine Irrtumswahrscheinlichkeit von 25 Prozent an, entspräche das dem Bereich von.75 bis 1.00 auf der y-achse in Abbildung Diese Darstellung ist jedoch sehr stark vereinfacht. Je nach der Beschaffenheit der Distraktoren wird die Ratewahrscheinlichkeit für jedes Item und bei jeder Person in Abhängigkeit von der Personenfähigkeit unterschiedlich ausfallen. Es gibt Items, die relativ leichte Distraktoren beinhalten. Damit springt einem die richtige Antwort fast ins Auge. Daher ist die Anwendung des 3PL-Modells nicht zu empfehlen. Die Ratewahrscheinlichkeit kann durch geeignete Maßnahmen stark reduziert werden. Dazu gehört, die Distraktoren so zu gestalten, dass sie schwierig genug sind, und auch die Anzahl der Distraktoren zu erhöhen. Etwas überspitzt formuliert wird durch das 3-Parameter-Modell versucht, mit den Unzulänglichkeiten eines Tests besser umzugehen.

87 Itemanalyse: Kürzung und Revision des Entwurfs 89 Abbildung 3.19: Darstellung von ICCs mit Ratewahrscheinlichkeit Probabilistische Modelle für Ratingskalen Das ordinale Rasch-Modell beschäftigt sich mit Items, die über mehr als zwei geordnete Antwortkategorien verfügen. Geordnet heißt, dass die Items Ordinaldatenniveau besitzen. Betrachten wir folgendes Beispielitem: Ich gehe gerne aus. Das dazugehörige Antwortformat ist nie selten manchmal häufig sehr häufig. Dieses Item könnte beispielsweise Extraversion erfassen. Es wird also angenommen, dass mit steigender Eigenschaftsausprägung (z.b. Extraversion) auch die Häufigkeit des Ausgehens zunimmt. Wovon hängt es nun ab, welche Kategorie eine Person wählt, z.b. nie selten manchmal häufig sehr häufig? Es wurde darauf hingewiesen, dass dies zum einen von der Eigenschaftsausprägung der Person (Personenparameter) und zum anderen von der Itemschwierigkeit (Itemparameter) abhängt. Schwellenkonzept Betrachten wir zunächst noch einmal ein dichotomes Item mit den Antwortkategorien Ja/Nein. Man kann sich vorstellen, dass es irgendwo eine Grenze oder einen Übergang geben muss, an der es wahrscheinlicher ist, die Kategorie (1) = Ja als die Kategorie (0) = Nein zu wählen. Diese Grenzen werden auch als Schwellen oder Thresholds bezeichnet. Im dichotomen Fall ist diese Schwelle der Übergang, an dem die Wahl der Antwortalternativen Ja und Nein gleich wahrscheinlich ist. Dieser Punkt entspricht dem Wendepunkt der logistischen Funktion (siehe Abbildung 3.20, linke Grafik, gestrichelte Linie) und gleichzeitig auch dem Itemparameter (Itemschwierigkeit). Eine Schwelle kann noch anschaulicher beschrieben werden, wenn eine weitere Wahrscheinlichkeitsfunktion eingeführt wird. Es handelt sich um die Wahrscheinlichkeitsfunktion p(0). Sie entspricht der Wahrscheinlichkeit, die Kategorie Null zu wählen und damit der gespiegelten logistischen Funktion, welche die Wahrscheinlichkeit [p(1)] Kategorie Eins zu wählen, ausdrückt. Das heißt, je wahrscheinlicher die Kategorie Eins gewählt wird, desto unwahrscheinlicher wird die Kategorie Null gewählt (und umgekehrt). Dabei addieren sich die Wahrscheinlichkeiten, die Kategorie Null und die Kategorie Eins zu wählen, zu Eins auf. Der Schnittpunkt beider Funktionen, der dem Wendepunkt beider logis-

88 90 Itemanalyse: Kürzung und Revision des Entwurfs tischer Funktionen p(0) und p(1) entspricht, kennzeichnet eine Schwelle. Personen, deren Personenparameter rechts von dieser Schwelle liegt, weisen eine höhere Wahrscheinlichkeit auf, die höhere Antwortkategorie (1) = Ja zu wählen. Personen, deren Personenparameter links von dieser Schwelle liegt, wählen mit einer höheren Wahrscheinlichkeit die niedrigere Antwortkategorie (0) = Nein. Abbildung 3.20: Darstellung von ICC und CCC im Rasch-Modell. Das Schwellenkonzept lässt sich nun auf mehr als zwei geordnete Antwortkategorien übertragen (siehe Abbildung 3.20, rechte Grafik). In diesem Fall wird nicht mehr von ICCs gesprochen sondern von Category Characteristic Curves (CCC) oder Kategorienfunktionen. Betrachten wir ein Item mit drei Kategorien: nie oder selten (0), manchmal (1), oft oder sehr oft (2). In Abbildung 3.20 (rechte Grafik) beschreibt die Kategorienfunktion p(0) die Wahrscheinlichkeit, die Antwortkategorie Null bzw. nie oder selten in Abhängigkeit eines Personenparameters auf dem latenten Kontinuum zu wählen. Die Wahrscheinlichkeit, die Kategorie Null bzw. nie oder selten zu wählen, sinkt bei dieser Funktion mit steigendem Personenparameter. Dies wird dadurch ausgedrückt, dass sich die Kategorienfunktion p(0) mit zunehmendem Personenparameter asymptotisch einer Wahrscheinlichkeit von Null (x-achse) annähert. Liegt ein Personenparameter auf dem latenten Kontinuum exakt an der Schwelle zwischen Antwortkategorie Null bzw. nie oder selten und Eins bzw. manchmal, ist für Personen mit diesem Personenparameter die Wahl beider Antwortkategorien Null und Eins gleich wahrscheinlich. Dieser Punkt auf dem Kontinuum wird auch als Schwellenparameter bezeichnet. Für Personen, deren Personenparameter rechts von dieser Schwelle auf dem latenten Kontinuum liegt, steigt mit zunehmendem Personenparameter die Wahrscheinlichkeit an, die Antwortkategorie Eins bzw. manchmal zu wählen, bis zum Gipfelpunkt der Kategorienfunktion p(1). Die Kategorienfunktion p(1) weist dabei eine ähnliche Form wie eine Normalverteilung auf. Personen, deren Personenparameter an dem Punkt des latenten Kontinuums liegt, an dem sich auch der Gipfel der Kategorienfunktion p(1) befindet, wählen Antwortkategorie Eins bzw. manchmal am wahrscheinlichsten. Gleichzeitig fällt für Personen mit zunehmendem Personenparameter rechts vom Gipfelpunkt der Kategorienfunktion p(1) die Wahrscheinlichkeit, Antwortkatego-

89 Itemanalyse: Kürzung und Revision des Entwurfs 91 rie Eins zu wählen, wieder ab. Liegt nun ein Personenparameter exakt auf der Schwelle zwischen Antwortkategorie Eins bzw. manchmal und Zwei bzw. oft oder sehr oft, ist für Personen mit diesem Personenparameter die Wahl beider Antwortkategorien wieder gleich wahrscheinlich. Dieser Punkt auf dem latenten Kontinuum kennzeichnet den zweiten Schwellenparameter. Rechts von der Schwelle zwischen Antwortkategorie Eins und Zwei steigt für Personen mit steigendem Personenparameter die Wahrscheinlichkeit wieder an, Antwortkategorie Zwei zu wählen. Letztendlich soll jedoch mithilfe des ordinalen Rasch-Modells die Wahrscheinlichkeit bestimmt werden, mit der eine Person eine bestimmte Antwortkategorie wählt. Es gibt dazu folgende Formel für das ordinale Rasch-Modell, das auch als Partial-Credit-Modell bezeichnet wird: Vorhersage der Itemlösungswahrscheinlichkeit durch das Modell p ( X = x) exp ([ x θ ] σ ) v ix, x 0,1, 2,..., vi = = m s= 0 exp ([ s θ ] σ ) v is m p(x vi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Kategorie x zu wählen x = Anzahl übersprungener Schwellen bis zur gewählten Kategorie x s = Nummer der Schwelle θ v = Personenparameter für eine Person v σ ix = Summe der Schwellenparameter eines Items i bis zur gewählten Kategorie x σ is = Summe aller Schwellenparameter bis Schwelle s exp = Exponentialfunktion m = Anzahl der Schwellen Allerdings muss für das ordinale Rasch-Modell eine weitere wichtige Voraussetzung erfüllt sein: Die Antwortschwellen müssen geordnet sein. Das heißt, sie dürfen sich nicht überschneiden. In Abbildung 3.21 sind Antwortschwellen dargestellt. Die auf der Y-Achse aufgeführten Schwellenparameter haben dieselbe Logit-Einheit wie die Itemparameter. Auf der X-Achse sind die jeweiligen Items aus dem Test aufgeführt. Werden die Schwellenparameter für jedes Item gemittelt, ergeben sich daraus die Itemparameter für jedes Item. Wie man aus der Abbildung erkennen kann, überschneiden sich die Schwellenparameter nicht. Betrachten wir Markus, so wird dieser bei Item 1 mit hoher Wahrscheinlichkeit die Antwortkategorie Null wählen, während er bei Item 2 wahrscheinlich die Katego- Überschneidungsfreie Schwellen im Rasch- Modell

90 92 Itemanalyse: Kürzung und Revision des Entwurfs rie 1 wählt. Bei Item 1 reicht seine Eigenschaftsausprägung nicht aus, um in Kategorie 1 zu antworten. Bei Item 2 übersteigt die Eigenschaftsausprägung von Markus die erste Schwelle. Würden sich die Schwellen überschneiden, gilt nicht mehr, dass eine Person mit einer höheren Eigenschaftsausprägung als eine andere Person auch eine höhere Antwortkategorie ankreuzt. Man kann sich die Abbildung 3.21 wie eine Hochsprunganlage vorstellen. Je nach dem wie hoch die Eigenschaftsausprägung einer Person ausfällt, desto höher wird die Person springen und desto mehr Schwellen werden überschritten. Abbildung 3.21: Schwellenparameter für einen Fragebogen mit einem 4-stufigen Antwortformat Starke Ablehnung = 0, Ablehnung = 1, Zustimmung 2 und Starke Zustimmung = 3. Quantifizieren und klassifizieren: Mixed- Rasch-Modelle Eine weitere Modellklasse stellen Mixed-Rasch-Modelle dar. Diese Modelle quantifizieren und klassifizieren zugleich. Was heißt das nun konkret? Betrachten wir einen figuralen Test zum schlussfolgernden Denken: beispielsweise einen Test, indem Figurenteile zusammengefügt werden müssen und dabei zu entscheiden ist, welcher vorgegebenen Figur die Einzelteile entsprechen. Das Rasch-Modell würde davon ausgehen, dass dieser Test nur schlussfolgerndes Denken misst. Das muss aber nicht so sein. Möglicherweise gibt es Personengruppen, die den Test mit unterschiedlichen Fähigkeiten lösen: Eine Gruppe von Personen aktiviert die Fähigkeit zum schlussfolgernden Denken zur Aufgabenlösung. Eine andere Gruppe von Personen löst nicht jede Aufgabe mithilfe der Fähigkeit zum schlussfolgernden Denken, sondern mit dem räumlichen Vorstellungsvermögen. Das Mixed-Rasch-Modell sucht nun nach Personengruppen, die sich in ihrem Antwortmuster maximal unterscheiden. Innerhalb einer jeden Klasse gilt jedoch das Rasch-Modell. Das heißt innerhalb einer Klasse wird nur eine Fähigkeit gemessen, entweder schlussfolgerndes Denken oder räumliches Vorstellungsvermögen. Mixed-Rasch-Modelle sind für die Testkonstruktion sehr nützlich, da sie Verletzungen von der Eindimensionalitätsannahme für jedes Item anzeigen kön-

91 Itemanalyse: Kürzung und Revision des Entwurfs 93 nen. Items, die zu einer Zweiklassenlösung führen, werden dann aus dem Test entfernt. Übungsaufgaben 1. Berechnen Sie für das folgende Item aus der Quizsendung Wer wird Millionär? die (a) unkorrigierte und (b) zufallskorrigierte Itemschwierigkeit auf der Grundlage der Prozentzahlen aus der empirischen Information Publikumsjoker. (Hinweis: die richtige Lösung der Quizaufgabe ist B: Osterformel). Wie wirkt sich (c) im konkreten Fall eine Inangriffnahmekorrektur aus? (Lösungen: (a) 42 %; (b) 22,67 % (!); (c) Eine zusätzliche Inangriffnahmekorrektur ist in diesem Fall weder sinnvoll noch möglich, da als Stichprobe ohnehin nur diejenigen Zuschauer eingehen, die das Item in Angriff genommen haben. Unter der Annahme, dass unter den Antwortenden überproportional viele Zuschauer waren, die die Antwort tatsächlich wussten, dürfte der berechnete Schwierigkeitsindex zu hoch geschätzt sein (inhaltlich also die Aufgabenschwierigkeit, bezogen auf den unbekannten wahren Wert in der Gesamtpopulation, unterschätzt werden). Hier führte die (implizite) Korrektur also vermutlich zur Verzerrung des Ergebnisses. Aus den Angaben zu (b) und (c) ergibt sich, dass die Aufgabe wesentlich schwieriger ist als es auf den ersten Blick (a) erscheint.)

92 94 Itemanalyse: Kürzung und Revision des Entwurfs 2. Im Mixed-Rasch-Modell der PTT für dichotome Items kann, im Unterschied zum einfachen Rasch-Modell, (a) zusätzlich zum Itemparameter der Schwierigkeit ein Schwellenparameter berechnet werden (b) zusätzlich zur Bestimmung der Eigenschaftsausprägung einer Person auch deren Klassenzugehörigkeit identifiziert werden (c) zwar die Klassenzugehörigkeit einer Person identifiziert, aber nicht deren Eigenschaftsausprägung bestimmt werden. (d) sowohl ein Personenparameter als auch ein Itemparameter berechnet werden. (Lösung: b) Weiterführende Literaturempfehlungen: Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2. akt. Aufl.). München: Pearson Studium. (insbes. Kap. 3.4, 3.5 und 7). Lienert, G. A. & Raatz, U (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz. (insbes. Kap. 5 und 6). Rost, J. (2004). Lehrbuch Testtheorie, Testkonstruktion (2. überarb. und erw. Aufl.). Bern: Huber. (insbes. Kap. 3 bis 5).

93 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 95 4 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Die im vorigen Kapitel dargestellten Statistiken zu einzelnen Items sind eine wichtige Informationsgrundlage, beschreiben die Gesamtstruktur der Daten zu einem Testverfahren aber nur unzulänglich. Nachdem einzelne Items aufgrund inakzeptabler Kennwerte eliminiert wurden, ggf. auch als zusätzliche Informationsgrundlage zur Itemselektion, ist es in vielen Fällen sinnvoll, die gesamte Struktur des Tests mittels unterschiedlicher Varianten der Faktorenanalyse zu untersuchen. Für die Wahl des faktorenanalytischen Verfahrens kommt es zunächst entscheidend darauf an, ob über die interne Struktur präzise theoretische Vorstellungen existieren oder nicht. Falls nicht, kommen Verfahren der Explorativen Faktorenanalyse (EFA) zum Einsatz, falls ja, ist die Konfirmatorische Faktorenanalyse (CFA) die Methode der Wahl. Die folgenden beiden Abschnitte beschäftigen sich ausführlicher mit diesen beiden Verfahrensgruppen. Nachdem die Informationen aus der Faktorenanalyse genutzt wurden, um eventuell noch weitere Modifikationen des Testinhalts durchzuführen, müssen die verbliebenen Items zu Skalen aggregiert und die entsprechenden Skalenrohwerte an Normgruppen relativiert und ggf. transformiert werden. Diese Schritte werden im dritten Hauptabschnitt dieses Kapitels beschrieben. 4.1 Explorative Faktorenanalyse (EFA) Grundlagen der Faktorenanalyse Die Faktorenanalyse ist eine Klasse statistischer Verfahren, die anders als die im vorigen Kapitel beschriebene Itemanalyse nicht nur zur Untersuchung von Tests und anderen Diagnostika dienen, sondern eine Vielzahl sehr breiter Anwendungsgebiete besitzen. Wie in Kapitel 2 angedeutet sind in der Psychologie z.b. einige der wichtigsten theoretischen Modelle der Intelligenz und der Persönlichkeit im Wesentlichen faktorenanalytisch fundiert. Ihren Ursprung hat die Faktorenanalyse in der theoretischen Intelligenzforschung (Spearman, 1904). Es gibt aber auch zahlreiche Anwendungen in anderen Sozialwissenschaften und darüber hinaus. Hinsichtlich der Vielfalt der methodischen Varianten und der möglichen Anwendungen steht die Faktorenanalyse auf einer Stufe etwa mit der Regressionsanalyse oder der Varianzanalyse. Auch die Faktorenanalyse lässt sich aus dem Allgemeinen Linearen Modell ableiten und ist mit anderen multivariaten Verfahren rechnerisch verwandt. Dass wir sie hier im Rahmen der Testkonstruktion vorstellen hat damit zu tun, dass die Analyse von Tests eines der zentralen Anwendungsgebiete der Faktorenanalyse innerhalb der Psychologie ist. Es ist aber sinnvoll, die Grundprinzipien in eher allgemeiner Form vorzustellen. Ursprung und Einordnung der Faktorenanalyse

94 96 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Prinzipien der Faktorenanalyse Zwecke der Faktorenanalyse EFA versus CFA Der Begriff Faktorenanalyse bezeichnet eine Gruppe statistischer Verfahren, mit denen die interne Struktur eines Satzes von Variablen auf deren nicht offen zutage tretende (latente) Zusammenhänge untersucht wird. Die Faktorenanalyse untersucht also nicht, wie z.b. die Regressions- und Varianzanalyse, die Beziehungen zwischen als abhängig und unabhängig definierten Variablen, sondern die Korrelationsmuster einer Mehrzahl von gemessenen (manifesten) Variablen, die auf der gleichen logischen und hierarchischen Ebene liegen, mit dem Ziel der Datenstrukturierung. Vereinfacht gesagt kann man mit Hilfe der Faktorenanalyse versuchen, viele manifeste Variablen (z.b. die Items eines Tests) zu wenigen latenten Variablen (den diesen Items zugrunde liegenden Konstrukten) zusammenzufassen. Diese Aussage bezieht sich auf die Korrelation von p Variablen über n Vpn. Eine Verallgemeinerung der Faktorenanalyse über diese in der Forschungspraxis mit Abstand häufigste Kombination von Varianzquellen hinaus stammt von Cattell (1957; vgl. einführend zu Cattells Kovariationsschema auch Amelang et al., 2006), der zwischen drei Varianzquellen (neben Variablen und Vpn auch Situationen) und sechs möglichen Arten von Korrelationsmatrizen unterschieden hat. In Cattells Terminologie beschränken wir uns hier auf die R-Technik. Mit der trimodalen Faktorenanalyse existiert auch eine Variante der EFA, mit der sich drei Varianzquellen simultan berücksichtigen lassen. Thompson (2004) unterscheidet drei zentrale Zwecke der Faktorenanalyse: (1) die Prüfung der Gültigkeit (Validität) theoretischer Modellannahmen über die Struktur eines vorhandenen Variablensatzes oder Messinstruments (historisch wurde dieser Aspekt als faktorielle Validität bezeichnet; vgl. Abschn ); (2) die Entwicklung von Theorien über die interne Struktur psychologischer Konstrukte bzw. deren messbare Manifestationen; sowie (3) die Datenreduktion bzw. die vereinfachende Beschreibung eines Datensatzes durch Zusammenfassung von Variablen zu (übergeordneten) Faktoren. Bedingt durch die historische Entwicklung wurde lange versucht, alle drei Ziele mit Hilfe der (historisch älteren) Explorativen Faktorenanalyse (EFA) zu erreichen. Dies führte häufig zu Untersuchungen, in denen die (deduktive) Theorieprüfung von der (induktiven) Theoriebildung nur schwer zu unterscheiden war. Inzwischen steht mit der Konfirmatorischen Faktorenanalyse (CFA) eine eigenständige Gruppe von Verfahren zur Verfügung, die sich zur Modellprüfung (dem ersten o.g. Zweck) sehr viel besser eignet als die EFA. Im Zuge der Testkonstruktion spielen die im nachfolgenden Abschnitt dargestellten Verfahren der CFA besonders bei der Entwicklung rational konstruierter Tests eine zentrale Rolle. Im Gegensatz zur CFA setzt die EFA keine theoretischen Modellvorstellungen voraus und eignet sich deshalb dazu, solche Modellvorstellungen im Rahmen eines theoriebildenden Vorgehens zu entdecken (Zweck 2) und den vorliegenden Datensatz entsprechend zu vereinfachen (Zweck 3). Für die induktive Testkonstruktion stellt die EFA die zentralen empirischen Informationen zu Verfügung; sie wird jedoch häufig auch zur Exploration der internen Struktur von eher atheoretisch konstruierten externalen Tests eingesetzt. Dass die EFA nach wie vor

95 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 97 manchmal für Zwecke eingesetzt wird, für die die CFA eindeutig angemessener wäre, hat vor allem damit zu tun, dass die EFA (scheinbar) einfacher zu berechnen und interpretieren und obendrein in Standard-Statistikpaketen wie SPSS implementiert ist. Sowohl CFA als auch EFA sind ihrerseits wiederum Sammelbegriffe für eine Vielzahl von Varianten. Ein Grundgedanke der Faktorenanalyse ist, dass die Ausprägung eines Individuums auf beobachteten Variablen ursächlich durch dahinter stehende, latente Konstrukte beeinflusst wird. Diese latenten Variablen heißen Faktoren und sind streng zu unterscheiden von den gleichnamigen unabhängigen Variablen in der Varianzanalyse. Zwar beeinflussen auch in der Varianzanalyse die Faktoren die abhängige(n) Variable(n) ursächlich (gleiches gilt für die Prädiktoren in der Regressionsanalyse); im Mittelpunkt der Faktorenanalyse steht aber der simultane Einfluss jedes Faktors auf mehrere beobachtete Variablen, während mehrfaktorielle Varianzanalyse und multiple Regression den simultanen Einfluss mehrerer unabhängiger Variablen untersuchen. Die messtheoretischen Implikationen dieses Unterschieds wurden von Bollen und Lennox (1991) unter den Begriffen Effektindikatorenmodell (Faktorenanalyse) und Kausalindikatorenmodell (Regressionsanalyse) untersucht (siehe Abb. 4.1). Die Autoren haben herausgearbeitet, dass das Messmodell der KTT auf einem faktorenanalytischen Modell beruht, welches im Unterschied zum regressionsanalytischen (analog auch varianzanalytischen) Modell unterstellt, dass die Indikatoren (Items) untereinander kovariieren. Bei strikter Orientierung am Zusammenhang der Items mit einem Außenkriterium im Rahmen der externalen Testkonstruktion gilt aber im Grunde das Kausalindikatorenmodell. Damit kann in diesem Fall die Homogenität bzw. Korreliertheit der Items nicht unterstellt werden. Effektindikatoren versus Kausalindikatoren (a) η 1 (b) η 1 y 1 y 2 y n y 1 y 2 y n Abb. 4.1: Schema des (a) faktorenanalytischen Effektindikatorenmodells und des (b) regressionsanalytischen Kausalindikatorenmodells (vereinfacht nach Bollen & Lennox, 1991) Warum unterstellt die Faktorenanalyse die Kovarianz bzw. Korrelation der Items? Wenn z.b. zwei Items eines Tests von demselben Faktor bzw. latenten Konstrukt beeinflusst werden, sollte sich dies auf der beobachtbaren Ebene darin äußern, dass die Items untereinander korreliert sind. Genauer gesagt betrachtet das faktorenanalytische Modell die Ausprägungen auf den Items als lineare Funktion dahinter stehender Faktoren. Wenn hinter beiden Items verschiedene Konstrukte (Faktoren) stehen, gibt es keinen unmittelbaren Grund für eine Korrelation der

96 98 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Items. Aus dem Muster unterschiedlich hoher oder geringer Korrelationen bzw. Kovarianzen auf der manifesten Ebene (also zwischen mindestens drei, i.d.r. deutlich mehr beobachteten Variablen bzw. Indikatoren) wird in der Faktorenanalyse darauf geschlossen, wie viele latente Konstrukte hinter welchen manifesten Variablen,stehen und ggf. wie die latenten Konstrukte inhaltlich zu interpretieren sind. Bei der CFA erfolgt die Interpretation und Zusammenfassung dabei vor Beginn der Datenanalyse, bei der EFA bilden die Daten die Grundlage der Interpretation. Varianten und Vorgehensweise bei der EFA werden im folgenden Abschnitt dargestellt Varianten und Vorgehensweise bei der Explorativen Faktorenanalyse Hauptachsen- versus Hauptkomponentenanalyse Die beiden am häufigsten verwendeten Varianten der EFA sind nach Thompson (2004) die Hauptachsenanalyse (principal axis factor analysis: PAF) und die Hauptkomponentenanalyse (principal components analysis: PCA). Wir beschränken uns hier auf diese beiden Methoden, obwohl es noch zahlreiche weitere Varianten der EFA gibt (in SPSS sind sieben Extraktionsmethoden implementiert; über einige dieser weiteren wichtigen Methoden informieren einführend Kim & Mueller, 1978). Streng genommen zählt die PCA nicht zu den faktorenanalytischen Methoden, da sie lediglich dem Zweck der Datenreduktion und Beschreibung dient, und die latenten Variablen heißen hier auch nicht Faktoren sondern Komponenten. Dessen ungeachtet wird die PCA sehr häufig angewendet (in SPSS ist sie die Voreinstellung) und die Unterschiede zur PAF in den Berechnungen und häufig auch in den Ergebnissen sind auch nur gering (zu Ausnahmen siehe Fabrigar, Wegener, MacCallum & Strahan, 1999). Der wichtigste Unterschied zwischen der PCA und den faktorenanalytischen Methoden i.e.s. (dazu zählen neben der PAF alle weiteren in SPSS implementierten Methoden) liegt im hauptsächlichen Anwendungszweck. Wenn das Ziel die Aufdeckung latenter Strukturen im Datensatz ist (Zweck (2) in der obigen Klassifikation), ist die PAF oder eine andere faktorenanalytische Methode konzeptionell angemessen, während die PCA vorwiegend der reinen Datenreduktion (Zweck (3) oben) dient. Neben der grundsätzlichen Entscheidung für eine der prinzipiellen Methoden ist im weiteren Verlauf einer EFA an verschiedenen Stellen eine Auswahl zwischen mehr oder weniger zahlreichen methodischen Varianten zu treffen. Auf diese Möglichkeiten sowie auf die wichtigsten methodischen Unterschiede zwischen PCA und PAF werden wir bei der Beschreibung der generellen Vorgehensweise im Detail eingehen. Für das Verständnis der folgenden Ausführungen wird lediglich die Kenntnis einiger Grundbegriffe der Matrixalgebra vorausgesetzt, auf der die Faktorenanalyse mathematisch beruht (vgl. zu einer formalen Darstellung der PCA und ihrer algebraischen Grundlagen z.b. Bortz, 2005). Schritte der Faktorenanalyse Die Faktorenanalyse untersucht die Kovarianz- bzw. Korrelationsmatrix eines Satzes beobachteter Variablen, indem zunächst aus diesem Variablensatz eine kleinere Anzahl latenter Variablen (Faktoren) extrahiert wird, die sich jeweils aus

97 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 99 einer gewichteten Summe der beobachteten Variablen zusammensetzen. Diese noch vorläufigen neuen Faktoren werden dann im geometrischen Raum so gedreht (rotiert), dass sie die im ursprünglichen Datensatz enthaltene Information möglichst gut wiedergeben und sie gleichzeitig möglichst eindeutig interpretierbar sind. Auf den so entstandenen endgültigen Faktoren können dann Versuchspersonen Messwerte (Faktorwerte) zugewiesen werden, die ihre Ausprägung auf den latenten Merkmalen beschreiben. Im Einzelnen lassen sich grob folgende Schritte und damit verbundene Entscheidungen im Rahmen einer EFA unterscheiden, die im Folgenden näher erläutert werden: (1) Prüfung der Voraussetzungen einer EFA (2) Auswahl der faktorenanalytischen Methode und damit Festlegung der Methode der sog. Kommunalitätenschätzung und der Faktorextraktion. (3) Festlegung der Anzahl der extrahierten Faktoren (4) Festlegung der Methode der Rotation und deren Durchführung (5) Inhaltliche Interpretation der Faktoren (6) Festlegung der Methode zur Ermittlung der Faktorwerte und ggf. Faktorenanalyse höherer Ordnung Ad (1) Voraussetzungen. Die Voraussetzungen der EFA hängen zum Teil von der angewandten Methode ab. Die allgemein wichtigsten betreffen (a) die Korrelation der Items, (b) die Stichprobengröße sowie (c) uni- und multivariate Verteilungseigenschaften der Items bzw. manifesten Variablen. Zwischen diesen Aspekten bestehen wiederum etliche Wechselwirkungen, die hier nur angedeutet werden können (vgl. z.b. Bühner, 2006; Thompson, 2004). Da die Existenz latenter Faktoren sich in der Interkorrelation der Items äußert, sollten diese substanziell korrelieren. Eine Mindestvoraussetzung ist, dass die beobachtete Korrelationsmatrix signifikant von der vollständigen Unabhängigkeit der Variablen in der Population (sog. Diagonal- bzw. Identitätsmatrix) abweichen sollte. Ein in SPSS implementierter Signifikanztest, der dies prüft (und signifikant werden sollte), ist der Bartlett-Test auf Sphärizität. Allerdings hat sich der Bartlett-Test einigen alternativen Prüfgrößen gegenüber als unterlegen erwiesen (vgl. dazu einführend Bortz, 2005). Kein Signifikanztest, jedoch ein ebenfalls in SPSS implementiertes Verfahren mit inhaltlich ähnlicher Funktion ist der Kaiser-Meyer- Olkin-Koeffizient (KMO-Koeffizient), der, vereinfacht gesagt, den gemeinsamen Varianzanteil der Items relativ zu deren spezifischen Varianzanteilen misst. Der KMO-Koeffizient sollte möglichst hoch sein (keinesfalls unter.50). Anhaltspunkte zur Beurteilung der Höhe gibt Bühner (2006). Ein weiteres Indiz für die Eignung auch einzelner Items zur Faktorisierung sind deren Kommunalitäten (s.u.), die einen Wert von.20 i.d.r. nicht unterschreiten sollten sowie der MSA- Prüfung der substanziellen Korrelation

98 100 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Koeffizient (measure of sample adequacy), der ähnlich wie der KMO-Koeffizient zu interpretieren ist, sich jedoch auf die einzelnen Items bezieht. Anforderungen an die Stichprobengröße Anforderungen an Verteilungseigenschaften Zweitens erfordert die EFA relativ große Stichproben. Wie bei allen explorativen Verfahren hängen die Ergebnisse der EFA sehr stark von Stichprobencharakteristika ab und die Stabilität der Lösung steigt mit wachsendem N an, da gleichzeitig Zufallseinflüsse abnehmen. Ein absolutes (jedoch praktisch nie ausreichendes) Minimum stellt die Anzahl der Variablen dar, die durch die Stichprobengröße keinesfalls unterschritten werden darf, i.d.r. aber um ein Mehrfaches überschritten werden sollte. Jenseits dieser Minimalanforderung hängt die erforderliche Stichprobengröße von einer Reihe von Randbedingungen ab und kann durch generelle Richtlinien nur näherungsweise bestimmt werden (vgl. zu einigen in der Literatur genannten und empirisch untermauerten Richtgrößen Bühner, 2006). Allgemein steigen die Anforderungen an die Stichprobengröße je mehr Items insgesamt in die Analyse eingehen, je weniger Items je Faktor zusammengefasst werden und je weniger reliabel die einzelnen Items sind (ein Indikator dafür ist wieder die Kommunalität, s.u.). Ferner hängt die erforderliche Stichprobengröße von der eingesetzten Extraktionsmethode ab, wobei die PCA relativ geringe Anforderungen stellt, während die hier im Detail nicht dargestellte Maximum- Likehood-Faktorenanalyse (ML-Faktorenanalyse, s. Bühner, 2006, für eine einführende Darstellung) besonders große Stichproben erfordert. Nach MacCallum, Widaman, Zhang und Hong (1999) gilt N = 60 unter sonst günstigen Voraussetzungen als Untergrenze für die Durchführung einer Faktorenanalyse. Unter weniger günstigen Voraussetzungen können leicht mehrere Hundert Vpn erforderlich werden. Auch bezüglich der Verteilungseigenschaften sind einige generelle Wirkrichtungen wie auch Randbedingungen zu beachten. Hinsichtlich der einzelnen Variablen unterstellt die Faktorenanalyse (einschließlich CFA) kontinuierliche Messung mindestens auf Intervallskallenniveau sowie Normalverteilung, was bei Fragebogenitems in aller Regel nicht oder bestenfalls näherungsweise erfüllt ist. Die Auswirkungen der (fast immer gegebenen) Verletzung dieser Annahmen hängen wesentlich von multivariaten Verteilungseigenschaften ab. Insbesondere wenn die Items unterschiedlich verteilt sind (z.b. teilweise links- und teilweise rechtsschief), ist damit zu rechnen, dass die extrahierten Faktoren später neben oder gar anstelle der inhaltlichen Gemeinsamkeiten gleiche Verteilungseigenschaften widerspiegeln, da die Kovarianz sowohl von inhaltlichen Aspekten als auch von Methodenartefakten beeinflusst werden kann. Eine einfache Möglichkeit, solche Einflüsse posthoc zu überprüfen, besteht in der Inspektion der deskriptiven Itemstatistiken (Bernstein, Garbin & Teng, 1988): Wenn sich innerhalb desselben Faktors vorwiegend Items mit ähnlichen Verteilungseigenschaften (z.b. Mittelwerte, Schiefe) finden, sich diese Eigenschaften zwischen den Faktoren über alle Items je Faktor gemittelt aber auffällig unterscheiden (z.b. ein Faktor aus lauter einfachen und ein anderer aus besonders schwierigen Aufgaben besteht), deutet dies darauf hin, dass die Faktoren lediglich Methodenartefakte abbilden und daher

99 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 101 inhaltlich nicht interpretiert werden sollten. Ferner unterstellen einige faktorenanalytische Methoden (z.b. die ML-Faktorenanalyse, aber auch einige damit verwandte Varianten der CFA, s. Kap. 4.2) multivariate Normalverteilung eine Voraussetzung, die für Ratingskalen, aber auch sonst, selbst dann fast niemals erfüllt ist, wenn die Items univariat normalverteilt sind, und die zudem mit SPSS nicht geprüft werden kann (dies können jedoch die für die Durchführung einer CFA erforderlichen Programmpakete, s.u.). Auch hier hängen die Auswirkungen von der Extremität der Verletzungen ab; die meisten einschlägigen Verfahren sind bei nicht zu starker Schiefe und Exzess dagegen relativ robust (Bollen, 1989). Für den Umgang mit ungünstigen Verteilungseigenschaften gibt es in der Literatur zahlreiche Empfehlungen, die jedoch in der Praxis zumindest der EFA sämtlich eher selten befolgt werden. Das könnte damit zu tun haben, dass sie in SPSS und anderen gängigen Softwarepaketen oft nicht bequem implementiert sind (s. zu einzelnen der folgenden Methoden z.b. Bernstein et al., 1988; Bollen, 1989; O Connor, n.d.; Panter, Swygert, Dahlstrom & Tanaka, 1997; Thompson, 2004). Eine Möglichkeit besteht darin, die Items vor der Analyse so zu transformieren (z.b. log-linear), dass die Normalverteilung besser angenähert wird. Eine ähnliche Wirkung hat die Zusammenfassung von Items zu Päckchen (parcels) bzw. Miniskalen vor Faktorisierung, was auch die Reliabilität deutlich verbessern hilft. Dies erfordert allerdings theoretische Vorannahmen und wird deshalb vor allem im Rahmen der CFA empfohlen (vgl. Abschn. 4.2). Im Rahmen der EFA kann stattdessen eine Faktorenanalyse höherer Ordnung durchgeführt werden (s.u.). In all diesen Fällen werden jedoch nicht mehr die ursprünglichen Variablen analysiert, was bedacht werden sollte. Eine weitere Alternative besteht darin, anstelle der Matrix der Produkt-Moment-Korrelationen die tetrachorischen (für dichotome Items) bzw. polychorischen (für Ratingskalen) Korrelationen zu analysieren, bei denen kategoriale Daten als indirekte Indikatoren kontinuierlicher und normalverteilter Variablen aufgefasst werden. Während in SPSS diese Korrelationen standardmäßig nicht implementiert sind (Links zu entsprechenden Makros nennt obige Website), werden z.b. in der für die CFA verbreiteten Software LISREL diese Korrelationen bei kategorialen Daten automatisch erzeugt (in neueren Versionen auch dann, wenn explizit eine andere Matrix angefordert wurde!). Dies ist zu beachten, wenn die Ergebnisse einer EFA mit einer CFA verglichen werden sollen. Schließlich lassen sich die angesprochenen Probleme unter bestimmten Bedingungen durch Anwendung alternativer faktorenanalytischer Methoden, die auf der Probabilistischen Testtheorie beruhen, umgehen. Ad (2): Extraktionsmethode Faktorenanalytische Methoden i.e.s. (z.b. PAF) gehen davon aus, dass sich die Ausprägung einer Person auf einer beobachteten Variable (z.b. einem Item) aus einer gewichteten Kombination von Ausprägungen auf latenten Variablen plus einem Fehlerterm zusammensetzt. Diese Annahme nennt man auch Modell mehrerer gemeinsamer Faktoren, während im Komponentenmodell, das der PCA zugrunde liegt, der Fehlerterm entfällt. Dies kann man inhaltlich so interpretieren, dass sich die PCA nur für die empirischen Datensatz Methoden zum Umgang mit ungünstigen Verteilungseigenschaften Modell mehrerer gemeinsamer Faktoren versus Komponentenmodell

100 102 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung vorliegende Information und nicht für dahinter liegende wahre (aber nicht beobachtbare) Konstrukte interessiert. Wenn man alle beteiligten manifesten und latenten Variablen standardisiert, ergibt sich nachfolgende Gleichung für das Modell mehrerer gemeinsamer Faktoren. Die standardisierten Gewichte a je Item und Faktor werden auch Ladungen genannt, wobei dieser Begriff mehrdeutig sein kann (zur Präzisierung s.u. zu Schritt (5): Interpretation). In Abb. 4.1 (a) oben entsprechen die Ladungen den Pfeilen, die vom Faktor η 1 auf die Items y 1 bis y n weisen 2. Abgesehen von der fehlenden Konstante und der umgekehrten Wirkrichtung der Ladungen, die aus der Gleichung nicht hervorgeht, sollte die folgende Formel Sie an die Grundgleichung der multiplen Regression aus Modul 2 erinnern (vgl. auch Bortz, 2005). z im = f i1 a m1 + = f i2 a m2 + f i3 a m3.. + f ij a mj +.. f iq a mq + e i Dabei ist: z im = z-wert einer Person i auf einem Item m f i1 = Faktorwert der Person i auf Faktor 1 a m1 = Ladung des Items m auf Faktor 1 f ij = Faktorwert der Person i auf Faktor j a mj = Ladung des Items m auf Faktor j q = Anzahl der Faktoren e i = Fehlerkomponente, die durch die extrahierten Faktoren nicht erklärt werden kann Über alle Personen betrachtet lädt also jedes Item in unterschiedlicher Höhe (im Einzelfall auch in der Höhe Null) auf alle Faktoren und auch die Faktoren setzen sich zu unterschiedlichen Anteilen aus Ladungen aller Items zusammen. Sofern die Faktoren untereinander nicht korrelieren (dies ist in der EFA eine Frage des Rotationsverfahrens, s.u.) lassen sich die Ladungen als Korrelation zwischen dem jeweiligen Item und dem Faktor interpretieren, die quadrierte Ladung also als Anteil gemeinsamer Varianz an der Gesamtvarianz der beteiligten Variablen. Wenn man alle Variablen in die Zeilen einer Matrix schreibt und alle Faktoren in die 2 Wie man in Abbildung 4.1 (a) erkennt, weisen in der Faktorenanalyse die Pfeile vom Faktor auf die Items; es lädt also eigentlich der Faktor auf das Item. Aus irgendeinem Grund hat es sich aber eingebürgert, umgekehrt davon zu sprechen, dass Items auf Faktoren laden. Diese verbale Unsitte (die es in grafischen und formelmäßigen Darstellungen nicht gibt) ist nach unseren Erfahrungen so hartnäckig, dass es sich nicht lohnt dagegen anzuschreiben. Wir verwenden deshalb die allgemein gebräuchliche Formulierung, wenn auch unter mildem Protest.

101 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 103 Spalten, entsteht eine Ladungsmatrix mit den Ladungen in den Datenzellen (vgl. Abb. 4.3 weiter unten). Wieder unter der Annahme unkorrelierter Faktoren kann man die Ladungen quadrieren und zeilen- oder spaltenweise aufsummieren. Die Spaltensumme wird uns später noch beschäftigen. Die Zeilensumme der quadrierten Ladungen (Σ j a mj 2 ) entspricht in diesem Fall der sog. Kommunalität h². Die Kommunalität ist also der Anteil der Varianz eines Items, der durch alle extrahierten Faktoren gemeinsam aufgeklärt werden kann. Sie lässt sich auch als Untergrenze für die Schätzung der Reliabilität des Items auffassen. Ein Grundproblem der Faktorenanalyse liegt nun darin, dass die Kommunalitäten geschätzt werden müssen, bevor die Faktorenanalyse durchgeführt werden kann und damit auch bevor die Anzahl der Faktoren und deren Ladungen bekannt sein können, aus denen die Kommunalität definitionsgemäß besteht. Die Werte werden benötigt, um sie in die Hauptdiagonale der Korrelationsmatrix (nicht der Ladungsmatrix!) einzusetzen, die als Grundlage aller weiteren Berechnungen dient. Eigentlich würde man also die Lösung brauchen, um die Berechnung überhaupt durchzuführen. In der Art, wie diesem Dilemma begegnet wird, unterscheidet sich die PCA grundsätzlich von anderen faktorenanalytischen Methoden. In der PCA werden in der Hauptdiagonalen der Korrelationsmatrix Einsen eingetragen, d.h. die anfängliche Schätzung der Kommunalität geht von einer vollständigen Aufklärung der Varianz des Items durch die Summe der Faktoren aus. Tatsächlich können so lange und so viele Komponenten extrahiert werden, bis die in den Items enthaltene Information vollständig reproduziert ist (was allerdings genauso viele Komponenten wie Items erfordert und daher das Ziel der Datenreduktion verfehlt). Bei der PAF und anderen Varianten der Faktorenanalyse werden als Schätzung der Anfangskommunalitäten meist die quadrierten multiplen Korrelationskoeffizienten R² zwischen dem jeweiligen Item und allen anderen Items eingesetzt. Dies ist eine konservative Schätzung der Kommunalität, da man davon ausgehen kann, dass in jedem Item auch ein Anteil spezifischer Varianz S (Spezifität) steckt, der weil systematisch zwar zur Reliabilität beiträgt, aber von den anderen Items nicht erfasst wird. In Abb. 4.2 sind schematisch die verschiedenen (fiktiven) Bestandteile der Varianz eines Items dargestellt, die in der Faktorenanalyse von Interesse sein können. Kommunalitäten Kommunalitätenschätzung bei PCA versus PAF

102 104 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung S 2 = 1 = 100% S 2 = R 2 1-R 2 h 2 1-h 2 a 2 m1 a 2 m2 a 2 mq r tt -h 2 1-r tt a 2 m1 a 2 m2 a 2 mq a 2?? S 1-r tt r tt 1-r tt Abb. 4.2: Varianzzerlegung eines Items. S 2 = Varianz. R 2 = gemeinsame Varianz eines Items mit alle anderen Items. a 2 = quadrierte Ladung: gemeinsame Varianz des Items mit dem Faktor. h² = Kommunalität. S = Spezifität. r tt = Reliabilität. a 2?? = Varianzanteil, der durch Items, die nicht in der Faktorenanalyse enthalten sind, erklärt werden könnte. Nach Einsetzen der Kommunalitäten wird nach einem methodenabhängigen Algorithmus, auf dessen mathematische Details wir hier nicht eingehen (vgl. zur PCA z.b. Bortz, 2005; Bühner, 2006), eine erste unrotierte Faktorenlösung produziert. Für die obige Grundgleichung des Modells mehrerer gemeinsamer Faktoren (die unter Auslassung des Fehlerterms dem Komponentenmodell entspricht) existieren jedoch theoretisch unendlich viele Lösungen, d.h. Kombinationen von Faktorwerten und Ladungen, für das Gleichungssystem. In den Algorithmen der verschiedenen Methoden wird eine eindeutige und nach den jeweiligen Kriterien optimale Lösung gesucht. Wenn diese gefunden ist, wird die Suche nach ebenfalls methodenspezifischen Kriterien abgebrochen and man spricht von der Konvergenz des Algorithmus. Die PCA konvergiert ohne weitere Restriktionen immer, die PAF und andere faktorenanalytische Methoden dagegen nicht zwingend. Prinzip der PCA Das Prinzip der PCA besteht darin, aus dem Variablensatz einen Satz neuer Variablen (Komponenten) zu extrahieren, die nach ihrer Bedeutung geordnet sind, indem jede Komponente ein Maximum der gesamten (verbleibenden) Varianz aller beteiligten Variablen aufklärt. Die Berechnung erfolgt eigentlich in einem Schritt; das Verfahren ist aber besser zu verstehen, wenn man es sich als sukzessiven Prozess vorstellt: Es wird diejenige Gerade (im bei p Variablen p- dimensionalen Raum) gesucht, die von allen Punkten (Vpn) im Raum die in der

103 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 105 Summe geringste Entfernung hat. Diese Gerade ist die erste Hauptkomponente. Man kann sie sich im Zweivariablenfall ähnlich einer Regressionsgeraden (jedoch ohne Konstante) vorstellen, nur dass die erste Hauptkomponente der PCA bei mehreren Variablen das Maximum an Gemeinsamkeiten aller beteiligten Variablen abbildet. Im (virtuell) nächsten Schritt wird eine weitere Komponente extrahiert, die von der ersten unabhängig (d.h. mit dieser unkorreliert) ist und unter dieser Bedingung wieder ein Maximum an Varianz im ursprünglichen Variablensatz abbildet. Weil sie von der ersten unabhängig ist, klärt die zweite Komponente ein Maximum derjenigen Varianz auf, die von der ersten noch nicht aufgeklärt werden konnte. Nach diesem Prinzip wird so lange fortgefahren, bis die ursprüngliche Varianz vollständig aufgeklärt ist, was ebenso viele Komponenten erfordert wie es ursprüngliche Variablen gab. Nur ist der neue Variablensatz, im Gegensatz zum alten, nach Varianzaufklärung geordnet. Wenn man die alten Variablen standardisiert, besitzen sie alle eine Varianz von Eins, während die erste Hauptkomponente eine wesentlich größere standardisierte Varianz (sog. Eigenwert, s.u.) besitzt, die letzten extrahierten Komponenten dagegen Eigenwerte kleiner Eins. Wenn man von diesen Komponenten die ersten beibehält, gewinnt man relativ viel; wenn man die letzten fallen lässt, verliert man relativ wenig. Es geht also darum, einen Satz von Komponenten zu finden, der mit einem Minimum an Komplexität (gemessen an der Zahl der Variablen) ein Maximum an Information des ursprünglichen Datensatzes bewahrt. In diesem Sinne ist die PCA ein datenreduzierendes Verfahren. Im Gegensatz zur PCA erfolgt die Berechnung der Faktoren bei der PAF wirklich schrittweise; der Algorithmus der PAF ist iterativ Mit Ausnahme der anfänglichen Kommunalitätenschätzung, die nicht von der vollständigen Aufklärung der Varianz der Items durch die Faktoren ausgeht (s.o.), entspricht das rechnerische Vorgehen bei der PAF im ersten Schritt der Durchführung einer PCA. Wenn dabei nach einem bestimmten Extraktionskriterium (s.u.) weniger als der vollständige Satz an Komponenten extrahiert wird, entstehen aus der PCA neue Schätzungen für die Kommunalitäten. Diese werden im nächsten Iterationsschritt der PAF in die Hauptdiagonale der Korrelationsmatrix eingesetzt (oder auch anstelle von R² gleich im ersten Schritt), und es wird auf dieser Grundlage eine neue PCA durchgeführt, deren Ergebnisse wiederum als Kommunalitätsschätzungen in den nächsten Schritt eingehen. Dieser Prozess wird so lange fortgesetzt, bis die Schätzungen nach einem festgelegten Abbruchkriterium konvergieren, d.h. die neue Schätzung sich nicht mehr wesentlich von der vorherigen unterscheidet. Das Konvergenzkriterium wird manchmal nicht erreicht, was nach Thompson (2004) meist an einer relativ zur Zahl der Variablen zu geringen Stichprobengröße liegt (allerdings sollte ggf. die recht geringe Voreinstellung von 25 Iterationen in SPSS heraufgesetzt werden, was das Problem manchmal auch löst). Da im Zuge der PAF der durch die Faktoren erklärbare Varianzanteil der Items geschätzt und nur dieser weiter untersucht wird, geht es bei der PAF nicht wie bei der PCA um die möglichst sparsame Beschreibung der ursprünglichen Daten, sondern um die Entdeckung Prinzip der PAF

104 106 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung theoretischer Variablen, die hinter den beobachteten stehen. In diesem Sinne ist die PAF ein theoriebildendes oder hypothesengenerierendes Verfahren. Bewertung der PCA versus PAF Von einigen Autoren (z.b. Russell, 2002) wurde generell von der Verwendung der PCA abgeraten, u.a. weil sie sich etwa der PAF gegenüber bei der Schätzung der Ladungen in der Population als unterlegen erwiesen hat (Fabrigar et al., 1999; Widaman, 1993). Dagegen weist z.b. Thompson (2004) darauf hin, dass die empirische Schätzung der Kommunalitäten bei der PAF den Einfluss von Stichprobencharakteristika auf die Ergebnisse vergrößert. Die Wahl der Methode hängt also auch von der Stichprobengröße ab, wobei der Zweck jedoch die wichtigste Determinante sein sollte. Ad (3) Zahl der extrahierten Faktoren. Wenn das Ziel der Faktorenanalyse ist, die Kovariation einer Vielzahl von Items durch möglichst wenige Komponenten zu beschreiben bzw. durch wenige latente Faktoren zu erklären, wäre es natürlich sinnlos, so viele Komponenten oder Faktoren zu extrahieren wie es Items gibt. An irgendeiner Stelle muss die Extraktion abgebrochen werden. Leider gibt es innerhalb der Faktorenanalyse kein allgemeingültiges Kriterium dafür, wann dies der Fall sein sollte. Es existieren jedoch einige gebräuchliche Verfahren bzw. Praktiken. Faktorenzahl nach theoretischen Vorstellungen Eigenwerte Ein inhaltliches Kriterium kann die Existenz theoretischer Vorstellungen bzw. eines theoretischen Modells über die Dimensionalität der Daten sein. Unser Beispieldatensatz beruht auf dem Fünf-Faktorenmodell der Persönlichkeit. In diesem Fall liegt also eine theoretische Begründung dafür vor, genau fünf Faktoren zu extrahieren. Allerdings ist in einem solchen Fall in aller Regel die CFA die konzeptionell angemessene Methode (vgl. Kap. 4.2). Innerhalb der EFA spielen die schon erwähnten Eigenwerte eine zentrale Rolle für die Bestimmung der Faktorenzahl. Wie die Kommunalitäten ergeben sich die Eigenwerte aus den quadrierten Ladungen a², jedoch nicht aufsummiert über alle Faktorladungen eines Items (Zeilensumme), sondern über die Ladungen sämtlicher Items auf demselben Faktor (Spaltensumme: Σ m a mj 2 ). Interpretieren lässt sich dies als Varianz des Faktors gemessen in Einheiten der Varianz je Item. Letztere liegt in der PCA definitionsgemäß bei Eins. Eine Komponente mit dem Eigenwert von 3 entspricht also der Varianzstärke von drei Items. Wenn man den Eigenwert durch die Gesamtzahl der Items teilt, ergibt sich außerdem der Anteil der durch den Faktor aufgeklärten Varianz des gesamten Tests. Eine Komponente mit dem Eigenwert 3 klärt bei einem aus zehn Items bestehenden Test 30 % der gesamten Varianz des Tests auf. Wenn man außerdem die Unkorreliertheit der Komponenten beibehält (orthogonale Rotation, s.u.) erhält man durch einfache Summation der Eigenwerte aller Komponenten geteilt durch die Itemzahl den Anteil der durch die extrahierten Komponenten insgesamt aufgeklärten Varianz des Tests und kennt damit auch den Informationsverlust durch die Datenreduktion. Wenn, um ein fiktives Beispiel zu verwenden, in der PCA drei Komponenten aus zehn Items extrahiert werden und zusammen 75 % der Varianz dieser Items aufklären, ver-

105 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 107 liert man 25 % der empirischen Information bei 70 % Datenreduktion. Diese einfachen Berechnungen beziehen sich jeweils auf die PCA. Allgemein ist die Summe der Eigenwerte unkorrelierter Faktoren identisch mit der Summe der Elemente in der Hauptdiagonalen der Korrelationsmatrix (sog. Spur der Matrix), die eben bei der PCA aus lauter Einsen besteht und allgemein der Summe der quadrierten Ladungen entspricht (vgl. Bortz, 2005). Um zu entscheiden, ab welchem Punkt es sich nicht mehr auszahlt, zusätzliche Varianz durch die Extraktion zusätzlicher Faktoren aufzuklären, stehen neben der theoretischen Spezifikation im Rahmen der EFA drei grundsätzliche Vorgehensweisen zur Verfügung. Die erste ist eine einfache Faustregel, entspricht u.a. in SPSS der Voreinstellung und stellt gleichzeitig die Obergrenze für die Anzahl der zu extrahierenden Variablen dar. Nach dem sog. Kaiser-Guttman-Kriterium (KG-Kriterium) sollen im Rahmen einer PCA alle Komponenten extrahiert werden, deren Eigenwert größer Eins ist. Die Begründung dafür ist, dass nur bei Eigenwerten größer Eins die durch die neue Variable aufgeklärte Varianz größer ist als die der alten, unterhalb also keine Datenreduktion mehr stattfindet. Je mehr Variablen in die Analyse eingehen, desto wahrscheinlicher ist es jedoch, dass bei strikter Anwendung des KG- Kriteriums zu viele Komponenten extrahiert werden, die teilweise schwer zu interpretieren sind und eher methodische Artefakte als inhaltliche Konstrukte abbilden. In der Regel empfiehlt es sich, die Entscheidung über die Anzahl der Faktoren nach anderen Kriterien zu treffen und vor dem nächsten Schritt der EFA die entsprechende Voreinstellung im Programm zu ändern. Bei dem zweiten häufig angewandten Extraktionskriterium handelt es sich um die grafische Analyse des Eigenwerteverlaufs über alle Faktoren in einem entsprechenden Diagramm. Für den Scree-Test werden alle Eigenwerte der Größe nach sortiert in einem Eigenwertediagramm (Scree-Plot, s. Abb. 4.9) abgetragen und durch eine geknickte Linie miteinander verbunden. Wenn man, von links mit dem größten Eigenwert beginnend, feststellt, dass die Linie auffällig abknickt (d.h. der Eigenwert deutlich abfällt), ist dies ein Hinweis darauf, nur die Faktoren vor dem Knick (d.h. links davon) zu extrahieren, vorausgesetzt das KG-Kriterium ist gleichzeitig erfüllt. Ein Problem des Scree-Tests ist, dass es kein wirklich objektives Kriterium dafür gibt, wann genau ein Knick als auffällig zu werten ist (siehe aber Nasser, Benson & Wisenbaker, 2002, zum Versuch einer statistischen Objektivierung). Dennoch hat sich diese einfache Methode bewährt. Sophistizierter als diese beiden einfachen Verfahren sind statistische Methoden zur Prüfung der Variablenzahl. Zum Beispiel lassen sich Signifikanztests wie der oben beschriebene Bartlett-Test auch nach Extraktion jedes Faktors auf die dann verbleibende Residualmatrix anwenden, um zu prüfen, ob diese noch immer signifikant von der Identitätsmatrix abweicht. Dies würde auf die Existenz weiterer Faktoren hindeuten. Thompson (2004) rät von der Anwendung des Bartlett- und ähnlicher Tests für diesen Zweck ab, da bei großen Stichproben auch triviale Ab- Faktorenzahl nach Eigenwert > 1 Faktorenzahl nach Scree-Test Faktorenzahl nach statistischen Kriterien

106 108 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung weichungen von der Identität signifikant werden und daher oft zu viele Faktoren extrahiert werden. Ein ähnliches Problem besteht bei dem im Rahmen einer ML- Faktorenanalyse angewandten χ²-test (s. Bühner, 2006). Dort prüft dieser Test die Angemessenheit der Gesamtzahl extrahierter Faktoren, indem die Passung der aktuellen Lösung zu den Daten als Nullhypothese formuliert wird. Bei signifikantem Befund muss weiter extrahiert werden, weshalb die Faktorenzahl direkt von der Stichprobengröße abhängt. Parallelanalyse und MAP-Test Zu den in der Literatur am besten evaluierten Verfahren zählt die Parallelanalyse nach Horn (1965). Dafür wird eine Matrix bzw. eigentlich viele Matrizen produziert, die den gleichen Rang (gleiches p) wie die empirische Matrix besitzen, aber auf Zufallswerten beruhen. Aus diesen Zufallskorrelationen werden dann Faktoren bzw. Komponenten extrahiert und wieder nach ihren Eigenwerten geordnet. Da die Korrelationsmatrix von Zufallsvariablen in unendlich großen Stichproben der Identitätsmatrix entspricht, sind Abweichungen der Eigenwerte von Eins (bei der PCA) definitionsgemäß rein zufällig bedingt. Die Zufallseigenwerte werden nun mit den empirischen Eigenwerten verglichen. Die aus der empirischen Matrix extrahierten Faktoren bzw. Komponenten werden beibehalten, sofern und so lange ihre Eigenwerte die Eigenwerte der Faktoren aus der Zufallsmatrix mit dem gleichen Rangplatz übersteigen. Da man mit den Computer problemlos viele Zufallswerte generieren und faktorisieren kann, lässt sich auch eine Verteilung der zufallsgenerierten Eigenwerte erstellen. Dann kann man die empirischen Faktoren z.b. dann beibehalten, wenn ihre Eigenwerte größer sind als 95 % der zufallsgenerierten Eigenwerte mit dem gleichen Rangplatz. Dies lässt sich als überzufällige (bedeutsame) Abweichung des empirischen Eigenwerts nach oben interpretieren, obwohl es formal kein Signifikanztest ist. Allerdings neigt auch die Parallelanalyse bei sehr großen Stichproben zur Überschätzung der Faktorenzahl. Je größer die Stichprobe ist, desto flacher ist der Verlauf der zufälligen Eigenwerte, da für N jede Zufallsmatrix der Identitätsmatrix entspricht und damit die Eigenwerte den Elementen in der Hauptdiagonalen der Matrix (bei der PCA also Einsen). Im hypothetischen Extrem entspricht das Ergebnis der Parallelanalyse also dem KG- Kriterium. Die Parallelanalyse lässt sich auch grafisch durchführen, indem der Screeplot des zufälligen Eigenwerteverlaufs über den empirischen projiziert wird und dann nur die Faktoren links vom Schnittpunkt der beiden Kurven extrahiert werden (s. z.b. Bortz, 2005). Ein anderes, im Ergebnis jedoch meist ähnliches Verfahren, ist der Minimum-Average-Partial-Test (MAP-Test) von Velicer (1976). Beide Verfahren werden bei O Connor (2000) dargestellt, der für die Programmpakete SPSS und SAS auch eine Syntax zur Verfügung stellt, mit der sich Parallelanalyse und MAP-Test im Rahmen der PCA und der PAF einfach durchführen lassen. Ad (4) Rotation. Durch die Extraktion wurden Faktoren bzw. Komponenten festgelegt, die im Faktorraum so liegen, dass sie sukzessive möglichst große Anteile der (bei der PAF gemeinsamen) Varianz der Items abbilden. Das garantiert allerdings nicht, dass diese Faktoren auch inhaltlich interpretierbar sind. Die EFA ist

107 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 109 ein rein statistisches, exploratives Verfahren, das der Forscherin die Entscheidung darüber, was die neu entdeckten Faktoren bedeuten, nicht abnimmt. Die Interpretation kann allerdings durch statistische Hilfsmittel erleichtert werden. Diesem Zweck dient im Rahmen der EFA die Rotation der Faktoren. Auch hier existieren unterschiedliche Verfahren, die sich in ihren Zielen etwas unterscheiden. Meist wird mit der Rotation aber das Kriterium der Einfachstruktur angestrebt. Wenn in der ursprünglichen Faktoren- oder Komponentenmatrix überwiegend Ladungen in mittlerer Höhe vorkommen, wenn sich also die Ladungen je Item auf mehrere Faktoren relativ gleichmäßig verteilen und auch je Faktor viele Ladungen mittlerer Höhe dominieren, wird dieses Kriterium verfehlt. Es ist dann nämlich kaum möglich, die Items eindeutig einem bestimmten Faktor zuzuordnen und die Faktoren inhaltlich eindeutig zu interpretieren. Dafür wäre es wünschenswert, wenn möglichst jedes Item auf einen bestimmten Faktor hoch und auf die anderen niedrig oder gar nicht laden würde. Ein solches Ladungsmuster entspricht der Einfachstruktur, die i.d.r. mittels Rotation nur angenähert werden kann. Durch die Rotation.wird die Lage der Faktoren im Faktorraum verändert, nicht deren Anzahl oder die Lage der Items. Einfach gesagt werden die Achsen (Faktoren, Komponenten) so gedreht, dass sie sich einigen Punkten (Items, beobachtete Variablen) im Raum annähern und von anderen entfernen, so dass am Ende die Punkte den Achsen möglichst eindeutig zugeordnet werden können (Einfachstruktur). Nach der Rotation bleibt die Gesamtvarianz der extrahierten Faktoren erhalten, es ändert sich aber die Verteilung der Varianz auf die extrahierten Faktoren bzw. Komponenten (d.h. deren Eigenwerte, die allgemein gleichmäßiger werden). Eine grundsätzliche Entscheidung, die dabei getroffen werden muss, ist, ob die ursprüngliche Unabhängigkeit der Faktoren erhalten bleiben oder aufgegeben werden soll. Im ersten Fall spricht man von orthogonaler (rechtwinkliger) Rotation, weil die Achsen im Faktorraum zueinander in rechten Winkel stehen. Der zweite Fall heißt oblique (schiefwinklige) Rotation, weil auch der Winkel zwischen den Achsen verändert wird, was inhaltlich bedeutet, dass eine Korrelation zwischen den Achsen zugelassen wird. Die Korreliertheit führt u.a. dazu, dass die quadrierten Ladungen nicht mehr einfach zeilenweise summiert werden können, um die Kommunalität zu erhalten, und dass sich die neuen Eigenwerte nicht mehr zu einem Maß für die aufgeklärte Gesamtvarianz addieren. Die Entscheidung zwischen orthogonaler und obliquer Rotation sollte aber im Wesentlichen aufgrund inhaltlicher Überlegungen getroffen werden. Einerseits maximiert Orthogonalität die theoretische Sparsamkeit der Faktorenlösung, weil Korreliertheit immer auch Redundanz bedeutet. Andererseits sind korrelierte Faktoren oft einfacher interpretierbar, weil sich so Mehrfachladungen der Items besser verteilen lassen. Außerdem stellt postulierte Unabhängigkeit zwischen Konstrukten eine Restriktion dar, die gerade bei einem explorativen Vorgehen ohne a priori Definitionen begründungspflichtig ist. Dies dürfte bei der PCA, deren Ziel die lediglich deskriptive Vereinfachung des Datensatzes ist, häufig leichter fallen als bei der PAF und anderen faktorenanalytischen Methoden, deren Ziel die Entdeckung theoretischer Einfachstruktur Orthogonale versus oblique Rotation; Prokrustes-Rotation

108 110 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Konstrukte ist, über die noch kaum oder keine Vorannahmen existieren. Wenn solche Annahmen vorliegen und gleichzeitig die Voraussetzungen für die Durchführung einer CFA ungünstig sind, kann es sinnvoll sein, im Rahmen der CFA eine sog. Kriteriums- oder Prokrustes-Rotation durchzuführen, bei der versucht wird, eine erwartete oder früher gefundene Faktorenstruktur anhand der empirischen Daten zu reproduzieren. Im Grunde stellt dies ein konfirmatorisches Vorgehen innerhalb der EFA dar (vgl. z.b. Bortz, 2005 sowie McCrae, Zonderman, Costa, Bond & Paunonen, 1996, die auch eine entsprechende Syntax für SPSS und SAS zur Verfügung stellen). Einzelne Rotationsverfahren Oblique Rotation als Grundlage einer Faktorenanalyse zweiter Ordnung Im Folgenden werden einige Varianten der rein explorativen orthogonalen und obliquen Rotation in aller Kürze vorgestellt (vgl. z.b. Bühner, 2006; s. zu einer Auflistung mit weiterführender Literatur auch Bortz, 2005). Das verbreitetste Verfahren der orthogonalen Rotation ist die Varimax-Rotation, bei der die Komplexität der Faktoren minimiert wird, indem die Unterschiede der Ladungen innerhalb eines Faktors maximiert werden (zur rechnerischen Durchführung s. Bortz, 2005). Hohe Ladungen je Faktor werden tendenziell noch höher, geringe noch geringer. Dies erhöht die Interpretierbarkeit der Faktoren, aber nicht unbedingt die Eindeutigkeit der Zuordnung der Items zu einem Faktor. Es existieren auch Varianten der orthogonalen Rotation, die letzteres Ziel (Quartimax) oder einen Kompromiss aus beiden (Equamax) anstreben. Nach Fabrigar et al. (1999) gibt es für die oblique Rotation keine ähnlich dominante Technik wie Varimax bei der orthogonalen Rotation Eine oblique Variante, die u.a. von Thompson (2004) empfohlen wird, ist die Promax-Rotation, bei der Ladungen aus einer orthogonalen Lösung mit einem Exponenten (z.b. 4) potenziert werden, wodurch sich hohe Ladungen verkleinern, geringe Ladungen aber fast ganz verschwinden. Eine andere Variante, bei der der Grad der Korreliertheit verändert werden kann, ist die Direkte Oblimin-Rotation, die über die Einstellung des sog. Delta-Wertes eine Variation zwischen maximaler Korreliertheit (Delta = 0) und Orthogonalität (Delta = -4) zulässt. Wegen der unterschiedlichen Ergebnisse muss der Delta-Wert hier mit angegeben werden. Durch die Rotation entstehen, je nach Verfahren, ein bis zwei neue Ladungsmatrizen sowie bei obliquer Rotation zusätzlich eine Korrelationsmatrix der rotierten Komponenten bzw. Faktoren, die auch als Primärfaktoren bezeichnet werden. Mit der Korrelationsmatrix der Primärfaktoren als Grundlage kann ggf. eine (dann meist orthogonale) Faktorenanalyse zweiter Ordnung durchgeführt werden. Viele theoretische Modelle in der Psychologie postulieren eine hierarchische Struktur von Daten. In einigen Varianten z.b. des Fünf-Faktoren-Modells der Persönlichkeit werden unterhalb der fünf Faktoren oder Domänen unterschiedlich viele und spezifische Facetten (d.h. enger definierte Subkonstrukte) vermutet (z.b. Costa & McCrae, 1995), während andere Autoren umgekehrt die fünf Faktoren zu nochmals breiteren Konstrukten zusammengefasst haben (z.b. Digman, 1997; vgl. Modul 7). Solche hierarchischen Strukturen lassen sich bei obliquer Rotation mittels der EFA höherer Ordnung aufdecken, sie lassen sich aber auch im Rahmen der CFA prüfen. Die beiden neuen Ladungsmatrizen heißen Mustermatrix und

109 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 111 Strukturmatrix. Sie sind eine wesentliche Grundlage der Interpretation der Faktoren und werden deshalb im folgenden Unterabschnitt vorgestellt. Ad (5) Interpretation. Durch die Rotation entsteht zum einen eine neue Matrix, in der wie in der ursprünglichen Faktormatrix Korrelationen zwischen Items und Faktoren stehen, allerdings jetzt mit den rotierten Faktoren. Diese Matrix heißt Strukturmatrix, die darin enthaltenen Koeffizienten auch Strukturkoeffizienten. Ferner wird eine Matrix generiert, in der die partiellen standardisierten Regressionsgewichte des Items mit den rotierten Faktoren stehen. Diese Mustermatrix enthält die Gewichte a der weiter oben dargestellten faktorenanalytischen Grundgleichung, die auch als Faktormusterkoeffizienten (factor pattern coefficients) bezeichnet werden. Einige englischsprachige Fachzeitschriften verbieten übrigens die Verwendung des populären Begriffs loading, weil dieser oft für beide Arten von Koeffizienten gebraucht wird und deshalb mehrdeutig ist. Allerdings sind Muster- und Strukturmatrix bei orthogonaler Rotation identisch, weshalb die Verwechslungsgefahr hier entfällt. Das gilt nicht für die oblique Rotation, bei der sich Muster- und Strukturkoeffizienten unterscheiden, und zwar umso stärker, je höher die Faktoren miteinander korrelieren. Interpretiert werden meist die Musterkoeffizienten, weil hier die indirekten Korrelationen, die durch die Korrelation der Faktoren untereinander entstehen, auspartialisiert wurden, und sie deshalb eindeutiger dem jeweiligen Faktor zuzurechnen sind. Allerdings sind hier ergänzend die Strukturkoeffizienten (d.h. die Korrelationen nullter Ordnung) zu berücksichtigen. Wie die Beta-Gewichte in der Regression können die Musterkoeffizienten im Extremfall Werte > 1 oder < -1 annehmen, die Strukturkoeffizienten wie alle Korrelationen dagegen nicht. Abb. 4.3 zeigt schematisch die in einer Ladungsmatrix enthaltene Information. Ein Zahlenbeispiel folgt später in Abschnitt Struktur- versus Mustermatrix Faktoren bzw. Komponenten Zeilensumme 1,2 F 1 F 2 F q h² Item 1 a 11 a 12 a 1q Σ j a 1j 2 Item 2 a 21 a 22 a 2q Σ j a 2j 2 Item 3 a 31 a 32 a 3q Σ j a 3j 2 Item 4 a 41 a 42 a 4q Σ j a 4j 2 Item m a m1 a m2 a mq Σ j a mj 2 Spaltensumme 1 : Eigenwerte Σ m a m1 2 Σ m a m2 2 Σ m a mq 2 Gesamtsumme 1,2 : Varianzaufklärung Abb. 4.3: Aus der Ladungsmatrix bei orthogonaler Rotation (d.h. Strukturmatrix und Mustermatrix identisch, vgl. Text) ersichtliche Information (Anm.: 1 = Um die Kommunalitäten, die Eigenwerte und die gesamte Varianzaufklärung zu erhalten, müssen die Ladungen vor Aufsummierung quadriert werden; 2 = gilt nur bei orthogonaler Rotation)

110 112 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Interpretation: Hauptund Nebenladungen, Markiervariablen Faktorwerte versus Rohwertsummen Für die inhaltliche Interpretation bedeutsam ist vor allem das Muster der (nicht quadrierten) Ladungskoeffizienten. Zur Vereinfachung ist es zunächst ratsam, in der SPSS-Ausgabe, die übrigens keine Zeilen- und Spaltensummen enthält, relativ unbedeutende Ladungen z.b. unterhalb von.20 oder.30 zu unterdrücken (s.u.). Zur Interpretation einzelner Faktoren dienen zwar i.d.r. ausschließlich Items mit noch höheren Ladungen (z.b. >.40 bis.60 oder mit a²/h² >.50; vgl. Bühner, 2006); für das Gesamtbild der Einfachstruktur sind aber auch die sog. Sekundäroder Nebenladungen wichtig. Ein Item lässt sich einem Faktor dann eindeutig zuordnen, wenn er auf diesen hoch und gleichzeitig auf andere niedrig lädt. Items, die diesen Kriterien besonders gut gerecht werden, heißen auch Markiervariablen. Markiervariablen sind für die Interpretation, die kein statistisches Verfahren dem Forscher abnehmen kann, eine große Hilfe, sollten aber im Zusammenhang betrachtet werden. Oft beruht die inhaltliche Interpretation eines Faktors in der Forschungspraxis hauptsächlich auf den zwei bis drei Items mit den höchsten Ladungen. Grundsätzlich ist aber zu fordern, dass ein Faktor durch möglichst viele Variablen mit jeweils möglichst hohen Ladungen definiert wird (sog. Überdeterminiertheit). Dies gilt besonders bei kleinen Stichproben, da sonst die Gefahr der Interpretation von Zufallsfaktoren besteht. Hinweise zu Untergrenzen für die Kombination von Itemzahl, Ladungshöhe und Stichprobengöße werden etwa bei Bortz (2005) referiert. Eine Methode zur Auswahl von Markiervariablen, die auch Nebenladungen berücksichtigt, wurde kürzlich von Gallucci und Perugini (2007) vorgeschlagen und, mit vorteilhaften Ergebnissen, mit anderen Methoden verglichen. Ferner sollten insbesondere neu entdeckte Faktoren in unabhängigen Replikationen, die dann eher auf die CFA oder die Prokrustes-Rotation zurückgreifen sollten, bestätigt werden. Von Signifikanztests dagegen ist für die Beurteilung der Bedeutsamkeit von Faktorladungen eher abzusehen, da sich bei größeren Stichproben auch vernachlässigbare Ladungen statistisch von Null unterscheiden. Ad (6) Faktorwerte. Häufig ist das Ziel einer Faktorenanalyse bereits mit der Aufdeckung und Interpretation der Faktoren erreicht. Dies kann bei der Testkonstruktion z.b. dazu dienen, die Items gemäß ihrer empirisch ermittelten Zugehörigkeit zu den Faktoren neu zusammenzustellen und bei der Ermittlung der Testwerte diese Zusammenstellung der Rohwertberechnung zugrunde zu legen. Dieses Vorgehen führt allerdings dazu, dass Nebenladungen untergehen, wenn Items genau einem Faktor zugeordnet sind (s. Abschn. 4.3). Es lassen sich jedoch auch die genauen individuellen Ausprägungen auf den neu ermittelten Variablen berechnen und abspeichern. Diese Faktorwerte ergeben sich, nach entsprechender Umstellung der faktorenanalytischen Grundgleichung, als eine gewichtete Kombination der Items, die zu dem jeweiligen Faktor beitragen. In SPSS werden diese Gewichte in der Koeffizientenmatrix der Faktorwerte angezeigt. Faktorwerte werden also nicht direkt beobachtet, sondern indirekt aus den Daten berechnet und sind deshalb auch extrem stichprobenabhängig. Dies ist einer der Gründe, warum häufiger mit den gegenüber Stichprobencharakteristika robusteren Rohwertsummen ge-

111 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 113 rechnet wird. In manchen Fällen möchte man jedoch reine Ausprägungen auf Faktoren ermitteln oder benötigt Faktorwerte für weitere Berechnungen. Es existieren unterschiedliche Berechnungsmethoden unter denen die Regressionsrechnung die häufigste ist (Voreinstellung in SPSS). In der Regel führen diese Methoden zu z-standardisierten Variablen, bei der PCA (und nur bei dieser) auch zu identischen Ergebnissen (Thompson, 2004). Aufgrund der Standardisierung lassen sich mit den Faktorwerten keine Mittelwertsvergleiche zwischen den Faktoren durchführen (dieser ist immer Null; vgl. jedoch Thompson, 2004, zu einer Methode, die sich für diesen Zweck eignet). Es lassen sich aber auf dieser Grundlage Vergleiche zwischen Teilstichproben (z.b. Geschlechtervergleiche) anstellen. Bei obliquer Rotation kann mit den Faktorwerten auch eine Faktorenanalyse zweiter Ordnung durchgeführt werden (s.o.). So wie die Faktorenanalyse erster Ordnung die gemeinsame Varianz der Items von deren Spezifität und ggf. den Fehleranteilen trennt, untersucht die Faktorenanalyse zweiter Ordnung korrelierte Faktorwerte auf gemeinsame Sekundärfaktoren und die den Primärfaktoren spezifische Varianz. Bei der PCA (und wiederum nur dort) entspricht die Korrelation der Faktorwerte exakt der Korrelation der Faktoren selbst. Andere Extraktionsmethoden erfordern ein etwas komplizierteres Vorgehen (vgl. Thompson, 2004; zu Alternativen bei Anwendung der Faktorenanalyse für die Itemselektion und die Identifikation von Sekundärfaktoren siehe auch Gorsuch, 1997, sowie O Connor, 2001). Berechnung und Interpretation von Faktorwerten Beispiel für die Durchführung einer EFA mit SPSS Im Folgenden werden wir die einzelnen Schritte einer EFA anhand des schon in Kapitel 3 benutzten Beispieldatensatzes zum BFI durchspielen. Dazu muss im SPSS-Menü ANALYSIEREN -> DIMENSIONSREDUZIERUNG -> FAKTO- RENANALYSE aufgerufen werden. Es öffnet sich das in Abb. 4.4 dargestellte Fenster, wobei hier bereits sämtliche 44 Items des BFI in die Variablenliste verschoben wurden. Abb. 4.4: SPSS-Fenster Faktorenanalyse

112 114 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Prüfung der Voraussetzungen für die EFA Zur Beurteilung der Voraussetzungen können über DESKRIPTIVE STATISTIK der KMO und Bartlett-Test auf Sphärizität abgerufen werden (Abb. 4.5). Wir haben die Ergebnisse dieser Tests in Abb. 4.6 bereits dargestellt, wobei diese natürlich erst nach Durchführung der gesamten EFA (wieder über die Befehle OK oder empfehlenswerter EINFÜGEN in Abb. 4.4) sichtbar werden. Nicht markiert in Abb. 4.5 sind einige andere durchaus empfehlenswerte Optionen. Der Befehl Univariate Statistiken generiert Werte, die wir bereits aus Kapitel 3 kennen. Mittels Anti-Image z.b. können u.a. die MSA-Koeffizienten zur Beurteilung der Eignung einzelner Items für die EFA aufgerufen werden. Abb. 4.5: SPSS-Fenster Faktorenanalyse: Deskriptive Statistik KMO- und Bartlett-Test Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.,872 Bartlett-Test auf Sphärizität Ungefähres Chi-Quadrat 13636,216 df 946 Signifikanz nach Bartlett,000 Abb. 4.6: SPSS-Ausgabe KMO und Bartlett-Test auf Sphärizität Der hochsignifikante Wert des Bartlett-Tests deutet zumindest darauf hin, dass die Korrelationsmatrix sich überzufällig von der Diagonal- oder Identitätsmatrix (Nullkorrelationen) unterscheidet. Auch der KMO-Test erreicht mit.87 einen befriedigenden Wert. Die Kennwerte zur Gesamtmatrix sprechen also für die Anwendbarkeit der Faktorenanalyse. Aus den in Kapitel 3 dargestellten Itemanalysen wissen wir allerdings, dass die Items in keinem Fall univariat normalverteilt sind, weshalb sich die Prüfung der multivariaten Normalverteilung erübrigt. Einige Verteilungen einzelner Items sind außerdem schief, und zudem gibt es sowohl links- als auch rechtsschiefe Items, was für die Faktorenanalyse methodisch un-

113 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 115 günstig ist (nicht jedoch unter inhaltlichen Gesichtspunkten für die Testkonstruktion!). Andererseits wurde bei der Itemanalyse auch festgestellt, dass keine der Abweichungen von der Form der Normalverteilung so extrem ist, dass sich die Faktorisierung verbietet (vgl. Bühner, 2006). Ferner erreichen die MSA- Koeffizienten, die der Hauptdiagonalen der hier nicht dargestellten Anti-Image- Korrelationsmatrix zu entnehmen sind, durchgängig befriedigende Werte (der geringste Wert ist.76 für Item ob41i). Da bei der Entscheidung über den Ausschluss von Items aufgrund einzelner Kennwerte ohnehin große Vorsicht geboten ist, spricht insgesamt viel dafür, die Faktorenanalyse mit sämtlichen Items durchzuführen. Schon um die Ergebnisse zur Illustration vergleichen zu können, führen wir hier sowohl eine PCA als auch eine PAF durch. Dies kann auch inhaltlich generell sinnvoll sein, so lange die Unterschiede der beiden Methoden bei den folgenden Schritten konsequent berücksichtigt werden. Aus dem SPSS-Fenster Faktorenanalyse heraus erfolgt die Auswahl über die Option EXTRAKTION, die das in Abb. 4.7 dargestellte Fenster aufruft. Die PCA (Hauptkomponenten) ist voreingestellt, die PAF muss dagegen über den Menüpunkt METHODE -> HAUPTACHSEN- FAKTORENANALYSE angewählt werden. Von den übrigen Optionen bei der Extraktion wählen wir zusätzlich zur nicht rotierten Faktorlösung (Voreinstellung) den Screeplot und belassen es beim Punkt EXTRAHIEREN zunächst beim voreingestellten KG-Kriterium (Eigenwerte > 1). An diesem Punkt können wir über den Befehl WEITER zunächst ins Hauptmenü der Faktorenanalyse (Abb. 4.4) zurückkehren und von dort aus mittels EINFÜGEN je eine Syntax für PCA und PAF generieren. Die damit erzeugten noch unrotierten Faktorlösungen dienen als Grundlage für die Entscheidung über die Anzahl zu extrahierender Faktoren. Faktorenextraktion mittels PAF und PCA Abb. 4.7: SPSS-Fenster Faktorenanalyse: Extraktion

114 116 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Entscheidung über Faktorenzahl Ausgegeben werden in diesen Analysen in SPSS neben den schon dargestellten Prüfgrößen (Abb. 4.6) jeweils die anfänglichen und extrahierten Kommunalitäten, die nach extrahierten Komponenten bzw. Faktoren aufgeschlüsselte Gesamtvarianz, die Screeplots sowie die unrotierte Komponenten- bzw. Faktorenmatrix. Auf eine detaillierte Darstellung der Kommunalitäten verzichten wir hier (zu einem ausführlichen Bsp. siehe Bühner, 2006). An dieser Stelle sei dazu nur angemerkt, dass die Kommunalitäten erst nach der Entscheidung über die endgültige Zahl der extrahierten Faktoren interpretiert werden sollten, weil sie umso höher ausfallen, je mehr Faktoren extrahiert werden und damit zur Varianzaufklärung eines Items beitragen können. Außerdem kann man feststellen, dass die Kommunalitäten bei der PCA generell höher ausfallen, die Rangfolge zwischen PCA und PAF aber sehr ähnlich ist. Die Höhe der Eigenwerte der extrahierten Komponenten bzw. Faktoren ist Abb. 4.8 für die PAF zu entnehmen. Bei der PCA (nicht dargestellt) sind die Werte in den Spalten unter Anfängliche Eigenwerte identisch mit denen in Abb. 4.8, und die Summen von quadrierten Faktorladungen für Extraktion listen nochmals dieselben Werte auf, jedoch beschränkt auf Komponenten mit Eigenwerten größer Eins. Erklärte Gesamtvarianz Anfängliche Eigenwerte Summen von quadrierten Faktorladungen für Extraktion Faktor Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % 1 6,977 15,857 15,857 6,499 14,769 14, ,617 10,492 26,349 4,136 9,400 24, ,365 7,649 33,998 2,922 6,640 30, ,907 6,607 40,604 2,383 5,416 36, ,454 5,576 46,181 1,978 4,495 40, ,874 4,258 50,439 1,375 3,124 43, ,332 3,027 53,466,838 1,906 45, ,123 2,553 56,019,611 1,388 47, ,018 2,315 58,334,484 1,101 48,240 10,981 2,230 60,563 11,907 2,061 62,624 12,835 1,898 64,522 13,821 1,866 66,388 14,775 1,762 68,150 15,752 1,710 69,860 16,723 1,642 71,502 17,714 1,622 73,124 18,671 1,525 74,649 19,644 1,464 76,113

115 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung ,630 1,431 77,544 21,586 1,332 78,877 22,573 1,303 80,179 23,558 1,268 81,448 24,532 1,210 82,657 25,524 1,191 83,849 26,512 1,163 85,012 27,487 1,107 86,119 28,482 1,096 87,215 29,472 1,073 88,288 30,445 1,011 89,298 31,430,978 90,276 32,419,951 91,228 33,400,909 92,137 34,387,880 93,017 35,373,847 93,864 36,364,828 94,692 37,334,759 95,451 38,330,750 96,201 39,320,727 96,928 40,297,676 97,604 41,283,644 98,247 42,271,617 98,864 43,265,602 99,466 44,235, ,000 Extraktionsmethode: Hauptachsen-Faktorenanalyse. Abb. 4.8: SPSS-Ausgabe Erklärte Gesamtvarianz Bei der PAF fallen nicht nur die quadrierten Zeilensummen (Kommunalitäten) geringer aus als bei der PCA, sondern auch die quadrierten Spaltensummen (Ladungen je Faktor). Wie man an den anfänglichen Eigenwerten (linke Tabellenhälfte), die sich bei der PAF, aber nicht bei der PCA nach Extraktion verändern (rechte Tabellenhälfte), unmittelbar erkennt, müssten nach dem KG-Kriterium neun Komponenten bzw. Faktoren extrahiert werden. Ob diese Anzahl sinnvoll ist, soll zunächst anhand des Screeplots weiter beurteilt werden (Abb. 4.9).

116 118 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Abb. 4.9: SPSS-Ausgabe Screeplot Im Diagramm sind die Faktoren gegen ihren jeweiligen Eigenwert abgetragen. Die Vielzahl der ursprünglichen Variablen macht den Screeplot etwas unübersichtlich. Dennoch wird an den Pfeilen, von links beginnend, erkennbar, dass hier entweder zwei, fünf (hier befindet sich der charakteristische Eigenwertabfall nach dem Knick) und eventuell auch sechs Faktoren extrahiert werden könnten. Für einen Abbruch der Extraktion nach dem neunten Faktor, wie vom KG-Kriterium indiziert, besteht nach dem Scree-Test dagegen wenig Anlass (durchbrochener Pfeil). Zusätzliche Klarheit sollte die Parallelanalyse verschaffen. Für die PCA sind die ersten zehn Eigenwerte der Zufallskomponenten in Abb neben den empirischen Eigenwerten aus dem Datensatz wiedergegeben. Die Aufstellung enthält sowohl den Mittelwert der Eigenwerte aus 100 Zufallsdatensätzen als auch die Werte für das 95. Perzentil dieser Verteilung. Letzteres bedeutet, dass in 95 % der Zufallsdatensätze Eigenwerte in höchstens dieser Höhe extrahiert wurden. Dies kann, in inhaltlicher (nicht technischer) Analogie zu einem Signifikanztest, als Kriterium für die Überzufälligkeit der empirisch extrahierten Faktoren dienen.

117 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 119 Komponente empirische Eigenwerte aus PCA Mittelwert Eigenwerte aus Parallelanalyse 95. Perzentil Eigenwerte aus Parallelanalyse 1 6,977 1,474 1, ,617 1,425 1, ,365 1,392 1, ,907 1,359 1, ,454 1,331 1, ,874 1,305 1, ,332 1,279 1, ,123 1,255 1, ,018 1,232 1,249 10,981 1,211 1,232 Abb. 4.10: Ergebnis einer Parallelanalyse zur PCA in SPSS Von oben nach unten gelesen unterschreiten die empirischen Eigenwerte ab der achten Komponente sowohl den Mittelwert als auch das 95. Perzentil der Zufallswerte aus der Parallelanalyse. Das bedeutet, dass alle vor diesem Schnittpunkt liegenden Komponenten, also die ersten sieben, überzufällig sind und extrahiert werden sollten. Allerdings ist in den letzten beiden Spalten von Abb auch zu erkennen, dass der Verlauf der Zufallseigenwerte ausgesprochen flach ist, was mit der Größe der Stichprobe im Beispieldatensatz zu tun hat. Der flache Verlauf führt tendenziell zur Extraktion von mehr empirisch bestimmten Faktoren (hier wären schon ab ca. N < 750 nur noch sechs Komponenten zu extrahieren; zum gleichen Ergebnis führt auch der hier nicht dargestellte revidierte MAP-Test). Die vorliegenden Analysen illustrieren das grundsätzliche Problem der empirischen Bestimmung der Faktorenzahl. Wie viele Faktoren bzw. Komponenten sollen letztlich extrahiert werden: zwei, fünf (beides nach Sree-Test möglich), sechs (MAP-Test), sieben (Parallelanalyse) oder neun (KG-Kriterium)? Sollen im Zweifel eher mehr oder weniger Faktoren extrahiert werden? Mit mehr Faktoren ist man insofern auf der sicheren Seite als nicht die Gefahr besteht, bedeutsame Faktoren zu übersehen. Andererseits werden gerade bei der Faktorenanalyse von Testitems oft Faktoren extrahiert, die sich als Methodenartefakte oder nicht replizierbare Zufallskomponenten herausstellen. Bei Inspektion der unrotierten Komponentenmatrix, auf deren Darstellung wir hier verzichten, ließe sich erkennen, dass auf die erste Hauptkomponente auffällig viele C-Items positiv und N-Items negativ laden, was mit deren sozialer Erwünschtheit korrespondiert, und dass die im Verlauf weiter hinten rangierenden Komponenten kaum noch bedeutsame La-

118 120 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung dungen aufweisen. Im vorliegenden Fall sprechen die belastbarsten empirischen Kriterien für die Extraktion von sechs bis sieben Komponenten. Allerdings liegt hier auch ein theoretisches Entscheidungskriterium vor, da das BFI nach dem Fünf-Faktorenmodell konstruiert wurde. Nachdem eine entsprechende Lösung immerhin durch den Scree-Test gestützt wird, entscheiden wir uns hier dafür, im nächsten Schritt zunächst eine Rotation mit fünf Faktoren bzw. Komponenten durchzuführen, jedoch danach eine weitere Variable zu extrahieren, um zu überprüfen, inwiefern sich die inhaltliche Interpretation dadurch verändert. In SPSS geschieht dies, indem im schon aus Abb. 4.7 bekannten Fenster FAKTOREN- ANALYSE: EXTRAKTION anstelle des Eigenwertkriteriums im Menüpunkt FESTE ANZAHL VON FAKTOREN die entsprechende Zahl eingetragen wird. Wir können jetzt außerdem die Häkchen unter ANZEIGE entfernen, da wir die entsprechenden Analysen schon durchgeführt haben. Rotation Weiter stellt sich zunächst die Frage nach dem angemessenen Rotationsverfahren. Modelltheoretisch sind die fünf Faktoren als unabhängig voneinander gedacht, was für eine orthogonale Rotation spräche. Empirisch haben sie sich allerdings fast nie als wirklich unkorreliert herausgestellt, und es finden sich mit einer gewissen Konsistenz auch Hinweise auf eine Faktorenstruktur (noch) höherer Ordnung (Digman, 1997). Wir entscheiden uns deshalb für ein obliques Rotationsverfahren und wenden die Promax-Rotation mit dem voreingestellten Kappawert (d.h. Exponenten) von 4 an. Dies geschieht, indem wir im Grundmenü FAKTO- RENANALYSE (vgl. Abb. 4.4) das Fenster ROTATION aufrufen und dort, wie in Abb gezeigt, die entsprechende Einstellung vornehmen. Zur Verbesserung der Übersichtlichkeit geben wir außerdem im Fenster OPTIONEN an, dass Koeffizienten <.25 unterdrückt werden sollen (dazu das entsprechende Kästchen markieren und den voreingestellten Wert von.10 überschreiben; s. Abb. 4.12). Dies führt dazu, dass nur noch praktisch einigermaßen bedeutsame Ladungen und Nebenladungen angezeigt werden. Abb 4.11: SPSS-Fenster Faktorenanalyse: Rotation

119 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 121 Abb 4.12: SPSS-Fenster Faktorenanalyse: Optionen Mit diesen Änderungen führen wir je eine neue PCA und PAF durch, wobei jeweils eine Struktur- und Mustermatrix sowie eine Komponenten- bzw. Faktorkorrelationsmatrix generiert werden. Wir betrachten zunächst die Koeffizienten der Mustermatrizen der Fünf-Faktorenlösungen für PCA und PAF (Abb. 4.13). Mustermatrix Komponente (PCA) Faktor (PAF) I II III IV V I II III IV V eb01,746,686 ab02i,549,494 cb03,819,794 nb04 -,304,562 -,292,511 ob05,639,600 eb06i,842,824 ab07,453,370 cb08i,483,400,432,368 nb09i,827,785 ob10,527,474 eb11,355,315,279,319,300,259 ab12i -,280,516,473 cb13,805,782 nb14,675 -,300,622 -,297 ob15 -,279,546,497

120 122 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung eb16,454,402,402,388 ab17,354,289 cb18i -,288,593 -,254,525 nb19,618,551 ob20,683,653 eb21i,880,873 ab22,444,351 cb23i,618,567 nb24i,819,784 ob25,638,596 eb26,423,280 -,345,389,263 -,329 ab27i,277,640,584 cb28,633,573 nb29,544 -,335,491 -,333 ob30,625,569 eb31i,733,705 ab32,331,583,324,509 cb33,656,607 nb34i,796,774 ob35i eb36,767,719 ab37i,698,666 cb38,538,489 nb39 -,314,564 -,308,531 ob40,643,584 ob41i,571,516 ab42,397,314 cb43i,508,458 ob44,525,458 Rotationsmethode: Promax mit Kaiser-Normalisierung. Abb. 4.13: SPSS-Ausgabe Mustermatrizen nach Promax-Rotation für PCA und PAF (Ausgabe zusammengefasst und modifiziert) Interpretation der Mustermatrizen Wie man in Abb erkennt, unterscheiden sich die Koeffizienten zwischen PCA und PAF zwar in der Höhe (die Werte aus der PAF sind tendenziell wieder etwas geringer), aber nicht im generellen Muster. Ohne Ausnahme weisen theoretisch zusammengehörige Items ihre höchsten Ladungen auf demselben Faktor auf. Inhaltlich lassen sich die extrahierten Faktoren daher mit großer Eindeutigkeit im Sinne des Fünf-Faktorenmodells in der aufgeführten Reihenfolge (die Nummerierung mit römischen Ziffern ist in der Faktorenanalyse üblich) als E, O, N, C und

121 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 123 A interpretieren. Eine so problemlose Interpretation ist für die EFA eher untypisch und in diesem Fall sicher der weitgehend rationalen Konstruktion des BFI geschuldet. Die (nicht dargestellte) Summe der quadrierten Ladungen je Faktor entspricht nach Rotation übrigens nicht mehr den anfänglichen Eigenwerten (vgl. Abb. 4.8). Sie hat sich zwischen den Komponenten weitgehend angeglichen (in der PCA zwischen 3,54 und 5,12) und lässt sich auch nicht mehr zur aufgeklärten Gesamtvarianz addieren, da die Faktoren ja korreliert sind. Auf der Ebene der Einzelitems zeigen sich allerdings erhebliche Unterschiede in der Höhe und Eindeutigkeit der Ladungen. Für den ersten Faktor (Extraversion) gibt es z.b. gleich eine ganze Reihe von Markiervariablen mit sehr substanziellen und faktoriell reinen Ladungen >.70, während das schon in der Itemanalyse (Kap. 3) nur marginal befriedigende Item eb11 fast gleichmäßig moderat auf drei verschiedene Faktoren lädt. Ähnliches gilt für die Items eb26 und eb16, die allerdings etwas andere Muster von Nebenladungen aufweisen. Item ob35i hat überhaupt keine praktisch bedeutsamen Ladungen und war schon bei der Itemanalyse durch unbefriedigende Kennwerte aufgefallen. Obwohl es auf Faktor II, zu dem es theoretisch gehört, noch am höchsten lädt (wie man findet, wenn man die Unterdrückung kleiner Koeffizienten wieder ausschaltet), würde man Item ob35i bei einer Neukonstruktion aufgrund des Gesamtbilds der Befunde vermutlich streichen. Nebenladungen gibt es ferner gehäuft noch bei Neurotizismusitems (Faktor III), während etliche Verträglichkeitsitems (Faktor V) nur mäßig hohe Primärladungen aufweisen. Einige dieser Ambiguitäten im Detail könnten sich auflösen, wenn man, wie u.a. durch den MAP-Test angezeigt, noch einen sechsten Faktor extrahiert. Die SPSS-Ausgabe der entsprechenden Mustermatrix ist für die PCA in Abb wiedergegeben. Mustermatrix a Komponente eb01,799 ab02i,609 cb03,821 nb04 -,278,556 ob05,586 eb06i,842 ab07,641 cb08i,442,512 nb09i,834 ob10,466 eb11,412,301 ab12i -,277,497,304

122 124 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung cb13,809 nb14,666 -,314 ob15 -,266,481 eb16,532,317 ab17 -,267,452 cb18i,552,294 nb19,608 ob20,643 eb21i,881 ab22,657 cb23i,570,435 nb24i,829 ob25,531 eb26,468,307 -,366 ab27i,709,259 cb28,651 nb29,529 -,441 ob30,822 eb31i,688 ab32,351,678 cb33,670 nb34i,807 ob35i,293 eb36,816 ab37i,735,328 cb38,556 nb39 -,284,555 ob40,567 ob41i,836,298 ab42,269,410 cb43i,478 ob44,665 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. a. Die Rotation ist in 7 Iterationen konvergiert. Abb. 4.14: SPSS-Originalausgabe Mustermatrix für PCA

123 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 125 Man kann erkennen, dass sich die Komponenten I, II, III und IV, zwar in veränderter Reihenfolge, aber nach wie vor recht eindeutig als E, N, C und O interpretieren lassen. Faktor V wird zwar noch immer von einigen Verträglichkeitsitems dominiert, weist aber auch mehrere substanzielle Nebenladungen theoretisch nicht zugehöriger Items auf. Bei näherem Hinsehen scheinen diese nicht theoriekonformen Items (z.b. cb08i: achtlos sein; nb29: launisch sein) thematisch aber durchaus zu den Markiervariablen (z.b. ab37i: schroff und abweisend; ab27i: kalt und distanziert) zu passen, während die Inspektion der deskriptiven Statistiken (vgl. Abb. 3.6 in Kap 3) kaum Anhaltspunkte für Methodenartefakte, etwa eine Häufung bestimmter Verteilungseigenschaften innerhalb des Faktors, ergibt. Dies legt nahe, Faktor V inhaltlich zu interpretieren, vielleicht als einen Aspekt am negativen Pol von Verträglichkeit, der sich als problematisches Sozialverhalten umschreiben lässt. Der neue Faktor VI weist kaum Nebenladungen auf und wird vor allem durch eine andere Gruppe von Verträglichkeitsitems definiert, die am positiven Pol des Konstrukts mit Altruismus und Menschenfreundlichkeit umschrieben werden könnte (ab32: rücksichtsvoll und einfühlsam; ab22: Vertrauen schenken; ab07: hilfsbereit und selbstlos). Es fällt auf, dass alle positiv gepolten A-Items am höchsten auf Faktor VI laden, alle negativ gepolten dagegen auf Faktor V. Unabhängig von den nicht sehr auffälligen deskriptiven Statistiken kann dies doch ein Hinweis sein, dass die scheinbare Unterscheidung zweier Verträglichkeitsaspekte eher durch die Polung als durch unterschiedliche Konstrukte zustande kommt. Die Ambiguität einiger Extraversionsitems hat sich durch die Extraktion eines sechsten Faktors dagegen kaum verbessert. Eventuell wäre anstelle eines zweiten Verträglichkeitsfaktors auch die Aufspaltung von Extraversion zu erwarten gewesen. Durch Extraktion weiterer Faktoren ließen sich noch weitere Subkonstrukte entdecken. Das vorliegende Beispiel sollte aber schon die Gefahr illustriert haben, dabei der Faszination von Scheindifferenzierungen zu erliegen. Wir vertrauen in diesem Fall theoretischen Argumenten und legen uns vorerst auf die Extraktion von fünf Faktoren fest. Da wir oblique rotiert haben, ist auch die Interkorrelation der extrahierten Variablen von Interesse, die aus Abb hervorgeht. Wir haben dafür die SPSS-Ausgaben zu PCA (oberhalb der Hauptdiagonalen) und PAF (unterhalb der Diagonalen) zusammengefasst. Interkorrelation der Faktoren

124 126 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Komponenten- bzw. Faktorkorrelationsmatrix Komponente I II III IV V I 1,000,163 -,265,238 -,013 II,192 1,000,052,162 -,063 III -,294,047 1,000 -,312 -,173 IV,270,187 -,356 1,000,114 V,005 -,082 -,227,142 1,000 Rotationsmethode: Promax mit Kaiser-Normalisierung. Abb. 4.15: SPSS-Ausgabe Komponenten- (PCA, oberhalb der Diagonale) bzw. Faktor- (PAF, unterhalb der Diagonale) Korrelationsmatrix (Ausgabe zusammengefasst und modifiziert) Faktorwerte und Faktorenanalyse zweiter Ordnung Auf der Grundlage der moderaten Faktorkorrelationen bietet es sich an, deren Struktur weiter mit einer Faktorenanalyse zweiter Ordnung zu untersuchen. Dazu berechnen wir zunächst die Faktorwerte und führen anschließend eine neue Faktorenanalyse mit den so gewonnenen Werten durch (dieses Vorgehen ist nur für Faktorwerte aus der PCA zulässig!). Die Faktorwerte werden in SPSS berechnet, indem über FAKTORENANALYSE -> WERTE das in Abb dargestellte Fenster aufgerufen wird und dort, wie dargestellt, die Abspeicherung der Werte angefordert wird. Wir haben hier auch die Koeffizientenmatrix der Faktorwerte (d.h. die Regressionskoeffizienten zur Berechnung der Faktorwerte aus den ursprünglichen Variablen) aufgerufen, gehen darauf im Folgenden aber nicht weiter ein. Abb. 4.16: SPSS-Fenster Faktorenanalyse: Faktorwerte Das weitere Vorgehen entspricht der Durchführung einer EFA erster Ordnung, wie eben beschrieben, nur dass diesmal die Faktorwerte als Variablen eingesetzt werden. Wir beschränken uns diesmal auf eine PCA mit anschließender orthogo-

125 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 127 naler Varimax-Rotation, da es keinen Anlass gibt, eine nochmals übergeordnete Struktur oberhalb der Sekundärfaktoren zu vermuten (Abb entsprechend anpassen). Sowohl die Parallelanalyse als auch das KG-Kriterium indizieren die Extraktion von zwei Komponenten. Dargestellt sei hier zum Abschluss lediglich die Mustermatrix, die in diesem Fall bei SPSS rotierte Komponentenmatrix heißt. Rotierte Komponentenmatrix a Faktorwert E,687 Komponente 1 2 Faktorwert O,376,680 Faktorwert N -,649,443 Faktorwert C,732 Faktorwert A -,683 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. Abb. 4.17: SPSS-Ausgabe Rotierte Komponentenmatrix für EFA zweiter Ordnung Zur Vereinfachung haben wir die Faktorwerte nach den Interpretationen aufgrund der Primäranalyse benannt (vgl. Abb. 4.13). Wie in Abb zu erkennen ist, wird die erste rotierte Komponente vorwiegend durch C, E sowie (umgepolt) N bestimmt, während vor allem O und das negativ gepolte A die zweite Komponente bilden. Dies entspricht nicht ganz den Ergebnissen von Digman (1997), bei dem C+, A+ und N- den ersten Faktor bildeten und O+ mit E+ verbunden war. Mehr Klarheit über diesen Unterschied zwischen unserer recht großen Stichprobe und Digmans mehrfach repliziertem Befund könnte eine Prokrustes-Rotation mit dem Ziel der Replikation von Digmans Struktur erbringen. Auf diese spezifische Problemstellung, die inzwischen in der Forschungspraxis meist mit der CFA bearbeitet wird, gehen wird hier jetzt nicht mehr ein. Stattdessen diskutieren wir noch einige generelle Aspekte zur Einordnung der EFA Bewertung der Explorativen Faktorenanalyse Die EFA zählt zweifellos zu den bedeutendsten methodischen Beiträgen der Psychologie mit Relevanz weit über das Fach hinaus. Umgekehrt hat das Fach, besonders die Differentielle Psychologie, wesentliche theoretische Fortschritte in erheblichem Maße Ergebnissen der EFA zu verdanken. Für einige Zeit erfreute sich die EFA ungeheurer Popularität in der publizierten Literatur in und außerhalb der Psychologie, was u.a. der scheinbar automatischen und risikolosen (i.s. des weitgehenden Ausschlusses der Gefahr von Nullbefunden) Generierung von Einsichten in die interne Struktur von Daten geschuldet gewesen sein dürfte. Dies ist nicht unwidersprochen geblieben. Cronkhite und Liska (1980, p.102; zit. nach

126 128 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Thompson, 2004, p.6) z.b. karikieren die spezifischen Reize der EFA, wenn sie schreiben, dass researchers, once exposed to the pleasures of the factor analytic approach, rapidly become addicted to it. Die gedankenlose Anwendung der EFA in der Forschungspraxis wurde in zahlreichen Beiträgen immer wieder beklagt und dokumentiert (z.b. Armstrong, 1967; Fabrigar et al., 1999). Trotz des unbestreitbar aufgetretenen Missbrauchs sollte vor einer pauschalen und überzogenen Kritik der EFA aber gewarnt werden. Problem bei Anwendung der EFA Anwendung der EFA für die Testkonstruktion nach Konstruktionsprinzip Wie bei allen statistischen Methoden hängt die Angemessenheit von Schlüssen aus der EFA vom kompetenten und verantwortungsvollen Einsatz der Methode durch die Forscherin ab. Wie Fabrigar et al. (1999) betonen, müssen beim Einsatz der EFA jedoch, vielleicht mehr als bei jeder anderen Methode, zahlreiche nicht vollständig objektivierbare Entscheidungen getroffen werden. Dies betrifft im Grunde alle Stufen des in Abschnitt beschriebenen Prozesses, besonders aber die Entscheidung über die Anzahl zu extrahierender Faktoren und über die inhaltliche Interpretation nach Rotation. Hier besteht die Gefahr des Herumprobierens und Hineininterpretierens bis eine den Forscher befriedigende Lösung gefunden ist. Abhilfe kann hier nur die sorgfältige Argumentation und Dokumentation der Entscheidungskriterien bieten. Andere verbreitete fragwürdige Praktiken, etwa die häufige Anwendung der PCA, wenn PAF oder andere faktorenanalytische Methoden angemessener wären (vgl. Fabrigar et al., 1999), haben mglw. mit der Bequemlichkeit von Forschern zu tun, die Voreinstellungen in Statistik-Softwarepaketen einfach übernehmen. Wie wir am Beispiel der Analysen in Abschnitt gesehen haben, weichen unter einigermaßen günstigen Randbedingungen die Ergebnisse von PCA und PAF glücklicherweise nur wenig voneinander ab. Ein weiteres Problem betrifft allerdings gerade diese Randbedingungen. Um stabile Ergebnisse zutage zu fördern, erfordert die Faktorenanalyse (1) relativ große Stichproben, (2) relativ viele Indikatoren je extrahiertem Faktor, (3) Einzelindikatoren mit relativ hoher Messqualität (hohe Reliabilität bzw. Kommunalität) mit (4) substanziellen Interkorrelationen und (5) je Indikator und auf die Gesamtmatrix bezogen für die Anwendung multivariater Statistik angemessenen Verteilungseigenschaften. Diese Anforderungen dürften in der Forschungspraxis kaum jemals alle gleichzeitig erfüllt sein. Wie robust die Ergebnisse der EFA gegenüber der Verletzung einzelner Anforderungen sind, hängt von einem so komplexen Zusammenspiel der einzelnen Einflussgrößen ab, dass von der Anwendung pauschaler Faustregeln (z.b. je Variable mindestens N = 5 oder N = 10) eher abzuraten ist (vgl. Fabrigar et al., 1999). Ein Schlüssel für die sinnvolle Anwendung der Faktorenanalyse ist sicher die Beschränkung auf Zwecke, für die sich das Verfahren eignet. Dazu zählt inhaltlich auch und vielleicht sogar besonders die Konstruktion psychologischer Tests, bei der typischer Weise eine Vielzahl von Indikatoren (Items) eingesetzt wird, um eine wesentlich geringere Anzahl dahinter stehender psychologischer Konstrukte zu erfassen. Die spezifischen methodischen Probleme der Anwendung der EFA in der Testkonstruktion liegen häufig in der Messqualität der einzelnen Items (vgl.

127 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 129 Abschn für mögliche Lösungsansätze). Dennoch hat sich die EFA, schon weil sie keine Erhebung von externen Validierungskriterien erfordert, zu einem Standardverfahren bei der Konstruktion von Tests entwickelt. Kaum eine Testpublikation kommt ohne den Bericht von Faktorenanalysen aus. Die Ergebnisse sollten allerdings stets im Zusammenhang mit anderen Befunden betrachtet werden, wobei für das Gewicht, das der EFA beigemessen wird, neben der methodischen Qualität das Konstruktionsprinzip des Testverfahrens entscheidende Bedeutung hat: die EFA ist essentiell bei induktiv konstruierten Tests und hat bei external konstruierten Verfahren einen eher begleitend informativen Charakter. Eine explizite Fehlanwendung, und eine besonders früher stark verbreitete dazu, ist der (alleinige) Einsatz der EFA zur Bestätigung der theoretisch postulierten Struktur rational konstruierter Tests. Die EFA ist ein exploratives Verfahren, mit dem sich ein theoretisches Modell nicht prüfen lässt (die Prokrustes-Rotation ist allerdings ein Ansatz in diese Richtung). Auch die Übereinstimmung der mittels EFA gefundenen Struktur mit theoretischen Vorstellungen, und selbst deren erfolgreiche Replikation, sind allenfalls indirekte Hinweise auf die Gültigkeit des Modells. Die direkte Prüfung erfordert den Einsatz der CFA, mit der wir uns im folgenden Abschnitt beschäftigen. 4.2 Konfirmatorische Faktorenanalyse (CFA) Die CFA ist Teil einer umfassenden Verfahrensgruppe, die unter dem Namen Lineare Strukturgleichungsmodelle, Kovarianzstrukturanalyse) (structural equation modelling, SEM; auch Kovarianzstrukturanalyse 3 ) bekannt ist. Obwohl die CFA ebenso wie die gesamte Verfahrensgruppe auf das schon bekannte Modell gemeinsamer Faktoren und besonders auf die explorative ML-Faktorenanalyse zurückgehen (s. Schönemann & Borg, 1996), sind ihre spezifischen Möglichkeiten und Grenzen besser zu verstehen, wenn man sie nicht einfach als eine Weiterentwicklung der EFA auffasst. Man kann Lineare Strukturgleichungsmodelle, vielleicht neben der Metaanalyse (vgl. Modul 8), durchaus als die wichtigste statistisch-methodische Entwicklung der letzten 50 Jahre ansehen. Der Kernbereich der Anwendung liegt in der Prüfung zuvor spezifizierter theoretischer Modelle. Die Verfahrensgruppe ist insgesamt aber so umfassend, dass sie traditionelle explorative Methoden wie die EFA oder die multiple Regression als Spezialfälle einschließt. Man kann mit gängigen SEM-Programmen z.b. ohne weiteres (wenn Einordnung Lineare Strukturgleichungsmodelle (SEM) 3 Neben den genannten Bezeichnungen finden sich in der Literatur noch weitere, die aus unterschiedlichen Gründen falsch oder irreführend sind. Grob irreführend ist z.b. die Bezeichnung Kausalanalyse, weil sich Kausalität mit keiner statistischen Auswertungsmethode, sondern ausschließlich über das Design sicherstellen lässt. Der Begriff Pfadanalyse bezeichnet eine im Ursprung explorative Methode, die neben der EFA zu den Grundlagen von SEM gehört, aber lediglich eine spezifische Klasse von SEM-Analysen darstellt. Die Bezeichnung LISREL-Modell weckt zumindest die Assoziation zu einer bestimmten Software, die zwar auf einen der Väter von SEM zurückgeht, aber dennoch nur eines von zahlreichen gängigen SEM-Programmen ist.

128 130 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung auch etwas umständlich) eine EFA durchführen, mit Standardsoftware wie SPSS aber umgekehrt keine CFA. Dieses Thema bis zur Anwendungsreife für eigene Forschungen zu erschließen sprengt den Rahmen eines Studienbriefs zur Testkonstruktion und wäre Gegenstand mindestens eines eigenständigen Kurses. Für das Verständnis der CFA ist es jedoch hilfreich, mit einigen grundsätzlichen Besonderheiten Linearer Strukturgleichungsmodelle gegenüber explorativen multivariaten Methoden vertraut zu sein. Nach einer entsprechenden kurzen Einführung stellen wir die Grundlagen der CFA in allgemeiner Form dar. Auf ein konkretes Zahlenbeispiel verzichten wir an dieser Stelle, obwohl der Beispieldatensatz zum BFI, aufgrund der theoretischen Fundierung dieses Tests, sich durchaus für eine konfirmatorische Untersuchung angeboten hätte. Die Berechnungen lassen sich allerdings wie erwähnt mit SPSS nicht durchführen, sondern mittels spezieller Software-Pakete (z.b. LIS- REL, AMOS, EQS, Mplus; vgl. Rigdon, n.d.), deren Beherrschung jeweils eine eigenständige Einarbeitung erfordert, die den Rahmen dieses Kursmaterials ebenfalls sprengen würde. Ein Grundverständnis von SEM und dessen Spezialfall CFA kann jedoch heute als unverzichtbarer Bestandteil des Erwerbs psychologischer Methodenkompetenz angesehen werden Grundbegriffe Linearer Strukturgleichungsmodelle (SEM) Gegenstand von SEM Merkmale von SEM- Analysen Während theoretische Modelle der Psychologie sich i.d.r. mit nicht beobachtbaren, latenten Konstrukten beschäftigen, beschränken sich die traditionellen Methoden der multivariaten Statistik auf die Analyse manifester Variablen., Auch in der EFA wird zwar auf eine latente Ebene geschlossen, diese wird aber nicht explizit durch theoretische Vorannahmen modelliert. SEM-Methoden gehen über diesen traditionellen Ansatz hinaus, indem sie die Modellierung sowohl der theoretischen latenten Ebene als auch der manifesten Messebene, die Verbindung dieser beiden Ebenen sowie die Prüfung der damit verbundenen Modellannahmen gestatten. Um gleich ein Missverständnis zu vermeiden: Auch SEM ist kein Zauberwerkzeug, mit dem sich hypothetische Konstrukte analysieren lassen, ohne sie zu messen. Wie jede Auswertungsmethode ist SEM darauf angewiesen, Schlussfolgerungen auf der Grundlage empirisch erhobener Daten zu ziehen, und diese Schlussfolgerungen können nicht besser sein als das Design und die Erhebungsmethoden, auf denen sie beruhen. Der Hauptunterschied zu älteren Methoden besteht darin, dass SEM dem Forscher gestattet genauer: ihn dazu zwingt über die Beziehungen der untersuchten Variablen vor der Datenanalyse präzise Vorstellungen zu entwickeln und zu formulieren und deren Haltbarkeit anhand der empirischen Befunde zu überprüfen. Kline (2005) nennt im Einzelnen folgende Aspekte als kennzeichnend für Lineare Strukturgleichungsmodelle:, Kovarianzstrukturanalyse) SEM ist im Ansatz konfirmatorisch (modellprüfend) und zwingt zum Denken in Modellen. Der Übergang zwischen konfirmatorischem und explorativem

129 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 131 Vorgehen ist in der Forschungspraxis jedoch oft fließend und es treten Mischformen beider Ansätze auf. SEM differenziert zwischen manifesten und latenten Variablen, erzwingt diese Differenzierung aber nicht, sondern schließt die Beschränkung auf die manifeste Ebene als Spezialfall ein. SEM beruht im Ansatz auf der Analyse von Kovarianzmatrizen. Die mathematische Theorie hinter SEM ist für Kovarianzen entwickelt worden, obwohl auch die Analyse von Korrelationen oder gar Mittelwerten mit SEM möglich ist. Die Analyse von Korrelationen kann jedoch u.u. zu fehlerhaften Ergebnissen führen (vgl. unten 4.2.2). Obwohl SEM meist auf korrelative Designs angewandt wird, ist die Untersuchung experimentell erhobener Daten mittels SEM möglich und sinnvoll. Die wichtigsten explorativen Verfahren der multivariaten Statistik, darunter u.a. EFA, multiple Regression, Varianzanalyse und Pfadanalyse, lassen sich alle als Spezialfälle von SEM auffassen. Trotz einiger neuerer Ansätze zur Anwendung in kleineren Stichproben erfordert der Einsatz von SEM in aller Regel relativ große Stichproben. Signifikanztests sind im Rahmen von SEM zwar an vielen Stellen möglich, spielen aber eine vergleichsweise untergeordnete Rolle. Die Modellprüfung erfolgt in erster Linie anhand von anderen, allerdings oft etwas vagen Gütekriterien. Die Darstellung theoretischer Modelle erfolgt in SEM oft mit Hilfe sog. Pfaddiagramme. Dieses darstellerische Hilfsmittel erleichtert im Allgemeinen das Verständnis sehr, kann aber auch zu Missverständnissen beitragen (s. Abschn ). Darstellung in Pfaddiagrammen In SEM-Pfaddiagrammen werden latente Variablen (Konstrukte) grundsätzlich als Kreise oder Ellipsen dargestellt, manifeste Variablen, (Indikatoren) dagegen als rechteckige Kästchen. Entsprechend der allgemeinen Konvention erfolgt die Notation der Konstrukte mit griechischen und die der Indikatoren mit lateinischen Buchstaben. Bei den latenten Variablen ist weiter zu unterscheiden zwischen solchen Variablen, die innerhalb des Modells erklärt werden (abhängige oder endogene latente Variablen) und solchen, bei denen dies nicht der Fall ist (unabhängige oder exogene latente Variablen. Die Fehlerterme (Residuen) werden grundsätzlich durch griechische Buchstaben gekennzeichnet, die Kreise um die Residuen werden im Pfaddiagramm aber oft weggelassen. Insgesamt ergeben sich so maximal sieben Klassen von Variablen in SEM (die folgende Notation geht auf Karl Jöreskog zurück, den Pionier von SEM und Mitautor des Programms LIS- REL):

130 132 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Variablenklassen in SEM η (Eta): latente endogene (im Modell erklärte) Variable ξ (Ksi): latente exogene (im Modell nicht erklärte) Variable y: Indikatorvariable für latente endogene Variable x: Indikatorvariable für latente exogene Variable ε (Epsilon): Residualvariable für y δ (Delta): Residualvariable für x ζ (Zeta): Residualvariable für η Pfade und Parameter Die Variablen werden durch gerichtete Pfeile miteinander verbunden, wobei die Wirkrichtung i.d.r. zwar theoretisch kausal interpretiert wird, die Kausalität als solche in korrelativen Querschnittesigns aber nicht geprüft werden kann. Beziehungen, über die auch theoretisch nur korrelative (ungerichtete) Annahmen vorliegen, werden durch Doppelpfeile dargestellt. Die Pfeile stehen für die eigentlichen Pfade. Deren Ausprägungen (Parameter), d.h. die Pfadkoeffizienten bzw. in der CFA die Ladungskoeffizienten, können im Rahmen von SEM entweder vom Programm berechnet (geschätzt) oder im aufgrund theoretischer Überlegungen vom Forscher festgelegt werden. Dies ist ein sehr wesentlicher Unterschied zu explorativen Verfahren, bei denen die Parameter immer berechnet werden. Im Pfaddiagramm werden die Pfade ebenfalls durch griechische Buchstaben symbolisiert, wobei für die Beziehungen innerhalb von bestimmten Klassen von Variablen und zwischen verschiedenen Klassen jeweils unterschiedliche Buchstaben verwendet werden. Zusätzlich werden die Parameter doppelt indiziert, wobei die erste Ziffer immer für das Ziel und die zweite für den Ursprung der Pfade steht. Zum Beispiel bezeichnet λ 21 einen Pfad aus der Klasse λ (Lambda), die stets zwischen latenten Variablen und ihren Indikatoren verläuft (es gibt Pfade für Lambda-x und Lambda-y), und zwar in diesem Fall von der ersten latenten Variable auf den zweiten Indikator. Das Pfaddiagramm eines vollständigen Strukturgleichungsmodells aus der Organisationspsychologie ist in Abb dargestellt (der Pfad λ 32 zeigt übrigens in die falsche Richtung, Fehler im Original).

131 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 133 Messmodell exogener Variablen Messmodell endogener Variablen Strukturmodell Abb. 4.18: Pfaddiagramm eines vollständigen Strukturgleichungsmodells (aus Jöreskog & Sörbom, 1988, p.151) Die Abb zeigt ein Modell mit drei latenten exogenen (ξ) Variablen, die untereinander korreliert sind (Doppelpfeile) und ihrerseits zwei latente endogene (η) Variablen beeinflussen, welche außerdem wechselseitig kausalen Einfluss aufeinander ausüben (daher zwei gerichtete Pfade und kein Doppelpfeil). Jede latente Variable wird durch ein bis zwei Indikatoren gemessen. Bei den Indikatoren und endogenen Variablen sind ferner modellexogene Fehlerterme zu berücksichtigen. Es ist sinnvoll, dieses vollständige Strukturgleichungsmodell in drei Teilmodelle zu zerlegen, die in Abb durch die drei Kästen abgetrennt werden. Die Beziehungen ausschließlich der latenten Variablen bilden dabei das Strukturmodell in der Mitte von Abb Das der exogenen Variablen besteht aus den exogenen latenten Variablen und den dazugehörigen Indikatoren (x) und befindet sich in der Abbildung links. Entsprechend steht rechts das Messmodell endogenen Variablen bestehend aus den η-variablen und den y-indikatoren. Diese Teilmodelle können einzeln oder in Kombination untersucht werden, ggf. auch unter kompletter Auslassung der latenten Ebene, was dann z.b. der explorativen Pfadanalyse entspräche. In der einfachen CFA der Primärfaktoren wird ausschließlich das Messmodell der exogenen Variablen betrachtet, während bei einer CFA zweiter Ordnung ein Strukturmodell, aber kein Messmodell der endogenen Variablen hinzukommt (die endogenen Sekundärfaktoren ergeben sich dort indirekt aus der Kovarianz der Primärfaktoren). Um ein vollständiges Strukturgleichungsmodell in Matrixalgebra zu spezifizieren, sind insgesamt acht Matrizen notwendig. Für die einzelnen Teilmodelle ergeben sich, jeweils in Matrixschreibweise, unter einigen vereinfachenden Annahmen folgende Grundgleichungen (vgl. ausführlich Bollen, 1989): Teilmodelle des vollständigen SEM-Modells Grundgleichungen des vollständigen Modells

132 134 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Für das Strukturmodell: η = Вη + Гξ + ζ Für das Messmodell der latenten endogenen Variablen: y = Λ y η + ε Für das Messmodell der latenten exogenen Variablen: x = Λ x ξ + δ Der Fettdruck in den Gleichungen bedeutet, dass es sich bei η, ξ, ζ, y, ε, x und δ jeweils um Vektoren der Varianzen der oben aufgeführten Variablenklassen handelt. В (BETA), Г (GAMMA), Λ y (LAMBDA-y) und Λ x (LAMBDA-x) sind Koeffizientenmatrizen, in denen, in der genannten Reihenfolge, die Pfadkoeffizienten zwischen den latenten endogenen Variablen, von den exogenen auf die endogenen latenten Variablen sowie von den latenten endogenen und exogenen Variablen auf ihre jeweiligen Indikatoren stehen. Ferner werden für die Modellspezifikation u.u. noch vier (quadratische) Kovarianzmatrizen benötigt, in denen die latenten exogenen Variablen (Matrix Φ = PHI) und die Residuen ζ (Matrix Ψ = PSI), ε (Matrix Θ ε = THETA-ETA) und δ (Matrix Θ δ = THETA-DELTA) stehen. Schritte einer SEM- Analyse Die drei Gleichungen zusammen beschreiben das Gleichungssystem eines vollständigen Strukturgleichungsmodells. Die stark zusammenfassende Matrixschreibweise führte allerdings dazu, dass das Gleichungssystem vielleicht einfacher erscheint als es eigentlich ist, weil in einer Matrix u.u. Beziehungen einer Vielzahl von Variablen in einem einzelnen Buchstaben abgebildet werden. Mathematisch besteht die Aufgabe bei einer SEM-Analyse darin, ein komplexes Gleichungssystem simultan aufzulösen. Die Aufgabe der Forscherin besteht zunächst darin, die theoretischen Randbedingungen für dieses System zu definieren. Anschließend ist eine Reihe von Entscheidungen über die Anwendung methodischer Varianten und die Interpretation der Ergebnisse zu treffen. Ähnlich wie bei der EFA lässt sich die Vorgehensweise bei einer SEM-Analyse idealtypisch als eine Abfolge von Schritten beschreiben (verändert nach Kline, 2005): 1. Modellspezifikation 2. Bestimmung der Identifiziertheit des Modells 3. Design und Datenerhebung 4. Durchführung der SEM-Analyse a. Festlegung von Datenmatrix und Schätzalgorithmus b. Evaluation der Passung zwischen Daten und Modell (fit) c. Berücksichtigung von und ggf. Vergleich mit alternativen Modellen d. Interpretation der Parameter 5. Ggf. Modifikation und Respezifikation des Modells 6. Dokumentation der Analyse im schriftlichen Bericht

133 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 135 Wir werden im Folgenden die Schritte 1, 2, 4 und 5 anhand des Spezialfalls CFA innerhalb von SEM-Analysen beschreiben, was wegen der Beschränkung der CFA auf das Messmodell exogener Variablen die Dinge an einigen Stellen vereinfacht. Wir gehen dabei auch auf Besonderheiten der CFA ein, die nicht auf alle SEM-Analysen übertragbar sind. Dies alles ist hier nur auf wirklich einführendem Niveau möglich, so dass an dieser Stelle nachdrücklich die Lektüre vertiefender Darstellungen empfohlen sei (zu SEM allgemein besonders das Standardwerk von Bollen, 1989, sowie das stark forschungspraxisorientierte Buch von Kline, 2005; speziell zur CFA bietet, neben den Lehrbüchern von Thompson, 2004, und T. Brown, 2006, die Kurzmonographie von Long, 1986, eine noch immer sehr lesenswerte Einführung). Dass in obiger Aufstellung Design und Durchführung (Schritt 3) mitten in der Abfolge der Analyseschritte stehen, sollte daran erinnern, dass für SEM-Analysen, anders als oft bei explorativen Auswertungsmethoden, erhebliche theoretische Vorarbeiten und methodische Vorüberlegungen nötig sind, die sich unmittelbar auf die Untersuchungsplanung auswirken Vorgehensweise bei einer Konfirmatorischen Faktorenanalyse (1) Modellspezifikation. Abgesehen von dem praktisch nicht sehr relevanten Fall, dass mit SEM rein explorative Analysen durchgeführt werden, zwingt die Anwendung von SEM den Forscher dazu, ein theoretisches Modell zu spezifizieren, dessen Haltbarkeit später anhand der Daten geprüft werden soll. In der CFA beschränkt sich dies wie erwähnt auf das Messmodell latenter exogener Variablen. Es muss also z.b. bei der CFA eines psychologischen Tests festgelegt werden, welche Items (Indikatoren) welchen latenten Variablen (Faktoren) zugeordnet sind, welche Beziehungen zwischen den Faktoren bestehen und ggf. auch, ob zwischen den Residuen (Fehlerterme) der Items Korrelationen zugelassen werden sollen. Diese Spezifikation geschieht in einigen SEM-Programmpaketen standardmäßig (z.b. AMOS) oder zumindest optional (z.b. LISREL), indem ein Pfaddiagramm gezeichnet wird, das diese Beziehungen darstellt. Es ist nicht üblich, aber durchaus möglich und sehr instruktiv, auch das Modell einer EFA als Pfaddiagramm darzustellen. In der folgenden Abb sind das EFA-Modell und ein CFA-Modell einander gegenübergestellt. Die Hervorhebungen im vorigen Satz sind ein Hinweis darauf, dass die Spezifikation des Modells bei Anwendung der EFA von vornherein festliegt, während die Forscherin für die Spezifikation des CFA-Modells im Grunde (fast) völlig freie Hand hat (zu mathematisch bedingten Grenzen s.u. mehr).

134 136 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung (a) exploratives EFA-Modell (b) konfirmatorisches CFA-Modell Abb. 4.19: eines (a) explorativen und (b) konfirmatorischen faktorenanalytischen Modells (aus Long, 1986, pp ) Vergleich CFA vs. EFA-Modell Wie man in Abb vielleicht etwas überrascht feststellt, sieht das Pfadmodell der EFA auf den ersten Blick viel komplizierter aus als das CFA-Modell. Beide Modelle enthalten die gleiche Anzahl an latenten Faktoren (ξ) und beobachteten Indikatoren (x), aber im EFA-Modell sind wesentlich mehr Pfade dargestellt.

135 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 137 Dargestellt sind in beiden Modellen jedoch nur die Pfade, deren Koeffizienten im Verlauf der Analyse berechnet werden. In der EFA werden grundsätzlich alle Koeffizienten der Matrix Λ x (das sind die Faktorladungen von ξ nach x) in der Analyse geschätzt, während die Residuen δ grundsätzlich als unabhängig voneinander betrachtet werden (d.h. Θ δ ist eine Diagonalmatrix mit Kovarianzen = Null). Die Tatsache, dass die Faktoren ξ in Abb (a) durch Doppelpfeile verbunden sind, bedeutet, dass es sich um ein Modell mit korrelierten Faktoren handelt (oblique Rotation, d.h. Matrix Φ ist nicht diagonal). Bei orthogonaler Rotation würden diese Pfade in Abb (a) einfach fehlen. Nullkorrelationen bzw. koeffizienten werden im Pfaddiagramm grundsätzlich durch das Fehlen von Pfaden angezeigt. Die Festlegung eines Koeffizienten auf den Wert Null stellt bereits eine (und die in der Forschungspraxis wohl häufigste) theoretische Restriktion dar. Je mehr solcher theoretischer Vorannahmen in ein Modell eingehen, desto übersichtlicher erscheint es im Pfaddiagramm, desto strenger (i.s. der theoretischen Sparsamkeit) ist aber gleichzeitig die theoretische Formulierung. Es macht die Darstellung in Pfaddiagrammen manchmal etwas missverständlich, dass ein Großteil der theoretischen Arbeit gerade darin liegt, was man im Pfaddiagramm nicht sieht. Wie man beim Vergleich der beiden Modelle erkennt, sind beim CFA-Modell in Abb (b) a priori (d.h. vor Berechnung aufgrund theoretischer Überlegungen) zahlreiche Pfade auf den Wert Null fixiert und fehlen deshalb im Diagramm. Hier hat der (fiktive) Forscher mit Ausnahme des Items x 5, für das eine Nebenladung zugelassen wurde, eine Einfachstruktur vorgegeben, und zwar unter präziser Zuordnung von Indikatoren zu Faktoren. Die Einfachstruktur erkennt man daran, dass die Items auf bestimmte Faktoren laden und auf andere nicht. Außerdem wurde festgelegt, für welche Faktoren eine Interkorrelation erwartet wurde und für welche nicht. Es wurde aber auch die strikte Vorgabe unkorrelierter Fehlerwerte aus der EFA (die mit einer Annahme der KTT korrespondiert, vgl. Kap. 2) in einem Fall aufgegeben (relaxiert), indem zwischen δ 2 und δ 3 eine Korrelation zugelassen wurde. All diese Restriktionen und Relaxationen können in der CFA flexibel gehandhabt und geprüft werden, während die Annahmen der EFA ungeprüft und nicht prüfbar in die Analyse eingehen. Fixierungen auf den Wert Null sind jedoch nicht die einzigen Restriktionen, die im Rahmen eines CFA- (oder anderen SEM-) Modells spezifiziert werden können. Grundsätzlich können Parameter frei (d.h. post hoc frei berechnet), fix oder beschränkt (constrained) sein. Die Fixierung kann auf einen beliebigen Wert festgelegt werden. Häufig ist neben Null auch die Fixierung auf den Wert Eins, besonders zur Skalierung (vgl. Abb sowie unten). Bei den Beschränkungen existieren mehrere Varianten. Relativ häufig vor kommen Gleichheitsbeschränkungen, bei denen zwei oder mehr (z.b. alle Ladungen eines Faktors, s.u.) Koeffizienten auf einen vor Berechnung zwar unbekannten, aber gleichen Wert festgelegt werden sowie Ungleichheitsbeschränkungen, bei denen ein bestimmter Wertebereich (z.b. > oder < 0) vorgegeben wird. Die Art und Anzahl der Restriktionen spielt bei den folgenden Schritten eine erhebliche Rolle auch aus methodi- Arten von Spezifikationen

136 138 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung scher Sicht und ist z.t. sogar methodisch bedingt (s.u.). Bei der Spezifikation des Modells sollten jedoch für die Festlegung der Struktur in Form frei zu schätzender oder restringierter Parameter ausschließlich theoretische Gründe ausschlaggebend sein und anschließend ggf. die eingesetzte Methode dem Modell angepasst werden, nicht etwa umgekehrt das Modell der Methode. Unteridentifizierte und gerade identifizierte Modelle Überidentifizierte Modelle und Freiheitsgrade (2) Identifizierbarkeit des Modells. Auch eine SEM-Analyse kann nur innerhalb der Gesetze der Mathematik zu sinnvollen Ergebnissen führen. Eine sehr wesentliche Voraussetzung ist, dass es für das aufgestellte Gleichungssystem eine befriedigende Lösung gibt. Bei der Gleichung a + b = 6 existieren z.b. (das Bsp. verdanken wir Kline, 2005) unendlich viele Kombinationen für die Parameter a und b, die zu einer richtigen Lösung führen: z.b. 2 und 4, 1 und 5 oder auch und Da es unendlich viele gleich gute Lösungen gibt, gibt es keine einzige wirklich gute Lösung. In einem solchen Fall spricht man davon, dass die Gleichung unteridentifiziert ist. Die einzige empirische Information (6) reicht nicht aus, um die beiden unbekannten Parameter (a und b) eindeutig zu bestimmen. Durch Hinzufügung einer zweiten Gleichung 2a + b = 10 können wir jedoch z.b. nach a auflösen und kommen auf das Ergebnis 4 für a und damit 2 für b. Dieses Gleichungssystem ist eindeutig lösbar oder auch gerade identifiziert (just identified). Die Güte dieser Lösung ist perfekt, sie lässt sich nicht weiter verbessern. Wie man erkennen kann, entspricht hier die Zahl der empirischen Informationen (6 und 10) genau der Zahl der unbekannten Parameter (a und b). Dies ist der Normalfall bei explorativen Verfahren der Datenanalyse: wir erhalten genau so viel Information zurück wie wir eingesetzt haben. Die Lösung passt perfekt zu der empirischen Information im konkreten Fall, weist aber nicht darüber hinaus. Wir können z.b. nicht sagen, wie gut die Parameter eines gerade identifizierten Modells mit unseren theoretischen Vorstellungen übereinstimmen, da wir keine theoretischen Vorgaben gemacht haben, deren Bestätigung ungewiss ist. Um eine solche Prüfung zuzulassen, müssen wir ein etwas größeres Risiko eingehen und ein Gleichungssystem aufstellen, für das es gar keine eindeutig richtige Lösung, sondern lediglich Näherungslösungen gibt. Im obigen Zahlenbeispiel könnte man eine weitere Gleichung 3a + b = 12 hinzufügen. Jetzt gibt es drei Bekannte (6, 10, 12) und noch immer zwei Unbekannte (a, b), d.h. uns steht eine empirische Information mehr zur Verfügung als wir Parameter zu schätzen haben. Dieses Gleichungssystem hat damit einen Freiheitsgrad (degree of freedom, d.f.), den wir später brauchen, um die Passung zwischen Modell und Daten zu prüfen. Modelle mit einem oder mehr Freiheitsgraden heißen überidentifiziert. Die angesprochene Passung ist jetzt allerdings nicht mehr perfekt, da es keine Lösungen für a und b mehr gibt, die in allen Gleichungen des Systems richtig sind. Es gibt jedoch von allen falschen Lösungen genau eine, die am wenigsten falsch ist, indem sie nach dem schon aus Modul 2 bekannten Kriterium der quadrierten Abweichungen von den Vorgaben geringer abweicht als alle anderen Kombinationen für a und b: 3 und 3,3. Bei überidentifizierten Modellen ist es möglich, das Ausmaß der Abweichung nach dem gewählten Kriterium im Rahmen der Datenanaly-

137 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 139 se (s.u.) zu bestimmen und damit auch ein Maß für die Güte der Anpassung des Modells an die Daten zu berechnen. Übertragen auf Varianzanteile, mit denen wir es bei der CFA zu tun haben, kann man sich die Logik der Überidentifikation vielleicht wie ein System kommunizierender Röhren anschaulich machen. Indem wir festlegen, dass z.b. bestimmte Ladungen den Wert Null annehmen sollen (leere Röhren), verschieben wir Varianzanteile der empirischen Matrix sukzessive auf immer weniger frei zu schätzende Parameter (gefüllte Röhren). Diese können, anders als wenn alle Parameter frei geschätzt würden, die überschüssige Varianz nicht vollständig aufnehmen, weshalb wir auf jeden Fall einen Schätzfehler machen (d.h. die fixierten Parameter sind nicht wirklich exakt gleich Null). Es lässt sich aber auch bestimmen, wie groß der Fehler verglichen mit der völlig freien Schätzung (d.h. dem gerade identifizierten Modell) ist und ob ggf. die Fixierung anderer Parameter zu einem geringeren Fehler geführt hätte (Fit-Statistiken, s.u.). Das Identifizierbarkeitsproblem ist komplexer als hier angedeutet und mathematisch noch nicht vollständig gelöst. Das oben verwendete Beispiel lässt sich jedoch zu einer relativ einfachen allgemeinen Faustregel für eine notwendige, aber nicht immer hinreichende Bedingung der Identifizierbarkeit verallgemeinern (sog. t-rule, vgl. Bollen, 1989). Diese reicht aber in vielen Fällen aus und hat den großen Vorzug, dass sie vor Datenerhebung geprüft werden kann, so dass ggf. die Untersuchungsplanung so verändert werden kann, dass das spezifizierte Modell identifiziert bzw. überidentifiziert ist. Als empirische Information liegt allgemein die Kovarianz- oder Korrelationsmatrix der p beobachteten Variablen (z.b. Items) vor. Diese Matrix enthält p(p + 1) / 2 Varianzen und Kovarianzen. Jetzt muss noch im spezifizierten Modell die Anzahl der frei zu schätzenden Parameter gezählt und mit der Anzahl der empirischen Informationen verglichen werden: Notwendige Identifizierbarkeitsbedingung Das theoretische Modell ist nicht identifiziert, wenn es mehr zu schätzende Parameter als empirische Informationen gibt. In diesem Fall ist eine Berechnung sinnlos und es muss entweder das theoretische Modell revidiert werden oder es müssen (vorzugsweise) mehr empirische Informationen erhoben werden. Das Modell ist gerade identifiziert, wenn die Zahl der freien Parameter der Zahl der empirischen Informationen genau entspricht. In diesem Fall ist das Modell berechenbar, dessen Güte aber nicht prüfbar (explorative Analyse). Das Modell ist überidentifiziert, wenn mehr empirische Informationen als freie Parameter vorliegen. In diesem Fall kann das Modell geschätzt und dessen Güte (konfirmatorisch) geprüft werden. Je mehr Freiheitsgrade vorliegen, desto strenger ist der Modelltest. Ein weiterer Aspekt der Identifizierbarkeit, der bei der Spezifikation stets beachtet werden muss, ist das Problem der Skalierung. Die Metrik, in der etwa die Ladungen eines Faktors in der CFA auf seine verschiedenen Indikatoren gemessen Skalierung und Referenzvariable

138 140 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung werden, wird durch die Berechnung nur relativ zueinander festgelegt, während die absolute Höhe willkürlich ist. Wenn wir für die Pfade von ξ 1 auf x 1 und x 2 in Abb (b) z.b. Koeffizienten von.50 und.60 finden, ist diese Lösung genauso gut wie Ladungen von 1 und 1.20 oder von 5 und 6. Um eine eindeutige (Näherungs-) Lösung herbeizuführen, muss einer der Indikatoren als Referenzvariable ausgewählt und auf einen bestimmten Wert festgelegt werden. Häufig wählt man als Referenzvariable den besten (reliabelsten) Einzelindikator und fixiert ihn auf den Wert Eins (vgl. Abb oben für Beispiele). Dadurch erhält der Faktor die Metrik der Referenzvariable. Alternative (nicht zusätzliche) Möglichkeiten mit ähnlicher Wirkung bestehen darin, die zugehörigen Residuen oder auch die Varianz der latenten Variablen auf den Wert Eins zu fixieren. Die Wirkung der alternativen Skalierungsrestriktionen ist in einigen Punkten auch unterschiedlich (vgl. Bühner, 2006), sollte aber in allen Fällen dazu führen, dass eine mögliche Quelle der Nichtidentifizierbarkeit ausgeschaltet wird. Ihre Bestimmung kann auch nach der Datenerhebung (Schritt 3, auf den wir hier nicht eingehen) erfolgen, auf jeden Fall aber vor der Berechnung der freien Parameter, da das Modell sonst keinesfalls identifiziert ist. Weitere Aspekte der Identifizierbarkeit Arten von Ausgangsmatrizen; parceling Die Identifizierbarkeit ist ein etwas trockener, aber sehr wichtiger Aspekt der Modellierung im Rahmen von SEM-Analysen. Zusätzliche Komplikationen können dadurch entstehen, dass auch Teilmodelle nicht identifiziert sein können, während andere Teile sogar überidentifiziert sind. Ein typisches Beispiel ist eine Faktorenanalyse zweiter Ordnung mit genau zwei Primärfaktoren. In diesem Fall liegt über die Kovarianz der beiden Primärfaktoren nur eine empirische Information vor, was nicht ausreicht, um zwei Ladungen eines hypothetischen Sekundärfaktors auf die Primärfaktoren zu berechnen (gleiches gilt für Primärfaktoren mit nur zwei beobachteten Indikatoren). In diesem Fall ist das Strukturmodell der latenten Variablen nicht identifiziert, während das Messmodell gleichzeitig durchaus überidentifiziert sein kann. Das Problem kann im Einzelfall durch zusätzliche Restriktionen (z.b. durch eine Gleichheitsrestriktion der beiden Ladungen) gelöst werden, was aber nicht immer einem theoriekonformen Vorgehen entspricht. Ferner ist es möglich, dass ein Modell zwar formal identifiziert ist, aufgrund extrem hoher Interkorrelationen aber dennoch keine genauen Schätzungen möglich sind, weil zwischen eigentlich unabhängigen empirischen Informationen faktisch Redundanzen bestehen (sog. empirische Unteridentifikation, vergleichbar mit dem Problem der Multikollinearität in der multiplen Regression, vgl. Modul 2). (4a) Ausgangsmatrix und Schätzalgorithmus. Die erste Entscheidung im Rahmen einer SEM-Analyse betrifft die Ausgangsmatrix der empirischen Daten. Die mathematische Theorie der CFA beruht auf der Analyse der Kovarianzmatrix (mit Varianzen in der Diagonale und Kovarianzen außerhalb der Diagonale), während in der EFA häufig die Matrix der Produkt-Moment-Korrelationen (d.h. die standardisierte Kovarianzmatrix) analysiert wird. Bei beiden Verfahren können grundsätzlich sowohl Kovarianzen als auch Korrelationen als Ausgangsbasis dienen. In der CFA sollte jedoch, soweit die Voraussetzungen insbesondere an die

139 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 141 Metrik der Indikatoren erfüllt sind, generell die Kovarianzmatrix eingelesen werden, weil die Korrelationsmatrix zu fehlerhaften Schätzungen führen kann (vgl. Cudeck, 1989). Gerade Testitems erreichen aber oft kein metrisches Skalenniveau, weshalb für dichotome Items die Matrix der tetrachorischen Korrelationen, bei Ratingskalen diejenige der polychorischen Korrelationen (vgl. Abschn ) ernsthaft in Erwägung zu ziehende Alternativen zur Kovarianzmatrix sind. Im Prinzip konfligieren bei dieser spezifischen Entscheidung verschiedene Anforderungen miteinander, weshalb es sinnvoll sein kann, bestimmte Matrizen zusammen mit bestimmten Schätzalgorithmen zu verwenden. Polychorische Korrelationen korrespondieren am besten mit dem für die Testkonstruktion typischen Fall z.b. fünfstufiger Ratingskalen, jedoch nicht mit dem am meisten verbreiteten Schätzalgorithmus in SEM (s.u.), während polychorischen Korrelationen eher angemessene Algorithmen oft sehr große Stichproben erfordern (vgl. z.b. Flora & Curran, 2004). Eine ausreichende Itemzahl vorausgesetzt kann es deshalb eine sinnvolle Alternative sein, je ca. zwei bis vier Items vor Schätzung zu Miniskalen oder parcels zusammenzufassen (vgl. zur Methodik des parceling Kishton & Widaman, 1994), die dann ihrerseits als annähernd metrisch skalierte Indikatoren zur Berechnung einer Kovarianzmatrix herangezogen werden. Weitere Alternativen, u.a. zu Korrekturfaktoren für die Analyse von Korrelationsmatrizen, und weiterführende Hinweise werden in den oben zitierten SEM-Monographien dargestellt. Wenn die Ausgangsmatrix feststeht, besteht die Aufgabe des Schätzalgorithmus darin, eine durch den Vektor θ der spezifizierten Modellparameter implizierte Kovarianzmatrix Σ(θ) zu finden, die der beobachteten Kovarianzmatrix in der Population Σ möglichst nahe kommt. Die fundamentale Hypothese, die in SEM- Analysen geprüft wird, lautet in Matrixschreibweise: Arten von Kovarianzmatrizen und Diskrepanzfunktion Σ = Σ(θ) Da die Populationsmatrix Σ nicht beobachtet werden kann, wird ersatzweise die empirische Kovarianzmatrix S (bzw. die Korrelationsmatrix R) herangezogen. Um die Diskrepanz zwischen empirischer und implizierter Matrix zu quantifizieren, wird eine zu minimierende Diskrepanzfunktion (Fit-Funktion) benötigt, in die allgemein S und Σ(θ) als Argument eingehen. Die genaue Form der Funktion bzw. das Kriterium für die Diskrepanz unterscheidet sich zwischen den verschiedenen Schätzalgorithmen. Ebenso unterscheiden sich die Voraussetzungen bezüglich Skalen- und Verteilungseigenschaften sowie Stichprobengröße und die generelle Herangehensweise. Am mathematisch einfachsten sind die sog. non-iterativen Verfahren (instrumental variables: IV, two-stage least squares: TSLS), die zwar keine Prüfung des Fit erlauben und deshalb auch nicht für die endgültige Schätzung taugen, wohl aber zur Lösung eines ersten Problems bei der Schätzung (und dazu z.b. in LISREL als Voreinstellung implementiert sind). Da die eigentlichen Schätzalgorithmen sehr komplex sind und die Lösungszeit, die Ergebnisse und u.u. auch, ob der Algo- Non-iterative Schätzverfahren und Startwerte

140 142 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung rithmus überhaupt konvergiert, davon abhängen, dass eine brauchbare Anfangsschätzung für Σ(θ) vorliegt, werden Startwerte für die Parameter gebraucht, die möglichst nahe an den endgültigen Schätzungen liegen. Diese können von Hand vorgegeben oder eben mittels der Verfahren IV und TSLS berechnet werden. Merkmale iterativer Schätzalgorithmen Beschreibung iterativer Schätzalgorithmen Die endgültige Schätzung erfolgt regelmäßig mittels iterativer Verfahren. Bei guten Startwerten werden oft nur noch wenige Iterationen benötigt, es kann jedoch durchaus auch zu Problemen bis hin zur Nichtkonvergenz und damit dem Abbruch des Algorithmus ohne Lösung kommen (s.u.). Neben Stichprobengröße und Skalenniveau ist bei der Auswahl der Methode noch zu berücksichtigen, ob eine multivariate Normalverteilung (vgl. Modul 2) vorausgesetzt wird, ob die empirische Matrix positiv definit sein muss, ob die Fitfunktion skaleninvariant und schließlich die Parameter skalenfrei sind. Positiv definit ist eine Matrix dann, wenn alle ihre Eigenwerte (bzw. die Matrixdeterminante) größer Null sind. Fehlende positive Definitheit entsteht durch starke lineare Abhängigkeiten bzw. Redundanzen (vgl. oben: empirische Unteridentifkation). Wenn z.b. ein Skalenwert zusammen mit den Items, aus denen die Skala besteht, eingegeben wird, enthält der Skalenwert keine neue Information und ist redundant. Neben solchen Kollinearitäten kann auch der paarweise anstelle des listenweisen Fallausschlusses zu nicht positiv definiten Matrizen führen und sollte deshalb bei SEM möglichst unterlassen werden (Wothke, 1993; zum Umgang mit fehlenden Werten in der CFA siehe T. Brown, 2006). Fehlende positive Definitheit ist ein sehr ernstes Problem, weil dann die Matrix nicht invertiert werden kann und die Schätzung fehlschlägt. Gängige Programmpakete weisen durch Fehlermeldungen auf dieses Problem hin. Skaleninvarianz bedeutet, dass die Werte der Diskrepanzfuktion nicht von der Skalierung der beobachteten Variablen abhängen; Skalenfreiheit bedeutet, dass sich nach Veränderung der Skala einer Variable geschätzte Parameter wieder in die ursprüngliche Metrik zurück transformieren lassen (vgl. Bollen, 1989; für formale Definitionen). Beides sind wünschenswerte Eigenschaften, da die Metrik psychologischer Variablen (und besonders von Testitems) oft willkürlich gewählt ist. Um eine einfache Analogie zu verwenden: Man möchte bei Berechnung eines SEM-Modells mit der Variable Einkommen nicht, dass die Ergebnisse davon abhängen, ob das Einkommen in Euro oder US-Dollar gemessen wird. Ferner ist in den meisten der aufgezählten Fälle zu berücksichtigen, wie robust das Verfahren gegenüber Verletzungen der Voraussetzungen ist (zur Robustheit existiert eine umfangreiche Literatur, die meist auf Simulationsstudien aufbaut, z.b. Hoogland & Boomsma, 1998). Zu den gängigen Schätzalgorithmen in SEM-Analysen und deren jeweiligen Eigenschaften zählen u.a. die folgenden: Maximum Likelihood (ML). Dies ist die Standardmethode, für die SEM ursprünglich entwickelt wurde, und die Voreinstellung der meisten Programme. Die Schätzungen sind für N asymptotisch korrekt (nähern sich den Populationswerten) mit asymptotisch normalverteilten Fehlern,

141 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 143 was die Berechnung von Teststatistiken erlaubt. ML ist i.d.r. skaleninvariant und skalenfrei, es kann jedoch bei Verwendung der Korrelationsmatrix zu Ausnahmen kommen (u.a. bei Verwendung der in der CFA häufigen Gleichheitsrestriktion, s.u.; vgl. Cudeck, 1989; Kline, 2005). Vorausgesetzt wird außerdem multivariate Normalverteilung, wobei ML gegenüber Verletzungen dieser Annahme relativ robust ist, so lange die univariaten Verteilungen nicht zu extrem sind (West, Curran & Finch, 1995, nennen als Grenzwerte für die Schiefe < 2, für den Exzess < 7; Bollen, 1989, nennt strengere Richtwerte von jeweils 1), und die Stichprobe nicht zu klein ist (hier kommt es neben dem absoluten N auch auf die Zahl zu schätzender Parameter q an; das Zusammenwirken der Faktoren ist so komplex, dass gängige Faustregeln wie N > 200 oder N:q > 10:1 wieder einmal eher mit Vorsicht anzuwenden sind; vgl. Hoogland & Boomsma, 1998; D.N. Jackson, 2003). Allgemein führen Verletzungen der Annahmen zu fehlerhaften Schätzungen der einzelnen Parameter und deren Standardfehler sowie der Prüfstatistiken für das gesamte Modell. Tendenziell werden Modelle mit nicht normalverteilten Variablen häufiger als berechtigt abgelehnt. Insgesamt spricht dennoch viel dafür, ML im Regelfall anzuwenden, jedoch zusammen mit der Kovarianzmatrix. Abweichungen von dieser Regel sollten begründet werden. Generalized Least Squares (GLS). GLS ist mit ML eng verwandt und hat sehr ähnliche Eigenschaften. Da GLS in Simulationsstudien i.d.r. gleich gut oder etwas schlechter abschnitt als ML, gibt es nur selten Gründe, den ML-Algorithmus durch GLS zu ersetzen. Unweighted Least Squares (ULS). Der ULS-Algorithmus entspricht einer Variante der PAF in der EFA (Long, 1986; vgl. Abschn ). Sein Vorzug besteht darin, dass er bezüglich der Verteilungseigenschaften der beobachteten Variablen sehr weitgehend voraussetzungsfrei ist. Dafür ist ULS weder skaleneinvariant noch skalenfrei und sollte deshalb, wenn überhaupt, nur auf die Korrelationsmatrix angewandt werden. Ein weiterer gravierender Nachteil, nämlich dass ULS keine Prüfstatistiken liefert, schließt die Anwendung in der CFA auch dann jedoch weitgehend aus. Asymptotically Distribution Free (ADF). ADF bezeichnet eine ganze Gruppe verwandter Methoden (WLS, DWLS, ERLS u.a.m.), die, wie der Name andeutet, keine oder nur eingeschränkte (bei ERLS) Verteilungsannahmen voraussetzen, anders als ULS aber skaleninvariant und skalenfrei sind und auch Prüfstatistiken bereitstellen. Diese Methoden bieten sich daher gerade zur Analyse dichotomer oder kategorialer Daten, zu denen die meisten Testitems gehören, an. Der Hauptnachteil der ADF-Methoden sind die extremen Anforderungen an die Stichprobegröße, da die vorteilhaften Eigenschaften nur asymptotisch (für N ) erreicht werden. Anders als bei ML oder GLS kann das bei etwas komplexeren Modellen leicht Stichproben in einer vierstelligen Größenordnung erfordern.

142 144 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Als Faustregel und Fazit dieses Abschnitts kann man formulieren, dass im Regelfall für eine CFA die Kovarianzmatrix mit dem ML-Algorithmus untersucht werden sollte, bei ungünstigen Verteilungseigenschaften und gleichzeitig sehr großer Stichprobe auch die Matrix der tetra- bzw. polychorischen Korrelationen mit einer ADF-Methode. Wenn ungünstige Verteilungen und relative kleine Stichproben zusammentreffen, kann ML auf die Kovarianzmatrix nach parceling angewandt werden. Allerdings muss in diesem Fall unabhängig von der eigentlichen CFA sichergestellt werden, dass die Items innerhalb eines Päckchens ein eindimensionales Konstrukt messen (Bandalos, 2002). (4b) Modelltest. Die Möglichkeit der Prüfung der Modellgüte stellt einen wesentlichen Vorzug der CFA gegenüber der EFA dar. Man kann dabei gedanklich zwischen drei Teilbereichen der Modellprüfung unterscheiden, nämlich (i) der Identifikationen möglicher Schätzprobleme, (ii) der Prüfung der Passung (fit) zwischen impliziertem und empirischen Gesamtmodell und (iii) der Prüfung der einzelnen Modellparameter. Auf letztere kommen wir in Abschnitt (4d) zurück. Schätzprobleme: Nichtkonvergenz und Heywood cases Das wohl gravierendste Problem taucht auf, wenn der Schätzalgorithmus nicht konvergiert, eine Lösung also nicht zustande kommt. Während Nichtkonvergenz dem Forscher unmittelbar zurückgemeldet wird, gehen die verschiedenen SEM- Programme mit einem zweiten Schätzproblem sehr unterschiedlich um, u.u. bleibt dessen Entdeckung dem Forscher selbst überlassen. Die Rede ist von unzulässigen Lösungen, sog. Heywood cases. Dabei handelt es sich um Einzelbefunde, die eigentlich unmöglich sind, z.b. negative Varianzen oder Korrelationen > 1. Wie können solche logisch ausgeschlossenen Befunde zustande kommen? Kline (2005) verwendet dafür eine anschauliche Metapher: der ML-Algorithmus verhält sich wie ein religiöser Fanatiker, der so fest an das spezifizierte Modell glaubt, dass er auch völlig unplausible Annahmen zulässt, um eine Passung zwischen Modell und Realität (d.h. den Daten) herzustellen. Allerdings sollte die Forscherin solchen Lösungen keinen Glauben schenken, sondern nach den Ursachen suchen und diese möglichst beheben. Nach Boomsma und Hoogland (2001) ist die Liste möglicher Ursachen für Nichtkonvergenz und Heywood cases ähnlich: zu geringe Stichprobengröße, zu geringe Zahl an Indikatoren, zu geringe Faktorladungen bzw. allgemeiner die gravierende Fehlspezifikation des Modells oder auch eine Kombination dieser Faktoren. Wenn die technischen Ursachen ausgeschlossen werden können und auch die Vorgabe anderer Startwerte oder die simple Erhöhung der Zahl zulässiger Iterationen das Problem nicht lösen, spricht viel für eine grobe Fehlspezifikation, also für einen Fehler in der theoretischen Vorarbeit (Schritt 1, bei Nichtkonvergenz können unsinnige Schätzungen u.u. auch durch Anwendung des ULS-Algorithmus aufgedeckt werden). Wenn die Schätzung zu einer Lösung mit Werten im zulässigen Bereich konvergiert ist, kann die Güte dieser Lösung global evaluiert werden. Dafür stehen ein Signifikanztest (χ 2 -Test) und eine Vielzahl sog. Fit-Indizes zur Verfügung.

143 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 145 Der χ 2 -Test prüft die H 0, dass das Modell zur beobachteten Datenstruktur passt, als mit der Stichprobengröße gewichteten Wert der Diskrepanzfunktion. Daraus ergeben sich zwei wichtige Konsequenzen. Erstens ist die theoretische Annahme als Nullhypothese formuliert, ein signifikanter Befund führt also, anders als sonst bei statistischen Tests gewohnt, zur Ablehnung des theoretischen Modells. Zweitens steigt die Wahrscheinlichkeit eines signifikanten Modells wie sonst auch mit der Stichprobengröße. Dies führt dazu, dass die für die Akkuratheit sehr wünschenswerte Erhöhung der Teilnehmerzahl gleichzeitig die Wahrscheinlichkeit der Ablehnung des Modells erhöht. Hinzu kommt ein weiterer paradoxer Effekt: die Wahrscheinlichkeit der Ablehnung erhöht sich auch mit der Zahl der Freiheitsgrade (dem Ausmaß an Überidentifikation) und damit mit der Strenge oder theoretischen Sparsamkeit des Modells. Der χ 2 -Test bestraft die Forscherin also gewissermaßen für zwei wünschenswerte Handlungen und belohnt theoretische Freizügigkeit und die Erhebung kleiner Stichproben. Obwohl der χ 2 -Test daher nicht als alleiniges Kriterium der Modellevaluation herangezogen werden sollte, kann auf den Bericht des χ 2 -Wertes mit Angabe des genauen p-wertes und der Freiheitsgrade nicht verzichtet werden, weil ein nicht signifikanter Test ein Hinweis auf absoluten oder exakten Modell-Fit ist und außerdem die Grundlage für alle approximativen und relativen Fit-Indizes (das Verhältnis χ 2 / d.f. ist bereits ein Indikator für den relativen Fit), auf die wir jetzt eingehen. Aufgrund der bekannten Probleme des χ 2 -Test wurde eine kaum noch überschaubare Zahl von Fit-Indizes vorgeschlagen, die sich unterschiedlichen Klassen und Unterkategorien zurechnen lassen (vgl. z.b. Hu & Bentler, 1999; Jöreskog & Sörbom, 1993). Gemeinsam ist diesen Indizes, dass sie versuchen, das Ausmaß der Modellgüte in einem Index zu quantifizieren, der ähnlich wie eine Effektstärke zu interpretieren ist (also nicht einfach als signifikant vs. nicht signifikant). Der zulässige Wertebereich ist meist standardisiert auf Werte zwischen Null und Eins. Während dies einerseits ein Vorteil gegenüber der Festlegung willkürlicher Signifikanzgrenzen ist, hat es andererseits dazu geführt, dass eine große Nachfrage nach Cut-off-Werten für diese Indizes zu bestehen scheint, die eine Grenze zwischen akzeptablem und inakzeptablem Fit markieren. Letztlich sind solche cutoffs auch nicht anders als Signifikanztests zu interpretieren und ebenso willkürlich wie ein Signifikanzniveau von z.b. p <.05. Dennoch werden wir einige verbreitete Regeln darstellen. Ferner beruhen alle Indizes auf dem χ 2 -Wert, versuchen jedoch dessen Sensitivität gegenüber Stichprobengröße, Freiheitsgraden oder beidem durch Korrekturfaktoren auszugleichen. Keiner der vorgestellten Indizes ist perfekt oder hat sich in der Literatur eindeutig durchgesetzt, weshalb es generell zu empfehlen ist, neben dem χ 2 -Wert die Werte mehrerer Fit-Indizes, vorzugsweise aus unterschiedlichen Klassen, zu berichten. Bei absoluten Fit-Indizes wird das unter Restriktionen geschätzte Modell mit einem Modell verglichen, bei dem die Parameter frei geschätzt wurden und das einem explorativen Modell ohne Freiheitsgrade mit deshalb perfekter Passung (saturiertes Modell) entspricht. Zu dieser Kategorie gehören die sog. Badness-of-Fit- Exakter Modell-Fit: χ 2 - Test Merkmale von Fit- Indizes Badness-of-Fit und Goodness-of-Fit

144 146 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Indizes (u.a. (Standardized) Root Mean Square Residual: (S)RMR, Root Mean Square Error of Approximation: RMSEA), bei denen höhere Werte einen schlechteren Fit anzeigen. Deren wichtigster Vertreter RMSEA lässt sich bspw. als mittlere Diskrepanz der implizierten Matrix pro Freiheitsgrad interpretieren (Jöreskog & Sörbom, 1993). Eine Besonderheit des RMSEA ist, dass sich dafür ein Konfidenzintervall berechnen lässt, das den Wert Null möglichst nicht einschließen sollte. Dagegen geben Goodness-of-Fit-Indizes (dazu gehören der gleichnamige Klassiker GFI und dessen nach Freiheitsgraden adjustierte Variante AGFI) das Ausmaß der Verbesserung gegenüber no model at all (Jöreskog, 1993, p.122) an. Bei GFI und AGFI stehen hohe Werte für gute Passung. Sie lassen sich im Grunde wie R² als Anteil durch das implizierte Modell aufgeklärter Varianz an der Gesamtvarianz interpretieren; von ihrer Anwendung wird jedoch in der neueren SEM-Literatur aufgrund der Sensitivität gegenüber Veränderungen der Stichprobengröße abgeraten (z.b. Fan, Thompson & Wang, 1999). Komparative Fit-Indizes Eine weitere Klasse, die inkrementellen oder komparativen Fit-Indizes, berechnen den Fit als proportionale Verbesserung gegenüber dem Nullmodell (independence model), bei dem alle Kovarianzen auf den Wert Null fixiert werden und entsprechend die maximale Restriktion vollständiger Unabhängigkeit vorgegeben wird. Es gibt eine relativ große Zahl verschiedener komparativer Indizes, die sich, je nach Menge der berücksichtigten Informationen, den Typen 1, 2 oder 3 zuordnen lassen. Je höher die Typenklasse, desto mehr Informationen gehen ein; unabhängig von der Typenklasse stehen auch hier wieder höhere Werte für bessere Passung. Der Begriff komparativ ist insofern potentiell missverständlich als er sich lediglich auf den internen Vergleich mit dem extremen Nullmodell bezieht, jedoch nicht auf Vergleiche zwischen verschiedenen spezifizierten Modellen (vgl. unten 4c). Zu den verbreitetsten komparativen Indizes gehören der Tucker-Lewis- Index (TLI, in LISREL als Non-Normed Fit Index NNFI bezeichnet) und der Comparative Fit Index CFI. Weitere komparative Indizes werden in Tabelle 6.1 genannt, die einige Ergebnisse aus Simulationsstudien mit ausgewählten Fit- Indizes zusammen mit daraus abgeleiteten Empfehlungen für Cut-off-Werte wiedergibt. Trotz ihres grundsätzlich umstrittenen Charakters haben sich die genannten Cut-offs in der Literatur recht weitgehend durchgesetzt, weil sie der Beurteilung der Modellgüte eine gewisse (scheinbare?) Objektivität verleihen.

145 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 147 Tabelle 6.1: Verwendung von globalen Fit-Indizes nach Hu und Bentler (1998, 1999), ergänzt durch Fan, Thompson und Wang (1999) Index / Typ / Wertebereich CFI (Cut-off.95) (Comparative-Fit-Index) Typ-3-Index Maximalwert = 1 TLI (Cut-off.95) (Tucker-Lewis-Index) Typ-2-Index Maximalwert > 1 BL 89 (Cut-off.95) (Fit-Index von Bollen, 1989) Typ-2-Index Maximalwert > 1 RNI (Cut-off.95) (Relative-Noncentrality-Index) Typ-3-Index Maximalwert > 1 SRMR (Cut-off <.11) (Standardized-Root-Mean- Square-Residual) Maximalwert = 1 Absoluter Fit-Index RMSEA (Cut-off <.06, <.08) (Root-Mean-Square-Errorof-Approximation Maximalwert = 1 Absoluter Fit-Index Mc (Cut-off.90) (McDonalds-Centrality-Index) Maximalwert > 1 Absoluter Fit-Index Beschreibung CFI (TLI, BL 89, RNI): moderat sensitiv gegenüber einfacher Modellfehlspezifikation sehr sensitiv gegenüber komplexer Modellfehlspezifikation geringe Sensitivität gegenüber Verteilungsverletzungen und Stichprobengröße mit Ausnahme des TLI auch bei N < 250 für die ML- Methode verwendbar bei ADF- und GLS-Methode Unterschätzung des eigentlichen wahren Populationswertes (bei Interpretation berücksichtigen und zusammen mit SRMR verwenden) bei Schätzung fehlender Werte sind diese Fit-Indizes nicht geeignet. In solchen Fällen sollte der RMSEA betrachtet werden. SRMR: sensitiv gegenüber einfacher Modellfehlspezifikation moderat sensitiv gegenüber komplexer Modellfehlspezifikation geringe Sensitivität gegenüber Stichprobengröße zeigt Fehlspezifikationen im Strukturmodell an (z.b. fehlspezifizierte Faktorkorrelationen) bei Schätzung fehlender Werte nicht geeignet RMSEA (Mc): sehr sensitiv gegenüber fehlspezifizierten Ladungen; moderat sensitiv gegenüber einfacher Modellfehlspezifikation sehr sensitiv gegenüber komplexer Modellfehlspezifikation RMSEA und Mc verwerfen bei kleinen Stichproben zu oft richtige Modelle, daher bei N < 250 RMSEA =.08 ausreichend. Wird die ADF-Methode angewandt, so wird weder der RMSEA noch der Mc zur Evaluation des Modell-Fits empfohlen. Benötigt man einen Index, der sich nicht übermäßig zwischen ML- und GLS-Methode unterscheidet, ist der RMSEA angemessen. Trotz der Vielzahl von Fit-Indizes und Empfehlungen zu Cut-offs für akzeptable Modellgüte (in einigen Fällen wird noch zwischen akzeptablem und gutem Fit differenziert) bleibt die Bestimmung der Güte eines einzelnen Modells ein zentrales Problem von SEM-Analysen einschließlich CFA. Ein Grund ist, dass alle Fit- Indizes zwar die Probleme des χ 2 -Tests in unterschiedlichem Umfang durch Korrekturen verringern, aber nicht wirklich lösen, weil auch sie direkt oder indirekt auf dem χ 2 -Wert beruhen. Noch wesentlicher dürfte aber der Umstand sein, dass selbst ein exakter Modell-Fit die Passung eines bestimmten theoretischen Modells nicht abschließend bestätigen kann, weil es eine unbekannte Zahl nicht geprüfter Modelle mit gleich guter oder sogar besserer Passung geben kann (umgekehrt Problem der Gütebeurteilung

146 148 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung kann ein abgelehntes Modell durchaus als bestmögliche Beschreibung auf die Population zutreffen). Es sollte deshalb stets zunächst theoretisch, anschließend ggf. auch empirisch geprüft werden, ob solche alternativen Spezifikationen sinnvoll sind. Zum Vergleich alternativer Modelle eignet sich SEM im Allgemeinen, und die CFA im Besonderen, in vielen Fällen besser als zur Bestimmung der absoluten Passung oder Nicht-Passung eines einzelnen bestimmten Modells (s. 4c). Äquivalente Modelle Arten alternativer Modellvergleiche Vergleich der Güte bei genesteten und nicht genesteten Modellen Eine Prüfung anderer Art betrifft die mögliche Existenz äquivalenter Modelle, die zwar im Pfaddiagramm anders aussehen und theoretisch auch anders zu interpretieren sind, aus technischen Gründen aber den gleichen Fit besitzen wie das geprüfte Modell. Dies betrifft z.b. die Umkehrung kausaler Pfade in Pfadanalysen, die den Fit häufig nicht verändert (fiktives Bsp.: ein Modell, in das Variablen wie Alter oder Geschlecht nicht als unabhängige, sondern abhängige Variablen psychologischer Konstrukte eingehen, sind zwar unsinnig, haben aber c.p. den gleichen Fit). Ein für die CFA typisches Beispiel ist die Spezifikation eines Faktors zweiter Ordnung mit genau drei Primärfaktoren. In diesem Fall ist das Strukturmodell der latenten Faktoren als Teilmodell der CFA gerade identifiziert und deshalb äquivalent zur Annahme der bloßen Interkorrelation der Faktoren. Ohne Zusatzannahmen lässt sich hier die Annahme eines Sekundärfaktors nicht prüfen. (4c) Modellvergleich. SEM ist, wie erwähnt, eine sehr flexible Methode, mit der sich Modellvergleiche unterschiedlicher Art anstellen lassen. Ein typischer Anwendungsfall, auf den wir hier nicht näher eingehen, ist etwa der Multi-Gruppen- Vergleich, mit dem sich die Übertragbarkeit eines Modells zwischen Teilgruppen im Datensatz prüfen lässt (z.b. die Frage Ist die gefundene Datenstruktur in verschiedenen Ländern (Geschlechtern, Berufsgruppen, Experimental- und Kontrollgruppe usw.) äquivalent? ). Wieder andere Anwendungen beziehen sich auf den Vergleich zwischen unterschiedlich spezifizierten Modellen innerhalb derselben Stichprobe. Hier ist zunächst zu unterscheiden zwischen Serien von Modellen, bei denen sich ein Modell jeweils als ein Spezialfall eines übergeordneten allgemeineren Modells beschreiben lässt, und Modellvergleichen, bei denen dies nicht der Fall ist. Den Fall sozusagen ineinander verschachtelter Spezifikationen bezeichnet man als Nestung. Ein Modell ist dann in einem anderen Modell genestet, wenn es sich von dem ersten lediglich durch die Einführung zusätzlicher Restriktionen unterscheidet. Bei den beiden in Abb oben dargestellten Modellen liegt z.b. keine Nestung vor, weil in Modell (b) gegenüber (a) neben der Einführung zahlreicher Restriktionen auch eine Relaxation zugelassen wurde, nämlich die Korrelation zwischen δ 2 und δ 3. Hätten wir auf diese Relaxation verzichtet, wäre Modell (b) in Modell (a) genestet (das EFA-Modell (a) entspricht dabei dem saturierten Modell). Die Unterscheidung genesteter und nicht genesteter Modelle ist u.a. deshalb wichtig, weil sich der Signifikanztest für den Vergleich verschiedener Modelle nur bei genesteten Modellen anwenden lässt. Dazu dient der Δχ²-Test (Chi-Quadrat- Differenzen-Test), der sich sehr einfach als χ 2 -Test für die simple arithmetische

147 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 149 Differenz der χ 2 -Werte sowie der jeweiligen Zahl der Freiheitsgrade der beiden verglichenen Modelle ergibt. Da beide Werte aus derselben Stichprobe stammen und implizit an der Zahl der Freiheitsgrade relativiert wird, entfällt beim Δχ²-Test ein Großteil der Probleme des einfachen χ 2 -Tests. Anders als bei der Beurteilung der Güte eines einzelnen Modells hat für den Vergleich genesteter Modelle die Konsultation der o.g. Fit-Indizes (inkl. der komparativen Indizes) nur einen sehr begrenzten Zusatznutzen. Für den Vergleich nicht genesteter Modelle darf der Δχ²-Test dagegen nicht angewandt werden. Hierfür stehen wiederum eine Reihe spezieller modellvergleichender Indizes zur Verfügung, die keine Nestung voraussetzen, und auf unterschiedliche Weise die Passung in Relation zur Parsimonität (d.h. der Zahl der Freiheitsgrade) betrachten (Jöreskog & Sörbom, 1993). Dazu gehören u.a. der Expected Cross Validation Index (ECVI), Akaike s Information Criterion (AIC) und der Consistent AIC (CAIC). Keiner dieser Indizes ist standardisiert; sie lassen sich also in ihrer absoluten Höhe auch nicht als Effektstärken interpretieren, sondern werden ausschließlich zur Erstellung einer Rangordnung verschiedener Modelle benutzt, wobei der niedrigste Wert jeweils für den besten Fit steht. Da die Indizes die Parsimonität berücksichtigen, kann die Rangordnung auch das saturierte Modell sinnvoll einschließen, dessen Fit, anders als bei den in Abschnitt (4b) genannten Indizes, nicht perfekt ist, sondern von den theoretischen Modellen sogar übertroffen werden sollte. Trotz mathematisch sehr unterschiedlicher Herleitung führen AIC und ECVI stets zur gleichen Rangordnung, sind also redundant, während CAIC eine andere Rangfolge favorisieren kann (Jöresko & Sörbom, 1993). Die Möglichkeit des Modellvergleichs führt zu einem weiteren für die Testkonstruktion bedeutsamen Unterschied zwischen CFA und EFA, der an dieser Stelle in einem kurzen Exkurs erläutert werden soll. Exkurs: Grade der Äquivalenz von Messmodellen und deren Prüfung Grade äquivalenter Messung In der Testtheorie werden die einzelnen Teile (insbes. Items) eines Tests als äquivalente Messungen desselben Konstrukts aufgefasst. Inhaltlich bedeutet dies, dass für den hypothetischen Fall, dass Testteile oder auch Messgelegenheiten völlig frei von Fehlereinflüssen wären, diese Messungen als untereinander austauschbar angesehen werden. Wichtig ist diese Annahme u.a. für die korrekte Berechnung der Reliabilität (vgl. Kap. 5). Dabei ist jedoch weiter zwischen verschiedenen Arten oder, genauer, Graden der Äquivalenz zu unterscheiden (vgl. Bühner, 2006 bzw. im Original Lord & Novick, 1968): (1) Streng parallel sind Messungen, wenn für jede Person in beiden Messungen wahrer Wert und Fehler gleich hoch sind. Übertragen auf Items als Einzelmessungen würde dies für alle Items gleiche Schwierigkeiten und Trennschärfen implizieren, ferner u.a. gleiche Korrelationen mit Außenkriterien. Bei essentiell parallelen Messungen wird lediglich die Annahme gleicher Mittelwerte

148 150 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung (Schwierigkeiten) aufgegeben, so dass der wahre Wert zwischen den Messungen, um eine additive Komponente verschoben sein kann. Im faktorenanalytischen Modell ist essentielle Parallelität gekennzeichnet durch gleiche Faktorladungen und gleiche Fehlervarianzen der Indikatoren. (2) Tau-äquivalente Messungen zeichnen sich durch gleiche Mittelwerte, jedoch unterschiedliche Messfehler (Reliabilität) aus. Dies bedeutet, dass Korrelationen der Testteile, die um den Messfehler bereinigt wurden, gleich sein sollten (gilt für Korrelationen mit Außenkriterien wie für die Faktorladungen auf der latenten Ebene). Bei essentiell tau-äquivalenten Messungen kann der Mittelwert wieder um eine Konstante verschoben sein. Tau-Äquivalenz wird in der Faktorenanalyse durch gleich hohe Ladungen je Faktor festgestellt bzw. spezifiziert. (3) Bei (tau-)kongenerischen Messungen können über die essentielle Tau- Äquivalenz hinaus die Messwerte auch um eine multiplikative Konstante verschoben sein, d.h. in unterschiedlichen Einheiten gemessen werden. In diesem Fall dürfen zwar sowohl Faktorladungen als auch Fehlerterme zwischen den Items in der Höhe variieren, die Items jedoch jeweils nur auf einen Faktor laden. Die Messung muss also eindimensional sein. Die wichtigsten Annahmen sind Abb nochmals als schematische Pfaddiagramme dargestellt. ξ ξ ξ λ = λ = λ λ = λ = λ λ λ λ Item 1 Item 2 Item 3 Item 1 Item 2 Item 3 Item 1 Item 2 Item 3 σ 2 E σ 2 E σ 2 E = σ 2 E = σ 2 E σ 2 E σ 2 E σ 2 E e1 e2 e3 e1 e2 e3 e1 e2 e3 σ 2 E essenziell parallel essenziell tau-äquivalent tau-kongenerisch Abb. 4.20: Grade der Äquivalenz im Pfaddiagramm Theoretische CFA-Modelle setzen häufig (lediglich) kongenerische Messung voraus, die wichtigsten Kennwerte zur Bestimmung der Reliabilität jedoch mindestens essentielle Tau-Äquivalenz und ggf. sogar Parallelität (Lord & Novick, 1968; vgl. Kap. 5). Im Rahmen einer CFA können alle diese Annahmen explizit und u.u. auch vergleichend durch Spezifikation entsprechender Modelle geprüft werden. Die Annahme der kongenerischen Messung (Eindimensionalität) wird in der CFA durch die strukturelle Form des Modells spezifiziert, d.h. durch Freiset-

149 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 151 zung theoretisch relevanter Ladungsparameter und Fixierung der übrigen Ladungen auf den Wert Null (vgl. Abb (b)). Für die Prüfung der Tau-Äquivalenz und der Parallelität sind zusätzlich Gleichheitsrestriktionen der Ladungs- bzw. Fehlervektoren notwendig. Dies ist übrigens ein Fall, für den die Skaleninvarianz auch bei Anwendung des ML-Algorithmus problematisch werden kann, wenn die Korrelationsmatrix analysiert wird. Falls sonst keine Annahmen verändert werden, sind parallele Modelle in tau-äquivalenten Modellen und letztere wieder in kongenerischen Modellen genestet und können daher durch den Δχ²-Test geprüft werden. In gleicher Weise können im Rahmen von Multi-Gruppen-Vergleichen Grade der Äquivalenz zwischen verschiedenen Gruppen spezifiziert und geprüft werden. Gerade bei der CFA von Fragebogenitems werden sehr häufig Modelle aufgrund der globalen Fit-Statistiken fälschlich abgelehnt, obwohl die theoretische Spezifikation korrekt ist. Das hängt damit zusammen, dass, wenn wenige latente Variablen mit vielen Indikatoren gemessen werden, der weitaus größte Teil der spezifizierten Annahmen (d.h. der Freiheitsgrade im Modell) unmittelbar auf die häufig individuell wenig reliablen Indikatoren entfällt, während die eigentlichen theoretischen Annahmen nur einen geringen Anteil am geprüften Modell ausmachen. Gewissermaßen überlagert dann die bescheidene Messqualität der Einzelindikatoren wie ein weißes Rauschen die Prüfung der Theorie. In solchen Fällen kann, neben dem oben beschriebenen parceling (das u.a. das Rauschen vermindert) die Prüfung alternativer theoretischer Modelle Klarheit darüber verschaffen, ob das von der Theorie implizierte Modell wirklich das beste unter den denkbaren Alternativen ist, auch wenn es mglw. absolut gesehen keinen akzeptablen Fit erreicht. Ebenfalls vergleichend lässt sich etwa die Haltbarkeit der in der Klassischen Testtheorie getroffenen (und oft bezweifelten) Annahme unkorrelierter Messfehler prüfen. (4d) Prüfung und Interpretation der Einzelparameter und (5) Modifikation. Einzelne geschätzte Parameter sollten nur dann interpretiert werden, wenn das Modell insgesamt einer Prüfung standhält (vgl. 4b). In vielen Fällen sind die Anforderungen etwa an die Stichprobengröße für die stabile Schätzung der Parameter noch deutlich größer als für die zuverlässige Prüfung des globalen Fit (Hoogland & Boosma, 1998). Wenn die Kovarianzmatrix analysiert wurde, stellt etwa LISREL Schätzungen für die unstandardisierten Parameter (d.h. die Ladungen entsprechen z.b. unstandardisierten Regressionskoeffizienten), die (teil-)standardisierte Lösung (standardized solution: standardisiert sind nur die latenten Variablen, nicht die Indikatoren) und die vollständig standardisierte Lösung (completely standardized solution) zur Verfügung. Die Ladungsparameter aus letzterer Lösung lassen sich wie die Musterkoeffizienten der EFA als standardisierte Regressionskoeffizienten bzw. als Korrelationen (wenn der Indikator auf nur einen Faktor lädt; vgl. Kline, 2005) interpretieren. Bei Analyse der Korrelationsmatrix sind alle Werte standardisiert. Parameter für Pfade zwischen latenten Variablen sind grundsätzlich um Messfehler korrigiert. Das bedeutet, dass sie als Beziehungen auf der Vergleichende CFA bei Fragebogenitems Arten von Parameterschätzungen und Interpretation

150 152 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Konstruktebene zu interpretieren sind; z.b. beziehen sich die Faktorinterkorrelationen in der CFA, anders als bei der EFA mit obliquer Rotation, auf Schätzungen der Korrelation zwischen theoretischen Konstrukten. Signifikanzprüfung der Parameter Ge- und Missbrauch von Modifikationsindizes Bewertung von SEM und CFA Zur Signifikanzprüfung der im Modell geschätzten Parameter stehen für die unstandardisierte Lösung Standardfehler und t-werte zur Verfügung. Aus den Standardfehlern lassen sich in bekannter Weise (Modul 2) Konfidenzintervalle berechnen. Diese sind jedoch auf die standardisierte Lösung nicht übertragbar. Für die t-werte gelten die in vielen Statistiklehrbüchern (z.b. Bortz, 2005) aufgelisteten Signifikanzgrenzen. Ferner werden für die Strukturgleichungen der latenten Variablen und für die beobachteten Variablen quadrierte multiple Korrelationen berichtet, die sich als Schätzungen der Reliabilität interpretieren lassen. Eine besondere Erwähnung verdienen zur Beurteilung der Parameter ferner die sog. Modifikationsindizes. LISREL und andere SEM-Programme geben für jeden auf Null fixierten Parameter an, welche Verbesserung für den χ²-wert zu erwarten ist, wenn der betreffende Parameter freigesetzt würde. Da durch die Freisetzung eines Parameters jeweils ein Freiheitsgrad entfällt, kann der Modifikationsindex als Schätzung der direkten Kosten der Fixierung eines bestimmten Parameters in χ²-einheiten interpretiert und auch auf Signifikanz geprüft werden. Sehr hohe Modifikationsindizes können in der Tat ein Hinweis auf grobe Fehlspezifikationen im Modell sein, in der CFA z.b. auf die falsche Zuordnung eines Items zu einem Faktor. Im gleichen Atemzug sollte aber vor der großzügigen (oder gar signifikanzbasiert automatisierten) Verwendung der Modifikationsindizes zur Respezifikation des Modells sehr nachdrücklich gewarnt werden. Die Versuchung ist groß, ein Modell anhand dieser Indizes so lange zu modifizieren, bis es endlich zu den Daten passt. Dieser Versuchung sollte der Forscher unbedingt widerstehen. Die Veränderung einer a priori getroffenen theoretischen Annahme aufgrund des empirisch gefundenen Modifikationsindex ist rein explorativ, entsprechend anfällig für Zufallseinflüsse jeglicher Art und läuft deshalb dem konfirmatorischen Prinzip der CFA diametral zuwider. Der Aufwand in die Spezifikation des Modells sollte bei der CFA theoretischer Natur sein und vor der Datenanalyse investiert werden. Bei Anwendung von Modifikationsindizes in publizierten Studien werden zwar häufig theoretische Gründe genannt, diese wirken in den meisten Fällen aber nachgeschoben und hinterlassen beim kritischen Leser oft zurecht einen faden Nachgeschmack. Insgesamt lassen sich auch zur Anwendung der CFA einige durchaus kritische Anmerkungen machen, wenngleich aus teilweise anderen Gründen als bei der EFA. Ein grundsätzliches Problem, das bei der CFA (und überhaupt bei SEM- Analysen) noch stärker wiegen dürfte als bei der EFA, liegt auf der Anwenderseite. Die Methode ist mathematisch sehr komplex und wird, begünstigt durch die zunehmende Anwenderfreundlichkeit von weitgehend als Pfaddiagramm-Malprogramme gestalteter Software, häufig auch un- oder teilqualifiziert angewandt. Das birgt Gefahren, denn auch im Verlauf einer CFA sind zahlreiche subjektive Ein-

151 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 153 schätzungen und Entscheidungen zu treffen, wobei sich ebenso zahlreiche Möglichkeiten bieten, Fehler zu machen. Kline (2005) überschreibt ein ganzes Kapitel seines Lehrbuchs mit dem schönen Titel How to Fool Yourself with SEM. Dessen 44 Unterpunkte können hier nicht wiedergegeben werden, das Kapitel sei aber ausdrücklich zur Lektüre empfohlen. Außerdem sind einige zentrale Probleme im Verlauf einer SEM-Analyse (z.b. die Identifikation und die Beurteilung des Fit) mathematisch noch nicht endgültig gelöst. Die vorliegenden Näherungslösungen haben sich aber als so brauchbar erwiesen, dass SEM-Analysen einschließlich CFA inzwischen aus dem Methodenarsenal der Psychologie nicht mehr wegzudenken sind und einen ganz erheblichen Anteil der in Fachzeitschriften publizierten Analysen ausmachen. Für die Testkonstruktion ist die CFA inzwischen eine sehr wesentliche Ergänzung der deskriptiven Analysen im Rahmen der KTT, bei rational konstruierten Tests u.e. sogar ein unverzichtbarer Bestandteil. 4.3 Aggregation zu Skalenwerten, Normierung und Interpretation Nachdem in der Gesamtschau der bisher dargestellten Item- und Faktorenanalysen, zudem unter angemessener Berücksichtigung von Kennwerten vorliegender Güte- und weiterer Evaluationskriterien (vgl. Kap. 5), entschieden wurde, welche Items aus dem Entwurf ggf. eliminiert und welche Items welchen Skalen zugeordnet werden sollen, liegt die Endform des Tests inhaltlich fest. Als nächster Konstruktionsschritt ist über die Berechnungsvorschrift für den Skalenrohwert zu entscheiden. Dies ist ein relativ einfach zu lösendes Problem. Abgesehen von der Verwendung von Faktorwerten (vgl. Abschn ) und Spezialfällen z.b. bei bestimmten Varianten ipsativer Verfahren (vgl. Kap. 2) berechnet sich der Skalenwert i.d.r. als einfache Summe oder Mittelwert der Rohwerte aller einer Skala zugeordneten Items. Beides ist im Grunde äquivalent; der Mittelwert erlaubt eher Vergleiche zwischen Skalen unterschiedlicher Länge, verschleiert andererseits aber gerade diesen Längenunterschied. Zu klären ist dabei noch, ob und ggf. in welchem Umfang fehlende Werte einzelner Items bei der Berechnung der Skalenwerte toleriert werden sollen. Der Nachteil einer solchen Tolerierung liegt in möglichen Verzerrungen der Skalenwerte durch empirisch nicht fundierte Extrapolation, der Vorteil darin, dass Datensätze von Klienten oder Versuchspersonen erhalten bleiben, bei denen eventuell nur ein Bruchteil der Information fehlt. Bei dieser Abwägung spricht umso eher etwas für die Tolerierung fehlender Werte, (1) je mehr Items zu einer Skala zusammengefasst werden, (2) je homogener die Items innerhalb einer Skala sind (d.h. je mehr graduelle inhaltliche Redundanz besteht) und (3) je geringer die Folgen einzelner Verzerrungen sind (bei der statistischen Auswertung anonymisierter großer Datensätze sind die individuellen Konsequenzen geringer als in der Einzelfalldiagnostik) und (4) je geringer der Anteil tolerierter fehlender Werte ist. Ein vertretbarer (allerdings begründungspflichtiger) Kompromiss könnte z.b. sein, bei langen und homogenen Skalen 5 bis 10 % Optionen für die Berechnung von Skalenrohwerten

152 154 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung fehlende Werte zuzulassen. Bei der Berechnung von Skalenwerten geschieht dies am einfachsten, indem man den Mittelwert aus den verbliebenen Items berechnet bzw. die Summe entsprechend hochrechnet. Berechnung von Skalenrohwerten mit SPSS Die Berechnung von Skalenrohwerten geschieht in SPSS über TRANSFORMIE- REN -> VARIABLE BERECHNEN -> FUNKTIONSGRUPPE: ALLE -> MEAN (oder SUM). Nachdem die Funktion MEAN oder SUM über in das Fenster NUMERISCHER AUSDRUCK verschoben wurde, müssen die zur Skala gehörenden Items in der Liste ausgewählt und einzeln über in die Klammer verschoben und durch Kommata getrennt werden. Außerdem muss dem Skalenwert über ZIELVARIABLE ein Variablenname zugewiesen werden, der sinnvoller Weise über TYP & LABEL -> BESCHRIFTUNG noch erläutert werden kann. In Abb ist dies alles beispielhaft für die Skala Offenheit für Erfahrungen aus dem BFI dargestellt. Während es bei Datenanalysen lediglich sehr empfehlenswert ist, diese über die Syntax durchzuführen (EINFÜGEN statt OK), sollten die Berechnungsvorschrift für Skalenwerte unbedingt in der Syntax dokumentiert werden. Die über EINFÜGEN generierte Syntax des in dem Fenster aus Abb spezifizierten Befehls ist in Abb wiedergegeben. Hier wurde allerdings die (in Abb hervorgehobene) Ergänzung.9 eingefügt, mit der spezifiziert wird, dass der Mittelwert berechnet werden soll, wenn mindestens 9 der 10 in Klammern folgenden Variablen gültige Werte aufweisen. Abb 4.21: SPSS-Fenster Variable berechnen

153 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 155 Abb. 4.22: SPSS-Syntax Skalenwertberechnung (mit Tolerierung eines fehlenden Wertes) Die Skalenrohwerte sind für Datenauswertungen wie etwa die Berechnung von Korrelationen mit Außenkriterien meist ausreichend, als Einzelwerte betrachtet aber nicht sehr aussagekräftig. Nehmen wir als Beispiel die Skalen des BFI. Herr Schulte habe dieses Inventar bearbeitet und in der Skala Gewissenhaftigkeit (C) einen aus dem Mittelwert der Items berechneten Rohwert von 3,2 erzielt, bei der Skala Neurotizismus (N) dagegen einen Wert von 2,8. Es liegt nahe, aus diesen Angaben zu schließen, dass (1) der Herrn Schultes Wert in C höher ist als derjenige in N sowie (2), dass Herr Schulte in C einen über- und in N einen unterdurchschnittlichen Wert erzielt hat, da der Mittelpunkt der Skala bei 3 liegt. All diese Schlussfolgerungen sind falsch, wie man bei einem Blick auf die empirischen Befunde erkennt (s. Abb und 3.12 in Kap. 3). Bezogen auf die Stichprobe des Beispieldatensatzes liegt Herrn Schultes Skalenrohwert in C unter dem Durchschnitt (3,59), derjenige in N über dem Stichprobenmittel (2,57) und damit nach den Gesetzen der Logik der Wert in C relativ gesehen auch unter dem in N. Eine solche Relativierung setzt allerdings voraus, dass die hier gewählte Referenzgruppe die Anforderungen an eine sog. Eichstichprobe oder Normstichprobe erfüllt und dass die beobachteten Abweichungen vom Stichprobenmittelwert groß genug sind, um sinnvoll interpretiert werden zu können. Mit diesen Voraussetzungen werden wir uns in Kapitel 5 noch beschäftigen. Die Orientierung an relativen Referenzwerten als solchen entspricht dem Vorgehen bei einer normorientierten Testwertinterpretation. Dies ist in der Testpsychologie der häufigste, aber nicht der einzige Fall, da es auch eine kriterienorientierte Testwertinterpretation gibt. Beide Fälle werden im Folgenden kurz erläutert. Für die normorientierte Interpretation werden zunächst Daten einer Normstichprobe benötigt, die für die Referenzpopulation, mit der Herr Schulte verglichen werden soll (z.b. erwachsene Bevölkerung Deutschlands), repräsentativ, aktuell und zudem in einem Kontext untersucht worden sein sollte, der für die spezifische Anwendung des Tests (z.b. eine Bewerbungssituation) angemessene Schlüsse zulässt (vgl. Kap. 5). Es können durchaus differenzierte Normen aus unterschiedlichen Stichproben und Kontexten erforderlich sein. Aus den Daten dieser Stichprobe(n) werden dann Normwerte berechnet, die durch eine Transformation der Skalenrohwerte entstehen. Diesen Vorgang nennt man die Eichung oder Normierung eines Tests. Die Eichung hat den Sinn, die Testwerte in einer einheitlichen, für qualifizierte Fachleute (i.d.r. PsychologInnen) unmittelbar verständlichen Skalierung darzustellen und damit die Interpretation zu erleichtern. Dahinter steckt die Überlegung, dass Testwerte meist nur als quantifizierte Abweichung von einem Referenzpunkt, also relativ, sinnvoll interpretiert werden können. Zum Beispiel ist die Aussage Tina ist intelligent nur sinnvoll zu interpretieren, wenn wir sie auffassen als Tina ist intelligent(er) im Vergleich zu anderen (vergleich- Begrenzte Interpretierbarkeit der Skalenrohwerte Normierung und Prinzip der normorientierten Interpretation

154 156 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung baren) Menschen. In der Psychologie hat sich per Konvention eine Reihe von gebräuchlichen Skalen für die Transformation der Rohwerte in Normwerte herausgebildet, von denen einige jetzt vorgestellt werden sollen. Lineare Transformation durch z- Standardisierung Bei den meisten dieser Normskalen handelt es sich um lineare Transformationen, die entweder unmittelbar durch z-standardisierung entstehen oder durch weitere lineare Transformation daraus abgeleitet werden. Der z-wert entsteht durch die Relativierung der Abweichung des individuellen Testwerts X einer Person vom Stichprobenmittelwert M an der Standardabweichung SD der Stichprobenwerte: z = (X M) / SD Die Berechnung von z-werten setzt mindestens Intervallskalenniveau voraus. Keine Voraussetzung der Berechnung ist die Normalverteilung der Rohwerte, normalverteilte Testwerte haben jedoch erhebliche Vorteile für die Interpretation der Normen. In diesem Fall lassen sich die z-normwerte als Einheiten der Standardnormalverteilung (Standardnormen) mit deren bekannten Verteilungseigenschaften (M = 0; SD = 1) interpretieren. Wir wüssten in diesem Fall z.b., dass Herrn Schultes scheinbar hoher Wert in Gewissenhaftigkeit etwa eine SD-Einheit (im Rohwert SD.39; vgl. Abb. 3.11) unterhalb des Mittelwerts der Referenzgruppe liegt und damit geringer ist als der von ca. 84 % der Teilnehmer. In SPSS werden z-werte sehr einfach erzeugt, indem über DESKRIPTIVE STATISTIK -> DESKRIPTIVE STATISTIK das bereits aus Abb. 3.4 bekannte Fenster geöffnet und dort die Option STANDARDISIERTE WERTE ALS VARIABLE SPEI- CHERN markiert wird (Abb. 4.23). Abb. 4.23: SPSS-Fenster Deskriptive Statistik mit z-standardisierung Weitere linear transformierte Normwerte Häufig werden Testnormen jedoch nicht als z-werte berichtet, sondern zur nochmaligen Verbesserung der Interpretierbarkeit durch weitere lineare Transformation in ganzzahlige, einheitlich positiv gepolte Normwerte umgeformt. Die Unterschiede in der Anwendung verschiedener auf der Grundlage von z-werten

155 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 157 berechneter Normwerte sind dabei eher historisch bedingt als durch echte Vorteile einer Normskala gegenüber einer anderen. Zum Beispiel ist für Intelligenztests noch immer die Verwendung der IQ-Skala gebräuchlich, obwohl der historische Intelligenzquotient ganz anders berechnet wurde und mit der modernen Skala nur noch die (seinerzeit empirisch gefundene) SD von 15 gemeinsam hat. Bei Persönlichkeitstests wird dagegen oft die auf neun Pole mit einer SD von 2 skalierte Stanine-Skala (standard nine) verwendet, bei der Extremwerte den beiden äußeren Polen 1 und 9 subsumiert werden (eine 11-polige Erweiterung ist die Centil- oder C-Skala). Verteilungen einiger gebräuchlicher Normskalen sind zusammen mit den zugehörigen Formeln in Abb dargestellt. Abb. 4.24: Darstellung einiger gebräuchlicher Normskalen (aus Goldhammer & Hartig, 2007, S. 174) Ebenfalls in Abb dargestellt sind Prozentrangnormen (PR-Normen), bei denen es sich aber, im Gegensatz zu allen bisher vorgestellten Normskalen, um eine nicht-lineare Transformation handelt. Ein PR-Wert ist zu interpretieren als der Prozentsatz der Normstichprobe, der einen geringeren oder höchstens gleich hohen Testwert erreicht. PR-Normen sind relativ verteilungsfrei und erfordern lediglich Ordinalskalenniveau. Anders als bei linearen Transformationen sind die Abstände zwischen den Skalenpunkten einer PR-Skala aber uneinheitlich und hängen unmittelbar von der Häufigkeitsverteilung ab. In Abb wird dies beispielhaft anhand der Normalverteilung deutlich. Während für die anderen dort abgebildeten Skalen gleiche Normwertdifferenzen gleichen Abständen entsprechen (der Unterschied zwischen einem IQ von 130 und 115 ist z.b. genauso groß Nicht-lineare Prozentrangnormen

156 158 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung wie der zwischen 115 und 100) ist die PR-Verteilung an den Enden ebenso gedehnt wie die Normalverteilung der Häufigkeiten (der Abstand zwischen dem IQ von 100 und 115 entspricht einer Veränderung des PR von ca. 34, die weitere Steigerung des IQ auf 130 aber nur noch einer Steigerung des PR von ca. 14). Diese Verzerrung des Maßstabs ist Laien schwer vermittelbar und kann trotz (oder gerade wegen) der eigentlich leichten Verständlichkeit des PR-Werts zu Missverständnissen führen. In unserem Beispiel würde Herrn Schultes PR-Wert für Gewissenhaftigkeit von ca. 16 (geringer als 84 % der Normstichprobe) mglw. deutlich extremer erscheinen als es dem entsprechenden Punkt auf der Verteilung bei ca. z = -1 angemessen wäre. PR-Werte können in SPSS erzeugt werden, indem, wie in Abb dargestellt, über TRANSFORMIEREN -> RANGFOLGE BILDEN zunächst relevante Variablen ausgewählt und dann RANGTYPEN -> PROZENTRÄNGE gewählt wird. Abb. 4.25: SPSS-Fenster Rangfolge bilden: Typen Umgang mit nicht normalverteilten Daten Die Angaben in Abb oben beziehen sich ausschließlich auf die Normalverteilung. Da der PR-Wert eine direkte Funktion der Häufigkeitsverteilung ist, ergeben sich für andere Verteilungen andere nicht-lineare Veränderungen des Maßstabs entlang der PR-Skala (linear ist die PR-Skala nur bei Gleichverteilung). Bei den Normwerten, die auf der z-standardisierung basieren, bleibt der unverzerrte Maßstab auch bei Abweichungen von der Normalverteilung erhalten, nicht jedoch die in Abb angegebenen relativen Häufigkeiten zwischen Stufen der Normwerte. Es ist jedoch möglich, die Normwerte bei schiefen Verteilungen der Rohwerte durch eine sog. Flächentransformation nachträglich zu normalisieren. Dabei werden die Rohwerte nicht-linear so transformiert, dass die Normwerte wieder normalverteilt sind. Eine ähnliche Funktion wie die Flächentransformation hat die direkte Umrechnung von PR-Werten in Stanine-Werte unter Annahme der normalverteilten Häufigkeiten (vgl. Bühner, 2006) sowie die Aktivierung des Kästchens NORMALRANGWERTE statt PROZENTRÄNGE in Abb Wäh-

157 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 159 rend die Flächentransformation einerseits die relativen Häufigkeiten wiederherstellt und die Normalverteilung für bestimmte Berechnungen wünschenswert ist, geht andererseits durch die nicht-lineare Transformation die Maßstäblichkeit der Normwerte verloren, weil Rohwerte an unterschiedlichen Punkten der Skala unterschiedlich gewichtet werden. Dies ist eine Entscheidung unter Abwägung von Vor- und Nachteilen. Für die Einzelfalldiagnostik ist aufgrund des Maßstabsproblems von der Interpretation aufgrund nicht-linearer Transformationen generell eher abzuraten. Dort ist es eine verbreitete Konvention, den Bereich innerhalb +/- 1 SD um den Mittelwert als normal oder durchschnittlich zu definieren, Werte jenseits davon als über- und unterdurchschnittlich. Auch wenn dies eine für die Praxis willkommene Vereinfachung darstellt, ist dabei zu bedenken, dass die Kategorisierung wie auch die Schwellenwerte stets willkürlich sind und für deren Über- oder Unterschreitung zudem der Messfehler zu beachten ist (vgl. Kap. 5). Ein gänzlich anderer Fall als bei der durch Kategorisierung vereinfachten normorientierten Interpretation liegt bei der kriterienorientierten Testinterpretation vor. Kriterienorientiert muss immer dann interpretiert werden, wenn sich das Testergebnis bzw. die daran geknüpften Konsequenzen grundsätzlich ändern, sobald ein bestimmter Schwellenwert (cut-off) über- oder unterschritten worden ist. Dies ist typischerweise der Fall bei kriterienorientierten Leistungstests (Wurde das Lernziel erreicht?, vgl. Kap. 1), aber auch z.b. bei external konstruierten Verfahren etwa der klinischen Diagnostik (Liegt die Persönlichkeitsstörung X vor?, vgl. Kap.2) oder beim Einsatz eigentlich normorientierter Verfahren für einen explizit kriterienorientiert definierten diagnostischen Zweck (Erfüllt Bewerber X die Mindestanforderungen der Stelle Y an die Intelligenz?; vgl. auch die Darstellung zum Nutzen der Berufseignungsdiagnostik in Modul 8). Es handelt sich bei diesen Beispielen jeweils um eine dichotome Entscheidung über das Vorliegen oder Nicht-Vorliegen eines bestimmten definierten Kriteriums. Da sowohl Entscheidung A als auch B jeweils richtig oder falsch sein können, ergibt sich das aus der Hypothesentestung (vgl. Modul 2) bekannte Vierfelder-Schema der Fehlerrisiken. In der Diagnostik werden anstelle der dort üblichen Bezeichnungen (Teststärke, Fehler 1. und 2. Art etc.) meist die in Abb aufgeführten Begriffe verwandt. Prinzip der kriterienorientierten Testinterpretation bei dichotomen Kriterien Klassifikation durch Test ja nein Kriterium in Wahrheit erfüllt? Ja Nein Treffer (hits) bzw. richtig positiv (RP) Falscher Alarm (false alarm) bzw. falsch positiv (FP) Verpasser (misses) bzw. falsch negativ (FN) Korrekte Ablehnung (correct rejections) bzw. richtig negativ (RN) Abb. 4.26: Vierfelder-Schema der kriterienorientierten Klassifikation

158 160 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Anteile richtiger und falscher Entscheidungen Es gibt also zwei Arten richtiger Entscheidungen, nämlich die korrekte Klassifikation einer Person als das Kriterium erfüllend (RP) oder nicht erfüllend (RN), und die jeweils entsprechenden beiden falschen Klassifikationen als erfüllend (FP) oder nicht (FN). Daraus ergeben sich die folgenden formalen Definitionen für bestimmte Anteile richtiger und falscher Entscheidungen (die Bezeichnungen Sensitivität und Spezifität sind hier die für die entsprechenden Quoten in manchen Disziplinen wie u.a. der Medizin gebräuchlicheren Synonyme und dürfen nicht mit ähnlichen oder gleichen Bezeichnungen aus bestimmten statistischen Verfahren verwechselt werden): Trefferquote = RP / (FN + RP) = Sensitivität (Anteil der richtig klassifizierten Personen unter allen Personen, die das Kriterium tatsächlich erfüllen) Verpasserquote = FN / (FN + RP) = 1 Sensitivität (Anteil der falsch klassifizierten Personen unter allen Personen, die das Kriterium tatsächlich erfüllen) Quote korrekter Ablehnungen = RN (FP + RN) = Spezifität (Anteil der richtig klassifizierten Personen unter allen Personen, die das Kriterium nicht erfüllen) Quote falscher Alarme = FP / (FP + RN) = 1 Spezifität (Anteil der falsch klassifizierten Personen unter allen Personen, die das Kriterium nicht erfüllen) Bestimmung des Schwellenwerts Diese Quoten und die zugrunde liegenden Klassifikation sind zwar formal leicht definiert, aber inhaltlich nur schwer sinnvoll und reliabel zu bestimmen. Ein kaum befriedigend zu lösendes Problem ist, dass in der Psychologie die scheinbar dichotomen Kriterien oft auf in Wahrheit kontinuierlich verteilten Variablen (z.b. berufliche Eignung, schulische Leistung) beruhen, deren künstliche Dichotomisierung nicht frei von Willkür und mit Informationsverlust verbunden ist (anders als etwa in der Medizin, wo jemand z.b. eine bestimmte Infektion hat oder nicht hat). Ein im Grundsatz technisch lösbares Problem ist dagegen die Bestimmung des theoretischen Optimums für den Schwellenwert, also des Wertes, der den Anteil richtiger Entscheidungen insgesamt optimiert. Voraussetzung für die empirische Bestimmung ist allerdings, dass eine Untersuchung mit dem fraglichen Test mit zwei Gruppen durchgeführt wird, deren korrekte Klassifikation aus anderen Quellen bekannt ist (z.b. aus alternativen Diagnostika oder beim für Bewerber zu prognostizierenden Kriterium Berufseignung post hoc für aktuell Beschäftigte). In solchen Fällen kann etwa eine ROC-Analyse durchgeführt werden. Grundsätzlich könnte eine Erhöhung der Trefferquote durch einen strengeren Schwellenwert (cut-off anheben) für den Test erreicht werden, allerdings auf Kosten einer Erhöhung der Zahl falsch negativer Klassifikationen. Anders gesagt: Eine Erhöhung der Sensitivität ist nur auf Kosten der Spezifität möglich und umgekehrt. Mit Hilfe der ROC-Analyse lässt sich nun derjenige Schwellenwert bestimmen, bei dem

159 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 161 die Summe aus Sensitivität und Spezifität am größten wird. Neben den o.g. Voraussetzungen muss der Test allerdings überhaupt zwischen den Gruppen trennen können, da sonst alle Schwellenwerte gleich gut oder schlecht sind (vgl. zum Vorgehen bei der ROC-Analyse Goldhammer & Hartig, 2007). Besondere Möglichkeiten der kriteriumsorientierten Interpretation bieten Tests, die nach der PTT, insbesondere nach dem Rasch-Modell konstruiert sind (vgl. Abschn. 3.2), da hier individuelle Fähigkeit und Itemschwierigkeit auf einer Skala abgebildet werden können, was die Interpretation der beiden Parameter in Relation zueinander ermöglicht (s. dazu Rauch & Hartig, 2007). Ferner sind norm- und kriterienorientiertes Vorgehen keine logischen Gegensätze und Mischformen in vielen Fällen durchaus sinnvoll. Zum Beispiel kann in der Eignungsdiagnostik die im Grundsatz normorientierte Bestenauslese für ausgewählte Kriterien mit der Definition eines Schwellenwerts verbunden werden, der nicht unterschritten werden darf (vgl. Modul 8; konkretes Beispiel: für eine begrenzte Zahl von Ausbildungsplätzen für Piloten werden die in der Summe aller Tests besten Bewerber ausgewählt, vorausgesetzt sie haben den Sehtest mindestens bestanden). Dringend abzuraten ist dagegen von der intuitiven Interpretation der Lösungen oder Angaben zu einzelnen Items eine Versuchung, der insbesondere Laien sehr leicht erliegen, aber auch Psychologen nicht immer widerstehen können. Eine Interpretation nach freiem Ermessen führt im Grunde den ganzen Prozess der Konstruktion standardisierter Tests ad absurdum. Weitere Möglichkeiten der Interpretation 4.4 Zusammenfassung der Schritte der Testkonstruktion Zum Abschluss dieses und der beiden vorangegangenen Kapitel sei noch einmal kurz rekapituliert, welche Schritte ein psychologisches Testverfahren bei seiner Konstruktion idealtypisch durchläuft. Abgrenzung von Merkmals- (Konstruktdefinition) und Geltungsbereich (u.a. Zielgruppe, Zweck) Festlegung auf ein Konstruktionsprinzip (u.a. rational, external, internal) oder Mischformen Generierung des ursprünglichen Itempools einschließlich Verfassen der Itemstämme und Festlegung des/r Antwortformats/e. Planung und Durchführung von Itemanalyseuntersuchungen nach KTT (u.a. Itemschwierigkeit und Trennschärfen ) oder PTT (u.a. Item- und Personparameter, Fit-Statistiken) Ggf. Faktorenanalysen nach dem explorativen (EFA) und/oder konfirmatorischen (CFA) Modell

160 162 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Berechnung allgemeiner Gütekriterien (u.a. Reliabilität und Validität) auf der Grundlage der vorangegangenen und ggf. zusätzlicher Datenerhebungen (s. Kap. 5). Festlegung der Items mit Zuordnung zu Skalen für die (vorläufige) Endform des Tests, ggf. nach Kürzung und Revision auf der Grundlage der Information aus den drei vorherigen Schritten (auch Teilrevisionen nach einzelnen Schritten möglich) Normierung des Tests, ggf. nach Erhebung zusätzlicher Daten für die Eichstichprobe(n); Festlegung der Transformationsvorschrift und Berechnung der Normwerte Hinweise zur Interpretation im Manual Einordnung der Evaluation in den Ablauf Mit der Normierung ist die Konstruktion eines Tests vorläufig abgeschlossen. Die ausgangs des vorherigen Abschnitts kurz beschriebene Interpretation ist schon kein Teil der Konstruktion eines Tests mehr, sondern gehört zu dessen Anwendung. Es liegt jedoch in der Verantwortung der Testautorin, diese Interpretation durch geeignete und begründete Hinweise im Manual anzuleiten. In der Testpraxis dürfte dies sogar ein besonders häufig konsultierter Teil eines Testmanuals sein, während sich die praktische Bedeutung leider in vielen Fällen umgekehrt proportional zur Fundierung dieses oftmals eher freihändig verfassten Abschnitts verhalten dürfte. Der in der obigen Aufzählung genannte Schritt der Berechnung von Gütekriterien wurde bislang nicht im Detail dargestellt, weil er begriffslogisch eher der Evaluation von Testverfahren zuzuordnen ist. Chronologisch sind bei psychologischen Tests die Übergänge zwischen formativer (die Konstruktion begleitender und in die Endform einfließender) und summativer (nachträglicher) Evaluation fließend. Ein Test sollte hinreichend evaluiert sein, bevor er publiziert und zum Einsatz empfohlen wird. Die Evaluation ist aber nach der Publikation keineswegs abgeschlossen, sondern setzt sich danach fort, wobei neue Erkenntnisse häufig zur Publikation einer revidierten Neuauflage führen. Insofern ist die Beschreibung von Evaluationskriterien im folgenden abschließenden Kapitel eher als didaktisches Hilfsmittel zur Strukturierung des Lehrstoffes zu verstehen denn als klar abzugrenzender Schritt im chronologischen Ablauf.

161 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung 163 Übungsaufgaben: Durch oblique Rotation wird in der Faktorenanalyse festgelegt, dass a) die Faktoren unabhängig voneinander bestimmt werden. b) die Messfehler der Indikatoren miteinander korrelieren dürfen. c) ein Faktor höherer Ordnung existiert. d) Keine der Lösungen a), b) und c) ist richtig. (richtige Lösung: d) In einer CFA für ein einfaktorielles Modell mit N = 500 und fünf Freiheitsgraden finden Sie einen χ²-wert von 14,31 (p <.01). Gleichzeitig beträgt der CFI.96 und der RMSEA.08. Dies erlaubt folgende Schlüsse a) der χ²-test zeigt, dass wir die Hypothese eines exakten Modell-Fit verwerfen müssen, aber das könnte an einer zu strengen Prüfung aufgrund der großen Stichprobe liegen. b) der χ²-test zeigt, dass wir die Hypothese eines exakten Modell-Fit verwerfen müssen, aber das könnte an einer zu geringen Zahl von Freiheitsgraden liegen. c) CFI und RMSEA sprechen beide für einen akzeptablen Fit, was den Ausgang des χ²-tests widerlegt. d) Lösungen a) b), und c) sind alle richtig. (richtige Lösung: a) Weiterführende Literaturempfehlungen: Bollen, K. A. (1989). Structural equations with latent variables. New York: Wiley. Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2. akt. Aufl.). München: Pearson Studium. (insbes. Kap , 5 und 6). Goldhammer, F. & Hartig, J. (2007). Interpretation von Testresultaten und Testeichung. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S ). Heidelberg: Springer.

162 164 Skalenbildung: Faktorenanalyse, Aggregation von Items und Normierung Long, J.S. (1986). Confirmatory factor analysis: A preface to LISREL (3 rd printing). Beverly Hills: Sage. Kline, R. B. (2005). Principles and practice of structural equation modeling (2 nd ed.). New York: Guilford. Thomas, B. (2004). Exploratory and confirmatory factor analysis: Understanding concepts and applications. Washington: American Psychological Association.

163 Evaluation psychologischer Testverfahren Evaluation psychologischer Testverfahren Wie ausgangs des vorigen Kapitels angesprochen ist die Evaluation von Testverfahren der eigentlichen Testkonstruktion nur insoweit zeitlich nachgelagert als sie die Grundlagen für die laufende Verbesserung und Aktualisierung bereits publizierter Tests betrifft. Die in diesem Kapitel dargestellten Anforderungen an die Qualität von Tests (zum Qualitätsbegriff in der Testdiagnostik vgl. Kersting, 2008) sollten zum Zeitpunkt der Publikation, folglich im Rahmen der Konstruktion von Tests, bereits durch Studien und andere geeignete Grundlagen der Evaluation hinreichend festgestellt und dokumentiert worden sein. Worin diese Anforderungen bestehen, wird in der Psychologie traditionell unter dem Begriff Gütekriterien diskutiert. Zur Klassifikation, inhaltlichen Definition und normativen Festlegung des geforderten Niveaus von Gütekriterien existiert eine sehr umfangreiche Literatur sowie eine ganze Reihe von Standards und Richtlinien mit unterschiedlichen Graden an Verbindlichkeit. Wir stellen in diesem Kapitel zunächst die klassischen psychometrischen Gütekriterien (Reliabilität, Validität) vor, die traditionell den Kern der Beurteilungskriterien für Testverfahren darstellen. Es folgt eine kurze Einführung zu einer recht heterogenen Zusammenstellung weiterer allgemeiner Gütekriterien (u.a. Ökonomie, Fairness, Unverfälschbarkeit ), die keineswegs unbedingt weniger wichtig sind als die psychometrischen Kriterien, aber zum Teil schwierig formal zu beschreiben und erfassen und teilweise auch umstritten sind. Gütekriterien zur Beurteilung der Einzelfalldiagnostik (Normierung, Messgenauigkeit) ist ein eigener Abschnitt gewidmet. Zuvor soll allerdings kurz auf einige wichtige Richtlinien zur Beurteilung von Testverfahren eingegangen werden (vgl. dazu auch Module 7 und 8). 5.1 Richtlinien und Beurteilungssysteme für Tests Zur Evaluation psychologischer Tests und deren Anwendung wurden zahlreiche nationale und auch nationenübergreifende Standards entwickelt. Diese Richtlinien unterscheiden sich in ihrem Geltungsbereich nicht nur geografisch, sondern auch inhaltlich u.a. durch die Spezifikation des Anwendungsbereichs (z.b. Berufseignungsdiagnostik, s.u.) oder darin, ob in den Richtlinien Aussagen über die Gütekriterien der Tests selbst einschließlich der Prozesse bei Anwendung und Interpretation, über die geforderte Qualifikation der Anwender, über deren berufsethisches Verhalten (vgl. dazu Modul 7), oder auch über eine Kombination mehrerer dieser Aspekte getroffen werden. Faktisch ist der Zugang zu psychologischen Tests für Nicht-Psychologen stark eingeschränkt, da die wichtigsten Testverlage ihre Tests nur an formal qualifizierte Psychologinnen abgeben. Über das Für und Wider dieser Maßnahme ließe sich trefflich streiten, worauf wir an dieser Stelle jedoch verzichten. Richtlinien i.e.s. richten sich unmittelbar an Testentwickler und Anwender, ohne konkrete Bewertungshinweise zu formulieren, während Beurteilungssysteme in erster Linie Rezensenten psychologischer Tests Hin- Unterscheidungsmerkmale von Teststandards

164 166 Evaluation psychologischer Testverfahren weise zu einer einheitlichen wertenden Beurteilung der Verfahren an die Hand geben sollen (vgl. Kersting, 2008). Zwar haben Teststandards u.w. nirgendwo den Status einer verbindlichen Rechtsnorm mit Gesetzeskraft, sie können aber, etwa durch ihren Einfluss auf die Rechtsprechung, praktisch eine quasi-legale normative Kraft entfalten, was besonders in Nordamerika schon zu beobachten ist. Beispiele internationaler Teststandards Beispiele deutschsprachiger Teststandards DIN Einen Einfluss weit über ihr Ursprungsland hinaus haben die von drei USamerikanischen Organisationen gemeinsam entwickelten Standards for Educational and Psychological Testing ( Standards ; AERA et. al., 1999). Die Standards gliedern sich in die Teile Testentwicklung (v.a. allgemeine Gütekriterien), Testfairness (v.a. Minderheitenschutz) und Testanwendung (Verhalten der Anwender und einzelne Anwendungsfelder), besitzen einen sehr breiten inhaltlichen Geltungsbereich und haben zahlreiche nationale und internationale Richtlinien stark beeinflusst. Beispiele für Beurteilungssysteme sind etwa das nordamerikanische Buros-System oder das niederländische COTAN-System (vgl. Kersting, 2008). Zu den internationalen Organisationen, die länderübergreifende Richtlinien erarbeitet haben, zählt an erster Stelle die International Test Commission (ITC). Das jüngste Produkt der ITC sind die International Guidelines on Computer- Based and Internet Delivered Testing (ITC; 2005), die der technischen Entwicklung der letzten Jahre u.a. durch Formulierung von Anforderungen an Datenschutz und technische Voraussetzungen Rechnung tragen (vgl. Tabelle 5.1. zu weiteren ITC-Richtlinien). In Deutschland beteiligen sich verschiedene Organisationen und Zusammenschlüsse an der Entwicklung von Richtlinien unterschiedlichen Inhalts. Berufsethische Anforderungen an Testanwender mit formaler psychologischer Qualifikation sind etwa in der Berufsordnung für Psychologen (Berufsverband Deutscher Psychologinnen und Psychologen, 1989) festgehalten. Explizit auch an potentielle Testanwender, die formal keinen akademischen Abschluss im Hauptfach Psychologie besitzen, richten sich die Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen (DIN 33430; Deutsches Institut für Normung, 2002), die besondere Erwähnung verdienen, weil ihre Bedeutung weit über das engere Feld der Berufseignungsdiagnostik hinausreicht. Unter anderem ist die DIN in die Entwicklung des deutschsprachigen Testbeurteilungssystems des Testkuratoriums (TBS-TK, Testkuratorium, 2006) eingeflossen und beeinflusst aktuell auch das Bemühen um die Entwicklung einer einheitlichen internationalen Norm zur psychologischen Diagnostik im Rahmen der Zertifizierung nach ISO-9000ff. (Hornke, 2008). Die DIN ist das Ergebnis einer langen und kontrovers geführten Diskussion, an der sich u.a. auch psychologische Laien wie die Vertreter von Industrieverbänden beteiligt haben, die dem fundamentalen Missverständnis erlegen waren, es handle sich bei dieser Norm um eine bürokratische Einschränkung unternehmerischer Entscheidungsfreiheit (vgl. Kersting, 2008). Tatsächlich spezifiziert die Norm Qualitätsstandards, nach denen eignungsdiagnostische Entscheidungen ge-

165 Evaluation psychologischer Testverfahren 167 troffen werden können (informative Aussagen) oder sollen (normative Aussagen). Die Aussagen betreffen dabei Qualitätskriterien für Tests und andere diagnostische Verfahren (eine Zertifizierung von Tests nach DIN ist jedoch nicht möglich) und an die Kompetenzen der beteiligten Personen, wobei die DIN hier zwischen dem hauptverantwortlichen Auftragnehmer und sog. Mitwirkenden (z.b. Interviewer), an die Teilaufgaben delegiert werden können, unterscheidet. Wir werden auf die Kriterien aus dem Verfahrensteil der DIN an verschiedenen Stellen, gelegentlich auch kritisch, zurückkommen. Der gegen die DIN gerichtete Generalvorwurf eines Bürokratisierungsinstruments ist aber etwa so sinnvoll, als würde man argumentieren, die Entscheidung beim Autokauf würde durch die Angabe des Benzinverbrauchs oder die Durchführung von Crashtests unnötig bürokratisiert. Die Anforderungen an die Person der Beteiligten sind Gegenstand formaler Lizenzierungsprüfungen, auf die u.a. der Erwerb der in diesem Studienbrief und in anderen diagnostischen Kursen (vgl. Modul 7 und 8) vermittelten Kenntnisse vorbereitet (zum Curriculum für die DIN-Lizenzierung s. Westhoff et al., 2005; ausführlich zur Norm informiert Kersting, 2008). In der folgenden Tabelle 5.1 sind kursorisch einige wichtige Richtlinien und Beurteilungssysteme für psychologische Tests aufgeführt. Vertieft wird die Vermittlung fachlicher und ethischer Standards in Modul 7; einige verfahrensspezifische Richtlinien etwa zu Assessment Centers oder Integrity Tests werden in Modul 8 angesprochen. Weiterführende Hinweise geben außerdem z.b. Kersting (2008) oder Moosbrugger und Höfling (2007). Tabelle 5.1: Wichtige Richtlinien und Beurteilungssysteme für Tests Bezeichnung Quelle Erläuterung Richtlinien mit Schwerpunkt Qualität Standards for Educational and Psychological Testing Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen (DIN 33430) Principles for the Validation and Use of Personnel Selection Procedures Guidelines for Test Translation and Adaptation International Guidelines on Computer-Based and Internet Delivered Testing AERA, APA & NCME (1999) DIN (2002) Society for Industrial and Organizational Psychology (2003) ITC (2001) ITC (2005) Breiter Geltungsbereich und Wirkung; ein Schwerpunkt ist Testfairness Eignungsdiagnostische Norm für Anwender und Verfahren; Grundlage der Personlizenzierung Spezifisch eignungsdiagnostische Richtlinie (insbes. Anforderungsanalyse und Validierung) Internationale Richtlinie speziell zur interkulturellen Übertragung von Tests Richtlinie für Spezifika neuer Technik bei der Testanwendung

166 168 Evaluation psychologischer Testverfahren Richtlinien mit Schwerpunkt Berufsethik, Verhalten Ethical Principles of Psychologists and Code of Conduct Berufsordnung für Psychologen International Guidelines for Test Use Grundsätze für die Anwendung psychologischer Eignungsuntersuchungen in Wirtschaft und Verwaltung Beurteilungssysteme Buros-System COTAN-System Testbeurteilungssystem des Testkuratoriums (TBS-TK) APA (2003) BDP (1989) ITC (2000) BDP, Sektion Arbeits-, Betriebs- und Organisationspsychologie (1980) Buros-Institut ( Committee On Test Affairs Netherlands (Elvers, 2001) Testkuratorium der Föderation Deutscher Psychologenvereinigungen (2006) Allgemeine berufsethische Richtlinie für Psychologen mit breiter Außenwirkung Allgemeine berufsethische Richtlinie für Psychologen Allgemeine internationale Richtlinie mit Schwerpunkt Anwenderverhalten Speziell eignungsdiagnostische berufsethische Richtlinie für Psychologen Grundlage amerikanischer Testrezensionen (Mental Measurement Yearbook) Niederländisches System mit sehr konkreten Standards Bewertungsschema auf der Grundlage der DIN 33430; u.a. Format der Rezension, Forderung zweier unabhängiger Rezensionen DIN Screen Kersting (2008) Das TBS-TK ergänzende Checkliste zur Erfüllung der DIN-Kriterien Review Model for the Description and Evaluation of Psychological Tests European Federation of Psychological Associations (2005) Gesamteuropäisches Beurteilungssystem 5.2 Psychometrische Gütekriterien Verhältnis der psychometrischen Gütekriterien zueinander Die psychometrischen Gütekriterien werden manchmal auch als Hauptgütekriterien bezeichnet, was allerdings den übrigen Gütekriterien (Abschn. 5.3) automatisch den Rang von Nebengütekriterien zuweist eine inhaltlich oft zumindest zweifelhafte Wertung. Außerdem sind auch die Hauptgütekriterien keineswegs alle gleich wichtig. Letzterem Missverständnis leisten auch die DIN und die darauf aufbauenden Bewertungssysteme mglw. Vorschub, indem sie die Gütekriterien Objektivität, Reliabilität und Validität aufzählend und scheinbar mit gleichem Gewicht für die Bewertung auflisten. Wir vertreten demgegenüber die Auffassung, dass sich die Objektivität als Teilaspekt der Reliabilität subsumieren lässt (Abschn ), und dass es unter den Gütekriterien nur eine Königin gibt,

167 Evaluation psychologischer Testverfahren 169 nämlich die Validität (Abschn ). Ein Test, der keine validen Schlüsse zulässt, ist wertlos, und zwar unabhängig von der Ausprägung sämtlicher anderer Gütekriterien (inkl. der in Abschn. 5.3 dargestellten). Das bedeutet jedoch nicht, dass die anderen Gütekriterien etwa unwichtig wären, nur ist deren Bedeutung i.d.r. weniger fundamental für die Beurteilung von Tests. Zwischen den drei psychometrischen Gütekriterien besteht insofern ein Abhängigkeitsverhältnis als mangelnde Objektivität die Reliabilität vermindert, indem sie dem Messfehler mögliche Quellen hinzufügt, während mangelnde Reliabilität ihrerseits die Validität um einen rechnerisch bestimmbaren Betrag vermindert. Diese Zusammenhänge werden im Folgenden noch näher erläutert Objektivität und Reliabilität Ein Test ist in dem Ausmaß objektiv, in dem die Testergebnisse unabhängig vom Untersucher zustande kommen. Umgekehrt könnte man auch formulieren, dass der Mangel an Objektivität den Beitrag des Untersuchers zum Messfehler ausmacht. Die Objektivität wird in Testdokumentationen selten quantifiziert, obwohl sie im Grunde quantifizierbar ist. Quantitative Maße der Objektivität stellen z.b. Indizes der Interraterreliabilität dar, die aber meist als spezifische Schätzung der Reliabilität behandelt werden (s.u.). Insofern erscheint es gerechtfertigt, die Objektivität selbst als einen Teilaspekt der Reliabilität zu betrachten. Innerhalb der Objektivität kann man wiederum drei Teilaspekte unterscheiden, die sich auf mögliche Fehlerquellen in unterschiedlichen Phasen des diagnostischen Prozesses beziehen. In allen Fällen entstehen Fehler im Wesentlichen durch einen Mangel an Standardisierung. Unter der Durchführungsobjektivität versteht man das Ausmaß, in dem Testergebnisse frei von Schwankungen zwischen den Bedingungen unterschiedlicher Durchführungsgelegenheiten zustande kommen. Untersucher können die Durchführungsobjektivität beeinträchtigen, indem sie sich individuell verschieden verhalten, aber auch schon durch ihre bloße Präsenz, indem Testteilnehmer z.b. auf weibliche und männliche Testleiter verschieden reagieren. In der Testkonstruktion lässt sich zumindest der Einfluss des Verhaltens minimieren, indem es durch vorformulierte Instruktionen und ggf. (bei Speedtests) exakte zeitliche Begrenzung weitgehend standardisiert wird. Testleiter sollten die diesbezüglichen Anweisungen im Manual präzise einhalten und sich ansonsten möglichst neutral verhalten, also weder auffallend freundlich noch unfreundlich, und auch auf gut gemeinte Auflockerungen wie humorvolle Äußerungen verzichten. Durch Online-Testung lässt sich auch der Einfluss der Präsenz des Untersuchers ausschalten, dafür entziehen sich allerdings die sonstigen äußeren Umstände (z.b. Umgebungseinflüsse wie Lärm, Helligkeit, Ablenkungen etc.) der Standardisierung wie überhaupt der Kontrolle. Allerdings haben Vergleichsuntersuchungen überwiegend vernachlässigbar geringe Ergebnisunterschiede zwischen Präsenz- und Online-Modus bei der Testdurchführung gezeigt (z.b. Salgado & Moscoso, 2003; Templer & Lange, 2008). Begriff und Einordnung der Objektivität Durchführungsobjektivität

168 170 Evaluation psychologischer Testverfahren Auswertungsobjektivität Interpretationsobjektivität Begriff und Einordnung der Reliabilität Die Auswertungsobjektivität bezieht sich auf das Ausmaß, indem verschiedene Auswerter desselben Testbogens zu denselben Ergebnissen kommen. Sie ist empirisch einfach festzustellen, wird aber bei standardisierten Tests i.d.r. als ohnehin gegeben angenommen, obwohl z.b. die manuelle Auswertung mit Schablonen durch fehlerhafte Gestaltung oder Anwendung eingeschränkt sein kann. Wirklich perfekt auswertungsobjektiv dürften standardisierte Tests mit geschlossenem Antwortformat und computerisierter Auswertung sein. Wirklich problematisch in dieser Hinsicht ist das offene Antwortformat, besonders wenn es, wie z.b. bei projektiven Tests, keine objektiv richtigen oder falschen Lösungen gibt. Aber auch bei Intelligenztestaufgaben mit offenem Format sollte das Universum richtiger Lösungen klar vorgegeben sein (vgl. Kap. 2). Das Problem mangelnder Auswertungsobjektivität betrifft übrigens, im Gegensatz zum viel geschmähten Multiple-Choice-Format, auch Klausuraufgaben ohne Antwortvorgaben. Auf den letzten Schritt im diagnostischen Prozess bezieht sich die Interpretationsobjektivität, die das Ausmaß der Übereinstimmung in der Interpretation aufgrund gleicher Testergebnisse beschreibt. Die Interpretation ist kaum quantifizierbar und u.a. deshalb auch nur begrenzt standardisierbar. Der subjektive Spielraum wird jedoch durch die Erfüllung der Anforderungen an andere Gütekriterien, etwa die Normierung, die Reliabilität und Validität, erheblich eingeschränkt. Im Testmanual sollten klare Hinweise zur inhaltlichen Bedeutung der Skalen stehen (die allerdings oft mit viel dichterischer Freiheit formuliert werden) und auch die Bereiche zulässiger und unzulässiger Interpretationen abgegrenzt sein. Problematisch kann die Illustration von Interpretationen durch ausführliche Fallbeispiele sein, da hier die Gefahr besteht, dass Einzelfälle übergeneralisiert werden und sich auch bei Fehlschlüssen subjektiv die Interpretationssicherheit erhöht. Auch ein voll standardisierter Test kann durch unzulässige Schlussfolgerungen faktisch sämtlicher Gütekriterien verlustig gehen. Der Begriff der Reliabilität wurde bereits in Kapitel 1 grundsätzlich erläutert. Die Reliabilität spielt in der KTT eine sehr zentrale Rolle, da die KTT im Kern eine Theorie des (unsystematischen) Messfehlers ist und die Reliabilität das Ausmaß kennzeichnet, in dem Testergebnisse frei von unsystematischen Messfehlern zustande kommen. Ebenfalls bereits in Abschnitt war Reliabilität technisch als Anteil der Varianz der wahren Werte (lies: der systematischen Variation) an der gesamten Testvarianz definiert worden. Als Gütekriterium ist Reliabilität zwar ebenfalls wichtig, aber längst nicht von so zentraler Bedeutung, weil sich die systematische Varianz eben nicht nur aus den eigentlich wahren Werten im Sinne der inhaltlichen Messintention speist. In empirischen Reliabilitätsschätzungen, die zur Bestimmung des Gütekriteriums verwendet werden (s.u.), lassen sich die intendierten Varianzkomponenten nicht von systematischen Fehlern unterschieden und tragen gemeinsam zur Erhöhung der gemessenen Reliabilität bei. Deshalb wäre auch ein Test, der ausschließlich Bias erfasst, zwar hoch reliabel, aber dennoch nutzlos. Allerdings kann ein Test, der gar nichts systematisch misst, auch nicht das messen, was er soll. Insofern ist Reliabilität kein hinreichendes, aber ein

169 Evaluation psychologischer Testverfahren 171 notwendiges Kriterium zur Bestimmung der Güte eines Tests. Die wörtliche Übertragung des Fremdworts Reliabilität als Zuverlässigkeit (mit der ein Test immer wieder zu den gleichen Resultaten führt) trifft den Kern des Konzepts besser als der manchmal auch synonym verwandte Begriff Messgenauigkeit, da sich letztere eigentlich auf die Präzision eines einzelnen Testwerts bezieht, die sich aus der Reliabilität nur indirekt abschätzen lässt (s.u. Abschn. 5.4). Die empirische Bestimmung der Reliabilität kann auf unterschiedliche Weise erfolgen, wobei nicht alle Arten der Reliabilitätsschätzung für alle Tests sinnvoll oder möglich sind. Vielmehr ist jede der folgenden Methoden mit spezifischen Vor- und Nachteilen verbunden und korrespondiert mit bestimmten Merkmalen der Tests, was bei der Auswahl der Methode und der Interpretation der Befunde berücksichtigt werden sollte. Im Folgenden besprechen wir die Varianten der (1) internen Konsistenz, der (2) Retest-Reliabilität, der (3) Paralleltestreliabilität und (4) Interrater-Reliabilität. In allen Fällen geht es letztlich um die Abschätzung des Wertes für r tt, d.h. der (nicht quadrierten!) Korrelation eines Tests mit sich selbst. Damit diese Aussage nicht tautologisch im Sinne einer Autokorrelation von 1 ist, müssen empirisch unterschiedliche Messreihen bzw. Messgelegenheiten geschaffen werden. In der Art wie dies geschieht, unterscheiden sich die genannten Methoden grundsätzlich. Eine präzise Bestimmung der Reliabilität ergibt sich aus der Korrelation nur dann, wenn die Messungen in dem im Exkurs in Abschnitt definierten Sinn parallel sind bzw. in manchen Fällen wenigstens schwächere Äquivalenzbedingungen erfüllen (Lord & Novick, 1968). Empirisch weichen die Ergebnisse mit unterschiedlichen Methoden (oder auch mit der gleichen Methoden mehrfach) erhobener Messungen der Reliabilität i.d.r. voneinander ab. Es handelt sich dabei aber um unterschiedliche Methoden der Schätzung ein- und desselben Konzepts der Reliabilität, nicht etwa um verschiedene Reliabilitäten. (1) Interne Konsistenz. Bei der Bestimmung der internen Konsistenz entstehen die miteinander korrelierten Messreihen, indem ein Test zwar nur einmal erhoben, aber dann so aufgeteilt wird, dass die Testteile korreliert werden können. Die verschiedenen Konsistenzkoeffizienten schätzen also das Ausmaß der Gemeinsamkeiten der Testteile (im Gegensatz zu deren Spezifität) ab. Dies setzt konzeptionell voraus, dass die Teile sinnvoll als Messung des gleichen Konstrukts angesehen werden können. Bei heterogenen Tests, bspw. bei vielen external konstruierten Verfahren zur Diagnose oder Prognose komplexer Kriterien (vgl. Kap. 2), sollte die interne Konsistenz nicht zur Abschätzung der Reliabilität verwendet werden. Problematisch ist die Anwendung auch bei Speedtests, zum einen weil die Items hier einander oft so stark ähneln, dass der Befund einer hohen internen Konsistenz trivial ist, außerdem weil Speedtests definitionsgemäß i.d.r. unvollständig bearbeitet werden, so dass meist nur ein kleiner Teil der Items zur Berechnung für alle Probanden verfügbar ist. Gleichwohl gehört die Bestimmung von Konsistenzmaßen in der Praxis der Testkonstruktion fast universell zum Standard, weil sie keine aufwändigen Zusatzerhebungen oder gar Neukonstruktionen verlangt (s.u.). Reliabilitätsschätzungen Wesen der internen Konsistenz

170 172 Evaluation psychologischer Testverfahren Konsistenz und Homogenität Split-Half-Reliabilität Beziehung zwischen Testlänge und Reliabilität Neben der Anwendung auf heterogene Verfahren ist ein weiterer oft zu beobachtender Fehler die Interpretation der internen Konsistenz als Homogenitätsindex, also als Maß für die Eindimensionalität. Obwohl die Anwendung der internen Konsistenz Homogenität logisch voraussetzt, ist sie selbst allenfalls ein vager Indikator, aber kein geeignetes Maß der Homogenität, da hohe Konsistenzkoeffizienten auch mit heterogenen Tests vereinbar sind (vgl. Cortina, 1993). Ein etwas besserer Indikator der Homogenität, aber ebenfalls noch kein hinreichendes Maß, ist die mittlere Interitemkorrelation (MIC) sowie deren Streuung (vgl. Abschn und unten), wobei sich letztere noch durch Relativierung an der Skalenlänge zu einem Präzisionsmaß formalisieren lässt (Cortina, 1993; vgl. auch Bühner, 2006). Formal lässt sich Eindimensionalität durch Modelltests im Rahmen der PTT (vgl. Abschn. 3.2) und der CFA (vgl. Abschn. 4.2) prüfen. Die einfachste Form der Aufteilung eines Tests ist dessen Halbierung. Die Testhalbierungs- oder Split-Half-Reliabilität wird oft als eigenständige Methode dargestellt und gängige Formeln sind auch in SPSS implementiert. Tatsächlich ist die Split-Half-Reliabilität ein Spezialfall der internen Konsistenz, deren einziger Vorteil gegenüber den weiter unten dargestellten Verallgemeinerungen die einfachere Berechnung ist. Dieser Vorzug ist mit der Entwicklung der modernen Computertechnologie inzwischen hinfällig, so dass die Testhalbierung eigentlich nur noch von historischer Bedeutung sein sollte. Eine prinzipielle Vorgehensweise bei der Aufteilung eines Tests zur Reliabilitätsbestimmung lässt sich jedoch anhand dieser Methode besonders gut illustrieren. Bei parallelen Tests bzw. Testteilen besteht eine einfache rechnerische Beziehung zwischen Testlänge und Reliabilität. Nehmen wir an, wir verdoppeln die Länge eines Tests durch Hinzufügung eines parallelen Tests gleicher Länge. Dann entspricht die Varianz des neuen Tests der Summe der Varianzen plus dem Zweifachen der Kovarianz der beiden alten Tests (dies gilt für alle Kompositorien; zur formalen Herleitung vgl. ausführlich Lord & Novick, 1968). Weil in die neue Varianzsumme die Fehlervarianz der alten Tests je einfach eingeht, die wahre Varianz aber je doppelt (als wahrer Anteil der ursprünglichen Varianz und als Kovarianz, die ja bei parallelen Tests als Reliabilität definiert ist), ist der neue Test reliabler als der alte. Bei der Halbierung eines bestehenden Tests liegen die Verhältnisse genau umgekehrt. Da die Aufteilung in Testhälften eine künstliche Verkürzung darstellt (der Test ist ja eigentlich doppelt so lang), muss die Korrelation zwischen den Hälften aufgewertet werden, um den wahren Wert der Reliabilität des gesamten Tests abzuschätzen. In allgemeiner Form lautet die Korrekturformel (Spearman-Brown-Formel) zur Ermittlung der Reliabilität bei Verlängerung eines Tests um einen parallelen Faktor k: Spearman-Brown-Formel: r tt = k r 12 / 1 + (k 1) r 12, wobei r 12 der Korrelation zwischen den beiden Testteilen entspricht. Bei k = 2, also der Korrektur einer Testhalbierung, entfällt offensichtlich der Faktor (k 1) im Nenner. In diesem Fall entspricht die Spearman-Brown-Formel der Formel zur

171 Evaluation psychologischer Testverfahren 173 Abschätzung der Split-Half-Reliabilität. Für Verletzungen der in der Parallelität enthaltenen Annahme gleicher Varianzen der Hälften sowie für andere Komplikationen wurden Varianten dieser Formel entwickelt (vgl. dazu sowie zu Methoden der Verteilung der Items auf die Hälften Bühner, 2006, sowie Lienert & Raatz, 1998). Es gibt jedoch, wie oben angedeutet, heute eigentlich keinen Grund mehr zur Berechnung von Testhalbierungskoeffizienten. Grundsätzlich lässt sich ein Test in so viele Teile aufteilen, wie er Items besitzt. Dieses Prinzip liegt dem Standardmaß der internen Konsistenz zugrunde, dem Cronbach-α-Koeffizienten (Cronbach, 1951). Bei Cronbach-α handelt es sich um eine Generalisierung der Testhalbierungsmethode, die im Grunde einen Mittelwert der Konsistenzkoeffizienten über alle denkbaren Aufteilungen des Tests (i.d.r. mit den einzelnen Items als Einheit) darstellt. Es ist leicht einzusehen, dass ein solcher Mittelwert eine bessere Schätzung darstellt als jeder Koeffizient, der auf der Grundlage der Aufteilung in zwei bestimmte Testhälften entstanden ist. Cronbach-α liefert eine präzise Schätzung unter der Voraussetzung, dass es sich bei den einzelnen Items um essenziell tau-äquivalente Messungen handelt (vgl. Abschn ), bei kongenerischer Messung (eindimensional, jedoch unterschiedliche Faktorladungen) ist Cronbach-α eine Untergrenze der Reliabilität (bei mehrdimensionalen Skalen sollte es wie gesagt gar nicht angewandt werden). Andererseits kann Cronbach-α die Reliabilität auch überschätzen, etwa wenn die positive Korreliertheit der Items durch einen systematischen Messfehler (z.b. wegen sozialer Erwünschtheit) künstlich erhöht ist (gleiches gilt für die Trennschärfen sowie für MIC als Homogenitätsindex). Die Formel für Cronbach-α lautet: Cronbach-α Cronbach-α: Dabei ist: S 2 i = Varianz des Testitems/Testteils c = Anzahl der Testitems/Testteile S 2 x = Varianz des Gesamtwerts der Skala Die Formel sieht vielleicht zunächst etwas kompliziert aus. Vernachlässigen wir dabei der Einfachheit halber den Korrekturfaktor c / (c 1), der bei langen Tests gegen 1 geht. Wichtiger ist der Faktor S 2 x im Nenner, dessen Ansteigen unmittelbar zur Erhöhung der Reliabilität beiträgt (vollziehen Sie dies und das Folgende anhand der Formel ruhig einmal übungshalber nach). S 2 x ist die Varianzsumme aller Items, die sich, analog zur obigen Beschreibung für die Korrektur der Testhalbierung, aus der Summe der c Varianzen plus 2c Kovarianzen aller Items zu- Berechnung von Cronbach-α und Varianten

172 174 Evaluation psychologischer Testverfahren sammensetzt. S 2 x steigt also an, (a) je höher die positiven Korrelationen zwischen den Items ausfallen und (b) je mehr positiv korrelierte Items zu einer Skala zusammengefasst werden. Werden allerdings Items mit negativen Kovarianzen zusammengefasst, sinkt S 2 x im Extremfall noch unter die Summe der Einzelvarianzen ΣS 2 i im Zähler. In diesem Fall wird Cronbach-α negativ. In der Praxis der Testkonstruktion ist ein negatives oder sehr niedriges Alpha meist ein Hinweis darauf, dass vor der Zusammenfassung von Items zu Skalen generell vergessen wurde, negativ gepolte Items umzukodieren (für Einzelitems liefern diesen Hinweis eher negative Trennschärfen, vgl. Abschn ). Es können jedoch auch einzelne negative Kovarianzen zwischen Items auftreten, ohne dass Cronbach-α insgesamt auffällig gering ausfällt. In solchen Fällen wird empfohlen, stattdessen den Koeffizienten Guttman-λ 2 zu berechnen (vgl. Bühner, 2006), der in SPSS alternativ zu ALPHA als GUTTMAN implementiert ist. Außerdem existieren Varianten von Cronbach-α für dichotome Items (vgl. Lienert & Raatz, 1998). In SPSS wird bei dichotomen Items automatisch der Koeffizient Kuder-Richardson 20 (KR-20) berechnet, wenn bei Items mit dichotomem Antwortformat die Voreinstellung ALPHA der RELIABILITÄTSANALYSE beibehalten wird. Wesen der Retest- Reliabilität Bewertung der Retest- Reliabilität Effekte des Messintervalls bei der Retest- Reliabilität (2) Retest-Reliabilität. Anders als die interne Konsistenz erfordert die Berechnung der Retest-Reliabilität, dass ein Test von der gleichen Gruppe von Personen zweimal bearbeitet wurde. Technisch ergibt sich die Schätzung der Reliabilität dann einfach als Korrelation der beiden Messreihen. Inhaltlich bezieht sich der Retest-Koeffizient auf die Erfassung der Reliabilität als zeitliche Stabilität der Messungen. Die Retest-Reliabilität hat gegenüber der internen Konsistenz den großen Vorzug, dass die Items bei beiden Messgelegenheiten tatsächlich identisch sind, jedoch gleichzeitig den Nachteil, dass die Bedingungen und mglw. auch die gemessenen Merkmale eben nicht mehr identisch sind. Daraus ergeben sich verschiedene für die Beurteilung relevante Unterschiede. Der größte Vorzug des Retest-Koeffizienten dürfte darin bestehen, dass er auch bei heterogenen Tests und bei reinen Speedtests sinnvoll als Reliabilitätsschätzung interpretiert werden kann. Da zu beiden Zeitpunkten dieselben Items erhoben werden, entfällt außerdem das Instrument als Quelle für Einschränkungen der Parallelität zwischen den Messungen. Allerdings ist dies nicht die einzige Fehlerquelle in diesem Zusammenhang. Konzeptionell sinnlos ist die Interpretation der Retest-Reliabilität etwa bei der Veränderungsmessung bzw. generell, wenn die Instabilität des erfassten Merkmals theoretisch zu erwarten ist (z.b. bei der Messung von States, beim Einsatz von Wissenstests zur Erfassung von Lernerfolgen, von Einstellungsskalen in der Werbewirkungsforschung oder nach organisationspsychologischen Interventionen u.ä.m.). Ein großes Problem bei der Retest-Reliabilität ist die Wahl des geeigneten zeitlichen Intervalls zwischen beiden Messzeitpunkten. Dabei sind zwei gegenläufige Tendenzen in Einklang zu bringen. Einerseits kann durch Übungs- oder Erinnerungseffekte die Korrelation zwischen beiden Messzeitpunkten künstlich überhöht

173 Evaluation psychologischer Testverfahren 175 sein. Dies ist umso eher zu erwarten, je kürzer das Messintervall ausfällt. Anderseits kann sich das zugrunde liegende Merkmal (also die wahren Werte) zwischen beiden Messzeitpunkten verändern, was zur Unterschätzung der Reliabilität führt. Dies tritt in begrenztem Umfang auch bei theoretisch stabilen Merkmalen wie Intelligenz und Persönlichkeitseigenschaften auf und verstärkt sich mit zunehmendem Zeitintervall. Da die Tendenz zur artifiziellen Erhöhung mit der Zeit abnimmt, während die künstliche Verminderung gleichzeitig zunimmt, sinkt die gemessene Retest-Reliabilität generell mit zunehmendem Zeitintervall. Es existiert kein allgemein gültiger Richtwert für den optimalen Zeitpunkt der zweiten Erhebung, in der Praxis der Testkonstruktion finden sich jedoch häufig Intervalle zwischen vier Wochen und maximal sechs Monaten. Unabhängig vom Zeitintervall sollte darauf geachtet werden, die äußeren Testbedingungen zwischen beiden Messzeitpunkten weitestgehend konstant zu halten, da dies eine weitere (reliabilitätsmindernde) Fehlerquelle darstellt. (3) Paralleltest-Reliabilität. Eine noch aufwändigere Methode zur Reliabilitätsbestimmung besteht darin, zwei unabhängige, im in Abschnitt definierten Sinn parallele Formen des gleichen Tests zu konstruieren und bei der gleichen Stichprobe einzusetzen. Auch hier berechnet sich der Reliabilitätskoeffizient dann wieder als einfache Korrelation der Messreihen. Inhaltlich lässt sich die Paralleltest-Reliabilität relativ umfassend interpretieren, da sowohl eine Anwendung auf heterogene Tests möglich ist (Parallelität zwischen den beiden Kompositorien vorausgesetzt) als auch die Einflüsse des Messintervalls durch die mögliche Darbietung der beiden Formen unmittelbar nacheinander weitgehend entfallen. Allerdings muss in diesem Fall mit Reihenfolgeeffekten gerechnet werden, was man durch Ausbalancierung der Reihenfolge in zwei Gruppen (Form A vor oder nach B) in den Griff zu bekommen versucht. In der Praxis sind sowohl die Parallelität der Formen als auch die Konstanz der Durchführungsbedingungen kaum perfekt zu erreichen, was dazu führt, dass Paralleltest-Koeffizienten i.d.r. eine konservative Schätzung der Reliabilität darstellen. Paralleltest-Reliabilität Trotz einer insgesamt eher positiven Beurteilung in der Literatur dürfte die Paralleltest-Reliabilität die in der Praxis seltenste Form der Reliabilitätsbestimmung darstellen. Der enorme Zusatzaufwand einer Konstruktion paralleler Testformen wird fast ausschließlich in der Intelligenzdiagnostik betrieben, was weniger inhaltlich zu begründen ist als es dem Umstand geschuldet sein dürfte, dass parallele Formen hier einen praktischen Nutzen jenseits der Reliabilität besitzen. Sie erleichtern die Anwendung als Gruppentests in engen Räumlichkeiten, in denen sonst die Gefahr des Abschreibens bestehen würde. Die Möglichkeit zur Bestimmung der Paralleltest-Reliabilität ist dann eher ein willkommener Nebeneffekt der ohnehin notwendigen Überprüfung der Parallelität. (4) Interrater-Reliabilität (Beurteilerübereinstimmung). Als Aspekt der Reliabilität bezieht sich die Beurteilerübereinstimmung auf die Äquivalenz der Beurteilungen mit dem gleichen Verfahren getesteter Personen durch verschiedene Untersu- Wesen der Interrater- Reliabilität

174 176 Evaluation psychologischer Testverfahren cher. Wie zu erkennen ist, deckt sich diese Definition zumindest mit dem oben dargestellten Objektivitätsaspekt der Auswertung, implizit aber in den meisten praktischen Anwendungen auch mit der Durchführung und Interpretation. Als Messreihen werden für die empirische Bestimmung Einschätzungen der gleichen Personengruppe durch mindestens zwei unabhängige Beurteiler benötigt. Diese Mühe erspart man sich aus den genannten Gründen meist bei standardisierten Tests, obwohl es technisch kein Problem darstellen würde, z.b. den gleichen Satz Testhefte von zwei Personen unabhängig auswerten zu lassen. In vielen Darstellungen zur Testkonstruktion kommt die Interrater-Reliabilität denn auch gar nicht vor (wohl aber die Objektivität). Eine zentrale Rolle spielt sie dagegen bei der Abschätzung der Reliabilität anderer diagnostischer Verfahren wie Interviews oder Beobachtungen, wo sie, besonders bei teil- oder unstrukturierten Formen, häufig die einzige Möglichkeit der Reliabilitätsschätzung darstellt. Gleiches gilt allgemein für qualitative Methoden der Datenerhebung (vgl. Modul 7). Maße der Beurteilerüberstimmung, insbes. ICC Berechnung der Beurteilerüberstimmung in SPSS Es existieren zahlreiche Maße der Beurteilerüberstimmung für unterschiedliche Zwecke, Skalenniveaus und Zusammensetzungen von Beurteilern (s. dazu ausführlich Wirtz & Caspar, 2002). Am ehesten mit den bisher dargestellten Reliabilitätsmaßen vergleichbar ist die Intraklassenkorrelation (intra-class correlation, ICC, nicht zu verwechseln mit der item characteristic curve, vgl. Abschn. 3.2) für intervallskalierte Merkmale, von der es ebenfalls verschiedene Varianten gibt. Die unterschiedlichen Fälle der ICC ähneln den unterschiedlichen Graden der Äquivalenz. Zum Beispiel gibt es verschiedene Koeffizienten für den Fall, das für verschiedene Beurteiler lediglich gleiche Varianz der Urteile unterstellt wird (justierte ICC) oder zusätzlich gleiche Mittelwerte (d.h. empirische Mittelwertsunterschiede werden dem Fehler zugeschlagen: unjustierte ICC). Im Grundsatz werden dabei die verschiedenen Beurteiler so behandelt wie bei anderen Reliabilitätskoeffizienten die Testteile, -formen oder Messgelegenheiten, d.h. in der Datenmatrix stehen die Beurteiler anstelle der Variablen in den Spalten. Allgemein ist die ICC ein Maß für den zwischen den Beurteilern geteilten Varianzanteil und liegt deshalb zwischen 0 und 1 (d.h. analog zum Determinations- und nicht dem Korrelationskoeffizienten). Es gibt ferner Varianten zur Abschätzung der Reliabilität einer einzelnen Beurteilung und der über mehrere Beurteiler gemittelten Urteile sowie Spezialfälle, bspw. mit ICC exakt analog zu Cronbach-α (mit den Beurteilern als Items ). Ferner sei noch erwähnt, dass die ICC unter bestimmten Umständen sinnvoller als Maß der Validität interpretiert werden sollte (vgl. Abschn ). In SPSS wird die ICC berechnet, indem über ANALYSIEREN -> SKALIERUNG -> RELIABILITÄTSANALYSE -> STATISTIKEN das schon aus Abb. 3.8 bekannte Fenster geöffnet und dort KORRELATIONSKOEFFIZIENT IN KLAS- SEN sowie mittels MODELL und TYP die gewünschte Variante der ICC gewählt wird. Ein ausführliches Beispiel einer ICC-Analyse mit SPSS findet sich bei Wirtz und Caspar (2002, S ). Non-parametrische Maße der Beurteilerübereinstimmung für Variablen unterhalb des Intervallskalenniveaus finden sich in SPSS dagegen über den Befehl ANALYSIEREN -> DESKRIPTIVE STATIS-

175 Evaluation psychologischer Testverfahren 177 TIKEN -> KREUZTABELLEN -> STATISTIKEN. Es öffnet sich das in Abb. 5.1 dargestellte Fenster, das auch einen kleinen Einblick in die Vielfalt der Übereinstimmungsmaße bietet (vgl. im Detail Wirtz & Caspar, 2002). Abb. 5.1: SPSS-Fenster Kreuztabellen: Statistik Wie hoch sollte ein Reliabilitätskoeffizient nun ausfallen, um befriedigende Werte anzuzeigen? Diese Frage ist wieder einmal durch pauschale Faustregeln (mindestens.70,.80 etc.) nicht angemessen zu beantworten. Insbesondere hängt das erforderliche Niveau der Reliabilität vom Anwendungszweck ab. Allgemein steigen die Anforderungen, je folgenreicher die an das Testergebnis geknüpften Entscheidungen sind. Ferner ist die Unterscheidung zwischen Einzelfalldiagnostik und Gruppenanwendung bedeutsam, weil bei ersterer die Präzision des individuellen Messwertes sehr sensitiv auf Veränderungen der Reliabilität reagiert (vgl. Abschn. 5.4), während bei Gruppenanwendungen etwa für Forschungszwecke lediglich die Rangfolge über alle Teilnehmer reliabel abgebildet werden soll. Das COTAN-Testbeurteilungssystem spezifiziert z.b. drei Niveaus mit unterschiedlich strengen Anforderungen (Evers, 2001; vgl. Kersting, 2008). Für Niveau 1 (wichtige Einzelfallentscheidungen) wird eine Reliabilität von mindestens.80 gefordert, für Niveau 2 (weniger wichtige Einzelfalldiagnostik) mindestens.70 und für Niveau 3 (Gruppenuntersuchungen) lediglich.60. Wenngleich diese Differenzierung hilfreiche Hinweise liefern kann, sind auch dies noch immer Pauschalisierungen. So ist eine Personalauswahlentscheidung sicher ein Beispiel für Niveau 1. Wenn diese Entscheidung jedoch nicht auf der Grundlage eines einzigen Testergebnisses getroffen wird, sondern mehrere Diagnostika kombiniert werden, relativiert sich die Anforderung an einen einzelnen Test. Außerdem muss die Reliabilität in Relation zur Testlänge. (d.h. zum Kriterium der Ökonomie, vgl. Abschn. 5.3) betrach- Standards für die Höhe der Reliabilität

176 178 Evaluation psychologischer Testverfahren tet werden, da der Erhöhung der Reliabilität durch Testverlängerung in der Anwendung praktische Grenzen gesetzt sind. Spezifische Objektivität und Generalisierbarkeitstheorie Beispiel einer Analyse der internen Konsistenz mit SPSS Alle bisher dargestellten Varianten der Reliabilitätsbestimmung beruhen auf dem Modell der KTT. In der PTT spielt demgegenüber etwa das Konzept der spezifischen Objektivität (d.h. der Unabhängigkeit der Messwerte von der untersuchten Item- und Personstichprobe) eine ungefähr vergleichbare Rolle (s. Abschn. 3.2). Außerdem beziehen sich die vorgestellten Reliabilitätsmaße jeweils auf spezifische empirische Operationalisierungen der Reliabilität. Eine bahnbrechende Verallgemeinerung des Reliabilitätskonzepts der KTT ist die Generalisierbarkeitstheorie von Cronbach, Gleser, Nanda und Rajatnaram (1972; eine leichter verständliche deutschsprachige Einführung findet sich bei Renkl & Helmke, 1993). Die Generalisierbarkeitstheorie beruht auf einem varianzanalytischen Ansatz, bei der die gesamte Testvarianz in Komponenten zu Lasten bestimmter Varianzquellen ( Facetten, z.b. Items, Testpersonen, Beurteiler) und deren Kombinationen zerlegt wird. Die verschiedenen Varianzkomponenten werden empirisch quantifiziert, indem je nach vordringlichem Interesse eine sinnvolle Auswahl möglicher Designs realisiert wird. Dazu sind mindestens zwei aufeinander aufbauende Studien notwendig, eine explorative Generalisierbarkeitsstudie, die den Merkmalsbereich abgrenzt und die Komponenten quantifiziert, und eine spezifischere und vertiefende Entscheidungsstudie. Der nicht unerhebliche Aufwand und die ebenso beträchtliche methodische Komplexität haben vermutlich dazu beigetragen, dass sich Anwendungen von Cronbachs Generalisierbarkeitstheorie, ganz im Gegensatz zum α-koeffizienten desselben Autors, in der Praxis der Testkonstruktion bislang nur ausnahmsweise finden, am wohl häufigsten noch bei kriterienorientierten Tests (vgl. Nussbaum, 1987). Zum Abschluss dieses Abschnitts sei nochmals kurz eine Analyse der internen Konsistenz mittels SPSS an unserem bekannten Beispieldatensatz illustriert. Der Ablauf war bereits in Abschnitt dargestellt worden (s. Abb. 3.7 bis 3.13), da in SPSS die Itemanalyse und die Untersuchung der internen Konsistenz der Gesamtskalen in einem Schritt erfolgen. Allerdings muss, sofern zwischenzeitlich eine Revision der Skalen stattgefunden hat, die Reliabilität auf jeden Fall noch einmal für die Endform untersucht werden. Andere Methoden der Reliabilitätsschätzung als die interne Konsistenz erfordern ohnehin zusätzliche Erhebungen. In den jeweils ersten beiden Tabellen der Abb. 3.9 bis 3.12 finden sich die Werte für Cronbach-α und MIC (Mittelwert der Inter-Item-Korrelationen) sowie für deren Streuung für die Skalen Extraversion, Verträglichkeit, Gewissenhaftigkeit und Neurotizismus. Innerhalb der Skala Offenheit für Erfahrungen hatten geringe Trennschärfe (Abb. 3.13) und Faktorladung in der EFA (Abb ihn Abschn ) für eine Eliminierung des Items ob35i gesprochen. Wir wiederholen zunächst die Reliabilitätsanalyse für die um dieses Item gekürzte Skala (Abb. 5.2).

177 Evaluation psychologischer Testverfahren 179 Reliabilitätsstatistiken Cronbachs Alpha Cronbachs Alpha für standardisierte Items Anzahl der Items,805,808 9 Auswertung der Itemstatistiken Maximum / Anzahl der Mittelwert Minimum Maximum Bereich Minimum Varianz Items Item-Mittelwerte 3,739 2,921 4,226 1,306 1,447,142 9 Inter-Item- Korrelationen,319,147,664,518 4,531,015 9 Item-Skala-Statistiken Skalenmittelwert, Skalenvarianz, Cronbachs Alpha, wenn Item wegge- wenn Item wegge- Korrigierte Item- Quadrierte multip- wenn Item wegge- lassen lassen Skala-Korrelation le Korrelation lassen ob05 29,88 22,918,545,455,780 ob10 29,43 24,435,426,189,795 ob15 29,76 23,901,377,218,801 ob20 29,88 22,278,570,380,777 ob25 29,80 23,562,504,465,786 ob30 30,15 21,112,582,502,774 ob40 29,57 23,804,493,345,787 ob41i 30,02 20,753,572,504,776 ob44 30,73 22,543,447,287,794 Abb. 5.2: SPSS-Ausgabe zur Skala Offenheit für Erfahrungen nach Revision Zunächst ist festzustellen, dass in keinem Fall eine negative Kovarianz zwischen Items derselben Skala aufgetreten ist (Minimum der Inter-Item-Korrelationen) Zumindest aus diesem Grund spricht also nichts gegen die Verwendung von Cronbach-α anstelle etwa von Guttman-λ 2. Das standardisierte Cronbach-α beruht auf der Analyse von Korrelationen statt Kovarianzen und damit varianzgleichen Variablen anstelle der Rohwerte. Es sollte nur bei deutlichen Abweichungen von Cronbach-α interpretiert werden, was bei keiner Skala der Fall ist (kein α diff - Wert >.01). Wenn man die Maßstäbe des COTAN-Systems anlegt (s.o.) erreichen nunmehr alle Skalen mit Ausnahme von Verträglichkeit eine für wichtige Einzelfallentscheidungen (Niveau 1) zumindest ausreichende Reliabilität von.80. Allerdings wird der cut-off für gute Werte auf Niveau 1 (.90) in allen Fällen verfehlt. Angesichts der mit acht bis neun Items relativ geringen Länge der Skalen können

178 180 Evaluation psychologischer Testverfahren die erreichten Werte aber durchaus zufriedenstellen. Einen Ausreißer nach unten stellt jedoch die Skala Verträglichkeit mit α =.715 dar. Dieser Wert ist nach den COTAN-Kriterien lediglich für Niveau 2 ausreichend und für Niveau 3 noch gut. Hinweise auf eine mglw. durch einen Methodenartefakt bedingte Heterogenität dieser Skala hatte auch bereits die EFA erbracht (vgl. Abschn ). Dies wäre noch durch eine CFA und ggf. durch Validierungsstudien zu klären (s.u.). Der Homogenitätsindex MIC liegt für Verträglichkeit bei.22 und für alle anderen Skalen zwischen.32 und.42. Dies ist ein weiterer Hinweis auf die mangelnde Homogenität der Verträglichkeitsskala, während die übrigen Werte befriedigend ausfallen. Nach einem Vorschlag von Cortina (1993) lässt sich aus der Streuung der Inter-Item-Korrelationen noch ein Index für die Präzision von α berechnen, der deshalb von zusätzlichem Interesse ist, weil stark schwankende Inter-Item- Korrelationen auch bei hohem α und MIC gegen die testtheoretische Homogenität der Items sprechen. Wenn man diesen Index, bei dem geringe Werte hohe Präzision anzeigen, für die vorliegenden Skalen berechnet (zur Formel s. Cortina, 1993, oder Bühner, 2006), findet man Werte von.016 für Verträglichkeit, je.017 für Neurotizismus und Gewissenhaftigkeit,.021 für Offenheit und.023 für Extraversion. Verträglichkeit erreicht hier also etwas überraschend den besten Wert. Insgesamt sind Werte von.01 bis.02 nach der Simulationsstudie von Cortina (1993) zwar mit Mehrdimensionalität vereinbar, jedoch eher für längere Skalen als die vorliegenden. Dieser Index spricht also auch bei Verträglichkeit eher für Eindimensionalität, ersetzt jedoch nicht einen formalen Test z.b. mittels CFA Validität Definition der Validität Das Konzept der Validität (Gültigkeit) ist für die Beurteilung der Güte von Tests von überragender Bedeutung. Es ist als Gesamtkonzept relativ leicht abstrakt einzugrenzen, aber im konkreten Detail konzeptionell und empirisch nur schwer eindeutig zu fassen. In den US-amerikanischen Standards wird Validität definiert als the degree to which accumulated evidence and theory support specific interpretations of test scores entailed by proposed uses of a test (AERA et al., 1999). Diese Definition enthält eine Reihe von bemerkenswerten Aussagen. Erstens lässt sich Validität nicht in einer einzigen Kennziffer fassen, die durch eine oder mehrere Studien möglichst präzise abgeschätzt werden soll, sondern Validität zeigt sich durch die fortlaufende Akkumulation wissenschaftlicher (empirischer und theoretischer) Evidenz. Anders formuliert gibt es nicht die Validität, sondern lediglich Hinweise auf Validität, die ständig neu gesammelt und bewertet werden können und sollen. Dies ist ein komplexer und langwieriger Prozess, für den es, anders als bei der Reliabilität, kaum standardisierte Vorgehensweisen gibt und der mit der Publikation eines Tests nicht abgeschlossen ist. Zweitens ist Validität kein Merkmal eines Tests, sondern bezieht sich auf die Gültigkeit der Schlussfolgerungen, die aus Testergebnissen gezogen werden. Validität ist also ein unmittelbar anwendungsbezogenes Konzept und beschreibt die Eignung eines Tests für bestimmte Zwecke. Daraus ergibt sich drittens, dass Validität nur für einen jeweils spezifischen Zweck definiert ist, sowie viertens, dass ein- und derselbe Test für

179 Evaluation psychologischer Testverfahren 181 verschiedene Zwecke sehr unterschiedlich valide sein kann. Für die Testentwicklerin bedeutet dies die Verantwortung, den vorgeschlagenen Anwendungsbereich konkret zu benennen und die Eignung des Verfahrens für diese Zwecke theoretisch, aber besonders auch empirisch zu belegen. Die Anwender stehen ihrerseits in der Verantwortung, Tests ausschließlich für Zwecke einzusetzen, für die sie (a) entwickelt wurden und für die (b) ihre Validität hinreichend belegt ist. Schließlich sei sechstens angefügt, dass sich die Aussage der Standards und das Folgende auf die Validität der Schlussfolgerungen aus psychologischen Tests beschränken und die durch andere methodische Merkmale bestimmten Aspekte der Gültigkeit von Schlüssen (z.b. die durch das Design bestimmte interne und externe Validität, vgl. Module 1 und 2) allenfalls mittelbar betreffen. Zum Wesen der Validität gibt es zahlreiche bedeutende Abhandlungen grundsätzlicher Natur (z.b. Binning & Barrett, 1989; Campbell & Fiske, 1959; Cronbach & Meehl, 1955; Messick, 1995). Obwohl sich die meisten Autoren inzwischen darin einig sind, dass Validität ein einheitliches Konzept darstellt, hält sich gleichzeitig hartnäckig die Unterscheidung von drei Validitätsarten (Höft, 2006, S.764, spricht hier in Anlehnung an Landy, 1986, von der Dreifaltigkeitslehre ), die der 1954er Auflage der Standards entstammt, aber dort in dieser Form längst nicht mehr verfolgt wird. In der neueren Literatur hat es sich eingebürgert, anstelle von Validitäten lieber von unterschiedlichen Validierungsstrategien, Facetten oder Quellen der Validitätsevidenz (so z.b. die SIOP, 2003, in ihren Principles ) zu sprechen. In diesem Sinne ist die Dreiteilung durchaus sinnvoll und instruktiv, um den Begriff der Validität kognitiv zu strukturieren und verschiedene Schwerpunkte abzugrenzen. Die Unterscheidung bezieht sich traditionell auf die Aspekte (1) Inhalt, (2) Konstrukt und (3) externe Kriterien, während die SIOP (2003) etwas abweichend Quellen der inhaltsbezogenen, der kriterienbezogenen und der Evidenz aufgrund der internen Struktur unterscheidet (abweichend deshalb, weil sich die Konstruktvalidität traditionell nicht auf die interne Struktur beschränkt). Wir werden im Folgenden die Differenzierung unter Verwendung der traditionellen Begriffe darstellen, weisen aber darauf hin, dass es sich um unterschiedliche Aspekte derselben Sache handelt. Bestimmte Facetten der Validität korrespondieren dabei mit den Schwerpunkten bestimmter Konstruktionsprinzipien (vgl. Abschn. 2.2), ohne dass dies als eine eindeutige Zuordnung von Validitätsfacetten zu Testarten missverstanden werden darf. (1) Inhaltsvalidität. Der inhaltliche Aspekt der Validität bezieht sich auf die Übereinstimmung der Testinhalte (d.h. der Items inkl. Stamm und Antwortvorgabe) mit dem zugrunde liegenden Merkmal des Tests. Die Inhaltsvalidität betrifft also einen frühen Schritt der Testentwicklung, nämlich die Ableitung der Items aus dem definierten Merkmalsbereich (Abschn. 2.3), und setzt folglich voraus, dass ein solcher Merkmalsbereich existiert. Diese Definition kann auf zwei grundsätzlich unterschiedlichen Wegen erfolgen (vgl. Hartig, Frey & Jude, 2007), nämlich zum einen theoriegeleitet, d.h. durch Ableitung aus einer theoretischen Konstruktdefinition, oder operational, indem die Aufgabeninhalte das interessierende Validitätsfacetten Wesen der Inhaltsvalidität und Definition des Merkmalsbereichs

180 182 Evaluation psychologischer Testverfahren Merkmal direkt repräsentieren. Der erste Fall betrifft insbesondere rational entwickelte Konstrukttests (vgl. Abschn. 1.1 und 2.2), bei der die Beziehung zwischen Konstrukttheorie und Itemgehalt im Prozess der Itemgenerierung sichergestellt werden sollte (davon unbenommen aber später empirisch abzusichern ist). Für jedes Item muss dabei theoretisch explizit darstellbar sein, wie eine bestimmte Ausprägung des Konstrukts zu einer bestimmten Antwortausprägung führen oder wenigstens beitragen sollte bzw. umgekehrt, warum eine bestimmte Antwort auf eine bestimmte Konstruktausprägung schließen lässt. Der Fall der operationalen Definition betrifft dagegen besonders kriterienorientierte Leistungstests (vgl. Abschn. 1.1). Diese Tests prüfen z.b. die Erreichung eines definierten Lehrziels mittels eines Aufgabenpools, der als Stichprobe aus einem sog. Aufgabenuniversum angesehen wird, dass durch den Lehrstoff abgegrenzt wird. Das Universum entspricht dabei dem Merkmalsbereich zur Gänze; die Inhaltsvalidität bezieht sich dann darauf, wie gut die einzelnen Aufgaben dieses Universum repräsentieren. Der Repräsentationsschluss von einem Teil auf ein größeres Ganzes, und damit die Generalisierung vom Testergebnis auf das Merkmal, liegt auch bei Konstrukttests der Idee der Inhaltsvalidität zugrunde. Bei operationaler Definition ist die Verbindung zwischen Merkmal und Testinhalt jedoch unmittelbar und wird nicht durch ein dahinter stehendes Konstrukt vermittelt (eine solche Aussage wäre bei operationaler Definition zirkulär). Das Prinzip der operationalen Definition liegt nicht nur lernzielorientierten Leistungstests, sondern z.b. auch vielen Eignungsdiagnostika (vgl. Modul 8) oder den Angaben zu demografischen Variablen zugrunde. Hier kann man sich das Prinzip vielleicht sogar besonders gut klarmachen: die Frage nach dem biologischen Geschlecht weist auf nichts anderes hin als auf das, was in der Frage selbst formuliert ist (in diesem Fall sogar erschöpfend). Bestimmung der Inhaltsvalidität Ein Problem bei der Inhaltsvalidität ist ihre empirische Bestimmung. Dieser Aspekt der Validität ist nur durch subjektive Beurteilung zu bestimmen, was in der Wahrnehmung auch vieler fachkundiger Testrezensenten dazu geführt hat, ihn implizit als eher untergeordneten Aspekt der Validität zu betrachten, respektive zu vernachlässigen. Tatsächlich ist die Inhaltsvalidität ein im Prozess der Testkonstruktion zeitlich bzw. logisch vorgelagerter Aspekt der Validität, der auf später erhobene quantitative Indikatoren der Konstruktvalidität (s.u.) durchschlagen sollte. Anders formuliert hat ein Test, dessen Inhalte von vornherein das Konstrukt nicht gut repräsentieren, kaum Chancen, sich später als konstruktvalide zu erweisen. Insofern lässt sich die Inhaltsvalidität als ein spezifischer Aspekt der allgemeineren Konstruktvalidität subsumieren. Typischerweise erfolgt die Sicherstellung der Inhaltsvalidität durch Expertenurteile. Oft fungiert dabei aber allein der Testautor in Personalunion als Experte. In Beispiel 5.1 wird exemplarisch ein systematischeres Vorgehen dargestellt, welches u.a. zeigt, dass Maße der Beurteilerübereinstimmung (vgl. Abschn oben) auch zur quantitativen Abschätzung der Inhaltsvalidität herangezogen werden können. Die Repräsentativität der Items für den Merkmalsbereich kann ferner durch systematische Verfahren der Merkmalsabgrenzung und Itemgenerierung (z.b. AFA, CIT, Facettentheorie; vgl. Kap. 2) entscheidend verbessert werden.

181 Evaluation psychologischer Testverfahren 183 Beispiel 5.1: Sicherstellung der inhaltlichen Validität in der Konstruktion Für ein umfangreicheres Forschungsprojekt entwickelten Marcus, Schuler, Quell und Hümpfner (2002) eine Skala zur Messung des Konstrukts Kontraproduktives Arbeitsverhalten von Mitarbeitern. Ein Problem bei der Entwicklung war, dass zwar eine konsensfähige theoretische Definition des Konstrukts vorlag (Verhalten von Mitarbeitern mit schädlichen Auswirkungen auf die Organisation oder ihre Mitglieder, dabei ohne potentiellen Nutzen), zur internen Struktur des Konstrukts (d.h. über dessen Dimensionalität) und dessen Beziehungen zu anderen Variablen aber konkurrierende Hypothesen vorlagen. Empirische Evidenz, die üblicherweise als Hinweis auf die Konstruktvalidität gedeutet wird, und auch übliche Kennwerte der Itemanalyse, hätten einige dieser Hypothesen, die später mit dem Instrument geprüft werden sollten, einseitig bevorzugt und somit tautologischen Schlüssen Vorschub geleistet. Die Sicherstellung der Inhaltsvalidität sollte dagegen die Prüfung unabhängig vom Inhalt der Hypothesen begünstigen, weshalb diesem Aspekt der Validität bei der Entwicklung besondere Bedeutung zukam. Zu diesem Zweck wurde von zwei Autoren zunächst ein umfassender Itempool generiert und anschließend zwei Expertengruppen zur Einschätzung vorgelegt. Die erste Gruppe bestand aus mit dem Forschungsgegenstand vertrauten Fachkollegen und hatte die Aufgabe, die Items hinsichtlich der Erfüllung der Konstruktdefinition einzuschätzen und einigen zuvor ebenfalls definierten Unterkategorien des Konstrukts zuzuordnen. Nur Items mit eindeutigem und verständlichem Gehalt, über deren Zuordnung mindestens fünf von sechs Beurteilern sich einig waren, wurden nach dieser Runde beibehalten. In der nächsten Runde wurde eine weitere Gruppe von Beurteilern befragt, die sich diesmal aus betrieblichen Experten aus zwei an der Untersuchung beteiligten Organisationen zusammensetzte. Da es bei der Gelegenheit zu dem interessierenden Verhalten und bei dessen Einschätzung als kontraproduktiv individuelle und organisationsspezifische Unterschiede geben kann, hatte diese Gruppe die Aufgabe einzuschätzen, ob alle Mitarbeiter des jeweiligen Unternehmens prinzipiell die Möglichkeit hätten, das jeweilige Verhalten zu zeigen, und welche Konsequenzen an dessen Aufdeckung geknüpft werden sollten. An dem Expertenpanel waren Vertreter unterschiedlicher Interessengruppen in den beiden Unternehmen beteiligt, und es wurden wiederum Mindeststandards der Beurteilerübereinstimmung definiert, bei deren Unterschreitung ein Item aus der Skala entfernt wurde. Auf diese Weise entstand ein Instrument, dessen Items ausschließlich theoriegeleitet (rational) generiert wurden und dessen Endform ausschließlich auf Auswertungen der Beurteilerübereinstimmung zu verschiedenen Aspekten der Inhaltsvalidität beruht. Anschließende Untersuchungen zur internen Struktur und zu externen Kriterien (Marcus et al., 2002) wurden dann nicht mehr für Beurteilungen der Güte des Instruments, sondern zur Beantwortung von Forschungsfragen herangezogen.

182 184 Evaluation psychologischer Testverfahren Wesen der Konstruktvalidität Nomologisches Netz (2) Konstruktvalidität. Anstelle der o.g. Validitätsdefinition aus den Standards kann man in einigen Quellen auch eine Definition lesen, nach der Validität das Ausmaß ist, in dem ein Test das misst, was er messen soll. Diese Definition ist für die Anwendung vielleicht etwas zu unscharf, trifft aber ganz gut den Kern dessen, was im klassischen Sinn mit Konstruktvalidität gemeint ist: die Interpretation von Testergebnissen als Indikatoren theoretischer Konstrukte (vgl. auch die formale Validitätsdefinition analog zur Definition der Reliabilität in der KTT in Abschn. 1.2). In der neueren Literatur wird Konstruktvalidität häufig als ein generelles Konzept verstanden, dass alle erklärenden Schlussfolgerungen aus Testergebnissen einschließt und sich damit eigentlich auf alle Aspekte der Validität erstreckt (z.b. Messick, 1995). Diese umfassende Auffassung von Konstruktvalidität lässt sich für rational und induktiv konstruierte Tests gedanklich leichter aufrechterhalten als für Tests, denen kein theoretisches Konstrukt i.e.s. zugrunde liegt. Zu letzteren gehören neben o.g. Tests zur Erfassung operational definierter Merkmale auch strikt external konstruierte Verfahren, bei denen der Aspekt der kriterienbezogenen Validität im Mittelpunkt steht (s.u.). Noch schwieriger als die begriffliche Abgrenzung der Konstruktvalidität gestaltet sich oft das empirische Vorgehen bei der Konstruktvalidierung. Ein klassischer Vorschlag zur idealtypischen Vorgehensweise stammt von Cronbach und Meehl (1955). Nach diesen Autoren lassen sich alle Aussagen einer idealen Theorie durch Axiome zu Gesetzmäßigkeiten über Zusammenhänge zwischen latenten Konstrukten beschreiben. Dieser latente sog. Bereich der Theorie findet durch semantische Ableitung aus den Konstrukten eine Entsprechung im manifesten Bereich des Beobachtbaren. Aus den axiomatischen Zusammenhängen im Bereich der Theorie ergeben sich dann Vorhersagen über den Bereich des Beobachtbaren, die sich dort empirisch überprüfen lassen. Theoretischer und beobachtbarer Bereich zusammen bilden einschließlich aller Verbindungslinien ein nomologisches Netz. Konstruktvalidierung beschreiben Cronbach und Meehl nun als Prozess der schrittweisen Überprüfung der Regeln im nomologischen Netz. Dieses Vorgehen ist hypothetico-deduktiv (vgl. Modul 1), kann also stets nur zur vorläufigen Annahme der geprüften Hypothesen führen. Bei einem negativen Prüfergebnis können die Ursachen entweder im theoretischen Bereich liegen (falsche Axiome) oder in den Messverfahren bzw. in der Verbindung zwischen Theorie und Messung. Theorie und psychometrische Validität werden in einem Zug geprüft, so dass ggf. weitere Ursachenanalysen notwendig sind. Schwerer für die praktische Umsetzung des Ideals wiegt der Umstand, dass psychologische Theorien oft zu schwach und zu wenig formal formuliert sind, um Überprüfungen im Sinne des starken hypothetico-deduktiven Ideals zuzulassen. Deshalb laufen Validierungen im Sinne des nomologischen Netzwerkansatzes in der Praxis oft auf ein schwaches exploratives Vorgehen hinaus, bei dem das nomologische Netz erst post-hoc geknüpft wird, indem im Extremfall sämtliche empirischen Befunde zu einem Test als Hinweise auf mögliche theoretische Beziehungen hin interpretiert werden. Ein solches empirizistisches Vorgehen (vgl. Anastasi, 1986) ist bei rational konstruierten Tests sicher kaum zu rechtfertigen, während bei ex-

183 Evaluation psychologischer Testverfahren 185 ternal konstruierten Verfahren wenig Alternativen bei der Konstruktvalidierung bestehen. Die Begriffe stark und schwach bezeichnen zudem eher die Endpunkte eines Kontinuums, zwischen denen zahlreiche Abstufungen möglich sind, als wirklich distinkte Kategorien. Als Strategien der konkreten Überprüfung nennt Cronbach (1990) (1) das logischargumentative Vorgehen (also im Grunde den Aspekt der Inhaltsvalidität ), (2) die experimentelle Prüfung und (3) korrelative Analysen. Der experimentelle Ansatz ist, wie das nomologische Netz in seiner starken Version, seiner Natur nach deduktiv und führt i.d.r. zu einer Prüfung von Theorie und Messinstrument in einem Zug. Bei zuvor schon gut bestätigten Theorien lässt sich jedoch u.u. etwa ein Experiment mit bekanntem Ausgang replizieren, wobei das neu konstruierte Instrument zur Messung der abhängigen Variable eingesetzt wird, und bei erwartungskonträrem Ausgang dieser mit einiger Zuverlässigkeit einem Mangel im neuen Instrument zuschreiben. Da mit Tests aber meist theoretisch als stabil angenommene Merkmale wie Eigenschaften oder Fähigkeiten gemessen werden, sind dem experimentellen Ansatz zur Prüfung der Konstruktvalidität enge Grenzen gesetzt. In der Praxis der Testvalidierung dominiert ganz eindeutig das korrelative Vorgehen. Mit korrelativen Designs lassen sich sowohl hypothesenprüfende als auch explorative Ansätze sowie Mischformen realisieren. Als Facetten der konstruktbezogenen Evidenz sind hier insbesondere die Konzepte der faktoriellen sowie der konvergenten und diskriminanten Validität zu nennen, wobei die beiden letzteren zusammen betrachtet werden müssen. Mit der faktoriellen Validität i.e.s. ist die Bestätigung der intendierten faktoriellen Struktur eines Tests gemeint, wie sie in einer CFA oder auch im Rahmen von Modelltests der PTT geprüft werden sollte, in der Praxis aber oft nur in einer EFA exploriert wird (vgl. Kap 4). Im weiteren Sinne lassen sich alle empirischen Befunde zur internen Struktur eines Tests als, wenn auch z.t. schwache, Hinweise auf die Konstruktvalidität eines Verfahrens deuten. Hohe interne Konsistenzkoeffizienten und andere oben (Abschn. 5.2) dargestellte Indizes liefern z.b. schwache Hinweise auf die Homogenität eines Tests, da sie tendenziell eher mit Homogenität als mit Inhomogenität vereinbar sind. Beachtet werden sollte freilich, dass jeder Hinweis auf Homogenität nur dann ein positiver Validitätsindikator ist, wenn das gemessene Merkmal aus theoretischen Gründen eindimensional sein sollte. Ferner kann die Maximierung der empirischen Homogenität sehr leicht zu Lasten der repräsentativen Abdeckung des Merkmals gehen. Der einfachste Weg zu einem homogenen Test ist es, mehrfach immer die gleiche Frage zu stellen, weshalb vor der Praxis der Testvalidierung durch Maximierung von Cronbach-α hier nochmals gewarnt sei. Die interne Struktur eines Tests liefert keinesfalls hinreichende Hinweise zur Konstruktvalidität, da damit nichts über die inhaltliche Interpretation ausgesagt wird. Hierzu müssen empirisch Beziehungen zu Außenvariablen untersucht werden. Realistisch dürfte dabei in den meisten Fällen ein Kompromiss zwischen der Strategien der Konstruktvalidierung Faktorielle Validität Konvergente und diskriminante Validität

184 186 Evaluation psychologischer Testverfahren Analyse im nomologischen Netz in ihrer rein hypothesengeleiteten Form und dem planlosen Herumkorrelieren (blinder Empirizismus) sein, der allerdings so nahe wie möglich am deduktiven Vorgehen liegen sollte. Soweit theoretische Annahmen möglich sind, lässt sich die konstruktbezogene Evidenz wesentlich im Hinblick auf Beziehungen zu konstruktnahen und konstruktfernen Außenvariablen beurteilen. Korrelationen mit konstruktnahen Variablen (z.b. existierende Tests zur Messung desselben oder eng verwandter Konstrukte) sollten eher hoch ausfallen und liefern in diesem Fall einen Hinweis auf konvergente Validität. Die Beziehung zu konstruktfernen, im Extrem als unabhängig postulierten Konstrukten bzw. Tests sollte dagegen möglichst gering aus fallen, was als Hinweis auf diskriminante (divergente) Validität zu deuten ist. Bei der konvergenten Validität geht es also um den Aspekt der theoretisch erwarteten Übereinstimmung, bei der diskriminanten Validität um die empirische Abgrenzung von theoretisch distinkten Konstrukten. Die Beziehung zwischen konvergenter (möglichst hoch) und diskriminanter (möglichst niedrig) Validität ist zwar konzeptionell gegensätzlich, in der Praxis sind die Übergänge aber oft fließend, da es bei der diskriminanten Validität oft gerade um die Unterscheidung von verwandten Konstrukten geht und bei der konvergenten Validität auch um die Erfassung inhaltlicher Randbereiche. Wenn etwa ein Test zur Messung eines neuen Konstrukts (z.b. soziale Kompetenz ) vorgestellt wird, sollte sichergestellt sein, dass dieser Test nicht einfach dasselbe erfasst wie existierende Verfahren zur Messung altbekannter Konstrukte (z.b. Verträglichkeit, Extraversion), aber auch nicht nur eine von theoretisch vielen Facetten. In solchen Grenzfällen ist mit einem gewissen Maß an Konvergenz zu rechnen, die jedoch auch nicht zu hoch ausfallen sollte. Die Literatur in der Psychologie und in Nachbardisziplinen ist leider voll von Beispielen für potentiell redundante Konstrukte, bei denen das Rad immer wieder neu erfunden wird. Wie hoch die konvergenten und divergenten Beziehungen ausfallen sollten bzw. dürfen, kann nur im Einzelfall für ein bestimmtes Variablenpaar entschieden werden. Prüfung der konvergenten und diskriminanten Validität; Artefaktkorrektur Für die Prüfung der konvergenten und diskriminanten Validität stehen unterschiedliche Strategien zur Verfügung. Im einfachsten Fall werden dabei bivariate Korrelationen interpretiert. Die Interpretation lässt sich auch inferenzstatistisch absichern, indem für die Prüfung von Null- und Alternativhypothese Grenzwerte für die diskriminante (im Extrem Null) und die konvergente (im Extrem Eins) Validität oder auch erwartete Bandbreiten definiert und um die beobachteten Korrelationen für die gewählte Irrtumswahrscheinlichkeit entsprechende Vertrauensintervalle gebildet werden. Bei der Wahl der Grenzwerte ist zu beachten, dass die beobachteten Korrelationen nicht präzise die Beziehungen auf Konstruktebene wiedergeben. Insbesondere führt die Tatsache, dass psychologische Tests nicht perfekt reliabel sind, zu einer Unterschätzung der latenten Korrelation. Bei bekannter Reliabilität kann dies durch eine sog. Attenuations- oder Minderungskorrektur ausgeglichen werden. Neben der mangelnden Reliabilität können noch andere Artefakte die beobachteten Korrelationen verzerren (u.u. auch nach oben) und ggf. korrigiert werden (dies geschieht oft im Rahmen der metaanalytischen

185 Evaluation psychologischer Testverfahren 187 Validitätsgeneralisierung, s.u. sowie Modul 8). Der Einfluss der Reliabilität auf die Validität sowie dessen Korrektur wird im folgenden Exkurs beschrieben. Exkurs: Zusammenhang von Reliabilität und Validität und dessen Korrektur Wenn zwischen zwei Variablen eine Korrelation berechnet wird, z.b. um die Konstrukt- oder auch die kriterienbezogene Validität (s.u.) abzuschätzen, berechnet sich diese Korrelation bekanntlich aus der gemeinsamen Varianz der beiden Variablen. Diese Kovarianz schöpft ausschließlich aus der systematischen Varianz der beteiligten Variablen und kann deren Messfehler nicht einschließen, sofern die Annahme der KTT über die Unkorreliertheit von Messfehlern zutrifft. Da die Reliabilität als Anteil der systematischen Varianz an der Gesamtvarianz der Testwerte definiert ist, setzt sie der Korrelation des Tests mit Außenvariablen eine natürliche Grenze. Anders formuliert liegt die maximal beobachtbare Korrelation zwischen zwei messfehlerbehafteten Variablen nicht bei einem Betrag von Eins, sondern ist um die (unkorrelierten) Fehleranteile in beiden Variablen vermindert. Bei bekannter oder abschätzbarer Reliabilität lässt sich diese Minderung (Attenuation) der Korrelation nachträglich korrigieren. Wenn beide Variablen messfehlerbehaftet sind (z.b. zwei Tests), kann die Korrektur dabei für nur eine (einfache Minderungskorrektur) oder für beide beteiligte Variablen (doppelte Minderungskorrektur) erfolgen. Die entsprechenden Formeln lauten wie folgt: Einfache Minderungskorrektur: Doppelte Minderungskorrektur: Dabei ist: r 12 = Korrelation von Test 1 mit Test 2 r tt1 = Reliabilität von Test 1 r tt2 = Reliabilität von Test 2 Welche der beiden Formeln angewandt werden sollte und ob überhaupt eine Minderungskorrektur erfolgen sollte, hängt von verschiedenen Faktoren ab. Zunächst ist eine Minderungskorrektur (bei Verwendung der internen Konsistenz) nur bei Eindimensionalität der Tests sinnvoll, weil sonst die Beziehungen auf Konstruktebene durch Überkorrektur überschätzt werden. Die angemessene Korrekturformel hängt dann v.a. von der Fragestellung ab. Wenn man sich für rein anwendungsbezogene Zusammenhänge interessiert (z.b. die sog. operationale Validität in der Personalauswahl: Wie gut sagt Test X berufliche Leistung vor-

186 188 Evaluation psychologischer Testverfahren her?, s.u.) sollte die Korrektur unterbleiben bzw. nur auf der Seite erfolgen, für die man hilfsweise perfekte Reliabilität unterstellen möchte (im Bsp. auf der Seite des Leistungskriteriums, aber nicht für Test X). Wenn es dagegen um die Frage geht, wie hoch die Variablen auf der Konstruktebene zusammenhängen, sollte doppelt korrigiert werden. Dies ist z.b. bei der inferenzstatistischen Prüfung der Konstruktvalidität der Fall. Hier bildet die Wurzel aus dem Produkt der Reliabilitäten (der Nenner in der Formel zur doppelten Minderungskorrektur) ein theoretisches Maximum für die beobachtete Korrelation und damit den Wert (anstelle von Eins), gegen den die Alternativhypothese maximal getestet werden kann. Aus dem bisher Gesagten könnte man schließen, dass die Reliabilität die Validität generell positiv beeinflusst. Dies trifft in der Praxis, unterstellt ein hohe Korrelation spricht für höhere Validität, in den meisten Fällen zu, und in der Theorie insofern auch als die Reliabilität der Korrelation tatsächlich eine technische Obergrenze setzt. Es lässt sich jedoch auch formal zeigen, dass die Erhöhung der Trennschärfe der Items (und damit der internen Konsistenz des Tests) bei gleichbleibender Validität der einzelnen Items zu einer Verminderung der Validität des gesamten Tests führt (vgl. z.b. Rost, 2004). Diese scheinbar paradoxe Beziehung ist auch als Reliabilitäts-Validitäts-Dilemma bekannt. Dies hängt damit zusammen, dass die Erhöhung der Trennschärfe der Items den Test homogenisiert und deshalb das gemessene Konstrukt an inhaltlicher Breite verliert. Da der Test ein relativ eng gefasstes Konstrukt erfasst, kann er mit Außenvariablen, die selbst einen breiter definierten Merkmalsbereich abdecken, nur noch in Ausschnitten kovariieren. Insofern verringert die Homogenisierung eines Tests für sich betrachtet die Korrelation mit heterogenen Außenkriterien. Die Verminderung der Validität entsteht dabei eigentlich nicht durch die Verringerung des Messfehlers, was wirklich paradox wäre, sondern durch die Verringerung der Symmetrie zwischen Test und Außenvariable, indem extern valide, aber itemspezifische Varianz im Test (d.h. Itemvarianz, die systematisch ist ohne mit den übrigen Testteilen zu kovariieren) entfällt. Die genauen Zusammenhänge sind etwas komplex und werden im Zusammenhang mit der Berufseignungsdiagnostik (Modul 8) noch einmal unter dem Stichwort bandwidth-fidelity dilemma beleuchtet. Gemeinsame Faktorisierung Ein multivariater Zugang zur Prüfung der Konstruktvalidität ist die gemeinsame Faktorenanalyse mit anderen Testverfahren. Dieses Vorgehen verbindet den Aspekt der faktoriellen Validität mit der Untersuchung konvergenter und divergenter Zusammenhänge. Es wird relativ selten angewandt, weil es eine recht zeitaufwändige Erhebung erfordert und zudem nur in bestimmten Fällen sinnvoll einsetzbar ist. Für unseren Beispieldatensatz zum BFI wäre die gemeinsame Faktorenanalyse aber durchaus in Frage gekommen. Hier hätte man der gleichen Stichprobe auch alternative Fünf-Faktoren-Inventare vorgeben können und hätte dann z.b. im Rahmen einer gemeinsamen CFA ein Modell spezifiziert und geprüft, in dem Indikatoren aus dem BFI (Items, parcels oder die ganzen Skalen) auf die gleichen Faktoren laden wie die entsprechenden Indikatoren der anderen Inventare. Durch die Modellierung der latenten Ebene in SEM-Analysen wird übri-

187 Evaluation psychologischer Testverfahren 189 gens die oben beschriebene Minderungskorrektur implizit bereits vorgenommen. Die gemeinsame Faktorisierung lässt sich problemlos zu einem umfassenderen Ansatz der Konstruktvalidierung erweitern. Dieser klassische Ansatz wurde von Campbell und Fiske (1959) unter dem Begriff Multi-Trait-Multi-Method Matrix (MTMM-Ansatz) vorgestellt und stellt wohl den elegantesten Zugang zur Prüfung der Konstruktvalidität dar. Die Begriffe trait und method stehen dabei stellvertretend für eine ganze Reihe unterschiedlicher Varianten, deren Gemeinsamkeit darin besteht, dass eine Mehrzahl von Konstrukten jeweils mit unterschiedlichen Methoden mehrfach gemessen wird (vgl. Schermelleh-Engel & Schweizer, 2007). Um das obige Beispiel fortzusetzen könnten etwa drei der fünf Faktoren (z.b. Extraversion, Neurotizismus, Gewissenhaftigkeit) jeweils mit dem BFI und zwei anderen Inventaren (z.b. dem NEO-FFI und den IPIP-Skalen, vgl. Kap. 2) gemessen werden. Anstelle der drei Testverfahren könnten die Methoden z.b. auch variiert werden, indem Selbsteinschätzungen, Einschätzungen von Lebenspartnern und von Arbeitskollegen derselben Eigenschaften erhoben (hier indiziert Beurteilerübereinstimmung Konstruktvalidität!) oder indem drei Messzeitpunkte verglichen werden. Der Sinn dieser Überkreuzung von Konstrukten und Messgelegenheiten ist es, den Einfluss des Konstrukts auf die Messergebnisse (konstruktvalide Varianz) vom Einfluss der Methode (bias) zu trennen. In der MTMM-Matrix werden Konstrukte und Methoden einander gegenüber gestellt, wie für den Fall von 3x3 Traits und Methoden in Abb. 5.3 exemplarisch dargestellt. Prinzip des Multi-Trait- Multi-Method Ansatz Abb. 5.3: Schema einer 3 x 3 Multitrait-Multimethod (MTMM-) Matrix (nach Schermelleh-Engel & Schweizer, 2007, S. 330)

einzelne Items werden mit Zahlen verknüpft und nach festgelegten Regeln zu einem Score verrechnet

einzelne Items werden mit Zahlen verknüpft und nach festgelegten Regeln zu einem Score verrechnet 1 Psychologische Testverfahren: Definition Definition Lienert und Raatz (1998, S.1) ein eines oder mehrerer mit dem Ziel einer über den relativen Grad der wissenschaftliches Routineverfahren zur Untersuchung

Mehr

Bernd Marcus. Grundlagen der Testkonstruktion. kultur- und sozialwissenschaften

Bernd Marcus. Grundlagen der Testkonstruktion. kultur- und sozialwissenschaften Bernd Marcus Grundlagen der Testkonstruktion kultur- und sozialwissenschaften Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung

Mehr

Kurs 03421. Bernd Marcus. Grundlagen der Testkonstruktion. Kultur- und Sozialwissenschaften

Kurs 03421. Bernd Marcus. Grundlagen der Testkonstruktion. Kultur- und Sozialwissenschaften Kurs 03421 Bernd Marcus Grundlagen der Testkonstruktion Kultur- und Sozialwissenschaften 0BInhaltsverzeichnis 3 Inhaltsverzeichnis GRUNDLAGEN DER TESTKONSTRUKTION Bernd Marcus & Markus Bühner Einführung

Mehr

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Verfahren zur Skalierung. A. Die klassische Vorgehensweise - nach der Logik der klassischen Testtheorie Verfahren zur Skalierung A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie 1. Daten: z. Bsp. Rating-Skalen, sogenannte "Likert" - Skalen 2. Ziele 1. Eine Skalierung von Items

Mehr

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität Testtheorie und Gütekriterien von Messinstrumenten Objektivität Reliabilität Validität Genauigkeit von Messungen Jede Messung zielt darauf ab, möglichst exakte und fehlerfreie Messwerte zu erheben. Dennoch

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017 Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten der

Mehr

Überblick über die ProbabilistischeTesttheorie

Überblick über die ProbabilistischeTesttheorie Überblick über die ProbabilistischeTesttheorie Schwächen der Klassischen Testtheorie Axiome Theoretische Festlegungen nicht überprüfbar! Einige sind kontraintuitiv und praktisch nicht haltbar Stichprobenabhängigkeit

Mehr

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test Was ist ein Test? Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage

Mehr

Reliabilitäts- und Itemanalyse

Reliabilitäts- und Itemanalyse Reliabilitäts- und Itemanalyse In vielen Wissenschaftsdisziplinen stellt die möglichst exakte Messung von hypothetischen Prozessen oder Merkmalen sogenannter theoretischer Konstrukte ein wesentliches Problem

Mehr

Psychologische Diagnostik

Psychologische Diagnostik Dr. Andreas Eickhorst Pädagogische Psychologie Psychologische Diagnostik Themen 1. Was ist Diagnostik? 2. Was ist psychologische Diagnostik? 3. Arten diagnostischer Verfahren 4. Diagnostik in der Schule

Mehr

Was ist eine Testtheorie?

Was ist eine Testtheorie? Was ist eine Testtheorie? Eine Testtheorie bezeichnet eine Gesamtheit von Methoden zur Behandlung der Fragestellungen, welche sich bei der Testkonstruktion und -auswertung ergeben. Dieser Begriff ist nicht

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben? Eigene MC-Fragen Testgütekriterien (X aus 5) 1. Wenn verschieden Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen, entspricht dies dem Gütekriterium a) Durchführungsobjektivität

Mehr

1 Leistungstests im Personalmanagement

1 Leistungstests im Personalmanagement 1 Leistungstests im Personalmanagement 1.1 Einführung des Begriffs Aus dem beruflichen und privaten Umfeld weiß man, dass sich Menschen in vielen Merkmalen voneinander unterscheiden. Meist erkennt man

Mehr

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität Objektivität und Objektivität: Inwieweit ist das Testergebnis unabhängig von externen Einflüssen Effekte des Versuchsleiters, Auswertung, Situation, Itemauswahl : Inwieweit misst der Test das, was er messen

Mehr

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017 Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Gütekriterien I Heute: -Gütekriterien II Rückblick Gütekriterien der qualitativen Forschung Gütekriterien der quantitativen Forschung:

Mehr

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität Varianzzerlegung Die Varianz der beobachteten Testwerte x v : setzt sich zusammen aus zerlegen wahrer Varianz und Fehlervarianz: σ (x) = σ (τ) + σ (ε) Varianzzerlegung und Definition der Reliabilität (

Mehr

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Welche Gütekriterien sind bei der Bewertung von Lernleistungen Welche Gütekriterien sind bei der Bewertung von Lernleistungen wichtig? Anne Spensberger; Ramona Dutschke; überarbeitet von Susanne Narciss Eine gerechte Bewertung von Lernleistungen setzt voraus, dass

Mehr

Bildungsurlaub-Seminare: Lerninhalte und Programm

Bildungsurlaub-Seminare: Lerninhalte und Programm Bildungsurlaub-Seminare: Lerninhalte und Programm Seminartitel Einführung Testtheorie und Testkonstruktion für Psychologen/innen (BH16116) Termin Mo, den 30.05. bis Fr, den 03.06.2016 Kursgebühr: 179,-

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Sitzung: - Gütekriterien I Heute: -Gütekriterien II Rückblick Gütekriterien der qualitativen Forschung Gütekriterien der quantitativen

Mehr

Einführung in die Test- und Fragebogenkonstruktion

Einführung in die Test- und Fragebogenkonstruktion Markus Bühner 1 Einführung in die Test- und Fragebogenkonstruktion 2., aktualisierte und erweiterte Auflage PEARSON Studium ein Imprint von Pearson Education München Boston San Francisco Harlow, England

Mehr

Tests. Eine Einführung

Tests. Eine Einführung Eine Einführung Dr. Uwe Wiest, Delmenhorst 2005, 2018 Testaufgaben Wozu der ganze Umstand? Sauber konstruierte und normierte Tests erlauben es, über die Leistungsfähigkeit einer Person in einem definierten

Mehr

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten Methoden der Psychologie 14.12.2016 Dr. Z. Shi Wiss. Arbeiten Tree of Knowledge 1. Quantitative vs. Qualitative Forschung 2. Subjektive vs. Objektive Messverfahren 3. Gütekriterien 1. Objektivität 2. Validität

Mehr

4.2 Grundlagen der Testtheorie

4.2 Grundlagen der Testtheorie 4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt

Mehr

Lehrbuch Psychologische Diagnostik

Lehrbuch Psychologische Diagnostik Gerhard Stemmler Jutta Margraf-Stiksrud (Hrsg.) Lehrbuch Psychologische Diagnostik Verlag Hans Huber 5 Inhalt Vorwort 11 Kapitel 1 Verhaltensbeobachtung 13 Gerhard Stemmler und Jutta Margraf-Stiksrud 1.1

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern Tutorium Testtheorie Termin 3 Charlotte Gagern charlotte.gagern@gmx.de Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität 1 Hauptgütekriterien Objektivität Reliabilität Validität 2 Hauptgütekriterien-Reliabilität

Mehr

Radar gesellschaftlicher Zusammenhalt messen was verbindet. Gesellschaftlicher Zusammenhalt in Deutschland Kurze Einführung in die Methode

Radar gesellschaftlicher Zusammenhalt messen was verbindet. Gesellschaftlicher Zusammenhalt in Deutschland Kurze Einführung in die Methode Radar gesellschaftlicher Zusammenhalt messen was verbindet Gesellschaftlicher Zusammenhalt in Deutschland Kurze Einführung in die Methode Radar gesellschaftlicher Zusammenhalt: Kurze Erklärung der Methoden

Mehr

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München Abb. 1.1: Concept-Map zu den Kennzeichen von Diagnostik Abb. 1.2: Concept-Map zu den Arten und Strategien von Diagnostik Abb. 2.3: Concept-Map zur Item-Response-Theorie Abb. 2.4: Concept-Map zur Konstruktionsweise

Mehr

Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Onlinestudie Folie 1 Klassische Testtheorie (KTT) Eigenschaften psychologischer Testverfahren, die auf Basis der Klassischen Testtheorie (KTT) konstruiert wurden: -Gleicher SEE für alle Mitglieder einer

Mehr

Bernd Marcus & Jane Hergert. Berufsleistung und Leistungsbeurteilung

Bernd Marcus & Jane Hergert. Berufsleistung und Leistungsbeurteilung Bernd Marcus & Jane Hergert Berufsleistung und Leistungsbeurteilung Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung

Mehr

Workload: 150 h ECTS Punkte: 5

Workload: 150 h ECTS Punkte: 5 Modulbezeichnung: Modulnummer: DLBWPPDIA Modultyp: Pflicht Psychologische Diagnostik Semester: -- Dauer: Minimaldauer 1 Semester Regulär angeboten im: WS, SS Workload: 150 h ECTS Punkte: 5 Zugangsvoraussetzungen:

Mehr

Wie intelligent ist mein Kind?

Wie intelligent ist mein Kind? Dipl.-Psych. Psychologische Beratung KONTAKT Tobias Uhl Psychologische Tests Tel.: 07763 80 44252 Lauberstraße 27 Mobile psychologische Praxis coaching@silvanigra.de D-79730 Murg www.silvanigra.de Wie

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Testtheorie und Fragebogenkonstruktion

Testtheorie und Fragebogenkonstruktion Helfried Moosbrugger Augustin Kelava (Hrsg.) Testtheorie und Fragebogenkonstruktion Mit 66 Abbildungen und 41 Tabellen 2., aktualisierte und überarbeitete Auflage ~ Springer Kapitelübersicht Einführung

Mehr

3.1 Grundlagen psychologischer Diagnostik

3.1 Grundlagen psychologischer Diagnostik 3.1 Grundlagen psychologischer Diagnostik Gabriele Helga Franke Prof. Dr. habil. Hochschule Magdeburg-Stendal Rehabilitationspsychologie B. Sc. Januar 2011 Gliederung Grob Fein Quellen Exkurse 1 Grobe

Mehr

Einführung in die sonderpädagogische Diagnostik

Einführung in die sonderpädagogische Diagnostik Konrad Bundschuh Einführung in die sonderpädagogische Diagnostik 5., neubearbeitete und erweiterte Auflage Mit 7 Abbildungen und 2 Tabellen Ernst Reinhardt Verlag München Basel 13 Inhaltsverzeichnis Vorwort

Mehr

Einführung zur Kurseinheit Interview

Einführung zur Kurseinheit Interview Interview 3 Einführung zur Kurseinheit Interview Bitte lesen Sie diese Einführung sorgfältig durch! Der Kurs 03420 umfasst zwei Kurseinheiten: die vorliegende Kurseinheit zur Interview-Methode und eine

Mehr

Skript zum Kurz-Referat:

Skript zum Kurz-Referat: Prof. Dr. Klaus-Jürgen Tillmann/ Michael Lenz WS 2001/02 Fakultät für Pädagogik (AG 4) der Universität Bielefeld Seminar: Anlage und : Der pädagogische Streit seit den 50er-Jahren 7. Sitzung: Die Erblichkeit

Mehr

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text! Hausaufgaben Welche wesentlichen Vorteile haben formelle Schulleistungstests? Welche Nachteile haben Schulleistungstests? Überlegen Sie sich 2 gute Multiplechoice-Fragen mit je einer richtigen Antwort

Mehr

Differenzierung und Systematik diagnostischer Testverfahren

Differenzierung und Systematik diagnostischer Testverfahren Differenzierung und Systematik diagnostischer Testverfahren Seminar: Dozent: Referenten: Vertiefung psychodiagnostischer Methoden und Strategien WS 08/09 Dr. Markus Pospeschill Serkan Sertkaya und Kirill

Mehr

Müssen Prüfungen wirklich alles können? (ein Beitrag zur Diskussion von Andreas Stöhr)

Müssen Prüfungen wirklich alles können? (ein Beitrag zur Diskussion von Andreas Stöhr) Müssen Prüfungen wirklich alles können? (ein Beitrag zur Diskussion von Andreas Stöhr) Nach dem BBiG soll mit Prüfungen die berufliche Handlungsfähigkeit festgestellt werden - die Prüflinge müssen nachweisen,

Mehr

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme Empirische Forschung Übung zur Vorlesung Kognitive Modellierung S. 1 Gliederung 1. Was ist empirische Forschung? 2. Empirie Theorie 3. Gütekriterien empirischer Forschung 4. Sammlung von Daten 5. Beschreibung

Mehr

Testtheorie und Testkonstruktion

Testtheorie und Testkonstruktion v *»» Testtheorie und Testkonstruktion von Michael Eid und Katharina Schmidt HOGREFE GÖTTINGEN BERN WIEN PARIS OXFORD PRAG TORONTO BOSTON AMSTERDAM KOPENHAGEN STOCKHOLM FLORENZ HELSINKI Inhaltsverzeichnis

Mehr

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften TEIL 3: MESSEN UND SKALIEREN GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Objektivität Reliabilität Validität Konstruierte Skalen in den Sozialwissenschaften

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

kultur- und sozialwissenschaften

kultur- und sozialwissenschaften Karl-Heinz Renner Diagnostische Verfahren: Interview und Beobachtung Kurseinheit 2: Beobachtung kultur- und sozialwissenschaften Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,

Mehr

Messtherorie Definitionen

Messtherorie Definitionen Messtherorie Definitionen Begriff Definition Beispiel Relationen Empirisches Relativ eine Menge von Objekten und ein oder mehreren beobachtbaren Relationen zwischen dieses Objekten Menge der Objekte =

Mehr

Einführung in die Psychologie

Einführung in die Psychologie Institut für Psychologie, Fakultät Kultur- und Sozialwissenschaften Übersicht Kurse in Modul 1 3400 Einführung in die Psychologie und ihre Geschichte KE 1 / KE 2 3401 Einführung in die Forschungsmethoden

Mehr

Psychologische Diagnostik

Psychologische Diagnostik Ringvorlesung Einführung in psychologische Grundlagen Wintersemester 2016/2017 Psychologische Diagnostik in Vertretung Prof. Dr. Marcus Roth Ringvorlesung - WS 16/17 1 Definition nach Amelang & Schmidt-Atzert

Mehr

Forschungsmethoden VORLESUNG SS 2018

Forschungsmethoden VORLESUNG SS 2018 Forschungsmethoden VORLESUNG SS 2018 SOPHIE LUKES Rückblick Letztes Mal: Gütekriterien Heute: Erhebungstechniken I Rückblick Validität Nebengütekriterien Heute: Erhebungstechniken Wie kommt man zu einer

Mehr

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung Was heißt messen? Ganz allgemein: Eine Eigenschaft eines Objektes wird ermittelt, z.b. die Wahlabsicht eines Bürgers, das Bruttosozialprodukt eines Landes, die Häufigkeit von Konflikten im internationalen

Mehr

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und Tests Systematisierung von Tests Itemarten Skalenarten im Detail Die Likert Skala Skala: Eine Skala ist ein Instrument zur Messung von (theoretischen)

Mehr

Aufgaben und Ziele der Wissenschaften

Aufgaben und Ziele der Wissenschaften Aufgaben und Ziele der Wissenschaften Beschreibung: Der Otto sitzt immer nur still da und sagt nichts. Erklärung:Weil er wegen der Kündigung so bedrückt ist. Vorhersage: Wenn das so weitergeht, zieht er

Mehr

Einführung in die Theorie psychologischer Tests

Einführung in die Theorie psychologischer Tests Gerhard H. Fischer Einführung in die Theorie psychologischer Tests Grundlagen und Anwendungen VERLAG HANS HUBER BERN STUTTGART WIEN Inhaltsverzeichnis Vorwort 9 Die Notation 12 Teil 1: Abriss der klassischen

Mehr

Untersuchungsarten im quantitativen Paradigma

Untersuchungsarten im quantitativen Paradigma Untersuchungsarten im quantitativen Paradigma Erkundungsstudien / Explorationsstudien, z.b.: Erfassung der Geschlechterrollenvorstellungen von Jugendlichen Populationsbeschreibende Untersuchungen, z.b.:

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Rückblick Letztes Mal: Gütekriterien Heute: Erhebungstechniken I Rückblick Validität Nebengütekriterien Heute: Erhebungstechniken Wie kommt man zu

Mehr

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals. Basiert auf RETESTRELIABILITÄT Wird auch genannt Teststabilität Geeignet für Korrelation wiederholter Testdurchführungen Abhängig von beeinflusst Stabilität des Zielmerkmals Persönlichkeitstests Speedtests

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Themen Letztes Mal: Erhebungstechniken II Heute: Erhebungstechniken III Themen Letztes Mal: Selbstberichtsverfahren Beobachtung Heute: Beobachtung

Mehr

Die Bedeutung der Evaluationsfragestellung für das Bewerten

Die Bedeutung der Evaluationsfragestellung für das Bewerten Die Bedeutung der Evaluationsfragestellung für das Bewerten Dr. Verena Friedrich Zentrum für universitäre Weiterbildung Universität Bern verena.friedrich@zuw.unibe.ch Übersicht Die Evaluationsfragestellung

Mehr

Curriculum Masterstudium Psychologie

Curriculum Masterstudium Psychologie Curriculum Masterstudium Psychologie Psychologische Diagnostik und Differentielle Psychologie Arbeitsbereich Psychologische Diagnostik und Arbeitsbereich Differentielle Psychologie 10.06.2015 (Diagnostik

Mehr

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro Vorüberlegungen Wie objektiv ist der Test in seiner Durchführung, Auswertung und Interpretation? Misst das Verfahren

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Grundlagen der Testkonstruktion

Grundlagen der Testkonstruktion Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc. Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige

Mehr

Inhalt. Einführung: Intelligenztests und IQ 5. Das System von Intelligenztests erkennen 19. Typische Bestandteile von Intelligenztests 27

Inhalt. Einführung: Intelligenztests und IQ 5. Das System von Intelligenztests erkennen 19. Typische Bestandteile von Intelligenztests 27 2 Inhalt Einführung: Intelligenztests und IQ 5 Wo überall Intelligenztests eingesetzt werden 6 Intelligenz und was dazugehört 9 Das System von Intelligenztests erkennen 19 Wie ein Intelligenztest entsteht

Mehr

Psychologisches Testen. informationen FÜR eltern UND lehrkräfte

Psychologisches Testen. informationen FÜR eltern UND lehrkräfte Psychologisches Testen informationen FÜR eltern UND lehrkräfte Impressum Herausgeber: Kreis Borken / 2016 Regionale Schulberatungsstelle Burloer Str. 93 46325 Borken Redaktion: Text: Fotos: Michael Sylla

Mehr

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung 3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5

Mehr

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke 4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie,

Mehr

Übersicht Klassische Testtheorie (KTT) Axiomatik der klassischen Testtheorie

Übersicht Klassische Testtheorie (KTT) Axiomatik der klassischen Testtheorie Übersicht 10.05.04 Axiomatik der klassischen Testtheorie (wdh.) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität. Itemkennwerte: Schwierigkeit, Varianz, Trennschärfe Mögliche Themen für

Mehr

Anwendung von quantitativer und qualitativer Diagnostik in der Berufs- und Laufbahnberatung

Anwendung von quantitativer und qualitativer Diagnostik in der Berufs- und Laufbahnberatung + Anwendung von quantitativer und qualitativer Diagnostik in der Berufs- und Laufbahnberatung Prof. Dr. Andreas Hirschi Abteilung Arbeits- und Organisationspsychologie Universität Bern + Geschichte der

Mehr

Grundlagen sportwissenschaftlicher Forschung Test

Grundlagen sportwissenschaftlicher Forschung Test Grundlagen sportwissenschaftlicher Forschung Test Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Was ist Messen? Grundlagen des Messens Zuordnen von Objekten (oder Ereignissen)

Mehr

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische TEIL 3: MESSEN UND SKALIEREN 1 Das Messen eine Umschreibung Feststellung der Merkmalsausprägungen von Untersuchungseinheiten (z.b. Feststellung, wie viel eine Person wiegt oder Feststellung, wie aggressiv

Mehr

1 EINLEITUNG MESSKONZEPTE UND IHRE EIGENSCHAFTEN... 7

1 EINLEITUNG MESSKONZEPTE UND IHRE EIGENSCHAFTEN... 7 Property-Based Measurement Inhaltsverzeichnis 1 EINLEITUNG... 3 2 GRUNDLEGENDE DEFINITIONEN... 4 2.1 SYSTEME UND MODULE... 4 2.2 MODULARE SYSTEME...6 3 MESSKONZEPTE UND IHRE EIGENSCHAFTEN... 7 3.1 GRÖSSE...

Mehr

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = % allgemein Klassifizierung nach Persönlichkeitseigenschaften Messung von Persönlichkeitseigenschaften Zuordnung von Objekten zu Zahlen, so dass die Beziehungen zwischen den Zahlen den Beziehungen zwischen

Mehr

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 4 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Lehrbuch Testtheorie - Testkonstruktion

Lehrbuch Testtheorie - Testkonstruktion Jürgen Rost Lehrbuch Testtheorie - Testkonstruktion Zweite, vollständig überarbeitete und erweiterte Auflage Verlag Hans Huber Bern Göttingen Toronto Seattle Inhaltsverzeichnis Vorwort zur zweiten Auflage

Mehr

Rekodierung invertierter Items

Rekodierung invertierter Items 16.Testkonstruktion Items analysieren (imrahmen der KTT) Pretest Aussortieren / Umschreiben von unverständlichen, uneindeutigen oder inakzeptablen Items empirische Prüfung Kennwerte: Itemschwierigkeit

Mehr

Psychologische Diagnostik I. Katharina Vock

Psychologische Diagnostik I. Katharina Vock Psychologische Diagnostik I Katharina Vock 5-6 Fragen, 90 Minuten Zeit 1 Fallbehandlung (diagnostischer Prozess) Meist 1 Rechenbeispiel Lehrzielbezogene Mindestanforderungen: http://www.univie.ac.at/psychologie/diagnostik/student

Mehr

Das Testbeurteilungssystem des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen (TBS-TK)

Das Testbeurteilungssystem des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen (TBS-TK) Das Testbeurteilungssystem des Testkuratoriums der Föderation Deutscher Psychologenvereinigungen (TBS-TK) Carmen Hagemeister, Lothar Hellfritsch, Lutz Hornke, Martin Kersting, Klaus Kubinger, Fredi Lang,

Mehr

Inhaltsverzeichnis. Vorwort Diagnostische Erhebungsverfahren: Eine Standortbestimmung... 13

Inhaltsverzeichnis. Vorwort Diagnostische Erhebungsverfahren: Eine Standortbestimmung... 13 Inhaltsverzeichnis Vorwort 11 1 Diagnostische Erhebungsverfahren: Eine Standortbestimmung 13 11 Historisches 14 12 Zur Begrifflichkeit Psychologische Diagnostik 15 13 Ziele und Aufgaben der diagnostischen

Mehr

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung. Abhängige Variable Die zu untersuchende Variable, die von den unabhängigen Variablen in ihrer Ausprägung verändert und beeinflusst wird (siehe auch unabhängige Variable). Between-Subjects-Design Wenn die

Mehr

Prävention und Intervention im Bereich der vorschulischen Bildung. WS 08/09 Michael Lichtblau 3. VA

Prävention und Intervention im Bereich der vorschulischen Bildung. WS 08/09 Michael Lichtblau 3. VA Prävention und Intervention im Bereich der vorschulischen Bildung WS 08/09 Michael Lichtblau 3. VA 30.10.2008 Thema Diagnostische Verfahren für den Elementarbereich. Human- und sozialwissenschaftliche

Mehr

Master Management AG Monica Master. ACE Allgemeines Problemlösen (hohe Präzision)

Master Management AG Monica Master. ACE Allgemeines Problemlösen (hohe Präzision) Master Management AG - www.master.ch - 044 919 88 44 Erstellt: 11.02.2016 15:34:47. Zertifizierter Benutzer: Master Administrator Monica Master ACE Allgemeines Problemlösen (hohe Präzision) - 12.02.2014

Mehr

Programmatischer Text

Programmatischer Text Stand: 17.08.2012 Sektion 1 Inhaltverzeichnis Grundsätzliches 4 Anspruchsniveaus pädagogischer Diagnostik im Bereich Schule 4 Funktionen und Ziele pädagogischer Diagnostik 5 Bedeutung von Lernprozessdiagnostik

Mehr

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1 Dr. Barbara Lindemann Fragebogen Kolloquium zur Externen Praxisphase Dr. Barbara Lindemann 1 Überblick 1. Gütekriterien quantitativer Forschungen 2. Fragebogenkonstruktion 3. Statistische Datenanalyse

Mehr

Lernziel 2: Wissen um Zielsetzungen psychologischer Diagnostik und deren Abgrenzung

Lernziel 2: Wissen um Zielsetzungen psychologischer Diagnostik und deren Abgrenzung Lernziel 1: "Psychologische " definieren Psychologische Ein wichtiges psychologisches Handlungsfeld ist die psychologische. Mit Hilfe psychologischer Mess- und Testverfahren werden unterschiedlichste Aspekte

Mehr

Pädagogisch-psychologische Diagnostik und Evaluation

Pädagogisch-psychologische Diagnostik und Evaluation Pädagogisch-psychologische Diagnostik und Evaluation G H R D ab 3 HSe 2stg. Mo 16 18, KG IV Raum 219 Prof. Dr. C. Mischo Sprechstunde: Mittwoch 16:00-17:00, KG IV Raum 213 Folien unter http://home.ph-freiburg.de/mischofr/lehre/diagss06/

Mehr

Grundlagen der Statistik

Grundlagen der Statistik Grundlagen der Statistik Übung 6 2009 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den insendeaufgaben geprüften Lehrzielgruppen Lehrzielgruppe:

Mehr

4.3 Anforderungsbereich und Schwierigkeitsgrad

4.3 Anforderungsbereich und Schwierigkeitsgrad 4.3 Anforderungsbereich und Schwierigkeitsgrad Begriffe wie Anforderungsbereich, Anforderungsniveau, Schwierigkeitsgrad, Kompetenzstufen werden häufig im Zusammenhang mit dem Entwickeln, Stellen bzw. Analysieren

Mehr

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke 4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie,

Mehr