Michaela Köller, Uta Klusmann, Jan Retelsdorf, Jens Möller

Michaela Köller, Uta Klusmann, Jan Retelsdorf, Jens Möller Erwiderung: Self-Assessments sind Eignungsdiagnostik eine Replik auf Mayr et al. und Schaarschmidt Self-assessments are aptitude testing: a replica of Mayr et al. and Schaarschmidt In our article, we reply to the comments by Mayr et al. and Schaarschmidt in this volume. We clarify the understanding of the function of self-assessments by saying that their instruments assess the suitability for the teaching profession. Therefore, we underline the high demands on the psychometric properties of self-assessment instruments. Finally, we discuss aspects of the implementation of our own empirical study and the analysis of our data. Keywords: self-assessments, aptitude testing, teaching profession Im Beitrag Geeignet für den Lehrerberuf? Self-Assessments auf dem Prüfstand (Köller et al., 2012) haben wir Bestandteile des Self-Assessment-Verfahrens Fit für den Lehrerberuf?! (FIT; Herlt & Schaarschmidt, 2007) und des Beratungsprogramms Career Counselling for Teachers (CCT; Nieskens, Mayr & Meyerdierks, 2011) hinsichtlich ihrer psychometrischen Qualität und ihrer Übereinstimmung untersucht. Beide Verfahren intendieren, (potenziellen) Lehramtsstudierenden bzw. Lehrkräften eine Rückmeldung über die Passung ihrer persönlichen Voraussetzungen zu Merkmalen erfolgreicher Lehrkräfte zu liefern (vgl. Herlt & Schaarschmidt, 2007; Nieskens et al., 2011). Die Autoren der Verfahren beziehen zu unserer Publikation in diesem Heft Stellung, auf diese Stellungnahmen gehen wir in diesem Beitrag ein. Zuvor sollen kurz die zentralen Ergebnisse unserer Studie mit N = 250 Lehramtsstudierenden dargestellt werden: 1. Für den FIT und für die Instrumente des CCT konnte die postulierte Faktorenstruktur in konfirmatorischen Faktorenanalysen nicht bestätigt werden. 2. Summenscores, die die Eignung von Personen in den beiden Verfahren beschreiben, korrelieren mit r =.37 nur moderat. 3. Es fanden sich keine statistisch bedeutsamen Zusammenhänge der FIT- und CCT-Summenscores mit in der Eignungsdiagnostik häufig verwendeten Prädiktoren für den Studien- bzw. Berufserfolg wie den Abiturdurchschnittsnoten und Intelligenztestergebnissen. Die Kommentare von Mayr et al. und Schaarschmidt beinhalten drei Hauptkritikpunkte an unserer Arbeit. Diese beziehen sich auf vermeintlich falsche Annahmen zur Funktion der Selbsterkundungsverfahren, auf zu hohe Anforderungen an die psychometrische Güte der Verfahren und auf Aspekte der Durchführung und Datenauswertung unserer Studie. Im Folgenden beziehen wir zu diesen Kritikpunkten Stellung. 84 Beltz Juventa Unterrichtswissenschaft, 41. Jg. 2013, H. 1

1 Zur Funktion der Selbsterkundungsverfahren Laut Mayr et al. und Schaarschmidt basiert unsere Arbeit auf einer problematischen Sicht der Funktion der Verfahren, die den Anliegen und Konzepten von CCT und FIT(-L) nicht gerecht würde. Wir würden diese Verfahren als zu Selektionszwecken gedachte Eignungstests verstehen und beurteilen, während die Autoren davon ausgingen, dass die Verfahrensbearbeitung lediglich die Reflexion der persönlichen Voraussetzungen für den Lehrerberuf unterstützen soll. Die Verfahren dienten demnach nicht der Feststellung der Eignung für den Lehrerberuf, wie Mayr et al. und Schaarschmidt betonen. Zunächst erscheint uns dies widersprüchlich angesichts mancher Ausführung der Verfahrensautoren. Zwei Beispiele seien zitiert: Die Bewerber um die Zulassung zum Lehramtsstudium [ ] sind verpflichtet, das Online-Beratungsverfahren Career Counselling for Teachers (CCT) zu nutzen, um ihre Eignung für den Lehrerberuf zu reflektieren. (Nieskens, Mayr & Meyerdierks, 2011, S. 8) und Interessenten für ein Lehramtsstudium sollte es ermöglicht werden, sich selbst auf ihre Eignung hin zu beurteilen (Herlt & Schaarschmidt, 2007, S. 159). Die Verfahren sind also explizit als Angebote zur Unterstützung von Laufbahnentscheidungen der Anwender/innen zu betrachten. Insbesondere für Schüler/innen, die eventuell ein Lehramtsstudium aufnehmen wollen, können sie insgesamt drei Funktionen erfüllen: 1. umfassende Informationen für eine selbständige Entscheidung für oder gegen die Aufnahme eines Lehramtsstudiums liefern (Informationsfunktion); 2. Hilfestellung bei der Entscheidung für bzw. gegen die Aufnahme eines Lehramtsstudiums leisten (Entscheidungsfunktion) und 3. die Aufnahme eines Lehramtsstudiums legitimieren (Legitimationsfunktion). In letzterem Fall bearbeiten beispielsweise angehende Studierende die Verfahren, um sich für ein Lehramtsstudium einschreiben zu können (was etwa an der Universität Lüneburg Voraussetzung für die Immatrikulation ist). Hier konzentrieren wir uns auf die Entscheidungsfunktion der Verfahren, da diese für unsere Untersuchung relevant ist. Zur Unterstützung einer beruflichen bzw. ausbildungsbezogenen Entscheidung werden Daten zu berufswahlrelevanten Merkmalen wie Fähigkeiten, Interessen, Werten etc. erhoben und interpretiert (Bergmann & Eder, 2006). Genau diese Erhebung von entscheidungsrelevanten Merkmalen geschieht im CCT und beim FIT. Ziel ist es, Aussagen zur Passung des individuellen Merkmalsprofils der Anwender/innen mit dem Merkmalsprofil zu treffen, welches dem zufriedener und erfolgreicher Lehrkräfte entspricht (vgl. Mayr, 2010; Herlt & Schaarschmidt, 2007). Vergegenwärtigt man sich die Definition von Berufseignungsdiagnostik, wie sie von Schuler (2006) vorgelegt wird, dann trifft diese auf die Rationale von CCT und Fit zu: Berufseignungsdiagnostik stellt die Fähigkeit und Motivation einer Person fest, bestimmte berufliche oder ausbildungsbezogene Anforderungen zu bewältigen bzw. prüft, ob ein Ausbildungsweg bzw. Beruf den Bedürfnissen, Zielen und Lebensorientierungen einer Person entspricht (Schuler, 2006, S. 349). Die Rückmeldung, die eine Person nach der Bearbeitung der Instrumente des CCT ( diese Ausprägung ist günstig bzw. weniger günstig ) bzw. nach der Bearbeitung des FIT erhält, ist demnach ein diagnostisches Urteil über Eignung oder Nicht-Eignung für den Lehrerberuf. Verfahren, die bei berufsbezogenen Eignungsbeurteilungen zum Einsatz kommen, d. h. bei Berufswahl, Bewerberauswahl und Berufslaufbahnplanung, sollten die Vorgaben der DIN 33430 berücksichtigen, die festlegt, dass für die verwendeten Instrumente größtmögliche Objektivität, Zuverlässigkeit und Gültigkeit angestrebt werden sollten (vgl. Klusmann, Köl- Beltz Juventa Unterrichtswissenschaft, 41. Jg. 2013, H. 1 85

ler & Kunter, 2011). Neben diesen Gütekriterien werden in der DIN auch Vorgaben hinsichtlich der Definition von Entscheidungsregeln gemacht. Mayr et al. sowie Herlt und Schaarschmidt legen für die Merkmale jeweils Cut-off-Werte fest (Brandstätter & Mayr, 1994; Herlt & Schaarschmidt, 2007; Mayr, 2010), ober- bzw. unterhalb derer Ratsuchende von günstigen bzw. ungünstigen Eingangsvoraussetzungen für die Ausübung des Lehrerberufs ausgehen sollten. Dieses Vorgehen entspricht damit eignungsdiagnostischen Standards (vgl. Kanning, 2004). Demzufolge halten wir die Aussage von Mayr et al. und Schaarschmidt, es handele sich bei ihren Verfahren nicht um Instrumente zur Prüfung der Eignung für den Lehrerberuf für unzutreffend. Sie sind in Hinblick auf die Erfassung von Persönlichkeitsmerkmalen und beruflichen Interessen eignungsdiagnostische Verfahren und müssen den entsprechenden Anforderungen genügen. 2 Zu den psychometrischen Kriterien Mayr et al. konstatieren, dass sich in den von ihnen durchgeführten explorativen Faktorenanalysen die Faktorenstruktur der Lehrer-Persönlichkeits-Adjektivskalen (LPA) zwar sehr gut, die der Lehrer-Interessen-Skalen (LIS) aber weniger gut replizieren ließ, so dass das von uns in konfirmatorischen Faktorenanalysen ermittelte Ergebnis wir konnten die neun Skalen in der publizierten Form nicht replizieren nachvollziehbar sei. Es spräche jedenfalls nichts dagegen, für den Einsatz in wissenschaftlichen Studien weniger passende Items auszuscheiden oder eine andere Zusammenstellung von Skalen vorzunehmen. Für den Zweck der Laufbahnberatung habe man sich aber aus pragmatischen Gründen entschieden, die Skalen zu belassen. Ähnlich argumentiert Schaarschmidt, man habe zwar einerseits die Skalen des FIT vier inhaltlichen Merkmalsbereichen zugeordnet, diese seien aber nicht als Faktoren zweiter Ordnung zu interpretieren. Im Fokus habe vielmehr eine inhaltlich nachvollziehbare Gliederung der Anforderungsmerkmale gestanden. Unseres Erachtens ist aber die Überprüfung der Faktorstruktur ein wichtiger Schritt der Validitätsprüfung, vor allem, wenn es, wie im vorliegenden Fall, um individualdiagnostische Fragestellungen geht. Die Validität von Testwerten gilt als wichtigstes Gütekriterium (Wilhelm & Kunina, 2009, S. 318). Aus unserer Sicht ist es unabdingbar, dass ein Verfahren, mit dessen Hilfe individualdiagnostische Aussagen über eine Person für eine bestimmte Laufbahn gemacht werden, die Validität der Skalenwerte belegen kann. Laut APA-Standards (1999) gehört dazu unbedingt die Analyse der internen Struktur eines Fragebogens bzw. Tests, wobei explorative, idealerweise jedoch konfirmatorische Faktorenanalysen herangezogen werden sollen. Da in allen bis Anfang 2012 zur Verfügung stehenden Veröffentlichungen zum CCT jeweils drei Persönlichkeits- und sechs Interessenskalen dokumentiert wurden, schien es geboten, genau diese Faktorenstruktur zu prüfen. Ähnliches gilt für die 21 publizierten Skalen des FIT. Hier entschieden wir uns aufgrund der größeren Relevanz der übergeordneten Faktoren dazu, die Faktorenstruktur zweiter Ordnung zu prüfen. Zusammenfassend halten wir es daher für zwingend notwendig, die beiden Verfahren bzgl. ihrer faktoriellen Validität zu überprüfen, denn man sollte wissen wollen, was ein Verfahren misst. Unsere Ergebnisse zeigen, dass die postulierte Struktur nur eingeschränkt als gegeben gelten kann. 86 Beltz Juventa Unterrichtswissenschaft, 41. Jg. 2013, H. 1

3 Art und Weise der Durchführung unserer Studie und der Auswertung der Daten Mayr et al. kritisieren die Anwendung der Interessen- und Persönlichkeitsfragebogen als Paper- Pencil-Version ohne die Informationstexte, die der CCT-Internetauftritt zusätzlich enthalte. Zunächst ist darauf hinzuweisen, dass auch die Arbeitsgruppe von Mayr (Nieskens et al., 2011) für Validierungsstudien wiederholt zu den in CCT integrierten Instrumenten Paper- Pencil-Versionen verwendet hat, ohne auf mögliche Probleme hinzuweisen. Wir gehen grundsätzlich davon aus, dass die Bearbeitung eines Persönlichkeits- bzw. Interessenfragebogens in einer standardisierten Testsituation keinen verzerrenden Einfluss auf das Antwortverhalten hat, verglichen mit den schwer kontrollierbaren Bedingungen einer Bearbeitung im Internet. Ebenfalls erscheint es fraglich, dass sich die psychometrische Qualität eines Fragebogenverfahrens durch zusätzliche Informationen erhöht. Sollte sich empirisch zeigen, dass die CCT-Instrumente nur im Kontext ihrer Online-Präsentation psychometrisch reliabel und valide sein sollten, dann müssten die Autoren in der Internet-Präsentation und ihren Publikationen darauf hinweisen. Gerade bei einer Onlinebearbeitung ist nicht gewährleistet, dass die bearbeitenden Personen alle Zusatzinformationen tatsächlich beachten. Wie Mayr et al. richtig anmerken, berücksichtigen wir in unseren Berechnungen keine unterschiedlichen Gewichtungen der Einzelskalen bzw. Items für das Gesamturteil über die Eignung. Dies liegt unter anderem daran, dass eine spezifische Gewichtung der Einzelskalen aus den uns bekannten Veröffentlichungen der Autor/innen nicht hervorgeht. Zusätzlich stellt eine Gewichtung neue Herausforderungen an die theoretische und empirische Begründung dafür, dass bestimmte Merkmalsbereiche stärker in das Urteil über die Eignung einfließen als andere. Entsprechende Arbeiten, die sich mit der validen Gewichtung der einzelnen Facetten beschäftigen, sind uns nicht bekannt. Mayr et al. kritisieren in ihrem Beitrag, dass unsere Ergebnisse auf einer veralteten Berechnung der Cut-offs basieren, so hätten wir Beim LPA [wurden] fälschlicherweise aus der alten Papier-Bleistift-Version (Brandstätter & Mayr, 1994) stammende Sozialnormen herangezogen (anstelle der in CCT verwendeten kriterialen Normierung), und beim LIS selbst festgelegte Cut-Offs, die deutlich von den tatsächlich in CCT implementierten abweichen (in CCT gilt bezüglich des Interesses eine neutrale Position als ungünstig, Köller u.a. klassifizieren sie als günstig). (Mayr et al. in ihrem Kommentar). In Re-Analysen unserer Daten haben wir daher den Proband/innen dann ein geeignet in einem Interessenmerkmal zugewiesen, wenn der Skalenwert auf ein hohes bzw. sehr hohes Interesse schließen ließ. Hinsichtlich der Persönlichkeitsfaktoren verwendeten wir ebenfalls die neuen kriterialen Normen für das Urteil geeignet. Auf dieser Basis ergeben sich folgende Veränderungen der Zahlenwerte. Danach sind 45% (anstatt 54%) der untersuchten Lehramtsstudierenden hinsichtlich aller untersuchten Merkmale geeignet. In einem Merkmal nicht geeignet sind 27 % (alt: 38%), in zwei Merkmalen 16% (alt: 8 %) und in drei Merkmalen ungeeignet 10 % (alt: 0 %). Auswirkungen auf die moderate Korrelation zwischen den Urteilen der beiden Verfahren hatte diese Neuberechnung nicht. Mayr et al. und Schaarschmidt kritisieren die Verwendung von Summenwerten der dichotomen Variable geeignet-ungeeignet über die neun bzw. 21 Skalen zur Operationalisierung der Eignung. In unserer Arbeit orientierten wir uns an den Ausführungen Herlt und Schaarschmidts (2007, S. 172ff.), wonach für Aussagen über die persönliche Eignung in der Beltz Juventa Unterrichtswissenschaft, 41. Jg. 2013, H. 1 87

Regel die Merkmale mit unterdurchschnittlicher Ausprägung besonders interessant seien und bei drei unterdurchschnittlichen Werten in einem Merkmalsbereich der Anwender ernsthaft über seine Berufsmotivation nachdenken solle. Dies nahmen wir als Legitimation für die Verwendung dieser Scores (je höher der Wert, desto ungeeigneter). Zugegebenermaßen setzt dies bei den Anwender/innen die Verwendung sehr einfacher Heuristiken zur Entscheidungsfindung für bzw. gegen die Aufnahme eines Studiums voraus. Dies ist möglicherweise bei einzelnen Merkmalen nicht adäquat. Leider liegen jedoch noch keine empirischen Daten darüber vor, welche Heuristiken Anwender/innen im Fall von FIT verwenden. Beim CCT wird eine Gewichtung der Ergebnisse durch das Programm vorgenommen und den Anwender/innen in Form interpretierender Texte zur Verfügung gestellt. Da die dahinter stehenden Heuristiken bisher nicht publiziert wurden, konnten wir sie in der Studie nicht berücksichtigen. Im Übrigen ist auch hier unklar, wie die Anwender/innen die Informationen verarbeiten. Erst recht weiß man nichts darüber, wie Anwender/innen mit sich widersprechenden Eignungsdiagnosen zweier Verfahren umgehen, die Ähnliches anstreben. 4 Resümee Wir finden es wichtig und erstrebenswert, angehende Studierende bei ihrer Studien- und Berufswahl zu unterstützen, um so die individuelle Zufriedenheit sowie evtl. die Kompetenzentwicklung zu unterstützen. Insofern halten wir auch Beratungsangebote im Allgemeinen für sehr zielführend. Problematisch ist aus unserer Sicht allerdings, wenn die im Kontext von Beratung verwendeten Interessen- und Persönlichkeitstests nicht hinlänglich auf ihre psychometrische Qualität untersucht und optimiert werden. Selbst wenn, wie Mayr et al. es betonen, Angebote wie CCT nur Mosaiksteine im individuellen Prozess der Berufsfindung darstellen, sollten ihre diagnostischen Urteile aufgrund ihrer Auswirkungen auf Lebensentscheidungen auf solidem wissenschaftlichem Fundament stehen. Nicht vergessen werden sollten nämlich die Fehler erster (falsch-negativ) und zweiter Art (falsch-positiv), die bei der Klassifikation in günstige bzw. ungünstige Eingangsvoraussetzungen für den Lehrerberuf begangen werden können. Beide Fehler können zu gravierenden Konsequenzen für die weitere berufliche und persönliche Entwicklung der Anwender/innen und gegebenenfalls ihrer späteren Schülerinnen und Schüler führen. Literatur American Educational Research Association, American Psychological Association & National Council on Measurement in Education (1999). Standards for educational and psychological testing. Washington, D. C.: American Educational Research Association. Bergmann, C. & Eder, F. (2006). Berufs- und Laufbahnberatung. In D. Rost (Hrsg.). Handwörterbuch Pädagogische Psychologie (S. 49-55). Weinheim: Beltz. Brandstätter, H. & Mayr, J. (1994). Die Lehrer-Persönlichkeits-Adjektivskalen (LPA). Ein Instrument zur Selbsteinschätzung berufsrelevanter Persönlichkeitsmerkmale. In J. Mayr (Hrsg.), Lehrer/in werden. (S. 231-247). Innsbruck: Österreichischer Studienverlag. Eckardt, H.-H. & Schuler, H. (1995). Berufseignungsdiagnostik. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (S. 533 551). Weinheim: Beltz PVU. Herlt, S. & Schaarschmidt, U. (2007). Fit für den Lehrerberuf?! Ein Selbsterkundungsverfahren für Interessenten am Lehramtsstudium. In U. Schaarschmidt & U. Kieschke (Hrsg.), Gerüstet für den Schulalltag (S. 157 187). Weinheim: Beltz. 88 Beltz Juventa Unterrichtswissenschaft, 41. Jg. 2013, H. 1

Kanning, U. P. (2004). Standards der Personaldiagnostik. Göttingen: Hogrefe. Klusmann, U., Köller, M. & Kunter, M. (2011). Anmerkungen zur Validität eignungsdiagnostischer Verfahren bei angehenden Lehrkräften. Zeitschrift für Pädagogik, 57, 711-721.Mayr, J. (2010). Selektieren und/oder qualifizieren? Empirische Befunde zu guten Lehrpersonen. In J. Abel & G. Faust (Hrsg.), Wirkt Lehrerbildung? Antworten aus der empirischen Forschung (S. 73-89). Münster: Waxmann. Mayr, J., Gutzwiller-Helfenfinger, E. & Nieskens, B. (2009). Online Counselling for Teacher Training Applicants: Voluntary versus Bound. Poster presented at the European Conference on Educational Research. Wien, 29. September 2009. Nieskens, B., Mayr, J. & Meyerdierks, I. (2011). CCT Career Counselling for Teachers. Evaluierung eines Online-Beratungsangebots für Studieninteressierte. In J. Mayr & B. Nieskens (Hrsg.), Ein Lehramtsstudium beginnen: Laufbahnberatung, Bewerberauswahl und erste Schritte im Qualifizierungsprozess (Lehrerbildung auf dem Prüfstand, 4 (1), S. 8-32). Landau: Empirische Pädagogik. Schaarschmidt, U. (2009). Lehrergesundheit: Problemlagen Ansatzpunkte für Veränderungen. Vortrag auf der Fachtagung der Deutschen Gesellschaft für Bildungsverwaltung AG Lehrerbildung am 23. Oktober in Oeversee. Schuler, H. (2006). Lehrbuch der Personalpsychologie. Göttingen: Hogrefe. Anschriften der Autor/innen: Dr. Michaela Köller Institut für Psychologie Olshausenstraße 75, 24118 Kiel E-Mail: mkoeller@psychologie.uni-kiel.de Prof. Dr. Uta Klusmann Institut für Psychologie Olshausenstraße 75, 24118 Kiel E-Mail: uta.klusmann@psychologie.uni-kiel.de Prof. Dr. Jan Retelsdorf Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik Olshausenstraße 62, 24118 Kiel E-Mail: jretelsdorf@ipn.uni-kiel.de Prof. Dr. Jens Möller Institut für Psychologie Olshausenstraße 75, 24118 Kiel E-Mail: jmoeller@psychologie.uni-kiel.de Beltz Juventa Unterrichtswissenschaft, 41. Jg. 2013, H. 1 89