Diagnostische Kompetenzen angehender Biologie-Lehrkräfte im Bereich der naturwissenschaftlichen Erkenntnisgewinnung

Transkript

1 Diagnostische Kompetenzen angehender Biologie-Lehrkräfte im Bereich der naturwissenschaftlichen Erkenntnisgewinnung Dissertation zur Erlangung des akademischen Grades des Doktors der Naturwissenschaften (Dr. rer. nat.) Fachbereich 10 Mathematik und Naturwissenschaften Abteilung Didaktik der Biologie Universität Kassel vorgelegt von Gabi Dübbelde im April 2013

2 Wie das Leben selbst, ist auch das Wissen einem ständigen Wandel unterworfen. Alles hat seine Zeit. Und alles hinterlässt auf seine Weise Spuren. Unbekannte Autorin Betreuer: Prof. Dr. Jürgen Mayer Prüfungskommission: 1. Gutachter: Prof. Dr. Jürgen Mayer 2. Gutachterin: Prof. Dr. Claudia von Aufschnaiter 3. Gutachterin: Prof. Dr. Rita Wodzinski 4. Gutachter: Prof. Dr. Frank Lipowsky Tag der Disputation: 15. Juli 2013

3 1 Einleitung Forschungshintergrund Professionelle Kompetenz von Lehrkräften Diagnostische Kompetenz als Bestandteil der professionellen Kompetenz Relevanz von diagnostischer Kompetenz Verortung diagnostischer Kompetenz in Modellen zur professionellen Kompetenz von Lehrkräften Ansätze zur Konzeptualisierung und Operationalisierung diagnostischer Kompetenz Konzeptualisierung und Modellierung von diagnostischer Kompetenz im Rahmen der Arbeit Diagnostische Kompetenz im Bereich Erkenntnisgewinnung Der Kompetenzbereich der naturwissenschaftlichen Erkenntnisgewinnung Naturwissenschaftliche Erkenntnisgewinnung als Gegenstand von Diagnostik Befundlagen zur diagnostischen Kompetenz Zielsetzungen und Forschungsfragen Forschungsdesiderate und sich daraus ergebende zentrale Zielsetzungen Forschungsfragen zur Arbeit Material und Methoden Untersuchte Probandengruppe Untersuchungsdesign und grundlegende Methodik Untersuchungsdesign und Untersuchungsschwerpunkte zur Arbeit Erhebung der Personen- und Kontextvariablen Erhebung der Selbsteinschätzungen der Studierenden Instrumente und Methodik zum Erheben der Bedingungsfaktoren Erhebung des Wissenschaftsverständnisses Erhebung des fachmethodischen Wissens Instrumente und Methodik zum Erheben der statusdiagnostischen Kompetenzen für das Beurteilen von Schülerleistungsniveaus Grundlage für die Entwicklung des Kompetenztests für Statusdiagnostik Struktur des Kompetenztests für Statusdiagnostik Einsatz des Kompetenztests für Statusdiagnostik Methodik zur Auswertung der Studierenden-Einschätzungen zu den Aufgabenschwierigkeiten Methodik zur Auswertung der Niveaubeurteilungen Methodik zum Einsatz und zur Auswertung der Videoanalysen Instrumente und Methodik zum Erheben der statusund prozessdiagnostischen Kompetenzen für das Beurteilen eines Schüler-Experimentierprozesses I

4 4.5.1 Grundlagen für die Entwicklung des kombinierten Kompetenztests Struktur des kombinierten Instrumentes Auswahl und Begründung der angelegten Beurteilungskriterien Einsatz des kombinierten Instrumentes Methodik zur Auswertung des kombinierten Instrumentes Bezug der Testinstrumente zum Diagnosekompetenzmodell Studienmodule in der biologiedidaktischen Ausbildung Verortung der Arbeit innerhalb des Projekts Professionsorientierte Lehrerbildung EMPIRISCHER TEIL Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Zielsetzungen und Fragestellungen Untersuchungsdesign Darstellung und Diskussion der Ergebnisse Charakterisierung der beiden Probandengruppen Das Wissenschaftsverständnis der Studierenden Das fachmethodische Wissen der Studierenden Zusammenhänge von Bedingungsfaktoren und Personen- und Kontextvariablen Selbsteinschätzungen der Studierenden zu ihrem Professionswissen Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Zielsetzungen und Fragestellungen zur zweiten Erhebung Darstellung und Diskussion der Ergebnisse Fähigkeit zum Einschätzen der Aufgabenschwierigkeiten Fähigkeit zum Beurteilen der Schülerleistungsniveaus Berechnungen zur statusdiagnostischen Kompetenz Leistungsverteilung der Studierenden im Statusdiagnostik-Test Statusdiagnostische Kompetenz im Bereich Scientific Reasoning Statusdiagnostische Kompetenzen innerhalb der Teilbereiche von Scientific Reasoning Vergleich der Ergebnisse beider Auswerteverfahren Selbsteinschätzungen der Studierenden Zusammenhänge zwischen statusdiagnostischer Kompetenz und den vermuteten Bedingungsfaktoren Zusammenhänge zwischen statusdiagnostischer Kompetenz und den Personen- und Kontextvariablen II

5 Videoanalysen: Prozessbezogene Informationen zur statusdiagnostischen Kompetenz Gütekriterien und Kennwerte zum Instrument Überlegungen zur Validität Reliabilitäten Item-Fit-Werte Itemschwierigkeiten und Trennschärfen der Items Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Zielsetzungen und Fragestellungen zur dritten Erhebung Darstellung und Diskussion der Ergebnisse Statusdiagnostische Beurteilungen zum Schülerarbeitsheft Leistungsverteilung im Statusdiagnostik-Test Prozessdiagnostische Beurteilungen zum Experimentierprozess Leistungsverteilung im Prozessdiagnostik-Test Untersuchungen zu verschiedenen Zusammenhängen Zusammenhänge zwischen den ermittelten statusdiagnostischen und prozessdiagnostischen Kompetenzen Zusammenhänge zwischen den an Erhebung 2 und an Erhebung 3 ermittelten statusdiagnostischen Kompetenzen Zusammenhänge zwischen den statusund prozessdiagnostischen Fähigkeiten und den Bedingungsfaktoren Zusammenhänge zwischen den statusund prozessdiagnostischen Fähigkeiten und den Personen- und Kontextvariablen Selbsteinschätzungen der Studierenden Gütekriterien und Kennwerte zum kombinierten Instrument Validität des kombinierten Instrumentes Objektivität des kombinierten Instrumentes Reliabilität des kombinierten Instrumentes Analyse der Itemschwierigkeiten Zusammenfassende Diskussion und Ausblick Zentrale Befunde zur Arbeit und Beantwortung der Forschungsfragen Abschlussdiskussion zu Forschungsfrage Abschlussdiskussion zu Forschungsfrage Abschlussdiskussion zu Forschungsfrage Abschlussdiskussion zu Forschungsfrage Abschlussdiskussion zu Forschungsfrage Fazit zur Arbeit und Ausblick III

6 8.2.1 Bedeutung für das Diagnosekompetenzmodell und Fazit zur Arbeit Implikationen und Anregungen für die Lehramtsausbildung Literatur Anhang 1: Strukturmodell fachbezogener Diagnosekompetenz... 1 Anhang 2: Instrument zum Wissenschaftsverständnis... 4 Anhang 3: Aufgaben zum fachmethodischen Wissen (Kohorte 1)... 7 Anhang 4: Aufgaben zum fachmethodischen Wissen (Kohorte 2) Anhang 5: Beispielseiten zum Kompetenztest für Statusdiagnostik Anhang 6: Referenzlösung zum Kompetenztest für Statusdiagnostik Anhang 7: Schülerarbeitsheft zum kombinierten Instrument Anhang 8: Beurteilungsbogen Statusdiagnostik (kombiniertes Instrument) Anhang 9: Referenzlösung Statusdiagnostik (kombiniertes Instrument) Anhang 10: Vignette zum Schülerexperimentierprozess Anhang 11: Beurteilungsbogen Prozessdiagnostik (kombiniertes Instrument) Anhang 12: Referenzlösung Prozessdiagnostik (kombiniertes Instrument) Anhang 13: Item Fit Werte IV

7 1 Einleitung Ausgehend vom PISA-Schock, der darauf beruhte, dass deutsche Schülerinnen und Schüler 1 bei PISA 2000 im internationalen Vergleich nur unterdurchschnittlich abgeschnitten hatten, rückte das Thema Lehrprofessionalität und Unterrichtsqualität in den Fokus der Fachöffentlichkeit. Entscheidende Fragen in diesem Zusammenhang sind: Was macht guten Unterricht aus? Welche Konzepte und Methoden führen im Unterricht zu größeren Lernfortschritten? Und welche Lehrkompetenzen muss eine Lehrkraft besitzen, um ihre Schüler bestmöglichst beim Lernen zu unterstützen und über die reine Stoffvermittlung hinaus auch das problemlöseorientierte Anwenden des erworbenen Wissens zu fördern? Eingebettet in diese Überlegungen wurden die Kompetenzen von Lehrkräften und ihr unterrichtliches Agieren einer kritischen Bestandsaufnahme unterzogen. Das Beurteilen von Schülerleistungen, das Erfassen ihrer unterschiedlichen Lernvoraussetzungen und die Beobachtung und Beurteilung von Schüler-Lernprozessen stellen in diesem Zusammenhang wichtige Handlungsroutinen im Alltag von Lehrkräften dar. Dementsprechend verwundert es nicht, dass die diagnostische Kompetenz 2 als ein wichtiger Bestandteil des Wissens und Könnens von Lehrkräften erachtet wird. Dies schlägt sich auch in zahlreichen Fachbüchern, Positionsartikeln und Studien nieder, die sich mit Lehrkompetenzen beschäftigen und der Frage, was einen guten Lehrer 3 ausmacht (u.a. Baumert & Kunter, 2006; Frey & Jung, 2011; Helmke, 2009; Krauss, 2011; Kretschmann, 2003, 2006; Lipowsky, 2006; Oser, 2001; Schrader, 2008, 2011; Terhard, 2000; van Buer & Zlatkin-Troitschanskaia, 2009; Weinert, 2000). Unterstrichen wird die Bedeutung der diagnostischen Kompetenz weiterhin durch die Tatsache, dass sie explizit Eingang gefunden hat in die von der Kultusministerkonferenz herausgegebenen Standards für die Lehrerbildung (KMK, 2004), in die ebenfalls von der KMK herausgegebenen ländergemeinsamen inhaltlichen Anforderungen für die Fachwissenschaften und Fachdidaktiken in der Lehrerbildung (KMK, 2008) und in die Standards der Gesellschaft für Fachdidaktik (GFD, 2005). Auch in der praktischen Ausbildung angehender Lehrkräfte wird der Bedeutung der diagnostischen Kompetenz Rechnung getragen, indem in vielen deutschen Bundesländern Ausbildungselemente zum Thema Diagnostizieren und Fördern in die zweite Phase der Lehramtsausbildung integriert wurden, so z. B. das Modul Diagnostizieren, Fördern, Beurteilen an den hessischen Studienseminaren oder das Modul Diagnose, Beratung und Beurteilung an den Studienseminaren in Nordrhein-Westfalen. Der großen Bedeutung gegenüber steht die Tatsache, dass sich noch bis vor einigen Jahren nur wenige Arbeiten und Projekte explizit mit der Diagnosekompetenz von angehenden und praktizierenden Lehrkräften beschäftigt haben (van Buer & Zlatkin-Troitschanskaia, 2009, S. 386). Auch findet sich in 1 Im Folgenden wird statt Schülerinnen und Schüler der Begriff Schüler verwendet. Dieser soll aber immer auch die weibliche Form mit einbeziehen. 2 Im Folgenden wird der Begriff diagnostische Kompetenz synonym verwendet mit dem Begriff Diagnosekompetenz. 3 Im Rahmen dieser Arbeit soll der Begriff Lehrer immer auch die weibliche Form miteinschließen.

8 1 Einleitung der gegenwärtigen Literatur zur Lehrerbildung und auch in der Schulpraxis gerade im Zusammenhang mit der diagnostischen Kompetenz eine Vielzahl von Definitionen und Begrifflichkeiten, die in ihrer Bedeutung oftmals uneinheitlich benutzt werden (Kliemann, 2008, S. 13). Vor dem oben beschriebenen Hintergrund sind die in der letzten Zeit zahlreich ins Leben gerufenen Forschungsbemühungen und Projekte zu sehen, die die diagnostische Kompetenz von angehenden und von fertig ausgebildeten Lehrkräften in das Blickfeld ihres Interesses gerückt haben. Auch die vorliegende Arbeit die ein Teilprojekt darstellt innerhalb eines größeren interdisziplinären Projektes zur Diagnosekompetenz von Lehramtsstudierenden (siehe Kapitel 4.8) möchte einen Forschungsbeitrag leisten für die Debatte um die diagnostische Kompetenz. Dabei liegt der Schwerpunkt dieser Arbeit auf dem Untersuchen der diagnostischen Kompetenz von angehenden Biologielehrkräften im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Ein wesentlicher Ansatz in diesem Zusammenhang war die Unterscheidung von Statusdiagnostik und Prozessdiagnostik. Der Forschungshintergrund für die im Rahmen dieser Arbeit vorgenommenen Untersuchungen zur diagnostischen Kompetenz der angehenden Lehrkräfte wird in Kapitel 2 dieser Dissertation dargelegt. Dies beinhaltet eine Klärung der verschiedenen Begrifflichkeiten, die in Verbindung mit der diagnostischen Kompetenz stehen und die Darstellung von verschiedenen in der Forschungsliteratur zu findenden Konzeptualisierungsansätzen. Im Zuge dessen wird ein im Gesamtprojekt erarbeiteter Vorschlag für eine Modellierung der (fachbezogenen) Diagnosekompetenz von Lehramtsstudierenden präsentiert. Die zentralen Zielsetzungen und Forschungsfragen, welche die Grundlage bilden für die einzelnen Untersuchungen dieser Arbeit und ihr Bezug zur aktuellen Forschung sind in Kapitel 3 dargelegt. Kapitel 4 gibt einen Überblick über das alle Einzeluntersuchungen verbindende Untersuchungsdesign, liefert grundsätzliche Informationen zu den Probandengruppen, der verwendeten Methodik und stellt die für die Untersuchungen eingesetzten Instrumente vor. Da zum Zeitpunkt des Beginns dieser Arbeit für das Untersuchen der diagnostischen Kompetenz der angehenden Biologielehrkräfte im Bereich der naturwissenschaftlichen Erkenntnisgewinnung keine geeigneten Instrumente vorlagen, mussten diese im Rahmen der Arbeit neu entwickelt werden. Kapitel 4 geht ausführlich auf die Entwicklung der Instrumente ein und stellt ihre Grundlagen, ihre Struktur, ihren Bezug zum Diagnosekompetenzmodell und die mit ihnen verbundene spezifische Methodik vor. In dem darauf folgenden empirischen Teil werden in Kapitel 5, 6 und 7 die auf drei Erhebungszeitpunkte verteilten Einzeluntersuchungen mit ihren jeweiligen Untersuchungsschwerpunkten und den in den Untersuchungen gewonnenen Ergebnissen und Befunden vorgestellt. Jeweils im Anschluss an die Präsentation der Ergebnisse erfolgt eine Diskussion dieser im Hinblick auf die zugrundeliegenden Forschungsfragen. Nach Möglichkeit werden dabei Befunde anderer Forschungsgruppen einbezogen. Für die neu entwickelten Instrumente werden bei der Ergebnispräsentation auch die Daten zu den Gütekriterienprüfungen vorgestellt. In Kapitel 8 werden 2

9 1 Einleitung im Rahmen einer Abschlussdiskussion die wichtigsten aus den verschiedenen Untersuchungen stammenden und verschiedene Aspekte der diagnostischen Kompetenz beleuchtenden Befunde zusammengeführt. Auf der Basis dieser Befunde erfolgt eine abschließende Beantwortung der Forschungsfragen. Die Arbeit endet mit einem Fazit zur Arbeit verbunden mit einem Ausblick auf mögliche Implikationen für die Lehrerausbildung und sich anschließende Forschungsvorhaben. 3

10 2 Forschungshintergrund Das Kapitel 2 gibt einen Überblick über die der Arbeit zugrunde liegenden theoretischen Konzepte, Modelle und Begrifflichkeiten im Zusammenhang mit der diagnostischen Kompetenz und zeigt den Bezug der diagnostischen Kompetenz zum Bereich der naturwissenschaftlichen Erkenntnisgewinnung auf. In Verbindung mit einem Überblick über den aktuellen Stand der Forschung zur professionellen Kompetenz von Lehrkräften und der diagnostischen Kompetenz werden auch die in der Forschungsliteratur beschriebenen wichtigsten Befunde zur diagnostischen Kompetenz vorgestellt. 2.1 Professionelle Kompetenz von Lehrkräften Angestoßen durch Befunde nationaler und internationaler Schulleistungsstudien wie PISA und TIMSS in Verbindung mit dem schlechten Abschneiden deutscher Schülerinnen und Schüler (Baumert, Bos & Lehmann, 2000; Köller, 2004) haben sich in den letzten Jahren eine zunehmende Anzahl von Forschungsprojekten und Studien mit der Frage auseinandergesetzt, was einen guten Lehrer ausmacht und welche Aspekte zu Lernerfolg bei Schülerinnen und Schülern führen (für einen Überblick siehe z. B. Abell, 2007; Baumert & Kunter, 2006; Hattie, 2009; Helmke, 2009; Krauss, 2011; Lankes, 2008; Lipowsky, 2006; Zlatkin-Troitschanskaia et al., 2009). Dabei wird die professionelle Kompetenz von Lehrkräften oft als wesentliche Voraussetzung für erfolgreichen Unterricht angesehen (z. B. Baumert & Kunter, 2006; Besser & Krauss, 2009; Dubs, 2008; Künsting, Billich & Lipowsky, 2009; Pauli & Reusser, 2009; Zlatkin-Troitschanskaia et al., 2009). Nach wie vor lässt sich aber in der Fachliteratur kein Konsens ausmachen, aus welchen Dimensionen sich diese professionelle Kompetenz von angehenden und praktizierenden Lehrkräften zusammen setzt (Baumert & Kunter, 2006) und welche Anteile davon wirksam sind im Sinne einer Wirkungskette Lehrerkompetenz Lehrerleistung Schülerkompetenz Schülerleistung (Frey & Jung, 2011). Trotzdem besteht überwiegend Einigkeit über den Nutzen, die als relevant erachteten Kompetenzen von Lehrkräften in Form von Kompetenzmodellen oder/und in Form von Standards zu beschreiben. Dies eröffnet nicht zuletzt auch die Möglichkeit, diese Kompetenzen bzw. Standards einer empirischen Prüfung unterziehen zu können (Maag Merki, K. & Werner, S. 2011). Modellierungen und Standards zur professionellen Kompetenz von Lehrkräften In der Literatur zur Lehrerbildungsforschung existieren unterschiedliche Ansätze zur Beschreibung und Modellierung der professionellen Kompetenz von Lehrkräften, von denen nachfolgend einige vorgestellt werden. Die hier getroffene Auswahl beschreibt dabei vor allem diejenigen Ansätze, die eine Relevanz für die Konzeptualisierung und Modellierung der diagnostischen Kompetenz besitzen. Das Shulman-Modell Der Ansatz, der sich am häufigsten in den Modellierungen zur professionellen Kompetenz von Lehrkräften wiederfindet, stammt aus dem amerikanischen Raum und geht auf Arbeiten von Shulman

11 2 Forschungshintergrund (1987) zurück. Dieser definiert sieben Kategorien, die er als grundlegend für das Wissen von Lehrkräften betrachtet: a) das content knowledge bzw. das subject matter knowledge, entsprechend einer ein Jahr zuvor veröffentlichten Arbeit (Shulman, 1986); b) das general pedagogical knowledge ; c) das curriculum knowledge ; d) das pedagogical content knowledge ; e) das knowledge of learners and their characteristics ; f) das knowledge of educational contexts und g) das knowledge of educational ends, purposes, values and their philosophical und historical grounds. Shulman (1987) leitet seine Wissenskategorien aus einer Analyse der Anforderungen an Lehrkräfte ausführlich theoretisch ab. Obwohl Shulman von teacher knowledge spricht, also dem Wissen von Lehrkräften, wird aus seinen Beschreibungen die Nähe seines Wissensbegriffs zum heutigen Kompetenzbegriff deutlich (vgl. Krauss, 2011, S. 182). Eine Unterscheidung der Begriffe Wissen und Kompetenz wurde aber erst im Zusammenhang mit den Arbeiten von Weinert (2001) üblich. In den folgenden Jahren wurde sein Ansatz von verschiedenen amerikanischen und deutschen Forschungsgruppen aufgegriffen und weiter ausgearbeitet. Dabei bildeten drei der oben genannten sieben Kategorien, das content knowledge (CK), das pedagogical content knowledge (PCK) und das general pedagogical knowledge (PK) in vielen der amerikanischen und deutschen Folgearbeiten die Hauptdimensionen für Modelle zum teacher knowledge (z.b. Abell, 2007; Gess-Newsome & Lederman, 1999; Grossman, 1990; Magnusson, Krajcik & Borko, 1999) bzw. für das Professionswissen von Lehrkräften (z. B. Baumert & Kunter, 2006; Brunner et al., 2006, 2011; Krauss et al., 2004). In die Literatur eingegangen ist diese dreigeteilte Form unter dem Begriff Shulman-Modell, wobei zu erwähnen ist, dass einige der Aspekte, die im Ursprungsmodell als eigene Kategorien genannt waren (wie das knowledge of learners and their characteristics ), im dreigeteilten Modell in die Bereiche CK, PCK bzw. PK integriert wurden. In den neueren amerikanischen Arbeiten steht vor allem die Ausschärfung des Bereiches PCK im Vordergrund (z. B. Abell, 2007, 2008; Brown, Friedrichsen & Abell, 2013; Hashweh, 2005; Loughran, Berry & Mulhall, 2006; Loughran, Mulhall & Berry, 2008; Park & Oliver, 2008; Park, Jang, Chen & Jung, 2011; Park & Chen, 2012). Auch im deutschsprachigen Raum wurde und wird im Zuge der Debatte um die professionelle Kompetenz von Lehrkräften oft auf das Shulman-Modell mit der Dreiteilung in CK, PCK und PK zurück gegriffen (z. B. Baumert & Kunter, 2006; Borowski et al., 2010; Brunner et al., 2006, 2011; Krauss et al., 2004). Ins Deutsche übersetzt wurden die Begriffe CK, PCK und PK dabei mit den Begriffen Fachwissen (FW), Fachdidaktisches Wissen (FDW) und Pädagogisches Wissen (PW), wobei an dieser Stelle angemerkt werden soll, dass das Gleichsetzen der Bedeutungen 5

12 2 Forschungshintergrund im amerikanischen und im deutschen Raum von einigen Forschern kritisch gesehen wird (u. a. Schmelzing, 2010). Das Modell von Bromme Das Modell von Bromme (Bromme, 1997; siehe auch Frey & Jung, 2011) ist eine aus dem deutschsprachigen Raum stammende Modellierung zur professionellen Kompetenz von Lehrkräften, die an das Shulman-Modell anknüpft. Bromme nennt in seiner Modellierung vier Kompetenzbereiche, die er als grundlegend für Lehrkräfte ansieht: a) das Professionelle Wissen (mit den aus dem ursprünglichen Shulman-Modell abgeleiteten fünf Unterkategorien Fachliches Wissen, Curriculares Wissen, Philosophie des Schulfaches, Pädagogisches Wissen und Fachspezifisch-Pädagogisches Wissen ), b) die Kompetenz zu raschem und situationsangemessenem Handeln, c) die Kompetenz für das Erzeugen von Lerngelegenheiten im Unterricht und d) die Diagnostische Kompetenz. In einer späteren Arbeit, in der er sich mit dem von ihm geprägten Begriff der Lehrerexpertise auseinandersetzt (Bromme, 2008), ordnet er die vorher als eigenständigen Kompetenzbereich genannte diagnostische Kompetenz in den Kompetenzbereich des professionellen Wissens und Könnens des Lehrers als Experten (vorher als professionelles Wissen bezeichnet) ein. Das Modell von Weinert Neben dem Shulman-Modell findet sich im deutschsprachigen Raum ein weiterer, oft verwendeter Ansatz zur Beschreibung der professionellen Kompetenz von Lehrkräften. So nennt Weinert (Weinert, Schrader & Helmke, 1990; Weinert, 2000) vier große Kompetenzbereiche, die er als unerlässlich erachtet für gutes Unterrichten: 1. die Sachkompetenz bzw. subject matter knowledge, 2. die Diagnostische Kompetenz bzw. diagnostic knowledge, 3. die Didaktische Kompetenz bzw. knowledge of instructional techniques und 4. die Klassenführungskompetenz bzw. knowledge of classroom management. Das Modell von Weinert wurde in der Folgezeit von verschiedenen Forschern aufgegriffen, vor allem in der Absicht, darauf aufbauend den Bereich der diagnostischen Kompetenz weiter auszudifferenzieren (Helmke, 2005, 2009; Helmke, Hosenfeld & Schrader, 2004; Spinath, 2005; Südkamp, Möller & Pohlmann, 2008). Genauere Ausführungen hierzu werden im nächsten Kapitel dargelegt. In Bezug auf den Kompetenzbereich Subject matter knowledge knüpft Weinert an das Modell von Shulman (1987) an. Die Modellierung Weinerts wird aber trotzdem in der Literatur als eigenständiges Modell und nicht als Fortentwicklung des Shulman-Modells beschrieben. 6

13 2 Forschungshintergrund Die Oser-Standards Etwa zeitgleich zum Modell von Weinert veröffentlichte Oser seine oft als Oser-Standards bezeichneten Kompetenzbeschreibungen für Lehrkräfte (Oser, 1997, 2001). Neben dem Shulman- Modell und demjenigen von Weinert kann das Modell von Oser für den deutschsprachigen Raum als ein dritter grundlegender Ansatz zur Modellierung der professionellen Kompetenz von Lehrkräften angesehen werden. Oser präsentiert ein Manual aus 88 Standards, welche er in 12 sogenannte Standardgruppen zusammengefasst hat. Er hebt dabei hervor, dass es sich bei seinen Standards um Lehrerkompetenzen auf der Handlungsebene (Oser, 1997) handelt, wobei das Wissen nur einen notwendigen, aber nicht hinreichenden Bestandteil darstellt: Es sind weitere Unterscheidungskriterien notwendig, die die Standards von bloßem pädagogischem, psychologischem oder didaktischem Wissen abheben. Freilich ist solches Wissen auch notwendig, aber es ist kein Geheimnis, dass, wenn es allein steht, es selten zu entsprechendem Handeln führt (Oser, 2001, S. 217, Hervorhebung im Original). [ ] Wenn junge Lehrpersonen nur Theorie über einzelne professionelle Kompetenzen besitzen, dann haben sie zwar ein notwendiges Wissen, aber dieses Wissen führt selten zum Handeln, und es kann auch das Handeln nicht steuern (Oser, 2001, S. 225). Auch nach Terhart (2002) stellen die Oser-Standards Standards für erfolgreiches Lehrerhandeln dar: Sie benennen, was ein gut ausgebildeter, auf der Höhe der Kompetenz stehender, gewissermaßen vollständiger Lehrer wissen und vor allem pädagogisch didaktisch können muss (Terhart, 2002, S. 24, Hervorhebungen im Original). Standards der KMK für die Lehrerbildung Für die von der Kultusministerkonferenz (KMK) in Auftrag gegebene und von Terhart (2002) verfasste Expertise zur Entwicklung von Lehrerbildungsstandards für die Bundesrepublik Deutschland bildeten die Oser-Standards Grundlage und Orientierungsrahmen. Die im Jahr 2004 veröffentlichten deutschen Standards für die Lehrerbildung (KMK, 2004) bieten seit ihrem Beschluss vom einen Orientierungsrahmen für alle Phasen der Lehrerbildung in Deutschland. Im Hinblick auf die diagnostische Kompetenz ist dies von Bedeutung, da diese in den KMK-Lehrerbildungsstandards ausdrücklich einen Schwerpunkt bildet. Inhaltlich gliedern sich die KMK-Standards in vier Kompetenzbereiche, denen insgesamt 11 Kompetenzen zugewiesen sind: 1. Unterrichten (mit drei Kompetenzen), 2. Erziehen (mit drei Kompetenzen), 3. Beurteilen (mit zwei Kompetenzen, eine davon bezogen auf den Bereich Diagnostik und Förderung, die andere bezogen auf Leistungsbeurteilungen), 4. Innovieren (mit drei Kompetenzen). Das Modell der professionellen Handlungskompetenz von Lehrkräften Ein weiterer, häufiger verwendeter Ansatz zur Beschreibung der professionellen Kompetenz von Lehrkräften entstand im Zuge des Projektes COACTIV ( Professionelle Kompetenz von Lehrkräften, 7

14 2 Forschungshintergrund kognitiv aktivierender Unterricht und die Entwicklung mathematischer Kompetenz, siehe hierzu Brunner et al., 2006; Krauss et al., 2004; Kunter, Klusmann & Baumert, 2009). Das für das COACTIV-Projekt zugrunde gelegte Modell professioneller Handlungskompetenz (Abb. 2.1) definiert zusätzlich zu den Bereichen CK, PCK und PK aus dem Shulman-Modell weitere Kompetenzbereiche, die im Sinne des Projektes COACTIV für die professionelle Handlungskompetenz als bedeutsam erachtet werden (Baumert & Kunter, 2006; Kunter et al., 2011). Dabei greift das Modell die Arbeiten Weinerts (2001) zum Kompetenzbegriff auf und verbindet sie mit den taxonomischen Ansätzen Shulmans (1986; 1987) und Brommes (1997; 2001) (Kunter, Klusmann & Baumert, 2009; S. 154). Abb. 2.1: Modell zur professionellen Handlungskompetenz von Lehrkräften (Baumert & Kunter, 2006, S. 482) Das Modell zur professionellen Handlungskompetenz setzt sich aus verschiedenen, miteinander im Austausch stehenden Aspekten professioneller Kompetenz zusammen: dem Professionswissen, den Überzeugungen (beliefs) und Werthaltungen (value commitments), den Motivationalen Orientierungen und den Selbstregulativen Fähigkeiten (Baumert & Kunter, 2006). Zur Abgrenzung des Professionswissens von der professionellen Handlungskompetenz äußern sich die Autoren des Modells in folgender Weise: Weinerts Begriffsdifferenzierung folgend unterscheiden wir kognitive Kompetenzen im engeren Sinne ( Professionswissen ) von Kompetenzen in einem weiteren Sinne ( Professionelle Handlungskompetenz ). Gemeinsam ist beiden Kompetenzbegriffen, dass Kompetenz nicht als eine eindimensionale Fähigkeit verstanden wird. Vielmehr handelt es sich bei kognitiven Kompetenzen im engeren Sinne in der Regel um Fähigkeitskomplexe, die sich analytisch in Kompetenzfacetten differenzieren lassen, und bei professionellen Handlungskompetenzen um das komplexe Zusammenspiel von kognitiven Kompetenzen, metakognitiven Fähigkeiten, 8

15 2 Forschungshintergrund motivationalen Orientierungen sowie Überzeugungen und Wertorientierungen (Krauss et al., 2004, S. 6). Das Professionswissen wird im Modell in die an das Shulman-Modell angelehnten Kompetenzbereiche Fachwissens (FW), Fachdidaktisches Wissen (FDW) und Pädagogisches Wissen (PW) unterteilt. Diesen zur Seite gestellt werden das Organisationswissen und das Beratungswissen. Die drei Bereiche FW, FDW und PW sind im Modell dann überwiegend fachspezifisch in Wissensfacetten aufgeteilt. So ist hier z. B. für das Fach Mathematik im Kompetenzbereich FW das tiefe Verständnis der Schulmathematik angesiedelt, im Kompetenzbereich FDW das Wissen über das mathematische Denken von Schüler(innen) und das Wissen über mathematische Aufgaben und im Kompetenzbereich PW das Wissen über effektive Klassenführung, das Wissen über Methoden und das Wissen über Lernprozesse (Kunter, Klusmann & Baumert, 2009). Das von Baumert & Kunter beschriebene Modell wurde in der Folgezeit von vielen Forschungsgruppen als Ausgangspunkt genommen für weitere Untersuchungen zum Professionswissen und für Ausschärfungen einzelner Unterbereiche hiervon (z. B. Alfs & Hößle, 2009; Borowski et al., 2010; Heusinger von Waldegge & Hößle, 2010; Jüttner & Neuhaus, 2010; Jüttner, Spangler & Neuhaus, 2009; Kirschner et al., 2011; Riese & Reinhold, 2009; 2010; Schmelzing, 2010; Schmelzing et al., 2010, Tepner et al., 2012; Witner & Tepner, 2009). Auch das in dieser Arbeit vorgestellte Strukturmodell zur diagnostischen Kompetenz (genauere Ausführungen hierzu folgen im Kapitel 2.2.4) basiert zum Teil auf dem oben genannten Modell zur professionellen Handlungskompetenz. 2.2 Diagnostische Kompetenz als Bestandteil der professionellen Kompetenz Relevanz von diagnostischer Kompetenz Es herrscht ein breiter Konsens darüber, dass innerhalb der professionellen Kompetenzen einer Lehrkraft den Diagnose- und Förderkompetenzen eine große Bedeutung zukommt (u. a. Artelt & Gräsel, 2009; Baumert & Kunter, 2006; Bromme, 1997, 2008; Brunner et al., 2011; Hascher, 2008; Helmke, 2009; Hesse & Latzko, 2009; Horstkemper, 2004, 2006; Hosenfeld, Helmke & Schrader, 2002; Ingenkamp & Lissmann, 2008; Jäger, 2009; Kliemann, 2008; Klug et al., 2012; Kretschmann, 2003, 2006; Oser, 2001; PISA-Konsortium, 2001; Praetorius, Lipowsky & Karst, 2012; Schrader, 2008, 2011; van Buer & Zlatkin-Troitschanskaia, 2009; Weinert, 2000). Die hohe Bedeutung der Diagnose- und Förderkompetenzen für die Lehrerbildung in Deutschland wird dadurch unterstrichen, dass diese beiden Kompetenzen explizit Eingang in verschiedene anerkannte Lehrerbildungsstandards gefunden haben, wie z. B. in die Standards zur Lehrerbildung (KMK, 2004), in die Ländergemeinsamen inhaltlichen Anforderungen für die Fachwissenschaften und Fachdidaktiken in 9

16 2 Forschungshintergrund der Lehrerbildung (KMK, 2008) und in die GFD-Standards (GFD, 2005). Im amerikanischen Raum hatte sich diese Erkenntnis schon einige Jahre zuvor in verschiedenen amerikanischen Standards zur Lehrerbildung niedergeschlagen, wie z.b. in den American Professional Teaching Standards for Science (NBTPS, 2003), den National Science Education Standards (NRC, 1996), den Standards for Teacher Competence in Educational Assessment of Students (AFT, 1990) und die Standards for Science Teacher Preparation (NSTA, 2003). Trotz ihrer hohen politischen und praktischen Relevanz und der in den letzten Jahren deutlich gestiegenen Forschungstätigkeit besteht zur diagnostischen Kompetenz von Lehrkräften aber noch großer Forschungsbedarf (Artelt & Gräsel, 2009; Brunner et al., 2011; Schrader, 2009; van Buer & Zlatkin-Troitschanskaia, 2009). Vor allem der Bereich der systematischen Ausdifferenzierung wird von einigen Autoren hervorgehoben (Jäger, 2009, S. 108; Schrader, 2009, S. 238; Klug et al., 2013; van Buer & Zlatkin-Troitschanskaia, 2009, S. 386). Mit der Forderung der systematischen Ausdifferenzierung einher geht die Frage, wo innerhalb der professionellen Kompetenz von Lehrkräften die diagnostische Kompetenz zu verorten ist, in welcher Weise sie konzeptualisiert und modelliert werden könnte (Hascher, 2008; von Buer & Zlatkin-Troitschanskaia, 2009) und welche Bedingungsfaktoren und Folgen mit ihr einhergehen (Schrader, 2009). In den folgenden beiden Unterkapiteln werden einige der in der Forschungsliteratur und Schulpraxis gängigen Konzeptualisierungen und Modellierungen von diagnostischer Kompetenz näher beschrieben, um die Bandbreite der verschiedenen Ansätze deutlich zu machen. Davon ausgehend wird die dieser Arbeit zugrunde gelegte Konzeptualisierung und das im Rahmen des Gesamtprojektes entwickelte Modell zur (fachbezogenen) diagnostischen Kompetenz vorgestellt und begründet Verortung diagnostischer Kompetenz in Modellen zur professionellen Kompetenz von Lehrkräften Einige Autoren heben die Diagnosekompetenz ausdrücklich als eigenen Kompetenzbereich innerhalb ihres Modells zur professionellen Kompetenz von Lehrkräften hervor. Andere benennen sie zwar explizit als einen wichtigen Kompetenzaspekt, ordnen sie aber als Facette dem fachdidaktischen Wissen unter oder weisen sie als bereichsübergreifende Kompetenz sowohl dem fachdidaktischen Wissen wie auch dem pädagogischen Wissen zu. Wieder andere diskutieren sie zwar in ihren Beschreibungen zur professionellen Kompetenz von Lehrkräften, führen sie aber im Modell nicht explizit als eigenen Bereich oder als Facette auf. Die Ansätze, welche die diagnostische Kompetenz explizit als eigenen Bereich innerhalb ihres Modells zur professionellen Kompetenz benennen, wurden in Kapitel 2.1 bereits beschrieben. Es handelt sich dabei um die Ansätze von Weinert (Weinert, 2000; Weinert, Helmke & Schrader, 1990) und von Bromme (1997). Beide Modelle dienten vielen der nachfolgenden Forschungsarbeiten als 10

17 2 Forschungshintergrund Grundlage für Studien über die professionelle Kompetenz von Lehrkräften und die diagnostische Kompetenz (z.b. Helmke, 2005, 2009; Karing, 2009; Lorenz & Artelt, 2009; Spinath, 2005). Auch in den Oser-Standards (Oser, 1997, 2001) gibt es Standardgruppen und Einzelstandards, die sich schwerpunktmäßig mit Diagnostik beschäftigen. So finden sich z. B. innerhalb der Standardgruppe 2 ( Schüler unterstützende Beobachtung (Diagnose) und Schüler unterstützendes Handeln ) ein Standard zum Diagnostizieren von spezifischen Lernschwierigkeiten (Standard 12) und ein weiterer zur Diagnose von verschiedenen affektiven Zuständen der Schüler (Standard 7). Innerhalb der Standardgruppe 7 ( Leistungsmessung ) werden die Diagnostik von Leistungsfortschritten nach unterschiedlichen Kriterien und deren Messung mit verschiedenen Instrumenten (Standard 44) genannt, sowie wie man schriftliche und mündliche Arbeiten unterschiedlich beurteilen kann (Standard 45) (vgl. Oser, 2001; Oser, 1997). Eine Definition oder detaillierte Begriffsfassung von diagnostischer Kompetenz liefert Oser in diesem Zusammenhang allerdings nicht. Ähnlich wie bei Oser beinhalten auch die deutschen Lehrerbildungsstandards (KMK, 2004) die beiden Aspekte Diagnostik und Förderung und Leistungsmessung. So lautet die Kompetenz 7 Lehrerinnen und Lehrer diagnostizieren Lernvoraussetzungen und Lernprozesse von Schülerinnen und Schülern; sie fördern Schülerinnen und Schüler gezielt und beraten Lernende und deren Eltern. Die Kompetenz 8 lautet: Lehrerinnen und Lehrer erfassen Leistungen von Schülerinnen und Schülern auf der Grundlage transparenter Beurteilungsmaßstäbe. Im Shulman-Modell wird die diagnostische Kompetenz nicht namentlich erwähnt. Sie taucht aber in der Beschreibung der wichtigen Aspekte zum pedagogical content knowledge auf: Pedagogical content knowledge also includes an understanding of what makes the learning of specific topics easy or difficult: the conceptions and preconceptions that students of different ages and backgrounds bring with them to the learning of those most frequently taught topics and lessons. If those preconceptions are misconceptions, which they so often are, teachers need knowledge of the strategies most likely to be fruitful in reorganizing the understanding of learners, because those learners are unlikely to appear before them as blank slates. [ ] The study of student misconceptions and their influence on subsequent learning has been among the most fertile topics for cognitive research. We are gathering an evergrowing body of knowledge about the misconceptions of students and about the instructional conditions necessary to overcome and transform those initial conceptions. Such research-based knowledge, an important component of the pedagogical understanding of subject matter, should be included at the heart of our definition of needed pedagogical knowledge (Shulman, 1986, S. 9f). Shulman zielt hier auf das Wissen über (mitgebrachte) Schüler(fehl-)vorstellungen und eine darauf abgestimmte Unterrichtsplanung. Dieses oftmals als eine typische Facette von diagnostischer Kompetenz betrachtete Wissen (Brunner et al., 2006; Krauss et al.; 2004; Schmelzing et al., 2010), ist 11

18 2 Forschungshintergrund für ihn einer der Hauptbestandteile des pedagogical content knowledge. Shulman geht in seinen Arbeiten (Shulman, 1986, 1987) jedoch nicht näher auf die diagnostische Kompetenz ein und liefert auch keine Definition oder Beschreibung seines Verständnisses von diagnostischer Kompetenz. Einige Modellierungen weisen der diagnostischen Kompetenz eine eigene Kompetenzfacette zu. So modellieren Krauss und Mitarbeiter (2004) im Rahmen des Projekts COACTIV die diagnostische Kompetenz im Modell zur professionellen Handlungskompetenz als Facette des fachdidaktischen Wissens (Abb. 2.2). Abb. 2.2: Modell zur professionellen Handlungskompetenz (Krauss et al., 2004, S. 6) Zur genaueren Ausdifferenzierung der diagnostischen Kompetenz findet sich in der genannten Veröffentlichung folgendes Verständnis: Die diagnostische Kompetenz (engl. teacher judgement accuracy ) ist keine Kompetenz im eigentlichen Sinne, sondern eine Kompetenzfacette. Wir behalten aber den Begriff diagnostische Kompetenz bei, der sich mittlerweile in der deutschen Literatur durchgesetzt hat. Entgegen der üblichen Einordnung dieser Facette in pedagogical knowledge ordnen wir die diagnostische Kompetenz aber zum pedagogical content knowledge, da es um die Einschätzung der mathematischen Fähigkeiten der Schülerinnen und Schüler geht (Krauss, 2004, S. 18). Inhaltlich fasst Krauss unter das Konstrukt der diagnostischen Kompetenz die Diagnose und Beurteilung von Schülervorstellungen, den Umgang mit Fehlern, das Wissen über typische Schülerschwierigkeiten und die diagnostische Kompetenz im Hinblick auf die Leistungsbeurteilung (Krauss et al., 2004, S. 14). Von anderen Mitarbeitern der Arbeitsgruppe um das COACTIV-Projekt werden weitere Aspekte angeführt, die der diagnostischen Kompetenz zuzuordnen sind, wie das Wissen über fachbezogene Schülerkognitionen (hierzu zählen z. B. das Wissen über typische 12

19 2 Forschungshintergrund Schülerfehler und Schülerschwierigkeiten ) und das Wissen über das Potential des Schulstoffs für Lernprozesse (Brunner et al., 2006, S. 523 und S. 525). In einer relativ neuen Veröffentlichung der Arbeitsgruppe um Brunner (Brunner et al., 2011), die sich explizit mit der diagnostischen Fähigkeiten von (Mathematik-)Lehrkräften beschäftigt, präsentieren die Autoren eine Modellierung, in der die diagnostische Kompetenz ausdrücklich als bereichsübergreifende Kompetenz angesehen und sowohl innerhalb des fachdidaktischen Wissens als auch innerhalb des pädagogischen Wissens verortet wird (Abb. 2.3). Brunner und Mitarbeiter (2011) begründen den Wechsel der Verortung folgendermaßen: Diagnostische Fähigkeiten repräsentieren eine mehrdimensionale Kompetenzfacette, die eine Integration mehrerer Kompetenzfacetten des fachdidaktischen und pädagogischen Wissens erfordert (Brunner et al. 2011, S. 217). Abb. 2.3: Diagnostische Fähigkeiten im Modell professioneller Kompetenz von Lehrkräften (Brunner et al., 2011, S. 183) Ansätze zur Konzeptualisierung und Operationalisierung diagnostischer Kompetenz In Bezug auf die Konzeptualisierung von diagnostischer Kompetenz und auch in Bezug auf ihre Operationalisierung in empirischen Studien existieren in der Forschungsliteratur verschiedenste Ansätze. Die nachfolgend vorgestellten sollen die Bandbreite deutlich machen und einige der am häufigsten verwendeten Konzeptualisierungen bzw. Operationalisierungen beschreiben. 13

20 2 Forschungshintergrund Diagnostische Kompetenz als Urteilsgenauigkeit In ihrem Konzept der Urteilsgenauigkeit (bzw. Diagnosegenauigkeit, beide Begriffe werden von den Autoren synonym verwendet) definieren Schrader und Helmke (1987) die diagnostische Kompetenz als Fähigkeit, Schüler zutreffend einzuschätzen (schülerorientierter Diagnosekompetenz) und als Fähigkeit, Aufgabenschwierigkeiten zutreffend zu beurteilen (aufgabenorientierte Diagnosekompetenz) (siehe auch Schrader, 1989, 2001). Die Urteilsgenauigkeit beschreibt nach ihrem Verständnis den Grad der Übereinstimmung des Lehrerurteils (hinsichtlich des zu diagnostizierenden Merkmals) mit der tatsächlich gemessenen Merkmalsausprägung. In ihren Arbeiten differenzieren sie die Urteilsgenauigkeit aus in drei verschiedene Komponenten der Diagnosegenauigkeit (Helmke, Hosenfeld & Schrader, 2004; Schrader & Helmke, 1987), welche sie in Anlehnung an Cronbach (1955) entwickelt haben: Die Niveaukomponente beschreibt die mittlere Differenz zwischen den Lehrerurteilen und den tatsächlich gemessenen Schülermerkmalen. Die Rangordnungskomponente (bzw. Vergleichskomponente ) beschreibt die Fähigkeit der Lehrkraft, die Rangordnung bzw. Fähigkeitsabstufungen zwischen verschiedenen Schülern oder Aufgaben zu erkennen. Und die Streuungskomponente (bzw. Differenzierungskomponente ) bezieht sich auf den Vergleich der Streuungen der empirischen, d. h. real vorkommenden Merkmale der Schüler und der korrespondierenden Lehrerangaben. Das von Schrader und Helmke (1987) geprägte Konstrukt der Urteilsgenauigkeit eignet sich besonders im Hinblick auf seine messtheoretische Handhabbarkeit: Durch das Messen des Übereinstimmungsgrades zwischen dem konkret messbaren Schülermerkmal bzw. Aufgabenmerkmal und dem entsprechenden Lehrerurteil lassen sich quantitative Daten erheben, mit denen gut gerechnet werden kann. Auf diese Weise können relativ einfach Aussagen zur diagnostischen Kompetenz getroffen werden. Diese Art der Vorgehensweise kann es jedoch leicht mit sich bringen, dass nicht hinreichend beschrieben wird, auf welchen Fähigkeiten und Wissensbeständen angemessene Urteilsgenauigkeiten beruhen. Aufgrund dieses oftmals mangelnden Blicks auf die Gesamtheit der zur Bewältigung von Diagnoseaufgaben erforderlichen Fähigkeiten weisen einige Autoren ausdrücklich darauf hin, dass die Urteilungsgenauigkeit nicht mit der diagnostischen Kompetenz gleichgesetzt werden darf (Schrader, 2011, S. 68; Spinat, 2005, S. 93). Trotz der genannten Einschränkung haben bis heute viele Forschungsarbeiten das von Schrader und Helmke (1987) geprägte Konzept der Urteilsgenauigkeit aufgegriffen und ihre empirischen Studien auf einen Vergleich der Lehrerurteile (hinsichtlich eines oder mehrerer Schülermerkmale bzw. Aufgabenmerkmale) mit den in Tests ermittelten Merkmalen gegründet (z. B. Artelt, 2011; Karing, Matthäi & Artelt, 2011; McElvany et al., 2009; Lintorf, McElvany, Rjosk, Schroeder, Baumert, Schnotz, Horz & Ullrich, 2011; Spinath, 2005; Südkamp, Möller & Pohlmann, 2008). Vor allem die Rangordnungskomponente wird in vielen der Arbeiten als etablierter Indikator zur Beurteilung der Güte diagnostischer Urteile herangezogen (Lorenz & Artelt, 2009; Praetorius, Lipowsky & Karst, 2012). 14

21 2 Forschungshintergrund Diagnostische Kompetenz im Hinblick auf den Beurteilungsprozess Einer von Schrader (2011, S. 239) getroffenen Unterscheidung folgend kann neben diesem produktund genauigkeitsorientierten Ansatz ein zweiter, in empirischen Studien verwendeter Ansatz ausgemacht werden: der prozessorientierte Ansatz. Hierunter zu verstehen sind Forschungen zum Urteilsprozess, also Untersuchungen, die auf Prozessmerkmale des Urteilens abzielen (Artelt & Gräsel, 2009, S. 159). Zu den Studien dieser Art gehört beispielsweise die Untersuchung von Krolak- Schwerdt, Böhmer und Gräsel (2009) zur Qualität des diagnostischen Urteils in Abhängigkeit vom Verarbeitungsziel. Ein wichtiger Befund dieser Arbeit war, dass sich erfahrene Lehrer unter dem Ziel der Vorhersage einer bestimmten Schülerleistung (Vorhersageziel) stärker an den individuellen Schülermerkmalen orientieren und unter dem Ziel, sich einen Eindruck über den Schüler zu bilden (Eindrucksziel), an der verfügbaren sozialen Kategorie. Bei Laien (Studierende der Naturwissenschaften) hingegen hatte das Ziel keinen Einfluss auf die Verarbeitung der Schülermerkmale. Als Methode zum Erfassen der Qualität des diagnostischen Urteils haben die Autoren die beim Enkodieren und Gedächtnisabruf ablaufenden Prozesse untersucht, wobei sie leicht und schwer kategorisierbare Fallbeschreibungen von Schülern eingesetzt haben und die Zuwendung der Aufmerksamkeit durch Lesezeiten sowie den Gedächtnisabruf durch einen freien Reproduktionstest erfasst wurden. Weitere interessante Studien im Zusammenhang mit der Operationalisierung der diagnostischen Kompetenz im Hinblick auf den zugrunde liegenden Beurteilungsprozess sind diejenigen von Klug, Bruder, Kelava, Spiel und Schmitz (2013) und von Klug, Bruder, Keller und Schmitz (2012). Klug und Mitarbeiter (2013) stellen in ihrer Veröffentlichung ein zyklisch angelegtes Prozessmodell zur diagnostischen Kompetenz vor, ausdifferenziert nach drei verschiedenen Dimensionen: einer präaktionalen Dimension, einer aktionalen Dimension und einer postaktionalen Dimension (Abb. 2.4). Präaktional Zielsetzung Förderdiagnostik Zielsetzung Prozessdiagnostik Methoden Urteilsbildung Gütekriterien Postaktional Rückmeldung Förderplanung Lernstrategien Aktional Vorhersagen Informationssammlung Systematisches Vorgehen Abb. 2.4: Dreidimensionales Modell zur diagnostischen Kompetenz (nach Klug et al., 2013, S. 39) 15

22 2 Forschungshintergrund Das von ihnen aufgestellte Prozessmodell begründen sie mit dem in theoretischen Beiträgen zur diagnostischen Kompetenz vollzogenen Paradigmenwechsel hin zur individuellen Diagnostik und Förderung und der Forderung danach, dass sich Diagnostik nicht als Selbstzweck verstehen darf (Klug et al., 2012, S. 5, unter Berufung auf Horstkemper, 2004; KMK, 2004; Kretschmann, 2009). Nach Meinung der Autoren darf Beurteilungsgenauigkeit, auch wenn sie ein wichtiger Bestandteil der diagnostischen Tätigkeit ist, nicht als einzige Repräsentation diagnostischer Kompetenz bestehen bleiben. Vielmehr sei es wichtig, den Diagnoseprozess, d. h. das Vorgehen beim Diagnostizieren, zu beschreiben und zu optimieren, um das Ziel der Förderdiagnostik zu erreichen (Klug et al., 2012, S. 5). Weitere Studien, die auf den Urteilsprozess fokussieren, sind diejenigen von Dünnebier, Gräsel und Krolak-Schwerdt (2009), von Jahnke und Hößle (2011) und von Südkamp und Möller (2009). In der Hinwendung auf den diagnostischen Urteilsprozess ergeben sich Parallelen mit den Ansätzen von Autoren, die sich von der Schwerpunktsetzung her eher der Schulpraxis verpflichtet fühlen und deren Fokus auf dem pädagogischen Handeln im Schulalltag liegt. Ausführungen zur diagnostischen Kompetenz in diesem Sinne finden sich beispielsweise in den Beiträgen von Hesse und Latzko (2009); Horstkemper (2004, 2006), Jäger (2007); Kliemann (2008); Kretschmann (2009) und Paradies und Mitarbeiter (2007). In der Fokussierung auf die diagnostischen Tätigkeiten kann auch die von Ingenkamp und Lissmann (2008) geprägte und weithin gebräuchliche Definition von pädagogischer Diagnostik gesehen werden. Vor allem der zweite Satz der Definition zeigt die Hinwendung auf den Beurteilungsprozess. Pädagogische Diagnostik umfasst alle diagnostischen Tätigkeiten, durch die bei einzelnen Lernenden und den in einer Gruppe Lernenden Voraussetzungen und Bedingungen planmäßiger Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren. [ ] Unter diagnostischer Tätigkeit wird dabei ein Vorgehen verstanden, in dem (mit oder ohne diagnostische Instrumente) unter Beachtung wissenschaftlicher Gütekriterien beobachtet und befragt wird, die Beobachtungs- und Befragungsergebnisse interpretiert und mitgeteilt werden, um ein Verhalten zu beschreiben und/oder die Gründe für dieses Verhalten zu erläutern und/oder künftiges Verhalten vorherzusagen (Ingenkamp & Lissmann, 2008, S. 13). Diagnostische Kompetenz als ein Bündel verschiedener Wissensbestände und Fähigkeiten Im Gegensatz zu den beiden im Vorfeld genannten und in empirischen Studien häufiger anzutreffenden Ansätzen folgt die Konzeptualisierung von diagnostischer Kompetenz als Bündel aus verschiedenen Wissensbeständen und Fähigkeiten eher inhaltlichen Gesichtspunkten. Diese Sichtweise spiegelt sich auch in der ebenfalls häufig verwendeten Definition von Weinert (2000) zur diagnostischen Kompetenz wider: 16

23 2 Forschungshintergrund Dabei [bei der diagnostischen Kompetenz] handelt es sich um ein Bündel von Fähigkeiten, um den Kenntnisstand, die Lernfortschritte und die Leistungsprobleme der einzelnen Schüler sowie die Schwierigkeiten verschiedener Lernaufgaben im Unterricht fortlaufend beurteilen zu können, sodass das didaktische Handeln auf diagnostischen Einsichten aufgebaut werden kann (Weinert, 2000, S. 14). Eine Herangehensweise an die diagnostische Kompetenz im Hinblick auf die ihr zugrunde liegenden Kompetenzfacetten ist hilfreich, wenn es um die Entwicklung eines geeigneten Strukturmodells geht (Abs, 2007). Verbunden mit dieser Art der Modellierung ist allerdings die Schwierigkeit, die aus vielen verschiedenen Komponenten bestehenden Modelle empirisch zu validieren. Die Vorgehensweise ist hier eher, durch geeignete Untersuchungen empirische Befunde zu einzelnen Kompetenzfacetten oder/und zu Beziehungen zwischen einzelnen Facetten zu erhalten. Auch die Vorgehensweise der vorliegenden Arbeit folgt diesem Prinzip. Die Konzeptualisierung von diagnostischer Kompetenz als einem Bündel aus verschiedenen Wissensbestände und Fertigkeiten ist in der Forschungsliteratur ebenfalls verbreitet (z. B. Brunner et al., 2006; Helmke, Hosenfeld & Schrader, 2004; Krauss et al., 2004; Schrader, 2008). In der Regel wird in den Beiträgen jedoch nicht der Versuch gemacht, die jeweils betrachtete (fach- bzw. bereichsspezifische) diagnostische Kompetenz umfassend und detailliert in allen ihren angenommenen Facetten zu beschreiben Konzeptualisierung und Modellierung von diagnostischer Kompetenz im Rahmen der Arbeit Im Rahmen dieser Arbeit wird die diagnostische Kompetenz von Lehrkräften als ein komplexes Bündel aus verschiedenen Kompetenzfacetten und verschiedenen Einflussfaktoren verstanden. In Bezug auf den Kompetenzbegriff liegt die weithin gebräuchliche Definition von Weinert (2001) zugrunde. Dieser beschreibt Kompetenz als die bei Individuen verfügbaren oder durch sie erlernbaren kognitiven Fähigkeiten und Fertigkeiten, um bestimmte Probleme zu lösen, sowie die damit verbundenen motivationalen, volitionalen und sozialen Bereitschaften und Fähigkeiten, um die Problemlösungen in variablen Situationen erfolgreich und verantwortungsvoll nutzen zu können (Weinert 2001, S. 27). Ebenso wie bei Weinert umfasst das dieser Arbeit zugrunde liegende Verständnis von diagnostischer Kompetenz nicht nur kognitive Aspekte, sondern auch Aspekte innerhalb der Handlungsdimension und motivationale, emotionale und soziale Gegebenheiten. Auch in anderer Hinsicht liegt ein weit verbreitetes Verständnis von Kompetenz zugrunde: Diagnostische Kompetenz wird in dieser Arbeit als bereichs- bzw. gegenstandsspezifisch, als beeinflussbar durch Lern- und Entwicklungsprozesse und als grundsätzlich stabiles Personenmerkmal angesehen (bezogen auf eine vergleichbare diagnostische 17

24 2 Forschungshintergrund Situation und vergleichbarem Entwicklungsstand der diagnostisch tätigen Person, vgl. hierzu auch Lorenz & Artelt, 2009; Schrader, 2011). Modellierung der diagnostischen Kompetenz im Rahmen der Arbeit Im Folgenden wird ein Modell zur diagnostischen Kompetenz von angehenden Lehrkräften vorgestellt, welches in dem dieser Arbeit übergeordneten Projekt Professionsorientierte Lehrerbildung (für nähere Ausführungen hierzu siehe Kapitel 4.8) entwickelt wurde und als Bezugsgrundlage für diese Arbeit gelten soll. Das Modell ist fach- und bereichsspezifisch angelegt, d. h. es bezieht sich ausschließlich auf die diagnostische Kompetenz angehender Lehrkräfte im Bereich der Naturwissenschaften (Biologie, Chemie, Physik) und der Mathematik. Es beschreibt die unverzichtbaren Bestandteile (Facetten) von diagnostischer Kompetenz sowie ihre als notwendig erachteten Voraussetzungen. Weiterhin beschreibt es die zu entwickelnden Kompetenzen zu diagnostischen Verfahren, zu deren Einsatz, dem Nutzen der Ergebnisse von Diagnostik und dem Nutzen von Diagnostik zur Planung und (ggf.) Durchführung von Unterricht. Professionsorientierte Kompetenzen, die nicht in mittelbaren Zusammenhang mit Diagnostik stehen, werden nicht beschrieben. Zusätzlich zu den Facetten sind im Modell Standards formuliert, welche dazu dienen, die Facetten zu präzisieren und zu operationalisieren. In das Modell aufgenommen sind darüber hinaus analog zu dem Modell professioneller Handlungskompetenz von Baumert und Kunter (2006) vermutete Einflussfaktoren wie motivationale Orientierungen, Überzeugungen und selbstregulative Fähigkeiten (vgl. Abb. 2.1). Das Modell ist beschränkt auf die erste Phase der Lehramtsausbildung, d. h. es umfasst nur solche Kompetenzen, deren Etablierung in der ersten Phase der Lehramtsausbildung zumindest in Ansätzen möglich erscheint. Es beschränkt sich außerdem auf die Kompetenzbereiche Fachwissen und Erkenntnisgewinnung (in Bezug auf die durch die Lehrkräfte zu diagnostizierenden Kompetenzen der Schüler), die beiden Kompetenzbereiche Kommunikation und Bewertung wurden (zunächst noch) ausgeschlossen. Die im Diagnosekompetenzmodell vorgenommene Modellierung basiert auf dem in Kapitel 2.1 beschriebenen Modell von Shulman (1987) und der im gleichen Kapitel beschriebenen weiterführenden Modellierung der professionellen Handlungskompetenz von Lehrkräften nach Baumert und Kunter (2006) bzw. nach Brunner und Mitarbeitern (2006). Die Auswahl und Begründung der im Modell beschriebenen Kompetenzfacetten und Standards erfolgte in Anlehnung an die in der Forschungsliteratur beschriebenen Facetten von diagnostischer Kompetenz (z. B. Abs, 2007; Becker et al., 2006; Bromme, 2008; Hascher, 2008; Helmke, 2009; Hesse & Latzko, 2009; Horstkemper, 2004, 2006; Kliemann, 2008; Paradies et al., 2007; Schrader, 2008, 2011), anhand bestehender Standards zur Lehrerbildung (z. B. KMK, 2004; Oser, 2001; PHZ, 2007) und basierend auf eigenen Überlegungen der Projektbeteiligten und deren Forschungsarbeiten (z. B. von Aufschnaiter, 2007, 2009; von Aufschnaiter & von Aufschnaiter, 2005; Mayer, 2007). 18

25 2 Forschungshintergrund Die erste Version des Modells (beschrieben in von Aufschnaiter et al., 2009; Dübbelde et al., 2010) weist noch eine starke Anlehnung an das in Kapitel 2.1 beschriebene Shulman-Modell auf mit der Unterteilung in die drei Bereiche Fachwissen (FW bzw. content knowledge, CK), fachdidaktisches Wissen (FDW bzw. pedagogical content knowledge, PCK) und allgemeines pädagogisches Wissen (PW bzw. pedagogical knowledge, PK). Die im Sinne von diagnostischer Kompetenz als bedeutsam erachteten Kompetenzfacetten sind auch in diesem ersten Diagnosekompetenzmodell den drei Wissensbereichen CK, PCK und PK zugeordnet. Mit dieser Vorgehensweise sollte die Anschlussfähigkeit an die Diskussionen und Forschungsarbeiten im Rahmen des Professionswissens gewährleistet werden. Weiterhin umfasst das Modell in der ersten Version 48 Standards. Diese recht hohe Anzahl resultiert aus der Absicht, eine möglichst genaue Beschreibung der diagnostischen Kompetenz zu erreichen. In einer Fortentwicklung der ersten Version (siehe Abb. 2.4) wurden die Facetten inhaltlich neu strukturiert in die drei Bereiche Zentrale Voraussetzungen für Diagnostische Kompetenz (V1, V2), Facetten Diagnostischer Kompetenz (D1 bis D3) und Diagnostische Kompetenz als Ausgangspunkt von Förderung (F). Abb. 2.4: Modell zur diagnostischen Kompetenz entwickelt im Projekt Professionsorientierte Lehrerbildung (vgl. Kap. 4.8) Die Gründe für die Umstrukturierung waren inhaltlicher Natur: Es schien wichtiger, die im Sinne der diagnostischen Kompetenz als Kernkompetenzen zu betrachtenden Facetten (wie das Wissen über diagnostische Verfahren, über fachspezifische kognitive Schülerkompetenzen, über Schülerlernprozesse und über typische Schüler(fehl-)vorstellungen) von denjenigen abzugrenzen, die eher Voraussetzungen für die diagnostische Kompetenz darstellen (wie angemessene fachmethodische Kenntnisse der Lehramtsstudierenden und ein angemessenes Fachwissen). Solche als Voraussetzung zu betrachtenden Kompetenzen waren im Vorläufermodell überwiegend im Bereich CK angesiedelt gewesen. In dem neu abgegrenzten Bereich der Diagnostischen Kompetenz als Ausgangspunkt für Förderung wurden diejenigen Facetten und Standards zur diagnostischen Kompetenz verortet, die den Übergang sichern zwischen Diagnoseergebnissen auf der einen Seite und dem Nutzen dieser 19

26 2 Forschungshintergrund Ergebnisse auf der anderen Seite. Mit der Etablierung dieses dritten Bereiches sollte die Bedeutung von Diagnostik auch für andere Ziele als nur für das klassische Ziel der Leistungsbewertung herausgestrichen werden. Zu nennen sind hier z. B. das Nutzen von Diagnoseergebnissen als Ausgangspunkt für Förderung, für eine auf diagnostischen Einsichten aufbauende Unterrichtsplanung und für eine auf den Diagnoseergebnissen beruhende Rückmeldung an Schüler, Eltern oder Kollegen. Schrader schreibt in diesem Sinne mit Bezug auf andere Forschungsarbeiten: Die Rückmeldung und Rezeption von solchen Ergebnissen [gemeint sind Diagnoseergebnisse] und deren Nutzung für Zwecke der Schul- und Unterrichtsentwicklung haben in den letzten Jahren stark Beachtung gefunden. [ ] Neuere Entwicklungen der pädagogischen Diagnostik zielen auf eine stärkere Integration von Diagnostik und Lernen, d. h. eine stärkere Nutzbarmachung von diagnostischen Erhebungen für die Verbesserung von Lernprozessen, ab (Schrader, 2011, S. 686 und S. 687). Einhergehend mit der Umstrukturierung des Modells erfolgte eine Kondensierung der Standards und eine Ausschärfung dieser im Hinblick auf die im Gesamtprojekt definierten vier Diagnoseformen Statusdiagnostik, Prozessdiagnostik, Veränderungsdiagnostik und Verlaufsdiagnostik. Letzteren kommt eine besondere Bedeutung zu für das Beschreiben der diagnostischen Kompetenz. Nähere Ausführungen zu den vier Diagnoseformen werden in den folgenden Abschnitten in diesem Kapitel gegeben. Das umstrukturierte Modell hat weiterhin den Vorteil, dass es in der reduzierten Form überschaubarer und besser kommunizierbar ist und sich darüber hinaus für eine zukünftige Niveaustufung von Ausprägungen diagnostischer Kompetenz besser eignet. Das komplette Diagnosekompetenzmodell inklusive aller Standards befindet sich im Anhang dieser Arbeit. Konzeptualisierung von Statusdiagnostik und Prozessdiagnostik Die beiden Begriffe Statusdiagnostik und Prozessdiagnostik werden in der Forschungsliteratur und in der Schulpraxis häufig als zwei Pole einander gegenüber gestellt (z. B. Horstkemper, 2006, Kretschmann, 2009; Schrader, 2008, S. 169; Schrader, 2011, S. 684; Siemes, 2008, S. 12; Wild, Maller & Möller, 2009, S. 309). Obwohl diese Art der Unterscheidung in der pädagogischen Diagnostik gängige Praxis ist, findet sich doch oft ein sehr unterschiedliches Verständnis der Begriffe. So schreibt Schrader: Bei Statusdiagnostik geht es um die Erfassung relativ stabiler Personenmerkmale oder Lernvoraussetzungen wie Intelligenz oder Ängstlichkeit. Prozessdiagnostik bezieht sich auf die Erfassung von Verläufen und Veränderungen bei modifizierbaren Merkmalen, insbesondere von Lernergebnissen, und erfolgt durch wiederholte Messungen (Schrader, 2011, S. 684). Schrader sieht die Unterscheidung demnach in der Stabilität des zu messenden Merkmals: Sind diese (relativ) stabil, wie z. B. Personenmerkmale, werden sie entsprechend seiner Auffassung mit (einmaliger) Statusdiagnostik erhoben. Handelt es sich im Gegensatz dazu um modifizierbare 20

27 2 Forschungshintergrund Merkmale wie z. B. Lernergebnisse, werden sie gemäß seiner Sichtweise mit Prozessdiagnostik, d.h. entsprechend seiner Auffassung mit wiederholten Messungen erfasst. Horstkemper (2006) unterscheidet Status- und Prozessdiagnostik dahingehend, ob entweder der (relativ stabile) Zustand einer Schülerin bzw. eines Schülers erfasst wird oder aber Aspekte untersucht werden, die eine Veränderung beim Kind ermöglichen: Statusdiagnostik richtet sich auf die Erfassung des Zustands einer Person (Annahme relativer Stabilität). [ ] Prozessdiagnostik richtet sich auf die Erfassung der Aspekte, die einen Veränderungsprozess ermöglichen (Annahme kurz-, mittel- und langfristiger Entwicklungsmöglichkeit) (Horstkemper, 2006, S. 5). Auch Siemes (2008) unterscheidet Status- und Prozessdiagnostik in diesem Sinne. Damit einhergehend zieht sie Parallelen zur Selektionsdiagnostik bzw. zur Förderdiagnostik: Bei der Statusdiagnostik wird überwiegend der Zustand einer Person erfasst. Dieses ist insbesondere bei Grundschulgutachten, bei einer möglichen Überweisung auf eine Förderschule, bei weiterer Förderung aufgrund von Hochbegabungen usw. von Bedeutung. Statusdiagnostik ist somit Selektions- bzw. Auslesediagnostik. [ ] Bei aller Art von Laufbahnempfehlungen hat die Statusdiagnostik ihre Berechtigung (Siemes, 2008, S. 12f). Bei der Prozessdiagnostik werden die Aspekte untersucht, die eine Veränderung beim Kind ermöglichen. Dieses kann ein Stärken/Schwächen-Profil oder eine Verhaltensanalyse sein. Wichtig ist, dass der Lernprozess im Fokus steht, z. B. durch ein Interview, durch Beobachtungen oder durch Analyse von Eigenproduktionen wie Lerntagebüchern. Der Schwerpunkt liegt immer auf der Entwicklungsmöglichkeit des Kindes. Prozessdiagnostik ist also Modifikations- bzw. Förderdiagnostik: Es werden Maßnahmen vorgeschlagen, wie ein Kind besser begleitet werden kann (Lernberatung, Maßnahmen zur Verhaltensänderung usw.) (Siemes, 2008, S. 13). Einen etwas anderen Blickwinkel als die oben beschriebenen nimmt Kretschmann bei seinen Ausführungen über Prozessdiagnosen ein (Kretschmann, 2009, S. 26 ff, hier verkürzt wiedergegeben): Bei den Prozessdiagnosen handelt es sich um Diagnoseverfahren zu verschiedenen lernrelevanten Kompetenzen und Verhaltensweisen, um zu ermitteln, welche Lernschritte vollzogen wurden (und welche nicht). In den Prozessdiagnosen findet nicht nur das Arbeitsergebnis Beachtung, sondern auch die Herangehensweise an die Aufgabe. Der Prozesscharakter kommt auch dadurch zum Ausdruck, dass nicht nur die kognitiven Leistungen abgebildet werden, sondern auch den emotionalen Prozessen nachgegangen werden kann, die das Lernen der Kinder begleiten. Kretschmann sieht den Unterschied zwischen beiden Diagnoseformen also weniger in der Betrachtung, ob es sich um ein relativ stabiles Merkmal handelt oder ein veränderliches bzw. ein Merkmal, welches zu einer Veränderung beim Kind führen kann, sondern legt seiner Unterscheidung vor allem zugrunde, ob nur das Arbeitsergebnis betrachtet wird oder auch die Herangehensweise zum 21

28 2 Forschungshintergrund Erreichen dieses Ergebnisses. Eine gewisse Unschärfe bei der Definition seines Verständnisses von Prozessdiagnosen bleibt allerdings vorhanden, insbesondere in der Abgrenzung zur Statusdiagnostik. Eine ähnliche Sichtweise wie Kretschmann (2009) scheint auch Hascher (2008) zu vertreten, wobei diese die Begriffe Leistungsdiagnostik und Lernprozessdiagnostik bevorzugt: Für den Schulalltag erscheinen hierbei zwei weitere Formen der Diagnostik als zentral. Zum einen ist dies die Diagnostik der Leistungen bzw. des Lernerfolgs. Dabei wird das Ausmaß und die Qualität des vollzogenen Lernprozesses nach Abschluss des Lernprozesses erhoben. Zum anderen handelt es sich um die Diagnostik des Lernprozesses, in der der Lernstand aktuell und während seiner Entwicklung beurteilt wird (siehe auch Mietzel, 2003). Eine sorgfältige Lernprozessdiagnostik impliziert, das Lernen kontinuierlich zu analysieren. [ ] Die beiden Formen basieren auf unterschiedlichen Fragestellungen. Wird der Lernerfolg bzw. die Leistung diagnostiziert, so liegt der Fokus auf der Frage, was gelernt wurde und wie gut die neuen Kompetenzen verankert sind. Wie diese gelernt wurden, ist nur von sekundärem Interesse und fließt in der Regel nicht in die Beurteilung ein. [ ] Leistungsdiagnostik erhebt den augenblicklichen Lernstand der Schüler/innen, [ ] (Hascher, 2008, S. 75f, Hervorhebungen im Original). Trotz der von Hascher sehr klar beschriebenen Fokussierung ihres Verständnisses von Lernprozessdiagnostik auf den Prozess des Lernens wird auch bei ihr nicht deutlich, ob sie hierunter nicht ebenfalls wiederholte Erhebungen von Lernständen versteht. Eine gewisse Unschärfe in der Begriffsdefinition bleibt daher auch hier. Insgesamt wird sichtbar, dass hinter den in der Forschungsliteratur gängigen Begriffen Statusdiagnostik und Prozessdiagnostik vielfältige Auffassungen stehen. Statusdiagnostik und Prozessdiagnostik im Verständnis der Arbeit Im Rahmen des im Projekt Professionsorientierte Lehrerbildung (Kapitel 4.8) entwickelten Diagnosekompetenzmodells und im Rahmen dieser Arbeit werden die Begriffe Statusdiagnostik und Prozessdiagnostik nach der Art und dem zugrundeliegenden Verfahren der Kompetenzmessung unterschieden: Statusdiagnostik meint in diesem Sinne das Erfassen von aktuell vorliegenden Kompetenzen (wie z. B. Wissen) oder Personenmerkmalen (wie z. B. Interesse, Motivation). Statusdiagnostik nutzt Verfahren wie die Analyse der Ergebnisse von Aufgabenbearbeitungen, die Analyse von Schülerzeichnungen oder die Analyse der Ergebnisse aus Fragebogenbearbeitungen. Statusdiagnostik dient in der Regel dem Erfassen von aktuell vorliegenden Kompetenzen am Ende einer Lerneinheit oder dem Erfassen von Lernvoraussetzungen wie den Kompetenzen der Schüler vor einer geplanten Lerneinheit. Es können aber auch aktuell vorliegende Kompetenzen im Sinne von Zwischenständen erhoben werden. Prozessdiagnostik dagegen nimmt Bearbeitungsprozesse in den Fokus und erfasst, auf welche Weise Arbeitsergebnisse situativ entstehen. Prozessdiagnostik nutzt ganz andere diagnostische Verfahren als 22

29 2 Forschungshintergrund Statusdiagnostik, indem hier in der Regel die Bearbeitungsprozesse zu einzelnen Aufgaben im Fokus stehen. Häufig eingesetzte Verfahren sind Videoanalysen oder das kriteriengeleitete Beobachten von Arbeitsprozessen. Entgegen der Definition von Schrader (2011) stellt ein wiederholtes Durchführen von Statusdiagnosen nach dem dieser Arbeit zugrunde gelegten Verständnis keine Prozessdiagnostik dar, sondern es bleibt bei (in mehr oder weniger dichter zeitlicher Abfolge stattfindenden) Statusdiagnosen. Auch die bei Siemes (2008) vertretene Auffassung, Statusdiagnostik sei Selektionsdiagnostik und Prozessdiagnostik sei Modifikationsdiagnostik, ist im Rahmen des Verständnisses dieser Arbeit und im Gesamtprojekt nicht intendiert. Entsprechend der hier vertretenen Ansicht kann jede Diagnoseform sowohl für Förderung als auch für Selektion genutzt werden. Veränderungsdiagnostik und Verlaufsdiagnostik im Verständnis der Arbeit In Diagnosekompetenzmodell werden zusätzlich zur Status- und Prozessdiagnostik zwei weitere Diagnoseformen unterschieden, die Bedeutung haben für die Beschreibung von diagnostischer Kompetenz: Veränderungsdiagnostik und Verlaufsdiagnostik. Veränderungsdiagnostik zielt darauf ab, Veränderungen von Kompetenzen, Interessen, Motivationslagen oder Arbeitsweisen zu erfassen, indem die Befunde von zwei (oder mehr) Zeitpunkten miteinander verglichen werden. Erfasst wird dabei der Kompetenzzuwachs bzw. die Veränderung des betrachteten Merkmals zwischen den zwei statusdiagnostischen Untersuchungen oder die Veränderungen zwischen zwei vergleichbaren Aufgabenbearbeitungen. Das Konzept der Veränderungsdiagnostik im Sinne dieser Arbeit ist gut mit der Idee der Prozessdiagnostik nach Schrader (2011) in Deckung zu bringen. Typisches Beispiel für Veränderungsdiagnostik im Vergleich der Befunde aus zwei Statusdiagnosen ist der Vergleich der vorliegenden Kompetenzen vor und nach einer Lerneinheit. Typisches Beispiel für Veränderungsdiagnostik im Vergleich der Befunde aus zwei Prozessdiagnosen ist der Vergleich von zwei Aufgabenbearbeitungen zweier vergleichbarer Aufgaben, die vor und nach einer Lerneinheit stattfinden. Verlaufsdiagnostik hat zum Ziel, Lernverläufe zu analysieren. Bei dieser Diagnoseform geht es darum, wie sich spezifische Kompetenzen von Schülern über einen (längeren) Zeitraum entwickeln. Erfasst wird, in welcher Weise und über welche Entwicklungsschritte (im Laufe des betrachteten Zeitraumes) eine neue (Teil-)Kompetenz entsteht bzw. sich entwickelt. Analysiert werden hierfür alle Bearbeitungsprozesse und Lernergebnisse, die im betrachteten Zeitraum auf den Aufbau der entsprechenden Kompetenz gerichtet sind. Neben den Bearbeitungsprozessen und Lernergebnissen im Unterricht gehören streng genommen auch alle informellen Lernprozesse dazu, wie z. B. ein mit der Thematik in Zusammenhang stehendes Gespräch zwischen zwei Schülern auf dem Schulweg. Das Erfassen solcher Lernverläufe ist schwierig, da natürlich nur idealtypisch gesehen alle auf die entsprechende Kompetenz ausgerichteten Bearbeitungsprozesse und Lernergebnisse erfasst werden können. Verfahren, die sich in einer praxistauglichen Variante für das Erfassen von kürzeren Lernverläufen eignen, sind z. B. von Schülern angefertigte Lerntagebücher in Verbindung mit 23

30 2 Forschungshintergrund Videoaufzeichnungen des Unterrichtsgeschehens. In der Forschungsliteratur taucht der hier beschriebene Blickwinkel der Verlaufsdiagnostik kaum auf. Schrader (2011, S. 684) beschreibt zwar diese Form der Diagnostik, subsummiert sie aber ebenfalls unter dem Begriff Prozessdiagnostik. Bei van Buer und Zlatkin-Troitschanskaia (2009, S. 389) findet sich sogar der Begriff Verlaufsdiagnostik, wird von ihnen aber als möglichst zeitdichte diagnostische Expertisen interpretiert, d. h. eher als eine Folge von Veränderungsdiagnosen gesehen. Abb. 2.5 stellt das in den vorigen Abschnitten beschriebene Verständnis und das Zusammenspiel der vier Diagnoseformen in einem Schaubild dar. Statusdiagnostik: Erfassen von aktuell vorliegenden Kompetenzen bzw. Personenmerkmalen, oft durch Analyse von Arbeitsergebnissen Prozessdiagnostik: Analyse von Bearbeitungsprozessen, oft durch Analyse von Aufgabenbearbeitungen Veränderungsdiagnostik: Erfassen von Veränderungen zwischen zwei Zeitpunkten (Kompetenz- bzw. Merkmalsveränderungen oder Veränderungen bei den Aufgabenbearbeitungen) Zeitpunkt 1 Annahme eines Lernprozesses Zeitpunkt 2 Verlaufsdiagnostik: Analyse eines Lernverlaufs Abb. 2.5: Übersicht über das Zusammenspiel der vier Diagnoseformen, entwickelt im Projekt Professionsorientierte Lehrerbildung (vgl. Kap. 4.8) (Für eine detaillierte Begriffsdefinition sei auf die Ausführungen in diesem Kapitel verwiesen) Aufbauend zu den in diesem Kapitel vorgestellten Formen von Diagnostik soll ein auf die vier Diagnoseformen bezogenes Verständnis von der diagnostischen Kompetenz von Lehramtsstudierenden ergänzt werden: Diagnostische Kompetenz umfasst die Kompetenz der (angehenden) Lehrkräfte, das Wissen, die Fähigkeiten, die Interessen, die Selbstkonzepte etc. von Schülern zu erfassen und zu beurteilen (Statusdiagnostik). Darüber hinaus umfasst sie die Kompetenz der (angehenden) Lehrkräfte zur Analyse und Beurteilung von Prozessen der Aufgabenbearbeitung (Prozessdiagnostik). Weiterhin beinhaltet sie die Fähigkeit der (angehenden) Lehrkräfte zum Identifizieren von Lernfortschritten bzw. von Kompetenzzuwächsen (oder das Nichtvorhandensein dieser) (Veränderungsdiagnostik). Und sie umfasst die Kompetenz der (angehenden) Lehrkräfte verfolgen zu können, inwiefern eine Serie von Lernaufgaben bzw. eine Folge von aufeinander abgestimmten Instruktionen bei Schülern zum Aufbau neuer Konzepte/Kompetenzen beiträgt (Verlaufsdiagnostik). 24

31 2 Forschungshintergrund Im Verständnis dieser Arbeit und bei dem zugrunde gelegten Diagnosekompetenzmodell nehmen die vier verschiedenen Formen von Diagnostik einen wichtigen Stellenwert ein. So sind nicht nur die Standards des Diagnosekompetenzmodells auf die Diagnoseformen abgestimmt, sondern auch die im Rahmen dieser Arbeit entwickelten Erhebungsinstrumente. Insbesondere berücksichtigen die in den verschiedenen Untersuchungen eingesetzten Instrumente die Unterscheidung von Statusdiagnostik und Prozessdiagnostik und testen statusdiagnostische und prozessdiagnostische Kompetenzen der Lehramtsstudierenden für bestimmte Bereiche innerhalb der naturwissenschaftlichen Erkenntnisgewinnung. Formelle und Informelle Diagnostik Die im Rahmen der vorliegenden Arbeit entwickelten Erhebungsinstrumente sind Instrumente der formellen Diagnostik. Auch die Standards des Diagnosekompetenzmodells beinhalten überwiegend Aspekte von diagnostischer Kompetenz, die sich auf formelle Diagnoseleistungen der Studierenden beziehen. Formelle Diagnostik meint in diesem Zusammenhang ein diagnostisches Vorgehen, welches sich auf eine explizite Zielsetzung oder Fragestellung bezieht und mit Hilfe von reflektiert und kontrolliert eingesetzten diagnostischen Verfahren (in der Regel sprachlich oder schriftlich kommunizierte) Urteile erstellt (Ingenkamp & Lissmann, 2008). Informelle Diagnosen dagegen sind intuitive Urteile, Einschätzungen und Erwartungen, die oft beiläufig und unsystematisch im Rahmen des alltäglichen erzieherischen Handelns gewonnen werden und direkt in Entscheidungen einmünden. Viele Diagnoseleistungen von Lehrern sind alltagsnahe informelle Beurteilungen, welche von daher im Schulalltag eine große Rolle spielen. Häufig jedoch sind sie im Vergleich zu exakten Messungen defizitär. Formelle Diagnoseleistungen der Studierenden schaffen daher die Grundlage dafür, dass die zunächst auf bewusste und explizite Weise erbrachten Leistungen im Laufe der Schulpraxis immer stärker auch in implizite Handlungsroutinen übergehen können (Schrader, 2011, S. 693 und S. 694) und dadurch mithelfen, Fehler bei der informellen alltäglichen Diagnostik zu vermeiden. Die in den Standards abgebildeten Aspekte der formellen Diagnostik stellen von daher eine geeignete Ausgangsbasis für die Diagnosekompetenz der angehenden Lehrkräfte dar. 2.3 Diagnostische Kompetenz im Bereich Erkenntnisgewinnung Seit Inkrafttreten der von der Kultusministerkonferenz beschlossenen Bildungsstandards für den mittleren Schulabschluss in den drei naturwissenschaftlichen Fächern Biologie, Chemie und Physik (KMK, 2005a, 2005b, 2005c) stellen die vier Kompetenzbereiche Fachwissen, Erkenntnisgewinnung, Kommunikation und Bewerten verbindliche Vorgaben für die naturwissenschaftlichen Schulfächer dar und sollten deshalb auch Gegenstand von Fragen der Lehrerprofessionalisierung sein. Trotz der hohen Relevanz der diagnostischen Kompetenz (vgl. Kapitel 2.2.1) haben sich innerhalb der Biologiedidaktik bislang nur wenige Studien mit der Untersuchung der diagnostischen Kompetenz von 25

32 2 Forschungshintergrund Lehrkräften beschäftigt. Am ehesten findet man in der Forschungsliteratur noch Studien zum fachdidaktischen Wissen von (angehenden) Biologie-Lehrkräften, welche die diagnostische Kompetenz als Bestandteil des fachdidaktischen Wissens mit untersucht haben. In vielen Fällen wird dabei die diagnostische Kompetenz darauf operationalisiert, inwieweit Lehrkräfte inhaltsbezogene Schüler(fehl)vorstellungen angemessen beurteilen können (Jüttner & Neuhaus, 2010; Jüttner & Neuhaus, 2011; Legl & Nerdel, 2011; Schmelzing, 2010; Schmelzing et al., 2010). Daneben finden sich einige wenige Arbeiten, die sich mit Diagnosekompetenz von Lehrkräften im Zusammenhang mit dem Kompetenzbereich Bewerten beschäftigen (z.b. Alfs & Hößle, 2012; Heusinger von Waldegge & Hößle, 2010). Mit der Untersuchung der diagnostischen Kompetenz von Lehrkräften zum Bereich Erkenntnisgewinnung richtet die vorliegende Arbeit den Blick auf einen weiteren Kompetenzbereich der Bildungsstandards. Abgeschlossene und veröffentlichte Studien in diesem Bereich gibt es zum Zeitpunkt der Schreibung dieser Arbeit nicht. Die wenigen existierenden Studien befinden sich zu diesem Zeitpunkt mit Ausnahme der vorliegenden Arbeit noch am Anfang ihrer Untersuchungen, wie z. B. die Arbeit von Jahnke und Hößle (2011) oder die Studien im Zusammenhang mit dem Projekt ExMo (Hammann et al., 2012) Der Kompetenzbereich der naturwissenschaftlichen Erkenntnisgewinnung Den Bezugsrahmen für den Kompetenzbereich Erkenntnisgewinnung stellt das Rahmenkonzept wissenschaftsmethodischer Kompetenzen von Mayer (2007) dar (Abb. 2.6). Abb. 2.6: Rahmenkonzept wissenschaftsmethodischer Kompetenzen nach Mayer (2007), S. 178 In diesem werden in der Ausdifferenzierung des Kompetenzbereichs Erkenntnisgewinnung drei Bereiche abgesteckt: Der Bereich Charakteristika der Naturwissenschaften (Nature of Science), der 26

33 2 Forschungshintergrund Bereich Wissenschaftliche Untersuchungen (Scientific Inquiry) und der Bereich Wissenschaftliche Arbeitstechniken (Practical Work). Zu jedem der drei Bereiche nennt das Rahmenkonzept ein darauf abgestimmtes Kompetenzkonstrukt: das Wissenschaftsverständnis ( Epistemological beliefs ), das Wissenschaftliche Denken ( Scientific Reasoning ) und die Manuellen Fertigkeiten ( Practical Skills ). In den folgenden Abschnitten werden die drei genannten Kompetenzkonstrukte und die mit ihnen verbundenen Bereiche genauer beschrieben, da sich sowohl die in dieser Arbeit eingesetzten Instrumente als auch das vorgestellte Diagnosekompetenzmodell auf das Rahmenkonzept von Mayer (2007) und die entsprechenden Ausdifferenzierungen beziehen. Scientific Inquiry und das Kompetenzkonstrukt des Wissenschaftlichen Denkens Unter einer naturwissenschaftlichen Untersuchung ist das kriteriengeleitete Experimentieren, Beobachten oder Vergleichen zu verstehen. Dabei kann die naturwissenschaftliche Untersuchung entsprechend der Auffassung von Mayer (2007) analog zu einem Problemlöseprozess verstanden werden. Bei dieser Betrachtungsweise wird der Prozess der naturwissenschaftlichen Erkenntnisgewinnung als relativ komplexer, wissensbasierter Problemlöseprozess gesehen, der durch spezifische Prozeduren charakterisiert ist und der zusätzlich von Personenvariablen (wie den kognitiven und praktischen Fähigkeiten der Untersuchenden) und von Situationsvariablen (wie den zur Verfügung stehenden Materialien) beeinflusst wird. Die spezifischen Prozeduren bestehen in für einen Erkenntnisprozess charakteristischen Vorgehensweisen, verbundenen mit typischen Denkschritten und typischen Arbeitshandlungen. Abb. 2.7: Schrittabfolge bei naturwissenschaftlichen Untersuchungen im Rahmen von Scientific Inquiry Abb. 2.7 zeigt die typischen Schritte im Rahmen eines solchen Erkenntnisprozesseses entsprechend des Verständnisses von Mayer (2007): Eine geeignete Fragestellung entwickeln, eine geeignete und auf die Fragestellung bezogene Hypothese aufstellen, eine zur aufgestellten Hypothese passende Untersuchung planen, die Durchführung und Dokumentation dieser Untersuchung und die Analyse der 27

34 2 Forschungshintergrund gewonnenen Daten mit abschließender Schlussfolgerung in Bezug auf die ursprünglich aufgestellte Hypothese und die zugrunde liegende Fragestellung. Das im Rahmenkonzept von Mayer (2007) angesprochene Kompetenzkonstrukt Scientific Reasoning (Wissenschaftliches Denken) fokussiert nicht auf sämtliche Aspekte innerhalb des Bereichs Scientific Inquiry, sondern nur auf die kognitiven Aspekte des naturwissenschaftlichen Untersuchens, also diejenigen, die kein praktisches Arbeiten erfordern. In dem auf das Kompetenzkonstrukt abgestimmten Strukturmodell zum Wissenschaftlichen Denken (Abb. 2.8) wird das Konstrukt des Wissenschaftlichen Denkens ebenfalls als eine Art Problemlöseprozess mit aufeinanderfolgenden Schritten (den sogenannten Prozessvariablen ) verstanden. Im Modell bestehen diese aus den vier Dimensionen eine geeignete Fragestellung entwickeln, eine geeignete Hypothese aufstellen, Planen einer passenden Untersuchung und Datenanalyse und Dateninterpretation. Ebenso wie beim Wissenschaftlichen Untersuchen werden in dem Modell Einflussfaktoren in Form von Personenvariablen (Inhaltswissen, Methodenwissen und kognitive Fähigkeiten) beschrieben. Abb. 2.8: Modell zum Wissenschaftlichen Denken (Scientific Reasoning) nach Mayer (2007), S. 181 In verschiedenen Studien wurde dieses vierdimensionale Modell zum Wissenschaftlichen Denken empirisch überprüft und konnte im Rahmen dieser Untersuchungen validiert werden (Grube, 2010; Grube & Mayer, 2010; Mayer, Grube & Möller, 2008). Ergänzend zu dem vierdimensionalen Kompetenzstrukturmodell zum Wissenschaftlichen Denken wurden für jede der vier Dimensionen von Scientific Reasoning fünf Niveaustufen entwickelt (Grube, 2010; Grube & Mayer, 2010; Mayer, Grube, & Möller, 2008; Möller & Mayer, 2011). Diese beschreiben Leistungsniveaus, welche durch a priori festgelegte Kriterien bestimmt sind. Diese die Leistungsniveaus beschreibenden Kriterien sind nach Komplexität und qualitativen Gesichtspunkten aufeinander aufbauend gestaltet (Abb. 2.9). Die Ausdifferenzierung des Kompetenzstrukturmodells in Niveaustufen ermöglicht ein differenzierteres Betrachten von Schülerleistungen und darüber hinaus Aussagen über die Entwicklung von Schülerkompetenzen im Bereich des naturwissenschaftlichen 28

35 2 Forschungshintergrund Denkens im Verlauf ihrer Schulzeit (Grube & Mayer, 2010). Im Zusammenhang mit der diagnostischen Kompetenz im Bereich der Erkenntnisgewinnung können diese theoretisch gut fundierten und empirisch gestützten Schülerleistungsniveaus genutzt werden, um zu untersuchen, inwiefern (angehende) Lehrkräfte in der Lage sind, das Leistungsniveau von Schülern korrekt zu beurteilen. Dies ist einer der Ansatzpunkte der vorliegenden Arbeit. Abb. 2.9: Kompetenzniveaus der vier Teilkompetenzen des Wissenschaftlichen Denkens (nach Grube, 2010, S. 37) (nw.=naturwissenschaftlich) An dieser Stelle soll darauf hingewiesen werden, dass der Begriff Experimentieren im Zusammenhang mit Erkenntnisgewinnung immer den gesamten Prozess meint und nicht nur die manuelle Tätigkeit im Rahmen der Durchführung des Experiments. Nature of Science und das Kompetenzkonstrukt Wissenschaftsverständnis Der Bereich Charakteristika der Naturwissenschaften (Nature of Science), welcher im Zusammenhang mit dem Wissen der Studierenden im Bereich Erkenntnisgewinnung ein Untersuchungsgegenstand dieser Arbeit ist, umfasst nach dem in Abb. 2.6 beschriebenen Rahmenkonzept von Mayer (2007) die charakteristischen Grundzüge und Grenzen des naturwissenschaftlichen Wissens. Hierzu gehört z. B. das Beurteilen der Aussagekraft von naturwissenschaftlichen Modellen und das Zusammenspiel von Naturwissenschaft und Gesellschaft. Das mit dem Bereich Nature of Science verbundene Kompetenzkonstrukt Wissenschaftsverständnis beinhaltet vor allem epistemologische Vorstellungen und Überzeugungen über das naturwissenschaftliche Wissen und den Wissenserwerb. Beschäftigt man sich in Wissenschaftlichen Untersuchungen mehr mit dem Generieren von wissenschaftlichen Erkenntnissen, so zielt das Kompetenzkonstrukt des Wissenschaftsverständnisses darauf ab, das neu entstandene Wissen kritisch 29

36 2 Forschungshintergrund zu beleuchten, zu reflektieren und dadurch die Aussagekraft der naturwissenschaftlichen Erkenntnisse einschätzen zu können. Viele Arbeiten vor allem im amerikanischen Raum beschäftigen sich seit langem mit dem Bereich Nature of Science und der Frage nach einem angemessenen Wissenschaftsverständnis (Chen, 2006; Lederman, Abd-El-Kahlick, Bell & Schwartz, 2002; Liang et al., 2006; McComas & Olson, 1998; Osborne et al., 2003; Schwartz, Lederman & Lederman, 2008). Auch wenn in der Forschungsliteratur keine Einigung über die anzunehmenden Dimensionen im Bereich Nature of Science besteht, zeichnen sich verschiedene Kerndimensionen heraus, die sowohl im amerikanischen wie auch im deutschsprachigen Raum ihre Anerkennung finden. Tab. 2.1 listet solche häufig genannten Kerndimensionen im Bereich Nature of Science auf. In der linken Spalte der Tabelle findet sich die Dimension in einer häufig verwendeten Kurzbeschreibung, in der rechten Spalte werden Studien genannt, die diese Dimension als bedeutend für den Bereich Nature of Science herausstreichen. Das in dieser Arbeit eingesetzte Untersuchungsinstrument zum Wissenschaftsverständnis der Studierenden greift auf die in der Tabelle genannten Kerndimensionen zurück (vgl. Kap ).Tab. 2.1: Kerndimensionen zum Bereich Nature of Science Kerndimensionen zu Nature of Science Belegstudien 1. Sicherheit / Wahrheit des naturwiss. Wissens Chen, 2006; Lederman et al., 2002; McComas & Olsen, 1998; Osborne et al., 2003; Urhane et al., Stabilität vs. Dynamik des naturwiss. Wissens Lederman et al., 2002 ; Liang et al., 2006; McComas & Olsen, 1998; Osborne et al., 2003; Urhahne et al., Einfachheit vs. Komplexität des naturwiss. Wissens Urhahne et al., Rechtfertigung des naturwiss. Wissens Lederman et al., 2002; McComas & Olsen, 1998; Osborne et al., 2003; Urhahne et al., Herkunft des naturwiss. Wissens McComas & Olsen, Kreativität und naturwiss. Wissen Lederman et al., 2002; Liang et al., 2006; McComas & Olsen, 1998; Osborne et al., 2003; Urhahne et al., Gesellschaftliche Einflüsse auf das naturwiss. Wissen 8. Subjektivität vs. Objektivität des naturwiss. Wissens Lederman et al., 2002; Liang et al., 2006; McComas & Olsen, 1998; Osborne et al., 2003; Urhahne et al., 2008 Chen, 2006; McComas & Olsen, 1998; Lederman et al., Zweck / Ziel der Naturwissenschaften McComas & Olsen, 1998; Urhahne et al., Unterscheidung von Theorien und Gesetzen Chen, 2006; Lederman et al., 2002; Liang et al., 2006; McComas & Olsen, 1998; Urhahne et al., Mythos einer kochrezeptartigen Methode Lederman et al., 2002; Liang et al., 2006; McComas & Olsen, 1998; Osborne et al., 2003; Urhahne et al., Unterscheidung von Beobachtung und Schlussfolgerung Lederman et al., 2002; Liang et al.,

37 2 Forschungshintergrund Sicherheit / Wahrheit des Wissens: Naturwissenschaftliches Wissen stellt niemals eine unumstößliche Wahrheit dar. Bestehende Theorien und Konzepte sind immer nur als vorläufig zu betrachten und können aufgrund von neuen Forschungsergebnissen jederzeit durch noch geeignetere ersetzt werden. Stabilität bzw. Dynamik des Wissens: Naturwissenschaftliches Wissen ist einem ständigen Entwicklungs- und Veränderungsprozess ausgesetzt. Durch neue Forschungsansätze und neue technologische Möglichkeiten entstehen immer wieder neues Wissen und weiterführende Theorien. Einfachheit bzw. Komplexität des Wissens: Es ist ein Irrglauben, dass wissenschaftliches Wissen möglichst komplex sein muss. Im Gegenteil: Es wird versucht, mit möglichst einfachen Theorien eine möglichst große Anzahl von Beobachtungen und Fragestellungen zu erklären, ohne dabei natürlich die Komplexität des Phänomens zu verneinen. Rechtfertigung des Wissens: Naturwissenschaftliches Wissen beruht auf Untersuchungen wie Experimenten, Beobachtungen, Vergleichen und auf rationalen Begründungen. Kriteriengeleitete Untersuchungen sind ein geeignetes Mittel, um neues naturwissenschaftliches Wissen zu generieren und neue Theorien zu stützen. Ein einzelnes Experiment reicht aber nicht aus, um eine naturwissenschaftliche Theorie zu beweisen. Herkunft des Wissens: Nicht nur bedeutende Wissenschaftler und Forscher können zum naturwissenschaftlichen Wissen beitragen. Grundsätzlich kann neues Wissen von allen Menschen (auch Kindern und Jugendlichen) erarbeitet und entdeckt werden. Kreativität beim Erwerb des Wissens: Entgegen der üblichen Meinung ist naturwissenschaftliches Wissen nicht nur rational und frei von Kreativität. Im Gegenteil: Oft hilft die Kreativität und Vorstellungskraft eines Forschers, neue Forschungsansätze zu finden oder alte Fehlvorstellungen zu überwinden. Soziale und kulturell Einflüsse auf das Wissen und den Wissenserwerb: Das Entstehen und die Ausprägung von naturwissenschaftlichem Wissen sind nicht frei von sozialen und kulturellen Einflüssen. Diese sind mitunter sogar sehr stark. Sehr oft sind wissenschaftliche Theorien verhaftet im Zeitgeist und dem Einfluss des den Forscher umgebenden Kulturkreises. Subjektivität bzw. Objektivität des Wissens: Naturwissenschaftliches Wissen ist entsprechend der bei Menschen vorhandenen konstruktivistischen Aneignungsweise nicht rein objektiv, sondern immer auch geprägt von den Erfahrungen und Erlebnissen der Individuen. Zweck / Ziel der Naturwissenschaften: Die Naturwissenschaften versuchen, mit ihren Theorien und Gesetzen naturwissenschaftliche Phänomene zu beschreiben, zu erklären und vorherzusagen. In die belebte und unbelebte Natur soll eine Ordnung gebracht und für naturwissenschaftliche Probleme eine Lösung gefunden werden. 31

38 2 Forschungshintergrund Unterscheidung von Theorie und Gesetz: In den Naturwissenschaften haben Theorien und Gesetze unterschiedliche Funktionen: Gesetze beschreiben formale Zusammenhänge zwischen beobachtbaren Phänomenen. Theorien dagegen stellen möglichst anerkannte und gut gesicherte Erklärungsgebäude dar zu beobachteten Phänomenen. Entgegen manchen Vorstellungen haben Gesetze keinen höheren Rang als Theorien. Auch lassen sich Theorien nicht durch häufige Belege in Gesetze überführen. Mythos einer kochrezeptartigen Methode: Ein verbreiteter Irrtum besteht darin, es gäbe nur eine einzige korrekte naturwissenschaftliche Methode, um ein naturwissenschaftliches Problem zu lösen. In der Regel existieren zu einem Problem viele Zugangsmöglichkeiten und dementsprechend viele mögliche Untersuchungsmethoden. Unterscheidung von Beobachtung und Schlussfolgerung: Ein Grundprinzip bei der Generierung von naturwissenschaftlichem Wissen ist die Unterscheidung von Beobachtung und den aus der Beobachtung gezogenen Schlussfolgerungen. Im Zusammenhang mit der hier dargestellten Übersicht über die Kerndimensionen im Bereich Nature of Science soll an dieser Stelle betont werden, dass in der einschlägigen Literatur keine trennscharfe Abgrenzung zwischen den verschiedenen Dimensionen besteht. So gibt es teilweise Überschneidungen zwischen den von den Autoren beschriebenen Dimensionen oder es werden zwei Dimensionen zusammengefasst dargestellt, wie z. B. bei Liang und Mitarbeitern (2006) die hier unterschiedenen Dimensionen Ziel/Zweck von Naturwissenschaften und Mythos einer kochrezeptartigen Methode. Practical Work und das Kompetenzkonstrukt Practical Skills Neben den Bereichen Nature of Science und Scientific Inquiry findet sich im Rahmenkonzept Wissenschaftsmethodischer Kompetenzen nach Mayer (2007) ein dritter Bereich: Der Bereich der Wissenschaftlichen Arbeitstechniken (Practical Work). Deutlich mehr als bei den anderen drei Kompetenzbereichen der Bildungsstandards (Fachwissen, Kommunikation und Bewerten) steht im Kompetenzbereich Erkenntnisgewinnung das praktische Arbeiten im Vordergrund, was die Bedeutung des Bereichs Practical Work und des damit verbundenen Kompetenzkonstruktes Practical Skills begründet. Das Kompetenzkonstrukt Practical Skills beinhaltet alle diejenigen Fertigkeiten, die in Zusammenhang stehen mit der Durchführung einer wissenschaftlichen Untersuchung, wie der Materialauswahl, dem Versuchsaufbau, der Durchführung der Untersuchung selbst und der Dokumentation der erhaltenen (qualitativen und/oder quantitativen) Beobachtungen oder Messungen (Meier & Mayer, 2012). Damit ergänzen die Practical Skills das Kompetenzkonstrukt des Wissenschaftlichen Denkens (Scientific Reasoning) um die noch ausstehende Prozessvariable der Durchführungskompetenz (vgl. Abb. 2.7). 32

39 2 Forschungshintergrund An dieser Stelle sei angemerkt, dass unter den Practical Skills in einem engeren Sinne nur die manuellen Fertigkeiten verstanden werden. Zur Durchführungskompetenz der Prozessvariable Durchführung und Dokumentation der Untersuchung im Rahmen von wissenschaftlichen Untersuchungen (Scientific Inquiry) gehört aber auch Handlungswissen, d. h. Wissen zur Durchführung einer Untersuchung, die im Einklang stehen soll mit der Schrittabfolge im Erkenntnisprozess, sowie intellektuelle Fähigkeiten zur Handlungsregulation. Im Rahmen dieser Arbeit wird im Zusammenhang mit der diagnostischen Kompetenz der angehenden Lehrkräfte für das Beurteilen des Schüler-Experimentierprozesses beides betrachtet Naturwissenschaftliche Erkenntnisgewinnung als Gegenstand von Diagnostik Spätestens seit Inkrafttreten der Bildungsstandards für die naturwissenschaftlichen Fächer Biologie, Chemie und Physik (KMK, 2005a, 2005b, 2005c) stellt der Kompetenzbereich Erkenntnisgewinnung ein bedeutendes Element des naturwissenschaftlichen Unterrichts dar. Damit verbunden ist die Notwendigkeit, die in den Bildungsstandards zum Kompetenzbereich Erkenntnisgewinnung beschriebenen Schülerkompetenzen auch beurteilen zu können. Das Beurteilen und Bewerten dieser spezifischen Schülerkompetenzen ist damit wichtiger Bestandteil der diagnostischen Kompetenz von Lehrkräften. Dies gilt nicht nur im Hinblick auf die Fähigkeit zum Bewerten der Schülerleistungen, sondern auch im Hinblick darauf, die spezifisch mit den Anforderungen im Bereich Erkenntnisgewinnung verbundenen Schwierigkeiten und Defizite der Schüler erkennen zu können. Inhaltlich betrachtet zielt eine angemessene diagnostische Kompetenz im Bereich Erkenntnisgewinnung auf die Fähigkeit von Lehrkräften zu erkennen, inwieweit Schüler einen Erkenntnisprozess gezielt, folgerichtig und qualitativ angemessen durchlaufen können bzw. wo noch Defizite vorhanden sind. Dies umfasst die Beurteilung des Verlaufs des Erkenntnisprozesses, das Einschätzen des mit dem Erkenntnisprozess verbundenen Wissens der Schüler, das Beurteilen ihrer praktischen Fertigkeiten, das Beurteilen der von den Schülern im Verlauf des Prozesses erzielten Ergebnisse, sowie das Einschätzen ihres Wissenschaftsverständnisses. Im Zusammenhang mit der Beurteilung von Schülerleistungen im Bereich Erkenntnisgewinnung besteht zum einen die Möglichkeit, über die Zuweisung von Leistungsniveaus Aussagen über die Qualität der von den Schüler erbrachten Leistungen zu machen. Zum anderen können über das Identifizieren von Schülerfehlern (z. B. beim Experimentieren) oder über das Identifizieren von besonderen Stärken Schalthebel gefunden werden, an denen eine gezielte Förderung und eine geeignete Unterrichtsplanung ansetzen muss. Nach Meinung von Hammann und Mitarbeitern (2006) stellt gerade das Diskutieren von typischen Fehlern im Bereich Erkenntnisgewinnung neben ihrem Korrigieren eine wichtige Möglichkeit dar, wie Fehler im Unterricht lernwirksam genutzt werden können. 33

40 2 Forschungshintergrund Verankerung des Kompetenzbereichs Erkenntnisgewinnung im Diagnosekompetenz-Modell Das im Rahmen dieser Arbeit zugrunde gelegte Modell zur fachbezogenen Diagnosekompetenz, in welchem die unverzichtbaren Facetten diagnostischer Kompetenz angehender Lehrkräfte beschrieben werden, hat den Bereich der naturwissenschaftlichen Erkenntnisgewinnung explizit verankert. Der Bezug wird hergestellt über die drei im Rahmenkonzept wissenschaftsmethodischer Kompetenzen von Mayer (2007) genannten Kompetenzkonstrukte. Ausdrückliche Erwähnung finden sie im Bereich der Zentralen Voraussetzungen für Diagnostische Kompetenz (siehe Abb. 2.4, Facette V1). Implizit vertreten sind sie aber auch in den unmittelbar zur diagnostischen Kompetenz zugehörigen Facetten und den hierauf bezogenen Standards. 2.4 Befundlagen zur diagnostischen Kompetenz Befundlagen zur diagnostischen Kompetenz speziell für den Bereich der naturwissenschaftlichen Erkenntnisgewinnung liegen bislang nicht vor. Allerdings existiert mittlerweile eine stattliche Anzahl von Arbeiten, die sich mit der diagnostischen Kompetenz in anderen Bereichen beschäftigt haben. Überwiegend handelt es sich hier um Arbeiten, die nach dem Prinzip der Urteilsgenauigkeit vorgegangen sind (vgl. hierzu Kapitel 2.2.3), also Lehrerurteile zu Schülermerkmalen oder Aufgabenmerkmalen mit der Ausprägung der gemessenen Merkmale verglichen haben (u. a. Artelt, 2011; Hosenfeld, Helmke & Schrader, 2002; Karing, Matthäi & Artelt, 2011; Lintorf et al., 2011; Lorenz & Artelt, 2009; McElvany et al., 2009; Spinath, 2005; Südkamp, Möller & Pohlmann, 2008). Daneben gibt es aber auch einige Arbeiten, die die diagnostische Kompetenz im Hinblick auf den Beurteilungsprozess operationalisiert haben (u. a. Artelt & Gräsel, 2009; Dünnebier, Gräsel & Krolak- Schwerdt, 2009; Klug, Bruder, Kelava, Spiel & Schmitz, 2013; Klug, Bruder, Keller & Schmitz, 2012; Krolak-Schwerdt, Böhmer & Gräsel, 2009; Südkamp & Möller, 2009) (vgl. auch Kapitel 2.2.3). Und weiterhin existieren Arbeiten, die ganz andere Formen der Operationalisierung von diagnostischer Kompetenz vorgenommen haben (Cappell, 2013; Heusinger von Waldegge & Hößle, 2010). Der spezifische Hintergrund der untersuchten diagnostischen Kompetenz ist in den verschiedenen Arbeiten sehr unterschiedlich. So liegen Studien vor zur diagnostischen Kompetenz von Schülerleistungen, z. B. im Bereich Mathematik und Lesen (Karing, Pfost & Artelt, 2011; Lorenz & Artelt, 2009), aber auch Beiträge zur diagnostischen Kompetenz für andere Merkmale, wie der diagnostischen Kompetenz zu Schülerinteressen (Hosenfeld, Helmke & Schrader, 2002; Karing, 2009), zu motivationalen und emotionalen Schülermerkmalen (Hosenfeld, Helmke & Schrader, 2002; Spinat, 2005; Südkamp, Möller & Pohlmann, 2008), der diagnostischen Kompetenz für das Beurteilen von Übergangsentscheidungen (Gräsel, Krolak-Schwerdt, Nölle & Hörstermann, 2010) und der diagnostischen Kompetenz für das Beurteilen von Aufgabenschwierigkeiten (Hosenfeld, Helmke & Schrader, 2002; Lintorf et al., 2011; McElvany, Schroeder, Hachfeld, Baumert, Richter, Schnotz, Horz 34

41 2 Forschungshintergrund & Ullrich, 2009). Manche Arbeiten beschäftigen sich darüber hinaus auch mit der Struktur der diagnostischen Kompetenz, so z. B. mit ihrer Dimensionalität (Spinat, 2005), ihrer Stabilität (Lorenz & Artelt, 2009) und ihrer Fach- bzw. Bereichsspezifität (Lorenz & Artelt, 2009). Die im Folgenden berichteten Befunde stellen nur eine kleine Auswahl der vorhandenen Befundlage dar. Die Auswahl der hier vorgestellten Befunde beschränkt sich auf solche, die eine Relevanz haben für die in dieser Arbeit untersuchten Fragestellungen im Zusammenhang mit der diagnostischen Kompetenz. Nicht zu vermeiden sind Dopplungen mit Befunden, die auch bei der Ergebnisdiskussion im empirischen Teil dieser Arbeit genannt werden. Befunde zur Struktur diagnostischer Kompetenz In Bezug auf die Struktur diagnostischer Kompetenz konnte in den Studien von Spinath (2005), McElvany und Mitarbeitern (2009) und von Brunner und Mitarbeitern (2011) belegt werden, dass der diagnostischen Kompetenz kein eindimensionales Konstrukt zugrunde liegt. In Bezug auf die Fachspezifität und die Stabilität diagnostischer Urteile konnten Lorenz und Artelt (2009) zeigen, dass die Diagnoseleistungen bei Grundschullehrkräften fachspezifisch ausgeprägt waren und über einen Zeitraum von einem halben Jahr (relativ) stabil blieben. Ermittelt wurde dies für die Fächer Mathematik und Deutsch mit Hilfe von Korrelationsanalysen zur Rangordnungskomponente (als einem der drei Gütekriterien der Urteilsgenauigkeit, siehe Kapitel 2.2.3). In Bezug auf die Fachspezifität zeigten sich in der genannten Studie Lehrkräfte mit hohen Ausprägungen diagnostischer Urteilsgüte im Bereich der Lesekompetenz ihrer Schüler tendenziell auch als gute Diagnostiker im Bereich des Wortschatzes, jedoch nicht notwendigerweise auch im mathematischen Bereich. Hohe Diagnoseleistung im mathematischen Bereich ging umgekehrt nicht notwendigerweise einher mit hoher Urteilsgüte im sprachlichen Bereich (Lorenz & Artelt, 2009). Die Autoren sehen ihre Befunde zur Fachspezifität und zur relativen Stabilität der diagnostischen Kompetenz im Einklang mit den zentralen Implikationen des Kompetenzbegriffs: Personenspezifität, relative Stabilität (bei gleichzeitig angenommener grundsätzlicher Erlernbarkeit) und Domänenspezifität. In Bezug auf die interindividuelle Variationsbreite der diagnostischen Leistungen erbrachte die auf 16 empirischen Studien basierende Metaanalyse von Hoge und Coladarci (1989), dass zwischen einzelnen Lehrkräften oft erhebliche Unterschiede bestehen bezüglich ihrer diagnostischen Kompetenz. So berichten beispielsweise Hosenfeld, Helmke und Schrader (2002) basierend auf Daten der Unterrichtsstudie SALVE eine Variationsbreite für die mittlere Rangkorrelation von r =.11 bis r =.86. Befunde zur diagnostischen Kompetenz für das Beurteilen von fachlichen Schülerleistungen In der Studie von Hosenfeld, Helmke und Schrader (2002) konnte belegt werden, dass Lehrkräfte die Leistungen ihrer Klasse (bezogen auf das Fach Mathematik, Thema Bruchrechnen) im Durchschnitt 35

42 2 Forschungshintergrund deutlich überschätzten. Dieser Befund deckt sich mit den Befunden der meisten anderen diesbezüglichen Studien, in denen eine Überschätzung der Schülerleistungen ebenfalls nachgewiesen werden konnte (Lorenz & Artelt, 2009; Spinath, 2005). Diskutiert wird in diesem Zusammenhang die Erklärung, dass Lehrkräfte eher die Kompetenz einschätzen also die prinzipielle Fähigkeit ihrer Schüler, eine Aufgabe zu lösen und nicht die Performanz, also die tatsächliche Leistung in der Testsituation (Hosenfeld, Helmke & Schrader, 2002). Dies deutet nach Meinung der Autoren darauf hin, dass die Lehrkräfte leistungsmindernde Faktoren, wie das Vergessen bereits durchgenommenen und früher beherrschten Stoffs, die Begrenzung der Bearbeitungszeit in einem Test, Flüchtigkeitsfehler, Aufregung und Leistungsangst usw., nicht hinreichend berücksichtigen. Nur wenige Studien belegen, dass das Leistungsniveau der Schüler unterschätzt wurde (z. B. McElvany et al., 2009). Brunner und Mitarbeiter (2011) kamen in ihrer Studie über die diagnostische Kompetenz von Mathematiklehrkräften zum Ergebnis, dass die Akkuratheit, wie gut Mathematiklehrkräfte das Leistungsniveau, die Leistungsheterogenität und die Leistungsbereitschaft ihrer Klassen einschätzen können, relativ gering ist. Befunde zur Abhängigkeit diagnostischer Kompetenz von Bedingungs- und Einflussfaktoren In der Studie von McElvany und Mitarbeitern (2009) wurde der Zusammenhang zwischen der diagnostischen Kompetenz und dem fachdidaktischen Wissen untersucht. Entgegen der von den Autoren aufgestellten Hypothese zeigte sich kein signifikanter Zusammenhang zwischen dem fachdidaktischen Wissen der Lehrkräfte im Bereich der Text-Bild-Integration und ihrer Diagnoseleistung beim Beurteilen der Schülerleistungen im Bereich Text-Bild-Integration. Schrader (2009) sieht eine mögliche Erklärung darin, dass der fachdidaktische Wissenstest die der Diagnostik zugrunde liegende Wissensbasis nicht hinreichend abdeckt. Er folgert weiterhin, dass sowohl die Wissensgrundlagen diagnostischer Kompetenz noch zu wenig geklärt sind als auch die Rolle von Erfahrungseinflüssen beim Wissenserwerb. Dass die Qualität der diagnostischen Urteile auch vom Verarbeitungsziel abhängt, konnte in der Studie von Krolak-Schwerdt, Böhmer und Gräsel (2009) nachgewiesen werden. Hier zeigte sich, dass sich erfahrene Lehrkräfte unter dem Ziel der Vorhersage einer Schülerleistung stärker an individuellen Schülermerkmalen orientieren, während sie sich unter dem Ziel, sich einen Eindruck vom Schüler verschaffen zu wollen, stärker an den verfügbaren sozialen Kriterien orientieren. In der Studie von Südkamp und Möller (2009) konnte gezeigt werden, dass die Urteilsgüte auch vom Leistungsniveau der Klasse abhängt. So zeigte sich hier ein Referenzgruppeneffekt in Bezug auf die Benotung: Bei gleicher individueller Leistung wurden Schüler besser benotet, wenn die Mitschüler leistungsschwächer waren und umgekehrt. Der Referenzgruppeneffekt zeigte sich jedoch nicht, wenn als Kriterium der relative Anteil an korrekten Antworten eines Schülers geschätzt werden sollte. Nach Meinung der Autoren orientieren sich Lehrkräfte bei der Vergabe von Noten eher an der sozialen 36

43 2 Forschungshintergrund Bezugsnorm, wohingegen bei Urteilen in kriterialer Form dieser Bezugsrahmen keine Rolle zu spielen scheint. Befunde zur diagnostischen Kompetenz für das Einschätzen von Aufgabenschwierigkeiten In der Studie von McElvany und Mitarbeitern (2009) konnte gezeigt werden, dass die Rangordnung der Aufgabenschwierigkeiten nur mäßig genau eingeschätzt werden kann. Im Vergleich mit der Diagnosegenauigkeit für die Leistungen ihrer Schüler zeigte sich in der gleichen Studie, dass die aufgabenbezogene und die schülerbezogene Urteilsgüte nicht miteinander zusammenhingen. Auch die Studie von Brunner und Mitarbeitern (2011) belegt, dass bei drei Viertel der untersuchten Mathematik-Lehrkräfte (Sekundarstufe I) die Fähigkeit, für konkrete Schüler und Schülerinnen ihrer Klasse Lösungswahrscheinlichkeiten zu PISA-Aufgaben vorherzusagen, nur im Bereich der Ratewahrscheinlichkeit lag. Befunde zur diagnostischen Kompetenz von Lehrkräften verschiedener Schulformen Vergleiche von Grundschullehrkräften mit Gymnasiallehrkräften zeigten, dass Grundschullehrkräfte (bezogen auf die Rangordnungskomponente der Urteilsgenauigkeit) deutlich bessere Diagnoseleistungen bei ihren Klassen aufwiesen (Karing, 2009). Schrader (2009) führt dies zurück auf die Heterogenität der Grundschulklassen. Dieses würde ein korrektes Aufstellen einer leistungsbezogenen Rangreihe erleichtern, was als Diagnoseleistung für die Rangordnungskomponente gefordert ist. Damit stellt der Befund seiner Meinung nach zumindest zum Teil einen Effekt der angewendeten Methode dar. Befunde zur diagnostischen Kompetenz in den verschiedenen Phasen der Lehrerausbildung Schmelzing und Mitarbeiter (2010) wiesen nach, dass das deklarative fachdidaktische Wissens von Lehramtsstudierenden im Hauptstudium im Vergleich mit erfahrenen Biologielehrkräften signifikant niedriger liegt. Eine der beiden im Rahmen der Abfrage des fachdidaktischen Wissen eingesetzten Skalen bezog sich auf das Wissen der (angehenden) Lehrkräfte zu Schülervorstellungen, Schülerfehlern und zu Modellvorstellungen von Schülern. Diese Wissensbereiche stellen typische Aspekte von diagnostischer Kompetenz dar (Brunner et al., 2006; Krauss et al., 2004; Shulman, 1986). Befunde zur diagnostischen Kompetenz in den Naturwissenschaften Befunde zur diagnostischen Kompetenz in den Naturwissenschaften sind selten. Die wenigen verfügbaren Befunde beziehen sich darüber hinaus meist auf Untersuchungen zum fachdidaktischen Wissen, in welchem die diagnostische Kompetenz als eine der hier wichtigen Facetten angesehen wird (Krauss et al., 2004; Schmelzing et al., 2010). Explizit wird die diagnostische Kompetenz in der Studie von Heusinger von Waldegge und Hößle (2010) untersucht, bei der es um die diagnostische Kompetenz von Biologielehrkräften für das Beurteilen von Bewertungskompetenz bei Schülern geht. Die Studie zielt darauf ab, mit Hilfe von 37

44 2 Forschungshintergrund qualitativer Inhaltsanalyse aus Lehrer-Interviews Kriterien zu isolieren, nach denen die Lehrkräfte schriftliche Schüleraussagen und Videos von Schülerdiskussionen zum Thema ethische und moralische Bewertung in medizin- und umweltethischen Kontexten beurteilen. Die Studie kommt zu dem Schluss, dass die Lehrkräfte individuell sehr unterschiedliche Beurteilungskriterien anlegen und bei der Beurteilung der Bewertungskompetenz nicht nur die moralische Haltung der Schüler berücksichtigen, sondern auch ihr (in den Äußerungen beschriebenes) Handeln. Cappell (2013) untersucht in ihrer Studie verschiedene Teilaspekte diagnostischer Kompetenz bei angehenden Physiklehrkräften und deren Entwicklung im Verlauf des Studiums. Für den Bereich Schülervorstellungen stellt sie folgende Entwicklung fest: Die Studierenden zeigten zu Beginn ihrer Untersuchungen für das Benennen von Schülervorstellungen relativ gute Leistungen, welche sich im Verlauf des Studiums sogar verbesserten. Bei der Identifizierung von Schülerfehlvorstellungen anhand von Vignetten und Transkripten zeigten die Studierenden zu Beginn noch deutliche Schwierigkeiten, verbesserten diese Fähigkeit aber ebenfalls im Verlauf ihres Studiums. Insgesamt jedoch konstatiert Cappell einen nur langsamen und auch nicht durchgängig für alle untersuchten Teilaspekte vorhandenen Anstieg der diagnostischen Kompetenz. Befunde zum Einfluss der diagnostischen Kompetenz auf die Schülerleistungen In der Unterrichtsforschung wird gegenwärtig angenommen, dass diagnostische Fähigkeiten von Lehrkräften (hoch) relevant für den Lernfortschritt von Schülerinnen und Schülern sind (Brunner et al., 2011). Trotz der hohen intuitiven Plausibilität dieser Annahme ist die empirische Datenlage hierzu schmal und liefert heterogene Befunde. So fanden Lehmann und Mitarbeiter (2000) in ihrer Studie zum Zusammenhang zwischen der Fähigkeit von Lehrkräften, die Schwierigkeit einzelner Mathematikaufgaben in der eigenen Klasse einzuschätzen, und der am Ende des Schuljahres erhobenen Testleistungen der Schüler inkonsistente Befunde: In einigen der untersuchten Fälle zeigten sich positive Zusammenhänge, in anderen nicht. Es existieren aber auch Studien, die die Vermutung untermauern, dass die diagnostische Kompetenz tatsächlich einen Einfluss auf die Schülerleistungen hat: Schrader und Helmke (1987) und Schrader (1989) konnten in ihren Studien nachweisen, dass die größte Leistungsentwicklung bei Klassen von Lehrkräften zu finden war, bei denen eine hohe Genauigkeit diagnostischer Urteile mit hoher Instruktionsqualität einherging. Ebenso konnten Brunner und Mitarbeiter (2011) zeigen, dass die aufgabenbezogene Urteilsgüte der untersuchten Lehrkräfte und ihre diagnostische Sensitivität (bezogen auf die Fähigkeit der Lehrkräfte, die Leistungsrangreihe ihrer Schüler einzuschätzen) statistisch signifikant die Mathematikleistung ihrer Schüler (10. Klasse) beeinflussten. 38

45 3 Zielsetzungen und Forschungsfragen 3.1 Forschungsdesiderate und sich daraus ergebende zentrale Zielsetzungen Trotz der in der Fachwelt unbestritten hohen Relevanz von diagnostischer Kompetenz für die professionelle Kompetenz von Lehrkräften und ihrer großen Bedeutung im Schulalltag (vgl. Kapitel 2) haben sich bis vor einigen Jahren nur wenige empirische Studien explizit diesem Thema gewidmet (van Buer & Zlatkin-Troitschanskaia, 2009). Auch wenn in den letzten Jahren die Zahl der Studien zum Thema diagnostische Kompetenz von Lehrkräften deutlich zugenommen hat, gilt dies nicht für die in dieser Arbeit anvisierte fachbezogene diagnostische Kompetenz von angehenden Lehrkräften im Bereich der Naturwissenschaften. Insbesondere für die diagnostische Kompetenz in dem für die naturwissenschaftlichen Fächer sehr wesentlichen Bereich der Erkenntnisgewinnung liegen noch keine veröffentlichten Studien vor. Die vorliegende Arbeit möchte hier ansetzen und erste Erkenntnisse liefern zur fachbezogenen diagnostischen Kompetenz von Biologie-Lehramtsstudierenden für den Bereich der Erkenntnisgewinnung. Im Hinblick auf diese Fokussierung widmet sich die Arbeit drei großen Forschungsdesideraten: 1. Dem Desiderat von geeigneten Testinstrumenten, mit welchen die fachbezogene diagnostische Kompetenz angehender Lehrkräfte im Bereich der naturwissenschaftlichen Erkenntnisgewinnung untersucht und gemessen werden kann. Insbesondere fehlen Instrumente im Hinblick auf die in dieser Arbeit getroffene Unterscheidung von Status- und Prozessdiagnostik (vgl. Kapitel 2). 2. Aus dem ersten Desiderat ergibt sich unmittelbar der zweite Forschungsbedarf: Da keine geeigneten Testinstrumente für die genannten Formen von diagnostischer Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung existieren, gibt es auch keine Ergebnisse und Befunde darüber, welche Ausprägungen sie zeigen. 3. Mit dem vorigen Punkt eng verbunden ist das dritte Desiderat: Es fehlen empirische Befunde darüber, welche fachmethodischen Voraussetzungen mit der diagnostischen Kompetenz einhergeht und durch welche soziodemographischen und personengebundenen Faktoren sie beeinflusst wird. Entsprechend den drei Forschungsdesideraten werden daher mit der vorliegenden Arbeit drei zentrale Zielsetzungen verfolgt: Zum einen möchte sie einen Beitrag liefern zur theoriegeleiteten Konzeption und Entwicklung von geeigneten Instrumenten, mit denen die diagnostische Kompetenz von angehenden Biologielehrkräften im Bereich der naturwissenschaftlichen Erkenntnisgewinnung erfasst werden kann. Grundlage für diese erste Zielsetzung ist eine geeignete Modellierung von diagnostischer Kompetenz und eine geeignete Operationalisierung derjenigen Aspekte, die mit Hilfe der Testinstrumente untersucht werden sollten. Bei der Entwicklung der Testinstrumente war es

46 3 Zielsetzungen und Forschungsfragen explizit vorgesehen, die Unterscheidung von Status- und Prozessdiagnostik zu berücksichtigen. Für die zweite Zielsetzung wurden die neu entwickelten Instrumente in verschiedenen Testungen eingesetzt, um auf diese Weise Ergebnisse und Befunde zur diagnostischen Kompetenz von angehenden Biologielehrkräften zu erhalten. Dabei war es ein wichtiges Anliegen, auch tiefergehende Einblicke in die Ausprägung einzelner Kompetenzaspekte im Bereich der naturwissenschaftlichen Erkenntnisgewinnung möglich zu machen. Als dritte Zielsetzung war beabsichtigt, mit Hilfe der Untersuchungen Hinweise auf mögliche zentrale fachmethodische Voraussetzungen zur diagnostischen Kompetenz im Bereich der Erkenntnisgewinnung zu erhalten sowie Befunde zu möglichen Einflussfaktoren zu gewinnen. Bei den in dieser Arbeit untersuchten Einflussfaktoren war beabsichtigt, sich auf unmittelbar auf die Studierenden bzw. ihr Studium bezogene Personen- und Kontextvariablen zu beschränken, welche mit Hilfe von kleineren Begleitfragebögen leicht abgefragt werden konnten. Eine Untersuchung von möglichen Einflussfaktoren aus dem psychologischen Bereich wie der Motivation der Studierenden, ihre Fähigkeitsselbstkonzepte und ihre selbstregulativen Fähigkeiten waren im Rahmen einer anderen im Projekt Professionsorientierte Lehrerbildung (vgl. Kapitel 4.8) angesiedelten Dissertation vorgesehen (vgl. Wolgast, 2013). 3.2 Forschungsfragen zur Arbeit Zu Beginn der Untersuchungen mussten im Rahmen der Arbeit Testinstrumente entwickelt werden entsprechend der zugrunde gelegten Konzeptualisierung von diagnostischer Kompetenz (vgl. Kapitel 2) und entsprechend dem Rahmenmodell zur naturwissenschaftlichen Erkenntnisgewinnung von Mayer (2007). Der Eignung und Passung dieser Instrumente wurde deshalb eine eigene Forschungsfrage gewidmet: Forschungsfrage 1: Können statusund prozessbezogene diagnostische Kompetenzen von angehenden Biologie- Lehrkräften im Bereich der naturwissenschaftlichen Erkenntnisgewinnung mittels schriftlicher Tests reliabel und valide erfasst werden? Unter der Voraussetzung einer erfolgreichen Entwicklung dieser Instrumente war es als ein zentrales Ziel beabsichtigt, Ergebnisse und Befunde zu den statusund prozessdiagnostischen Kompetenzen der Biologie-Lehramtsstudierenden zu erhalten. Forschungsfrage 2: Welche Ausprägungen zeigt die diagnostische Kompetenz der Biologie-Lehramtsstudierenden bezüglich ihrer Fähigkeiten für Status- und Prozessdiagnostik im Bereich der naturwissenschaftlichen Erkenntnisgewinnung? Entsprechend dem dieser Arbeit zugrunde gelegten Strukturmodell zur diagnostischen Kompetenz stellen ein geeignetes Verständnis über die Charakteristika der Naturwissenschaften ( Nature of 40

47 3 Zielsetzungen und Forschungsfragen Science ) und das Vorhandensein von fachmethodischen Kenntnissen zur Erkenntnisgewinnung zentrale Voraussetzungen von diagnostischer Kompetenz im Bereich Erkenntnisgewinnung dar. Ein solches fachmethodisches Vorwissen besteht z. B. in der ausreichenden Kenntnis der fachmethodischen Begriffe und dem Wissen über die Schritte im Erkenntnisprozess (vgl. Kapitel 2.3.1). In verschiedenen Studien konnte gezeigt werden, dass das Wissenschaftsverständnis von Studierenden ihre akademischen Leistungen, ihre kognitiven Prozesse während des Lernens und ihr Lernengagement beeinflusst (Hofer & Pintrich, 1997; Kardash & Howell, 2000; Schommer, 1993; Stahl & Bromme, 2007). Aufgrund der genannten Überlegungen und Befunde wird für diese Arbeit vermutet, dass sowohl das Wissenschaftsverständnis als auch das fachmethodische Wissen einen Einfluss auf die diagnostische Kompetenz im Bereich Erkenntnisgewinnung haben könnten. Dementsprechend wurden die folgenden beiden Forschungsfragen aufgestellt: Forschungsfrage 3a: Welcher Zusammenhang besteht zwischen der diagnostischen Kompetenz der Studierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung und ihrem eigenen fachmethodischen Wissen in diesem Bereich? Forschungsfrage 3b: Welcher Zusammenhang besteht zwischen der diagnostischen Kompetenz der Studierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung und ihrem Verständnis über die Charakteristiken der Naturwissenschaften (Nature of Science)? Die Befundlage zu Einflussfaktoren auf die diagnostische Kompetenz ist derzeit noch sehr dünn. In besonderem Maße gilt dies für die diagnostische Kompetenz von Lehramtsstudierenden im Bereich der Naturwissenschaften (Forschungsdesiderat 3). Für die Frage nach möglichen personellen und kontextbezogenen Faktoren, die in Zusammenhang mit der diagnostischen Kompetenz der angehenden Biologielehrkräfte stehen, wurde daher auf Befunde und Überlegungen zurückgegriffen, die aus anderen Zusammenhängen stammen, wie Untersuchungen zum Studienerfolg, Untersuchungen zu Schulleistungen im Bereich der Naturwissenschaften und Untersuchungen zum Kompetenzprofil von Lehramtsstudierenden. So ist in verschiedenen Studien belegt, dass Faktoren wie kognitive Fähigkeiten (oftmals operationalisiert über die Abiturnote) und fachliche Kompetenzen wichtige Bedingungsfaktoren für den Erfolg im Studium darstellen (Nagy, 2007). Insbesondere gilt die Abiturnote als einer der erklärungsstärksten Prädiktoren für Studienleistungen (Köller & Baumert, 2002). Aus Schulleistungsstudien wie TIMSS und PISA ist bekannt, dass naturwissenschaftliche Kompetenz mit Faktoren wie dem Geschlecht, dem Alter und der Schulform in Zusammenhang steht (Baumert et al., 1997; Prenzel et al., 2001). In der Untersuchung von Frey (2004) zur Kompetenzstruktur von Studierenden des Lehrerberufs konnten bei deutschen Studierenden (im Gegensatz zu schweizerischen, österreichischen, italienischen und polnischen Studierenden) zwar nur geringe, aber doch (hoch) signifikante Korrelationen zwischen dem Geschlecht der Studierenden und 41

48 3 Zielsetzungen und Forschungsfragen ihrer Fachkompetenz, ihrer Sozialkompetenz, ihrer Methodenkompetenz und ihrer Personalkompetenz gefunden werden. An den meisten deutschen Universitäten unterscheiden sich die Studieninhalte für die verschiedenen Lehramtsformen (Gymnasiallehramt, Lehramt an Haupt- und Realschulen, Förderschullehramt und Grundschullehramt) hinsichtlich ihrer fachlichen Tiefe und den behandelten fachdidaktischen Inhalten. Weiterhin existieren große Unterschiede zwischen den Fachdidaktiken der naturwissenschaftlichen Fächergruppen und den Fächern im sprachlichen oder geisteswissenschaftlichen Bereich. Basierend auf den genannten Überlegungen und Befunden wurden als mögliche Einflussfaktoren auf die diagnostische Kompetenz die Personen- und Kontextvariablen Geschlecht, Abiturnote, das Alter der Studierenden, ihre Fächerkombination und die von den Lehramtsstudierenden gewählte Schulform ausgewählt und untersucht, inwiefern diese mit der diagnostischen Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung in Zusammenhang stehen. Folgende Forschungsfrage wurde dazu aufgestellt: Forschungfrage 4: Welcher Zusammenhang zeigt sich zwischen den Personen- und Kontextvariablen Geschlecht, Abiturnote, Alter der Studierenden, ihrer Fächerkombination, der von ihnen gewählten Lehramtsform und der diagnostischen Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung? Zusätzlich zu den mit Hilfe der Messinstrumente gewonnenen Daten liefern auch die Selbsteinschätzungen der Studierenden wertvolle Hinweise zu ihrer diagnostischen Kompetenz. So ist z. B. interessant, in welchem Zusammenhang die Selbsteinschätzungen mit den in den Tests gemessenen Werten zur diagnostischen Kompetenzen stehen. Auch können zu verschiedenen Zeitpunkten im Studium erhobene Selbsteinschätzungen zur diagnostischen Kompetenz Befunde darüber liefern, ob die Studierenden im Verlauf des Studiums einen Kompetenzzuwachs verspüren. Aus dem Verlauf ihres Kompetenzerlebens kann wiederum darauf geschlossen werden, ob sie ihr Studium als geeignet für den Aufbau ihrer diagnostischen Kompetenz empfinden. Forschungfrage 5: Welche Ausprägungen zeigen die Selbsteinschätzungen der Studierenden zu ihrem eigenen diagnostischen Wissen im Verlauf des Studiums? 42

49 4 Material und Methoden 4.1 Untersuchte Probandengruppe Für die Untersuchungen im Rahmen dieser Arbeit wurden zwei Studierendenjahrgänge (Kohorten) annähernd während ihres gesamten Studienverlaufs verschiedenen Untersuchungen unterzogen. Kohorte 1 begann ihr Studium zum WS 08/09, Kohorte 2 zum WS 09/10. Die beiden Kohorten bestanden hauptsächlich aus Studierenden des Gymnasiallehramtes und des Lehramtes für Haupt- und Realschulen. Daneben beinhalteten sie in geringerer Anzahl auch Studierende des Förderschullehramtes und einige wenige Studierende für das Berufsschullehramt. Zu Beginn ihres Studiums bestand Kohorte 1 aus N = 110 Biologie-Lehramtsstudierenden und Kohorte 2 aus N = 155. Die an den verschiedenen Erhebungen erfassten Probandenzahlen waren jedoch aus folgenden Gründen häufig geringer: Je nach Lehramtsstudiengang ist die Regelstudienzeit an der JLU Gießen unterschiedlich lang. So beträgt sie für Studierende des Lehramtes für Haupt- und Realschulen und für Studierende des Lehramtes für Grundschulen 7 Semester, für Studierende des Gymnasiallehramtes und Studierende des Förderschullehramtes 9 Semester. In der Realität variiert allerdings die tatsächlich benötigte Studiendauer, so dass zu vorgerücktem Studienverlauf nicht mehr alle Studierende einer Kohorte gleichgeschaltet waren bezüglich der von ihnen besuchten Modulveranstaltungen. Da die Erhebungen in den jeweils parallelen Lehrveranstaltungen stattfanden, erschwerte dies gegen Ende des Studiums die vollständige Erfassung der Kohorten. Aber auch bedingt durch Studienfachwechsel, Studienabbruch oder durch Krankheit bzw. Fehltermine am Tage der jeweiligen Testung schwankte die in den einzelnen Untersuchungen erfasste Personenzahl leicht. Die genauen Probandenzahlen der einzelnen Testungen werden in den entsprechenden Kapiteln im Zusammenhang mit der Darstellung der Ergebnisse genannt. Um die Möglichkeit zu haben, die einzelnen Studierenden in den getesteten Kohorten individuell zu identifizieren und die für sie gewonnenen Daten für die einzelnen Erhebungszeitpunkte miteinander zu korrelieren, wurde für die Erhebungen ein Code-System verwendet, welches den einzelnen Studierenden einen unverwechselbaren Code zuweist, es gleichzeitig aber erlaubt, die Testungen und Befragungen anonym durchzuführen. Abb. 4.1 zeigt den im Projekt verwendeten Code. Persönlicher Code: 1. Dritter Buchstabe Ihres Vornamens: Letzter Buchstabe Ihres Nachnamens: 3. Zweiter Buchstabe Ihres Geburtsortes: 4. Ihr Geburtstag ist am:.. 5. Wenn Sie im WS 08/09 ihr Studium begonnen haben, tragen Sie hier bitte ein 1 ein, bei Beginn im WS 09/10 tragen Sie bitte eine 2 ein und falls dies beides nicht auf Sie zutrifft eine 0. Abb. 4.1: In den Testungen eingesetzter Code Bitte eintragen Bitte eintragen Bitte eintragen Bitte eintragen XX. 19XX (Tag) Bitte eintragen (Monat) (Jahr)

50 4 Material und Methoden 4.2 Untersuchungsdesign und grundlegende Methodik Untersuchungsdesign und Untersuchungsschwerpunkte zur Arbeit Abb. 4.2 gibt einen Überblick über das für alle Untersuchungen geltende Untersuchungsdesign. Die Kapitel 5, 6 und 7 dieser Arbeit sind entsprechend der drei Untersuchungszeitpunkte und der damit verbundenen Schwerpunktsetzungen angeordnet. Die Untersuchungen bei Kohorte 1 dienten zum Teil der Etablierung und Erprobung der neu entwickelten Testinstrumente. Bei entsprechend geeigneten Instrumenten wurden sie aber auch als Parallelmessung verwendet. Die Untersuchungen bei Kohorte 2 lieferten die Werte für die eigentliche Hauptuntersuchung. Die Anlage des Untersuchungsdesigns mit mehreren Erhebungen über einen längeren Zeitraum hatte das Ziel, neben den verschiedenen Formen und Ausprägungen der diagnostischen Kompetenz der angehenden Biologielehrkräfte auch deren Bedingungsfaktoren zu erfassen. Abb. 4.2: Untersuchungsdesign zur Arbeit Untersuchungsschwerpunkte zur ersten Erhebung Zum ersten Untersuchungszeitpunkt wurden das fachmethodische Wissen der Studierenden (genauer: ihr Wissen im Bereich Scientific Reasoning) und ihr Wissenschaftsverständnis zu den Charakteristiken der Naturwissenschaften (Nature of Science) erhoben (zur Theorie dieser beiden siehe Kapitel 2.3.1). Sowohl das fachmethodische Wissen als auch das Wissenschaftsverständnis stellen in dem dieser 44

51 4 Material und Methoden Arbeit zugrunde gelegten Diagnosekompetenzmodell zentrale Voraussetzungen (Bedingungsfaktoren) von diagnostischer Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung dar. Weiterhin wurden verschiedene Personen- und Kontextvariablen erhoben. Diese dienten teilweise als Variablen für eine Korrelationsanalyse mit der diagnostischen Kompetenz, teilweise wurden sie aber auch zur Bildung von Untergruppen verwendet. Kapitel 5 behandelt die Untersuchungsschwerpunkte der ersten Erhebung. Eingangs werden die hier verfolgten Zielsetzungen genauer beschrieben und ihr Bezug zu den Forschungsfragen genannt. Darauf folgend werden die mit Hilfe der eingesetzten Testinstrumente gewonnenen Ergebnisse präsentiert und diese dann unter Berücksichtigung von Forschungsergebnissen anderer Studien diskutiert. Untersuchungsschwerpunkte zur zweiten Erhebung Die Untersuchungen an Erhebung 2 dienten schwerpunktmäßig dem Erfassen der statusdiagnostischen Kompetenzen der Studierenden im Bereich der Erkenntnisgewinnung. Hierfür eingesetzt wurde ein speziell zu diesem Zweck entwickeltes Instrument, mit welchem die Kompetenzen der Studierenden für das Beurteilen von Schülerleistungsniveaus im Bereich Scientific Reasoning (siehe Kapitel 2) ermittelt und ihre Fähigkeiten zum Einschätzen von Aufgabeschwierigkeiten untersucht werden konnten. Zu Beginn des Kapitels 6 werden die genauen, in den Untersuchungen an Erhebung 2 verfolgten Zielsetzungen mit Bezug auf die Forschungsfragen genannt. Im Anschluss daran werden die in den einzelnen Untersuchungen gewonnenen Ergebnisse und Befunde präsentiert und diskutiert. Darüber hinaus werden die Daten zur Gütekriterienprüfung des neu entwickelten Instrumentes vorgestellt. Untersuchungsschwerpunkte zur dritten Erhebung Die Testungen an Erhebung 3 dienten schwerpunktmäßig dem Untersuchen der Studierenden- Kompetenzen für Statusdiagnostik und Prozessdiagnostik im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Auch hierfür musste ein geeignetes Instrument neu entwickelt werden. Die diagnostische Tätigkeit der Studierenden in diesem Test bezieht sich auf einen Experimentierprozess zweier Schüler. Zusätzlich zu der im Test geforderten Beurteilung des Schülerexperimentierprozesses (Prozessdiagnostik) hatten die Studierenden die im Arbeitsprozess entstandenen Schülerergebnisse zu beurteilen (Statusdiagnostik). Mit Hilfe des auf diese Weise kombinierten Status- und Prozessdiagnostik-Instrumentes sollten neben Daten zur Ausprägung der statusdiagnostischen und der prozessdiagnostischen Kompetenzen auch Hinweise darauf gewonnen werden, inwiefern sich diese beiden Kompetenzformen unterscheiden. Da die Kriterien, nach denen die Schülerergebnisse zum Experimentierprozess beurteilt werden sollten, zum Teil an diejenigen des Instrumentes zum Erfassen der statusdiagnostischen Kompetenzen aus Erhebung 2 angelehnt waren, war es in gewissem Maße zusätzlich möglich, auch die Ergebnisse dieser beiden Untersuchungen zu vergleichen. Alle an Erhebung 3 durchgeführten Untersuchungen und die hier gewonnenen Ergebnisse sind in Kapitel 7 dargelegt. Enthalten ist auch eine Darstellung der Ergebnisse der Gütekriterienprüfungen für das neu 45

52 4 Material und Methoden entwickelte kombinierte Instrument für Status- und Prozessdiagnostik und die Herleitung und Begründung der angelegten Beurteilungskriterien Erhebung der Personen- und Kontextvariablen An allen drei Erhebungszeitpunkten hatten die Studierenden einen kleinen Fragebogen zu bearbeiten, der darauf abzielte, verschiedene Personen- und Kontextvariablen zu erfassen, wie die von den Studierenden gewählte Lehramtsform (Förderschul-, Haupt- und Realschul- oder Gymnasiallehramt), das Geschlecht der Studierenden, ihre Abiturnote und die von ihnen studierte Fächerkombination. Die Erhebung dieser Variablen erfolgte jeweils zu Beginn der Testung Erhebung der Selbsteinschätzungen der Studierenden Die Abfrage der Selbsteinschätzungen der Studierenden bezüglich ihrer eigenen diagnostischen Kompetenz und ihres fachlichen, fachdidaktischen und pädagogischen Wissens (d. h. ihres Professionswissens ) fand an allen drei Erhebungszeitpunkten statt. Die Selbsteinschätzungen dienten dabei zum einen als Variable, mit welcher die an den verschiedenen Erhebungen gemessenen statusund prozessdiagnostischen Kompetenzen der Studierenden korreliert werden sollten. Zum anderen war beabsichtigt, die Ausprägung der Selbsteinschätzungen und ihre Entwicklung im Verlauf des Studiums aber auch direkt zu betrachten. Erhoben wurden die Selbsteinschätzungen der Studierenden mittels eines kleinen Fragebogens (Abb. 4.3) mit fünfstufiger Ratingskala. Der Fragebogen wurde an allen drei Erhebungen in immer der gleichen Form ausgegeben. Seine Bearbeitung erfolgte unmittelbar vor dem Bearbeiten der anderen an der jeweiligen Erhebung eingesetzten Instrumente. Bitte schätzen Sie Ihre bisher erworbenen Kenntnisse und Fähigkeiten auf einer Skala von 1 (sehr niedrig) bis 5 (sehr hoch) ein: Ihr Fachwissen (FW) Ihr fachdidaktisches Wissen (FDW) Ihr pädagogisches Wissen (PW) Ihr diagnostisches Wissen, d. h. Ihre Fähigkeit, Schülerleistungen zu beurteilen Abb. 4.3: Fragebogen zu den Selbsteinschätzungen der Studierenden 46

53 4 Material und Methoden 4.3 Instrumente und Methodik zum Erheben der Bedingungsfaktoren In den beiden folgenden Unterkapiteln werden die Instrumente vorgestellt und genauer beschrieben, mit welchen die beiden vermuteten Bedingungsfaktoren Fachmethodisches Wissen und Wissenschaftsverständnis erhoben wurden Erhebung des Wissenschaftsverständnisses Zur Erhebung des Wissenschaftsverständnisses kamen bei den beiden untersuchten Studierendenjahrgängen (Kohorte 1 und Kohorte 2) unterschiedliche Instrumente zum Einsatz. Folgende Gründe waren hierfür verantwortlich: Es war vorgesehen, das Wissenschaftsverständnis der Studierenden in beiden Kohorten mit Hilfe eines paper-pencil-basierten Instrumentes zu erheben. Ein explizit für Studierende konzipiertes Instrument ließ sich zum Zeitpunkt der Erhebung bei Kohorte 1 nur in Form des sogenannten CAEB-Instruments von Stahl und Bromme (2007) finden. (Nähere Erläuterungen zum Instrument finden sich im nächsten Abschnitt). Dieses erwies sich allerdings im Verlauf der Auswertungen als zu wenig differenziert, um die verschiedenen Dimensionen im Bereich Nature of Science zu erfassen. Aus diesem Grund wurde für die Erhebung des Wissenschaftsverständnisses bei Kohorte 2 ein ursprünglich als Schülerinstrument konzipiertes paperpencil-basiertes Testinstrument auf die Zielgruppe Studierende angepasst (hierzu siehe die Ausführungen im Abschnitt Testinstrument für Kohorte 2 ). Zum Zeitpunkt der Erhebung des Wissenschaftsverständnisses bei Kohorte 1 lag dieses überarbeitete Instrument aber noch nicht vor. Testinstrument zum Erfassen des Wissenschaftsverständnisses bei Kohorte 1 Bei Kohorte 1 wurde das CAEB-Instrument von Stahl und Bromme (2007) eingesetzt (Abb. 4.4). Die Entscheidung zum Einsatz dieses Instrumentes für die Untersuchung des Wissenschaftsverständnisses fiel aufgrund seiner Kürze und der damit verbundenen praktikablen Bearbeitungszeit. Auch ist es ein Instrument, welches speziell für Studierende entwickelt wurde. Darüber hinaus zeigte es bei den Untersuchungen von Stahl und Bromme (2007) sehr zufriedenstellende Werte in Bezug auf die Gütekriterien und erschien damit ein geeignetes, reliables und valides paper-pencil-basiertes Testinstrument im Bereich Nature of Science zu sein. Inhaltlich erfasst das als semantisches Differential konzipierte Instrument vor allem die konnotativen Aspekte von Nature of Science (CAEB = Connotative Aspects of Epistemological beliefs). Mit dem Begriff Connotative Aspects bezeichnen die Autoren die eher gefühlsmäßig getroffenen, assoziativen Einschätzungen zum Wissen und dem Wissenserwerb ( evaluative-associative assumptions about the nature of knowledge ). Im Gegensatz dazu sehen die Autoren die Denotative Aspekts und meinen hier die eher auf einer rationalen Ebene abgegebenen Aussagen zu den funktionalen Bedeutungen der Aspekte von Nature of Science ( explizit-denotative knowledge about the nature of knowledge ). 47

54 4 Material und Methoden Der linke Kasten von Abb. 4.4 enthält das Instrument in der Form, wie es an Erhebung 1 zum Einsatz kam. Der kleine Kasten rechts davon liefert zusätzliche Informationen über die Skalenzugehörigkeit der Items und ihre Polung. Ihre Vorstellungen zum biologischen Wissen im Bereich der Biologie Das Wissen im Forschungsbereich der Biologie ist stabil instabil objektiv subjektiv beweisbar unbeweisbar dynamisch statisch oberflächlich tief vergänglich unvergänglich exakt diffus absolut relativ geordnet ungeordnet genau ungenau flexibel inflexibel eindeutig mehrdeutig ausgehandelt entdeckt strukturiert unstrukturiert fertig unvollständig widerlegbar unwiderlegbar offen abgeschlossen V T T V (-) T (-) V (-) T T T T V (-) T T (-) T V V (-) V (-) Legende: V = Skala Variability T = Skala Texture (-) zeigt negativ gepolte Items an Abb. 4.4: CAEB-Fragebogen zum Wissenschaftsverständnis nach Stahl und Bromme (2007) Das CAEB-Instrument von (Stahl & Bromme, 2007) beinhaltet 17 Items zu typischen Dimensionen von Nature of Science (vgl. Kap und Lederman, Abd-El-Khalick, Bell, & Schwartz, 2002; Liang et al., 2006; Osborne, Collins, Ratcliffe, Millar, & Duschl, 2003; Priemer, 2006; Schwartz, Lederman, & Lederman, 2008), die mit einer 7-stufigen Ratingskala durch Ankreuzen zu bewerten waren. Diese 17 Items sind im CAEB-Instrument nur zwei Skalen zugeordnet: erstens der Skala Texture, entsprechend den Vorstellungen über die Struktur des naturwissenschaftlichen Wissens (10 Items) und zweitens der Skala Variability, entsprechend den Vorstellungen über die Veränderlichkeit des naturwissenschaftlichen Wissens (7 Items) (Stahl & Bromme, 2007). Ein höherer Mittelwert der Skalen bzw. des Testinstrumentes ist im Sinne eines fortgeschrittenen Wissenschaftsverständnisses zu interpretieren, ein niedriger Wert zeigt eine einfachere Sichtweise an. Dabei müssen bei der Interpretation der gewonnenen Daten domänenspezifische Unterschiede in Betracht gezogen werden (Stahl & Bromme, 2007). Zum Beispiel lieferte das CAEB-Instrument in den Untersuchungen der beiden Autoren an Studierenden jeweils deutlich unterschiedliche, oft sogar signifikant 48

55 4 Material und Methoden unterschiedliche Mittelwerte für die Überzeugungen der Studierenden zum Wissen im Bereich der organischen Chemie, der Physik, der Genetik oder auch der Pflanzenbestimmung. Testinstrument zum Erfassen des Wissenschaftsverständnisses bei Kohorte 2 Aufgrund der Fokussierung des CAEB-Instrumentes auf die konnotativen Aspekte der epistemologischen Überzeugungen, seiner Beschränkung auf nur zwei Skalen und der damit verbundenen eingeschränkten Aussagekraft zum Wissenschaftsverständnis wurde bei Kohorte 2 ein anderes, deutlich differenzierteres NOS-Instrument eingesetzt. Es basiert auf einem für Schüler konzipierten Instrument von Urhahne, Kremer und Mayer (2008), welches in verschiedenen Studien zum Wissenschaftsverständnis bereits eingesetzt worden war (Kremer, 2010; Kremer, Grube, Urhahne & Mayer, 2010; Kremer, Urhahne & Mayer 2009; Kremer, Urhahne & Mayer, 2007). Zu den im Instrument von Urhahne und Mitarbeitern (2008) vorhandenen sieben Skalen (Herkunft, Sicherheit, Entwicklung, Rechtfertigung, Einfachheit, Zweck, Kreativität) wurden im Rahmen der vorliegenden Arbeit drei weitere Skalen neu entwickelt (Subjektivität, Gesellschaftlicher Einfluss, Theorie und Gesetz). Diese drei Skalen, die ebenfalls typische Dimensionen des Wissenschaftsverständnisses darstellen (vgl. Chen, 2006; Lederman et al., 2002; Liang et al., 2006; Osborne et al., 2003; Schwartz et al., 2008; Urhahne et al., 2008), waren von den Autoren für das Schüler-Instrument von Urhahne und Mitarbeitern (2008) als zu schwierig erachtet worden. So wurde hier z. B. auf die Entwicklung einer Skala für die Dimension Soziale und kulturelle Einflüsse auf die Naturwissenschaften verzichtet, da vor allem jüngere Schülerinnen und Schüler, die gerade erst die Naturwissenschaften zu verstehen beginnen, mit dem Erkennen interdisziplinärer Bezüge nicht überfordert werden sollten (Urhahne et al., 2008, S. 83). Auch für die Dimension Theorien und Gesetze hatten Vorarbeiten zur Studie von Urhahne und Mitarbeiter (2008) zu erkennen gegeben, dass es schwierig gewesen wäre, eine messzuverlässige Skala zu den Vorstellungen der Jugendlichen über naturwissenschaftliche Theorien und Gesetze zu konstruieren. Für die Zielgruppe der Studierenden im Rahmen dieser Arbeit wurden die drei Dimensionen aber als angemessen erachtet hinsichtlich des dafür vorauszusetzenden Abstraktionsvermögens und der notwendigen Tiefe des Wissenschaftsverständnisses. Im Hinblick auf die Analyse des Wissenschaftsverständnisses als einem der vermuteten Bedingungsfaktoren diagnostischer Kompetenz bot das überarbeitete, von sieben auf zehn Skalen erweiterte Testinstrument die Möglichkeit, das Wissenschaftsverständnisses der Studierenden mit dem Wissenschaftsverständnis von Schülern zu vergleichen. Ein weiterer Vorteil bestand darin, im Vergleich zum CAEB-Instrument das Wissenschaftsverständnis wesentlich detaillierter erfassen zu können und damit eine deutlich geeignetere Grundlage zu haben für das Überprüfen der Zusammenhänge des Wissenschaftsverständnisses mit der an den späteren Untersuchungszeitpunkten erhobenen diagnostischen Kompetenz der Studierenden (Forschungsfrage 3). Tab. 4.1 zeigt Itembeispiele zu jeder der bei Kohorte 2 eingesetzten zehn Skalen. Das vollständige Instrument befindet sich im Anhang in einer skalensortierten Variante. 49

56 4 Material und Methoden Tab. 4.1: Skalen und Itembeispiele zu den zehn untersuchten Aspekten von Nature of Science Skala 1. Herkunft 2. Sicherheit / Wahrheit 3. Stabilität vs. Dynamik Itembeispiel Nur Naturwissenschaftler können sich naturwissenschaftliche Forschungsfragen überlegen. (-) Itemanzahl Bewährte naturwissenschaftliche Theorien dürfen nicht in Frage gestellt werden. (-) 6 Manchmal verändern sich die Vorstellungen in den Naturwissenschaften Rechtfertigung In den Naturwissenschaften kann es mehrere Wege geben, um Vorstellungen zu überprüfen Einfachheit vs. Komplexität Naturwissenschaftliche Theorien sind oft viel komplizierter als sie sein müssten. (-) 5 6. Zweck / Ziel Naturwissenschaftler führen Experimente und andere Untersuchungen durch, um neue Entdeckungen zu machen Kreativität Naturwissenschaftliches Wissen ist auch ein Ergebnis menschlicher Kreativität Soziale und kulturelle Einflüsse Politische Vorgaben haben keinen Einfluss auf das naturwissenschaftliche Wissen. (-) 5 9. Objektivität vs. Subjektivität 10. Theorie und Gesetz Persönliche Wertvorstellungen von Forschern spielen beim Gewinnen von naturwissenschaftlichen Erkenntnissen keine Rolle. (-) Eine naturwissenschaftliche Theorie ist die Vorstufe eines naturwissenschaftlichen Gesetzes. (-) Legende: (-) zeigt negativ gepolte Items an 5 4 Die im Fragebogen enthaltenen Items der verschiedenen Skalen zum Wissenschaftsverständnis im Bereich Nature of Science waren von den Studierenden in einer fünfstufigen Ratingskala (1 = stimmt gar nicht bis 5 = stimmt völlig) einzuschätzen. Ein hoher Wert ist ähnlich wie beim CAEB-Instrument im Sinne eines fortgeschrittenen Wissenschaftsverständnisses zu interpretieren, ein niedriger im Sinne eines wenig ausdifferenzierten Verständnisses Erhebung des fachmethodischen Wissens Zum Erheben des fachmethodischen Vorwissens der angehenden Biologielehrkräfte kamen bei den beiden Studierendenjahrgängen (Kohorte 1 und Kohorte 2) zwei unterschiedliche Tests zum Einsatz. Der Grund lag darin, dass die im Test bei Kohorte 1 eingesetzten Aufgaben bezüglich ihrer Messzuverlässigkeit noch deutliche Defizite aufwiesen und der Aufgabensatz deshalb für die Messung bei Kohorte 2 überarbeitet wurde. Erhebung des fachmethodischen Wissens bei den Studierenden von Kohorte 1 Zur Erfassung des fachmethodischen Wissens der Studierenden wurden acht geschlossene Aufgaben (sieben MC-Aufgaben und eine Zuordnungsaufgabe) eingesetzt. Die Aufgaben entstammten verschiedenen Quellen, in der Mehrzahl dem Aufgabenpool einer Studie von Teichert (2004), welcher Schülerkompetenzen im Bereich Scientific Reasoning untersucht hatte. Da die Aufgaben aus den verschiedenen Quellen oftmals in sehr unterschiedlichem Format vorgelegen hatten, aber auch aus 50

57 4 Material und Methoden dem Grund, dass sie in der Regel für Schüler konzipiert worden waren, mussten sie in einigen Fällen angepasst werden. Vor allem betraf dies Änderungen in der Anzahl der Distraktoren und andere Vereinheitlichungen bezüglich des Formats. Tab. 4.2 gibt Auskunft über die Quellen, nennt das im Test eingesetzte Format, die Art der Bewertung und gibt an, ob die Aufgabe verändert wurde. Tab. 4.2: Bei Kohorte 1 eingesetzte Aufgaben zum fachmethodischen Wissen Teilbereiche von Scientific Reasoning Fragestellung Aufgabe 1. Im Wasser lebende Räuber Format mögliche Punkte MC 5 0 / 1 Fragestellung 2. Schmetterlingslarven MC 5 0 / 1 Hypothese 3. Pocken MC 5 0 / 1 Hypothese 4. Stichlingsmodelle Anzahl der Antwortmöglichkeiten Zuordnungsaufgabe Quelle Teichert, B. (2004), dieser nach Falkenhausen, E. (1979); verändert Trowbridge & Bybee (1996), verändert Teichert, B. (2004), veränderte PISA-Aufgabe von / 0,5 / 1 PISA-Aufgabe von 2006 Planen 5. Pflanzenwachstum MC 5 0 / 1 Planen 6. Killersee MC 4 0 / 0,5 / 1 Datenanalyse 7. Zuckerkonsum MC 5 0 / 1 Datenanalyse 8. Wachstumsfaktoren MC 5 0 / 0,5 / 1 Aufgabe aus TIMSS III nach Spörlein (2005); verändert PISA-Aufgabe von 2000; verändert Teichert, B. (2004), dieser nach Germann (1985); verändert Jeder der vier Teilbereiche von Scientific Reasoning (Formulieren einer geeigneten Fragestellung, Aufstellen einer geeigneten Hypothese, Planen einer geeigneten Untersuchung, Datenauswertung und interpretation; vgl. Kapitel 2.3.1) war im Test mit zwei Aufgaben vertreten. Sechs der acht Aufgaben im Test hatten fünf Antwortmöglichkeiten, die restlichen zwei besaßen vier. Bei fünf der acht Aufgaben bestand die richtige Lösung im Ankreuzen von einer einzigen der gegebenen Antwortmöglichkeiten, bei dreien mussten zur richtigen Lösung zwei der zur Auswahl stehenden Antwortmöglichkeiten gleichzeitig angekreuzt werden. Bei Aufgaben, bei denen nur eine der Antwortmöglichkeit die richtige Lösung darstellte, wurde das Ankreuzen dieser mit einem Punkt bewertet, alle anderen Ankreuzvarianten mit null Punkten. In den Fällen, bei denen für die vollständig korrekte Lösung zwei der Antwortmöglichkeiten anzukreuzen gewesen waren, war auch die Vergabe von 0,5 Punkten möglich. Auf diese Weise waren im gesamten Test maximal acht Punkte erreichbar, abgestuft in Teilschritten von 0,5 Punkten. Den Probanden war nicht bekannt, welche der Aufgaben nur eine korrekte Antwortmöglichkeit besaßen und bei welchen das Ankreuzen mehrerer die korrekte Lösung darstellte. Sie wurden im Vorfeld nur darüber informiert, dass bei den Aufgaben grundsätzlich mehrere Antwortmöglichkeiten richtig sein konnten. Zusätzlich zur Übersicht in Tab. 4.2 befinden 51

58 4 Material und Methoden sich die acht bei Kohorte 1 eingesetzten Aufgaben auch im Anhang dieser Arbeit. Für die Testung bei Kohorte 1 wurden die Aufgaben in rotierender Reihenfolge in den Testheften angeordnet. Erhebung des fachmethodischen Wissens bei den Studierenden von Kohorte 2 Für den Einsatz bei Kohorte 2 wurden die oben beschriebenen, bei Kohorte 1 eingesetzten Aufgaben noch einmal überarbeitet und durch weitere ergänzt. Mehrere Überlegungen waren hierfür ausschlaggebend: Nicht geeignet erscheinende Aufgaben wurden eliminiert. Weiterhin sollte die Zahl der Aufgaben erhöht werden, so dass zu jeder der vier Teilbereiche von Scientific Reasoning nunmehr drei Aufgaben vorlagen. Die Erhöhung der Aufgabenanzahl erfolgte im Hinblick auf eine bessere Testzuverlässigkeit und sollte zu einer ausgewogeneren Mittelwertbildung beitragen. Auch sollten alle Aufgaben ein einheitliches Format erhalten. Darüber hinaus wurden einige Aufgaben so ausgetauscht, dass alle eingesetzten Aufgaben nach Möglichkeit aus einem Instrument stammten, für das Vergleichswerte aus anderen Studien zur Verfügung standen. In der Mehrzahl der Fälle wurde dabei auf den Aufgabenpool von Teichert (2004) zurückgegriffen, es kamen aber auch Aufgaben aus anderen Studien zum Einsatz. Tab. 4.3 liefert einen Überblick über die zwölf bei Kohorte 2 eingesetzten Aufgaben. Tab. 4.3: Bei Kohorte 2 eingesetzte Aufgaben zum fachmethodischen Wissen Teilbereiche von Scientific Reasoning Aufgabe Format Anzahl der Antwortmöglichkeiten mögliche Punkte Quelle Fragestellung 1. Im Wasser lebende Räuber MC 4 0 / 1 Teichert, B. (2004), dieser nach Falkenhausen (1979); verändert Fragestellung 2. Schmetterlingslarven MC 4 0 / 1 Trowbridge & Bybee (1996); verändert Fragestellung 3. Enzyme MC 4 0 / 1 Teichert, B. (2004); verändert Hypothese 4. Pocken MC 4 0 / 1 Hypothese 5. Bohnenexperiment MC 4 0 / 1 Hypothese 6. Huhn und Ei MC 4 0 / 1 Planen 7. Mehlwürmer MC 4 0 / 1 Teichert, B. (2004), veränderte PISA-Aufgabe von 2000 Teichert, B. (2004), dieser nach Burns, Okey, & Wise (1985); verändert Teichert, B. (2004), dieser nach Dillashaw & Okey (1980); verändert Teichert, B. (2004), dieser nach Lawson et al., (2000); verändert Planen 8. Regenbogenforellen MC 4 0 / 1 Glug, I. (2009) Planen 9. Berghänge MC 4 0 / 1 Datenanalyse 10.Zuckerkonsum MC 4 0 / 1 Datenanalyse 11. Wachstumsfaktoren MC 4 0 / 1 Datenanalyse 12. CO 2-Aufnahme MC 4 0 / 1 Teichert, B. (2004), dieser nach Lawson et al., (2000); verändert veränderte PISA-Aufgabe von 2000 Teichert, B. (2004), dieser nach Germann (1989); verändert Teichert, B. (2004), dieser nach Comber et al. (1977); verändert 52

59 4 Material und Methoden Die zwölf Aufgaben besaßen nach der Überarbeitung ein einheitliches Single-Choice Format mit vier Antwortmöglichkeiten, wobei jeweils nur das Ankreuzen einer dieser die korrekte Lösung darstellte. Die Probanden wurden im Vorfeld der Testung über das Format aufgeklärt. Bei der Auswertung der Testaufgaben wurde für das Ankreuzen der richtigen Antwortmöglichkeit ein Punkt vergeben. Das Ankreuzen einer falschen Antwort wurde mit null Punkten bewertet. Insgesamt waren damit bei den zwölf Aufgaben maximal 12 Punkte erreichbar, ohne Teilpunkte. Auch für die Testung bei Kohorte 2 wurden die Aufgaben in rotierender Reihenfolge in den Testheften angeordnet. Ein Beispieltestheft mit allen zwölf Aufgaben befindet sich im Anhang. 4.4 Instrumente und Methodik zum Erheben der statusdiagnostischen Kompetenzen für das Beurteilen von Schülerleistungsniveaus Im diesem Kapitel wird das Instrument zum Untersuchen der statusdiagnostischen Kompetenzen der Studierenden für das Beurteilen von Schülerleistungsniveaus und von Aufgabenschwierigkeiten im Bereich der Erkenntnisgewinnung vorgestellt. Im Folgenden wird dieses Instrument Kompetenztest für Statusdiagnostik genannt Grundlage für die Entwicklung des Kompetenztests für Statusdiagnostik Das in diesem Kapitel beschriebene neu entwickelte Instrument zum Erfassen der statusdiagnostischen Kompetenzen der Studierenden für das Erkennen von unterschiedlichen Leistungsniveaus bei Schülerlösungen aus dem Bereich der naturwissenschaftlichen Erkenntnisgewinnung ist ein paperpencil Test. Im Sinne der im Projekt getroffenen Definitionen kann das Testinstrument von der methodischen Vorgehensweise her als Statusdiagnostik-Instrument eingestuft werden, da es die bei den Studierenden zum Zeitpunkt der Messung vorliegende Kompetenzausprägung erfasst. Auch von der Zielsetzung her ist es auf die Kompetenzen der Studierenden für Statusdiagnostik gerichtet. Es handelt sich also um ein Instrument, welches mit einem statusdiagnostischen Verfahren die Kompetenzen der Studierenden im Bereich Statusdiagnostik erfasst. Um Verwirrungen in den Begrifflichkeiten zu vermeiden, soll schon an dieser Stelle auf diese Doppelbödigkeit hingewiesen werden. Um ergänzend zu den durch statusdiagnostische Erhebungsmethoden gewonnenen Informationen auch prozessbezogene Informationen über die untersuchte statusdiagnostische Kompetenz der Studierenden zu erhalten, wurde zusätzlich zum paper-pencil basierten Testinstrument eine Videoanalyse von den Bearbeitungsprozessen der Studierenden durchgeführt. Hierzu wurden acht freiwillige Studierende aus Kohorte 1 beim Bearbeiten der Aufgaben des paper-pencil basierten Testinstrumentes gefilmt und ihre Äußerungen mit einem Audiogerät aufgenommen. Die Videoanalyse zielte darauf ab zu erfassen, in 53

60 4 Material und Methoden welcher Weise und aus welchen Gründen die Studierenden zu ihren Ergebnissen im Test gelangt waren. Methodisch betrachtet stellt die Videoanalyse damit ein prozessdiagnostisches Instrument dar, da es auf den Bearbeitungsprozess der Studierenden ausgerichtet ist und prozessbezogene Informationen liefert. Von der Zielsetzung her untersucht es dagegen die statusdiagnostischen Kompetenzen der Studierenden. Neben dem Gewinnen von prozessbezogenen Informationen über die statusdiagnostischen Kompetenzen der Studierenden lieferte die Videoanalyse zusätzlich Informationen für die Validierung des neu entwickelten paper-pencil Tests (siehe Kapitel und Kapitel ). Grundlage für die Entwicklung des paper-pencil basierten Messinstrumentes war ein bereits bestehendes, geprüftes und validiertes Instrument, mit dem Schülerkompetenzen im Bereich der naturwissenschaftlichen Erkenntnisgewinnung gemessen werden können (Grube, 2010; Grube & Mayer, 2010; Mayer, Grube, & Möller, 2008; Möller & Mayer, 2011). Dieses im Rahmen einer größeren Studie, der sogenannten BiK-Studie (BiK = Biologie im Kontext, vgl. Bayrhuber, 2007; Lücken & Elster, 2007) eingesetzte Instrument enthält an Schüler der Sekundarstufe I gerichtete Aufgaben zu den vier Teilbereichen von Scientific Reasoning (vgl. hierzu die Ausführungen in Kapitel und Mayer, 2007; Mayer et al., 2008; Möller & Mayer, 2009). Die Aufgaben bei der BiK-Studie hatten ein offenes Antwortformat. Ausgegeben wurde das Instrument im Rahmen der BiK-Studie an Schüler verschiedener Klassenstufen und formen der Sekundarstufe I in mehreren Bundesländern. Die in den Schülertestungen erhaltenen Schülerlösungen bestanden meist aus ein bis zwei Antwortsätzen. Ausgewertet wurden sie mit Hilfe eines umfangreichen Kodierleitfadens, der es ermöglichte, die Schülerlösungen in ein Raster bestehend aus sechs Leistungsniveaus einzuordnen (Grube, 2010; Möller & Mayer, 2011). Fünf dieser sechs Leistungsniveaus (Niveau 1 bis Niveau 5, abgekürzt N1 bis N5) waren jeweils kategorisiert durch bestimmte, zum Kompetenzbereich der Erkenntnisgewinnung gehörige Kriterien. Dabei waren die Kriterien der Leistungsniveaus so gestaltet, dass ihre Komplexität von Niveau zu Niveau zunahm und sie inhaltlich aufeinander aufbauten. In das sechste Leistungsniveau (Niveau 0, abgekürzt N0) wurden diejenigen Schülerlösungen eingruppiert, welche inadäquate Antworten bezüglich der Aufgabenstellung darstellten. Abb. 4.5 zeigt die Leistungsniveaus N1 bis N5 der vier Teilbereiche von Scientific Reasoning (Fragestellung, Hypothesenbildung, Planen einer Untersuchung, Datenanalyse und Schlussfolgerung; vgl. Kapitel 2.3.1) in der Form, wie sie in der BiK-Studie eingesetzt worden waren. 54

61 4 Material und Methoden Abb. 4.5: Kompetenzniveaus der vier Teilbereiche des Wissenschaftlichen Denkens (Scientific Reasoning) nach Grube (2010), S. 37 (nw.=naturwissenschaftlich) Das im Rahmen dieser Arbeit neu entwickelte und hier beschriebene Instrument zum Erfassen der statusdiagnostischen Kompetenzen der Studierenden setzt an dem zuvor beschriebenen Schülerinstrument an: Den Studierenden wurden ausgewählte Schüleraufgaben aus dem Instrumentarium der BiK-Studie und dazugehörige reale Schülerantworten präsentiert, verbunden mit den beiden folgenden an sie gerichteten Aufgabenstellungen: Zum einen sollten sie die Schülerantworten beurteilen hinsichtlich des von den Schülern erreichten Leistungsniveaus und zum anderen sollten sie die Schüleraufgaben beurteilen hinsichtlich der Aufgabenschwierigkeit für die Schüler. Das Untersuchen der beiden genannten Aspekte entspricht dem Fokus einer Reihe von Studien zur diagnostischen Kompetenz (McElvany et al., 2009; Schrader, 1989; Schrader & Helmke, 1987; Südkamp et al., 2008). Der Fokus begründet sich in der Tatsache, dass die Fähigkeit zur Einschätzung von Aufgabenschwierigkeiten neben der Kompetenz zur Leistungsbeurteilung herausragend wichtige Aspekte diagnostischer Kompetenz von Lehrkräften darstellen: So sind Aufgaben und damit auch Aufgabenschwierigkeiten durch ihre Bedeutung für die Bildungsstandards zentral in der aktuellen Entwicklung im Bildungswesen (Astleitner, 2008). Weiterhin kommt dem Einschätzen von Aufgabenschwierigkeiten eine bedeutsame Funktion zu für die Passung und Steuerung von Lernprozessen, z. B. bei Maßnahmen der Inneren Differenzierung oder im Rahmen von Leistungsüberprüfungen (Astleitner, 2008). Als Grundlage und Orientierungshilfe für das Einstufen der Schülerantworten zu einem bestimmten Leistungsniveau wurde den Studierenden in dem hier beschriebenen neu entwickelten Instrument zusammen mit den Schülerantworten ein Erwartungshorizont ausgegeben, der im Gegensatz zu den 55

62 4 Material und Methoden sechs Leistungsniveaus der BiK-Studie aus nur vier Leistungsstufen (Niveau 1 bis Niveau 4, abgekürzt N1 bis N4) und den dazugehörigen Kriterien bestand. Inhaltlich entsprechen diese vier Niveaus und die zugehörigen Kriterien im Wesentlichen denjenigen aus dem Schülerinstrument der BiK-Studie. Bei der Auswahl der Schülerantworten für den neu zu entwickelnden Kompetenztest für Statusdiagnostik konnte auf einen Pool von mehreren tausend Schülerantworten zurückgegriffen werden, welche im Zuge der BiK-Erhebungen entstanden waren. Die Auswahl der Schülerantworten erfolgte im Hinblick darauf, ob sie mit Hilfe des Erwartungshorizontes eindeutig einem der vier beabsichtigten Leistungsniveaus zugeordnet werden konnten und ob sie als typisch für das jeweilige Niveau anzusehen waren. Die vorgenommene Beschränkung auf Niveau 1 bis Niveau 4 hatte folgende Gründe: Da im Hinblick auf Messwiederholungen und im Hinblick auf eine ausreichende Reliabilität des Instrumentes jedes der vier Niveaus durch verschiedene Schüleraufgaben und mehrere dazugehörige Schülerantworten vertreten sein sollte, diente die Reduzierung von den ursprünglichen sechs auf die vier Niveaus der Handhabbarkeit des Diagnosekompetenz-Tests für die Studierenden: Diese sollten den Test innerhalb einer bestimmten Zeit bearbeiten können und sollten mit den Niveaukriterien auch ohne vorheriges Üben (im Gegensatz zu den geschulten Kodierern im BiK-Test) zurecht kommen können. Der Grund für die Beschränkung gerade auf das Niveau 1 bis Niveau 4 lag darin, dass im Schüler-Instrument der BiK-Studie bei Niveau 0 Schülerantworten eingruppiert worden waren, die der dortige Kodierleitfaden als nicht passend bzw. geeignet zur Beantwortung der gestellten Aufgabe auswies. Niveau 5 war kategorisiert durch Kriterien, die weit über das hinaus gingen, was Schüler der Sekundarstufe I üblicherweise wissen bzw. können, weshalb dieses Niveau im BiK-Test nur von sehr wenigen Schülern erreicht worden war (Grube, 2010). Sowohl Niveau 0 als auch Niveau 5 erschienen damit für den neu zu entwickelnden Diagnosekompetenz-Test am ehesten entbehrlich. Die Erwartungshorizonte zu den vier Teilbereichen des Wissenschaftlichen Denkens (Scientific Reasoning) mit den jeweils vier Niveaustufen befinden sich zusammen mit einem Aufgabenbeispiel und den darauf bezogenen Schülerantworten im Anhang dieser Arbeit Struktur des Kompetenztests für Statusdiagnostik Struktur des Instrumentes und Aufbau der Testhefte Das neu entwickelte Instrument besteht aus vier Testheften, je eines zu jedem der vier Teilbereiche von Scientific Reasoning ( Fragestellung formulieren Hypothese generieren, Untersuchung planen und Daten analysieren und interpretieren ). Beispielseiten zu jedem der vier Testhefte befinden sich im Anhang. Jedes Testheft enthält zwei Schüleraufgaben mit 16 verschiedenen Schülerantworten, welche von den Studierenden hinsichtlich des erreichten Leistungsniveaus zu beurteilen waren. Dabei beziehen sich immer jeweils acht der 16 Schülerantworten auf die eine der beiden im Testheft vertretenen Schüleraufgaben, die anderen acht auf die zweite. Die Schülerantworten decken gleichmäßig alle vier möglichen Leistungsniveaus ab. Das komplette 56

63 4 Material und Methoden Instrument mit den vier Testheften enthält demnach 64 Schülerantworten (= 64 Items). Hinzu kommen diejenigen Items, in denen die Studierenden nach ihrer Einschätzung der Aufgabenschwierigkeiten gefragt werden. Da jedes der vier Testhefte zwei verschiedene Schüleraufgaben enthält, sind dies noch einmal 2 x 4 = 8 Items. Zum besseren Verständnis an dieser Stelle soll das beschriebene Instrumenten-Design in Abb. 4.6 verdeutlicht werden. Abb. 4.6: Struktur des bei Erhebung 2 eingesetzten Kompetenztests für Statusdiagnostik Innerhalb der vier Testhefte zeigen die einzelnen Seiten einen typischen Aufbau. In Abb. 4.7 ist dieser Aufbau am Beispiel einer Seite aus dem Testheft zur Teilkompetenz Hypothesen generieren dargestellt. Jedes Testheft besteht aus acht Seiten. Auf der linken Hälfte jeder Testheftseite wird eine der insgesamt zwei Schüleraufgaben und zwei darauf bezogene Schülerantworten präsentiert. Auf der rechten Hälfte der Testheftseiten ist der Erwartungshorizont abgebildet, der die Grundlage für die Einordnung der Schülerantworten zu jeweils einer der vier Niveaustufen bildet. Alle acht Seiten eines Testheftes beinhalten jeweils den gleichen Erwartungshorizont. Weiterhin enthält die rechte Seitenhälfte die beiden Aufgabenstellungen für die Studierenden, zum einen den Auftrag zum Beurteilen der beiden Schülerlösungen in Bezug auf das in der Antwort erreichte Leistungsniveau und zweitens den Auftrag zum Einschätzen der Aufgabenschwierigkeit. Letzterer sollte anhand eines groben Rasters mit den Kategorien leicht, mittel und schwer erfolgen. Dabei sollten die Studierenden zugrunde legen, dass sich die Aufgabe an einen durchschnittlich begabten Schüler einer 7. Jahrgangsstufe richtet und im Vorfeld im Unterricht keine explizite Intervention im Bereich Erkenntnisgewinnung erfolgt war. Die Aufgabe sollte dann als gelöst gelten, wenn mindestens das Leistungsniveau drei erreicht wird. 57

64 4 Material und Methoden Schüleraufgabe Erwartungshorizont Schülerantworten Aufgaben für die Studierenden Abb. 4.7: Beispielseite aus dem Testheft Hypothesen generieren Für die vier Testhefte gab es in Bezug auf die Anordnung der beiden in ihnen enthaltenen Aufgaben und der 16 Schülerantworten verschiedene Varianten, um zu gewährleisten, dass nicht immer die gleichen Schülerantworten vorne, in der Mitte bzw. hinten im Testheft erscheinen. Damit sollten Ermüdungseffekte nivelliert und dem Umstand entgegen gewirkt werden, dass sich die Studierenden bei den ersten Schülerantworten erst in die Struktur des Instrumentes und den Erwartungshorizont eindenken müssen und deshalb bei diesen Antworten schlechter abschneiden. Zu diesem Zweck rotierten die acht Seiten in den verschiedenen Testheftvarianten einmal komplett durch. Referenzlösung zum Instrument Ebenfalls im Anhang dieser Arbeit befindet sich die Referenzlösung zum Kompetenztest für Statusdiagnostik. Diese besteht aus einer Musterlösung für die Zuordnung der Schülerantworten zu einem der vier möglichen Leistungsniveaus, verbunden mit ausführlichen Begründungen hierfür. In den Begründungen wird für jede einzelne der 64 Schülerantworten ein Bezug hergestellt zwischen den in der jeweiligen Antwort angesprochenen Aspekten im Zusammenhang mit Scientific Reasoning und den im Erwartungshorizont beschriebenen und das jeweilige Leistungsniveau kennzeichnenden Kriterien. Zur Absicherung der Richtigkeit der Begründungen wurden diese während der Entwicklungsphase des Instrumentes einer Expertenbegutachtung durch fünf unabhängig begutachtende Fachdidaktiker unterzogen. Bei Bedarf wurden die Begründungen entsprechend der Kommentare der Gutachter abgeändert oder sogar einzelne Schülerantworten ausgetauscht, so dass im Endeffekt für alle ausgewählten 64 Schülerantworten und zugehörigen Begründungen ein Konsens über deren Richtigkeit bestand. Obwohl die korrekte Niveauzuweisung bereits durch die Einstufung der Antwort im Zusammenhang mit der BiK-Studie vorgegeben war, ermöglichen die im Rahmen dieser Arbeit zusätzlich erstellten 58

65 4 Material und Methoden Begründungen darüber hinaus den individuellen Bezug der in den jeweiligen Schülerantworten angesprochenen fachmethodischen Aspekte zu den spezifischen Kriterien des zugehörigen vierstufigen Erwartungshorizontes. Auf diese Weise war es mit Hilfe der Begründungen möglich, die von den Studierenden in den Videoaufzeichnungen zu den Bearbeitungsprozessen abgegebenen Niveaubegründungen abzugleichen mit den von den Experten genannten Niveaubegründungen der Referenzlösung Einsatz des Kompetenztests für Statusdiagnostik Die Untersuchungen zum Erhebungszeitpunkt 2 erfolgten bei Kohorte 1 im 4. Fachsemester und bei Kohorte 2 in deren 3. Fachsemester. Zu diesem Zeitpunkt hatten beide Kohorten die Module M 1 Grundlagen der Biologiedidaktik und M 2 Methodik des Biologieunterrichts (letztere mit den zwei Teilen Fachgemäße Arbeitsweisen und Medien im Biologieunterricht ) bereits absolviert. In den beiden genannten Modulen werden die Grundlagen zum Experimentieren und zum Unterrichten im Bereich Erkenntnisgewinnung behandelt. Den Probanden beider Kohorten sollten somit die fachmethodischen Grundbegriffe und die Vorgehensweise für das naturwissenschaftliche Arbeiten im Bereich der Erkenntnisgewinnung bekannt sein. Eine Übersicht über die von den Studierenden in den verschiedenen Semestern belegten Module im Rahmen ihrer biologiedidaktischen Ausbildung ist in Kapitel 4.7 dargestellt. Die Testungen fanden im Rahmen des Moduls M 3 Planen und Gestalten von Biologieunterricht statt. Dieses Modul gliedert sich ebenfalls in zwei Teile: Im 3. Semester belegen die Studierenden den Teil Planung einer Unterrichtseinheit und im 4. Semester den Teil Biologische Schulversuche. Innerhalb dieser Modulteile verteilten sich die Kohorten auf sechs (Kohorte 1) bzw. acht (Kohorte 2) Parallelkurse. Die Erhebungen fanden jeweils in allen dieser Parallelkurse statt, um möglichst alle Studierenden der Kohorten zu erfassen. Bei allen Testungen war ich als Aufsicht und Ansprechpartnerin anwesend. Da es für die Studierenden innerhalb der in den Modulveranstaltungen zur Verfügung stehenden Zeit nicht möglich war, alle vier Testhefte und zusätzlich noch die weiteren an Erhebung 2 vorgesehenen Testinstrumente zu bearbeiten, erhielt jeder Proband nur zwei der vier Testhefte (d. h. Testhefte zu zwei der vier Teilbereiche von Scientific Reasoning) entsprechend eines vorher festgelegten Ausgabedesigns. Dieses Design sorgte dafür, dass alle vier Testhefte in gleichen Anzahlen bezogen auf die möglichen Kombinationen an die Studierenden ausgegeben und von diesen bearbeitet wurden. Für die Testung selbst stand den Studierenden genügend Zeit zur Verfügung, so dass alle Studierenden in der Lage waren, sämtliche Schülerantworten und Aufgabenschwierigkeiten ihrer beiden Testhefte zu beurteilen. 59

66 4 Material und Methoden Methodik zur Auswertung der Studierenden-Einschätzungen zu den Aufgabenschwierigkeiten Für die Auswertung wurden die von den Studierenden getroffenen Einschätzungen der Aufgabenschwierigkeiten hinsichtlich leicht, mittel oder schwer gezählt, graphisch veranschaulicht und verglichen mit den realen, in der Bik-Studie empirisch ermittelten Aufgabenschwierigkeiten. Diese wurden aus den Daten der Bik-Studie mit Hilfe des Statistik- Programms ConQuest berechnet. Folgende Basisannahmen wurden dabei zugrunde gelegt: - Wenn mehr als zwei Drittel (> 67 Prozent) der an der BiK-Studie beteiligten Schüler der 7. Jahrgangsstufe das Niveau 3 erreicht hatten, war das Item leicht. - Wenn zwischen einem und zwei Drittel (34 < x < 66 Prozent) dieser Schüler das Niveau 3 erreicht hatten, war das Item mittelschwer. - Wenn weniger als ein Drittel (< 33 Prozent) dieser Schüler das Niveau 3 erreicht hatten, war das Item schwer. Das Programm ConQuest berechnet die Aufgabenschwierigkeiten nach einem probabilistischen Verfahren und gibt sie als sogenannte thresholds (Schwellenwerte) aus. Ein threshold gibt die Schwelle an, ab der das Erreichen einer bestimmten Leistungsstufe (hier: Niveau 3) eine Wahrscheinlichkeit von 50 Prozent oder mehr hat. Threshold-Werte sind metrische Daten. Die für leichte Aufgaben festgelegte Lösungswahrscheinlichkeit von 67 Prozent entspricht einem threshold- Wert von 0,69 und diejenige von 33 Prozent einem threshold-wert von + 0,69. Damit gilt: Bei einem im Schülertest ermittelten threshold-wert kleiner/gleich - 0,69 (entsprechend einer Lösungswahrscheinlichkeit von > 67%) sollte die Aufgabe als leicht gelten. Bei einem im Schülertest ermittelten threshold-wert von - 0,68 bis + 0,68 (entsprechend einer Lösungswahrscheinlichkeit zwischen 66 % und 34 %) sollte die Aufgabe als mittel gelten. Und bei einem im Schülertest ermittelten threshold-wert größer/gleich + 0,69 (entsprechend einer Lösungswahrscheinlichkeit von < 33 %) sollte die Aufgabe als schwer gelten. Für alle im Diagnosekompetenz-Test eingesetzten Aufgaben wurden die Aufgabenschwierigkeiten nach der oben beschriebenen Methode aus den BiK-Daten ermittelt. Die Ergebnisse dieser Berechnungen finden sich in Kapitel Durch den Vergleich der von den Studierenden geschätzten Aufgabenschwierigkeiten mit den im Schülertest empirisch ermittelten threshold-werten war es möglich, Rückschlüsse auf die diagnostische Kompetenz der Studierenden hinsichtlich ihrer Fähigkeit zur Einschätzung von Aufgabenschwierigkeit zu ziehen Methodik zur Auswertung der Niveaubeurteilungen Die Auswertung der in der Testung gewonnenen Daten zu den Niveaueinschätzungen der Studierenden erfolgte mit Hilfe des Statistikprogrammes SPSS (Version 17 bis 20). Hierzu wurden die 60

67 4 Material und Methoden Original-Niveauzuweisungen der Studierenden in einem ersten Schritt in SPSS eingegeben (Schritt a) und in einem zweiten Schritt (Schritt b) umcodiert hinsichtlich der Korrektheit der Niveauzuweisungen: a) Kodierung der Original-Niveauzuweisungen in SPSS Die Kodierung der Originaldaten in SPSS erfolgte als Ziffern entsprechend der von den Studierenden getroffenen Niveaueinschätzungen: 1 = der Proband beurteilte das Leistungsniveau der Schülerantwort als N1 2 = der Proband beurteilte das Leistungsniveau der Schülerantwort als N2 3 = der Proband beurteilte das Leistungsniveau der Schülerantwort als N3 4 = der Proband beurteilte das Leistungsniveau der Schülerantwort als N4 b) Umcodierung der Originaldaten nach richtig/falsch Die Originaldaten wurden anschließend entsprechend richtiger oder falscher Einschätzung (bezogen auf die Referenzlösung) in dichotome Daten umcodiert: 1 = Niveau der Schülerantwort korrekt bestimmt 0= Niveau der Schülerantwort falsch bestimmt Aus den Original-Niveauzuweisungen der Studierenden heraus erfolgte die deskriptive Ergebnisdarstellung der Niveaubeurteilungen (Kapitel 6.2.2). Für die Berechnung der statusdiagnostischen Kompetenzen der Studierenden zum Zeitpunkt der Erhebung 1 wurden die nach richtig/falsch umcodierten Datensätze (siehe Schritt b) herangezogen. Da die Probanden im Test jeweils nur zwei der insgesamt vier Teilbereiche von Scientific Reasoning bearbeitet hatten (vgl. Kapitel 4.4.3), wurden zur Berechnung der Werte zu den statusdiagnostischen Kompetenzen der Studierenden zwei verschiedene Auswerteverfahren benutzt: Zum einen wurde eine Auswertung nach der Klassischen Test Theorie (KTT, z.b. Bühner, 2006; Embretson & Reise, 2000; Novick, 1966; Rost, 2004; zitiert nach Becker, 2004) durchgeführt und zum anderen wurde eine sogenannte Rasch- Analyse nach der Item Response Theorie (IRT, z. B. Birnbaum, 1968; Hartig, 2009; Rasch, 1960; Rost, 2004) vorgenommen. Im Rahmen der IRT können auch Datensätze analysiert werden, bei denen nicht alle Probanden die gleichen Items bearbeitet haben. Nach der KTT ist dies nicht ohne weiteres möglich. Nähere Ausführungen zu den beiden Auswerteverfahren folgen in den nächsten Abschnitten. Die Auswertung nach der IRT brachte für den eingesetzten Kompetenztest für Statusdiagnostik einige weitere Vorteile gegenüber der Auswertung nach der KTT. Diese Vorteile, die an dieser Stelle kurz benannt werden sollen, entsprechen denjenigen, die grundsätzlich als Vorteile der IRT gegenüber der KTT gelten (Hartig, 2009) (1) Angenommenes Skalenniveau: Bei KTT-basierten Auswertungen werden die Antworten der Probanden auf die Testitems in Messwerte übersetzt, denen für die weiteren Auswertungen Intervallskalenniveau zugeschrieben wird. Diese Annahme ist für viele Antwortformate 61

68 4 Material und Methoden fragwürdig, so auch für die Unterschiede zwischen den vier Leistungsniveaus bei der Beurteilung der Schülerantworten. Für die IRT-basierten Auswertungen ist die Annahme eines ordinalen Skalenniveaus ausreichend, ein identischer Abstand zwischen mehreren Antwortkategorien muss nicht angenommen werden. (2) Verschiedene IRT-Modelle: In IRT-Modellen werden die Zusammenhänge zwischen dem Testverhalten der Probanden (hier: das Zuweisen der Leistungsniveaus zu den Schülerantworten aus dem Bereich Erkenntnisgewinnung) und dem zu messenden Merkmal (hier: die diagnostische Kompetenz der Studierenden für das Erkennen von Leistungsniveaus bei Schülerantworten aus dem Bereich Erkenntnisgewinnung) in einem probabilistischen, d. h. auf Wahrscheinlichkeiten basierenden Modell beschrieben. Damit werden das Testverhalten und die Merkmalsausprägung explizit als separate Größen behandelt. Dies berücksichtigt die Tatsache, dass ein Testverhalten immer von verschiedenen Faktoren abhängig ist. Im dichotomen Rasch-Modell, welches im Rahmen dieser Arbeit eingesetzt wurde, werden dabei zwei Faktoren berücksichtigt, nämlich die diagnostischen Fähigkeiten/Kompetenzen der Probanden und die Itemschwierigkeiten der jeweilig bearbeiteten Items. In mehrparametrigen IRT-Modellen können aber auch weitere Faktoren dazukommen. In der KTT erfolgt faktisch eine Gleichsetzung von Itemantwort und Merkmal. Darüber hinaus können IRT-Modelle über die Analyse von verschiedenen statistischen Kennwerten empirisch auf ihre Passung für die vorliegenden Testdaten geprüft werden, während Analysen im Kontext der KTT auf mehreren ungeprüften Grundannahmen (Axiomen) basieren. (3) Gemeinsame Skala: Bei der IRT werden die Merkmalsausprägungen (hier: die statusdiagnostische Kompetenz) und die Itemschwierigkeiten auf derselben Skala beschrieben. Dies ermöglicht weitergehende Testwertinterpretationen, die im Rahmen der KTT nicht möglich sind. (4) Stichprobenunabhängigkeit der Parameterschätzungen: Im Rahmen der IRT können die Itemschwierigkeiten unabhängig davon bestimmt werden, ob Personen mit einer hohen oder niedrigen Merkmalsausprägung untersucht wurden. Die Itemschwierigkeiten im Zusammenhang mit der KTT sind dagegen immer stichprobenabhängig. Darüber hinaus können in IRT-basierten Analysen die Merkmalsausprägung von Personen unabhängig davon geschätzt werden, ob bei der Messung leichte oder schwierige Aufgaben eingesetzt wurden. (5) Vollständigkeit der Antworten: Aus der Stichprobenunabhängigkeit der Parameterschätzungen ergibt sich schließlich ein weiterer großer forschungspraktischer Vorteil IRT-basierter Auswertungen: Die Merkmalsausprägungen können auf derselben Skala bestimmt werden, auch wenn verschiedene Personengruppen unterschiedliche Anzahlen von Aufgaben beantwortet haben. Dies ist im Kontext der KTT nicht so einfach möglich. Die beiden letztgenannten Punkte spielen auch für die vorliegende Untersuchung eine bedeutende Rolle. Durch das Bearbeiten von unterschiedlichen Testheften fanden manche der Probanden eher 62

69 4 Material und Methoden schwerere, andere eher leichtere Items vor. Im Rahmen der KTT stellt dies ein Problem dar. Im Rahmen der IRT dagegen ist es möglich, diesen Umstand bei der Berechnung der Personen- Fähigkeitswerte (hier: der diagnostischen Kompetenzen für das Beurteilen der Schülerantworten) zu berücksichtigen, so dass auf diese Weise die errechneten Fähigkeitswerte verschiedener Personen vergleichbar bleiben trotz unterschiedlich schwieriger Testhefte. Auch wurde bei der Auswertung der Untersuchungen der statusdiagnostischen Kompetenzen für das Beurteilen der Schülerleistungsniveaus ein Vergleich der statusdiagnostischen Kompetenzen verschiedener Untergruppen aus der Stichprobe vorgenommen. Und auch diese hatten unterschiedliche Items beantwortet, wobei hier die Verteilung an eher schweren und eher leichten Items innerhalb der Untergruppen offen bleibt und damit in noch stärkerem Maße ein Problem für die KTT darstellt. Für die Datenanalysen nach der IRT wurde wie bereits erwähnt das dichotome Raschmodell (one parameter modell, Rasch modell) verwendet (Hartig, 2009; Magno, 2009). Unter den möglichen IRT- Modellen erschien das Raschmodell geeignet, da bei dem Datensatz des an Erhebung 2 eingesetzten Kompetenztests für Statusdiagnostik ein dichotomes Antwortformat vorlag (in Form von richtigen bzw. falschen Niveaueinschätzungen, kodiert als 0/1) und außer den Personenfähigkeiten und den Itemschwierigkeiten keine weiteren Parameter betrachtet werden sollten. Die Berechnungen im Rahmen der KKT erfolgten mit dem Statistikprogramm SPSS (Version 17 bis 20), diejenigen im Rahmen der IRT mit Hilfe des Statistikprogrammes Winsteps (Linacre, 2013). Sowohl das Auswerteverfahren nach KTT als auch dasjenige nach IRT liefern metrische Daten zur statusdiagnostischen Kompetenz. Die von Winsteps im Rahmen der IRT berechneten Fähigkeitswerte können im Anschluss an ihre Erzeugung exportiert und in die Datenmaske von SPSS eingebunden werden. Damit war es möglich, für weitergehende Analysen (wie z. B. für Mittelwertvergleiche zwischen Untergruppen, Korrelationsberechnungen und der Berechnung und Darstellung von Verteilungen und von Reliabilitäten) wieder auf die in der SPSS-Datei als Variablen angelegten Daten aus den vorigen Erhebungen und auf die statistischen Möglichkeiten des Programmes SPSS zurückzugreifen. Die Tabellen und Grafiken zu den Ergebnisdarstellungen wurden entweder mit dem Programm Excel 2007, mit SPSS oder mit der Tabellenfunktion von Word erstellt. In dieser Arbeit werden die Ergebnisse beider Auswerteverfahren (nach KTT bzw. IRT) präsentiert und einander gegenüber gestellt. Dies hatte zum einen das Ziel, die den beiden Verfahren innewohnenden unterschiedlichen Auswertungsmöglichkeiten zu nutzen und zusätzlich die Vergleichbarkeit der mit den beiden Verfahren gewonnenen Ergebnisse zu untersuchen. Zum anderen sollte eine Vergleichbarkeit gewährleistet werden mit den nur über die KTT ermittelten Ergebnissen und Befunden der anderen Untersuchungszeitpunkte. 63

70 4 Material und Methoden Methodik zum Einsatz und zur Auswertung der Videoanalysen Prozessbetrachtungen mit Hilfe von Videoanalysen Um ergänzend zu den mittels Statusdiagnostik gewonnenen Daten auch Prozessinformationen über die untersuchten statusdiagnostischen Kompetenzen der Studierenden zu erhalten, wurde zusätzlich zum paper-pencil basierten Testinstrument eine Videoanalyse von den Bearbeitungsprozessen der Studierenden durchgeführt. Hierfür wurden die Studierenden beim Bearbeiten der Aufgaben des paper-pencil Tests gefilmt und per Audiogerät aufgenommen. Die Videoanalyse zielte darauf ab zu erfassen, in welcher Weise und aus welchen Gründen die Studierenden zu ihren Niveaueinschätzungen im Test gelangt waren. Der Ansatz, mit Hilfe von Videoanalysen Prozessinformationen zur diagnostischen Kompetenz zu gewinnen, wurde im Gesamtprojekt Professionsorientierte Lehrerbildung (vgl. Kapitel 4.8) auch in parallelen Arbeiten angewendet so z. B. in Untersuchungen von Cappell (2012) zur diagnostischen Kompetenz von angehenden Physiklehrkräften und basiert vor allem auf Vorarbeiten und Überlegungen der Arbeitsgruppe um von Aufschnaiter (u.a. von Aufschnaiter, 2007). Für die Durchführung der Videoanalysen im Rahmen der vorliegenden Arbeit wurden aus Kohorte 1 acht (freiwillige) Studierende ausgewählt. Diese wurden paarweise während der Bearbeitung der Testhefte und einiger zusätzlich gestellter Aufgaben videographiert, so dass insgesamt vier Videos entstanden. Den Probanden wurden folgende Aufgaben gestellt: 1. Bearbeiten der ausgegebenen Testhefte: Beurteilen der dortigen Schülerantworten in Bezug auf das von den Schülern erreichte Leistungsniveau und Einschätzen der Aufgabenschwierigkeiten (schriftliche Einzelarbeit, ohne miteinander zu sprechen). 2. Gegenseitiges Begründen der vorgenommenen Niveauzuweisungen: Aus welchen Gründen ist die in Einzelarbeit vorgenommene Beurteilung erfolgt? (Partnerarbeit, im Gespräch). 3. Vergleich der eigenen Lösungen mit der Referenzlösung und den dort enthaltenen Begründungen für die Zuweisung der Schülerantworten zu den Niveaus (Partnerarbeit, im Gespräch). Durch das Sprechen über die Begründungen für die Niveauzuweisungen und die Diskussion über die Referenzlösung war es möglich, Prozessinformationen über die dem Testergebnis zugrunde liegenden Entscheidungsprozesse der Studierenden zu erhalten. Vor allem interessierten hier die Äußerungen zu den im Erwartungshorizont vorgegebenen Kriterien der einzelnen Leistungsniveaus und ob die Studierenden in der Lage gewesen waren, die Kriterien der Leistungsniveaus in den jeweiligen Schülerantworten zu identifizieren. Über den Vergleich der Studierenden-Begründungen mit den Begründungen in der Referenzlösung konnten auch unangemessene oder unkorrekte Auffassungen aufgedeckt werden, so z. B. ein nicht vorhandenes Konzeptverständnis zu bestimmten Begriffen im Bereich Erkenntnisgewinnung oder zur Schrittabfolge im Erkenntnisprozess. 64

71 4 Material und Methoden Validierung des Instrumentes für Statusdiagnostik mit Hilfe der Videoanalysen Neben dem Gewinnen von prozessbezogenen Informationen über die statusdiagnostischen Kompetenzen der Studierenden dienten die Videoanalysen auch der Untersuchung der Validität des neu entwickelten paper-pencil Tests. Methodisch betrachtet wird hierfür auf prozessanalytischem Wege untersucht, ob die im paper-pencil Instrument enthaltenen Items von den Studierenden auch tatsächlich im Sinne der fachmethodischen Konzepte der naturwissenschaftlichen Erkenntnisgewinnung verstanden und bearbeitet wurden. Dagegen sind Verständnisschwierigkeiten ganz grundsätzlicher Art, die zu einer fehlerhaften Beurteilung führen, welche nichts mit der diagnostischen Kompetenz im Bereich Erkenntnisgewinnung zu tun hat (z. B. hervorgerufen durch eine missverständliche Aufgabenstellung oder zu komplizierte Sätze) als Hinweis auf Mängel bei der Validität des Instrumentes zu werten. Methodik zur Auswertung der Videos Die Auswertung der Videoaufnahmen zu den Bearbeitungsprozessen der Studierenden erfolgte über eine Analyse der Transkripte, welche von den vier Videos angefertigt wurden. Hierzu wurden in einem ersten Schritt diejenigen Analysekriterien festgelegt, die für die Validierung und die Prozessanalyse als relevant erachtet wurden. Für die Prozessanalyse stand hierfür insbesondere das Überprüfen der drei Hypothesen im Vordergrund, welche sich aus der Interpretation der Befunde zum paper-pencil basierten Kompetenztest für Statusdiagnostik ergeben hatten (für die drei Hypothesen siehe Kapitel 6.2.2). Für die Validierung wurden Analysekriterien ausgewählt, welche sich auf Verständnisschwierigkeiten grundsätzlicher Art bezogen. In einem zweiten Schritt wurden dann in den Transkripten diejenigen Probanden-Aussagen markiert und in einer Tabelle geordnet, die in Bezug standen zu den ausgewählten Analysekriterien. Auf Basis der tabellarisch geordneten Aussagen erfolgten dann die Schlussfolgerungen zu den prozessanalytischen Betrachtungen und der Validierung. Die Tabelle mit den ausgewählten Analysekriterien und den zugeordneten Aussagen befindet sich im Ergebnisteil in Kapitel ). 4.5 Instrumente und Methodik zum Erheben der statusund prozessdiagnostischen Kompetenzen für das Beurteilen eines Schüler- Experimentierprozesses In Kapitel 4.5 wird das zum Erhebungszeitpunkt 3 eingesetzte kombinierte Testinstrument vorgestellt. Mit diesem Instrument sollten die statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schülerexperimentierprozesses erfasst werden. Im Folgenden wird dieses kombinierte Instrument auch mit kombinierter Kompetenztest, kombiniertes Instrument und kombiniertes Testinstrument bezeichnet. 65

72 4 Material und Methoden Grundlagen für die Entwicklung des kombinierten Kompetenztests Ein zentraler Ansatzpunkt bei der Konzeptualisierung der diagnostischen Kompetenz im Rahmen dieser Arbeit stellt die Differenzierung hinsichtlich der Kompetenzen für Statusdiagnostik und für Prozessdiagnostik dar (vgl. hierzu die Ausführungen in Kapitel 2). Dabei meint Statusdiagnostik die Diagnose von (aktuell vorliegenden) kognitiven Kompetenzen oder (aktuell vorliegenden) motivational-emotionalen Zuständen (z. B. Interessenlage oder Motivation). Ermittelt werden diese Kompetenzen bzw. Zustände häufig über die Analyse von schriftlichen Produkten. Prozessdiagnostik dagegen fokussiert auf die Analyse und Beurteilung von Arbeitsprozessen, d. h. erfasst, auf welche Weise Ergebnisse zustande kommen. Zum Erfassen der statusdiagnostischen und der prozessdiagnostischen Kompetenzen der Studierenden wurde ein kombiniertes Instrument entwickelt, welches die beiden Formen diagnostischer Kompetenz getrennt erfasst, in dem aber sowohl die statusdiagnostischen wie auch die prozessdiagnostischen Tätigkeiten der Studierenden auf denselben Kontext gerichtet sind (einen Experimentierprozess zweier Schüler). Mit dem statusdiagnostischen Testteil des kombinierten Testinstrumentes werden die Kompetenzen der Studierenden untersucht, die im Experimentierprozess entstandenen schriftlich fixierten Schülerergebnisse analysieren und beurteilen zu können. Mit dem prozessdiagnostischen Testteil (im Folgenden auch Teilinstrument zur Prozessdiagnostik genannt ) hingegen werden spezifisch diejenigen diagnostischen Kompetenzen der Studierenden erfasst, die darauf abzielen, den Ablauf des Arbeitsprozess der beiden Schüler beurteilen zu können. Mit Hilfe des kombinierten Testinstrumentes ist somit auch ein Vergleich zwischen den Ausprägungen der statusdiagnostischen Kompetenz und der prozessdiagnostischen Kompetenz der Studierenden möglich. Grundlage für die Entwicklung des kombinierten Instrumentes waren Videoaufzeichnungen, die Schüler der 7. und der 9. Jahrgangsstufe beim Experimentieren zeigen. Die Videoaufnahmen waren entstanden im Rahmen einer Studie, welche das Ziel hatte, ein Testinstrument für Schülerkompetenzen zum Experimentieren zu entwickeln (Meier & Mayer, 2009, 2011, 2012). Die betreffenden Schüler hatten für die Videoaufnahmen einen an das Modell von Mayer (2007) angelehnten und in sechs Teilschritte operationalisierten Erkenntnisprozess zu durchlaufen: (1.) Formulieren einer geeigneten Hypothese zu einer vorgegebenen naturwissenschaftlichen Fragestellung; (2.) Planung eines geeigneten Experiments zur Überprüfung dieser Hypothese; (3.) Durchführen des Experimentes; (4.) Ergebnisdarstellung und -auswertung zum durchgeführten Experiment; (5.) Ziehen einer Schlussfolgerung aus den Experimentergebnissen in Bezug auf die ursprüngliche Hypothese; (6.) Fehleranalyse der Schüler für den von ihnen gestalteten Arbeits- und Erkenntnisprozess. Zu Beginn des Experimentierprozesses wurde den Schülern ein naturwissenschaftliches Phänomen im Zusammenhang mit Wasserflöhen vorgegeben, dargeboten über einen kurzen Zeitungsausschnitt. Weiterhin vorgegeben war eine auf den Wasserfloh-Kontext abgestimmte Forschungsfrage: Zeigen Wasserflöhe eine Bewegungsreaktion auf Licht?. Im Anschluss an die Vorgaben erhielten die 66

73 4 Material und Methoden Schüler die Aufgabe, in Gruppen zu zweit oder zu dritt der Forschungsfrage nachzugehen. Zur Verfügung standen hierfür eine Reihe von Experimentiermaterialien und ein Arbeitsheft, in welchem die oben genannten sechs Schritte als Strukturierungshilfen für den zu durchlaufenden Erkenntnisprozess vorgegeben waren. Die Schüler konnten sich an diesen als Aufgaben formulierten Schritten orientieren und im Arbeitsheft ihre Ergebnisse dazu festhalten. Mit Hilfe der genannten Strukturierungs- und Auswertungshilfen sollten die Schüler den gesamten Experimentierprozesses selbstständig durchlaufen. Nur Verständnisfragen waren erlaubt. Damit war der von den Schülern zu durchlaufende Erkenntnisprozess zwar in seinen Teilschritten angeleitet und vorstrukturiert, ließ aber dennoch in der Durchführung große Variationsmöglichkeiten zu und machte außer der Beschränkung durch die zur Verfügung stehenden Materialien keine Vorgaben zum konkret geplanten Experiment. Das Arbeitsheft (in einer von den beiden Schülern bearbeiteten Version) befindet sich im Anhang. Die Konzeption des im Rahmen dieser Arbeit entwickelten kombinierten Instrumentes setzt an den Videoaufnahmen der Schüler an. Unter circa 30 zur Verfügung stehenden Videos wurde eines ausgewählt, welches zwei Gymnasialschüler der 9. Jahrgangsstufe zeigt. Die Wahl fiel auf dieses Video, da die beiden hier gefilmten Schüler den Erkenntnisprozess vollständig durchlaufen hatten und auch zu allen Teilschritten Ergebnisse im Arbeitsheft aufgeschrieben worden waren. Als weiteres wichtiges Kriterium für die Auswahl hatten die beiden Schüler praktisch während des gesamten Prozesses miteinander gesprochen, so dass nicht nur ihre Handlungen und im Arbeitsheft schriftlich festgehaltenen Ergebnisdarstellungen erkennbar wurden, sondern auch ihre Äußerungen zu den diesen Handlungen und Ergebnissen zugrunde liegenden Gedankengängen. Auf Basis genau dieser drei möglichen diagnostischen Beurteilungsblickwinkel sollten die Studierenden den Schüler- Experimentierprozess analysieren und beurteilen Struktur des kombinierten Instrumentes In diesem Kapitel soll die formale Struktur des kombinierten Instrumentes zum Erfassen der statusund prozessdiagnostischen Kompetenzen der Studierenden bezüglich ihrer Fähigkeit zum Beurteilen eines Schülerexperimentierprozesses dargestellt werden. Abb. 4.8 gibt eine Übersicht über die verschiedenen Bestandteile des Instrumentes. Das Teilinstrument zur Statusdiagnostik setzt sich zusammen aus: a) Dem ausgefüllten Arbeitsheft der beiden am Experimentierprozess beteiligten Schüler. b) Dem Beurteilungsbogen zum Arbeitsheft mit den Beurteilungskriterien, welche die Studierenden anzulegen hatten bei der Beurteilung der im Experimentierprozess erzielten und im Arbeitsheft notierten Schülerergebnisse. c) Der Referenzlösung zum Statusdiagnostik-Teilinstrument 67

74 4 Material und Methoden Abb. 4.8: Übersicht über die Elemente des kombinierten Instrumentes für Status- und Prozessdiagnostik Zu a): Ausgefülltes Arbeitsheft Das Arbeitsheft enthält die Arbeitsaufträge für die beiden Schüler und diente ihnen auch als Strukturierungs- und Anleitungshilfe zum Durchlaufen des Erkenntnisprozesses. Insgesamt waren im Arbeitsheft fünf Arbeitsaufträge vorgegeben, die zum Teil noch einmal in Unterpunkte aufgeteilt waren. Während des Experimentierprozesses sollten die Schüler ihre Ergebnisse zu den einzelnen Arbeitsaufträgen und Unteraufgaben in das Arbeitsheft eintragen. Die im Arbeitsheft notierten Schülerergebnisse und die ihnen zugrundeliegenden Arbeitsaufträge sind der Arbeit angehängt. Zu b): Beurteilungsbogen zum Arbeitsheft Im Beurteilungsbogen waren 19 Kriterien vorgegeben, nach denen die Studierenden die im Arbeitsheft notierten Schülerergebnisse zum Experimentierprozess zu analysieren und zu beurteilen hatten. Die Kriterien waren so formuliert, dass sie auf eine Beurteilung der Schülerergebnisse allein durch Vorlage des Arbeitsheftes abzielten. Ein Einbezug des Verlaufs des Experimentierprozesses sollte an dieser Stelle nicht erfolgen. Konkret konnten die Studierenden für jedes der im Beurteilungsbogen aufgeführten Kriterien zwischen drei (in einem Falle vier) Antwortmöglichkeiten (Beurteilungsalternativen) auswählen und hatten die Aufgabe, eine dieser Möglichkeiten anzukreuzen. Dabei waren die Antwortmöglichkeiten so gewählt, dass nur genau eine Antwortmöglichkeit die richtige Lösung 68

75 4 Material und Methoden darstellte. Die anderen zwei (bzw. drei) stellten falsche Lösungen dar oder bestanden in der Kategorie weiß nicht. Zur besseren Übersicht und Strukturierung für die Studierenden waren die Kriterien im Beurteilungsbogen getrennt aufgeführt entsprechend der vier Teilschritte Hypothesenbildung, Versuchsplanung, Experimentdurchführung und Datenauswertung und Schlussfolgerung. Auch der im Test eingesetzte Beurteilungsbogen zur Statusdiagnostik befindet sich im Anhang. Zu c): Referenzlösung zum Teilinstrument für Statusdiagnostik Um die von den Studierenden abgegebenen Beurteilungen zu den im Arbeitsheft notierten Schülerlösungen hinsichtlich ihrer Richtigkeit überprüfen zu können, wurde im Vorfeld der Untersuchungen eine Musterlösung mit ergänzenden Begründungen erstellt. Die Richtigkeit der Lösungen und der Begründungen wurden von einer aus naturwissenschaftlichen Fachdidaktikern der Justus Liebig Universität bestehenden Expertengruppe geprüft. Nicht eindeutige Kriterien bzw. Auswahlmöglichkeiten wurden im Verlauf der Instrumententwicklung entsprechend den Expertenbegutachtungen verändert oder sogar weggelassen. Die Referenzlösung zum Teilinstrument für Statusdiagnostik ist im Anhang aufgeführt. Das Teilinstrument zur Prozessdiagnostik setzt sich zusammen aus: a) Einer Vignette zum Experimentierprozess der beiden Schüler in Form eines leicht nachbearbeiteten Transkriptes einer gekürzten Version des Original-Videos. b) Dem Beurteilungsbogen zur Vignette mit den prozessdiagnostischen Beurteilungskriterien. c) Der Referenzlösung zum Teilinstrument für Prozessdiagnostik Zu a): Vignette Für das Teilinstrument zur Prozessdiagnostik wurde nicht das Video des Schülerexperimentierprozesses eingesetzt, sondern eine Vignette in Form eines leicht nachbearbeiteten Transkriptes einer gekürzten Version des Originalvideos. Die Gründe für die Entscheidung, mit schriftlichen Vignetten zu arbeiten und nicht mit dem Video selbst, lagen zum einen darin, dass im Video die Aussagen der Schüler an einigen Stellen doch schwer verständlich waren und dadurch im Test ein mehrmaliges Hören erfordert hätten oder sogar undeutlich geblieben wären. In der schriftlichen Vignette konnten diese Stellen so nachbearbeitet werden, dass zentrale Überlegungen der Schüler von den Studierenden leichter extrahiert und analysiert werden konnten. Zum anderen wäre es beim Arbeiten mit dem Video notwendig gewesen, die Testdurchführung in einem PC-Raum durchzuführen, was sich für die Testung der Probanden, welche sich auf acht parallele Lehrveranstaltungen verteilten, als ungeeignet erwies. Die Entscheidung zur Kürzung des Original- Transkriptes erfolgte in Anbetracht der Länge des Originalvideos, welches eine Dauer von knapp 25 Minuten aufwies. Dies wurde als zu lang für den Einsatz im Test erachtet. In der gekürzten schriftlichen Vignette wurden nicht relevante Abschnitte im Video heraus genommen wie z. B. ein Gespräch der beiden Schüler darüber, wie sie im Anschluss nach Hause kommen oder es wurden 69

76 4 Material und Methoden längere Handlungsphasen ohne Schülergespräch in einer beschreibenden Form der Handlungen gestrafft. Zur besseren Lesbarkeit der Vignette und um den dort beschriebenen Experimentierprozess der Schüler leichter erfassen zu können, war dieser in der Vignette vorstrukturiert in die fünf Teilschritte Phänomen, Forschungsfrage und Vorwissen, Hypothesenbildung, Versuchsplanung, Durchführung des Experimentes und Auswerten der Ergebnisse und Schlussfolgerung. Die Vignette selbst bestand in der Angabe des Dialogs (manchmal auch Monologs) der Schüler mit ergänzenden Handlungsbeschreibungen. Die im Test eingesetzte Vignette befindet sich im Anhang dieser Arbeit. Zu b): Beurteilungsbogen zur Vignette Der Beurteilungsbogen enthält 19 prozessdiagnostische Kriterien, nach denen die Studierenden den in der Vignette dargebotenen Schülerexperimentierprozess zu analysieren und zu beurteilen hatten. Die Beurteilung erfolgte für jedes Kriterium durch Ankreuzen einer von drei bzw. vier vorgegebenen Auswahlmöglichkeiten. Zur Auswahl standen bei den meisten der Beurteilungskriterien eine richtige und eine falschen Antwortmöglichkeit und zusätzlich die Kategorie weiß nicht. Zur besseren Übersicht und als Strukturierungshilfe für die Studierenden waren die Kriterien im Beurteilungsbogen entsprechend der vier Teilschritte Hypothesenbildung, Versuchsplanung, Experimentdurchführung und Datenauswertung und Schlussfolgerung geordnet. Der im Test eingesetzte Beurteilungsbogen ist der vorliegenden Arbeit angehängt. Zu c): Referenzlösung zum Teilinstrument für Prozessdiagnostik Um die von den Studierenden im Test abgegebenen Beurteilungen hinsichtlich ihrer Richtigkeit und Angemessenheit überprüfen zu können, wurde im Vorfeld der Untersuchungen eine Referenzlösung erarbeitet und von einer aus naturwissenschaftlichen Fachdidaktikern der Justus Liebig Universität bestehenden Expertengruppe geprüft. Nicht eindeutige Beurteilungskriterien bzw. Auswahlmöglichkeiten wurden entsprechend der Expertenbegutachtung verändert oder sogar weggelassen, nicht eindeutige Begründungen verändert. Die Referenzlösung gibt an, welche der für jedes Beurteilungskriterium vorgegebenen Auswahlmöglichkeiten nach Ansicht der Expertengruppe die korrekte Beurteilung darstellt, bezogen auf die vorliegende Vignette. Zusätzlich zu der jeweils korrekten Lösung wird für jedes Kriterium eine Begründung angeführt, warum die in der Musterlösung genannte Auswahlmöglichkeit für das jeweilige Beurteilungskriterium die korrekte ist. Die Referenzlösung ist der Arbeit angehängt Auswahl und Begründung der angelegten Beurteilungskriterien Im kombinierten Kompetenztest zum Erfassen der statusund prozessdiagnostischen Kompetenzen der Studierenden hinsichtlich ihrer Fähigkeit zum Beurteilen eines Schülerexperimentierprozesses sind die Kriterien, nach denen die Studierenden den Experimentierprozess der beiden Schüler zu beurteilen 70

77 4 Material und Methoden hatten, vorgegeben. Diese Vorgehensweise wurde gewählt, da der Test überprüfen sollte, inwiefern Lehramtsstudierende in der Lage sind, die zum Kompetenzbereich Erkenntnisgewinnung (und hier insbesondere zu einem Experimentierprozess) relevanten Beurteilungskriterien anzuwenden. Im Vorfeld der Entwicklung des Testinstrumentes war es daher notwendig, die Beurteilungskriterien begründet festzulegen. Dabei wurde es als wichtig erachtet, solche Kriterien auszuwählen, die sowohl für die Beurteilung des konkreten, im Testinstrument vorgegebenen Schülerexperimentierprozesses geeignet waren, als auch für Schülerexperimentierprozesse im Allgemeinen. Weiterhin wurden für das kombinierte Instrument zum einen Kriterien für das Beurteilen der Schülerergebnisse benötigt, die diese im Verlauf des Experimentierprozesses im Arbeitsheft notiert hatten. Und zum anderen wurden Kriterien benötigt, die sich für die prozessdiagnostische Beurteilung des Experimentierprozesses eigneten. Für die Suche nach geeigneten statusdiagnostischen Kriterien zur Beurteilung der Schülerergebnisse im Experimentierprozess sollte nach Möglichkeit auf die gleichen Kriterien zurückgegriffen werden, welche in den Erwartungshorizonten des Kompetenztests für Statusdiagnostik zur Klassifizierung der einzelnen Leistungsniveaus verwendet worden waren. Dies geschah in der Absicht, auf diese Weise eine gewisse Vergleichbarkeit der Ergebnisse aus den beiden Untersuchungen zu erreichen. Zudem konnten die für das Beurteilen der Schülerleistungsniveaus verwendeten Kriterien als bereits validiert gelten durch die im Rahmen der BiK-Studie (Biologie im Kontext, vgl. Bayrhuber, 2007; Lücken & Elster, 2007, und Kapitel 4.4.1) erfolgten Modell- und Kriterienprüfungen. Im Gegensatz zur BiK- Studie und dem darauf aufbauenden Kompetenztest für Statusdiagnostik, bei denen die Diagnostik nur auf die Beurteilung der Schülerlösungen zu jeweils einzelnen Teilschritten des Erkenntnisprozesses ausgerichtet ist, sollten sich die Beurteilungskriterien des kombinierten Testinstrumentes zusätzlich auch für die Ergebnisbeurteilung des komplett durchlaufenen Erkenntnisprozesses eignen. Deshalb wurde für das neu zu entwickelnde kombinierte Testinstrument zusätzlich zu den im Kompetenztest zur Statusdiagnostik verwendeten Kriterien nach weiteren gesucht, die auf die Folgerichtigkeit der einzelnen Teilschritte zielen. Bei der Suche nach Kriterien für die Prozessbeurteilung des Schülerexperimentierprozesses konnten die Kriterien der BiK-Studie bzw. des Kompetenztests für Statusdiagnostik nicht verwendet werden, da diese statusdiagnostische Kriterien darstellen und zur Prozessdiagnostik gänzlich andere Kriterien relevant sind. Für die Kriterien zur Prozessbeurteilung galt es zu berücksichtigen, dass die ausgewählten Kriterien neben ihrer grundsätzlichen Eignung als Prozesskriterien auch geeignet sein mussten, die speziellen Aspekte von Experimentierprozessen im Rahmen der Erkenntnisgewinnung abzubilden. Im Folgenden sollen die im Test eingesetzten Kriterien vorgestellt (Tab. 4.5 und 4.6) und inhaltlich begründet werden. Für die inhaltliche Begründung wurde es als Wesentlich erachtet, dass die hierfür ausgewählten Kriterien die folgenden fünf Aspekte abdecken: 71

78 4 Material und Methoden (1) Typische Schülerfehler (2) Widersprüchlichkeiten (3) Vollständigkeit, Folgerichtigkeit und Qualität der Teilschritte (4) Prozessbetrachtung (5) Ergebnisbetrachtung Zu (1): Typische Schülerfehler In verschiedenen Studien konnte gezeigt werden, dass es typische Schülerfehler gibt, die immer wieder bei Schülerexperimentierprozessen im Rahmen der Erkenntnisgewinnung beobachtet werden können (Hammann, Phan, Ehmer, & Bayhuber, 2006; Janoschek, 2009; Phan, 2007). Für angehende Biologielehrer, in deren zukünftiger Schulpraxis das Experimentieren einen hohen Stellenwert einnimmt, scheint es daher zentral wichtig, solche Fehler erkennen zu können, um daraus abgeleitet in der Lage zu sein, den Schülern wirksame Hilfestellungen zu geben oder eine geeignete Unterrichtsplanung vorbereiten zu können. Aus diesem Grunde wurden im Vorfeld der Entwicklung des kombinierten Instrumentes aus den oben angeführten Arbeiten zwölf häufige und als besonders relevant erachtete Schülerfehler zusammengestellt (siehe nachfolgende Tabelle), welche durch die Beurteilungskriterien abgedeckt werden sollten. Tab. 4.4: Typische Schülerfehler beim Experimentieren nach Hammann und Mitarbeitern (2006, 2008), Janoschek (2009) und Phan (2007) Fehler beim Aufstellen und Testen von Hypothesen 1. Fehler beim Erkennen und Aufstellen geeigneter Hypothesen Schüler/-innen haben Schwierigkeiten beim Aufstellen von geeigneten Hypothesen und experimentieren häufig sogar völlig ohne Hypothesen. So zeigen sie z.b. Defizite, wenn es darum geht zu erkennen, welche Vermutung zu einer vorgegebenen naturwissenschaftlichen Fragestellung passt oder welche Vermutung hinter der Durchführung eines geplanten Experiments steht. 2. Es werden Hypothesen aufgestellt, die experimentell nicht überprüfbar sind Schüler/-innen stellen oft Hypothesen auf, die mit den zur Verfügung stehenden Mitteln oder auch ganz grundsätzlich in einem Experiment nicht zu überprüfen sind. 3. Fehlender Bezug zwischen Folgehypothesen Problematisch ist für Schüler/-innen oft die Planung einer Experimentalreihe, die durch Folgehypothesen geleitet sein soll. Die einzelnen Ansätze werden dann häufig ohne ausreichende Relation zueinander durchgeführt und die Hypothesen der einzelnen Teilexperimente (wenn überhaupt vorhanden) nur fragmentarisch überprüft. 4. Zu starke Eingrenzung von neuen Hypothesen bei Revision der ursprünglichen Hypothese Im Falle einer nötigen Revision der ursprünglichen Hypothese ist die Suche nach neuen Vermutungen oftmals dadurch geprägt, dass diese nur für einen Teil der Ergebnisse zutreffend sind. Dadurch werden die neuen Hypothesen oftmals zu stark eingegrenzt. Fehler bei der Planung und der Durchführung von Experimenten 5. Fehlen des Kontrollansatzes Das Fehlen des Kontrollansatzes hat zur Folge, dass das Experiment seine methodische Aussagekraft einbüßt, da ein Vergleich der erzielten Ergebnisse mit denjenigen ohne Einflussgröße nicht möglich ist. 6. Messwiederholungen werden nicht berücksichtigt Das Fehlen von Messwiederholungen hat zur Folge, dass das Ergebnis ein Einzelergebnis bleibt und nur eingeschränkt 72

79 4 Material und Methoden oder gar nicht auf eine Regelhaftigkeit geschlossen werden kann. 7. Unsystematischer Umgang mit den Variablen Das naturwissenschaftliche Experiment ist gekennzeichnet durch systematisches Variieren der Variablen. Werden Kontrollvariablen konstant gehalten und stets nur eine Testvariable variiert, kann die Wirkung der Testvariablen auf die Messgröße ermittelt werden. Schüler/-innen bereitet oft die Unterscheidung zwischen Test- und Kontrollvariablen Schwierigkeiten. Ebenfalls häufig werden in der Planung und in der Durchführung des Experimentes mehrere Testvariablen auf einmal manipuliert. 8. Unlogisches In-Bezug-Setzen von Ansätzen in Versuchsreihen Besonders schwierig ist es für Schüler/-innen, wenn eine Versuchsreihe angelegt werden soll. Sie neigen dann zu unsystematischem Vorgehen und setzen unterschiedliche Testansätze zueinander in Beziehung, bei denen die Voraussetzungen für einen logischen Bezug nicht mehr gegeben sind (z.b. indem in den verschiedenen Testansätzen der Versuchsreihe zwar die Testvariable in korrekter Weise variiert wird, gleichzeitig aber auch Veränderungen an den zu kontrollierenden Variablen vorgenommen werden). Fehler bei der Datenanalyse und der Schlussfolgerung 9. Unlogische Schlussfolgerungen Selbst wenn das Experiment richtig geplant und durchgeführt wurde, kann es dazu kommen, dass Schüler/-innen unlogische Schlüsse daraus ziehen. Beispielsweise werden in die Schlussfolgerungen auch Variablen mit einbezogen, die gar nicht variiert wurden. 10. Nicht bewiesene Kausalität Zusammenhänge können nur durch einen Vergleich von Einzelansätzen hergestellt werden, die sich durch die Variation der Testvariablen unterscheiden. Der Kontrollansatz spielt hier die entscheidende Rolle. Schüler/-innen beachten dies jedoch häufig nicht und attestieren Ursache-Wirkungsbeziehungen unbegründeter Weise ohne Kontrollansatz. Desweiteren neigen sie dazu, Kausalbeziehungen zu attestieren nur auf Grundlage eines einzigen Versuchsansatzes und nur unzureichender systematischer Variation der Testvariablen. 11. Fehlende Anerkennung abweichender Ergebnisse An dieser Stelle liegt das Problem darin, dass Schüler/-innen bereits bei der Planung der Experimente darauf abzielen, ihre Vermutungen als richtig zu beweisen und einer möglichen Hypothesenrevision wenig bis keinen Raum zugestehen. Bei der Auswertung werden dann abweichende Daten ignoriert, um die eigenen Erwartungen zu bestätigen (confirmation bias). Fehler beim Bezug der einzelnen Teilschritte des Erkenntnisprozesses 12. Nicht ausreichender oder fehlerhafter Bezug zwischen den einzelnen Teilschritten Grundsätzlich haben Schüler/-innen Schwierigkeiten mit dem systematischen Bezug der einzelnen Teilschritte des Erkenntnisprozesses. Bei der Auswahl der konkreten Beurteilungskriterien für das Testinstrument konnten nicht alle 12 aufgeführten typischen Schülerfehler berücksichtigt werden, sondern nur diejenigen, die in dem konkreten, im Testinstrument eingesetzten Schülerexperimentierprozess auch auftauchten. So konnten konkret diejenigen Schülerfehler nicht berücksichtigt werden, die sich mit Versuchsreihen, Folgehypothesen und der Revision der Ursprungshypothese beschäftigen. Trotzdem erschien sichergestellt, dass durch die Berücksichtigung aller anderen Punkte dem Bereich der typischen Schülerfehler genügend Bedeutung beigemessen wurde bei der Auswahl der Beurteilungskriterien. Zu (2:) Widersprüchlichkeiten Im Zusammenhang mit dem neu entwickelten kombinierten Testinstrument sollten bei der Diagnostik verschiedene Arten von Widersprüchen erfasst werden können. Zum einen waren dies Widersprüche zwischen den von den Schülern im Arbeitsheft schriftlich festgehaltenen Ergebnissen auf der einen Seite und ihren im Video gezeigten Handlungen und Äußerungen (welche Rückschlüsse auf die im 73

80 4 Material und Methoden Experiment tatsächlich gemessenen Werte ermöglichen) auf der anderen Seite. Weiterhin sollten Widersprüche innerhalb des Prozessverlaufs erfasst werden können, wie zum Beispiel Widersprüchlichkeiten zwischen den gezeigten Handlungen auf der einen Seite und den Äußerungen der Schüler auf der anderen Seite. Die hier genannten Widersprüche stellen für das kombinierte Testinstrument wesentliche Aspekte dar, da sie nur unter Einbezug auch der prozessbezogenen Diagnostik aufgedeckt werden können, nicht aber bei einer Betrachtung allein der Ergebnisse. Zu (3): Vollständigkeit, Folgerichtigkeit und Qualität der Teilschritte des Erkenntnisprozesses Die Beurteilungskriterien, welche inhaltlich diesem Aspekt zugeordnet werden können, zielen auf den Experimentierprozess als komplett durchlaufenen Erkenntnisprozess bestehend aus verschiedenen Teilschritten ab. Für die Beurteilung ist dabei wichtig, ob alle Teilschritte in sich schlüssig, aufeinander abgestimmt, vollständig und in qualitativ angemessener Form durchlaufen wurden. Etliche der ausgewählten statusdiagnostischen Beurteilungskriterien können hier zugeordnet werden. Es schien aber auch wichtig, prozessdiagnostische Kriterien zu diesem Aspekt zu finden. Denn allein aus den im Arbeitsheft notierten Ergebnissen lässt sich im Nachhinein nicht grundsätzlich schließen, inwiefern die Schüler die Teilschritte des Erkenntnisprozesses zielgerichtet durchlaufen haben. Zum Beispiel können allein aus den Ergebnissen keine Schlüsse auf die Art und Anzahl der Rückbezüge auf vorhergehende Teilschritte gezogen werden. Ebenso kann nicht in jedem Fall beurteilt werden, ob die Schüler bestimmte Teilschritte in korrekter Abfolge durchlaufen haben. Letzteres ist z. B. der Fall, wenn die Experimentplanung erst nach erfolgter Experimentdurchführung im Arbeitsheft notiert wurde. Auch ist aus den knappen Schülerlösungen im Arbeitsheft nur in begrenztem Maße eine Aussage ableitbar bezüglich der Durchführungsqualität der Teilschritte. So ist z. B. aus einer im Arbeitsheft aufgestellten Hypothese nicht ersichtlich, ob im Vorfeld Begründungen zu dieser Hypothese diskutiert wurden oder ob mögliche Alternativ-Hypothesen aufgestellt wurden. Zu (4): Prozessbetrachtung Im Zusammenhang mit der Analyse und Beurteilung des Ablaufs von Schüler-Experimentierprozessen decken die dem Aspekt der Prozessbetrachtung zuzuordnenden Beurteilungskriterien die Fragestellung ab, auf welche Weise die Schülerergebnisse zustande gekommen sind und welche Handlungsverläufe und Schüleräußerungen den Experimentierprozess der Schüler kennzeichnen. Damit stellen die diesem Aspekt zuzuordnenden Beurteilungskriterien die Prozessdiagnostikkriterien im engeren Sinne dar. Implizit oder sogar explizit findet sich der Fokus der Prozessbetrachtung natürlich auch bei den in den vorigen Abschnitten behandelten Aspekten wieder. So gibt es Beurteilungskriterien, die inhaltlich sowohl dem Aspekt (3) zugeordnet werden können (welcher sich mit der Vollständigkeit, Folgerichtigkeit und Qualität der Teilschritte des Erkenntnisprozesses beschäftigt) als auch auf die Prozessbetrachtung abzielt. 74

81 4 Material und Methoden Als ein wichtiges Beurteilungskriterium im Zusammenhang mit Prozessbetrachtungen soll die Schülerbeteiligung angeführt werden. So ist z. B. bei der Betrachtung eines Experimentierprozesses aus den Ergebnissen keinesfalls ersichtlich, inwiefern beide Schüler zu gleichen Teilen am Erkenntnisprozess beteiligt waren oder ob nur einer der beiden Schüler die im Arbeitsheft notierten Ergebnisse maßgeblich bestimmt hat. Diese Frage hat insofern eine Relevanz für die schulische Praxis, da hier das Experimentieren sehr häufig in Kleingruppen stattfindet. Für eine Benotung oder für eine Beurteilung der Schülerkompetenzen mit der Absicht einer sich anschließenden Differenzierung, Förderung oder geeigneten Unterrichtsplanung müssen aber die Kompetenzen der einzelnen Schüler erfasst werden. Zu (5): Ergebnisbetrachtung Die hier zuzurechnenden Beurteilungskriterien sind die statusdiagnostischen Kriterien im engeren Sinne. Erfasst wird mit ihnen vor allem folgende Fragestellung: Welche Qualität haben die von den Schülern im Verlauf des Erkenntnisprozesses dokumentierten Ergebnisse? Die Auswahl der letztendlich im Test eingesetzten Kriterien zur Ergebnisbeurteilung des Schülerexperimentierprozesses orientierte sich wie bereits beschrieben zum Teil an den gleichen Kriterien, die auch in dem an Erhebung 2 eingesetzten Kompetenztest für Statusdiagnostik angelegt sind. Da aber bei der Beurteilung der Schülerergebnisse zum Experimentierprozess darüber hinaus die Tatsache zu berücksichtigen war, dass die Schüler hier einen kompletten Erkenntnisprozess durchlaufen hatten, war beabsichtigt, dass auch dieser Umstand durch die Beurteilungskriterien abgedeckt sein sollte. Ausgehend von den weiter oben genannten Überlegungen zu den überwiegend formalen Anforderungen an die Beurteilungskriterien unter Einbezug der bereits erwähnten drei möglichen Beurteilungsblickwinkel (Beurteilung der im Video gezeigten Schülerhandlungen, Beurteilung der im Arbeitsheft schriftlichen Schülerergebnisse und Beurteilung der Schüleräußerungen) und im Hinblick auf die inhaltlich abzudeckenden fünf Aspekte erfolgte dann die konkrete Festlegung der im Test eingesetzten statusund prozessdiagnostischen Beurteilungskriterien. Die beiden Tabellen 4.5 und 4.6 geben eine Übersicht über alle im Test eingesetzten Kriterien. Neben ihrer Nennung wird in den beiden Tabellen für jedes Kriterium eine Zuordnung vorgenommen zu den fünf Aspekten und den drei Beurteilungsblickwinkeln (Schülerhandlungen, Schüleräußerungen und Schülerergebnisse). Für die statusdiagnostischen Beurteilungskriterien wird darüber hinaus noch angegeben, ob und inwiefern das jeweilige Item inhaltlich eine Entsprechung findet mit den in den Erwartungshorizonten verwendeten Kriterien des Kompetenztests für Statusdiagnostik von Erhebung 2. Für die prozessdiagnostischen Beurteilungskriterien wird angegeben, ob sie eine inhaltliche Entsprechung mit einem der statusdiagnostischen Kriterien des kombinierten Instrumentes aufweisen. 75

82 4 Material und Methoden Tab. 4.5: Statusdiagnostische Beurteilungskriterien (zur Beurteilung der Schülerergebnisse im Arbeitsheft) Item-Nr. / Beurteilungskriterium 1. Hypothese hat Bezug zur Forschungsfrage Teilschritt im Erkenntnisprozess Hypothesenbildung Inhaltliche Entsprechung mit statusdiagn. Kriterien von Erhebung 2 nein (1), (3), (5) Ergebnisdarstellungen 2. Begründung zur Hypothese ja (N3) (1), (3), (5) Ergebnisdarstellungen 3. Nennung der Begründung zur Hypothese 4. Generalisierender Anteil bei Hypothese vorhanden nein (1), (3), (5) Ergebnisdarstellungen ja (N4) (3), (5) Ergebnisdarstellungen 5. Vorhandensein einer durchführbaren Versuchsplanung 6. Versuchsplanung ist sinnvoll in Bezug auf Hypothese ja (N1) (1), (3), (5) Ergebnisdarstellungen nein (3), (5) Ergebnisdarstellungen 7. Korrekte Berücksichtigung von zu messender und zu variierender Variablen 8. Angaben zum Konstanthalten der Versuchsbedingungen vorhanden 9. Versuchsplanung berücksichtigt Messwiederholungen Versuchsplanung ja (N2) (1), (3), (5) Ergebnisdarstellungen ja (N3) (1), (3), (5) Ergebnisdarstellungen ja (N4) (1), (3), (5) Ergebnisdarstellungen 10. Versuchsplanung macht Angaben zur Quantifizierung der zu messenden Variablen ja (N4) (1), (3), (5) Ergebnisdarstellungen 11. Versuchsplanung ist abgestimmt auf die zur Verfügung stehenden Materialien nein (3), (5) Ergebnisdarstellungen 12. Dokumentation der Beobachtungen 13. Trennung von Beobachtung und Schlussfolgerung 14. Qualität der dokumentierten Beobachtungen Zuordnung zu den fünf Beurteilungsaspekten Beurteilungsgrundlage Experimentdurchführung nein (5) Ergebnisdarstellungen nein (1), (3), (5) Ergebnisdarstellungen nein (3), (5) Ergebnisdarstellungen 15. Schlussfolgerung vorhanden 16. Bezug der Schlussfolgerung zur aufgestellten Hypothese 17. Ableitbarkeit der Schlussfolgerung aus den dokumentierten Beobachtungen Datenanalyse und Schlussfolgerung ja (3), (5) Ergebnisdarstellungen nein (1), (3), (5) Ergebnisdarstellungen nein (1), (3), (5) Ergebnisdarstellungen 18. Qualität der Schlussfolgerung ja (3), (5) Ergebnisdarstellungen 19. Fehleranalyse vorhanden nein (3), (5) Ergebnisdarstellungen 76

83 4 Material und Methoden Legende: (1) Typische Schülerfehler; (3) Vollständigkeit, Folgerichtigkeit und Qualität der Teilschritte; (5) Ergebnisbetrachtungen. (N1) bis (N4) bezeichnen das entsprechende Schülerleistungsniveau, für welches das Kriterium im Erwartungshorizontes des bei Erhebung 2 eingesetzten Kompetenztest für Statusdiagnostik kennzeichnend ist. Tab. 4.6: Prozessdiagnostische Beurteilungskriterien zum Schülerexperimentierprozess Item-Nr. / Beurteilungskriterium 1. Aufstellen von (alternativen) Hypothese Teilschritt im Erkenntnisprozess Hypothesen -bildung Inhaltliche Entsprechungen zu den statusdiagnost. Beurteilungskriterien vorhanden? nein (1), (3), (4) 2. Schülerbeteiligung nein (4) Zuordnung zu den fünf Beurteilungsaspekten Beurteilungsgrundlage Handlungen, Schüleräußerungen Handlungen, Schüleräußerungen 3. Trennung von Versuchsplanung und Experimentdurchführung 4. Diskussion der Eignung und Bedeutung der bereitgestellten Materialien Versuchsplanung nein (3), (4) 5. Auswahl der Materialien nein (3), (4) 6. Schülerbeteiligung nein (4) Handlungen, Schüleräußerungen, nein (3), (4) Schüleräußerungen Handlungen, Schüleräußerungen Handlungen, Schüleräußerungen 7. Experimentdurchführung entspricht der Experimentplanung 8. Änderung des geplanten Versuchsaufbaus im Verlauf der Experimentdurchführung 9. Korrekte Handhabung von zu messender und zu variierender Variablen Experimentdurchführung nein (2), (3), (4) nein (2), (3), (4) ja (1), (3), (4) 10. Umgang mit dem Versuchstier nein (3), (4) 11. Qualität der Schülerbeobachtungen im Experiment 12. Berücksichtigung von Messwiederholungen bei der Experimentdurchführung 13. Entsprechen die tatsächlichen Expertenbeobachtungen den in der Hypothese vermuteten? 14. Vergleich der dokumentierten Exp.- Beobachtungen mit den tatsächlichen Beobachtungen ja (3), (4) ja (1), (3), (4) nein (3), (4) nein (1), (2), (3), (4) 15. Schülerbeteiligung nein (4) Handlungen, Schüleräußerungen, Handlungen, Schüleräußerungen, Handlungen, Schüleräußerungen Handlungen, Schüleräußerungen Handlungen, Schüleräußerungen, Handlungen, Schüleräußerungen, Handlungen, Schüleräußerungen, Handlungen, Schüleräußerungen, Handlungen, Schüleräußerungen 16. Ableitbarkeit der Schlussfolgerung aus den im Experiment erfolgten Beobachtungen Datenanalyse und Schlussfolger ung nein (1), (2), (3), (4) Handlungen, Schüleräußerungen, 17. Diskussion der Schlussfolgerung nein (3), (4) Schüleräußerungen 77

84 4 Material und Methoden 18. Diskussion von möglichen Fehlerquellen oder Grenzen der Untersuchung 19. Schülerbeteiligung nein (4) nein (3), (4) Schüleräußerungen Legende: (1) Typische Schülerfehler; (2) Widersprüchlichkeiten; (3) Vollständigkeit, Folgerichtigkeit und Durchführungsqualität der Teilschritte; (4) Prozessbetrachtungen. Handlungen, Schüleräußerungen Einsatz des kombinierten Instrumentes Die zum Erhebungszeitpunkt 3 vorgenommenen Untersuchungen zu den statusund prozessdiagnostischen Kompetenzen der Studierenden bezüglich ihrer Fähigkeit zum Beurteilen eines Schülerexperimentierprozesses erfolgten überwiegend nur an einer Kohorte, nämlich bei Kohorte 2 in deren 5. Fachsemester (vgl. Abb. 4.2). Der Grund hierfür lag darin, dass die Entwicklung des kombinierten Instrumentes einen längeren Zeitbedarf mit sich gebracht hatte und dadurch die Erhebung im üblichen Rhythmus nicht mehr möglich gewesen war. Die Erhebungen fanden in den acht parallelen Lehrveranstaltungen des biologiedidaktischen Moduls M 5 Biologische Vertiefung der Sek I bzw. Sek II statt. Wieder war ich bei allen Testungen als Aufsichtsperson zugegen. Das Modul M 5 liegt sowohl für Lehramtsstudierende des Haupt- und Realschullehramtes als auch für diejenigen des Gymnasial- und des Förderschullehramtes am Ende ihrer universitären biologiedidaktischen und pädagogischen Ausbildung und stellt dort das letzte für sie verpflichtende biologiedidaktische Modul dar. Auch ihr zweites schulisches Fachpraktikum haben die meisten der Studierenden zu diesem Zeitpunkt schon abgeschlossen. Von daher konnte davon ausgegangen werden, dass die Mehrzahl der Probanden zum Zeitpunkt der Testung bezogen auf ihr universitär erworbenes biologiedidaktisches und pädagogisches Wissen einen maximalen Wissensstand erreicht hatte. Zum Einsatz kam das kombinierte Instrument bei Erhebung 3 in folgender Weise: Nach der Abfrage ihrer Soziodemographie, einigen anderen Begleitvariablen und den Selbsteinschätzungen ihrer diagnostischen Kompetenz wurde den Probanden in einem ersten Schritt nur das Teilinstrument zur Statusdiagnostik ausgegeben in Form des ausgefüllten Schülerarbeitsheft und des dazugehörigen Beurteilungsbogens. Mit Hilfe dieser beiden Elemente sollten die Studierenden die schriftlich fixierten Schülerergebnisse analysieren und beurteilen ohne Kenntnis des genauen Prozessgeschehens. Im Anschluss an diesen ersten Teil wurden dann die Vignette und der zugehörige Beurteilungsbogen zur Prozessdiagnostik ausgegeben. Auf Basis dieser beiden Teile hatten die Studierenden nun den in der Vignette dargestellten Schülerexperimentierprozess zu analysieren und zu beurteilen. Für die Testung stand genügend Zeit zur Verfügung, so dass alle Studierenden in der Lage gewesen waren, die ausgegebenen Testunterlagen vollständig zu bearbeiten. 78

85 4 Material und Methoden Methodik zur Auswertung des kombinierten Instrumentes Die Auswertung der beiden Teile des kombinierten Instrumentes, d. h. die Auswertung der Studierenden-Beurteilungen zu den Schülerergebnissen im Arbeitsheft und die Auswertung ihrer Beurteilungen zum Prozessgeschehen erfolgte für beide Beurteilungsbögen nach dem gleichen Prinzip, nämlich nach richtiger bzw. falscher Beurteilung des jeweiligen Beurteilungsaspektes, kodiert in einer 0/1 Form. Hierbei stand die Ziffer 0 für eine falsche Beurteilung und die Ziffer 1 für eine korrekte Beurteilung. Die Entscheidung, ob es sich um eine richtige oder falsche Beurteilung gehandelt hatte, wurde im Abgleich mit den beiden Referenzlösungen getroffen. Ein Ankreuzen der bei vielen der Beurteilungskriterien als Auswahlmöglichkeit zur Verfügung stehenden Kategorie Weiß nicht wurde als falsch gewertet. Die so ausgewerteten und kodierten Beurteilungen jedes einzelnen Probanden wurden anschließend in die bestehende (die Daten der vorigen Erhebungen enthaltende) SPSS-Datentabelle aufgenommen. Die Interpretation und Diskussion der ermittelten Ergebnisse und Befunde erfolgte primär auf Basis der einzelnen Items/Beurteilungskriterien. Zur Auswertung wurde der Anteil der Probanden bestimmt, die das betreffende Item korrekt (im Sinne der Musterlösung) beantwortet hatten. Die so ermittelten Werte liegen damit zwischen 0 und 1 (entsprechend 0 % der Probanden hatten dieses Items korrekt beantwortet bis hin zu 100 % der Probanden hatten das Item korrekt beantwortet) und entsprechen damit gleichzeitig den Lösungsquotienten der Items. Eine Standardabweichung zu diesen Angaben existiert auf der Ebene der einzelnen Items nicht, da die Angabe des Anteils der Probanden, die für das jeweilige Item korrekte Beurteilungen abgegeben hatten (ebenso wie die Angabe des Lösungsquotienten) ein exakter Wert ist. Eine Angabe des Medians ist auf der Ebene der Einzelitems existiert zwar, aber ist nicht sinnvoll: Da die zur Berechnung des Medians zugrunde liegenden Daten auf der Ebene der Einzelitems aus der Angabe von 1 bzw. 0 bestehen (entsprechend richtig / falsch ) und der Median den Zentralwert der Datenreihe beschreibt, ist der Median auf der Ebene der Einzelitems entweder 1 oder 0, je nachdem, welcher der beiden Werte in der Datenreihe der N = 57 Probanden überwiegt und damit den Zentralwert darstellt. Items mit Lösungsquotienten > 50 % liefern somit einen Median von 1 und Items mit Lösungsquotienten von < 50 % einen Median von 0. Der Auswertung auf Basis der Einzelitems wurde aus zweierlei Gründen der Vorzug gegeben: Zum einen erfasst jedes der Beurteilungskriterien/Items einen ganz bestimmten und im Vergleich zu den anderen Kriterien ganz unterschiedlichen Beurteilungsausschnitt. Ein Zusammenfassen mehrerer Kriterien zu einer Skala (z. B. eine Skalenbildung derjenigen Kriterien, die einem gemeinsamen Teilschritt im Erkenntnisprozess angehören) schien damit ein so starker Informationsverlust zu sein, dass diese Vorgehensweise als nicht zielführend erachtet wurde. Ebenfalls wird eine Aussage darüber, an welchen Stellen die Diagnosekompetenz der Studierenden besondere Defizite oder besondere Stärken aufweist, nur durch die Betrachtung der einzelnen Items deutlich. 79

86 4 Material und Methoden Auf der Basis der Betrachtungen der Einzelitems fand auch ein Vergleich der Ergebnisse aus dem statusdiagnostischen Teil des kombinierten Instrumentes mit den Ergebnissen an Erhebung 2 eingesetzten Kompetenztest für Statusdiagnostik statt - im Falle, dass eine inhaltliche Entsprechung vorhanden war. Zur Übersicht, inwiefern die Items eine inhaltliche Entsprechung aufweisen, sei noch einmal auf Tab. 4.5 verwiesen. Ebenfalls auf Basis der Einzelitems wurde - im Falle einer inhaltlichen Übereinstimmung - auch ein Vergleich der Ergebnisse des statusdiagnostischen Teils und denjenigen des prozessdiagnostischen Teils vorgenommen. Zusätzlich zu der Item-bezogenen Auswertung wurde für die beiden Teilinstrumente auch der (arithmetische) Mittelwert aller Items berechnet. Diese beiden Mittelwerte entsprechen dem mittleren Lösungsquotienten der Items des jeweiligen Teilinstrumentes oder anders betrachtet dem mittleren Anteil an korrekten Beurteilungen (im Abgleich mit der Musterlösung). Die so berechneten Mittelwerte stellen eine metrische Angabe dar, die als intervallskaliert angesehen werden kann. Ergänzend zu den beiden Mittelwerten wird die zugehörige Standardabweichung angegeben. Da die von den Probanden erzielten Lösungsquotienten nicht normalverteilt waren, wird in der Ergebnisdarstellung weiterhin auch der Median angegeben (bei normalverteilten Daten fallen das arithmetische Mittel und der Median zusammen). In Bezug auf die Verwendung des arithmetischen Mittelwertes bzw. des Medians für Mittelwertvergleiche bei Untergruppen oder für Korrelationsanalysen greifen die bei SPSS verfügbaren Testverfahren automatisch den für sie geeigneten Wert zurück. Wichtig als SPSS-Anwender ist hier nur die Auswahl des geeigneten Testverfahrens im Hinblick auf die vorliegenden Daten, so z. B. im Hinblick auf deren Skalierung (sind die Daten intervallskaliert, ordinal skaliert oder nominal skaliert?) oder ihre Verteilung (normalverteilt oder nicht parametrisch). Die im vorigen Absatz angesprochenen Mittelwerte zu den beiden Teilinstrumenten repräsentieren im Sinne der Testkonstruktion die Ausprägung der statusdiagnostischen und der prozessdiagnostischen Kompetenz der Studierenden für das Beurteilen von Schüler-Experimentierprozessen zum Zeitpunkt der Erhebung 3. Diese Mittelwerte wurden auch für die Korrelationsanalysen und die Mittelwertvergleiche verwendet. Beispielhaft für die Korrelationsanalysen sollen hier die Korrelationen der gemessenen statusdiagnostischen Kompetenzen mit dem fachmethodischen Wissen der Studierenden im Bereich Scientific Reasoning, mit ihrem Wissenschaftsverständnis und mit den Selbsteinschätzungen der Studierenden genannt werden. Beispielhaft für die Mittelwertvergleiche sollen die Vergleiche zwischen den Kompetenzausprägungen der männlichen und der weiblichen Probanden stehen. Bei der Auswertung des statusdiagnostischen Teils des kombinierten Instrumentes wurden nur 17 der im Beurteilungsbogen enthaltenen 19 Items berücksichtigt. Dies lag daran, dass die beiden nicht berücksichtigten Items zwar grundsätzlich als geeignet angesehen werden im Sinne einer statusdiagnostischen, also ergebnisbezogenen Beurteilung zu einem Schülerexperimentierprozess, für 80

87 4 Material und Methoden die Beurteilung der konkreten, im Arbeitsheft vorliegenden Schülerantworten nachträglich zur Testung aber als unpassend erachtet wurden. Nicht ausgewertet wurden das Item Nr. 17 zur logischen Ableitbarkeit der von den Schülern getroffenen Schlussfolgerung aus ihren dokumentierten Beobachtungen (vgl. Tab. 4.5) und das Item Nr. 18, welches danach fragt, ob die Schlussfolgerung der Schüler auf Basis von Alltagswissen oder von biologischem Fach- oder Konzeptverständnis erfolgt. Der Grund für die Ungeeignetheit des Items Nr. 17 für die konkret im Arbeitsheft genannte Schlussfolgerung der Schüler bestand darin, dass hier zwei verschiedene Aussagen getroffen worden waren und darüber hinaus eine ergänzende Vermutung angefügt wurde: 1. Unsere Vermutung stimmt. und 2. Die Wasserflöhe haben Angst vor der Wärme wenn die Sonne auf den Teich scheint und schwimmen deshalb nach unten. Die ergänzende Vermutung lautete: Bei Wärme würden sie wahrscheinlich sterben und stellt damit eine Folgehypothese dar. Entsprechend den Darlegungen in der Referenzlösung für Item Nr. 17 kann die erste der beiden Schlussfolgerungen tatsächlich logisch abgeleitet werden aus den von den Schülern dokumentierten Beobachtungen: Diese bestanden in der Beobachtung eines Wanderungsverhaltens der Wasserflöhe in Abhängigkeit vom Licht und entsprachen damit der von den Schülern im Arbeitsheft dokumentierten Hypothese. Die zweite Aussage/Schlussfolgerung ist dagegen nicht logisch ableitbar aus ihren Beobachtungen, da der beschriebene Faktor Angst vor Wärme als Ursache für das Wanderungsverhalten der Wasserflöhe von den Schülern gar nicht getestet wurde und damit seine Ausprägung auch nicht als beobachtetes Merkmal erfasst wurde. Aufgrund dieser Widersprüchlichkeit der gegebenen logischen Ableitbarkeit der ersten Schlussfolgerung und der nicht gegebenen logischen Ableitbarkeit der zweiten Aussage wurde das Item bei der Auswertung nicht berücksichtigt. Auch das Item Nr. 18 wurde aus folgendem Grund nicht gewertet: Die Frage danach, inwiefern eine Schlussfolgerung auf Alltagswissen oder auf Fach- bzw. Konzeptverständnis gründet, zielt mehr auf den Begründungsteil zu einer gegebenen Schlussfolgerung ab, nicht auf die Schlussfolgerung selbst (die Schlussfolgerung selbst ist die Annahme bzw. Ablehnung des Vorhersageteils der zuvor aufgestellten Hypothese). Im konkreten Schüler-Experimentierprozess bestand der Vorhersageteil der aufgestellten Schülerhypothese in der Vorhersage des Wanderungsverhaltens der Wasserflöhe. Angefügt war eine Begründung über den Faktor Temperatur ( weil es da kühler ist ). Die Schlussfolgerung der Schüler bestand in der Annahme der Vermutung, also einer Bestätigung des vermuteten Wanderungsverhaltens. Die zweite Aussage der Schüler lautete, weil die Wasserflöhe. Angst vor der Wärme [haben]. Damit wird für die Begründung der von den Schülern genannten Schlussfolgerung ein neuer Faktor einführt, nämlich die Angst statt der Temperatur. Die korrekte Analyse dieses kompliziert gelagerten Sachverhaltes erschien damit zu schwierig für die Studierenden, welche bei ihrer Beurteilung nur die Wahl zwischen den Antwortmöglichkeiten Schlussfolgerung erfolgt auf der Basis von Alltagswissen, Schlussfolgerung erfolgt auf der Basis von biologischem Fach- oder Konzeptverständnis und der Kategorie weiß nicht hatten. 81

88 4 Material und Methoden Die Tabellen und Grafiken zu den Ergebnisdarstellungen wurden entweder mit dem Programm Excel 2007 erstellt oder der Tabellenfunktion von Word. Die statistischen Berechnungen erfolgten nach der Klassischen Testtheorie und wurden mit Hilfe des Statistikprogrammes SPSS (Version 19 bzw. 20) durchgeführt. Auch die Berechnungen der Kennwerte zu den Gütekriterien und die Korrelations- und Regressionsanalysen erfolgten auf diese Weise. 4.6 Bezug der Testinstrumente zum Diagnosekompetenzmodell Das im Projekt entwickelte Modell zur diagnostischen Kompetenz mit der Beschreibung der zugehörigen Facetten und der Auflistung der darauf bezogenen Standards diente als Orientierungsrahmen für die Neuentwicklung bzw. Anpassung der verwendeten Testinstrumente. Tab. 4.7 präsentiert eine Gesamtübersicht der in dieser Arbeit eingesetzten Testinstrumente und setzt sie in Bezug zu den Standards des Diagnosekompetenzmodells. Dies ermöglicht zum einen, die mit den jeweiligen Instrumenten untersuchten Aspekte der diagnostischen Kompetenz genauer zu erfassen. Andererseits ist die Passung zwischen den Instrumenten und dem Diagnosekompetenzmodell ein Kriterium im Rahmen der Validitätsprüfung. Tab. 4.7: Bezug der eingesetzten Instrumente zum Diagnosekompetenzmodell Instrument Test zum fachmethodischen Wissen der Studierenden V1 Fachinhalte und Fachmethoden Die Studierenden Standards des Diagnosekompetenz-Modells V1.3 nutzen zentrale Schritte von mathematisch-naturwissenschaftlichen Erkenntnismethoden bei der Bearbeitung spezifischer fachlicher Beispiele/Probleme und beherrschen die dabei einzusetzenden fachspezifischen praktischen Arbeitstechniken (practical work). Test zum Wissenschaftsverständnis der Studierenden V1 Fachinhalte und Fachmethoden Die Studierenden V1.4 interpretieren Fachinhalte und -methoden auf der Basis eines adäquaten Verständnisses der Charakteristika von mathematisch-naturwissenschaftlichen Wissenschaften. Paper-pencil basiertes Testinstrument zu den statusdiagnostischen Kompetenzen der Studierenden für das Beurteilen von Schüler- Leistungsniveaus und von Aufgaben- Schwierigkeiten im Bereich Scientific Reasoning D1 Verfahren der fachspezifischen Diagnostik Die Studierenden D1.7 nutzen von Schülern erstellte fachspezifische Produkte zur Status- und Veränderungsdiagnose von fachspezifischen kognitiven Kompetenzen sowie von (fachspezifischen) motivational-emotionalen Zuständen unter Einbezug spezifischer Kriterien. D1.10 setzen zielgerichtet Verfahren der Diagnostik (im Rahmen der schulpraktischen Studien) ein zur Erfassung fachspezifischer kognitiver Kompetenzen und motivational-emotionalen Zuständen/Dynamiken sowie zur Beschreibung des Kompetenzaufbaus. D2 Befundlagen und Theorien zu (fachspezifischen) kognitive Kompetenzen und Kompetenzentwicklungen Die Studierenden D2.1 benennen fachspezifische kognitive Kompetenzen von Schülern und erläutern diese an Beispielen. F Nutzung von Diagnostik zur Strukturierung fachspezifischer Lernumgebungen Die Studierenden F0.5 nehmen Schülerfehler (im Rahmen schulpraktischer Studien) wahr und zeigen einen konstruktiven Umgang mit diesen Fehlern. 82

89 4 Material und Methoden Videoanalyse zum Kompetenztest für Statusdiagnostik (Videoanalyse zu den Bearbeitungsprozessen der Studierenden) D1 Verfahren der fachspezifischen Diagnostik Die Studierenden D1.7 nutzen von Schülern erstellte fachspezifische Produkte zur Status- und Veränderungsdiagnose von fachspezifischen kognitiven Kompetenzen sowie (fachspezifischen) motivational-emotionalen Zustände unter Einbezug spezifischer Kriterien. D1.10 setzen zielgerichtet Verfahren der Diagnostik (im Rahmen der schulpraktischen Studien) ein zur Erfassung fachspezifischer kognitiver Kompetenzen und motivational-emotionalen Zuständen/Dynamiken sowie zur Beschreibung des Kompetenzaufbaus. D1.12 reflektieren eigene Einstellungen, Vorurteile, Stereotype sowie Verhalten in Bezug auf Diagnose im Fachunterricht und erläutern typische Diagnosefehler. D2 Befundlagen und Theorien zu (fachspezifischen) kognitive Kompetenzen und Kompetenzentwicklungen Die Studierenden D2.1 benennen fachspezifische kognitive Kompetenzen von Schülern und erläutern diese an Beispielen. D2.4 nutzen (Entwicklungs-)Modelle bzw. aus theoretischen Überlegungen abgeleitete Kriterien, um Befundlagen zu kognitiven Kompetenzen zum Kompetenzaufbau sowie zu Hoch- und Minderbegabung zu deuten. F Nutzung von Diagnostik zur Strukturierung fachspezifischer Lernumgebungen Die Studierenden F0.5 nehmen Schülerfehler (im Rahmen schulpraktischer Studien) wahr und zeigen einen konstruktiven Umgang mit diesen Fehlern. Kombiniertes Testinstrument zu den statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schüler- Experimentierprozsses D1 Verfahren der fachspezifischen Diagnostik Die Studierenden D1.7 nutzen von Schülern erstellte fachspezifische Produkte zur Status- und Veränderungsdiagnose von fachspezifischen kognitiven Kompetenzen sowie (fachspezifischen) motivational-emotionalen Zustände unter Einbezug spezifischer Kriterien. D1.8 nutzen Beobachtungen und Dokumentationen von Lehr-Lernsituationen zur Prozess-, Veränderungs- und Verlaufsdiagnose von fachspezifischen Schülerkompetenzen sowie motivational-emotionalen Zustände und Dynamiken unter Einbezug spezifischer Kriterien und Modellierungen des Kompetenzaufbaus. D1.10 setzen zielgerichtet Verfahren der Diagnostik (im Rahmen der schulpraktischen Studien) ein zur Erfassung fachspezifischer kognitiver Kompetenzen und motivational-emotionalen Zuständen/Dynamiken sowie zur Beschreibung des Kompetenzaufbaus. D2 Befundlagen und Theorien zu (fachspezifischen) kognitive Kompetenzen und Kompetenzentwicklungen Die Studierenden D2.1 benennen fachspezifische kognitive Kompetenzen von Schülern und erläutern diese an Beispielen. F Nutzung von Diagnostik zur Strukturierung fachspezifischer Lernumgebungen Die Studierenden F0.5 nehmen Schülerfehler (im Rahmen schulpraktischer Studien) wahr und zeigen einen konstruktiven Umgang mit diesen Fehlern. 4.7 Studienmodule in der biologiedidaktischen Ausbildung Abb. 4.9 gibt einen Überblick über den Aufbau der biologiedidaktischen Ausbildung an der Justus- Liebig-Universität Gießen (JLU Gießen) zum Zeitpunkt der Studie. Die Biologie- Lehramtsstudierenden durchlaufen an der JLU ihre biologiedidaktische Ausbildung parallel mit der fachbezogenen Biologielehrerausbildung. Bis auf das Modul M 5 sind alle fachdidaktischen Module für die angehenden Gymnasial-, Förderschul- und Haupt- und Realschullehrkräfte gleichgeschaltet. 83

90 4 Material und Methoden 1. Sem. 2. Sem. 3. Sem. 4. Sem. 5. Sem. 6. Sem. M1: Grundlagen der Biologiedidaktik (Vorlesung / Übung) M2: Methodik des BU a) Fachgemäße Arbeitsweisen M2: Methodik des BU b) Medien im Biologie-Unterricht M3: Planen und Gestalten von BU a) Planung einer UE M4: Vorbereitung zum Schulpraktikum M3: Planen und Gestalten von BU b) Biologische Schulversuche M4: Nachbereitung Schulpraktikum M5: Biologische Vertiefung a) Spezielle Themen der Didaktik Sek. I Legende: BU = Biologie-Unterricht; M1 bis M5 = Modul 1 bis Modul 5; Sem. = Semester M5: Biologische Vertiefung a) Spezielle Themen der Didaktik Sek II b) Außerschulische Lernorte Abb. 4.9: Module, Modulabfolge und Modulinhalte in der biologiedidaktischen Ausbildung Der Kompetenzbereich Erkenntnisgewinnung, die typischen Schritte im Erkenntnisprozess und das Experimentieren im Rahmen von Scientific Inquiry werden in einer expliziten Form in den Modulen der ersten zwei Semestern behandelt. In den nachfolgenden Modulen spielen sie nur noch implizit eine Rolle. Die Themen Diagnostik und Förderung als eigener Themenschwerpunkt waren zum Zeitpunkt der vorliegenden Studie praktisch gar nicht im Curriculum enthalten. Insbesondere für die Diagnostik im Zusammenhang mit dem Kompetenzbereich der Erkenntnisgewinnung gab es keine eigenen Elemente. Inwiefern die Modulinhalte bei den verschiedenen Erhebungen eine Rolle spielen in Bezug auf das fachmethodische Vorwissen der Studierenden oder ihre diagnostische Kompetenz, wird jeweils im Methodenteil in den Beschreibungen der einzelnen Untersuchungen thematisiert. 4.8 Verortung der Arbeit innerhalb des Projekts Professionsorientierte Lehrerbildung Die hier vorgestellte Arbeit ist Teilprojekt innerhalb eines größeren interdisziplinär angelegten Projektes mit dem Titel Professionsorientierte Lehrerbildung Horizontale und vertikale Vernetzung fachdidaktischer, pädagogisch-psychologischer und schulpraktischer Ausbildungsanteile zum Aufbau diagnostischer Kompetenzen 4. Das an der Justus-Liebig-Universität Gießen angesiedelte, vom Bundesministerium für Bildung und Forschung (BMBF) geförderte Projekt 5 mit einer Laufzeit von 4 Förder-Kennziffer 01PH Projektbeteiligte: Prof. Dr. Claudia von Aufschnaiter (Projektleiterin, Didaktik der Physik, JLU Gießen), Prof. Dr. Jürgen Mayer (Biologiedidaktik, Universität Kassel, ehemals JLU Gießen), Prof. Dr. Joachim Stiensmeier- Pelster (Päd. Psychologie, JLU Gießen), Prof. Dr. Rudolf Sträßer (Didaktik der Mathematik, JLU Gießen), Prof. Dr. Marco Ennemoser (Päd. Psychologie, JLU Gießen), Prof. Dr. Andrea Möller (Biologiedidaktik, Universität Trier, ehemals Wissenschaftliche Mitarbeiterin an der JLU Gießen), Gabriele Dübbelde (Wissenschaftliche Mitarbeiterin im Bereich Biologiedidaktik), Janine Cappell (Wissenschaftliche Mitarbeiterin im Bereich der Didaktik der Physik) und Anett Wolgast (Wissenschaftliche Mitarbeiterin im Bereich der Pädagogischen Psychologie). 84

91 4 Material und Methoden hatte zum Ziel, innerhalb der Naturwissenschaftsdidaktiken, der Didaktik der Mathematik und in Verbindung mit der Pädagogischen Psychologie Erkenntnisse über die Struktur, die Ausprägung und die Entwicklung der diagnostischen Kompetenz von Lehramtsstudierenden zu gewinnen (für eine ausführlichere Projektbeschreibung siehe von von Aufschnaiter et al., 2009; Dübbelde, Mayer, Möller, & von Aufschnaiter, 2010). Darüber hinaus war im Projekt angestrebt, in Abstimmung mit den beteiligten Instituten ein Ausbildungskonzept zu entwickeln, das sowohl über die Fächergrenzen hinweg ( horizontal ) als auch innerhalb der einzelnen Teildisziplinen ( vertikal ) Diagnose- und Förderkompetenzen als eine zentrale (vernetzte) Säule der Lehrerbildung beinhaltet. 85

92 EMPIRISCHER TEIL Die in dieser Arbeit beschriebenen Untersuchungen und Überlegungen beschäftigen sich mit der diagnostischen Kompetenz von Biologie-Lehramtsstudierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Die Zielsetzungen und Forschungsfragen, welche die Grundlage für die Untersuchungen bilden und ihr Bezug zur Forschungsliteratur sind in Kapitel 3 dargelegt. Kapitel 4 gibt einen Überblick über das für alle Untersuchungen geltende Untersuchungsdesign, über die Probandengruppen und die mit den einzelnen Untersuchungen verbundene Methodik. In dem nun folgenden empirischen Teil werden in Kapitel 5, 6 und 7 die auf drei Erhebungszeitpunkte verteilten Untersuchungen (entsprechend der drei Kapitel) vorgestellt. Am Anfang jedes der drei Kapitel werden die konkreten, mit den jeweiligen Untersuchungen verfolgten Zielsetzungen noch einmal genau benannt. Es folgt eine Darstellung der Ergebnisse und anschließend die Diskussion dieser unter Einbezug von Befunden anderer Forschungsgruppen. Im Kapitel 8 werden die aus den verschiedenen Untersuchungen stammenden und als wesentlich für die diagnostische Kompetenz erachteten Ergebnisse und Befunde zusammengeführt und noch einmal gemeinsam diskutiert. Dies beinhaltet auch die abschließende Beantwortung der Forschungsfragen in einer knappen Form. Den Abschluss der Arbeit bilden ein Fazit zu den verschiedenen Untersuchungen mit den dort gewonnenen Ergebnissen und ein Ausblick auf mögliche Implikationen für die Lehrerausbildung und sich sinnvoll anschließende Forschungsvorhaben.

93 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis 5.1 Zielsetzungen und Fragestellungen Die erste Erhebung diente primär dem Erfassen des fachmethodischen Wissens der Studierenden und ihres Wissenschaftsverständnisses als vermuteten Bedingungsfaktoren von diagnostischer Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Im Rahmen der Forschungsfrage 3 sollte untersucht werden, in welchem Zusammenhang diese beiden mit den in den späteren Erhebungen ermittelten (statusund prozess)diagnostischen Kompetenzen stehen. Darüber hinaus wurden verschiedene Personen- und Kontextvariablen erhoben sowie die Selbsteinschätzungen der Studierenden bezüglich ihres Professionswissens und ihres diagnostischen Wissens. Die Personen- und Kontextvariablen wurden dazu benutzt, die Zusammensetzung der zum Erhebungszeitpunkt 1 erfassten Probandengruppen aus Kohorte 1 und Kohorte 2 zu charakterisieren. Des Weiteren sollten sie als Grundlage dienen für Korrelationsanalysen mit den in späteren Untersuchungen ermittelten diagnostischen Kompetenzen (Forschungsfrage 4). Die Selbsteinschätzungen der Studierenden sollten den Ausgangswert liefern für die Analyse des Verlaufs der eingeschätzten diagnostischen Kompetenz im Fortgang des Studiums (Forschungsfrage 5). Bei den Personen- und Kontextvariablen handelte es sich zum einen um verschiedene personenbezogene Daten, wie das Geschlecht der Probanden, ihr Alter und ihre Abiturnote. Zum anderen wurden Variablen erhoben, die sich auf das Studium der Probanden bezogen, wie z. B. die von den Studierenden gewählte Lehramtsform (Gymnasiallehramt, Haupt- und Realschullehramt, Förderschullehramt, Berufsschullehramt) und ihre Fächerkombination. Der Hintergrund für die Analyse der studierten Fächerkombination sind die bei den drei Fächern Biologie, Chemie und Physik sehr ähnlich aufgebauten Bildungsstandards (KMK, 2005a, 2005b, 2005c), welche alle drei die vier Säulen Fachwissen, Erkenntnisgewinnung, Kommunikation und Bewerten enthalten. Weiterhin gibt es auch innerhalb des Bereiches Erkenntnisgewinnung viele Parallelen bei den drei Fächern. Von daher könnte ein Studium von zwei naturwissenschaftlichen Fächern den Studierenden Vorteile bringen bezüglich ihres (diagnostischen) Wissens im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. 5.2 Untersuchungsdesign Abb. 5.1 zeigt das Untersuchungsdesign dieser Arbeit. Die in Kapitel 5 beschriebenen Untersuchungen sind in der Abbildung optisch hervorgehoben. Wie dort zu entnehmen ist, befand sich Kohorte 1 (mit N = 110 erfassten Probanden) zum Zeitpunkt der ersten Erhebung im 2. Fachsemester, Kohorte 2 (mit N = 155 erfassten Probanden) im 1. Fachsemester.

94 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Abb. 5.1: Untersuchungsdesign zur Arbeit 5.3 Darstellung und Diskussion der Ergebnisse In den nächsten Unterkapiteln wird zunächst die Zusammensetzung der beiden zum Erhebungszeitpunkt 1 erfassten Probandengruppen aus Kohorte 1 und Kohorte 2 beschrieben. Darauf folgt die Darstellung der Ergebnisse zu den vermuteten Bedingungsfaktoren diagnostischer Kompetenz (Wissenschaftsverständnis und fachmethodisches Wissen) und anschließend die Diskussion dieser Charakterisierung der beiden Probandengruppen Die folgende Tabelle zeigt die ermittelten Daten zu der Zusammensetzung der beiden Kohorten in Bezug auf das Geschlecht, die Fächerkombination der Studierenden und der von ihnen gewählten Lehramtsform. 88

95 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Tab. 5.1: Probandenanzahlen für Geschlecht, Lehramtsform und Fächerkombination für Kohorte 1 (K1) und Kohorte 2 (K2) K1/K2 weiblich männlich 1 naturwiss. Fach (Bio) 2 naturwiss. Fächer H/R- Lehramt Gymnasial- Lehramt Förder- schul- Lehramt Berufs- schul- Lehramt Geschlecht 83/116 27/39 Fächerkomb. 82/136 17/19 Lehramtsform 44/95 53/50 11/8 2/2 Gesamt-Anzahl N = 110/155 N = 99/155 N = 110/155 Legende: H/R-Lehramt = Haupt- und Realschullehramt Tab. 5.1 ist zu entnehmen, dass bei der Erhebung der beiden Bedingungsfaktoren Wissenschaftsverständnis und fachmethodisches Wissen beide Kohorten zu circa einem Drittel aus männlichen Studierenden und zu zwei Dritteln aus weiblichen bestanden hatten. In Bezug auf die Verteilung auf die verschiedenen Lehramtsformen ergibt sich bei Kohorte 1 und Kohorte 2 ein verschiedenes Bild: Auch wenn beide Kohorten ähnliche Zahlenwerte für die Studierenden des Gymnasiallehramtes, des Förderschullehramtes und des Berufsschullehramtes aufweisen, besitzt Kohorte 2 einen deutlich höheren Anteil an Studierenden des Haupt- und Realschullehramtes. In Bezug auf die gewählte Fächerkombination studierten bei Kohorte 1 circa ein Viertel der Studierenden zwei naturwissenschaftliche Fächer, bei Kohorte 2 nur circa 14 Prozent. Tab. 5.2: Mittleres Alter der Probanden nach Geschlecht Weiblich Männlich Gesamt (MW) Kohorte 1 (2. Fachsemester) Kohorte 2 (1. Fachsemester) Alter 21,39 (SD=3,45) 23,19 (SD=4,34) 21,85 (SD=3,76) Anzahl der Probanden N = 76 N = 26 N = 102 Alter 20,43 (SD=2,13) 22,29 (SD=3,25) 20,90 (SD=2,57) Anzahl der Probanden N = 115 N = 38 N = 153 Legende: SD = Standardabweichung Bei beiden Kohorten wiesen die männlichen Probanden im Durchschnitt ein um circa 1,8 Jahre höheres Alter auf als die weiblichen. In beiden Fällen ist dieser Mittelwertunterschied signifikant (p = 0,01 für Kohorte 1 und p < 0,000 für Kohorte 2). In Bezug auf die Abiturnote besaßen die männlichen Studierenden bei beiden Kohorten einen tendenziell besseren Abiturdurchschnitt, wobei dieser Mittelwertunterschied aber bei keiner der beiden Kohorten signifikant ausfällt (p = 0,499 für Kohorte 1 und p = 0,780 für Kohorte 2 nach dem Man- Whitney-U-Test). Dagegen zeigt sich die Abiturnote der Studierenden des Gymnasiallehramtes im Vergleich mit denjenigen des Haupt- und Realschullehramtes als hoch signifikant besser. 89

96 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Tab. 5.3: Mittlere Abiturnote, getrennt nach Lehramtsform Mittlere Abiturnote (SD) Kohorte 1 H/R- Lehramt Gymnasial- Lehramt Förderschul- Lehramt Berufsschul- Lehramt Gesamtmittelwert (SD) 2,80 (0,41) 2,32 (0,31) 2,17 (0,18) 2,85 (0,07) 2,50 (0,43) Anzahl der Probanden N=41 N=52 N=11 N=2 N = 106 Mittlere Abiturnote (SD) Kohorte 2 2,88 (0,38) 2,28 (0,47) 2,27 (0,54) kein MW möglich 2,64 (0,51) Anzahl der Probanden N=84 N=49 N=6 N=1 N = 106 Tab. 5.4: Mittlere Abiturnote, getrennt nach Geschlecht weiblich männlich Gesamtmittelwert (SD) Kohorte 1 (2. Fachsemester) Kohorte 2 (1. Fachsemester) Mittlere Abiturnote (SD) 2,52 (0,41) 2,44 (0,47) 2,50 (0,43) Anzahl der Probanden N=81 N=25 2,50 (0,43) Mittlere Abiturnote (SD) 2,65 (0,59) 2,60 (0,54) 2,64 (0,51) Anzahl der Probanden N=105 N=35 N = Das Wissenschaftsverständnis der Studierenden Aus den in Kapitel beschriebenen Gründen kamen für die Erhebung des Wissenschaftsverständnisses bei den beiden untersuchten Studierendenjahrgängen unterschiedliche Instrumente zum Einsatz. Aus diesem Grund werden auch die Ergebnisse zum Wissenschaftsverständnis für beide Kohorten getrennt dargestellt und diskutiert. Darstellung der Ergebnisse zum Wissenschaftsverständnis der Studierenden (Kohorte 1) Bei Kohorte 1 wurde das CAEB-Instrument von Stahl & Bromme (2007) verwendet. Tab. 5.4 zeigt die in den Untersuchungen gewonnenen Daten: Tab. 5.4: Ergebnisse zum CAEB-Instrument für Kohorte 1 (N=107) Itemanzahl Skalen- Mittelwert Standardabweichung Cronbachs Alpha Inter- Korrelationen Skala Variability 7 3,43 0,85,72 Skala Texture 10 2,71 0,83,88 r=0,525** (p=0,000) Gesamt-Instrument 17 3,07 0,76,90 Legende: Korrelationen gemessen mit dem Kendall-Tau-b Test und ** für p < 0,001 90

97 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Der Kolmogoroff-Smirnow-Test auf Normalverteilung weist die beiden Skalen als nicht normalverteilt aus (p = 0,042 für Skala Variability und p = 0,002 für Skala Texture ). Auch das Gesamtinstrument erweist sich nach diesem Test als gerade nicht mehr normalverteilt. Diskussion der Ergebnisse zum Wissenschaftsverständnis bei Kohorte 1 Mit einem Wert von 0,90 weist das Instrument in seiner Gesamtheit einen sehr guten Cronbachs Alpha auf und zeigt sich damit als reliables Testinstrument. Auch die Analyse der beiden Skalen Texture und Variability liefert mit α = 0,88 bzw. α = 0,72 Werte, die als gut bezeichnet werden können. In ihrer Höhe entsprechen sie den Ergebnissen, die auch Bromme & Stahl (2007) in ihren verschiedenen Untersuchungen erhalten hatten. Auch bei ihnen zeigte der Cronbachs Alpha für die Skala Texture in der Regel höhere Werte und bewegte sich meist um 0,8. Dagegen blieben die Cronbachs Alpha für die Skala Variability meist bei Werten zwischen 0,70 und 0,75 (vgl. Stahl & Bromme, 2007). Betrachtet man die Mittelwerte der beiden Skalen Texture und Variability genauer, so zeigen sich deutliche Unterschiede zwischen beiden (Tab. 5.4): Der relativ niedrige Mittelwert von 2,71 für die Skala Texture weist das Wissenschaftsverständnis der Studierenden bezüglich ihrer assoziativen Einschätzungen über die Struktur des Wissens im Bereich der Biologie als nicht ausgereift aus im Sinne des im Bereich Nature of Science gebräuchlichen Begriffs sophisticated. Im Vergleich dazu liegt der Mittelwert für die Skala Variability mit 3,43 deutlich höher. Dies deutet darauf hin, dass das Wissenschaftsverständnis der Studierenden über die Stabilität bzw. Dynamik des Wissens im Bereich der Biologie schon weiter fortgeschritten ist. Im Vergleich des Wissenschaftsverständnisses der angehenden Biologielehrkräfte von Kohorte 1 mit den in verschiedenen Untersuchungen von Stahl und Bromme (2007) erhobenen Daten zum Wissenschaftsverständnis von Studierenden verschiedener deutscher Universitäten (Durchschnittsalter 21,5 Jahre; SD = 2,0) zeigen sich die Werte der Studierenden von Kohorte 1 auf einem ähnlichen Niveau (Tab. 5.5). Tab. 5.5: Wissenschaftsverständnis der Studierenden von Kohorte 1 im Vergleich mit Werten aus den Studien von Stahl und Bromme (2007) Skala Skalenmittelwert Kohorte 1 Domäne Biologie Mittelwert * Domäne Genetics Mittelwert * Domäne Physics Mittelwert * Domäne Plant identification Variability 3,43 3,22 4,12 4,58 Texture 2,71 2,93 2,60 3,24 Legende: * die angegebenen Werte entstammen den Untersuchungen von Stahl und Bromme (2007) Zusammenfassend für die Ergebnisse der Untersuchungen zum Wissenschaftsverständnis im Rahmen dieser Arbeit zeigt sich bei den Studierenden aus Kohorte 1 ein durchschnittlich ausgeprägtes assoziatives Verständnis über das Wissen und den Wissenserwerb im Bereich der Biologie. Die gemessenen Cronbachs Alpha und der Wert für die Interkorrelation der beiden Skalen weisen das Testinstrument als geeignet aus für das Erfassen der konnotativen Aspekte des 91

98 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Wissenschaftsverständnisses. Als dagegen nicht so geeignet für die weiterführenden Untersuchungen und die geplanten Korrelationen mit der diagnostischen Kompetenz werden das wenig differenzierte Erfassen der verschiedenen für den Bereich Nature of Science typischen Dimensionen erachtet. Auch die hohe Domänenspezifität des CAEB-Instrumentes wird als ungünstig betrachtet (vgl. hierzu die Ausführungen in Kapitel und bei Stahl und Bromme (2007). Darstellung der Ergebnisse zum Wissenschaftsverständnis bei Kohorte 2 Bei Kohorte 2 wurde das auf das Instrument von Urhahne et al. (2008) aufbauende und auf zehn Skalen erweiterte NOS-Instrument eingesetzt (vgl. Kapitel 4.3.1). Tab. 5.6 zeigt die ermittelten Skalenmittelwerte mit den zugehörigen Standardabweichungen und die berechneten Cronbachs Alpha aus der Reliabilitätsanalyse. Tab. 5.6: Ergebnisse zum Wissenschaftsverständnis der Studierenden aus Kohorte 2 (N=155) Skala Itemanzahl Skalen- Mittelwert Standardabweichung Cronbachs Alpha 1. Herkunft 6 4,34 0,49 0,67 2. Sicherheit / Wahrheit 6 4,02 0,51 0,54 3. Stabilität vs. Dynamik 6 4,30 0,48 0,68 4. Rechtfertigung 8 4,47 0,33 0,43 5. Komplexität vs. Einfachheit 5 3,95 0,46 0,48 6. Zweck / Ziel 6 3,91 0,45 0,62 7. Kreativität 6 3,82 0,66 0,80 8. Sozialer u. kultureller Einfluss 5 3,60 0,58 0,74 9. Subjektivität vs. Objektivität 5 3,16 0,65 0, Theorie und Gesetz 4 3,15 0,59 0,47 Gesamtes Instrument (10 Skalen) 57 3,95 0,57 0,81 Um zu den bei Kohorte 2 erhobenen Werten zu ihrem Wissenschaftsverständnis auch Vergleichswerte von Studierenden im fortgeschrittenen Fachsemester zu haben, wurden mit demselben zehn Skalen umfassenden NOS-Instrument, welches auch bei Kohorte 2 zum Einsatz gekommen war, Daten von Biologie-Lehramtsstudierenden des 5. Fachsemesters erhoben. Der Grund für das Erheben dieser Vergleichsdaten bestand darin zu überprüfen, ob im Verlauf des Studiums höhere Ausprägungen im Wissenschaftsverständnis festgestellt werden können und wenn ja, in welcher Größenordnung. Da im Rahmen des Untersuchungsdesigns dieser Arbeit vorgesehen war, das Wissenschaftsverständnis nur zu Beginn des Studiums zu erheben und es in dieser Form mit der zu späteren Zeitpunkten erhobenen diagnostischen Kompetenz zu korrelieren, erschien die Berücksichtigung einer möglicherweise vorhandenen Zunahme des Wissenschaftsverständnisses im Verlauf des Studium durchaus interessant. 92

99 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Tab. 5.7: Vergleich der Werte zum Wissenschaftsverständnis der Studierenden von Kohorte 2 (1.Fachsemester) mit Biologie-Lehramtsstudierenden des 5.Fachsemesters Skala Kohorte 2 / 1.Sem. (N=155) Itemanzahl Skalen-MW 1.Fachsem. Signifikanzen zw. 1.Fachsem. und 5.Fachsem. Vergleichsgruppe 5.Semester (N=41) Cronbachs Alpha Skalen-MW 5.Fachsem. 1. Herkunft 6 4,34 n.s. 0,75 4,28 0,60 2. Sicherheit/Wahrheit 6 4,02 * 0,52 4,22 0,46 3. Stabilität vs. Dynamik 6 4,30 n.s. 0,74 4,23 0,57 4. Rechtfertigung 8 4,47 n.s. 0,78 4,49 0,48 5. Komplexität vs. Einfachheit 5 3,95 n.s. 0,53 4,07 0,43 6. Zweck/Ziel 6 3,91 n.s. 0,79 4,07 0,58 7. Kreativität 6 3,82 n.s. 0,72 3,84 0,61 8. Sozialer u. kultureller Einfluss 5 3,60 n.s. 0,72 3,57 0,67 9. Subjektivität/Objektivität 5 3,16 n.s. 0,82 3,17 0, Theorie und Gesetz 4 3,15 * 0,53 2,88 0,75 Alle 10 Skalen 57 3,95 n.s. 0,86 3,94 0,50 Ersten 7 Skalen 43 4,14 n.s. 0,89 4,17 0,44 Legende: Signifikanzen getestet mit dem Man-Whitney-U Test für unabhängige, nicht parametrische Stichproben SD Diskussion der Ergebnisse zum Wissenschaftsverständnis der Studierenden bei Kohorte 2 Die Gesamtreliabilität des erweiterten, zehn Skalen umfassenden Testinstrumentes kann mit α = 0.81 als gut bezeichnet werden (Tab. 5.6). Auch die Ergebnisse aus der Vergleichsstudie im 5. Fachsemester bestätigen mit α = 0.86 diesen guten Wert. Im Gegensatz dazu fallen die Cronbachs Alpha für die einzelnen Skalen sehr unterschiedlich aus (0.43 < α < 0.8), liegen aber überwiegend in dem auch bei der Schülerstudie von Urhahne, Kremer & Mayer (2008) beobachteten Bereich (vgl. Tab. 5.8). Auch die drei neu konzipierten Skalen, die in der genannten Studie als zu schwierig für Schüler erachtet worden waren (Urhahne et. al., 2008, vgl. Kapitel 4.3.1), erzielten bei den Studierenden überwiegend akzeptable Cronbachs Alpha und scheinen damit für Studierende angemessen zu sein. Aus den vorliegenden Daten wird somit gefolgert, dass das im Rahmen dieser Arbeit angepasste Instrument in Bezug auf seine Reliabilität geeignet ist, das Wissenschaftsverständnis der Studierenden zu erfassen. Um neben den Vergleichsdaten von Studierenden aus höheren Fachsemestern auch Vergleichsdaten von jüngeren Probanden als den Studienanfängern von Kohorte 2 in die Diskussion miteinbeziehen zu können, wurden den Daten der Studierenden Schülerdaten aus der Studie von Urhahne und Mitarbeitern (2008) gegenübergestellt. Diese waren erhoben worden bei Schülern der 6./7. Jahrgangstufe und bei Schülern der 9./10. Jahrgangstufe. Ein Vergleich der Daten aus der Schülerstudie mit den im Rahmen dieser Arbeit gemessenen Werten ist möglich wegen der hohen Übereinstimmung der ersten sieben Skalen (vgl. Kapitel 4.3.1). 93

100 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Tab. 5.8: Vergleichswerte zum Wissenschaftsverständnis aus der Studie von Urhahne et al., (2008) Skala 9./10. Klasse (N=66) Itemanzahl Cronbachs Alpha Skalen-MW 9./10. Jg. SD Signifikanzen zw. 9./10.Jg. und 6./7.Jg. Itemanzahl 6./7. Klasse (N=65) Cronbachs Alpha Skalen-MW 6./7. Jg. 1. Herkunft 5 0,71 4,08 0,71 * 5 0,73 3,70 0,73 2. Sicherheit/Wahrheit 7 0,62 3,85 0,62 * 7 0,60 3,60 0,60 3. Stabilität vs. Dynamik 8 0,52 4,04 0,52 * 8 0,49 3,80 0,49 4. Rechtfertigung 9 0,43 4,05 0,43 * 9 0,55 3,71 0,55 5. Komplexität vs. Einfachheit 5 0,70 2,91 0,70 n.s. 5 0,51 2,69 0,51 6. Zweck/Ziel 5 0,53 3,99 0,53 n.s. 5 0,55 3,89 0,55 7. Kreativität 5 0,66 3,13 0,66 n.s. 5 0,53 3,14 0,53 Ersten 7 Skalen 44 3, ,50 Legende: Signifikanzen getestet mit dem Man-Whitney-U Test für unabhängige, nicht parametrische Stichproben SD Die Diskussion der im Test ermittelten Ergebnisse zu den Ausprägungen des Wissenschaftsverständnisses der Studierenden aus Kohorte 2 erfolgt im Zusammenhang mit den Vergleichsdaten der Studierenden aus dem 5. Fachsemester und den Schülerdaten: Auch wenn im Rahmen dieser Arbeit keine Möglichkeit bestand, Signifikanzen für die Mittelwertunterschiede im Wissenschaftsverständnis zwischen den Schülerdaten und den Daten der Studierenden von Kohorte 2 zu berechnen, scheint sich abzuzeichnen, dass sich die bei den Schülern vorgefundene Zunahme im Wissenschaftsverständnis als Trend bei den Studienanfängern weiter fortgesetzt hat (Tab. 5.7 und Tab. 5.8). Abb. 5.2 veranschaulicht dies graphisch. Abb. 5.2: Ergebnisse zum Wissenschaftsverständnis der Studierenden von Kohorte 2 (1.Fachsemester) und der Vergleichsgruppe (5.Fachsemester) im Vergleich mit Schülerdaten aus der Studie von Urhahne et al., (2008); K 2 = Kohorte 2 Deutlich zu erkennen ist, dass das Fortschreiten im Wissenschaftsverständnis der angehenden Biologielehrkräfte im Vergleich zu den Schülern nicht nur im Gesamtergebnis, d. h. dem Gesamtmittelwert aller Skalen wiederzufinden ist (siehe Säulen rechts in der Graphik), sondern sich bis auf eine Ausnahme (Skala Zweck / Ziel ) auch bei allen Einzelskalen, d. h. allen untersuchten 94

101 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Dimensionen im Bereich Nature of Science, wiederholt. Auch diese Tatsache unterstreicht den Befund eines weiter fortgeschrittenen Wissenschaftsverständnisses der angehenden Biologielehrer im Vergleich zu den Schülern. Bei der Graphik zu beachten ist, dass sich die Säulen zu den Gesamtmittelwerten der beiden Schülerstudien nur auf die ersten sieben Skalen beziehen, diejenigen für die beiden Studierendengruppen aber auf alle zehn Skalen. Die Gesamtmittelwerte für die ersten sieben Skalen liegen für die beiden Studierenden-Säulen sogar noch höher als in der Graphik veranschaulicht (vgl. Tab. 5.7). Betrachtet man die Ergebnisse zu den einzelnen Skalen (welche das Wissenschaftsverständnis der Studierenden für die unterschiedlichen Dimensionen im Bereich Nature of Science abbilden), so weisen diese zum Teil deutliche Unterschiede in ihrer Höhe auf. Auffällig sind hier vor allem die niedrigeren Mittelwerte der drei neu hinzugekommenen Skalen, was ein deutlich niedrigeres Wissenschaftsverständnis für die mit den Skalen erfassten Dimensionen Sozialer und kultureller Einfluss, Subjektivität vs. Objektivität und Theorie und Gesetz anzeigt. Die Mittelwerte erweisen sich nach dem Vorzeichentest von SPSS in allen drei Fällen hoch signifikant (p < 0,01) niedriger als diejenigen der restlichen sieben alten Skalen. Die Mittelwerte der drei neuen Skalen befinden sich eher im mittleren Bereich der Ratingskala und bewegen sich damit sogar noch etwas unterhalb des Niveaus, welches die Schüler im Durchschnitt bei den sieben ersten Skalen erreicht hatten. Dies könnte ein Hinweis dafür sein, dass die Studierenden zu Beginn ihres Studiums zwar ein Verständnis für die mit den drei neuen Skalen erfassten, eher komplizierten und für Schüler schwierigen Dimensionen von Nature of Science aufgebaut haben, ihnen ein ausgereiftes Verständnis hierzu aber noch fehlt. Vergleicht man die Ergebnisse der Studierenden von Kohorte 2 mit denjenigen der Studierenden aus dem 5. Fachsemester (Abb. 5.2), so ist zu erkennen, dass beide in Bezug auf die Ausprägung ihres Wissenschaftsverständnisses ein ähnlich hohes Niveau aufweisen. So zeigen sowohl die beiden Gesamtmittelwerte aller zehn Skalen mit MW = 4,14 bzw. MW = 4,17 sehr ähnliche Werte (vgl. Tab. 5.7), als auch diejenigen der ersten sieben Skalen (MW = 3,95 bzw. MW = 3,94). Auch die Werte der einzelnen Skalen liegen überwiegend auf einem sehr ähnlichen Niveau und weisen keine signifikanten Mittelwertunterschiede auf. Auch wenn die Probanden von Kohorte 2 und die Probanden aus dem 5. Fachsemester verschiedene Personen sind, wird aus den vorliegenden Daten gefolgert, dass bei den Studierenden im Verlauf des Studiums keine weitere Zunahme des Wissenschaftsverständnisses mehr erfolgt. Gegen das Argument, dass eine Zunahme doch erfolgt ist, durch einen möglicherweise vorhandenen Deckeneffekt des Instrumentes aber nivelliert wird, spricht, dass auch bei den drei neu hinzugekommenen Skalen, welche keinen Deckeneffekt besitzen, keine höhere Ausprägung des Wissenschaftsverständnisses bei den Studierenden des 5. Fachsemesters vorlag. 95

102 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Die somit angenommene nicht weiter fortschreitende Zunahme im Wissenschaftsverständnis rechtfertigt die Vorgehensweise dieser Arbeit, die zum ersten Erhebungszeitpunkt ermittelten Daten zum Wissenschaftsverständnis mit den zu späteren Zeitpunkten erhobenen Daten zur diagnostischen Kompetenz der Studierenden zu korrelieren Das fachmethodische Wissen der Studierenden Bei der Auswertung der Ergebnisse zum fachmethodischen Wissen der Studierenden erfolgte keine Trennung nach den vier Teilbereichen von Scientific Reasoning, da es lediglich beabsichtigt war, das fachmethodische Wissen als Gesamtkonstrukt mit der diagnostischen Kompetenz zu korrelieren. Eine Skalenbildung über die vier Teilbereiche erschien auch wegen der geringen Anzahl der MC-Aufgaben im Test nicht sinnvoll. Darstellung der Untersuchungsergebnisse zum fachmethodischen Wissens (Kohorte 1) Tab. 5.9 zeigt die Ergebnisse zu den acht geschlossenen Aufgaben, die zur Abfrage des fachmethodischen Wissens im Bereich Scientific Reasoning eingesetzt worden waren. In Abb. 5.3 werden die in der Tabelle genannten Lösungsquotienten graphisch veranschaulicht. Tab. 5.9: Ergebnisse der 8 Aufgaben zum fachmethodischen Wissen (Kohorte 1, N = 109) Teilbereiche von Scientific Reasoning Aufgabe Mittlerer Lösungsquotient SD Anzahl der Antwortmöglichkeiten mögliche Punkte Fragestellung 1. Im Wasser lebende Räuber 0,28 0, / 1 Fragestellung 2. Schmetterlingslarven 0,79 0, / 1 Hypothese 3. Pocken 0,38 0, / 1 Hypothese 4. Stichlingsmodelle 0,62 0, / 0,5 / 1 Planen 5. Pflanzenwachstum 0,85 0, / 1 Planen 6. Killersee 0,36 0, / 0,5 / 1 Datenanalyse 7. Zuckerkonsum 0,66 0, / 1 Datenanalyse 8. Wachstumsfaktoren 0,59 0, / 0,5 / 1 0,57 0,17 96

103 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Abb. 5.3: Ergebnisse zum fachmethodischen Wissen bei Kohorte 1 (8 Aufgaben) Die Ergebnisse zur Leistungsverteilung der Studierenden von Kohorte 1 sind in Abb. 5.4 dargestellt. In der Abbildung aufgetragen ist die im fachmethodischen Wissenstest erreichte Punktzahl im Verhältnis zur möglichen Punktzahl. In die Säulen eingetragen findet sich jeweils die Anzahl der Probanden, die die jeweilige Punktzahl erreicht hat. Abb. 5.4: Leistungsverteilung der Probanden von Kohorte 1 im fachmethodischen Test Bei der Überprüfung der Leistungsverteilung mit Hilfe des Komogoroff-Smirnow-Tests wird eine signifikante Abweichung von der Normalverteilung ausgewiesen (p=0,018). 97

104 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Diskussion der Ergebnisse zum fachmethodischen Wissen der Studierenden (Kohorte 1) Betrachtet man die in Abb. 5.4 dargestellte Leistungsverteilung der Probanden von Kohorte 1, so decken die Probanden praktisch das gesamte mögliche Leistungsspektrum von 100 % erreichter Punktzahl bis hin zu nur 10 % erreichter Punktzahl ab. Allerdings sind im oberen Leistungsbereich, vor allem jenseits von 80 % erreichten Punkten, nur wenige Probanden vertreten, so dass die Verteilung insgesamt keiner Normalverteilung folgt. Ein Rückschluss von den erreichten Mittelwerten der Studierenden auf die Ausprägung ihres fachmethodischen Wissens lässt sich allein aufgrund der absoluten Zahlenwerte nicht treffen. So ist für einen niedrigen oder hohen Mittelwertwert nicht nur das fachmethodische Wissen der Studierenden entscheidend, sondern auch die Schwierigkeit der im Test eingesetzten Aufgaben, welche wiederum sowohl von deren inhaltlicher Schwierigkeit wie auch vom Aufgabenformat abhängt. Aussagen über die Ausprägung des fachmethodischen Wissens sind daher vor allem im Vergleich der Studierenden untereinander möglich oder über den Vergleich mit anderen Probandengruppen, die dieselben oder zumindest vom Schwierigkeitsgrad her vergleichbare Aufgaben bearbeitet haben. Um analog zu den Auswertungen beim Wissenschaftsverständnis genau solche Vergleiche ziehen zu können, wurde in der Forschungsliteratur nach Studien Ausschau gehalten, die genau dieselben oder zumindest sehr ähnliche Aufgaben in ihren Testungen zum fachmethodischen Wissens eingesetzt haben. Die in der Literatur gefundenen Vergleichsergebnisse und die Schlussfolgerungen im Hinblick auf das fachmethodische Wissen der Biologie-Lehramtsstudierenden werden im Anschluss an die Darstellung und Diskussion der Ergebnisse für Kohorte 2 präsentiert. In Bezug auf die im Test erreichte Reliabilität lieferten die acht bei Kohorte 1 eingesetzten Aufgaben mit einem Cronbachs Alpha von α = 0,27 keinen akzeptablen Wert zur inneren Konsistenz. Um die Testzuverlässigkeit zu erhöhen und in der Absicht, das Format der Items einheitlicher zu gestalten, wurde daher im Nachgang zum Erhalt der Ergebnisse entschieden, den bei Kohorte 1 eingesetzten fachmethodischen Wissenstest noch einmal zu überarbeiten und die überarbeitete Form bei Kohorte 2 einzusetzen. Trotz der offensichtlichen Schwäche in Bezug auf den Cronbachs Alpha soll an dieser Stelle angemerkt werden, dass bei Studien, die mit MC-Aufgaben im Bereich der Erkenntnisgewinnung arbeiten, häufiger solche niedrigen Reliabilitäten zu finden sind. So lagen die in der Studie von Teichert erzielten Werte ebenfalls in der gleichen Größenordnung wie die hier gemessenen (Teichert, 2004). Über die Gründe für die schlechten Werte kann nur spekuliert werden. Zu vermuten ist, dass sicherlich auch die geringe Itemanzahl des Tests zu der niedrigen Reliabilität beigetragen hat: Der Cronbachs Alpha nimmt üblicherweise mit steigender Anzahl der einbezogenen Items höhere Werte an (Becker, 2004). 98

105 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Darstellung der Untersuchungsergebnisse zum fachmethodischen Wissen für Kohorte 2 Bei Kohorte 2 kam der überarbeitete und erweiterte Test zum fachmethodischen Wissen im Bereich Scientific Reasoning zum Einsatz. Die Gründe und die Art der Überarbeitung gegenüber dem bei Kohorte 1 eingesetzten Test sind im Absatz zuvor und in Kapitel dargelegt. Tab zeigt die Ergebnisse zu den letztendlich zwölf bei Kohorte 1 eingesetzten Aufgaben. Die Gesamtreliabilität der 12 Aufgaben im Test betrug α = 0,32. Tab. 5.10: Ergebnisse der 12 Aufgaben zum fachmethodischen Wissen (Kohorte 2, N = 148) Teilbereiche von Scientific Reasoning Aufgabe Mittlerer Lösungsquotient SD Anzahl der Antwortmöglichkeiten mögliche Punkte Fragestellung 1. Im Wasser lebende Räuber 0,70 0, / 1 Fragestellung 2. Schmetterlingslarven 0,88 0, / 1 Fragestellung 3. Enzyme 0,86 0, / 1 Hypothese 4. Pocken 0,47 0, / 1 Hypothese 5. Bohnenexperiment 0,67 0, / 1 Hypothese 6. Huhn und Ei 0,90 0, / 1 Planen 7. Mehlwürmer 0,66 0, / 1 Planen 8. Regenbogenforellen 0,86 0, / 1 Planen 9. Berghänge 0,18 0, / 1 Datenanalyse 10. Zuckerkonsum 0,86 0, / 1 Datenanalyse 11. Wachstumsfaktoren 0,66 0, / 1 Datenanalyse 12. CO 2-Aufnahme 0,64 0, / 1 0,69 0, / 1 In Abb. 5.5 sind die in Tab dargestellten Lösungsquotienten zu den 12 im fachmethodischen Test eingesetzten Aufgaben graphisch veranschaulicht. Die Höhen der Säulen bzw. die hier eingetragenen Lösungsquotienten können auch gelesen werden als Anteil der Studierenden, die jeweils diese Aufgabe lösen konnten. So haben beispielsweise 47 % der Probanden die Aufgaben Pocken gelöst. 99

106 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Abb. 5.5: Ergebnisse der 12 Aufgaben zum fachmethodischen Wissen (Kohorte 2) Die Untersuchung der Leistungsverteilung zum fachmethodischen Wissenstest für die Probanden aus Kohorte 2 lieferte die in Abb. 5.6 dargestellten Ergebnisse. Die Abbildung zeigt wieder die Verteilung der Studierenden-Anzahlen in Abhängigkeit von der von den Probanden erreichten Leistung im Test (gemessen als erreichte Punktzahl im Verhältnis zur möglichen Punktzahl). Abb. 5.6: Verteilung der Leistungsverteilung der Studierenden im fachmethodischen Wissenstest (Kohorte 2) Überprüft mit dem Kolmogoroff-Smirnov-Test auf Normalverteilung zeigte sich die Leistungsverteilung als nicht normalverteilt (p = 0,000) 100

107 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Diskussion der Ergebnisse zum fachmethodischen Wissen der Studierenden (Kohorte 2) Betrachtet man die in Abb. 5.6 dargestellte Leistungsverteilung der Probanden von Kohorte 2, so fällt im Vergleich zu den Ergebnissen für Kohorte 1 die Verschiebung zu den höheren Lösungsquotienten auf. Trotzdem decken auch die Studierenden aus Kohorte 2, ähnlich wie diejenigen aus Kohorte 1, ein großes Leistungsspektrum ab: Alle Stufen von 20 % korrekt beantworteter Aufgaben bis nahezu 100 % korrekt beantworteter Aufgaben sind vertreten. In Bezug auf die Gesamtreliabilität der im fachmethodischen Wissenstest eingesetzten 12 Aufgaben kann diese obwohl zumindest auf einen Cronbachs Alpha von α = 0,32 gestiegen weiterhin als nicht zufriedenstellend angesehen werden. Aus der absoluten Höhe der Lösungsquotienten kann auch hier wieder nicht unmittelbar auf die Höhe des fachmethodischen Wissens geschlossen werden. Aus diesem Grund wurde auch hier ein Vergleich mit Ergebnissen aus anderen Studien gesucht, die die gleichen oder ähnliche Aufgaben in ihren Tests zum fachmethodischen Wissen eingesetzt hatten. Vergleich der Ergebnisse zum fachmethodischen Wissen der Studierenden mit den Ergebnissen anderer Studien. Tab zeigt eine Gegenüberstellung der Ergebnisse aus den Untersuchungen bei Kohorte 1 und Kohorte 2 mit Vergleichsdaten aus der einschlägigen Forschungsliteratur. Diese Vergleichsdaten stammen aus Schülerstudien von Teichert (2004), Glug (2009) und aus der TIMSS III-Studie (Baumert, Bos & Lehmann, 2000). In der linken Seite der Tabelle aufgeführt sind die im fachmethodischen Wissenstest bei Kohorte 1 und Kohorte 2 eingesetzten Aufgaben, eine genaue Angabe ihres jeweilig dort verwendeten Formats und die in den beiden Kohorten erzielten mittleren Lösungsquotienten (in der Tabelle mit MW abgekürzt). Die beiden rechten Spalten der Tabelle beinhalten die aus den Schülerstudien entnommenen Vergleichswerte (d. h. den hier erzielten Lösungsquotienten), eine Quellenangabe zur jeweiligen Vergleichsstudie, das genaue Format der entnommenen Aufgabe und die Klassenstufe, bei denen die Aufgabe eingesetzt worden war. Grau hinterlegt (zeilenweise betrachtet) sind diejenigen Aufgaben, die eine gute Entsprechung zwischen Vergleichsstudie und den Untersuchungen bei Kohorte 1 bzw. Kohorte 2 aufweisen. Tab. 5.11: Ergebnisse zu Aufgaben zum fachmethodischen Wissen im Vergleich verschiedener Studien Aufgabe Teilbereich Kohorte 1 (2.Fachsemester) Kohorte 2 (1.Fachsemester) MW Format MW Format Vergleichswerte Teichert (2004); TIMSS III; Glug (2009) MW und (Klassenstufe) Studie, Format Im Wasser lebende Räuber F 0,28 MC (0/1) 5 Antw.mögl. 0,70 SC (0/1) 4 Antw.mögl. 0,48 (12.Kl) 0,48 (11.Kl.) 0,20 (9.Kl.) Teichert (2004) OA N=103 Schmetterlingslarven F 0,79 MC (0/1) 5 Antw.mögl. 0,88 SC (0/1) 4 Antw.mögl. 0,47 (12.Kl) 0,31 (11.Kl.) 0,24 (9.Kl.) Teichert (2004) OA N=103 Enzyme F 0,86 SC (0/1) 4 Antw.mögl. 0,63 (Kl.10-13) 0,48 (12.Kl) Teichert (2004) SC (0/1) 101

108 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis 0,48 (11.Kl.) 0,20 (9.Kl.) 4 Antw.mögl. N=103 Pocken H 0,38 MC (0/1) 5 Antw.mögl. 0,47 SC (0/1) 4 Antw.mögl. 0,37 (12.Kl) 0,41 (11.Kl.) 0,00 (9.Kl.) Teichert (2004) OA N=86 Bohnenexperiment H 0,67 SC (0/1) 4 Antw.mögl. 0,47 (Kl.10-13) Teichert (2004) SC (0/1) 4 Antw.mögl. N=62 Huhn und Ei H 0,90 SC (0/1) 4 Antw.mögl. 0,73 (Kl.10-13) 0,79 (12.Kl) 0,50 (11.Kl.) 0,47 (9.Kl.) Teichert (2004) SC (0/1) 4 Antw.mögl. N=86 Stichlingsmodelle H 0,62 Pflanzenwachstum P 0,85 Killersee P 0,36 4 Zuordn aus 3Auswahlmögl (0/0,5/1) MC (0/1) 5 Antw.mögl. MC (0/0,5/1) 4 Antw.mögl. Mehlwürmer P 0,66 Regenbogenforellen P 0,86 Berghänge P 0,18 Zuckerkonsum D 0,66 Wachstumsfaktoren D 0,59 MC (0/1) 5 Antw.mögl. MC (0/0,5/1) 5 Antw.mögl. 0,86 0,66 CO 2-Aufnahme D 0,64 SC (0/1) 4 Antw.mögl. SC (0/1) 4 Antw.mögl. SC (0/1) 4 Antw.mögl. SC (0/1) 4 Antw.mögl. SC (0/1) 4 Antw.mögl. SC (0/1) 4 Antw.mögl. 0,77 (Kl.10-13) 0,63 (12.Kl) 0,82 (11.Kl.) 0,81 (9.Kl.) 0,45 (8.Kl.) 0,40 (7.Kl.) 0,51 (12.Kl) 0,38 (11.Kl.) 0,17 (9.Kl.) 0,46 (9.Kl) 0,35 (12.Kl) 0,30 (11.Kl.) 0,03 (9.Kl.) 0,50 (12.Kl) 0,25 (11.Kl.) 0,13 (9.Kl.) 0,35 (Kl.10-13) Legende: F=Fragestellung formulieren; H=Hypothesenbildung; P=Untersuchung planen; D=Dateninterpretation MC=Multiple Choice Aufgabe; SC=Single Choice Aufgabe; OA=Aufgabe in offenem Format MW steht für den mittleren Lösungsquotienten der Aufgaben Teichert (2004) SC (0/1) 5 Antw.mögl. N=73 TIMSS III Teichert (2004) OA N=103 Glug (2009) SC (0/1) 4 Antw.mögl. N=750 Teichert (2004) OA N=86 Teichert (2004) OA N=103 Teichert (2004) SC (0/1) 4 Antw.mögl. N=62 Vergleicht man die von den Studierenden aus Kohorte 1 bzw. Kohorte 2 erzielten Ergebnisse zu den grau hinterlegten Aufgaben mit denjenigen der genannten Vergleichsstudien, so lässt sich in allen Fällen eine Steigerung des fachmethodischen Wissens der Studierenden im Vergleich mit den Schülerergebnissen feststellen. Zusammen mit der Tatsache, dass auch in den Schülerergebnissen selbst die Tendenz festzustellen ist, dass das fachmethodische Wissen im Verlauf der Schulzeit ansteigt (vgl. Tab. 5.11; siehe auch Grube, 2010; Teichert, 2004), zeigt sich hier also eine weitergehende Steigerung des fachmethodischen Wissens. Zu berücksichtigen ist allerdings, dass es sich bei den Studierenden um angehende Lehrkräfte für das Fach Biologie handelt, also um Personen, die sicherlich ein erhöhtes Interesse am Fach Biologie haben. Dagegen setzen sich die untersuchten Schülergruppen aus Schülern mit ganz unterschiedlichen Interessenlagen zusammen. 102

109 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Vergleicht man die Ergebnisse der Studierenden von Kohorte 1 mit den Ergebnissen der Studierenden von Kohorte 2, so zeigt sich, dass bei denjenigen Aufgaben, die inhaltlich einander entsprechen, die Studierenden von Kohorte 2 durchweg höhere Lösungsquotienten erzielten. Vermutlich ist dies auf das unterschiedliche Format beider zurückzuführen: Im Test bei Kohorte 1 wurden Multiple Choice Aufgaben mit 5 Antwortmöglichkeiten verwendet, im fachmethodischen Wissenstest bei Kohorte 2 dagegen Single Choice Aufgaben mit nur 4 Antwortmöglichkeiten. Im Hinblick auf die im Rahmen von Forschungsfrage 3 geplanten Korrelationen des fachmethodischen Wissens mit der diagnostischen Kompetenz soll zusammenfassend festgehalten werden, dass zwar die Mehrzahl der bei den Studierenden von Kohorte 2 eingesetzten Aufgaben durch ihr spezielles SC- Format mit den nur 4 Antwortmöglichkeiten als zu leicht angesehen werden muss. In Verbindung mit den gefundenen Vergleichswerten erweisen sich die ermittelten Werte bei Kohorte 2 aber trotzdem als sinnhaft. Davon ausgehend scheinen die mit ihnen erzielten Ergebnisse zum fachmethodischen Wissen der Studierenden zumindest eine hinreichende Basis zu bilden für die geplanten Korrelationsanalysen. Weiterhin kann festgehalten werden, dass bei den Studierenden im Vergleich zu den Schülern offensichtlich ein besseres fachmethodisches Wissen vorhanden ist. Für die bei Kohorte 1 eingesetzten Aufgaben, die in ihrer Gesamtheit einen angemessenen Schwierigkeitsgrad besitzen, konnte (bis auf die Aufgabe Pflanzenwachstum ) leider nicht auf solche Vergleichswerte zurückgegriffen werden Zusammenhänge von Bedingungsfaktoren und Personen- und Kontextvariablen Die in diesem Rahmen vorgenommenen Korrelationsanalysen hatten zum Ziel aufzudecken, ob für die beiden vermuteten Bedingungsfaktoren fachmethodisches Wissen und Wissenschaftsverständnis Wirkungsketten im Zusammenhang mit der diagnostischen Kompetenz vorliegen im Sinne von beispielweise gute Abiturnote hohes fachmethodisches Wissen gute diagnostische Kompetenz. Es war beabsichtigt, die hier gefundenen Zusammenhänge in der zusammenführenden Abschlussbetrachtung aller Ergebnisse im Kapitel 8 zu berücksichtigen. Darstellung der Ergebnisse zur Korrelation zwischen fachmethodischem Wissen und Wissenschaftsverständnis Tab. 5.12: Korrelation zwischen fachmethodischem Wissen und Wissenschaftsverständnis Fachmethodisches Wissen Kohorte 1 (8 Aufgaben) Wissenschaftsverständnis Kohorte 1 (CAEB-Instrument) r = - 0,072 p = 0,299 / N = 106 Fachmethodisches Wissen Kohorte 2 (12 Aufgaben) Korrelationen getestet mittels Kendall-Tau-b-Test und Wissenschaftsverständnis Kohorte 2 (NOS-Fragebogen mit 10 Skalen) r = 0,112 p = 0,062 / N = 147 * für p<0,05 ** für p<0,01 103

110 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Darstellung der Ergebnisse zu den Korrelationen zwischen fachmethodischem Wissen, Wissenschaftsverständnis und verschiedenen Personen- und Kontextvariablen Tab stellt die Ergebnisse der Korrelationsanalysen zu den als mögliche Einflussfaktoren auf die diagnostische Kompetenz erachteten Variablen Geschlecht, Alter, Abiturnote, Lehramtsform, Fächerkombination dar. Darüber hinaus wurde der Zusammenhang zwischen den Selbsteinschätzungen und dem fachmethodischen Wissen bzw. dem Wissenschaftsverständnis untersucht. Tab. 5.13: Korrelationen zwischen fachmethodischem Wissen, Wissenschaftsverständnis und verschiedenen Personen- und Kontextvariablen Geschlecht Lehramtsform (nur H/R und Gym) Abiturnote Alter Selbsteinschätzungen zum diagnost. Wissen Fachmethodisches Wissen Wissenschaftsverständnis Kohorte 1 Kohorte 2 Kohorte 1 Kohorte 2 r,170 *,020 -,047,054 Sign. (2-seitig),040,783,559,420 N r,023,125 -,134,159 * Sign. (2-seitig),796,098,115,020 N r -,220 ** -,178 ** -,136 * -,105 Sign. (2-seitig),002,006,049,073 N r,108 -,106,033,030 Sign. (2-seitig),163,107,665,622 N r -,064,090 Sign. (2-seitig),340,143 N r,090 -,022,107,023 Nawi-Fächer (1 Fach vs. 2 Fächer) Sign. (2-seitig),300,759,203,730 N Korrelationen getestet mittels Kendall-Tau-b-Test und * für p<0,05 ** für p<0,01 H/ R = angehende Haupt- und Realschullehrkräfte; Gym = angehende Gymnasiallehrkräfte Diskussion der Ergebnisse aus den Korrelationsanalysen Aus Tab wird ersichtlich, dass bei beiden Kohorten keine signifikanten Korrelationen zwischen den Ergebnissen zum fachmethodischen Wissen der Studierenden und ihrem Wissenschaftsverständnis vorliegen. Ein zumindest tendenzieller Zusammenhang zeigt sich allerdings bei den Studierenden von Kohorte 2: Hier liegt der Signifikanzwert mit p = 0,062 nur knapp oberhalb der Signifikanzgrenze. In Bezug auf die Korrelationsanalysen zwischen dem Wissenschaftsverständnis der Studierenden bzw. ihrem fachmethodischem Wissen auf der einen Seite und den Personen- und Kontextvariablen auf der anderen Seite konnten folgende Zusammenhänge gefunden werden: a) Zusammenhänge zwischen fachmethodischem Wissen und den Personen- und Kontextvariablen - Bei den Studierenden von Kohorte 1 zeigt sich ein Zusammenhang mit dem Geschlecht: Hier haben die männlichen Studierenden signifikant bessere Leistungen im fachmethodischen Test gezeigt als die weiblichen. Bei Kohorte 2 ist kein Zusammenhang mit dem Geschlecht nachweisbar. 104

111 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis - Ein sehr eindeutiger Zusammenhang zeigt sich bei der Abiturnote. Die Korrelationsanalysen weisen für beide Kohorten hoch signifikante Zusammenhänge aus. Dies bedeutet, dass für beide Kohorten gilt, dass je besser der von den Studierenden erzielte Abiturdurchschnitt war, desto höher war ihr fachmethodisches Wissen. - Nur tendenziell, aber nicht signifikant vorhanden ist ein Zusammenhang zwischen dem fachmethodischen Wissen der Studierenden von Kohorte 2 und der von ihnen gewählten Lehramtsform: Die angehenden Gymnasiallehrkräfte zeigten tendenziell die besseren Leistungen im fachmethodischen Wissenstest. b) Zusammenhänge zwischen Wissenschaftsverständnis und den Personen- und Kontextvariablen: - Bei den Studierenden von Kohorte 2 zeigt sich ein Zusammenhang zwischen der von ihnen gewählten Lehramtsform und ihrem Wissenschaftsverständnis in der Weise, dass die angehenden Gymnasiallehrkräfte im Test ein signifikant weiter fortgeschrittenes Verständnis im Bereich Nature of Science gezeigt hatten als die angehenden Haupt- und Realschullehrkräfte. Bei Kohorte 1 zeigt sich dieser Zusammenhang nicht. - Für das Wissenschaftsverständnis zeigt sich bei den Studierenden beider Kohorten ein signifikanter bzw. hoch signifikanter Zusammenhang mit der Abiturnote: Je besser die Abiturnote, desto besser das Wissenschaftsverständnis. Zusammenfassend kann festgehalten werden, dass von allen untersuchten Variablen die Abiturnote am ausgeprägtesten mit dem fachmethodischen Wissen und dem Wissenschaftsverständnis in Zusammenhang steht. In Bezug auf die oben angesprochenen Wirkungsketten wäre dies zu berücksichtigen für eine möglicherweise vorhandene Wirkungskette gute Abiturleistung hohes fachmethodisches Wissen gute diagnostische Kompetenz im Bereich Erkenntnisgewinnung und auch für die Wirkungskette gute Abiturleistung ausgereiftes Wissenschaftsverständnis gute diagnostische Kompetenz im Bereich der Erkenntnisgewinnung. Die Untersuchungen der diagnostischen Kompetenz in den Erhebungen 2 und 3 sollen hier weitere Erkenntnisse liefern Selbsteinschätzungen der Studierenden zu ihrem Professionswissen Eine Abfrage der Selbsteinschätzungen erfolgte bei Erhebung 1 nur bei den Studierenden von Kohorte 2. Die hier erstmalig erhobenen Selbsteinschätzungen sollten den Startpunkt liefern für Untersuchungen über den Verlauf und die Ausprägung der Einschätzung der Studierenden über ihr diagnostisches Wissen (Forschungsfrage 5). Ergebnisdarstellung der Selbsteinschätzungen zum Zeitpunkt der ersten Erhebung Die folgende Tabelle 5.14 präsentiert die Ergebnisse der Selbsteinschätzungen der Studierenden zu ihrem Professionswissen bzw. ihrer diagnostischen Kompetenz. 105

112 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Tab. 5.14: Selbsteinschätzung der Studierenden zu ihrem Professionswissen und ihrem diagnostischen Wissen 6 (Kohorte 2); (Ratingstufen: 1 = sehr niedrig bis 5 = sehr hoch) Selbsteinschätzung der eigenen Kenntnisse und Fähigkeiten bezüglich N Mittelwert Kohorte 2 (1. Fachsem.) SD FW FDW PW DW Fachwissen (FW) 151 3,04 0,71 / ** p=0,001 n.s. p=0,057 ** p=0,000 Fachdidaktisches Wissen (FDW) 152 2,71 0,82 / n.s. n.s. Pädagogisches Wissen (PW) 148 2,86 0,89 / n.s. Diagnostisches Wissen (DW) Schülerleistungen beurteilen 152 2,66 0,92 / Legende: Signifikanzen ermittelt mit dem Vorzeichen-Test und * p<0,05 ; ** p<0,01 Diskussion der Ergebnisse zu den Selbsteinschätzungen Bei Betrachtung der Werte von Tab fällt auf, dass die Studierenden von Kohorte 2 ihr Fachwissen zu Beginn ihres Studiums mit einem Mittelwert von 3,04 signifikant höher einschätzen als ihr fachdidaktisches Wissen und ihr diagnostisches Wissen. Das Fachwissen wird auch höher eingeschätzt als das pädagogische Wissen, wobei der Mittelwertunterschied mit p = 0,057 nur knapp oberhalb der Signifikanzgrenze ist. Weiterhin fällt auf, dass von allen abgefragten Aspekten die Selbsteinschätzungen zur diagnostischen Kompetenz mit MW = 2,66 den niedrigsten Wert aufweist (Tab. 5.14). Da in der zugrunde gelegten Ratingskala der Wert 3 den mittleren Wert der Skala darstellt, schätzen die Studierenden somit nur ihr Fachwissen als auf einem mittleren Level liegend ein. Alle anderen abgefragten Bereiche werden als darunterliegend beurteilt. Die genannten Befunde könnten dahingehend interpretiert werden, dass sich die Studierenden zu Beginn ihres Studiums nur in Bezug auf ihr Fachwissen einigermaßen vorgebildet fühlen. Ihre Selbsteinschätzungen zu allen anderen Aspekten stufen sie deutlich niedriger, nämlich schlechter als mittel ein. Betrachtet man die Korrelationen der Selbsteinschätzungen untereinander, so zeigt sich ein weiterer auffälliger Befund: Die Werte für das FDW, das PW und das DW korrelieren alle drei hoch signifikant miteinander. Die damit verbundenen drei Wissensbereiche werden also von den Studierenden in ähnlicher Weise verstanden (Tab. 5.15). Dagegen korrelieren die Werte für das FW nicht mit denjenigen der anderen drei Bereiche. Dieses Ergebnis legt nahe, dass die Studierenden zu Beginn ihres Studiums noch über keine konkrete Vorstellung verfügen, was die Begriffe Fachdidaktisches Wissen, Pädagogisches Wissen und Diagnostisches Wissen beinhalten und in welcher Weise sie sich unterscheiden. Nur zum Fachwissen haben sie ein gesondertes Verständnis und schätzen dementsprechend ihre Fähigkeiten und Kenntnisse für diesen Aspekt signifikant anders ein. 6 Das diagnostische Wissen ist entsprechend der in dieser Arbeit vorgenommenen Konzeptualisierung von diagnostischer Kompetenz als Teil des Professionswissens anzusehen. Im Fragebogen wird es trotzdem gesondert abgefragt, um eine explizite Einschätzung der Studierenden hierzu zu erhalten. 106

113 5 Bedingungsfaktoren diagnostischer Kompetenz: Fachmethodisches Wissen und Wissenschaftsverständnis Tab. 5.15: Korrelationen zwischen den Werten zu den Selbsteinschätzungen (Kohorte 2, N = 153) Selbsteinschätzung der eigenen Kenntnisse und Fähigkeiten bezüglich FW FDW PW DW Fachwissen (FW) / r = 0,05 (p=0,524) r = 0,01 (p=0,925) r = -0,04 (p=0,553) Fachdidaktisches Wissen (FDW) / r = 0,28** (p=0,000) r = 0,23** (p=0,001) Pädagogisches Wissen (PW) / Diagnostisches Wissen (DW) Schülerleistungen beurteilen r = 0,30** (p=0,000) / Legende: Korrelationen ermittelt mit dem Kendall-Tau-b Test und * p<0,05 ; ** p<0,01 107

114 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Die Untersuchungen zum zweiten Erhebungszeitpunkt dienten schwerpunktmäßig dem Erfassen der statusdiagnostischen Kompetenzen der Studierenden für das Erkennen von unterschiedlichen Leistungsniveaus bei Schülerlösungen aus dem Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Abb. 6.1 zeigt das Untersuchungsdesign der vorliegenden Arbeit. Die in diesem Kapitel vorgestellten Untersuchungen zum zweiten Erhebungszeitpunkt sind optisch hervorgehoben. Kohorten und Erhebungs- zeitpunkte Kohorte 1 N=95 10/ / / / Sem 2. Sem Kohorte 2 N= Sem 4. Sem 5. Sem 6. Sem 1. Sem 2. Sem 7. Sem 3. Sem 4. Sem 5. Sem 1. Erhebung 2. Erhebung 3. Erhebung 1. MC Test im Bereich Erkenntnisgewinnung 1. Kompetenztest für Statusdiagnostik 1. Kombinierter Kompetenztest für Status- und Prozessdiagnostik Eingesetzte Instrumente 2. Fragebogen im Bereich Nature of Science 3. Fragebogen zu Personen- und Kontextvariablen und Selbsteinschätzungen 2. Fragebogen zu Personen- und Kontextvariablen und Selbsteinschätzungen 2. Fragebogen zu Personen- und Kontextvariablen und Selbsteinschätzungen Untersuchungs- ziele Erfassen 1. des fachmethodischen Wissens der Studierenden 2. des Wissenschaftsverständnisses der Studierenden 3. von Personen- und Kontextvariablen und den Selbsteinschätzungen der Studierenden zu ihrem Professionswissen Untersuchen von Zusammenhängen Erfassen 1. der statusdiagnostischen Kompetenz der Studierenden für das Beurteilen von Schüler - leistungsniveaus im Bereich Erkenntnisgewinnung 2. von Personen- und Kontextvariablen und den Selbsteinschätzungen der Studierenden zu ihrem Professionswissen Untersuchen von Zusammenhängen Erfassen 1. der statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schüler- Experimentierprozesses 2. von Personen- und Kontextvariablen und den Selbsteinschätzungen der Studierenden zu ihrem Professionswissen Untersuchen von Zusammenhängen Abb. 6.1: Untersuchungsdesign zur Arbeit (Die Untersuchungen zum Erhebungszeitpunkt 2 sind optisch hervorgehoben) Wie Abb. 6.1 zu entnehmen ist, wurden an Erhebung 2 N = 95 Studierende aus Kohorte 1 erfasst. Diese befanden sich zum Zeitpunkt der Testung im 4. Fachsemester. Aus Kohorte 2 wurden N = 121 Probanden aus dem 3. Fachsemester erfasst.

115 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus 6.1 Zielsetzungen und Fragestellungen zur zweiten Erhebung Die vorrangige Zielsetzung der Untersuchungen an Erhebung 2 bestand darin, die statusdiagnostischen Kompetenzen die Studierenden für das Beurteilen von Schülerleistungsniveaus und von Aufgabenschwierigkeiten im Bereich der naturwissenschaftlichen Erkenntnisgewinnung zu untersuchen (Forschungsfrage 2). Da hierfür geeignete Testinstrumente in der Literatur nicht veröffentlicht waren, mussten diese im Vorfeld neu entwickelt werden. Der Passung und Eignung der Instrumente ist aus diesem Grunde eine eigene Forschungsfrage gewidmet (Forschungsfrage 1). Neben der (objektiven) Erfassung der diagnostischen Kompetenz mit Hilfe der Messinstrumente sollten auch die subjektiven Selbsteinschätzungen der Studierenden hinsichtlich ihrer eigenen diagnostischen Kompetenz erhoben werden (Forschungsfrage 5). Eine weitere Zielsetzung bestand in der Untersuchung von möglichen Zusammenhängen zwischen den an Erhebung 2 gewonnenen Daten zu den statusdiagnostischen Kompetenzen der Studierenden auf der einen Seite und den Daten zu ihren fachmethodischen Vorkenntnissen und ihrem Wissenschaftsverständnis auf der anderen Seite (Forschungsfragen 3a und 3b). Ein solcher Zusammenhang wird in dem dieser Arbeit zugrunde gelegten Strukturmodell zur diagnostischen Kompetenz postuliert: Demnach stellen ein angemessenes Wissenschaftsverständnis auf Seiten der Studierenden und befriedigende fachmethodische Kenntnisse zentrale Voraussetzungen für die Ausbildung einer geeigneten diagnostischen Kompetenz im Bereich Erkenntnisgewinnung dar (vgl. Kapitel 2). Eine dritte Zielsetzung bestand darin zu untersuchen, ob und inwieweit Personen- und Kontextvariablen wie Geschlecht, gewähltes Lehramt und Abiturnote in Zusammenhang stehen mit der Ausprägung der untersuchten diagnostischen Kompetenz (Forschungsfrage 4). In einer letzten Zielsetzung ging es um Veränderungen bei den Selbsteinschätzungen der Studierenden zu ihrer professionellen Kompetenz, insbesondere zu ihrer diagnostischen Kompetenz (Forschungsfrage 5). Hierbei interessierten nicht nur die Veränderungen als solche, sondern auch ob die Selbsteinschätzungen in Zusammenhang stehen mit den im Rahmen der zweiten Erhebung gemessenen Ausprägungen der statusdiagnostischen Kompetenz für das Beurteilen von Schülerleistungsniveaus im Bereich Erkenntnisgewinnung. 6.2 Darstellung und Diskussion der Ergebnisse Nachfolgend werden die an Erhebung 2 gewonnenen Ergebnisdaten präsentiert, gegliedert in entsprechende Unterkapitel. Für das neu entwickelte Instrument zum Erfassen der statusdiagnostischen Kompetenzen der Studierenden werden zusätzlich die Gütekriterien vorgestellt. Zusätzlich zur Darstellung der Niveaubeurteilungen, den Einschätzungen zu den Aufgabenschwierigkeiten und den berechneten Werten zur statusdiagnostischen Kompetenz finden 109

116 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus sich weitere statistische Auswertungen, wie Korrelationsanalysen und die Betrachtung von Mittelwertunterschieden. Den Abschluss in jedem Unterkapitel bildet die Diskussion der Ergebnisse Fähigkeit zum Einschätzen der Aufgabenschwierigkeiten Zur Untersuchung der Kompetenz der Studierenden, Aufgabenschwierigkeiten aus dem Bereich der Erkenntnisgewinnung einschätzen zu können, wurden die diesbezüglichen Einschätzungen der Studierenden verglichen mit den in der BiK-Studie empirisch ermittelten Schwierigkeiten der Schüleraufgaben. Die folgende Tab. 6.1 zeigt die im Rahmen der BiK-Studie ermittelten Aufgabenschwierigkeiten. Zur Erläuterung der Bedeutung der threshold-werte sei auf Kapitel verwiesen. Tab. 6.1: Aus der BiK-Studie ermittelte Aufgabenschwierigkeiten Name der Aufgabe Threshold-Werte Aufgabenschwierigkeit (in den Kategorien leicht/mittel/schwer) H_Spechte (Niveau 3 wurde nicht erreicht) also: schwer F_Topfgröße 1.85 schwer H_Gewürze 1.27 schwer F_Spechte 1.20 schwer P_Flamingos 0.50 mittel P_ Topfgröße 0.37 mittel D_Flamingos 0.28 mittel D_Spechte -0,34 mittel Legende: H=Hypothesenbildung; F=Fragestellung; P=Planen einer Untersuchung; D=Datenanalyse und Schlussfolgerung; BiK=Biologie im Kontext (für Informationen zur BiK-Studie siehe Kapitel 4.4.1) Tab. 6.1 ist zu entnehmen, dass die Aufgabe H_Spechte in der BiK-Studie von keinem Schüler der 7. Jahrgangsstufe auf Niveau 3 oder höher gelöst wurde. Sie konnte damit als schwer gelten. In Abb. 6.2, welche die Werte von Tab. 6.1 graphisch veranschaulicht, ist dies durch den Pfeil symbolisiert. Abb. 6.2: Empirisch ermittelte Aufgabenschwierigkeiten 110

117 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Die Auswahl der Schüleraufgaben für das Instrument zum Erfassen der statusdiagnostischen Kompetenzen der Studierenden erfolgte vorrangig in Bezug auf die zu den einzelnen Schüleraufgaben verfügbaren Schülerantworten. Diese sollten typisch und eindeutig für die verschiedenen Leistungsniveaus sein. Die Berechnung der Aufgabenschwierigkeiten geschah erst im Nachgang zur Auswahl der Schüleraufgaben, weshalb eine gleichmäßige Verteilung der Aufgabenschwierigkeiten über die drei Stufen leicht, mittel und schwer nicht realisiert werden konnte. Vier der acht ausgewählten Aufgaben stellen sich bei der nachgeschalteten Berechnung der threshold-werte als schwer heraus und vier als mittelschwer. Keine der ausgewählten Aufgaben war für Schüler der 7. Jahrgangsstufe im BiK-Test leicht gewesen. Darstellung der Studierenden-Einschätzungen zu den Aufgabenschwierigkeiten Für die Einschätzungen der Studierenden bezüglich der Aufgabenschwierigkeiten ergaben sich die in den beiden folgenden Tabellen angegebenen Werte. Wie im Methodenteil beschrieben, hatte jeder der Probanden im Test zwei (der insgesamt vier) Testhefte zu bearbeiten. Von Kohorte 1 nahmen N = 95 Studierende an der Testung teil, von Kohorte 2 N = 121. Die genaue Probandenanzahl für jede Aufgabe wird in den Tabellen in der Spalte N angegeben. Tab. 6.2: Einschätzungen der Aufgabenschwierigkeiten (Kohorte 1 mit N = 95 Studierenden) Aufgabe N Threshold- Wert Anzahl Einschätzung "leicht" Anzahl Einschätzung "mittel" Anzahl Einschätzung "schwer" H_Spechte 46 2 schwer F_Topfgröße 48 1,85 schwer H_Gewürze 47 1,27 schwer F_Spechte 47 1,20 schwer P_Flamingos 50 0,50 mittel P_Topfgröße 49 0,37 mittel D_Flamingos 45 0,28 mittel D_Spechte 45-0,34 mittel Legende: H=Hypothesenbildung; F=Fragestellung; P=Planen einer Untersuchung; D=Datenanalyse und -interpretation Tab. 6.3: Einschätzungen der Aufgabenschwierigkeiten (Kohorte 2 mit N = 121 Studierenden) Aufgabe N Schwierigkeitsstufe Threshold- Wert Schwierigkeitsstufe Anzahl Einschätzung "leicht" Anzahl Einschätzung "mittel" Anzahl Einschätzung "schwer" H_Spechte 57 2 schwer F_Topfgröße 66 1,85 schwer H_Gewürze 56 1,27 schwer F_Spechte 68 1,20 schwer P_Flamingos 57 0,50 mittel P_Topfgröße 59 0,37 mittel D_Flamingos 60 0,28 mittel D_Spechte 60-0,34 mittel Legende: H=Hypothesenbildung; F=Fragestellung; P=Planen einer Untersuchung; D=Datenanalyse und -interpretation 111

118 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Die beiden folgenden Abbildungen veranschaulichen die in den Tabellen aufgelisteten Werte graphisch. Die Reihenfolge der Aufgaben in den Abbildungen 6.3 und 6.4 ist die gleiche wie in der jeweils zugehörigen Tabelle. Kohorte 1 Legende: H=Hypothesenbildung; F=Fragestellung; P=Planen einer Untersuchung; D=Datenanalyse und -interpretation Abb. 6.3: Einschätzungen der Aufgabenschwierigkeiten durch die Studierenden von Kohorte 1 Kohorte 2 Legende: H=Hypothesenbildung; F=Fragestellung; P=Planen einer Untersuchung; D=Datenanalyse und -interpretation Abb. 6.4: Einschätzungen der Aufgabenschwierigkeiten der Studierenden von Kohorte 2 Diskussion der Ergebnisse Den beiden Abbildungen ist zu entnehmen, dass die Studierenden beider Kohorten die Aufgabenschwierigkeiten überwiegend als mittel eingeschätzt hatten. Von dieser Einschätzung ausgenommen war nur die Aufgabe H_Gewürze, die von der Mehrzahl der Studierenden als schwer eingeschätzt wurde. Der Grund hierfür ist möglicherweise darin zu sehen, dass in dieser speziellen Aufgabe Wachstumsraten von Bakterienkulturen miteinander zu vergleichen gewesen waren und im Zuge dessen die lateinischen Namen der Bakterienstämme genannt wurden. Von der Nennung der lateinischen Namen haben die Studierenden möglicherweise auf eine erhöhte Schwierigkeit für die Schüler geschlossen. Zumindest stellt die Tatsache, dass diese Aufgabe bei beiden Kohorten die einzige gewesen war, die überwiegend als schwer eingestuft wurde, einen auffälligen Befund dar. 112

119 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Vergleicht man die Einschätzung der Studierenden mit den empirisch ermittelten Aufgabenschwierigkeiten, so zeigt sich, dass die Studierenden-Einschätzungen zwar für die Aufgaben der Teilbereiche Planen einer Untersuchung und Datenanalyse und interpretation und die Aufgabe H_Gewürze mit den empirisch ermittelten Kategorien übereinstimmen. Allerdings zeigen die empirisch ermittelten Aufgabenschwierigkeiten (ausgedrückt über die threshold-werte) hinsichtlich ihrer Reihenfolge nur wenig Übereinstimmung mit den von den Studierenden abgegebenen Einschätzungen: Die Tendenz, dass mit steigender Höhe des threshold Wertes (d. h. je schwieriger die Aufgabe im empirischen Test war) auch ein steigendes Ausmaß an Einschätzungen für die Kategorie schwer einhergeht, findet sich im Antwortmuster der Studierenden nicht wieder. Umgekehrt ist auch keine Tendenz erkennbar, dass je leichter sich eine Aufgabe in der empirischen Studie erwies, sich dies als steigende Tendenz in der Zuweisung der Kategorie leicht widerspiegelt. Stattdessen legen die Daten die Vermutung nahe, dass sich die Studierenden grundsätzlich bei den meisten Aufgaben für die Kategorie mittel entschieden haben, und dies für einige der Aufgaben nur zufällig auch zutreffend war. Offensichtlich waren die Studierenden zumindest ohne Angabe von konkreten schwierigkeitserzeugenden Merkmalen, nach denen sie die Aufgabenschwierigkeit hätten beurteilen können nicht in der Lage, eine angemessene Einschätzung darüber vorzunehmen, wie schwer oder leicht eine Aufgabe ist. Andere Studien bestätigen diese mangelnde Fähigkeit von Lehrkräften, Aufgabenschwierigkeiten korrekt einschätzen zu können (u. a. Impara & Plake, 1998; Lintorf et al., 2011; McElvany et al., 2009; Thonhauser, Buschmann & Schmich, 2003). Beispielsweise belegt die Studie von Lintorf und Mitarbeitern (2011), die sich mit der Reliabilität verschiedener Urteilsmaße bei der Einschätzung von Aufgabenschwierigkeiten beschäftigt, für alle zwölf im Test eingesetzten Aufgaben (Items) eine tendenzielle Überschätzung der von den Lehrkräften angenommenen Lösungsquotienten. Die Studie von Shepard (1994) weist dagegen eine systematische Fehleinschätzung nach in der Weise, dass die Probanden die Lösungswahrscheinlichkeit für schwere Items in der Regel überschätzten und für leichte Items unterschätzten. Für die Lehramtsausbildung wird aus dem in dieser Arbeit ermittelten Befund das Fazit gezogen, dass das Einschätzen von Aufgabenschwierigkeiten im Studium häufiger geübt werden sollte. Die Zuhilfenahme von konkret zu benennenden schwierigkeitserzeugenden Merkmalen scheint in diesem Zusammenhang sinnvoll, da Aufgabenschwierigkeiten ein komplexes Konstrukt darstellen, welche aus einer Vielzahl von lernrelevanten Faktoren/Merkmalen bestehen, und darüber hinaus fachspezifisch sind (Astleitner, 2008) Fähigkeit zum Beurteilen der Schülerleistungsniveaus In diesem Kapitel werden die von den Studierenden abgegebenen Niveaubeurteilungen zu den Schülerantworten in einer deskriptiven Form vorgestellt und anschließend diskutiert. In den anschließenden Kapiteln folgt die Darstellung und Diskussion der mit Hilfe der Item Response Theory 113

120 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus (IRT) bzw. der Klassischen Test Theorie (KTT) berechneten Werte zu den statusdiagnostischen Kompetenzen der Studierenden bezüglich ihrer Fähigkeit für das Beurteilen der Schülerleistungsniveaus. Detaillierte Ausführungen zu den beiden Auswerteverfahren nach der IRT und der KTT finden sich im Methodenteil in Kapitel 4.4. a) Darstellung der Ergebnisse zu den Niveaubeurteilungen bezogen auf den Gesamtbereich Scientific Reasoning Wie im Methodenteil (Kapitel 4.4) beschrieben, hatte jeder der Probanden zwei Testhefte zu bearbeiten, in denen jeweils 16 Schülerantworten zu beurteilen waren (vier zu jedem der vier möglichen Leistungsniveaus). Für die Studierenden der beiden Kohorten wurden die in den folgenden Tabellen und Abbildungen angegebenen Niveauzuweisungen ermittelt. Dabei zeigen die Tabellen und Abbildungen die prozentualen Anteile der jeweiligen Niveaueinschätzungen (vgl. Kapitel 4.4.5), weshalb eine Standardabweichung entfällt. Ergänzt wird die Tabelle durch die Angabe, welche der Beurteilungen jeweils die korrekte Niveaueinschätzung darstellt. Tab. 6.5: Niveaubeurteilungen der Studierenden von Kohorte 1 (N = 95 Probanden) Niveau der Schülerantwort Anzahl der abgegebenen Niveaubeurteilungen korrekte Niveaubeurteilungen [in %] Beurteilungen als N1 [in %] Beurteilungen als N2 [in %] Beurteilungen als N3 [in %] Beurteilungen als N4 [in %] N ,6 75,6 20,4 3,5 0,5 N ,0 26,3 61,0 10,4 2,3 N ,9 3,0 41,6 48,9 6,6 N ,1 2,6 24,6 40,8 32,1 alle vier Niveaus ,3 26,8 36,9 25,9 10,4 Die Anzahl der abgegebenen Niveaubeurteilungen für die einzelnen Niveaus berechnet sich nach folgender Formel: Anzahl der Probanden x Anzahl der bearbeiteten Testhefte x Anzahl der im Testheft vorhandenen Schülerantworten pro Niveau Tab. 6.6: Niveaubeurteilungen der Studierenden, Kohorte 2 (N=121 Probanden) Niveau der Schülerantwort Anzahl der abgegebenen Niveaubeurteilungen korrekte Niveaubeurteilungen [in %] Beurteilungen als N1 [in %] Beurteilungen als N2 [in %] Beurteilungen als N3 [in %] Beurteilungen als N4 [in %] N ,9 75,9 19,8 3,5 0,8 N ,7 27,9 55,7 13,4 2,9 N ,2 6,0 36,7 48,2 9,1 N ,7 3,4 19,0 44,9 32,7 alle vier Niveaus ,5 28,3 32,8 27,5 11,4 Die Anzahl der abgegebenen Niveaubeurteilungen für die einzelnen Niveaus berechnet sich nach folgender Formel: Anzahl der Probanden x Anzahl der bearbeiteten Testhefte x Anzahl der im Testheft vorhandenen Schülerantworten pro Niveau 114

121 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Abb. 6.5: Niveaubeurteilungen der Probanden aus Kohorte 1 Abb. 6.6: Niveaubeurteilungen der Studierenden von Kohorte 2 115

122 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Diskussion der Niveaubeurteilungen im Gesamtbereich Scientific Reasoning Bei beiden Kohorten zeigt sich der gleiche Trend: Die Schülerlösungen auf niedrigen Niveaus werden besser erkannt als diejenigen auf hohen Niveaus. Dieser Trend erweist sich in beiden Kohorten und für alle Niveaus signifikant (nach dem Man-Whitney-U-Test und p < 0,05). Eine solche Untersuchung findet bislang in der Forschungsliteratur keine Entsprechung, weshalb der genannte Befund als neu zu betrachten ist. In Bezug auf die Interpretation des oben genannten Trends sollen nun an dieser Stelle drei verschiedene Vermutungen (H 1 bis H 3) aufgestellt und diskutiert werden: Da der Erwartungshorizont, nach welchem die Studierenden die Schülerantworten zu analysieren und das Leistungsniveau zu beurteilen hatten, aufeinander aufbauend gestaltet ist, enthält er von Niveaustufe zu Niveaustufe mehr für den Bereich der naturwissenschaftlichen Erkenntnisgewinnung typische Kriterien. Das Verständnis dieser Kriterien und der damit verbundenen fachmethodischen Begrifflichkeiten stellt unabhängig von der eigentlichen diagnostischen Leistung eine mögliche Schwierigkeit dar, die aber Voraussetzung für die eigentliche diagnostische Tätigkeit ist. H 1: Die Studierenden haben Schwierigkeiten mit dem Verständnis der im Erwartungshorizont genannten Begriffe im Kontext von Scientific Inquiry und waren dementsprechend nicht in der Lage, sich ein Urteil darüber zu bilden, ob die darauf bezogenen Kriterien in der Schülerantwort erfüllt sind oder nicht. Da mit steigender Niveaustufe mehr Kriterien vorhanden sind, für die ein Verständnis vorhanden sein muss, steigt die diagnostische Schwierigkeit für die Studierenden von Niveaustufe zu Niveaustufe. Schon während der Testung gab es Hinweise, die das Zutreffen von H 1 untermauern: Etliche der Studierenden hatten während den Erhebungen Fragen zu den Begriffen und Kriterien der höheren Niveaus. Zum Beispiel tauchte immer wieder die Frage auf, was denn der Begriff Quantifizierung und der Begriff Generalisierung im Zusammenhang mit Erkenntnisgewinnung zu bedeuten habe. Das Analysieren einer Schülerantwort und das Erkennen, ob eine im Erwartungshorizont genanntes Kriterium im Zusammenhang mit Scientific Reasoning in der Schülerantwort erfüllt ist oder nicht, stellt die über das grundsätzliche Verständnis der Begrifflichkeiten hinausgehende eigentliche Diagnoseleistung dar. Hierbei gilt: Je mehr Kriterien in einer Schülerantwort zu erkennen und zu überprüfen sind, desto schwieriger ist die damit verbundene Diagnoseleistung. Auch hier könnte ein Erklärungsansatz liegen, warum die Schülerantworten der hohen Niveaus schlechter erkannt wurden. Möglicherweise führt auch das sprachliche Ausdruckvermögen der Schüler dazu, dass die Studierenden fachmethodisch korrekten, aber sprachlich eher einfachen oder umständlichen Antworten eine niedrigere Niveaustufe zuweisen. 116

123 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus H 2: Die Studierenden haben Schwierigkeiten zu erkennen, ob die im Erwartungshorizont genannten Kriterien in der Schülerantwort erfüllt sind. Je mehr Kriterien in der Schülerantwort zu erkennen und hinsichtlich der zugehörigen Niveaustufe einzuschätzen waren, desto schwieriger war es für die Studierenden, die Schülerantwort korrekt zu beurteilen. Eine weitere Erklärung für den Befund, dass höhere Niveaus schlechter erkannt werden, könnte in der grundsätzlichen Tendenz der Studierenden liegen, zu streng zu bewerten. Zumindest könnte dieser Erklärungsansatz mit dazu beigetragen haben, dass die hohen Niveaus schlechter erkannt werden. H 3: Die Studierenden haben die Tendenz, zu streng zu bewerten. Alle diese Erklärungsansätze stellen Vermutungen dar, die durch weitere Untersuchungen zu überprüfen waren. Im Rahmen dieser Arbeit erfolgte dies durch die in den Kapiteln und beschriebene Videoanalyse. Hierfür wurden acht (freiwillig) ausgewählte Studierende beim Bearbeiten der Testhefte gefilmt und ihre laut geäußerten Begründungen für ihre Niveauzuweisungen aufgezeichnet und analysiert. Dies geschah ganz explizit auch im Hinblick auf die oben genannten Vermutungen. b) Ergebnisse zu den Niveaubeurteilungen, getrennt für die vier Teilbereiche von Scientific Reasoning Abb. 6.7 veranschaulicht die von den Studierenden beider Kohorten abgegebenen Niveaueinschätzungen für jede der vier Teilbereiche von Scientific Reasoning. Kohorte 1 Kohorte 2 117

124 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Abb. 6.7: Niveaueinschätzungen der Studierenden, getrennt nach den vier Teilbereichen von Scientific Reasoning Diskussion der Niveaubeurteilungen für die einzelnen Teilbereiche Auch für jede einzelne der vier Teilbereiche von Scientific Reasoning zeigt sich, dass die Studierenden das Leistungsniveau der Schülerantwort umso leichter erkennen konnten, je niedriger es war. Umgekehrt fiel es den Studierenden umso schwerer, das korrekte Niveau der Schülerantworten zu bestimmen, je höher das vorgegebene Leistungsniveau war. Dies galt wieder für beide Kohorten in gleichem Maße. 118

125 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Dass der genannte Befund nicht nur in der alle vier Teilbereiche zusammenfassenden Tendenz festzustellen ist, sondern sich auch in jedem einzelnen Teilbereich wiederfindet, spricht dafür, dass die gefundene Tendenz nicht Ausdruck einer spezifischen Anforderung eines bestimmten Teilbereiches von Scientific Reasoning ist, sondern dass hierfür andere Gründe relevant sind. Die im vorigen Abschnitt genannten Vermutungen (H 1 bis H 3) stellen mögliche Teilbereichs-unabhängigen Begründungen dar Berechnungen zur statusdiagnostischen Kompetenz Aus den im Methodenteil genannten Gründen und entsprechend der dort beschriebenen Vorgehensweise (siehe Kapitel 4.4) wurden die Werte zu den statusdiagnostischen Kompetenzen der Studierenden in Bezug auf ihre Fähigkeit zum Beurteilen der Schülerantworten nach zwei verschiedenen Verfahren ermittelt: der Klassischen Testtheorie (KTT) und der Item Response Theory (IRT). Grundlage für beide Berechnungsverfahren waren die nach richtig/falsch (bezogen auf die Referenzlösung) umcodierten Original-Niveauzuweisungen der Studierenden. In den nächsten drei Kapiteln werden folgende aus der Testung stammende Ergebnisse bzw. nachgeschaltete Berechnungen präsentiert und diskutiert, wobei jeweils die nach der IRT bzw. der KTT ermittelten Werte einander gegenüber gestellt werden: In Kapitel 6.2.4: Betrachtungen zur Leistungsverteilung der Studierenden bezüglich ihrer Fähigkeit für das Beurteilen der Schülerleistungsniveaus; In Kapitel 6.2.5: Berechnungen zur statusdiagnostischen Kompetenz der Studierenden bezüglich ihrer Fähigkeit zum Beurteilen der Schülerantworten, bezogen auf den Gesamtbereich Scientific Reasoning. In Kapitel 6.2.6: Dieses Kapitel widmet sich den spezifischen Unterschieden bei den Ergebnissen zur statusdiagnostischen Kompetenz innerhalb der einzelnen Teilkompetenzen Leistungsverteilung der Studierenden im Statusdiagnostik-Test Darstellung der Ergebnisse Für die Darstellung der Leistungsverteilungen der Studierenden beider Kohorten wurden die mittels IRT berechneten Mittelwerte aller Personenfähigkeitswerte bzw. die mittels KTT berechneten Mittelwerte aller individuellen Lösungsquotienten verwendet. Diese Werte stellen entsprechend der in dieser Arbeit vorgenommenen Operationalisierung die Werte zur diagnostischen Kompetenz der Studierenden für das Beurteilen der Schülerleistungsniveaus dar. Der Kolmogoroff-Smirnow-Test weist die nach IRT berechneten Leistungsverteilungen in beiden Kohorten noch als normalverteilt aus (wobei die Werte an der Grenze liegen). Die mittels KTT berechneten Werte aber weichen signifikant davon ab. 119

126 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Leistungsverteilung K1 Leistungsverteilung K2 IRT KTT Legende: IRT = Item Response Theory; KTT = Klassische Test Theorie Abb. 6.8: Leistungsverteilung der Studierenden für das Beurteilen der Schülerleistungsniveaus Diskussion der Ergebnisse zur Leistungsverteilung Die Studierenden aus beiden Kohorten zeigen große interindividuelle Unterschiede in Bezug auf ihre diagnostische Fähigkeit für das Beurteilen der Schülerleistungsniveaus. Dies zeigt sich nach beiden Auswerteverfahren in ähnlichem Maße. So variierten beispielsweise die von den Studierenden aus Kohorte 1 erreichten Anteile an gelösten Items (entsprechend dem Anteil an korrekten Niveauzuweisungen) von circa 25 % bis hin zu circa 75 %. Das Maximum in der Leistungsverteilung lag bei circa 50 % an korrekten Niveauzuweisungen. Die großen interindividuellen Unterschiede bei der diagnostischen Kompetenz bestätigen die diesbezüglichen Befunde auch vieler anderer Studien (Hoge und Coladarci, 1989; vgl. auch Kapitel 2.4). 120

127 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Statusdiagnostische Kompetenz im Bereich Scientific Reasoning A. Darstellung der Ergebnisse zur statusdiagnostischen Kompetenz (IRT) Das im Rahmen der Item Response Theory (IRT) zur Auswertung der Niveaubeurteilungen verwendete Programm Winsteps ordnet jedem Studierenden einen sogenannten Fähigkeitswert zu, der sich berechnet aus dem von dem Studierenden erreichten Score an richtigen Niveaueinschätzungen und den Itemschwierigkeiten der jeweilig bearbeiteten Items (den zu beurteilenden Schülerantworten). Im Sinne der in der vorliegenden Arbeit vorgenommenen Operationalisierung bildet der auf diese Weise berechnete Fähigkeitswert die statusdiagnostische Kompetenz des Studierenden ab in Bezug auf seine Fähigkeit zum Beurteilen der Schülerlösungen. Die von Winsteps erzeugten Fähigkeitswerte sind metrisch und können über SPSS zu weiteren Berechnungen verwendet werden (z. B. Mittelwertbildungen, Vergleich der Werte verschiedener Untergruppen, usw.). Für die Auswertung nach der IRT gilt: Je höher der von Winsteps berechnete Fähigkeitswert, desto höher ist die diagnostische Kompetenz des Studierenden zu bewerten. Über eine entsprechende Skalierung der Steuerdatei, mit Hilfe derer Winsteps die Berechnungen durchführt, bewegen sich die ausgegebenen Fähigkeitswerte in einem Bereich von 0 bis 100. Tab. 6.7 gibt die auf diese Weise ermittelten Werte zur statusdiagnostischen Kompetenz der Studierenden wieder. In der Tabelle angegeben sind die mittleren Fähigkeitswerte der Probanden beider untersuchter Studierendenjahrgänge, ergänzt durch die zugehörige Standardabweichung, den Median und die Anzahl der in der Testung erfassten Probanden. Tab. 6.7: Statusdiagnostische Kompetenz zum Beurteilen der Schülerlösungen, berechnet nach der IRT Statusdiagnostische Kompetenz (als Mittelwert der Personenfähigkeiten) Kohorte 1 Kohorte 2 50,68 51,55 N SD 4,8 4,8 Median 51,66 51,36 Legende: N = Anzahl der Probanden; SD = Standardabweichung; IRT = Item-Response-Theory Die Diskussion zur Bedeutung und Aussagekraft der in der Tabelle dargestellten Werte erfolgt im Zusammenhang mit den nachfolgend dargestellten Person-Item-Maps. Person-Items-Maps Im Rahmen der IRT bzw. der Rasch-Analysen ist es möglich, die Fähigkeitswerte der Studierenden in Kombination mit den Itemschwierigkeiten zu betrachten und beides auf der gleichen Skala abzubilden. Für diese sogenannten Wright maps steht zum einen die Option zur Verfügung, die Items (die zu beurteilenden Schülerantworten) einzeln aufzuführen und sie gegenüber den als Kreuze dargestellten Probanden abzutragen (Person-Item-Maps) und zum anderen gibt es die Möglichkeit, die Personen einzeln aufzuführen und sie gegenüber den als Kreuze dargestellten Items abzubilden (Item-Person- 121

128 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Map). Die beiden folgenden Abbildungen geben die Person-Items-Maps für die Untersuchungen zur statusdiagnostischen Kompetenz der Studierenden aus Kohorte 1 und Kohorte 2 wieder. TABLE 12.2 K1_MZP 2 INPUT: 95 PERSON 64 ITEM REPORTED: 95 PERSON 64 ITEM 2 CATS WINSTEPS <more> <rare> II_rf_A13_N4_ T 70 + II_rf_B17_N4_1 II_rf_C3_N4_2 II_rf_D13_N4_2 II_rf_B17_N4_2 II_rf_C3_N4_2 II_rf_D13_N4_1 II_rf_A8_N4_1 T S 60 X + II_rf_B13_N3_1 II_rf_C3_N2_2 XXX II_rf_A13_N3_2 II_rf_C3_N1_1 II_rf_C3_N1_2 II_rf_C3_N4_1 XXXXX II_rf_B17_N3_1 II_rf_C3_N3_2 XXXXX II_rf_C3_N2_1 XXXX S II_rf_A13_N4_2 XXXXXXXXXXX II_rf_A13_N3_1 II_rf_A8_N2_1 II_rf_B13_N4_1 II_rf_D13_N3_2 XXXXXXXXX II_rf_B13_N3_2 II_rf_B17_N2_2 XXXXXXXXXXXXX II_rf_A8_N3_1 II_rf_A8_N4_2 II_rf_B13_N4_2 II_rf_C3_N3_1 II_rf_D3_N3_2 50 XXXXXXX M + II_rf_C3_N4_1 XXXXXXXXXX M II_rf_A13_N1_2 II_rf_B13_N2_1 XX II_rf_A8_N1_2 II_rf_A8_N3_2 II_rf_C3_N3_1 II_rf_D3_N4_1 XXXXXXX II_rf_ A8_N1_1 II_rf_A13_N2_2 II_rf_B13_N1_1 II_rf_B13_N2_2 II_rf_C3_N2_1 II_rf_C3_N2_2 XXXXXXXX S II_rf_D3_N3_1 XX II_rf_B17_N3_2 II_rf_C3_N3_2 XXX II_rf_A8_N2_2 II_rf_B17_N2_1 II_rf_D13_N3_1 X II_rf_A13_N2_1 II_rf_D13_N2_2 T II_rf_D13_N2_1 II_rf_D3_N2_1 II_rf_D3_N4_2 40 X + X S II_rf_C3_N1_2 II_rf_A13_N1_1 II_rf_D3_N2_2 XX II_rf_B17_N1_2 II_rf_B17_N1_1 II_rf_D3_N1_1 II_rf_D3_N1_ T II_rf_B13_N1_2 II_rf_C3_N1_1 II_rf_D13_N1_ II_rf_D13_N1_1 <less> <frequ> Each X is one Person Abb. 6.9: Person-Item-Map zu Kohorte 1 (Erläuterungen befinden sich im Text) 122

129 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Die Kreuze auf der linken Seite der Abbildung symbolisieren die Probanden. Dabei steht jedes Kreuz für genau einen bestimmten Probanden. Rechts in der Abbildung sind die Items unter ihrer Kennnummer zu finden (z. B. das Item mit der Kennnummer II_rf_A13_N4_2). Befindet sich ein Kreuz auf der gleichen Höhe wie ein rechts daneben stehendes Item (die zu beurteilende Schülerantwort), so bedeutet dies, dass der durch das Kreuz vertretene Proband eine 50 % ige Wahrscheinlichkeit hat, dieses spezielle Items bzw. ein Item mit der entsprechenden Schwierigkeit zu lösen (d. h. die Schülerantwort korrekt zu beurteilen). Für alle Items, die leichter sind (die Items darunter), ist die Chance des betreffenden Probanden größer, das Item zu lösen, für alle schwereren Items (diejenigen, die darüber stehen), ist sie kleiner. Damit steht die Verteilung der Kreuze in vertikaler Richtung für die Verteilung der Personenfähigkeiten zur diagnostischen Kompetenz für das Beurteilen der Schülerleistungsniveaus. Die hierzu von Winsteps ausgegebenen Fähigkeitswerte sind ganz links in der Abbildung in Zehnerschritten (bei Kohorte 1) bzw. in Einerschritten (bei Kohorte 2) dargestellt. Für sie gilt: Je höher der Fähigkeitswert, desto höher die diagnostische Kompetenz. Die Verteilung der Itemschwierigkeiten ist auf der rechten Seite der Abbildung dargestellt, ebenfalls in vertikaler Richtung. Die leichteren Items befinden sich weiter unten in der Abbildung, die schwereren weiter oben. Am Beispiel des leichtesten Items II_rf_D13_N1_1 sollen an dieser Stelle die wichtigsten aus der Kennnummer abzulesenden Informationen über die Items genannt werden: N1 steht für Niveau 1 und D für Datenanalyse und interpretation. Die anderen Kennnummern beinhalten an den betreffenden Stellen entsprechende Informationen, d. h. entweder N1, N2, N3 oder N4 für das vorgegebene Niveau der Schülerantwort, welches von den Studierenden zu erkennen war und A, B, C oder D für die Teilbereiche in Zusammenhang mit Scientific Reasoning, und zwar A für Fragestellung, H für Hypothese generieren, P für Planen einer geeigneten Untersuchung und D für Datenanalyse und interpretation. Die fett markierten Symbole M in der Person-Item-Map stehen für die Mittelwerte der Personenfähigkeiten bzw. der Itemschwierigkeiten und die Symbole S für die Standardabweichung, wobei der näher an M stehende Wert die einfache Standardabweichung darstellt und der entferntere die doppelte. Abbildung 6.10 zeigt das Person-Item-Map zu den ermittelten Ergebnissen zur statusdiagnostischen Kompetenz der Studierenden von Kohorte 2: TABLE 12.2 K2_ MZP 2 INPUT: 121 PERSON 64 ITEM REPORTED: 121 PERSON 64 ITEM 2 CATS WINSTEPS <more> <rare> 73 + II_C3_N4_2_rec II_D13_N4_2_rec T 70 + II_A13_N4_1_rec 69 + II_B17_N4_1_rec 68 + II_D13_N4_1_rec II_C8_N4_2_rec XX + II_C3_N2_2_rec X + II_A8_N4_1_rec II_C3_N3_2_rec 61 XXX T+S II_B17_N4_2_rec 60 X + II_C3_N2_1_rec 123

130 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus 59 X + 58 XXXXXX + II_A13_N3_2_rec 57 XXXXXXXXX + 56 XX S+ II_A13_N3_1_rec II_B13_N3_1_rec II_B17_N3_1_rec II_C3_N1_2_rec II_C3_N4_1_rec II_C8_N1_1_rec 55 XXXXXXXXX + II_B13_N2_1_rec 54 XXXX + II_B13_N4_1_rec II_B17_N2_2_rec II_D13_N2_1_rec 53 XXXXXXXX + II_C3_N3_1_rec II_C8_N3_2_rec II_C8_N4_1_rec II_D13_N3_2_rec II_D3_N4_1_rec 52 XXXXXXXXXXXXX M + II_A13_N4_2_rec II_B13_N1_1_rec II_B13_N3_2_rec II_B13_N4_2_rec 51 XXXXXXXX + II_A8_N2_1_rec II_A8_N4_2_rec II_D13_N3_1_rec 50 XXXXXXXXXXX +M II_D3_N3_2_rec 49 XXXXXXXXXXXXX + II_A13_N2_2_rec II_B17_N3_2_rec II_C8_N2_1_rec II_C8_N3_1_rec II_D3_N3_1_rec 48 XXXXXXXXXX + II_A8_N1_1_rec II_A8_N3_2_rec II_D3_N2_1_rec 47 XXXXXX S+ II_B13_N2_2_rec II_B17_N2_1_rec 46 XXX + II_A8_N3_1_rec 45 XX + II_A8_N2_2_rec II_C8_N2_2_rec 44 XXX + 43 XXXX + II_A13_N1_1_rec II_A13_N2_1_rec II_B17_N1_1_rec II_B17_N1_2_rec II_D13_N2_2_rec 42 X T + II_D3_N2_2_rec 41 + II_A8_N1_2_rec II_D3_N4_2_rec 40 +S II_D3_N1_2_rec 36 X + II_D3_N1_1_rec 35 + II_D13_N1_2_rec 34 + II_C8_N1_2_rec II_B13_N1_2_rec T II_A13_N1_2_rec II_C3_N1_1_rec II_D13_N1_1_rec <less> <frequ> Each X is one Person Abb. 6.10: Person-Item-Map zu Kohorte 2 (Erläuterungen befinden sich weiter oben im Text) Diskussion der nach der IRT ermittelten Ergebnisse zur statusdiagnostischen Kompetenz Die diagnostischen Fähigkeiten der Studierenden für das Beurteilen der Schülerleistungsniveaus sind bei beiden Kohorten annähernd in der Form einer Glockenkurve verteilt (Abb. 6.9 und 6.10). Dies deckt sich mit den Ergebnissen zu den Leistungsverteilungen (Abb. 6.8) und dem Kolmogoroff- Smirnow-Test auf Normalverteilung (Kapitel 6.2.4). Betrachtet man die Verteilung der Itemschwierigkeiten in Bezug auf die Niveaustufen, so fällt auf, dass die auf Niveau 1 vorgegebenen Schülerantworten fast alle zu den für die Studierenden leichten Items gezählt hatten (zu erkennen daran, dass sie sich in der Person-Item-Map im unteren Bereich der Abbildung konzentrieren). Entsprechendes, nur in umgekehrter Weise gilt für die Schülerantworten auf Niveau 4: Diese finden sich gehäuft im oberen Bereich der Map und gehören damit zu den für die Studierenden schweren Items. Die Fähigkeitswerte für die Schülerantworten auf Niveau 2 und 3 liegen dazwischen, wobei tendenziell diejenigen auf N3 weiter oben in der Abbildung zu finden sind und diejenigen von N2 weiter unten. Diese Ergebnisse aus der Person-Item-Maps decken sich damit mit den im Kapitel beschriebenen deskriptiven Befunden zu den Niveaubeurteilungen der Studierenden. Für beide gilt die Tendenz: Je niedriger das vorgegebene Niveau der Schülerlösung war, desto leichter fiel den 124

131 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Studierenden die korrekte Niveauzuweisung. Und umgekehrt gilt: Je höher das vorgegebene Niveau war, desto schwieriger war es für die Studierenden, das korrekte Niveau zu erkennen. Im Vergleich der Ergebnisse von Kohorte 1 und Kohorte 2 zeigt sich, dass bei beiden Studierendenjahrgängen ganz ähnliche Werte für die diagnostische Kompetenz gemessen werden konnten (Tab. 6.7). Auch die berechneten Standardabweichungen und Mediane liefern für beide untersuchten Stichproben ähnliche Werte. Die Reproduzierbarkeit der Testergebnisse bei beiden Studierendenjahrgängen untermauert die Zuverlässigkeit der Testergebnisse und damit den in den beiden Untersuchungen gewonnenen Befund. B. Darstellung der Ergebnisse zur statusdiagnostischen Kompetenz im Bereich Scientific Reasoning (KTT) Der mit Hilfe des Programms SPSS berechnete Wert für die statusdiagnostische Kompetenz der Studierenden für das Beurteilen der Schülerleistungsniveaus entspricht nach der KTT dem mittleren Lösungsquotienten der von dem jeweiligen Studierenden bearbeiteten Items. Dieser liegt in der Spanne von 0 (= 0 % der bearbeiteten Items wurden gelöst, d. h. in den beiden von den Studierenden bearbeiteten Testheften war keine der Niveauzuweisungen für die Schülerantworten korrekt) bis 1 (= 100 % der bearbeiteten Items wurden gelöst bzw. alle Niveauzuweisungen wurden korrekt vorgenommen). Somit gilt: Je höher der nach der KTT bestimmte mittlere Lösungsquotient eines Probanden, desto höher ist seine diagnostische Kompetenz einzustufen bezüglich seiner Fähigkeit, Schülerleistungsniveau im dem Bereich Erkenntnisgewinnung zu beurteilen. Die nachfolgende Tabelle zeigt die mittleren Lösungsquotienten (und damit die durchschnittliche statusdiagnostische Kompetenz) aller am Test teilgenommenen Probanden aus Kohorte 1 und Kohorte 2. Tab. 6.8: Statusdiagnostische Kompetenz zum Beurteilen der Schülerlösungen, berechnet nach KTT Statusdiagnostische Kompetenz (mittlerer Lösungsquotient) Kohorte 1 Kohorte 2 0,53 0,53 N SD 0,11 0,12 Median 0,53 0,50 Legende: N = Anzahl der Probanden; SD = Standardabweichung; KTT = Klassische Test Theorie Diskussion der nach der KTT ermittelten Werte zur statusdiagnostischen Kompetenz In der Auswertung nach der KTT zeigt sich mit einem Wert von 0,53 ein exakt gleicher Mittelwert für die diagnostische Kompetenz der Studierenden aus Kohorte 1 und Kohorte 2. Auch die nach der KTT ermittelten Werte sprechen somit für die Reproduzierbarkeit der Testergebnisse und damit für die Stabilität der gewonnenen Befunde. In seiner absoluten Höhe lässt der Mittelwert streng genommen keine Aussage über die Höhe der diagnostischen Kompetenz der Studierenden zu, da im Rahmen 125

132 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus der KTT berechnete Mittelwerte immer stichprobenabhängig und abhängig von der Schwierigkeit der eingesetzten Items sind (vgl. Kapitel 4.4) Statusdiagnostische Kompetenzen innerhalb der Teilbereiche von Scientific Reasoning A. Darstellung der nach der IRT ermittelten Ergebnisse Bei der Auswertung nach der IRT können von Winsteps Werte zu den Personenfähigkeiten für jeden der vier Teilbereiche von Scientific Reasoning Fragestellung, Hypothesenbildung, Planen einer Untersuchung und Datenanalyse und interpretation getrennt berechnet werden. Hierfür berücksichtigt das Programm bei der Berechnung der Werte für jeden Teilbereich nicht nur das Fähigkeitsspektrum derjenigen Personen, die diesen Teilbereich bearbeitet haben, sondern immer auch das Fähigkeitsspektrum aller anderen Probanden des Studierendenjahrgangs. Auf diese Weise bleiben die Fähigkeitswerte zur diagnostischen Kompetenz der Personen über die Teilbereiche hinweg vergleichbar. Tab. 6.9 listet die so berechneten Fähigkeitswerte für die Studierenden aus beiden Kohorten auf. In der Spalte N ist die Anzahl der Personen angegeben, die den jeweiligen Teilbereich von Scientific Reasoning (d. h. das entsprechende Testheft) bearbeitet haben. Die unterste Zeile stellt den Fähigkeitswerten für die einzelnen Teilbereiche den für den Gesamtbereich geltenden Wert gegenüber. Tab. 6.9: Statusdiagnostische Kompetenz für die vier Teilbereiche von Scientific Reasoning (IRT) Itemanzahl N Kohorte 1 Kohorte 2 Diagnost. Kompetenz (Personenfähigkeitswerte) SD N Diagnost. Kompetenz (Personenfähigkeitswerte) Fragestellung ,59 6, ,60 5,12 Hypothese ,15 5, ,96 6,30 Planen einer Untersuchung ,25 7, ,86 6,23 Daten analysieren ,46 8, ,86 7,80 alle Teilbereiche ,68 4, ,55 4,80 Legende: IRT = Item Response Theory; N = Anzahl der Probanden; SD = Standardabweichung SD Analysiert man die Mittelwertunterschiede zwischen den statusdiagnostischen Fähigkeiten der Studierenden für die einzelnen Teilbereiche, zeigen sich die in Tab dargestellten Ergebnisse. Zur Signifikanzberechnung wurde der Man-Whitney-U-Test verwendet, welcher auch nicht normalverteilte Daten zulässt. 126

133 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Tab. 6.10: Signifikanzberechnungen zur Tab. 6.9 mit Hilfe des Man-Whitney-U-Tests Kohorte 1 Kohorte 2 Fragestellung (F) / Hypothese (H) Planen einer Untersuchung (P) F H P D ** p=0,006 n.s. p=0,429 ** ** p=0,004 / * p=0,017 ** p=0,000 n.s. p=0,084 Datenanalyse (D) p=0,000 p=0,009 p=0,000 Legende: * für p<0,05 ** für p<0,01 n.s. für nicht signifikant ** / ** n.s. p=0,494 ** p=0,001 ** p=0,000 / Diskussion der Ergebnisse zu den statusdiagnostischen Kompetenzen für die einzelnen Teilbereiche von Scientific Reasoning (IRT) Wie die in Tab. 6.9 gezeigten Fähigkeitswerte belegen, ist die statusdiagnostische Kompetenz der Studierenden für das Beurteilen von Schülerleistungsniveaus für die verschiedenen Teilbereiche von Scientific Reasoning unterschiedlich hoch ausgeprägt. Den Studierenden beider Kohorten fiel es am leichtesten, die Schülerantworten aus dem Bereich Daten analysieren zu beurteilen. Am schwersten fiel es den Studierenden beider Jahrgänge, korrekte Niveauzuweisungen für die Schülerantworten aus dem Bereich Planen einer Untersuchung vorzunehmen. Dies deckt sich mit den Ergebnissen der BiK-Studie bezogen auf das Lösen der Aufgaben durch die Schüler (vgl. Mayer, Grube & Möller, 2008, S.73). Auch hier fiel es den Schülern am leichtesten, Aufgaben aus dem Bereich Daten analysieren zu lösen, wohingegen es ihnen deutlich schwerer fiel, eine geeignete Untersuchung zu planen. Tabelle 6.9 ist weiterhin zu entnehmen, dass sich die gemessenen Werte zu den statusdiagnostischen Kompetenzen für die beiden anderen Teilbereiche von Scientific Reasoning Fragestellung und Hypothese zwischen denjenigen für die beiden eben genannten befinden. Allerdings zeigen sich hier die diagnostischen Fähigkeiten im Vergleich der beiden Kohorten jeweils in gegenläufiger Reihenfolge. Analysiert man die Mittelwertunterschiede zwischen den statusdiagnostischen Fähigkeiten für die einzelnen Teilbereiche, zeigen sich bei den meisten der möglichen Paarungen signifikante bis hoch signifikante Unterschiede (vgl. Tab. 6.10), was die unterschiedlich ausgeprägte diagnostische Kompetenz für die verschiedenen Teilbereiche von Scientific Reasoning noch unterstreicht. Dieses Ergebnis gilt sowohl für die Studierenden von Kohorte 1 als auch von Kohorte 2. Eine weiterführende Interpretation der genannten Befunde erfolgt weiter unten zusammen mit den nach der KTT ermittelten Ergebnissen. B. Darstellung der Ergebnisse zu den statusdiagnostischen Kompetenzen innerhalb der Teilbereiche von Scientific Reasoning (KTT) Nach der KTT wird die diagnostische Kompetenz der Studierenden innerhalb der einzelnen Teilbereiche von Scientific Reasoning über den Lösungsquotienten der Items dieses Teilbereiches 127

134 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus angegeben werden. Damit entsprechen die Werte gleichzeitig auch den Schwierigkeiten der Teilbereiche. Tab. 6.11: Statusdiagnostische Kompetenz für die vier Teilbereiche von Scientific Reasoning (KTT) Kohorte 1 Kohorte 2 Itemanzahl N Diagnost. Kompetenz (Lösungsquotienten) SD N Diagnost. Kompetenz (Lösungsquotienten) SD Fragestellung ,50 0, ,58 0,11 Hypothese ,55 0, ,49 0,15 Planen einer Untersuchung ,44 0, ,43 0,13 Daten analysieren ,65 0, ,60 0,15 alle Teilbereiche ,53 0, ,53 0,12 Legende: KTT = Klassische Test Theorie; N = Anzahl der Probanden; SD = Standardabweichung Die Analyse der Mittelwertunterschiede zwischen den statusdiagnostischen Fähigkeiten der Studierenden für die einzelnen Teilbereiche liefert die in Tab dargestellten Ergebnisse. Tab. 6.12: Signifikanzberechnungen zur Tab mit Hilfe des Man-Whitney-U-Tests Kohorte 1 Kohorte 2 Fragestellung (F) / Hypothese (H) Planen einer Untersuchung (P) F H P D n.s. p=0,083 n.s. p=0,097 ** ** p=0,001 / * p=0,001 ** p=0,000 n.s. p=0,064 Datenanalyse (D) p=0,000 p=0,000 p=0,000 Legende: * für p<0,05 ** für p<0,01 n.s. für nicht signifikant ** / ** n.s. p=0,140 ** p=0,000 ** p=0,000 / Diskussion der nach der KTT ermittelten Ergebnisse zu den statusdiagnostischen Kompetenzen für die vier Teilbereiche von Scientific Reasoning Wie in Tab zu erkennen ist, zeigen die Probanden auch bei der Auswertung nach der KTT unterschiedliche diagnostische Kompetenzen für die verschiedenen Teilbereiche von Scientific Reasoning. Die Reihenfolge der diagnostischen Kompetenz entspricht bei beiden Kohorten genau derjenigen, wie sie auch für die Auswertemethode nach der IRT gefunden wurde. Auch hier zeigen die Probanden beider Studierendenjahrgänge für das Beurteilen der Schülerantworten aus dem Teilbereich Daten analysieren die höchste statusdiagnostische Kompetenz, während sie im Bereich Planen einer Untersuchung die niedrigste aufweisen. Auch hier sind wieder analog zu den mit Hilfe der IRT berechneten Ergebnissen signifikante Mittelwertunterschiede vorhanden (Tab. 6.9). 128

135 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Gesamtdiskussion der Befunde zu den diagnostischen Kompetenzen der Studierenden für die verschiedenen Teilbereiche von Scientific Reasoning (für IRT und KTT zusammen) Wie verschiedene Studien zeigen, gehen die verschiedenen Teilbereiche wissenschaftsmethodischer Kompetenz mit unterschiedlichen Schülerleistungen einher (Hammann et al., 2007; Prenzel et al., 2007). Auch Grube (2010) weist diese Leistungsunterschiede für den Bereich des Wissenschaftlichen Denkens (Scientific Reasoning) bei Schülern der Sek I nach. Zur Erklärung der unterschiedlichen diagnostischen Kompetenzen innerhalb der vier Teilbereiche von Scientific Reasoning sollen folgende Überlegungen herangezogen werden: Die mit dem Teilbereich Daten analysieren verbundenen Anforderungen sind Schülern (und auch Studierenden) am ehesten vertraut. Sie werden im Schulund Studienalltag über das Erfassen und Interpretieren von Tabellen, Grafiken und Abbildungen nicht nur in der Biologie und den anderen naturwissenschaftlichen Fächern, sondern beispielweise auch in der Mathematik am häufigsten geübt. Dagegen sind die im Teilbereich Planen einer Untersuchung geforderten Kenntnisse und Fähigkeiten Schülern und auch Studierenden weniger vertraut. Hier sind die Anforderungen geprägt von der Notwendigkeit ausreichenden Handlungswissens. Somit könnte eine Erklärung für die unterschiedliche statusdiagnostische Kompetenz innerhalb der verschiedenen Teilbereiche von Scientific Reasoning darin liegen, dass die Vertrautheit bzw. Fremdheit mit den in den Teilbereichen benötigten Anforderungen sich nicht nur direkt auf die Schülerleistungen in den jeweiligen Teilbereichen auswirkt, sondern auch auf das Beurteilen der Schülerleistungen und damit auf die diagnostische Kompetenz für diese Teilbereiche Vergleich der Ergebnisse beider Auswerteverfahren Zum Überprüfen, inwiefern die mit Hilfe der Item Response Theory (IRT) gewonnenen Daten zur statusdiagnostischen Kompetenz der Studierenden mit den nach der Klassischen Test Theorie (KTT) gewonnenen vergleichbar sind, wurden Korrelationsanalysen zwischen den Ergebnissen aus beiden Verfahren durchgeführt. Aufgrund der im Rahmen der KTT nicht gegebenen Normalverteilung wurden die beiden häufig in diesem Zusammenhang verwendeten nicht parametrischen Rangkorrelations-Tests Spearman-Rho und Kendall-Tau-b eingesetzt. Tab zeigt die Testergebnisse. Tab. 6.13: Korrelationen der nach IRT bzw. KTT gewonnenen Werte zur diagnostischen Kompetenz Test Korrelation Kohorte 1 Kohorte 2 Spearman-Rho Werte KTT mit Werten IRT Korrelationskoeffizient,907 **,954 ** Sig. (2-seitig),000,000 N Kendall-Tau-b Korrelationskoeffizient,763 **,850 ** Werte KTT mit Werten IRT Sig. (2-seitig),000,000 N **. Die Korrelation ist auf dem 0,01 Niveau signifikant (zweiseitig). IRT = Item Response Theorie; KTT = Klassische Test Theorie; N = Anzahl der Probanden 129

136 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Diskussion Mit Korrelationskoeffizienten von 0,907 (Kohorte 1) bzw. 0,954 (Kohorte 2) weist der Spearman- Rho-Test bei beiden Kohorten hoch signifikante und hohe Korrelationen zwischen den nach der KTT und der IRT berechneten Werten für die statusdiagnostische Kompetenz der Studierenden aus. Es ist also davon auszugehen, dass beide Verfahren die statusdiagnostische Kompetenz der Studierenden in ähnlicher Weise abbilden. Auch der Kendall-Tau-b Test liefert hohe Korrelationskoeffizienten und zeigt hoch signifikante Korrelationen an. Auch dieser Test unterstützt damit den eben genannten Befund. Die mit ihm berechneten Koeffizienten liegen allerdings nicht ganz so hoch wie diejenigen, welche über den Spearman-Rho-Test ermittelt wurden, was aber auf das Testverfahren selbst zurückzuführen ist: Im Gegensatz zum Spearman-Rho-Test stellt der Kendall-Tau-b Test weniger strenge Anforderungen an die Datengrundlage und nutzt im Gegensatz zum Spearman-Rho-Test nur den Unterschied in den Rängen und nicht die Differenz der Ränge. In der Regel ist der Wert des Kendall-Tau-b Tests dadurch etwas kleiner als der Wert des Spearman-Rho-Tests. Zusätzlich zu den Korrelationsanalysen erfolgt an dieser Stelle ein Vergleich der beiden Auswerte- Verfahren KTT und IRT. Vergleicht man die Informationen, die beide Verfahren liefern, und die Datengrundlage, für die sie geeignet sind, so bietet das Auswerteverfahren nach der IRT etliche Vorteile: Neben den klassischen Lage- und Verteilungsparametern werden von Winsteps einige zusätzliche Daten ausgegeben, wie z. B. die Item Reliabilities (vgl. Kapitel 6.3.2), die Item-Fit- Werte (vgl. Kapitel 6.3.3) und die Item-Person-Maps und Person-Item-Maps (vgl. Kapitel 6.2.5), die im Rahmen der KTT nicht erhalten werden können. Vor allem letztere liefern durch die gemeinsame Darstellung der Itemschwierigkeiten und der Personenfähigkeiten auf einer gemeinsamen Skala gewinnbringende Informationen darüber, ob das Instrument vom Schwierigkeitsgrad her angemessen ist und wie sich die Items auf der Fähigkeitsskala der Probanden verteilen. Weiterhin ist es mit Hilfe der Auswertung nach der IRT möglich, Datensätze zu analysieren, bei denen nicht alle Studierenden die gleichen Items bearbeitet haben. Letzterer Punkt spielt zusammen mit der Stichprobenunabhängigkeit, die bei der KTT nicht gegeben ist für die vorliegende Arbeit eine große Rolle beim Vergleich der Untergruppen: Diese hatten unterschiedliche Items bearbeitet, weshalb nicht davon ausgegangen werden kann, dass die Untergruppen jeweils gleich schwierige Items vorgefunden hatten. Als letzter bedeutender Punkt soll erwähnt werden, dass auch einige Annahmen, die implizit bei einer Auswertung nach der KTT zugrunde gelegt werden, in diesem Fall nicht zutreffend sind: Eine der Grundannahmen in der KTT bezieht sich darauf, dass hier gleiche (intervallskalierte) Abstände zwischen den einzelnen Stufen (hier: die Niveaustufen) angenommen werden (Hartig, 2004). Dem ist üblicherweise und auch in diesem Fall aber nicht so. So ist liegt z. B. zwischen der korrekten Niveauzuweisung für eine Schülerantwort, die auf Niveau 1 vorgegeben ist und einer weiteren, die auf Niveau 2 vorgegeben ist, in der Regel ein anderer Fähigkeitsabstand auf Seiten der Studierenden als zwischen denjenigen bei Niveau 3 und Niveau 4. Zusätzlich variiert der Abstand von 130

137 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Item zu Item. All dies kann in der KTT nicht berücksichtigt werden, wodurch die ausgewiesene Fähigkeitsleistung, d. h. der berechnete Wert zur statusdiagnostischen Kompetenz der Studierenden, verfälscht ist. Im Gegensatz dazu brauchen die Abstände für die IRT nur ordinal skaliert zu sein und werden anhand des probabilistischen Modells für jedes Item und damit für jede Niveaueinschätzung gesondert geschätzt. Wie die vorhergehenden Kapitel zeigen, lieferten die beiden Auswerteverfahren trotz all der Unzulänglichkeiten auf Seiten der KTT für das zugrunde liegende Datenmaterial und das vorliegende Testdesign doch in Bezug auf die meisten der betrachteten Ergebnisse vergleichbare Werte zur IRT und zeigten sehr hohe Korrelationen Selbsteinschätzungen der Studierenden Darstellung der Ergebnisse Zum Erhebungszeitpunkt 2 wurden in beiden Kohorten die Selbsteinschätzungen der Studierenden zu ihrem eigenen Professionswissen und explizit zu ihrem diagnostischen Wissen abgefragt. Tab fasst die Ergebnisse zusammen. Tab. 6.14: Selbsteinschätzungen zum Professionswissen und zur diagnostischen Kompetenz Selbsteinschätzung der eigenen Kenntnisse und Fähigkeiten bezüglich Fachwissen (FW) Fachdidaktisches Wissen (FDW) Pädagogisches Wissen (PW) Mittelwert der Selbsteinschätzungen (1=sehr niedrig bis 5=sehr hoch) Kohorte 2 (3. Fachsem.) 3,16 (SD=0,62) N=121 3,02 (SD=0,67) N=121 3,17 (SD=0,77) N=121 Mittelwert der Selbsteinschätzungen (1=sehr niedrig bis 5=sehr hoch) Kohorte 1 ( 4. Fachsem.) 3,28 (SD=0,69) N=94 3,24 (SD=0,70) N=93 3,21 (SD=0,76) N=94 Diagnostisches Wissen Schülerleistungen beurteilen können 2,80 (SD=0,83) N=121 Legende: SD = Standardabweichung; N = Anzahl der Probanden 2,83 (SD=0,79) N=93 Eine Untersuchung der Mittelwertunterschiede zwischen den verschiedenen Bereichen des professionellen Wissens liefert die in Tab angegebenen Werte. 131

138 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Tab. 6.15: Mittelwertunterschiede bei den Selbsteinschätzungen für Erhebung 2 Kohorte 1 Kohorte 2 FW FDW PW FW / FDW PW Diagnost. Wissen Schülerleistungen beurteilen * (p=0,031) n.s. (p=0,630) ** (p=0,031) n.s. (p=0,658) / * (p=0,050) ** (p=0,009) n.s. (p=0,590) n.s. (p=0,766) / ** (p=0,000) Diagnost. Wissen Schülerleistungen beurteilen ** (p=0,000) ** (p=0,002) ** (p=0,003) Alle Datensätze zu den Selbsteinschätzungen werden durch den Kolmogoroff-Smirnow-Test als nicht normalverteilt ausgewiesen (für p<0,05). Für den Vergleich der Mittelwert-Unterschiede wurde daher der Vorzeichentest verwendet mit * p<0,05 und ** p<0,01. / Zum Untersuchen, inwiefern sich die Selbsteinschätzungen der Studierenden von Erhebung 1 zu Erhebung 2 verändert haben, konnte nur auf Ergebnisse der Befragung der Studierenden von Kohorte 2 zurückgegriffen werden, da nur hier eine Befragung erfolgt war: Tab. 6.16: Veränderungen der Selbsteinschätzungen von Erhebung 1 zu Erhebung 2 (Kohorte 2) Selbsteinschätzung der eigenen Kenntnisse und Fähigkeiten bezüglich Mittelwert der Selbsteinschätzungen Erhebung 1 Kohorte 2 / 1. Fachsem. Mittelwert der Selbsteinschätzungen Erhebung 2 Kohorte 2 / 3. Fachsem. Zunahme von Erhebung 1 zu Erhebung 2 + Signifikanten Fachwissen (FW) Fachdidaktisches Wissen (FDW) Pädagogisches Wissen (PW) Diagnostisches Wissen Schülerleistungen beurteilen 3,04 (SD=0,71) N=151 2,71 (SD=0,82) N=152 2,86 (SD=0,89) N=148 2,66 (SD=0,92) N=152 3,16 (SD=0,62) N=121 3,02 (SD=0,67) N=121 3,17 (SD=0,77) N=121 2,80 (SD=0,83) N=121 ** = p<0,01 * = p<0,05 n.s. = nicht signifikant (Vorzeichen-Test); SD = Standardabweichung Mittelwerte bezogen auf 1=sehr niedrig bis 5=sehr hoch 0,12 n.s. / N=102 0,30** p=0,003 / N=103 0,31* p=0,041 / N=101 0,14 n.s. / N=103 Diskussion der Ergebnisse Wie Tab zu entnehmen ist, zeigen beide Kohorten zum Erhebungszeitpunkt 2 ein ähnliches Bild hinsichtlich ihrer Selbsteinschätzungen zu ihrer diagnostischen Kompetenz: Mit einem Mittelwert von 2,80 (Kohorte 2) bzw. 2,83 (Kohorte 1) auf einer Ratingskala mit 1 = sehr niedrig, 2 = niedrig, 3 = mittel, 4 = hoch und 5 = sehr hoch verweisen die Werte auf Einschätzungen, die noch unterhalb der Einschätzung mittel liegen. Damit wird deutlich, dass die befragten Studierenden ihre eigenen diagnostischen Kompetenzen auch im dritten bzw. vierten Fachsemester als eher unterdurchschnittlich ausgeprägt wahrgenommen haben. Im Gegensatz dazu bewegen sich die Selbsteinschätzungen zu ihrem Fachwissen (FW), ihrem fachdidaktischen Wissen (FDW) und zu ihrem pädagogischen Wissen (PW) zum gleichen Zeitpunkt allesamt bei Werten, die oberhalb des 132

139 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Ratingwertes 3 angesiedelt sind, sich also in Bereichen bewegen, die leicht oberhalb einer mittleren Einschätzung liegen. Betrachtet man die Mittelwertunterschiede zwischen den verschiedenen Bereichen des Professionswissens zum Zeitpunkt der Erhebung 2, so zeigen sich die Selbsteinschätzungen zu den diagnostischen Kompetenzen (bezogen auf das Beurteilen von Schülerleistungen) in allen Fällen signifikant unterhalb derjenigen zum FW, FDW und PW. Demgegenüber liegen die Selbsteinschätzungen zum FW, FDW und PW überwiegend auf einem höher gelegenen und einander ähnlichen Wert und zeigen meist keine signifikanten Unterschiede (vgl. Tab und 6.15). Vergleicht man die zum Erhebungszeitpunkt 1 abgegebenen Selbsteinschätzungen mit denjenigen von Erhebung 2, und damit die Veränderung der Selbsteinschätzungen über einen Zeitraum von zwei Semestern, so kann man für alle abgefragten Aspekte des Professionswissens und auch für das diagnostische Wissens eine deutliche Zunahmen verzeichnen (Tab. 6.16). Diese Zunahmen sind für das fachdidaktische Wissen mit einem Wert von 0,30 und für das pädagogische Wissen mit einem Wert von 0,31 relativ hoch und signifikant unterschiedlich zum Ausgangswert. Damit nähern sich zum Zeitpunkt der Erhebung 2 die Werte für das FDW und das PW dem Niveau der Selbsteinschätzungen für das eigene Fachwissen an, so dass alle drei Bereiche des Professionswissens hier auf einem ähnlichen Level liegen. Noch zwei Semester zuvor (zum Erhebungszeitpunkt 1) waren die Selbsteinschätzungen des eigenen Fachwissens signifikant höher bewertet worden als alle anderen Aspekte und lagen als einziger Wert oberhalb der als mittel eingestuften Selbsteinschätzungen. Im Gegensatz zum FDW und dem PW nehmen die Selbsteinschätzungen zum diagnostischen Wissen im Vergleich von Erhebung 1 zu Erhebung 2 nur wenig zu und befinden sich damit zum Zeitpunkt der Erhebung 2 auf einem Level, welcher hoch signifikant unter denjenigen von FW, FDW und PW liegt (Tab. 6.16). Die genannten Befunde belegen, dass sich die Studierenden zum Zeitpunkt der Erhebung 2 hinsichtlich ihres diagnostischen Wissens nicht so kompetent fühlen wie im Bereich ihres Fachwissens, ihres fachdidaktischen Wissens und ihres pädagogischen Wissens. Der nur geringe und nicht signifikante Anstieg der Werte zu ihrem diagnostischen Wissens lässt vermuten, dass sich die Studierenden in ihrer universitären Ausbildung in den ersten Semestern nicht oder nur wenig gefördert fühlen in Bezug auf die Ausbildung ihrer diagnostischen Kompetenz. Im Gegensatz dazu zeigt die signifikante Zunahme im Bereich des fachdidaktischen Wissens und des pädagogischen Wissens, dass diesbezüglich die Inhalte des Studiums von den Studierenden als förderlich empfunden werden. Die diagnostische Kompetenz stellt zwar einen Teilaspekt des FDW und des PW dar. Aber genau dieser scheint nach der Einschätzung der Studierenden nicht ausreichend in der universitären Ausbildung berücksichtigt und gefördert zu werden, wohingegen eine generelle Förderung im Bereich FDW und PW sehr wohl wahrgenommen wird. 133

140 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Zusammenhänge zwischen statusdiagnostischer Kompetenz und den vermuteten Bedingungsfaktoren Das im Projekt entwickelte Modell zur diagnostischen Kompetenz betrachtet das fachmethodische Wissen der Studierenden und ein angemessenes Wissenschaftsverständnis als Voraussetzung für die Entwicklung von diagnostischer Kompetenz für den Bereich der Erkenntnisgewinnung (vgl. hierzu Kapitel 2). Forschungsfrage 3 dieser Arbeit ist diesem Aspekt gewidmet. Mit Hilfe von Korrelationsanalysen wurde daher geprüft, inwiefern die Testergebnisse des Kompetenztests für Statusdiagnostik einen solchen positiven Zusammenhang nachweisen. Grundsätzlich erschien die Korrelation der zum Erhebungszeitpunkt 2 gewonnenen Daten zur diagnostischen Kompetenz mit dem an Erhebung 1 ermittelten fachmethodischen Wissen der Studierenden und ihrem Wissenschaftsverständnis gerechtfertigt: Der Einsatz von Wiederholungs-Items aus den Tests zum fachmethodischen Wissen zeigte auch zwei Semester später keine signifikanten Veränderungen in der Ausprägung des fachmethodischen Wissens der Studierenden. Darstellung der Ergebnisse zu den Zusammenhängen Von den N = 121 (Kohorte 2) bzw. N = 95 (Kohorte 1) Studierenden, die an Erhebung 2 den Kompetenztest für Statusdiagnostik bearbeitet hatten, konnten nicht alle in die Korrelationsanalysen einbezogen werden: Bei Kohorte 2 hatten nur 101 Studierende auch die MC-Aufgaben zum fachmethodischen Wissen und 100 das zehn Skalen bestehenden Instrument zum Erfassen ihres Wissenschaftsverständnisses bearbeitet. Bei Kohorte 1 hatten von den 95 Probanden sogar nur 68 auch das Testinstrument zum fachmethodischen Wissen und das CAEB-Instrument zum Wissenschaftsverständnis bearbeitet. Tab. 6.17: Korrelationsanalysen für Kohorte 2 Fachmethodisches Wissen (12 MC-Aufgaben zu Scientific Reasoning) Wissenschaftsverständnis (NOS-Fragebogen mit 10 Skalen) Diagnostische Kompetenz KTT IRT Korrelation,236 **,233 ** Signifikanz,002,001 N Korrelation,158 *,140 * Signifikanz,025,041 N Korrelation nach Kendall-Tau-b mit * für p < 0,05 und ** für p < 0,01 KTT = Klassische Test Theorie; IRT = Item Response Theory 134

141 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Tab. 6.18: Korrelationsanalysen für Kohorte 1 Fachmethodisches Wissen (8 MC-Aufgaben zu Scientific Reasoning) Wissenschaftsverständnis (CAEB-Instrument zu NOS) Diagnostische Kompetenz KTT IRT Korrelation -,092 -,005 Signifikanz,305,953 N Korrelation -,042 -,004 Signifikanz,624,966 N Korrelation nach Kendall-Tau-b mit * für p < 0,05 und ** für p < 0,01 KTT = Klassische Test Theorie; IRT = Item Response Theory Da bei beiden Kohorten sowohl die Datensätze zum fachmethodischen Wissen der Studierenden wie auch diejenigen zum Wissenschaftsverständnis keine Normalverteilung aufwiesen (siehe Kapitel und 5.3.3), wurde für die Korrelationsanalysen der Kendall-Tau-b Test verwendet. Diskussion der Ergebnisse zu den Zusammenhängen zwischen der untersuchten diagnostischen Kompetenz und den Bedingungsfaktoren Wie Tab zu entnehmen ist, zeigen sich bei Kohorte 2 hoch signifikante Korrelationen zwischen dem fachmethodischen Wissen der Studierenden und ihrer statusdiagnostischen Kompetenz zum Beurteilen der Schülerantworten. Ebenso liegt zwischen dem Wissenschaftsverständnis der Studierenden und ihrer diagnostischen Kompetenz eine signifikante Korrelation vor, wenngleich diese etwas niedriger ausfällt. Alle Korrelationen gelten gleichermaßen für die nach der IRT berechneten Werte zur diagnostischen Kompetenz wie für die nach der KTT berechneten. Auch wenn alle ermittelten Korrelationskoeffizienten eher niedrig ausfallen (0,14 < r < 0,32), belegen die in Tab gezeigten Werte, dass eine gute diagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus im Bereich der Erkenntnisgewinnung einhergeht mit einem guten fachmethodischen Wissen in diesem Bereich bzw. einem gut ausgeprägten Wissenschaftsverständnis. Damit stützen die Befunde die Annahme des Diagnosekompetenz-Modells, dass ein geeignetes fachmethodisches Wissen und ein angemessenes Wissenschaftsverständnis Voraussetzungen sind für die Ausbildung einer angemessenen diagnostischen Kompetenz im Bereich Erkenntnisgewinnung. Die Tatsache, dass die Höhe der Korrelationskoeffizienten in allen Fällen eher im unteren Wertebereich angesiedelt ist, spricht dafür, dass neben den fachmethodischen Kenntnissen und dem Wissenschaftsverständnis noch eine Reihe anderer Faktoren wirksam sind, die einen spürbaren Einfluss auf die diagnostische Kompetenz haben. Erst das komplexe Zusammenspiel aller Faktoren führt zu der endgültigen Ausprägung der diagnostischen Kompetenz. Im Gegensatz zu Kohorte 2 konnten bei Kohorte 1 weder für das fachmethodische Wissen noch für das Wissenschaftsverständnis der Studierenden signifikante Korrelationen mit der untersuchten statusdiagnostischen Kompetenz gefunden werden (Tab. 6.18). Im Falle des 135

142 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Wissenschaftsverständnisses ist dieser fehlende Zusammenhang möglicherweise darauf zurückzuführen, dass das bei Kohorte 1 eingesetzte CAEB-Instrument aufgrund seiner Eigenschaft, nur einen ganz spezifischen Ausschnitt im Bereich Nature of Science zu erfassen, nicht geeignet ist, die für die diagnostische Kompetenz relevanten Aspekte des Wissenschaftsverständnisses abzubilden. So erfasst der CAEB-Test nur die konnotativen Aspekte im Bereich Nature of Science, d. h. die evaluativ-assoziativen Annahmen über die Natur der Naturwissenschaften (vgl. Kapitel 5 und Stahl und Bromme (2007)). Im Gegensatz dazu beziehen sich nach Meinung der genannten Autoren die explizit-denotativen Annahmen auf das Wissen über die funktionalen Konzepte im Bereich Nature of Science. Für die diagnostische Kompetenz könnte dieser zweite Aspekt die entscheidendere Rolle spielen. Darüber hinaus ist der CAEB-Test in seiner Konzeption als Kurzfragebogen mit nur zwei Skalen möglicherweise nicht geeignet, die für diese Arbeit gewünschte Bandbreite des Wissenschaftsverständnisses ausreichend differenziert genug abzufragen. Aus den beiden genannten Gründen war schon bei Erhebung 1 für die Untersuchung der Studierenden bei Kohorte 2 ein anderer, wesentlich umfangreicherer NOS-Test eingesetzt worden. Mit den Ergebnissen aus diesem konnten dann auch positive Korrelationen nachgewiesen werden. Dass bei Kohorte 1 auch für das fachmethodische Wissen kein Zusammenhang mit der diagnostischen Kompetenz nachzuweisen war, lag möglicherweise an dem zu diesem Zeitpunkt noch nicht ausgereiften Testinstrument. Bei den Studierenden von Kohorte 2 kam aus diesen Gründen ein deutlich überarbeitetes Instrument für den Test zum fachmethodischen Wissen zum Einsatz (siehe Kapitel und 5.3.3) Zusammenhänge zwischen statusdiagnostischer Kompetenz und den Personen- und Kontextvariablen Zur Beantwortung der Forschungsfrage 4 wurden verschiedene Personen- und Kontextvariablen untersucht, die möglicherweise in Zusammenhang mit der statusdiagnostischen Kompetenz stehen. Zur Auswahl der untersuchten Personen- und Kontextvariablen sei auf Kapitel 3 verwiesen. Darstellung der Ergebnisse Tab. 6.19: Korrelationen zwischen diagnostischer Kompetenz und Personen- und Kontextvariablen Geschlecht Lehramtsform (L2 / L3) Abiturnote Kohorte 1 Kohorte 2 KTT IRT KTT IRT r 0,261** 0,284** 0,104 0,094 Sign. (2-seitig) 0,003 0,001 0,176 0,213 N r 0,301** 0,270** 0,199* 0,196* Sign. (2-seitig) 0,001 0,003 0,012 0,012 N r -,016 -,058-0,167* -0,138 Sign. (2-seitig) 0,860 0,499 0,022 0,054 N

143 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Alter Selbsteinschätzungen zum diagnost. Wissen Nawi-Fächer (1 Fach vs. 2 Fächer) r -0,089-0,071 0,069 0,056 Sign. (2-seitig) 0,274 0,372 0,334 0,423 N r 0,004 0,059-0,016-0,045 Sign. (2-seitig) 0,963 0,470 0,818 0,526 N r 0,076 0,092 0,047 0,042 Sign. (2-seitig) 0,385 0,282 0,541 0,575 N Korrelationen getestet mittels Kendall-Tau-b-Test und * für p<0,05 ** für p<0,01 r = Korrelationskoeffizient; N = Probandenanzahl; KTT = Klassische Test Theory; IRT = Item Response Theory Diskussion der Ergebnisse zu den Zusammenhängen der diagnostischen Kompetenz mit den Personen- und Kontextvariablen Alter der Studierenden: Wie Tab zu entnehmen ist, zeigt sich in keinem der untersuchten Fälle eine signifikante Korrelation der statusdiagnostischen Kompetenz mit dem Alter der Studierenden. Fächerkombination: Auch im Hinblick darauf, ob die Probanden nur ein naturwissenschaftliches Fach (nur Biologie) als eines ihrer beiden Lehramtsfächer studieren oder zwei (zusätzlich zu Biologie noch Chemie oder Physik), ist bei beiden Kohorten und für beide Auswerteverfahren keine signifikante Korrelation messbar. Offensichtlich stehen die genannten Faktoren in keinem Zusammenhang mit der Ausprägung der statusdiagnostischen Kompetenz der Studierenden für das Beurteilen von Schülerlösungen im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Selbsteinschätzungen: Ebenfalls zeigen sich keine signifikanten Korrelationen zwischen den Selbsteinschätzungen der Studierenden (bezüglich ihrer Fähigkeit, Schülerleistungen beurteilen zu können) und den Testergebnissen zu ihrer diagnostischen Kompetenz (Tab. 6.19). Offensichtlich sind die Studierenden zu diesem Zeitpunkt ihres Studiums (noch) nicht in der Lage, ihre diagnostischen Fähigkeiten für diesen Aspekt einschätzen zu können. Einschränkend ist allerdings zu bedenken, dass mit dem eingesetzten Fragebogen zu den Selbsteinschätzungen nur nach der Fähigkeit zum Beurteilen von Schülerleistungen ganz allgemein gefragt wurde, nicht explizit nach der Fähigkeit, Schülerleistungen im Bereich der Erkenntnisgewinnung einzuschätzen. Abiturnote: Zwischen der statusdiagnostischen Kompetenz der Studierenden und ihrer Abiturnote zeigt sich nur bei Kohorte 2 eine signifikante Korrelation, und hier auch nur für die nach der KTT ausgewerteten Daten (Tab. 6.19). Allerdings liegt der Signifikanzwert auch für die nach der IRT berechneten Daten von Kohorte 2 sehr nahe an der Signifikanzgrenze von p < 0,05. Die Korrelationen bei Kohorte 1 dagegen sind weit entfernt von dieser Signifikanzgrenze. Durch die Widersprüchlichkeit der Befunde bei Kohorte 1 und Kohorte 2 ist damit durch die Korrelationsanalysen weder eindeutig belegt, dass für die Abiturnote ein Zusammenhang mit der gemessenen diagnostischen existiert, noch, dass dieser nicht existiert. 137

144 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Geschlecht: Ein ebenfalls nicht konsistentes Bild zeigt sich in Bezug auf die Korrelation zwischen dem Geschlecht der Studierenden und ihrer statusdiagnostischen Kompetenz. So wird für Kohorte 1 eine hoch signifikante Korrelation ausgewiesen in der Weise, dass die männlichen Probanden dieser Kohorte offensichtlich signifikant besser in der Lage gewesen waren, die Schülerleistungen zu beurteilen als die weiblichen (Tab. 6.19). Dies gilt in ähnlichem Maße für die nach der KTT und die nach der IRT berechneten Werte. Bei Kohorte 2 finden sich dagegen keine signifikanten Korrelationen zwischen dem Geschlecht der Studierenden und ihrer diagnostischen Kompetenz. Lehramtsform: Recht eindeutig fallen die Ergebnisse der Untersuchungen zu den Zusammenhängen zwischen der statusdiagnostischen Kompetenz der Studierenden für das Beurteilen der Schülerleistungsniveaus und ihrer gewählten Lehramtsform aus (Tab. 6.19): Hier zeigten sich bei beiden Jahrgängen und in allen untersuchten Fällen (hoch) signifikante Korrelationen in der Weise, dass die Studierenden des Gymnasiallehramtes die besseren Leistungen im Kompetenztest für Statusdiagnostik gezeigt haben im Vergleich zu den Studierenden des Haupt- und Realschullehramtes. Um der Beantwortung der Frage nach dem Einfluss des Geschlechtes auf die diagnostische Kompetenz näher zu kommen, wurden weitere Analysen vorgenommen. Dafür wurden bei beiden Studierendenjahrgängen die Mittelwerte zur statusdiagnostischen Kompetenz für beide Geschlechter verglichen und die Unterschiede auf Signifikanzen geprüft. Tab stellt die Befunde vor. Darstellung der Ergebnisse Tab. 6.20: Mittelwerte zur statusdiagnostischen Kompetenz, getrennt nach dem Geschlecht der Studierenden; mit Signifikanzanalysen Kohorte N Geschlecht N KTT (SD) Signifikanz IRT (SD) Signifikanz. K1 95 weibl. 74 0,51 (0,11) 0,003** 1 49,84 (4,85) männl. 21 0,60 (0,09) 53,64 (3,30) 0,001** 1 weibl. 91 0,52 (0,12) K , ,30 (4,69) männl. 30 0,55 (0,12) 52,31 (5,12) 2 =Signifikanzen berechnet mit dem Man-Whitney-U-Test und * p<0,05; ** p<0,01 7 KTT = Klassische Test Theorie; IRT = Item Response Theory; SD = Standardabweichung 0,322 1 Da nach dem Shapiro-Wilk-Test nicht alle Datensätze normalverteilt waren, wurde der Man-Whitney- U-Test verwendet. Entsprechend der in Tab dargestellten Analysen weisen auch die Mittelwertvergleiche bei Kohorte 1 den männlichen Studierenden eine signifikant höhere diagnostische Kompetenz aus als den weiblichen Studierenden. Dies gilt sowohl für die nach der KTT gewonnenen Daten als auch für die nach der IRT berechneten. Der Befund lässt sich zwar in gleicher Weise bei Kohorte 2 nicht replizieren. Wohl aber zeigen die berechneten Mittelwerte, dass auch hier 138

145 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus die männlichen Studierenden tendenziell eine höhere diagnostische Kompetenz aufweisen als die weiblichen. Eine Diskussion dieses Befundes soll aber nicht an dieser Stelle erfolgen, sondern in Zusammenhang mit dem nächsten vorgestellten Aspekt, dem Zusammenhang zwischen der statusdiagnostischen Kompetenz für das Beurteilen der Schülerleistungsniveaus und der von den Studierenden gewählten Lehramtsform (Haupt- und Realschule oder Gymnasiallehramt). Auch hier konnte wie weiter oben bereits angesprochen, ein signifikanter Zusammenhang festgestellt werden (Tab. 6.19). Betrachtet man wieder die nach der Lehramtsform aufgegliederten Mittelwerte zur diagnostischen Kompetenz und unterzieht die Mittelwertunterschiede anschließend einer Signifikanzanalyse, ergeben sich die in Tab gezeigten Werte: Tab. 6.21: Mittelwerte zur statusdiagnostischen Kompetenz, getrennt nach der von den Studierenden gewählten Lehramtsform; mit Signifikanzanalysen Kohorte 1 (N=95) Studierte Lehramtsform N Mittelwert (SD) für KTT Sign. (KTT) Mittelwert (SD) für IRT Haupt- und Realschule 36 0,49 (0,11) 49,10 (5,28) ** Gymnasiallehramt 49 0,57 (0,10) 52,30 (3,95) Förderschullehramt 10 0,48 (0,11) 48,47 (4,41) Sign. (IRT) ** Kohorte 2 (N=121) Haupt- und Realschule 73 0,51 (0,11) ** 50,63 (4,60) Gymnasiallehramt 40 0,57 (0,11) 52,81 (4,83) Förderschullehramt 5 0,61 (0,15) 54,90 (5,86) Signifikanzwerte (=Sign.) berechnet mit dem Mann-Whitney-U-Test: Für K1: p=0,001 (KTT) und p=0,003 (IRT) Für K2: p=0,006 (KTT) und p=0,012 (IRT); IRT = Item Response Theory; KTT = Klassische Test Theorie Die Ergebnisse zeigen, dass bei beiden Kohorten die Studierenden des Gymnasiallehramtes gegenüber denjenigen des Haupt- und Realschullehramtes (hoch) signifikant bessere Leistungen beim Beurteilen der Schülerleistungsniveaus gezeigt hatten (Tab. 6.21). Für die Gruppe der Studierenden des Förderschullehramtes wurde wegen der sehr niedrigen Fallzahlen (N=5 bzw. N=10) auf eine Berechnungen der Signifikanzen für die Mittelwertunterschiede verzichtet. Um der Frage nach dem Einfluss des Geschlechtes noch etwas näher zu kommen, wurden beide Aspekte Geschlecht und studiertes Lehramt gemeinsam betrachtet. Ziel dieser Art der Analyse war es zu untersuchen, ob die Leistungsunterschiede bei den Geschlechtern möglicherweise nur eine Folgeerscheinung davon sind, dass eigentlich die Studierenden des Gymnasiallehramtes die besseren Leistungen gezeigt haben, und dieser Gruppe zufällig auch hauptsächlich die männlichen Probanden angehört hatten. In der Analyse wurden daher die Mittelwertunterschiede zwischen den Geschlechtern getrennt nach der studierten Lehramtsform untersucht. Die ermittelten Werte sind in Tab und Tab dargestellt. Zu beachten ist, dass von den 95 Probanden aus Kohorte 1 nur 85 in die Tabelle eingegangen sind. Die restlichen 10 Probanden waren Studierende des Förderschullehramtes und wurden deshalb nicht mit einbezogen. Entsprechendes gilt für die Studierenden von Kohorte *

146 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Tab. 6.22: Mittelwertunterschiede zwischen den Geschlechtern, getrennt nach Lehramtsform (Kohorte 1) Lehramtsform N Geschlecht N Haupt- und Realschule 36 Gymnasium 49 Mittelwerte Signifikanzen KTT (SD) IRT (SD) KTT IRT weiblich 30 0,47 (0,11) 48,21 (5,15) männlich 6 0,59 (0,10) 53,54 (3,57) weiblich 35 0,56 (0,10) 51,69 (4,04) männlich 14 0,60 (0,09) 53,83 (3,39) 1 =Signifikanzen ermittelt mit dem t-test für homogene Varianzen; * für p<0,05 Alle acht Datensätze der Untergruppen waren normalverteilt. Daher die Werte des t-tests zugrunde legen. 0,023* 1 0,022* 1 0, ,087 1 Tab. 6.23: Mittelwertunterschiede zwischen den Geschlechtern, getrennt nach Lehramtsform (Kohorte 2) Lehramtsform N Geschlecht N Haupt- und Realschule 73 Gymnasium 40 Mittelwerte Signifikanzen KTT (SD) IRT (SD) KTT IRT weiblich 60 0,50 (0,11) 50,79 (4,28) männlich 13 0,49 (0,13) 49,89 (6,01) weiblich 25 0,55 (0,13) 52,16 (5,41) männlich 15 0,58 (0,08) 53,90 (3,56) 2 =Signifikanzen getestet mit Man-Whitney-U-Test; * für p<0,05 Nicht alle betrachteten Datensätze waren normalverteilt. Daher wurde der Man-Whitney-U-Test verwendet. 0, , , ,379 2 Diskussion der Ergebnisse zu den Zusammenhängen der statusdiagnostischen Kompetenz mit dem Geschlecht der Studierenden und der von ihnen gewählten Lehramtsform Wie den Tabellen 6.22 und 6.23 zu entnehmen ist, weisen nach Unterteilung in diese differenziertere Form nur noch die Studierenden des Haupt- und Realschullehramtes aus Kohorte 1 einen signifikanten Mittelwertunterschied zwischen der diagnostischen Kompetenz der weiblichen und männlichen Studierenden auf. Zurückzuführen ist dieser auf nur N = 6 männliche Studierende, die offensichtlich im Test im Vergleich zu den weiblichen Studierenden besonders gute Leistungen erbracht haben. Sämtliche anderen Untergruppen aus beiden Kohorten zeigen in dieser differenzierteren Analyse unter Kontrolle des studierten Lehramtes keine signifikanten Unterschiede mehr zwischen den Geschlechtern. Jedoch bleibt auch bei der differenzierteren Analyse in fast allen Untergruppen die Tendenz bestehen, dass die männlichen Studierenden beim Beurteilen der Schülerlösungen gegenüber den weiblichen im Durchschnitt bessere Leistungen erzielt haben. Weiterhin ist in Bezug auf die bei der differenzierten Analyse nicht mehr vorhandenen Signifikanzen zu berücksichtigen, dass sämtliche betrachtete Untergruppen nur noch kleine Fallzahlen beinhalten und bei solchen kleinen Fallzahlen Signifikanzen in der Regel nur bei sehr deutlichen Mittelwertunterschieden auftreten. Damit bleibt auch unter Kontrolle des studierten Lehramtes die Tendenz bestehen, dass die männlichen Studierenden im Test die besseren Leistungen gezeigt haben. Eine Erklärung dieses an sich erstaunlichen Befundes kann hier nicht abgegeben werden. Auch liegen aus der Forschungsliteratur keine Vergleichswerte vor. Allerdings existiert eine Studie von Frey (2004), in der dieser die Kompetenzstruktur von Studierenden des Lehramtes untersucht hat. Er 140

147 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus operationalisierte die Kompetenz der Studierenden in vier Kompetenzklassen: Die Fachkompetenz (FK), die Sozialkompetenz (SK), die Methodenkompetenz (MK) und die Personalkompetenz (PK). In einer Untersuchung an Studierenden verschiedener Nationalitäten (N = 1841 deutsche Studierende, N = 75 schweizerische, N = 88 österreichische, N = 157 italienische und N = 208 polnische Studierende) stellte er fest, dass bei den deutschen Studierenden alle vier Kompetenzen (hoch) signifikant mit dem Geschlecht der Studierenden korrelierten (,21** für FK;,14** für SK;,09* für MK und,19** für PK). Ob die männlichen oder die weiblichen Studierenden höhere Kompetenzen aufwiesen, wird in der Studie nicht genannt. Demgegenüber zeigten sich für die Studierenden der anderen Nationalitäten nur in einem einzigen Fall (polnische Studierende hinsichtlich ihrer Fachkompetenz) signifikante Korrelationen mit dem Geschlecht. Auch wenn die genannten Kompetenzklassen nicht gleichzusetzten sind mit der im Rahmen dieser Arbeit untersuchten diagnostischen Kompetenz, liefert die Studie Hinweise darauf, dass das Geschlecht tatsächlich einen Einfluss auf bestimmte Bestandteile der professionellen Kompetenz von angehenden Lehrkräften haben kann. Auch die Höhe der gemessenen Korrelationen bewegt sich in beiden Fällen auf einem ähnlichen Niveau (vgl. Tab. 6.19). Als Erklärung für das bessere Abschneiden der Studierenden des Gymnasiallehramtes beim Beurteilen der Schülerantworten aus dem Bereich der Erkenntnisgewinnung sollen folgende zwei Überlegungen diskutiert werden: Möglicherweise ist ihr besseres Abschneiden zum einen dadurch zu begründen, dass diese Untergruppe über ein besseres fachliches und fachmethodisches Wissen verfügt. Das fachmethodische Wissen stellt nach dem Diagnosekompetenzmodell eine notwendige Voraussetzung für den erfolgreichen Umgang mit den fachmethodischen Kriterien des Erwartungshorizontes dar und damit auch für die Fähigkeit, das Leistungsniveau der Schüler zutreffend einschätzen zu können. Ein höheres fachmethodisches Wissen würde auf diese Weise dazu beitragen, dass die Probanden auch im Diagnostik-Test die besseren diagnostischen Leistungen zeigen. Betrachtet man speziell das Wissen der am Diagnostik-Test beteiligten Studierenden des Gymnasiallehramtes im Vergleich zu dem der angehenden Haupt- und Realschullehrkräfte, so haben tatsächlich bei beiden Kohorten die angehenden Gymnasiallehrkräften höhere Mittelwerte zum fachmethodischen Wissen (Tab. 6.24). Die Mittelwertunterschiede sind zwar in beiden Fällen nicht signifikant, aber doch deutlich. Zumindest für Kohorte 2 liegen sie zudem trotz der relativ niedrigen Fallzahlen nahe der Signifikanzgrenze von p < 0,05. Tab. 6.24: Fachmethodisches Wissen der am Diagnostik-Test beteiligten Probanden bei Erhebung 1 Kohorte 1 Mittelwert K1/Gym Mittelwert K1/H+R Signifikanz (2-seitig) Fachmethod. Wissen 0,61 (N=37) 0,57 (N=26) p=0,390 Kohorte 2 Mittelwert K2/Gym Mittelwert K2/H+R Signifikanz (2-seitig) Fachmethod. Wissen 0,72 (N=36) 0,68 (N=58) p=0,060 Signifikanzen zu den Mittelwertunterschieden berechnet mit dem Man-Whitney-U-Test Gym = Gymnasiallehramt; H+R = Lehramt für Haupt- und Realschulen; N = Anzahl der Probanden 141

148 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Aus diesem Ergebnis, zusammen mit dem Befund, dass zwischen dem fachmethodischen Wissen und den statusdiagnostischen Kompetenzen zumindest bei Kohorte 2 ein signifikanter Zusammenhang besteht, wird der Schluss gezogen, dass das bessere fachmethodische Wissen der angehenden Gymnasiallehrkräfte tatsächlich eine der Komponenten für die Erklärung ihrer besseren statusdiagnostischen Leistungen darstellt. Neben der Erklärung über das bessere fachmethodische (und möglicherweise auch fachliche) Wissen der Studierenden des Gymnasiallehramtes gegenüber denjenigen des Haupt- und Realschullehramtes könnten für das bessere Abschneiden dieser Gruppe im statusdiagnostischen Kompetenztest auch eine höhere Leistungsbereitschaft und/oder höhere kognitive Fähigkeiten eine Rolle gespielt haben. Beides sind Faktoren, welche sich in der Abiturnote niederschlagen. Betrachtet man nun die durchschnittlichen Abiturleistungen der Probanden des Statusdiagnostik-Tests aus Kohorte 1 und Kohorte 2 so zeigt sich, dass tatsächlich bei beiden Studierendenjahrgängen die angehenden Gymnasiallehrkräfte hoch signifikant bessere Abiturleistungen aufweisen (Tab. 6.25). Tab. 6.25: Durchschnittliche Abiturnoten der am Diagnostik-Test beteiligten angehenden Haupt- und Realschullehrkräfte (H+R) und Gymnasiallehrkräfte (Gym) Mittelwert Gym Mittelwert H+R Signifikanz Abiturnote (Kohorte 1) 2,27 (N=37) 2,75 (N=25) ** (p=0,000) Abiturnote (Kohorte 2) 2,18 (N=36) 2,91 (N=55) ** (p=0,000) Signifikanzen berechnet mit dem t-test Allerdings scheint der Einfluss der Abiturnote auf die statusdiagnostischen Leistungen der Studierenden nur von beigeordneter Größe zu sein. Denn bei den Korrelationsanalysen konnte nur für Kohorte 2 ein Zusammenhang zwischen Abiturnote und den Leistungen im statusdiagnostischen Test nachgewiesen werden (Tab. 6.19), und dieser auch nur in geringerer Höhe (r = -,17 bzw. r = -,14) Videoanalysen: Prozessbezogene Informationen zur statusdiagnostischen Kompetenz Die Videoanalysen zielten darauf ab zu erfassen, in welcher Weise und aus welchen Gründen die Studierenden zu ihren Schülerbeurteilungen im Kompetenztest für Statusdiagnostik gelangt waren. Es ging also darum, die hinter den Niveauentscheidungen stehenden Begründungen und Gedankengänge zu beleuchten. Darüber hinaus sollten die Videoanalysen Hinweise liefern zur Validität des Instrumentes (vgl. Kapitel 4.4.6). Wie im Methodenteil beschrieben, geschah die Auswertung der Videos über die Analyse der Transkripte, welche von den Testbearbeitungsprozessen der Studierenden angefertigt worden waren. Aus den Transkripten wurden diejenigen Studierenden-Aussagen extrahiert, welche in Zusammenhang 142

149 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus standen mit den vorher festgelegten Analysekriterien (Kapitel 4.4.6). Die extrahierten Studierenden- Aussagen wurden entsprechend der Analysekriterien sortiert und in einer Tabelle zusammengestellt. Aus der in diesem Kapitel dargestellten tabellarischen Auflistung der geordneten Studierenden- Aussagen heraus erfolgte die Diskussion und Interpretation der Aussagen. In Bezug auf die Auswahl der Analysekriterien interessierten besonders solche, die in Zusammenhang stehen mit den in Kapitel genannten drei Hypothesen zu den Befunden im Statusdiagnostik-Test (vgl. hierzu auch die Ausführungen im Methodenteil, Kapitel 4.4.6). Für ein besseres Verständnis an dieser Stelle sollen die drei Hypothesen noch einmal kurz wiederholt werden: H1: Die Studierenden haben Schwierigkeiten mit dem Verständnis der im Erwartungshorizont genannten Begriffe im Kontext von Scientific Inquiry und waren dementsprechend nicht in der Lage, in korrekter Weise mit dem Erwartungshorizont zu arbeiten. H2: Die Studierenden haben Schwierigkeiten, die im Erwartungshorizont genannten Kriterien auf die Schülerantwort anzuwenden, d.h. zu erkennen, ob die Kriterien in der gegebenen Schülerantwort korrekt berücksichtigt worden waren. H3: Die Studierenden haben die grundsätzliche Tendenz, zu streng zu bewerten. Darstellung der Ergebnisse aus den Videoanalysen Die folgende Tabelle gibt die nach den Analysekriterien extrahierten und sortierten Studierenden- Aussagen wieder. Tab. 6.26: Aussagen der Studierenden, geordnet nach den Analysekriterien Aussage- Nr. Teilbereich (Aufgabe) Schülerantwort befand sich auf Niveaustufe Analysekriterien und zugeordnete Studierenden-Aussagen (die acht videographierten Studierenden sind mit S1 bis S8 bezeichnet) Analysekriterium Nr.1 Aussagen, die auf Schwierigkeiten mit dem Verständnis der Begriffe im Kontext von Scientific Inquiry schließen lassen. 1.1 F (Topfgröße)? 1.2 F (Topfgröße)? 1.3 F (Topfgröße)? S1: Mal kurz zwischendrin, ich versteh das inhaltlich hier nicht. Was meint denn biologisches Fachverständnis? Ob sie biologische Wörter und Ausdrücke benutzen oder was? S1: Und was heißt das? (liest vor) Generalisierender Anteil aufweist? Ich find s voll schwierig grad hier. S1: Das find ich voll schwierig irgendwie. (liest vor) Oder nach einem messbaren Zusammenhang fragt. Ich weiß gar nicht wie so ne / Ich kenne so einfache Fragen, dass ich gar nicht weiß, wie so eine Antwort auf die Frage sein könnte. 143

150 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus 1.4 H (Gewürze)? 1.5 H (Gewürze) N4 [S3 und S4 sprechen über die Kriterien des Erwartungshorizontes zur TK Hypothesenbildung und hier über die Unterscheidung von Begründungen auf der Basis von Alltagswissen versus Begründungen auf der Basis von biologischem Fachverständnis] S3: Ich glaub, also, ich glaub zum Beispiel, wenn die nur sagen, ja das wird, das wächst auf einem Boden oder in einem Glas. Nur das ist halt vom Alltagswissen, aber nicht biologisch. Und er sagt nicht, das wächst in Petrischalen und Nährstoffboden. Und das ist, denke ich, biologisch. [S3 verwechselt offensichtlich die Verwendung von biologischen Fachbegriffen mit einem biologischen Fachverständnis] [Dialog nach Vergleich mit der Musterlösung] S3: Oh, Niveaustufe vier! [Beide Studierenden hatten das Niveau der Schülerantwort mit N1 eingeschätzt] S3: (liest Begründung der Musterlösung laut vor) Beide Antworten erfüllen Bedingungen für Niveau 3 und beinhalten zusätzlich eine Generalisierung. S3: OK, ich wusste nicht, was mit diesem hier (zeigt auf die Niveaubeschreibung der Niveaustufe 4 im Erwartungshorizont) gemeint ist, ne? S4: Nee, ich auch nicht so richtig. Analysekriterium Nr.2 Aussagen, die auf Schwierigkeiten der Studierenden hindeuten, die im Erwartungshorizont genannten Kriterien in der Schülerlösung zu identifizieren und zu beurteilen. 2.1 F (Topfgröße) N4 2.2 F (Topfgröße) N4 2.3 F (Topfgröße) N2 2.4 F (Topfgröße) N3 2.5 F (Topfgröße) N4 S1: [spricht über die Schülerantwort Welche Auswirkungen hat die Größe des Zuchtgefäßes auf das Wachstum einer Pflanze? Welche Stoffe müssen eventuell zugesetzt werden um gleiches Wachstum zu erzeugen? ] Die Auswirkungen des Wachstums bzw. des Zuchtgefäßes, die Größe des Zuchtgefäßes auf Wachstum und dann welche Stoffe müssen eventuell zugesetzt werden hat überhaupt nichts mit dem Thema zu tun. Also es ist ja keine Fragestellung, die man naturwissenschaftlich überprüfen, ehm, S2: Hier beim zweiten [meint die zweite der beiden auf dieser Seite angegebenen Schülerantworten] wird der schon etwas genauer. (liest vor) Hängt das Wachstum von Pflanzen auch davon ab, wie viel Platz ihre Wurzeln haben, d.h. wächst eine Pflanze in einem größeren Topf schneller, als in einem kleineren? S1: Aber wieso hast du da nur eine zwei [meint eine Einschätzung auf Niveau 2] gegeben? S2: Ja, das hab ich mir jetzt grad auch überlegt. S1: Ich hab da drei. (S1 und S2 diskutieren nun eine Weile über die Schülerantwort) S1: Ich würd sogar vier sagen jetzt, wenn ich da überlege, weil pass auf, die zusätzlich einen generalisierenden Anteil aufweist. [ ] Das ist schon Verallgemeinerung. [S1 spricht über die Kriterien der Niveaustufe 1 des Erwartungshorizontes der TK Fragestellung im Zusammenhang mit einer Schülerantwort, die auf N2 vorgegeben war] S1: Das was mich hier bei dieser Einstufung eins stört, ist (liest aus dem Erwartungshorizont vor) nicht direkt nach einem Zusammenhang fragt. // Obwohl, ich hab keine Ahnung. Also ich find s sehr sehr schwierig. Der Zusammenhang ist halt immer da. Größe des Topfes und ehm Wachsen der Nelke. S2: (liest vor) Nimmt die Pflanze im großen Topf mehr Wasser oder Nährstoffe auf als in dem kleineren und kann deshalb schneller wachsen? S2: Da hab ich drei, weil da haben wir auch wieder dieses Verständnis, dieses biologische, das hat was mit Nährstoffen zu tun. S1: Ja, siehst du, gut dass ich nachgefragt habe, weil ich aufgrund dessen hier falsch angekreuzt hab. [S1 hatte die Schülerantwort auf N1 geschätzt] S1: (liest vor) Hängt das Wachstum von Pflanzen auch davon ab, wie viel Platz ihre Wurzeln haben, d.h. wächst eine Pflanze in einem größeren Topf schneller als in einem kleineren? S2: Ja da hab ich, genau, da hab ich sogar fast, genau, erstmal die zwei genommen. S1: Du hast zwei genommen. Ich hab wenigstens ne 144

151 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Stufe höher dem gegeben. Der hat sich so viel Mühe gegeben. // Ja, also er hat sofort Wachstum und Platz verwendet. 2.6 P (Flamingos) N1 2.7 P (Flamingos) N4 2.8 P (Flamingos) N2 2.9 P (Flamingos) N H (Gewürze) N3 S6: (liest vor) Man muss sich zwei Flamingos zulegen, den einen füttert man mit rosa Krebsen, den anderen nur mit durchsichtigen. S5: Ja, da hab ich zwei. S6: Warum? S5: Ich hab zwei, weil er hat erkannt, dass er zwei unterschiedliche Flamingos braucht. Aber er hat jetzt nicht noch mal die, die abhängige Variable noch mal benannt und berücksichtigt. Er hat nur die unabhängige Variable benannt und berücksichtigt. Also er hat nur das Futter berücksichtigt, aber nicht dann nochmal auf das Federkleid bezogen, auf die Farben vom Federkleid. S6: Da würde ich dir zustimmen, ich hab nämlich drei genommen, aber ja find ich falsch. Weil ich hab halt als normale Überlegung gehabt, drei ist, man hat zwei Variablen und eine Kontrollvariable. Hab ich gesehen und hab mir gedacht, ok, ist drei. Aber ich tendiert jetzt auch eher zu zwei. S6: (liest vor) Zuerst braucht man zwei Gruppen dieser Flamingos. Die eine Gruppe füttert man mit den rosa Krebsen und die andere mit Futter ohne Farbstoffe. Das macht man jeweils bis zum Federwechsel. Wenn beide Gruppen immer noch rosa Federn haben, weiß man, dass die Farbe nicht am Futter liegen kann. S6: Da hab ich drei. S5: Ja, ich auch. S6: Weil man eben alles hat. Man hat eben diese zwei Flamingos, dann hat man die beiden Variablen, die bedacht werden [ ] Und man hat zusätzlich halt eben auch noch das Konstanthalten der Versuchsbedingungen. S5: Ja, eigentlich geht das gegen vier, oder? Ich hab auch drei, aber wir haben ja die Versuchsdauer (liest vor) bis zum Federwechsel, dann haben wir zwei Gruppen von Flamingos. S6: Also ich hab s deswegen nicht bei vier, weil das nicht wiederholt wird. S5: Naja, aber er hat ja diesmal Gruppen von Flamingos. Das ist ja wie ne Wiederholung, keine Ahnung, zwar nicht immer am gleichen Flamingo, aber er hatte immerhin Gruppen. S6: Ja, klar. S5: Dann sollten wir auf jeden Fall würd ich jetzt vier sagen, auch wenn jetzt drei da steht. S6: Ja, ich würde jetzt auch eher vier nehmen, ich hab ja eben auch drei und dann zwei und jetzt vier. S6: (liest vor) Man füttert einen rosa Flamingo mit farblosem Futter und schaut nach dem Federwechsel nach der Farbe der Federn. S6: Ja, ich hab zwei, weil eben, es werden diese, also ein Flamingo wird mit der anderen Variablen, also dem Futter, in Verbindung gesetzt. S5: Ja, ich hab eins. Ich hab s jetzt direkt in zwei geändert, weil ich weiß nicht warum ich es genommen hab. S6: (liest vor) Es werden mehrere Flamingos mit Futter ohne Farbstoffen gefüttert und gleichzeitig genauso viele Flamingos mit rosa Krebsen. Dann vergleicht man die Zahl der Flamingos, die nach dem Federwechsel weiß geworden sind. Da hab ich drei. Weil man ja wieder beide Variablen hat. S5: Da hab ich auch drei. Ja man hat aber keine Versuchsdauer. S6: Ja schon, wenn du eben nach der, nach dem Federwechsel überprüfst du das, also da hast du die Zeitdauer schon. S5: Ach so. // Ja, wir haben ja auch ne Wiederholung. Mehrere Flamingos /// S6: Ich überleg grad, das, ach nee, wieder drei, genau, ich hab das als drei. // S5: Ich denk aber eher, dass das gegen vier geht. S6: Aber dann müsstest du es ja eigentlich nochmal wiederholen. S5: Aber es sind doch mehrere Flamingos. S6: Also ich bleib bei drei, weil dieses nach dem Federwechsel weiß geworden sind sagt ja nichts aus. // S5: Ja, das müsste nochmal nen Bezug zum Futter geben. S6: Ja eben, und der ist nicht da. Finde ich jetzt mal. Ich bleib bei drei, aber du kannst natürlich gerne deine Meinung ändern. S5: Nee, das ist schon eindeutig. Ja, das ist schon sinnvoll. S3: (liest die Schülerantwort vor) Die Gewürze sorgen dafür, dass sich die Bakterien nicht vermehren können, weil Stoffe im Gewürz sie abtöten. [S3 vergleicht seine auf N2 abgegebene Einschätzung mit der Musterlösung, welche die Schülerantwort als N3 ausweist] S3: Ich find, das ist, ich mein, die ham ja vermutlich recht, aber es ist ja so nen Alltagsbezug, weil abtöten, weißte? [S3 verwechselt offensichtlich die Verwendung des alltagssprachlichen Begriffs 145

152 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus abtöten mit dem im Erwartungshorizont bei N2 aufgeführten Kriterium des Verwendens von Alltagsanalogien] 2.11 H (Gewürze) N H (Gewürze) N H (Gewürze) N4 S3: (liest aus der Schülerantwort vor) Dass sich Bakterien in Pfeffer und Kurcuma nicht gut fortpflanzen können. Also, ich hab die eins. [S3 hat korrekterweise N1 gewählt. S4 hatte das Niveau mit N2 eingeschätzt, welches eine Begründung der Hypothese erfordert] S4: Ja, für mich ist das ehm, schon S3: Ne Begründung? S4: Ja, genau. Dass Pfeffer und Kurcuma die Fortpflanzung hemmen können. S3: Aber das ist nur ne Hypothese, das ist doch keine Begründung! Das hätte ja dann heißen müssen: Dass sich Bakterien in Pfeffer und Kurcuma nicht gut fortpflanzen können, weil Pfeffer, weil sie einen Schärfeanteil haben. S4: Ja, genau. Da hab ich jetzt automatisch dran gedacht, aber das steht da ja gar nicht. Du hast Recht! [S3 und S4 diskutieren über die Schülerantwort Dass Gewürze, je schärfer sie sind, Bakterien abtöten bzw. sie im Wachstum hemmen. In manchen Stoffen sind Stoffe, die Bakterienwachstum hemmen. Diese sind meist in scharfen Gewürzen zu finden und ihre Wirkung ist umso höher je schärfer das Gewürz. Beide schätzen den Schwierigkeitsgrad der auf Niveau 4 gegebenen Schülerantwort fälschlich auf N2] S3: Ok, oben [er meint die genannte Schülerantwort] sind wir uns einig, wir nehmen die zwei mit dem Alltagsbezug. Ich denk, da ist auch nichts Biologisches bei. [Studierende erkennen weder das biologische Fachverständnis, noch den generalisierenden Anteil]. [S3 und S4 diskutieren über die auf N4 vorgegebene Schülerantwort Umso mehr Schärfe enthalten ist im Gewürz, desto mehr Bakterien sterben ab. Das was die Schärfe im Gewürz ausmacht sind Stoffe, die antibakteriell wirken. ] S3: Da sind wir uns ja einig, mit der eins wieder. S4: Ja. S3: Keine Begründung, ja. [Beide Studierende entscheiden sich hier für N1, da sie die Begründung in der Schülerantwort nicht erkannt haben und im Erwartungshorizont nur N1 keine Begründung erfordert] Analysekriterium Nr.3 Aussagen, die Hinweise auf eine grundsätzliche Tendenz geben, zu streng zu bewerten. 3.1 F (Topfgröße) N4 S2: (liest vor) Welche Auswirkung hat die Größe des Zuchtgefäßes auf das Wachstum einer Pflanze? Welche Stoffe müssen eventuell zugesetzt werden um gleiches Wachstum zu erzeugen? S1: Also drei stimmt schon mal. Ja das ist für mich echt die perfekte Frage. Das ist voll naturwissenschaftlich. Bam. Das ist schon weiter gedacht. Das ist schon die Richtung generalisierender Anteil. [S1 und S2 haben beide die Schülerantwort nur als N3 eingestuft, obwohl sie sie perfekt finden] Analysekriterium Nr.4 Aussagen die belegen, dass die Studierenden die Schülerantwort aufgrund einer kurz gehaltenen Formulierung oder einer sprachlich einfachen oder umständlichen Ausdruckweise einem niedrigeren Leistungsniveau zugeordnet haben bzw. Unsicherheiten bei der Beurteilung zeigten. 4.1 F (Topfgröße) N2 4.2 F (Topfgröße) N4 S1: Viele Antworten sind in zwei Fragen dargestellt. [S1 bezieht sich darauf, dass manche der Schüler die geforderte naturwissenschaftliche Fragestellung in zwei Sätzen statt in einem ausdrücken] Und das ist für mich eine niedrigere Leistung, als wenn ein Schüler kommt und der das präzise schreibt. S1: Das Problem ist, [ ] teilweise haben die Schüler zwei Fragen formuliert und jetzt weiß ich nicht, welche davon ich betrachten soll. 146

153 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus 4.3 F (Topfgröße) N1 4.4 H (Gewürze)? 4.5 H (Gewürze) N3 4.6 D (Spechte) N4 4.7 D (Spechte) N3 + N4 S2: (liest vor) Warum wächst die Pflanze im größeren Topf besser? S1: Also Wachstum und die Größe des Topfes. Also er hat schon verstanden, dass es um Wachstum und um Größe geht. S2: Ja. S1: Also er hat das schon verstanden, nur er hat das nicht so ausformuliert im Vergleich jetzt zu manchen anderen. S2: Genau S1: Und das ist jetzt wieder so ne Frage, ich weiß es echt nicht. Deswegen hab ich auch so gezögert, zwei oder eins zu geben. S3:.. also, ich glaub zum Beispiel, wenn die nur sagen, das wächst auf einem Boden oder in einem Glas; nur das ist halt vom Alltagswissen, aber nicht biologisch. Und er sagt nicht, das wächst in Petrischalen und Nährstoffboden. Und das ist, denke ich, biologisch. [S3 glaubt, dass sich biologisches Fachverständnis durch den Gebrauch von biologischen Fachwörtern zeigt] S3: (liest vor) Die Gewürze sorgen dafür, dass sich die Bakterien nicht vermehren können, weil Stoffe im Gewürz sie abtöten. Ich find, das ist, ich mein, die ham ja vermutlich recht, aber es ist ja so nen Alltagsbezug, weil abtöten, weißte? [Studierende sind der Meinung, dass der Begriff abtöten eher einen Alltagsbezug und kein biologisches Fachwissen wiederspiegelt] [Studierende diskutieren an Hand der Musterlösung ihre falschen Einschätzungen zu der N4 Schülerantwort Ist normal, die Spechte haben sehr viele Borkenkäfer im Ostwald aufgefressen und im Nordwald nicht., die sprachlich auf sehr einfachem Niveau gehalten ist] S8: Und das ist auch ne vier! Da hab ich ne drei gesagt und du ne zwei. Na, das find ich jetzt krass. S7: Hä? Ist normal, S8: Ist normal, die Spechte, weißte, dass mit Mehr Vögel da, weniger Insekten da. Weniger Vögel da, mehr Insekten da. S7: Ach so, ja. /4s/ Boah, das ist krass. [Studierende diskutieren darüber, warum S7 die Schülerantworten Die Spechte haben in diesem Jahr und I Ostwald sind im Vergleich. Genau falsch herum bewertet hatte, nämlich mit N4 und N3] S7: Die Spechte ernähren sich, wie die meisten Vögel, von Insekten. Find ich ganz einfach schön. S8: Ja, aber es kommt ja nicht auf die Formulierung drauf an. S7: Ja, aber es geht ja darum, dass man sich vielleicht davon ein bisschen blenden lässt. S8: Beeinflussen lässt, aber sollte man ja eigentlich nicht. Analysekriterium Nr.5 Aussagen die belegen, dass es beim Statusdiagnostik-Test Verständnisschwierigkeiten ganz grundsätzlicher Art gegeben hatte, z. B. durch missverständliche Aufgabenstellungen oder zu komplizierte Formulierungen im Erwartungshorizont. 5.1 H (Gewürze)? [Studierende im Dialog nach Sichtung der Testheftseiten und der Feststellung, dass auf jeder Seite die Schüleraufgabe wiederholt wird] S1: [zeigt auf die Seite von S2] Hier, die Aufgabe ist doch immer die gleiche. S2: Versteh ich nicht so ganz. 5.2 D (Spechte)? [Studierende im Dialog, nachdem S7 festgestellt hatte, dass S8 die Aufgabenschwierigkeit der gleichen Aufgabe unterschiedlich eingeschätzt hatte] S7: Du hast einmal leicht angekreuzt. S8: Ja warum? S7: Warum hast du denn unterschiedlich angekreuzt? Ist doch immer dasselbe, oder nicht? S8: Ja, wenn du, ich hab das jetzt so gemacht. Wenn du hier verschiedene Niveaus hast und es soll mindestens Niveau 3 erreicht werden, und wenn das halt erreicht worden ist, dann ist das für die beiden Schüler der Stufe 7, ist das leicht, oder ist das schwer? S7: Ach so, ich dachte im Allgemeinen. O.k., gut, dann muss ich das noch ändern. Legende: H=Hypothesenbildung; F=Fragestellung; P=Planen einer Untersuchung; D=Datenanalyse und interpretation; N1 bis N4 beschreiben die Niveaustufe der vorgegebenen Schülerantwort. 147

154 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Diskussion der Ergebnisse aus den Videoanalysen Nachfolgend sollen zunächst die Studierenden-Aussagen zu den drei im Vorfeld aufgestellten Hypothesen H 1, H 2 und H 3 diskutiert werden. Grundsätzlich gilt hierbei zu berücksichtigen, dass die Studierenden-Aussagen von nur acht Probanden stammen und es mit dieser kleinen Stichprobe natürlich nicht möglich ist, statistisch abgesicherte Befunde zu erhalten. Trotzdem liefern die Aussagen Hinweise darauf, in welchem Bereich die Studierenden verstärkt Schwierigkeiten hatten und in welchem Bereich Schwierigkeiten nur untergeordnet auftraten. Zu H 1: Es ließen sich mehrere Studierenden-Aussagen finden (durch fünf Aussagen belegt), die die Vermutung von H 1 bestätigen, dass die Probanden Schwierigkeiten mit den Begriffen im Kontext von Scientific Inquiry hatten (Analysekriterium Nr. 1) und dementsprechend nicht in der Lage waren, in angemessener Weise mit dem Erwartungshorizont zu arbeiten. Insbesondere erwiesen sich in der Videoanalyse die Begriffe biologisches Fachverständnis (als Beurteilungskriterium im Erwartungshorizont der Teilbereiche Fragestellung, Hypothesenbildung und Datenanalyse ), Alltagsanalogien (im Erwartungshorizont der Teilbereiche Hypothesenbildung ) und Generalisierung (im Erwartungshorizont der Teilbereiche Fragestellung, Hypothesenbildung und Datenanalyse ) als problematisch (vgl. Studierenden-Aussagen Nr. 1.1, 1.2, 1.4 und 1.5). Im Falle des Begriffs biologisches Fachverständnis wurde beispielsweise das Verwenden von biologischen Fachbegriffen wie Petrischale verwechselt mit dem eigentlich hier gemeinten Verständnis über biologische Zusammenhänge im Sinne eines biologischen Fach- bzw. Konzeptverständnisses (vgl. Aussage Nr. 1.4). Ein grundsätzliches Verständnis der im Erwartungshorizont enthaltenen Begriffe im Kontext von Scientific Inquiry ist aber Voraussetzung, mit den Niveauunterscheidungen des Erwartungshorizontes überhaupt arbeiten zu können. Neben diesen begrifflichen Schwierigkeiten gab es beim Teilbereich Fragestellung offensichtlich auch Schwierigkeiten mit der Forderung für eine naturwissenschaftliche Frage, die nach einem Zusammenhang zwischen abhängiger und unabhängiger Variablen fragt (vgl. Aussage Nr. 1.3). Auch ein grundsätzliches Verständnis zu abhängigen und unabhängigen Variablen ist Voraussetzung, mit dem Erwartungshorizont arbeiten zu können. Die richtige Handhabung des Erwartungshorizontes ist wiederum Voraussetzung für die korrekte Beurteilung der Schülerantworten. So sind ein Teil der Probleme, die die Schüler beim Beurteilen der Schülerantworten gezeigt hatten, sicherlich auf die grundsätzlichen Schwierigkeiten im Verständnis der Begriffe im Zusammenhang mit Scientific Inquiry zurückzuführen. Der im Statusdiagnostik-Test gezeigte Effekt, dass vor allem die hohen Niveaus Schwierigkeiten bereiteten, könnte mit dem gestuften Aufbau der Erwartungshorizonte zu erklären sein: Je höher das Niveau, desto mehr Kriterien (und damit verbunden umso mehr Begriffe im Kontext von Scientific Inquiry) gab es zu berücksichtigen. Auch war der besondere Schwierigkeiten bereitende Begriff Generalisierung vor allem im Niveau 4 zu finden. 148

155 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Zu H 2: Die zahlenmäßig meisten Schwierigkeiten (durch 13 Aussagen belegt) bestanden darin, dass die Studierenden Probleme gehabt hatten, die im Erwartungshorizont genannten Kriterien in der Schülerantwort zu identifizieren und korrekt einzustufen (Analysekriterium Nr. 2). Dieses Anwenden der Kriterien des Erwartungshorizontes auf die Schülerantworten stellt die eigentliche Diagnoseleistung dar. Bezogen auf dieses Anwenden zeigten die Studierenden verschiedene Arten von Problemen: In 6 der 13 Aussagen wurde ein für die korrekte Einstufung relevantes Kriterium zwar in der Schülerantwort identifiziert, dann aber falsch beurteilt (vgl. Aussagen Nr. 2.4, 2.6, 2.1, 2.10, 2.11, 2.12 und 2.13). In 5 der 13 Aussagen wurde nur ein Teil der relevanten Kriterien erkannt (vgl. Aussagen Nr. 2.2, 2.5, 2.7, 2.9 und 2.12). Dementsprechend fiel auch hier die Beurteilung der Schülerantwort nicht korrekt aus. Und in einem der 13 Fälle äußerten die Studierenden Unsicherheit, ob das betreffende Beurteilungskriterium in der Schülerantwort erfüllt war oder nicht (vgl. Aussage Nr. 2.3). Das Analysekriterium Nr. 4, welches sich darauf bezieht, ob die Studierenden von einer kurzen Formulierung der Schülerantwort, einer sprachlich einfachen Ausdrucksweise oder einer umständlichen Ausdruckweise auf ein niedrigeres Leistungsniveau geschlossen haben oder zumindest hier Schwierigkeiten bei der Beurteilung der Schülerantworten zeigten, spricht eine weitere wichtige Form der diagnostischen Schwierigkeiten (H 2) der Studierenden an. Auch hierzu konnten in der Videoanalyse in nennenswertem Ausmaß Belege (durch sieben Studierenden-Aussagen) gefunden werden. Zu H 3: In Bezug auf die Hypothese H 3 ließ sich in der Videoanalyse nur ein Hinweis finden für eine grundsätzliche Tendenz, zu streng zu bewerten (Analysekriterium Nr. 3). Offensichtlich scheint dieser Grund für den im Statusdiagnostik-Test gewonnenen Befund, dass die Studierenden die Schülerleistungen umso schlechter einschätzen können, je höher das Niveau der Schülerantwort war, keine große Rolle zu spielen. Betrachtet man nun zusammenfassend die Ergebnisse der Videoanalyse in Bezug auf die Hypothesen H 1 bis H 3, so scheinen sich von den drei aufgestellten Vermutungen zur Erklärung des im Statusdiagnostik-Test gewonnenen Befundes vor allem H 1 und H 2 auszuwirken: Zum einen scheint das oftmals schlechte grundsätzliche Verständnis der Begriffe im Kontext von Scientific Inquiry dazu beigetragen zu haben, dass die Schülerantworten nicht korrekt beurteilt wurden. Insbesondere aber scheint die mangelnde diagnostische Kompetenz der Studierenden, die im Erwartungshorizont genannten Beurteilungskriterien in den Schülerantworten identifizieren und korrekt einschätzen zu können, der Grund für die fälschlich getroffenen Niveaueinschätzungen zu sein. Ebenfalls erhöht der ungeübte Umgang mit der sprachlichen Ausdrucksweise der Schüler ihre diagnostischen Schwierigkeiten. Und da mit steigendem Niveau immer mehr Kriterien erfüllt sein müssen, die es zu 149

156 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus erkennen und korrekt zu beurteilen gilt, machen sich die genannten Schwierigkeiten umso stärker bemerkbar, je höher das Niveau der Schülerantwort ist. Dies spiegelt sich auch in den in Tab zusammengestellten Studierenden-Aussagen wieder: So gehörten die meisten Aussagen, die zu den einzelnen Analysekriterien gefunden werden konnten, zu Überlegungen der Studierenden im Zusammenhang mit Schülerantworten auf N4 oder N3. Ein weiteres Ergebnis der Videoanalyse soll an dieser Stelle genannt werden, das über die Diskussion der Hypothesen H 1 bis H 3 hinausgeht: Es ist auffällig, dass in 5 der 13 Fälle die beiden Studierenden im Verlauf der Zweierteam-Diskussion von alleine (d. h. ohne Kenntnis der Musterlösung) von einer ursprünglich falschen zu der korrekten Niveaueinschätzung gelangt sind (vgl. Aussagen Nr. 2.2, 2.4, 2.7, 2.8 und 2.11). Dies kann als Hinweis darauf gewertet werden, dass das intensive Beschäftigen mit den Beurteilungskriterien, das gemeinschaftliche Analysieren der Schülerantworten und die gemeinschaftliche Diskussion hierüber einen deutlich positiven Effekt auf die diagnostische Leistung der Studierenden hat. Dieser Befund spricht dafür, dass genau dieses in der Lehramtsausbildung anhand von Schülerprodukten geübt werden sollte. Validitätsüberprüfung Zum Schluss sollen die Ergebnisse zum Analysekriterium Nr. 5 betrachtet werden, in dem grundsätzliche Verständnisschwierigkeiten der Studierenden im Zusammenhang mit der Bearbeitung des Statusdiagnostik-Tests in den Fokus genommen werden (vgl. hierzu die Ausführungen im Methodenteil in Kapitel 4.4.6). Diese grundsätzlichen Verständnisschwierigkeiten sind zu analysieren in Bezug auf mögliche Schwächen des Testes und dienen damit der Validitätsüberprüfung. Insgesamt konnten zum Analysekriterium Nr. 5 nur zwei Aussagen (Aussage Nr. 5.1 und 5.2) gefunden werden. Diese beschreiben Schwierigkeiten der Studierenden in Bezug auf die Frage nach der Aufgabenschwierigkeit der Schüleraufgabe. Es hatte die betreffenden Studierenden verwirrt, dass sich die an sie gerichtete Frage auf jeder der Testheftseiten wiederholt. Der Grund für die Wiederholung lag am Testheftdesign: Jede der verschiedenen Testheftseiten sollte in den Testheften einmal komplett von vorne bis hinten durchrotieren (vgl. Kapitel 4.4.3). Damit jede der Testheftseiten auch als Vorderseite fungieren konnte, wurde die Frage nach der Aufgabenschwierigkeit auf allen Seiten wiederholt. Die Aussagen der Studierenden in der Videoanalyse geben aber Hinweise darauf, dass es bei einem zukünftigen Einsatz sinnvoller wäre, diese Wiederholung zu vermeiden, zum Beispiel durch einen anderen Testheftaufbau. Oder aber es müsste das Problem im Vorfeld der Testung explizit erläutert werden. Es soll an dieser Stelle betont werden, dass das mangelnde Verständnis der Studierenden zu einzelnen Begriffen im Zusammenhang mit Scientific Inquiry nicht zu den beim Analysekriterium Nr. 5 angesprochenen Verständnisschwierigkeiten gezählt wird, und zwar aus folgendem Grund: Die Verständnisschwierigkeiten in Bezug auf die Begriffe belegen das mangelnde fachmethodische 150

157 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Vorwissen der Studierenden. Mit dem Analysekriterium Nr. 5 sollen dagegen die formalen Schwierigkeiten aufgedeckt werden. Da außer den oben genannten Studierenden-Aussagen keine Hinweise in dieser Richtung zu finden waren, erscheint der Test im Hinblick auf das Vermeiden von missverständlichen Ausdrücken, Sätzen oder Aufgabenstellungen geeignet und damit in Bezug auf diesen Aspekt hinreichend valide zu sein Gütekriterien und Kennwerte zum Instrument In diesem Kapitel sollen verschiedene Kennwerte und die Ergebnisse zu den Gütekriterienprüfungen für den Kompetenztest für Statusdiagnostik vorgestellt und diskutiert werden. Das Überprüfen hinsichtlich der Frage, ob das neu entwickelte Testinstrument geeignet ist, die statusdiagnostischen Kompetenzen der Studierenden reliabel und valide erfassen zu können, war eine der Forschungsfragen dieser Arbeit (Forschungsfrage 1). Im Einzelnen handelt es sich bei den untersuchten Gütekriterien und Kennwerten um die Validität, die Reliabilitäten, die Item-Fit-Werte, um Trennschärfen und um Itemschwierigkeiten. Da die beiden Auswerteverfahren (die Berechnung der diagnostischen Kompetenz nach der Item-Response-Theory (IRT) und die Berechnung nach der Klassischen Test Theorie (KTT)) unterschiedliche Werte lieferten, wurden diese analog zur Darstellung der Ergebnisse getrennt behandelt und die Ergebnisse einander gegenüber gestellt Überlegungen zur Validität Ein wichtiger Aspekt bei der Neuentwicklung von Testinstrumenten ist die Beachtung der Validität. Im vorliegenden Falle muss das Instrument im Sinne einer geeigneten Konstruktvalidität eine Passung aufweisen mit den der Arbeit zugrunde gelegten theoretischen Konstrukten: dem Diagnosekompetenzmodell (Kap ) mit den dazugehörigen Standards und dem Kompetenzbereich der naturwissenschaftlichen Erkenntnisgewinnung, auf den sich die mit dem Testinstrument anvisierte diagnostische Kompetenz beziehen soll. Beide Aspekte wurden bei der Konstruktion des Instrumentes berücksichtigt: Der Bezug zum Diagnosekompetenz-Modell wurde bereits in Kapitel 4.6 dargelegt. Der Bezug zum Kompetenzbereich der naturwissenschaftlichen Erkenntnisgewinnung ist dadurch gewährleistet, dass die ausgewählten Schülerantworten abgestimmt sind auf die vier Teilbereiche des Wissenschaftlichen Denkens (Scientific Reasoning), welche wiederum im Rahmenmodell naturwissenschaftsmethodischer Kompetenzen (Mayer, 2007) verankert sind. Darüber hinaus stammen die Schülerantworten ebenso wie die Kriterien der Leistungsniveaus aus der BiK-Studie und können hierüber als bereits validiert gelten im Hinblick auf ihre Passung zum Konzept der naturwissenschaftlichen Erkenntnisgewinnung. Der Inhaltsvalidität wird dadurch Rechnung getragen, dass die Schülerantworten reale Antworten darstellen. Damit ist sichergestellt, dass die für den Test ausgewählten Schülerantworten auch in der 151

158 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Schulpraxis in der gleichen Weise abgegeben werden und von Lehrkräften in dieser Form beurteilt werden müssen. Im Zusammenhang mit den Überlegungen zur Validität des Instrumentes sind auch die Ergebnisse aus der Videoanalyse zu nennen: Die hier vorgenommenen Untersuchungen erbrachten für den Testteil der Beurteilungen zu den Schülerleistungsniveaus keine Hinweise auf formale Verständnisschwierigkeiten (siehe hierzu Kapitel ) Reliabilitäten A. Reliabilitäten im Rahmen der IRT Winsteps liefert Reliabilitäten sowohl für Items als auch für Personen. Der im Rahmen der Rasch- Modellierung ausgegebene Wert der Person reliability kann dabei als analog betrachtet werden zu den im Rahmen der KTT üblicherweise berechneten Werten zur Inneren Konsistenz, wie z. B. dem Cronbachs Alpha, und ist in seiner Dimensionierung und Größenordnung grundsätzlich vergleichbar mit diesem (Boone & Rogan, 2005; Magno, 2009). Inhaltlich gibt der Wert der Person reliability an, wie zuverlässig die Fähigkeiten der Testpersonen anhand ihrer jeweilig erreichten Scores im Test geschätzt werden können (Boone & Rogan, 2005). Trotz der grundsätzlichen Vergleichbarkeit der beiden Reliabilitätswerte von IRT und KTT gibt es aber auch Unterschiede zwischen beiden. So sind die Person reliabilities der IRT im Gegensatz zu den Reliabilitätswerten der KTT stichprobenunabhängige Größen. Für den im Rahmen der Rasch-Modellierung ausgegebenen Wert der Item reliability findet sich kein Äquivalent in der KTT (Boone & Rogan, 2005). Boone & Rogan (2005), S. 36, beschreiben den Wert folgendermaßen: Thus, it serves as an index of how adequately the sample of items defines a line of inquiry across both the low and the high end of the variable under investigation. Damit ist der Wert der Item Reliabilität als Maß anzusehen, wie gut die Items auf dem Fähigkeits-Kontinuum verteilt sind, wie stabil sie dort angeordnet sind und wie gut sie dort als Indikatoren für bestimmte Fähigkeitsniveaus dienen können. Darstellung der ermittelten Reliabilitäten (IRT) Tabelle 6.27 zeigt die ermittelten Person- und Item-Reliabilitäten, bezogen auf die 64 Items des Kompetenztests für Statusdiagnostik. Tab. 6.27: Reliabilitäten zum Kompetenztest für Statusdiagnostik, bezogen auf alle 64 Items Kodierung der Items* nach richtig/falsch bzw. 0/1 kodierte Items Person reliabilities Kohorte 1 (N=95) 152 Kohorte 2 (N=121) Kohorte 1 (N=95) Item reliabilities Kohorte 2 (N=121) 0,51 0,52 0,91 0,94 Original-Niveauzuweisungen 0,76 0,77 0,98 0,99 * = In der Spalte aufgeführt ist die Kodierung der Items, die als Datengrundlage zur Berechnung der angegebenen Reliabilitäten verwendet wurden.

159 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Diskussion der ermittelten Reliabilitäten (IRT) Wie Tab zu entnehmen ist, liefern die Berechnungen zu den Person reliabilities und Item reliabilities jeweils sehr ähnliche Werte im Vergleich von Kohorte 1 und Kohorte 2. Im Rahmen der Gütekriterienprüfung ist dies als positiv zu bewerten und zeigt die Reproduzierbarkeit der Ergebnisse an. Item Reliabilität: Mit Reliabilitätswerten von 0,91 (Kohorte 1) bzw. 0,94 (Kohorte 2) auf Grundlage der nach richtig/falsch kodierten Daten (welche auch die Datengrundlage liefern für die Berechnungen zur statusdiagnostischen Kompetenz, vgl. Kapitel 4.4.5) kann die Item reliability des Instrumentes als sehr gut bezeichnet werden. Offenbar decken die Items das Fähigkeitskontinuum der Studierenden gut ab und erweisen sich als hoch reliabel hinsichtlich ihrer Anordnung auf diesem. Person Reliabilität: Etwas weniger gut präsentieren sich die Werte zur Person reliability des Instrumentes mit Werten von 0,51 (Kohorte 1) und 0,52 (Kohorte 2). Aus den Werten lässt sich schließen, dass das Antwortmuster der Studierenden nicht durchgängig konsistent war und zumindest einige der Probanden einige Items entgegen der Erwartung beantwortet haben. Dies liegt möglicherweise an einzelnen weniger geeigneten Items, welche von den Studierenden in unterschiedlicher Weise verstanden wurden oder/und daran, dass zur korrekten Beurteilung dieser Items nicht nur die diagnostische Kompetenz und die Itemschwierigkeit eine Rolle gespielt hatten, sondern auch ein oder mehrere andere Parameter, welche bei den Probanden aber in unterschiedlicher Weise ausgeprägt waren. Für zukünftige Studien weisen die Werte darauf hin, dass es sinnvoll sein kann, die Auswahl der Items noch einmal zu überprüfen und einzelne, weniger geeignete Items auszutauschen. Weitergehende Informationen bezüglich der Güte und Passung einzelner Items sind bei der Auswertung nach der IRT mit Hilfe der Item-Fit-Werte möglich, die in Kapitel behandelt werden. B. Reliabilitäten im Rahmen der KTT Grundsätzlich beschreibt die Reliabilität als Testgütekriterium die Messzuverlässigkeit eines Tests. Das heißt sie gibt an, inwiefern die Ergebnisse bei einer vergleichbaren Stichprobe und unter vergleichbaren Bedingungen zuverlässig wiederholbar sind. Im Rahmen des Reliabilitätskonzeptes der KTT wird die Reliabilität definiert als Verhältnis zwischen der Varianz der wahren Werte und der Varianz der Messwerte und drückt aus, wie groß der Fehleranteil bei einer Messung ist (Glug, 2009). Da in der Praxis die wahre Varianz und die Messfehler der Testpersonen nicht bekannt sind, werden in der KTT üblicherweise vier Arten von Reliabilitätsschätzungen verwendet: Retest-Reliabilität, Paralleltest-Reliabilität, Split-Half-Reliabilität und Interne Konsistenz. Zur Schätzung der Internen Konsistenz wird in der Literatur häufig die Formel von Cronbach (vgl. Cronbach, 1951) verwendet, welche auf die Varianz der Items im Vergleich zur Gesamttestvarianz bzw. Gesamtskalenvarianz abzielt. Auch im Rahmen dieser Arbeit wurde überwiegend eine Bestimmung der Cronbachs Alpha durchgeführt. Cronbachs Alpha können berechnet werden für das gesamte Testinstrument oder auch 153

160 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus für einzelne Skalen. Bei der Interpretation der Werte ist grundsätzlich zu berücksichtigen, dass die im Rahmen der KTT berechneten Reliabilitäten stichprobenabhängig sind und auch abhängig von der Anzahl der einbezogenen Items und der Anzahl der mit dem Item verbundenen Antwortmöglichkeiten (Becker, 2004). Darstellung der ermittelten Reliabilitäten (KTT) Da jedem der Studierenden im Statusdiagnostik-Test nur zwei der vier Testhefte vorlagen und dadurch keiner der Studierenden alle 64 Items (= Schülerantworten) beurteilt hatte, war es nicht möglich, einen Wert für die Reliabilität des gesamten Instrumentes (d. h. über alle 64 Items) zu berechnen: Das Statistikprogramm SPSS setzt zur Berechnung eines auf das gesamte Instrument bezogenen Cronbachs Alpha voraus, dass die einbezogenen Probanden auch alle Items bearbeitet haben. Aus dem gleichen Grund konnte auch keine Reliabilitäten für die einzelnen Niveaustufen (N1 bis N4) berechnet werden. Auch hier waren die Items zu den jeweiligen Niveaustufen über alle vier Teilbereiche von Scientific Reasoning hinweg verteilt, so dass keiner der Probanden alle Items einer Niveaustufe bearbeitet hatte. Von daher konnte im Rahmen der KTT eine Berechnung der Reliabilitäten nur innerhalb der einzelnen Teilbereiche erfolgen, da nur hier jeweils alle Studierenden, die diesen Teilbereich bearbeitet hatten, auch alle dort vorhandenen 16 Items bearbeitet hatten. Berücksichtigt man diese Einschränkungen, wurden nach dem Auswertungsverfahren der KTT die in den Tabellen 6.28 und 6.29 aufgelisteten Reliabilitäten ermittelt: Tab. 6.28: Cronbachs Alpha (α) zum Testinstrument bei Kohorte 1 (N=95) Teilbereiche von Scientific Reasoning N Itemanzahl α (Codierung nach richtig/falsch) α (Original- Niveauzuweisungen) Fragestellung ,40 0,67 Hypothese ,45 0,66 Untersuchung planen ,50 0,77 Daten analysieren ,53 0,49 Tab. 6.29: Cronbachs Alpha (α) zum Testinstrument bei Kohorte 2 (N=121) Teilbereiche von Scientific Reasoning N Itemanzahl α (Codierung nach richtig/falsch) α (Original- Niveauzuweisungen) Fragestellung ,48 0,61 Hypothese ,42 0,72 Untersuchung planen ,30 0,74 Daten analysieren ,52 0,55 154

161 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Diskussion der ermittelten Reliabilitäten (KTT) Die Reliabilitäten für die Teilbereiche von Scientific Reasoning bewegen sich für die nach dem dichotomen Antwortformat richtig / falsch kodierten Items mit einer Ausnahme (0,3) bei Werten zwischen 0,4 und 0,53 und befinden sich damit in einem Bereich, der nach der klassischen Sichtweise als nicht zufriedenstellend bezeichnet werden muss. Allerdings ist zu bedenken, dass es sich hier um Werte handelt, die nur für einzelneteilbereiche und nicht für das vollständige Instrument berechnet wurden. Als weitere Erklärung für die niedrigen Werte sollen folgende Überlegungen angeführt werden: Wie bereits beschrieben führt das Reliabilitätskonzept der KTT dazu, dass niedrigere Itemanzahlen häufig mit Reliabilitätseinbußen verbunden sind (Becker, 2004). Auch die Kodierung der Original-Daten in ein (kürzeres) dichotomes Antwortformat (d. h. in die Unterscheidung nach richtig / falsch ) trägt vermutlich zu einer Verschlechterung der Werte bei. Unterstützt wird letzteres durch den Vergleich der Reliabilitätswerte für die Original-Niveaueinschätzungen, welche ebenfalls in den Tabellen 6.28 und 6.29 aufgeführt sind. Hier sind die Reliabilitäten überwiegend als akzeptabel bis gut zu bezeichnen und bewegen sich mit zwei Ausnahmen bei Werten zwischen 0,6 und 0,7. Aufgrund der zuvor genannten Gründe kann davon ausgegangen werden, dass der Reliabilitätswert für das gesamte Instrument deutlich höher liegen würden als für die einzelnen Teilbereiche von Scientific Reasoning. Trotzdem kann auch hier analog zur Interpretation der Werte aus der IRT geschlossen werden, dass das Antwortmuster der Studierenden nicht durchgängig konsistent war und zumindest einige der Probanden Items entgegen der Erwartung beantwortet haben. Als Gründe hierfür sollen an dieser Stelle wieder die gleichen Argumente angeführt werden wie zuvor bei der Diskussion der nach der IRT berechneten Werte beschrieben: Möglicherweise gab es einzelne Items, welche von den Studierenden in unterschiedlicher Weise verstanden wurden oder/und zur korrekten Beurteilung der Items hat nicht nur die diagnostische Kompetenz eine Rolle gespielt, sondern auch ein oder mehrere andere Parameter. Dafür, dass letzteres ein grundsätzliches Problem darstellt, sprechen einige Befunde aus der Forschungsliteratur. So wird das Problem mangelnder Reliabilität bei diagnostischen Urteilen und von diagnostischer Kompetenz in der Studie von Lintorf et al. (2011) ausführlich diskutiert. In dieser Studie, die sich mit der Zuverlässigkeit von diagnostischen Lehrerurteilen beschäftigt und hier die Reliabilität verschiedener Urteilsmaße bei der Einschätzung von Aufgabenschwierigkeiten betrachtet, wurden Untersuchungen zur Paralleltestreliabilität und zur Internen Konsistenz der von Schrader & Helmke (1987) vorgeschlagenen diagnostischen Urteilskomponenten (der Rangordnungs-, der Niveauund der Differenzierungskomponente) vorgenommen. Ihre Ergebnisse zeigen für alle drei Komponenten, dass die Urteilsakkuratheit bei den beiden parallelen Testungen (durchgeführt mit zwei vergleichbaren Aufgaben, die aus jeweils sechs Items bestanden) deutlich variierte (Lintorf et al., 2011). Auch andere Studien kommen zu dem Befund, dass die Lehrerurteile teilweise deutlich mit den 155

162 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus als Parallelmessung gedachten Aufgabenbeispielen bzw. den (Re-)Testungen variieren (Lorenz & Artelt, 2009). Als Gründe für die mangelnde Reliabilität führen Lintorf und Mitarbeiter (2011) neben methodischen Aspekten eine möglicherweise vorhandene Mehrdimensionalität diagnostischer Kompetenz an (Lintorf et al., 2011, S. 118). In ihrer Studie erbrachten konfirmatorische Faktorenanalysen keinen Beleg für eine Eindimensionalität der Urteilsakkuratheit. Auch Spinath (2005) kommt in ihrer Studie zu dem Ergebnis, dass die Annahme eines eindimensionalen Konstruktes diagnostischer Kompetenz verworfen werden sollte. Neben der Feststellung, dass diagnostische Urteile anscheinend häufig nicht reliabel sind, folgern Lintorf und Mitarbeiter (2011) aus ihren Ergebnissen, dass eine Interpretation der gemessenen Werte zur Internen Konsistenz nicht möglich ist, da der Nachweis von Eindimensionalität eine Voraussetzung dafür sei, dass Cronbachs Alpha die Reliabilität zuverlässig schätzt (Lintorf et al., 2011, mit Bezug auf Shevlin, Miles, Davies & Walker, 2000). Gerade letzter Punkt könnte auch für die vorliegende Studie von Relevanz sein. Auch hier wird von einer mehrdimensionalen Struktur der diagnostischen Kompetenz ausgegangen. Entsprechend der oben genannten kritischen Betrachtung der Aussagekraft der Reliabilitätswerte im Konzept der KTT wird für diese Arbeit das Fazit gezogen, dass eine Analyse der ermittelten Werte zwar Hinweise auf noch nicht ausreichende Testgüte liefert, bei der Interpretation der Werte aber Vorsicht geboten ist. Erweiternd für die Interpretation der Reliabilitätswerte geben Lintorf et al. (2011) zu bedenken und das soll auch für die vorliegende Arbeit Grundlage der Interpretationen sein dass sowohl für die Ausprägung als auch für die Reliabilität diagnostischer Kompetenzen bisher noch keine Maßstäbe für die zu erwartende Höhe der Indikatoren vorliegen (Lintorf et al., S.116; Lorenz & Artelt, 2009). Gesamtdiskussion der im Rahmen der IRT und der KTT ermittelten Reliabilitäten Grundsätzlich scheint für die Reliabilitäts-Analyse der Daten das Konzept der IRT vorteilhafter zu sein, da sich über die IRT Reliabilitätswerte berechnen lassen, die nach der KTT nicht möglich sind, wie die Item reliability und ein Wert für das komplette Instrument. Zusätzlich besteht bei der IRT die Möglichkeit, über die Item-Fit-Werte weniger geeignete Items zu identifizieren. Neben der Reliabilitätsanalyse über die Person- und Item reliabilities und die Werte zur Inneren Konsistenz kann für die vorliegende Studie auch die Reproduzierbarkeit der Testergebnisse bei den beiden Studierendenjahrgängen als Gütekriterium zur Reliabilität herangezogen werden. So konnte gezeigt werden, dass sich nicht nur die Verteilung der Niveauzuweisungen auf die vier Schülerleistungsniveaus sehr zuverlässig wiederholte (vgl. Kapitel 6.2.2). Darüber hinaus lieferten auch die berechneten Werte für die statusdiagnostischen Kompetenzen der Studierenden sehr ähnliche Ergebnisse im Vergleich der beiden Kohorten (vgl. Kapitel und 6.2.6). Da beide in Bezug auf die Zusammensetzung der Probanden sehr ähnlich waren und auch das Vorwissen der Probanden zum Zeitpunkt der beiden Testungen vergleichbar war (vgl. Kapitel 4.7), können diese Befunde als positiv im Sinne einer Paralleltestreliabilität gewertet werden. 156

163 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Item-Fit-Werte Im Rahmen der IRT ist es möglich, neben den im nächsten Kapitel diskutierten Itemschwierigkeiten weitere Gütekriterien für die Items (und die Güte des verwendeten Rasch-Modells) anzugeben. Als ein häufig benutztes Maß werden dabei die sogenannten Item-Fit-Werte herangezogen. Mit diesen Werten, die für jedes der Items ausgewiesen werden, wird geprüft, ob der durch das Modell und die geschätzten Itemparameter vorhergesagte theoretische Verlauf der Antworthäufigkeiten (d. h. der Verlauf der Itemscores in Abhängigkeit von den geschätzten Fähigkeitsausprägungen) mit den beobachteten Antworthäufigkeiten übereinstimmt (Hartig, 2009, S.307; für Details siehe Embretson & Reise, 2000). Über die Item-Fit-Werte können problematische, zum Modell nicht passende Items erkannt und herausgefiltert werden. Üblich bei der Betrachtung der Item-Fit-Werte sind der sogenannte Infit-Wert und der Outfit-Wert. Der Infit-Wert beschreibt das Antwortverhalten der Probanden bei Items, deren Schwierigkeit im mittleren Bereich der Personenfähigkeiten liegt, der Outfit-Wert das Antwortverhalten der Probanden bei Items, deren Schwierigkeit am Rande der Fähigkeitsskala, also im oberen bzw. unteren Bereich der Personenfähigkeiten liegt. Überschreiten die Item-Fit-Werte bestimmte Grenzen (welche im Folgenden genauer beschrieben werden), lässt dies bei den Items auf ein ungewöhnliches, d. h. nicht zum Modell passendes Antwortmuster schließen. Dieses kann z. B. bei Items gegeben sein, bei denen verstärkt das Phänomen des lucky guess auftritt, oder bei Items, die nicht zur Grundannahme der Rasch-Modelle passen, aus raschhomogenen Items zu bestehen. Eine Verletzung der Forderung von raschhomogenen Items tritt dann auf, wenn der Zusammenhang zwischen Lösungswahrscheinlichkeit und Personenfähigkeit bei den Items unterschiedlich stark ist. Für raschhomogene Items wird für alle Items ein gleichartiger Zusammenhang gefordert. Eine detaillierte Auflistung aller Item-Fit-Werte aus der Analyse der Testergebnisse von Kohorte 1 und Kohorte 2 findet sich zusammen mit der Angabe der Itemschwierigkeiten im Anhang. Entscheidend für die Betrachtung dieser von Winsteps ausgegebenen tabellarischen Übersichten sind die jeweils unter den Infit- und Outfit-Werten aufgeführten MNSQ-Werte (= Mean Square) und die ZSTD-Werte. Hierbei liegen optimale MNSQ-Werte beim Wert 1. Dies bedeutet, dass die beobachteten Abweichungen im Antwortverhalten den erwarteten Abweichungen entsprechen. Als Grenzen für akzeptable MNSQ-Werte werden häufig der Wert 0,75 als minimale Untergrenze und der Wert 1,33 als obere Grenze vorgeschlagen (Becker, 2004; zitiert nach Adams & Khoo, 1996). Die ZSTD-Werte sind t-test-werte und beziehen sich ebenfalls auf die erwarteten und beobachteten Abweichungen. Bei der Betrachtung des ZSTD-Wertes werden im Allgemeinen Werte über 2.0 und unter -2,0 als signifikant und damit ungeeignet erachtet (Becker, 2004; Boone & Rogan, 2005). Die genannten Grenzen gelten sowohl für die Infit-Werte als auch für die Outfit-Werte. Konkret bedeuten schlechte Item-Fit-Werte, dass die zugehörigen Items eine weniger gute Modellpassung aufweisen und von daher einer kritischen Betrachtung unterzogen werden sollten. 157

164 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Betrachtet man die Infit- und Outfit-Werte (d. h. die MNSQ-Werte und die ZSTD-Werte) aller 64 nach richtig / falsch kodierten Items aus den Testungen bei Kohorte 1 und Kohorte 2, so weisen entsprechend der oben angegebenen Grenzwerte insgesamt 5 Items bei Kohorte 1 und 9 Items bei Kohorte 2 keine zufriedenstellenden Fit-Werte auf (vgl. Anhang). Im Vergleich der beiden Kohorten zeigt aber nur das Items Nr. 52 Fit-Werte, die sich bei beiden Kohorten außerhalb der Grenzwerte befinden. Zusammen mit der Tatsache, dass die Abweichungen von den Grenzwerten meist nur gering sind, werden die Items nach Prüfung ihrer Fit-Werte als zwar in Einzelfällen überarbeitungswürdig, insgesamt aber als zufriedenstellend modellkompatibel erachtet Itemschwierigkeiten und Trennschärfen der Items A. Itemschwierigkeiten und Trennschärfen im Rahmen der IRT Die Schwierigkeit eines Items im dichotomen Raschmodell ist definiert als derjenige Punkt (in Abb mit σ bezeichnet) auf seiner Itemcharakteristischen Kurve (ICC), an dem die Lösungswahrscheinlichkeit 50 % beträgt (Hartig, 2009). Da das Raschmodell in seinen Grundannahmen von raschhomogenen Items ausgeht, weisen alle ICCs den gleichen Verlauf auf und unterscheiden sich lediglich durch ihre Lage entlang der x-achse und damit durch ihre Schwierigkeit. Es resultiert ein Bündel von parallelen ICCs. Abb. 6.11: Itemcharakteristische Kurven dreier Items im Rasch-Modell Legende: Abszisse zeigt die Personenfähigkeiten; Ordinate zeigt die Lösungswahrscheinlichkeiten Zur Beschreibung der Itemschwierigkeiten wird von Winsteps ein metrischer Wert ausgegeben, der sich bei entsprechender Skalierung der Steuerdatei im Bereich zwischen 0 bis 100 bewegt. Die Werte der Itemschwierigkeiten nach der IRT entsprechen jedoch im Unterschied zu der Auswertung nach der KTT nicht den Lösungsquotienten der Items, da zur Bestimmung der Itemschwierigkeiten zusätzlich zum Score der Probanden (d. h. der von ihnen erreichten Summe an richtigen Beurteilungen) auch deren individuelle Personenfähigkeiten einbezogen werden. Weiterhin sind im Unterschied zu den Lösungsquotienten nach der KTT die von Winsteps ausgegebenen Itemschwierigkeiten anders herum 158

165 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus gerichtet, d.h. es gilt: Je höher der Wert, desto schwieriger das Item, bzw. je niedriger der Wert, desto leichter das Item. Darstellung der Ergebnisse zu den Itemschwierigkeiten (IRT) Tab. 6.30: Verteilung der Itemschwierigkeiten (Auswertung nach IRT) Itemschwierigkeit IRT-Werte zur Itemschwierigkeit Itemanzahl Kohorte 1 Itemanzahl Kohorte 2 Spanne Kohorte 1 Spanne Kohorte 2 sehr leicht / (7,38) leicht ,49 25,83 mittel schwer ,39 sehr schwer / 82,89 Die genauen Werte zu den Itemschwierigkeiten aller 64 Items können den beiden Tabellen im Anhang entnommen werden (Anhang 13: Item-Fit-Werte; Für die Itemschwierigkeiten zu beachten sind hier die Werte unter der Überschrift Measure ). In der Tabelle 6.30 für die Spanne angegeben ist jeweils nur der maximale und der minimale Wert der Spanne. Diskussion der Ergebnisse zu den Itemschwierigkeiten (IRT) Entsprechend der in Tab aufgelisteten Werte zeigt sich für beide Kohorten eine glockenförmige Verteilung der Itemschwierigkeiten, mit gar keinem (Kohorte 2) bzw. nur jeweils einem Item (Kohorte 1) in den extremen Bereichen sehr schwer und sehr leicht. Besonders viele Items sind im mittleren Schwierigkeitsbereich zu finden. In der entsprechenden Forschungsliteratur wird für eine sinnvolle Verteilung der Itemschwierigkeiten folgendes angenommen: Itemschwierigkeiten um 50 können bei dichotomen Items im Hinblick auf die Maximierung der Varianz und der Trennschärfe (zur Trennschärfe vgl. die Ausführungen weiter unten in diesem Kapitel) als optimal gelten (Becker, 2004). Bei Betrachtung eines Itempools ist es allerdings wichtig, dass sich die Itemschwierigkeiten insgesamt so verteilen, dass sie die Fähigkeiten der Testpersonen abbilden können. Es sollte also möglichst zu jeder Fähigkeitsausprägung passende Items geben (Becker, 2004). Betrachtet man unter diesen Bedingungen die Items des Testinstrumentes, so kann die Auswahl der Items hinsichtlich ihrer Schwierigkeit als gelungen angesehen werden. Die oben genannte Schlussfolgerung wird unterstützt durch die beiden Person-Item-Maps für Kohorte 1 und Kohorte 2 (siehe Abb. 6.9 und 6.10 in Kapitel 6.2.5). In den Person-Item-Maps werden die Personenfähigkeiten und die Itemschwierigkeiten auf derselben Skala abgebildet. Den entsprechenden Maps kann entnommen werden kann, dass die Items des Testinstrumentes tatsächlich über die gesamte Fähigkeitsachse der Studierenden verteilt liegen und ein Maximum im mittleren Fähigkeitsbereich aufweisen. Auch kann den Abbildungen entnommen werden, dass sich der Mittelwert der Itemschwierigkeiten auf nahezu der gleichen Höhe befindet wie der Mittelwert der Personenfähigkeiten. Dies zeigt an, dass das Instrument gut abgestimmt ist auf die Personenfähigkeiten, der Test sich also weder als zu leicht noch als zu schwer erweist. Nach der 159

166 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Theorie zu Rasch-Modellen ist die Messgenauigkeit eines Tests bei Itemschwierigkeiten, die nahe an den Personenfähigkeiten liegen, besonders hoch. Deshalb sollte bei der Konstruktion eines Tests immer darauf geachtet werden, dass sich die Mittelwerte der Itemschwierigkeiten und der Personenfähigkeiten auf einem ähnlichen Niveau befinden. Das Erfüllen auch der hier genannten Kriterien zeigt die Eignung des Instrumentes für das Messen der statusdiagnostischen Kompetenz an. Betrachtet man die Reihenfolge der Itemschwierigkeiten im Vergleich der Testergebnisse der beiden Studierendenjahrgänge (diese sind den Darstellungen der beiden Person-Item-Maps, Abb. 6.9 und 6.10 zu entnehmen), so zeigt sich, dass die beiden Reihenfolgen zwar nicht deckungsgleich, aber doch sehr ähnlich sind. Damit zeigt sich auch für das Gütekriterium der Stabilität der Items entlang der Fähigkeitsachse der Probanden ein positiver Befund. Die Stabilität der Items ist ein Gütekriterium, welches auch in den Wert der Item reliability einfließt (Boone & Rogan, 2005). Trennschärfe Im Rahmen von Rasch-Modellen wird für alle Items ein gleichartiger Zusammenhang zwischen Personenfähigkeit und Lösungswahrscheinlichkeit angenommen. Es resultiert für alle Items der gleiche, in Abb dargestellte Verlauf. Die Items unterscheiden sich nur in ihrer Schwierigkeit. Als Konsequenz zeigt sich in der graphischen Darstellung aller Items ein Satz von parallelen Itemcharakteristischen Kurven (ICCs). Die Trennschärfe eines Items im Rasch-Modell ist definiert als der Wendepunkt in seiner Itemcharakteristischen Kurve. Es ist der Punkt, an denen die Steigung in den Kurven am größten ist. Hier liegt die beste Trennung in Bezug auf die Personenfähigkeiten vor: In dem Bereich der größten Steigung können selbst Probanden mit nur kleinen Unterschieden in ihren Personenfähigkeiten anhand der unterschiedlichen Lösungsquotienten unterschieden werden (vgl. Abb. 6.11). Da das Rasch-Modell raschhomogene Items postuliert, folgt daraus, dass zumindest in der Annahme alle Items die gleiche Trennschärfe besitzen. B. Itemschwierigkeiten und Trennschärfen im Rahmen der KTT Die Itemschwierigkeiten der nach richtig/falsch kodierten Daten sind nach der KTT gleichzusetzen mit den Lösungsquotienten der Items. Hier gilt also für die Itemschwierigkeiten im Gegensatz zur IRT: Je höher der Wert, desto leichter das Item. Entsprechendes gilt umgekehrt: Je niedriger der Wert, desto schwieriger das Item. Darstellung der ermittelten Itemschwierigkeiten Teilt man die Itemschwierigkeiten in die Kategorien sehr schwer, schwer, mittel, leicht und sehr leicht, ergeben sich die in Tab aufgelisteten Werte. Wie der Tabelle zu entnehmen ist, liegen die berechneten Werte für die Itemschwierigkeiten zwischen 0,02 und 1,0, d. h. decken nahezu den gesamten Bereich von Lösungswahrscheinlichkeiten zwischen 0 % bis 100 % ab. 160

167 6 Statusdiagnostische Kompetenz für das Beurteilen von Schülerleistungsniveaus Tab. 6.31: Verteilung der Itemschwierigkeiten (Auswertung nach KTT) Itemschwierigkeit Lösungsquotient Itemanzahl Kohorte 1 Itemanzahl Kohorte 2 Spanne Kohorte 1 Spanne Kohorte 2 Sehr schwer 0,0 0,2 6 7 (0,02) 0,07 schwer 0,2 0, ,11 mittel 0,4 0, leicht 0,6 0, Sehr leicht 0,8 1, ,0 0,95 Diskussion der ermittelten Itemschwierigkeiten (KTT) Wünschenswert für Messinstrumente ist nach der KTT eine Verteilung der Itemschwierigkeiten über den Bereich von 0,2 bis 0,8, wobei vor allem der Bereich, innerhalb dem die Probandenfähigkeiten liegen, mit ausreichend vielen Items vertreten sein sollte. Für das hier vorgestellte Instrument zeigt sich die Verteilung der Itemschwierigkeit über die Messspanne nach den Maßstäben der KTT als gelungen. Besonders der mittlere Schwierigkeitsbereich, in dem die meisten Personen ihr Fähigkeitsmaximum haben sollten, wird durch besonders viele Items abgedeckt. Trennschärfe Die Trennschärfe im Sinne der KTT beschreibt, wie gut das gesamte Testergebnis aufgrund der Beantwortung eines einzelnen Items vorhersagbar ist (Bortz & Döring, 2006). Eine hohe Trennschärfe bedeutet also, dass das Item zwischen den Probanden im Sinne des Gesamttests zu differenzieren vermag (d. h. Probanden mit hoher Merkmalsausprägung können ein Item richtig lösen, Probanden mit niedriger dagegen nicht). Die Trennschärfe wird durch den Trennschärfekoeffizienten dargestellt. Dieser wird für jedes einzelne Item berechnet und beschreibt die Korrelation zwischen einem Einzelitem und dem Gesamttestscore. Über SPSS kann diese Information grundsätzlich abgerufen werden im Rahmen der Reliabilitätsanalyse. Da aber das Testdesign des hier betrachteten Instrumentes für Statusdiagnostik eine Analyse der Reliabilitäten bezogen auf den Gesamttest nicht zulässt (vgl. die Ausführungen in Kapitel 6.3.3), wurden im Rahmen der vorliegenden Arbeit bei der Betrachtung der Ergebnisse der KTT für die Items des Tests keine Trennschärfebestimmung durchgeführt. 161

168 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Die Untersuchungen zur dritten Erhebung (Abb. 7.1) dienten schwerpunktmäßig dem Erfassen der Studierenden-Kompetenzen für das Analysieren und Beurteilen von Schüler-Experimentierprozessen im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Abb. 7.1 zeigt das Untersuchungsdesign zur Arbeit, wobei die in diesem Kapitel betrachteten Untersuchungen der dritten Erhebung in der Abbildung optisch hervorgehoben sind. Abb. 7.1: Untersuchungsdesign zur Arbeit (der Erhebungszeitpunkt 3 ist optisch hervorgehoben) 7.1 Zielsetzungen und Fragestellungen zur dritten Erhebung Da ein geeignetes Testinstrument zum Erfassen der statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen von Schüler-Experimentierprozessen nicht vorlag, musste ein solches im Vorfeld der geplanten Untersuchungen neu entwickelt werden. Die Eignung und Passung des Instrumentes wurde im Rahmen der Forschungsfrage 1 untersucht. Im Anschluss an die Entwicklung des neuen Instrumentes wurde es eingesetzt für Untersuchungen zu den Ausprägungen der oben genannten diagnostischen Kompetenzen (Forschungsfrage 2). Ziel war es dabei, die auf den Schüler-Experimentierprozess bezogenen statusdiagnostischen und prozessdiagnostischen Kompetenzen der Studierenden getrennt zu erfassen, aber auch, beide Formen im Vergleich zu betrachten. Das im Rahmen dieser Arbeit entwickelte kombinierte Testinstrument weist ein Design

169 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess auf, welches diesen Zielen gerecht werden kann (nähere Ausführungen hierzu finden sich in Kapitel 4.5). Das Design macht zusätzlich auch die Umsetzung eines weiteren Ziels möglich: Durch das getrennte Erfassen der prozessdiagnostischen und der statusdiagnostischen Kompetenzen konnte ein Vergleich zwischen den in der dritten Erhebung erfassten statusdiagnostischen Kompetenzen für das Beurteilen des Schülerexperimentierprozesses und den zum zweiten Erhebungszeitpunkt erfassten statusdiagnostischen Kompetenzen für das Beurteilen von Schülerleistungsniveaus im Bereich der naturwissenschaftlichen Erkenntnisgewinnung erfolgen. Neben den Untersuchungen zu den Ausprägungen der diagnostischen Kompetenzen sollte im Rahmen der Erhebung 3 - analog zu Erhebung 2 - betrachtet werden, inwiefern die hier erfassten diagnostischen Kompetenzen der Studierenden in Zusammenhang stehen mit ihrem fachmethodischen Vorwissen und ihrem Wissenschaftsverständnis (Forschungsfrage 3) und mit verschiedenen Personenund Kontextvariablen wie Geschlecht, Abiturnote, Alter der Probanden und die von den Studierenden gewählte Lehramtsform (Forschungsfrage 4). Neben dem (objektiven) Erfassen der oben genannten Kompetenzen mit Hilfe des kombinierten Instrumentes wurden begleitend wieder auch die subjektiven Selbsteinschätzungen der Studierenden bezüglich ihres Professionswissens und ihres diagnostischen Wissens erhoben. Entsprechend den Auswertungen zur zweiten Erhebung sollte auch hier geprüft werden, inwieweit Zusammenhänge mit den gemessenen diagnostischen Kompetenzen bestehen und inwieweit im Laufe des Studiums Veränderungen festzustellen sind im Selbstverständnis der eigenen diagnostischen Fähigkeiten und des eigenen Professionswissens (Forschungsfrage 5). 7.2 Darstellung und Diskussion der Ergebnisse Charakterisierung der Probandengruppe Insgesamt nahmen 86 Probanden an den Untersuchungen zum Erhebungszeitpunkt 3 teil. Bei der Auswertung stellte sich allerdings heraus, dass hiervon nur ein Teil tatsächlich der Kohorte 2 angehört hatte, die restlichen Probanden verteilten sich auf andere Fachsemester, überwiegend das von Kohorte 1. Tab. 7.1: Verteilung der Probanden auf die Fachsemester (Erhebungszeitpunkt 3) Fachsemester Anzahl der Probanden im Test bei Erhebung 3 Kohorten-Zugehörigkeit Kohorte Kohorte keine Angabe 1 alle

170 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Der Grund für die so unterschiedliche Fachsemesterzugehörigkeit ist vermutlich in den in Kapitel 4.1 beschriebenen Umständen zu suchen: Je weiter die Studierenden in ihrem Studium voranschreiten, desto uneinheitlicher gestalten sich die von ihnen bereits absolvierten Modulveranstaltungen. Betrachtet man die in Tab. 7.1 dargestellten Ergebnisse genauer, so ist zu erkennen, dass die Studierenden aus Kohorte 2 mit N = 57 Personen zwar den Hauptteil der erfassten Probanden ausgemacht hatten, aber auch die Studierenden von Kohorte 1 mit N = 19 Personen nennenswert vertreten waren. Aufgrund der für statistische Berechnungen aber doch geringen Anzahl wurde für Kohorte 1 bei dieser dritten Erhebung auf eine umfangreiche Auswertung verzichtet. Geschlechterverteilung und Verteilung der Lehramtsformen Speziell für die Studierenden aus Kohorte 2 ergaben sich in Bezug auf die Personen- und Kontextvariablen studiertes Lehramt und Geschlecht folgende Verteilungen: Tab. 7.2: Geschlechterverteilung und Verteilung der Lehramtsstudiengänge (Kohorte 2) weiblich männlich Haupt- und Realschullehramt Gymnasial- Lehramt Förderschul- Lehramt Geschlecht Studiertes Lehramt Summe Die Verteilung der Geschlechter zeigt sich damit in einem ähnlichen Verhältnis wie auch schon bei Erhebung 1 und Erhebung 2 ermittelt. Für die Verteilung auf die verschiedenen Lehramtsformen zeigte sich dagegen, dass fast ausschließlich Studierende des Haupt- und Realschullehramtes erfasst worden waren. Insbesondere angehende Gymnasiallehrkräfte waren mit nur einer Person quasi nicht vertreten, so dass eine statistische Analyse dieser Probandengruppe nicht durchführbar war Statusdiagnostische Beurteilungen zum Schülerarbeitsheft Ergebnisdarstellung zu den statusdiagnostischen Beurteilungen der Studierenden Die Auswertung der Studierendenbeurteilungen zum statusdiagnostischen Teil des kombinierten Instrumentes mit den letztendlich einbezogenen 17 Items erfolgte entsprechend den in Kapitel dargelegten Ausführungen primär auf der Ebene der einzelnen Items. Abb. 7.2 stellt die mit dem genannten Teilinstrument ermittelten Ergebnisse in Form eines Balkendiagramms dar. In der Abbildung graphisch veranschaulicht ist für jedes Item der Anteil an Probanden (aus Kohorte 2), der das jeweilige Item korrekt beantwortet hatte. Vom Zahlenwert her entspricht dies gleichzeitig dem Lösungsquotienten des Items. Im Sinne der vorgenommenen Operationalisierung stellt der Wert aber auch einen Messwert für die statusdiagnostische Kompetenz dar: Es ist der Anteil der am Test beteiligten Studierenden, die den mit dem Item verbundenen und für die Beurteilung von Schülerexperimentierprozessen relevanten Aspekt korrekt beurteilt hatten. 164

171 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess In Abbildung 7.2 weiterhin enthalten sind die Nummern der Items, die Angabe des Teilbereichs (H, P oder D) auf den sich das Item bezieht, eine sinngemäße Wiedergabe des Itemwortlautes und für jedes Item in Klammern die Angabe der zugehörigen Antwortmöglichkeiten. Tab. 7.3 liefert ergänzend zur Abbildung 7.2 den durchschnittlichen Lösungsquotienten zum statusdiagnostischen Teil des kombinierten Kompetenztests, entsprechend dem durchschnittlichen Anteil der im Test erreichten korrekten Beurteilungen. Ergänzt wird dieser Wert durch eine Angabe der zugehörigen Standardabweichung und einer Angabe des Medians. Der durchschnittliche Anteil an im Test abgegebenen korrekten Beurteilungen stellt analog zu den Einzelitems einen Messwert dar zur durchschnittlichen statusdiagnostischen Kompetenz der am Test beteiligten Studierenden für das Beurteilen des Schülerexperimentierprozesses anhand des Schülerarbeitsheftes. Zu berücksichtigen ist hier allerdings, dass der Wert nicht in seiner absoluten Höhe betrachtet werden kann, da er auch abhängig ist von der Testschwierigkeit. Abb. 7.2: Beurteilungen der Studierenden aus Kohorte 2 (mit N=57) zu den 17 Items des Teilinstrumentes für Statusdiagnostik. Die Balken zeigen den Anteil der Studierenden, die das jeweilige Item korrekt beantwortet haben (1 entspricht hier 100%). 165

172 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Tab. 7.3: Durchschnittlicher Anteil korrekter Beurteilungen zum Statusdiagnostik-Teilinstrument Teilinstrument zur Statusdiagnostik Durchschnittlicher Anteil korrekter Beurteilungen Median Standardabweichung 0,73 0,76 0,14 Diskussion zu den statusdiagnostischen Beurteilungen anhand des Schülerarbeitsheftes Betrachtet man die Studierendenbeurteilungen zu den einzelnen im Test vorgegebenen Kriterien und damit die statusdiagnostische Kompetenz der Studierenden zu den verschiedenen mit den Kriterien abgefragten Aspekten, so ist festzustellen, dass der Anteil an korrekten Beurteilungen von Item zu Item (und damit von Beurteilungsaspekt zu Beurteilungsaspekt) sehr unterschiedlich ausfällt: Er verteilt sich über einen Bereich von 0,33 bis 0,96, entsprechend einem Anteil von 33 % der Probanden, die zu dem betreffenden Aspekt eine korrekte Beurteilung abgegeben haben, bis hin zu einem Anteil von 96 % der Probanden, die für den entsprechenden Aspekt eine korrekte Beurteilung abgegeben haben. Auffällig ist die große Zahl an Items, bei denen mehr als 80 % der Probanden korrekte Beurteilungen abgegeben haben. Demgegenüber gibt es nur wenige Items, die relativ niedrige Werte zeigen (Tab. 7.4). Tab. 7.4: Anteil an korrekten Beurteilungen bezogen auf die Items des statusdiagnostischen Teils des kombinierten Instrumentes (für Kohorte 2 mit N=57) Anteil an korrekten Beurteilungen Itemanzahl (Gesamtanzahl 17) sehr hoch > 80% hoch 80% 61% mittel 60% 41% niedrig 40% 20% sehr niedrig < 20% / Entsprechend der Verschiebung hin zu hohen Werten zeigt sich der durchschnittliche Anteil an korrekten Beurteilungen mit 0,73 (SD = 0,14; Median = 0,76) entsprechend einem Anteil von 73 % korrekt vorgenommener Beurteilungen zum Schülerexperimentierprozess anhand des Schülerarbeitsheftes recht hoch. Dieses Ergebnis kann wie gesagt nicht unmittelbar dahingehend interpretiert werden, dass die Studierenden im Durchschnitt eine besonders hohe statusdiagnostische Kompetenz aufweisen. So trägt sicherlich auch das MC-Format des Instrumentes mit den fast durchgängig nur drei Antwortkategorien ja / nein / weiß nicht zu einer hohen Ratewahrscheinlichkeit und damit zu einer Absenkung der Schwierigkeit des Testinstrumentes bei. Gewinnbringender als eine Betrachtung der absoluten Höhe der Werte zur statusdiagnostischen Kompetenz der Studierenden erschien somit eine Betrachtung der Messwerte auf Basis der Einzelitems und hier insbesondere ein Vergleich der für die Studierenden ermittelten Fähigkeitswerte zwischen den verschiedenen mit den Item erfassten Beurteilungsaspekten. Als besonders interessant wurde angesehen, welche der Beurteilungskriterien von den Studierenden im Vergleich zu den anderen besonders schlecht und welche besonders gut gehändelt werden konnten, d. h. zu welchen 166

173 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Aspekten die Studierenden einen besonders niedrigen Anteil an korrekten Beurteilungen aufwiesen und zu welchen einen besonders hohen Anteil. Statusdiagnostische Aspekte, die besonders schlecht diagnostiziert werden konnten Auffällig niedrige Lösungsquotienten im Vergleich mit den anderen Items und damit auffällig niedrige statusdiagnostische Kompetenzen zeigten die Studierenden hinsichtlich zweier Beurteilungskriterien: Zum einen betraf dies das Kriterium Nr. 4 zum Teilbereich Hypothesenbildung, bei dem die Studierenden zu entscheiden hatten, ob die von den Schülern aufgestellte Hypothese einen verallgemeinernden (generalisierenden) Anteil enthält. Dies war entsprechend der Referenzlösung bei der von den Schülern im Arbeitsheft notierten Hypothese nicht der Fall gewesen. Nur 39 % der Studierenden hatten dies auch erkannt. Der niedrige Lösungsquotient kann nicht als eine Folge davon verstanden werden, dass die Studierenden nichts mit dem Fachbegriff generalisierend anzufangen wussten, da in dem Item ausdrücklich auch der deutsche Begriff ( verallgemeinernder Anteil) neben dem Begriff generalisierender Anteil genannt war. Ganz offensichtlich ist es so, dass die Studierenden die Bedeutung des Begriffs verallgemeinernder Anteil bzw. des Begriffs generalisierender Anteil im Zusammenhang mit Hypothesenbildung nicht verstanden hatten oder aber die Bedeutung nicht auf die Schülerantwort übertragen konnten. Dieser Befund deckt sich mit den Ergebnissen, die bei den Untersuchungen zu den Fähigkeiten der Studierenden für das Beurteilen der Schülerleistungsniveaus an Erhebung 2 ermittelt worden waren: Das Erkennen, ob ein verallgemeinernder bzw. generalisierender Anteil in der von den Schülern aufgestellten Hypothese enthalten ist, ist hier im Erwartungshorizont des Teilbereichs Hypothesenbildung enthalten als eines der beiden für das Schülerleistungsniveau N4 ausschlaggebenden Kriterien. Auch im statusdiagnostischen Test von Erhebung 2 konnten die Studierenden diesen Aspekt schlecht diagnostizieren. Erkennbar ist dies an den niedrigen Werten von nur 31 % (Kohorte 2) bzw. 32 % (Kohorte 1) an korrekten Niveaueinschätzungen zu den betreffenden Schülerantworten (vgl. Abb. 6.7 in Kapitel 6.2.2). Auch durch verschiedene Aussagen der Studierenden in den Videoaufnahmen zu den Bearbeitungen des Kompetenztests für Statusdiagnostik bei Erhebung 2 ist belegt, dass sie Schwierigkeiten hatten, die Bedeutung der Begriffe generalisierend bzw. verallgemeinernd auf die Schülerlösungen zu übertragen. Das zweite Beurteilungskriterium, bei welchem die Studierenden einen auffällig niedrigen Lösungsquotienten erzielt hatten, ist das Beurteilungskriterium Nr. 7, welches danach fragt, inwiefern die Schüler die zu messende und die zu variierende Variable in ihrer Versuchsplanung korrekt berücksichtigt haben. Mit einem Wert von nur 33 % an korrekten Beurteilungen stellt dieses Kriterium dasjenige mit dem schlechtesten Lösungsquotienten dar (bezogen auf die Beurteilungskriterien zur Statusdiagnostik). Offensichtlich beinhaltet es für die Studierenden eine große Schwierigkeit, die zu messende und die zu variierende Variable zu identifizieren und in der Versuchsplanung der Schüler zu 167

174 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess erkennen, inwiefern diese dort korrekt berücksichtigt wurden. Zu dem ganz besonders niedrigen Lösungsquotienten für dieses spezielle Beurteilungskriterium hat neben der offensichtlichen diagnostischen Schwierigkeit möglicherweise aber auch das bei diesem Item im Vergleich zu den meisten der anderen Items etwas differenziertere Antwortspektrum beigetragen. So mussten sich die Studierenden hier entscheiden zwischen den vier Antwort-Kategorien nur zu variierende Variable wird berücksichtigt, nur zu messende Variable wird berücksichtigt, beide Variablen werden berücksichtigt und keine der beiden Variablen wird berücksichtigt. Auch zu diesem Item findet sich eine Entsprechung im Statusdiagnostik-Instrument von Erhebung 2. Hier taucht es als Kriterium im Erwartungshorizont des Teilbereichs Planen einer Untersuchung für das Leistungsniveau N2 auf. Ein Vergleich zeigt, dass die Studierenden die auf N2 vorgegebenen Antworten dieses Teilbereichs mit 45 % (Kohorte 2) bzw. 42 % (Kohorte 1) korrekter Niveauzuweisungen im Durchschnitt um 20 Prozentpunkte schlechter einschätzen konnten als die auf N2 vorgegebenen Antworten der anderen drei Teilkompetenzen, welche dieses spezielle Kriterium nicht in ihrem Erwartungshorizont hatten (vgl. hierzu Abb. 6.7 in Kapitel 6.2.2). Insofern stützen auch die mit dem Kompetenztest für Statusdiagnostik an Erhebung 2 erhaltenen Ergebnisse den Befund, dass die Identifizierung und Beurteilung der zu messenden (=abhängigen) und der zu variierenden (=unabhängigen) Variablen in der Versuchsplanung der Schüler für Studierende eine große Schwierigkeit für die Studierenden darstellt. Dass gerade der Umgang der Schüler mit der abhängigen und der unabhängigen Variablen von den Studierenden besonders schlecht eingeschätzt werden kann, stellt insofern eine alarmierende Tatsache dar, da besonders der unsystematische Umgang mit den Variablen einen bei Schülerexperimentierprozessen häufig zu beobachtenden und typischen Fehler darstellt (Hammann, 2006; 2007; Janoschek, 2009; Phan, 2007). Gerade hier wäre es daher besonders wichtig, dass (angehende) Lehrkräfte Sicherheit im Umgang mit den Variablen der Erkenntnisgewinnung besäßen und die korrekte Verwendung dieser in Schülerexperimentierprozessen sicher beurteilen könnten. Aber nicht nur im Hinblick auf eine angemessene Bewertung von Schülerleistungen in Experimentiersituationen, sondern auch im Hinblick auf eine gezielte Förderung und im Hinblick auf eine geeignete Unterrichtsplanung wäre es wichtig, dass die Diagnostik zum Umgang mit den Variablen zu beherrschen. Einen nicht ganz so niedrigen Wert, aber doch ein Ergebnis, das mit einem Lösungsquotienten von 0,54 im Vergleich zum durchschnittlichen Wert von 0,73 deutlich schlechter ausfällt, zeigt sich für das Beurteilungskriterium Nr. 14, welches danach fragt, ob die von den Schülern dokumentierten Messwerte bzw. dokumentierten Beobachtungen qualitativer oder quantitativer Art sind. Als Antwortmöglichkeiten für das Item standen den Probanden die drei Kategorien quantitativ / qualitativ / weiß nicht zur Verfügung. Besonders bei Annahme einer erhöhten Ratewahrscheinlichkeit als Folge der dreigeteilten Antwortmöglichkeit und im Vergleich mit den anderen Beurteilungskriterien scheint auch für dieses Item hinsichtlich seiner Diagnostik eine erhöhte 168

175 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Schwierigkeit zu bestehen. In dem zugrunde gelegten Schüler-Experimentierprozess hatten die beiden Schüler die Wanderungsbewegung der Wasserflöhe nur qualitativ erfasst (vgl. Referenzlösung): Sie hatten weder eine genaue Anzahl an wandernden bzw. nicht wandernden Wasserflöhen bestimmt, noch eine zeitliche Erfassung der Wanderungsgeschwindigkeit vorgenommen, noch eine streckenbezogene Auswertung durchgeführt. Dies wurde aber nur von 54 % der Studierenden erkannt. Mit dem im Vergleich zu den anderen Kriterien drittniedrigsten Lösungsquotienten scheint damit das Verständnis darüber, was unter qualitativen bzw. quantitativen Beobachtungen/Messungen zu verstehen ist, nicht ausreichend vorhanden zu sein. Eine Entsprechung zu diesem Beurteilungskriterium findet sich bei dem Statusdiagnostik-Test bei Erhebung 2 leider nicht. Statusdiagnostische Aspekte, die besonders gut diagnostiziert werden konnten Wie bereits dargelegt, wiesen von den 17 ausgewerteten Items insgesamt acht einen Lösungsquotienten von größer als 0,8 auf (vgl. Tab. 7.4 und Abb. 7.2). Die Annahme dass hierzu sicherlich auch das Format der Items beigetragen hat wird unterstützt dadurch, dass bis auf eines alle acht betreffenden Items ein MC-Format mit den drei Antwortkategorien ja / nein / weiß nicht aufweisen, für welches wie erwähnt eine erhöhte Ratewahrscheinlichkeit anzunehmen ist. Auffällig hoch im Vergleich mit den anderen Items des statusdiagnostischen Teils erwiesen sich insbesondere die Lösungsquotienten (L) von Item Nr. 12 (L = 0,95) zum Teilbereich Experimentdurchführung und von Item Nr. 19 (L = 0,89) zum Teilbereich Datenanalyse und Dateninterpretation. Aber auch etliche Items des Teilbereiches Versuchsplanung zeigten sehr hohe Lösungsquotienten (Item Nr. 5 mit L = 0,88; Item Nr. 8 mit L = 0,84; Item Nr. 9 mit L = 0,96; Item Nr. 10 mit L = 0,91 und Item Nr. 11 mit L = 0,81). Im Falle des Items Nr. 19, welches danach fragt, ob eine Fehleranalyse dokumentiert wurde oder nicht, und im Falle des Items Nr. 12, welches danach fragt, ob die Schüler im Arbeitsheft Beobachtungen bzw. Messungen dokumentiert haben, liegt eine Erklärung der hohen Lösungsquotienten auf der Hand: Diese beiden Items fragen jeweils nach einem Fakt, welcher im Schülerarbeitsheft sehr offensichtlich zutage tritt: Eine dokumentierte Fehleranalyse war nicht vorhanden (das Feld war leer) und Beobachtungen waren dokumentiert worden (in dem betreffenden Feld waren gut erkennbar Beobachtungen aufgeschrieben). Im Falle dieser beiden zu diagnostizierenden Aspekte handelt es sich also um Aspekte, die zwar eine grundsätzliche Berechtigung für die Diagnostik von Schülerleistungen im Rahmen der Erkenntnisgewinnung haben und deshalb als Beurteilungskriterien für das Testinstrument ausgewählt wurden. In der konkret im Test eingesetzten Vignette waren diese beiden Aspekte aber sehr leicht weil sehr offensichtlich zu diagnostizieren gewesen. An dem Beispiel dieser beiden Items wird klar und soll an dieser Stelle noch einmal hervorgehoben werden dass eine Interpretation der ermittelten Lösungsquotienten d. h. des Anteils an korrekten Beurteilungen grundsätzlich immer in Abhängigkeit von dem konkreten im 169

176 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Test zu beurteilenden Kontext gesehen werden muss und streng genommen nur für diesen Test Gültigkeit hat. Auch die hohen Lösungsquotienten von drei weiteren der eingangs genannten Items aus dem Teilbereich Versuchsplanung haben vermutlich ähnliche Ursachen wie gerade für die beiden Items diskutiert: Die beiden Schüler hatten in ihrem Arbeitsheft ihre Versuchsplanung sehr knapp, aber klar beschrieben. Aus dieser Beschreibung ging sehr deutlich hervor, dass keine Angaben zum Konstanthalten der Versuchsbedingungen enthalten waren (Frage von Item Nr. 8), ebenfalls keine Angaben für Messwiederholungen (Frage von Item Nr. 9) und auch keine Angaben zum mess- oder zählbar machen der zu messenden Variablen (Frage von Item Nr. 10) gemacht wurden. Dies wäre im Fall einer von den Schülern weniger klar gestalteten Versuchsbeschreibung möglicherweise deutlich schwieriger zu diagnostizieren gewesen. Trotz ihrer im konkreten Fall leichten Diagnostizierbarkeit fragen jedoch die drei genannten Items ebenfalls grundsätzlich wichtige und wesentliche Kriterien für das Beurteilen von Experimentierprozessen ab. Etwas mehr erstaunen die hohen Lösungsquotienten für das Item Nr. 5, welches danach fragt, ob eine durchführbare Versuchsplanung vorhanden ist und für das Item Nr. 11, welches danach fragt, ob die Versuchsplanung abgestimmt ist auf die zur Verfügung stehenden Materialien. Es muss für diese Items leider offen bleiben, ob sich die Studierenden nur sehr schnell und ohne tiefergehende Prüfung der gegebenen Informationen für die in beiden Fällen korrekte Antwort ja (d. h. für Überprüfbarkeit ist gegeben bzw. Versuchsplanung ist abgestimmt auf die Materialien ) entschieden haben, allein aus der Tatsache heraus, dass im Arbeitsheft überhaupt eine Versuchsplanung dokumentiert war, oder ob sie ihre Entscheidung auf Basis einer guten diagnostischen Kompetenz in Bezug auf diese beiden Beurteilungsaspekte getroffen haben. Für die Beantwortung dieser Frage müssten noch weitere Informationen zum Entscheidungsprozess der Studierenden erhoben werden, also zu den Gründen, warum sich die Studierenden in diesem Fall für diese konkrete Antwort entschieden haben. Dies könnte wieder über Videoanalysen der Bearbeitungsprozesse geschehen. Für die Tatsache, dass die hohen Lösungsquotienten der fünf Items zum Teilbereich Versuchsplanung auf ihre einfache Diagnostizierbarkeit im konkreten Fall zurückzuführen ist, spricht auch, dass im Kompetenztest für Statusdiagnostik von Erhebung 2 der Teilbereich Planen einer Untersuchung im Vergleich zu den anderen Teilbereichen von Scientific Reasoning eher schwierig zu beurteilen gewesen war (vgl. Kapitel 6.2.2). 170

177 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Leistungsverteilung im Statusdiagnostik-Test Ergebnisdarstellung zur Leistungsverteilung im Statusdiagnostik-Test Abb. 7.3 beschreibt die Verteilung der von den N = 57 Probanden erzielten Anteile an korrekten Beurteilungen im statusdiagnostischen Teil des kombinierten Testinstrumentes. In der Abbildung sind die Anteile auf der x-achse aufgetragen. Sie liegen zwischen dem Wert 0 entsprechend 0 % korrekt abgegebener Beurteilungen und dem Wert 1 entsprechend 100 % korrekt abgegebener Beurteilungen. In der Grafik sind die Anteile stufenweise zusammengefasst und die entsprechenden Häufigkeiten (Anzahl der Studierenden) in y-richtung in Form von Balken dargestellt. Abb. 7.3.: Verteilung der von den Studierenden korrekt gelöster Items im Statusdiagnostik-Test bei Erhebung 3. Diskussion der Leistungsverteilung im statusdiagnostischen Teil des kombinierten Tests Abb. 7.3 zeigt, dass die Studierenden im Test sehr unterschiedliche Leistungen gezeigt hatten: Praktisch alle Stufen zwischen 0,3 (von den in dieser Stufe vertretenen Probanden wurden nur 30 % der statusdiagnostischen Aspekte korrekt beurteilt) und 0,9 (von diesen Probanden wurden 90% der statusdiagnostischen Aspekte korrekt beurteilt) sind vertreten. Die hohen interindividuellen Unterschiede in Bezug auf die diagnostische Kompetenz der Studierenden deckt sich mit den Befunden der meisten anderen Studien, die hierzu Daten erhoben haben (vgl. Kapitel 2.4). In der Abbildung kann weiterhin entnommen werden, dass die Leistungsverteilung der Studierenden im statusdiagnostischen Test an Erhebung 3 keiner Normalverteilung entspricht. Dies wird bestätigt durch die Ergebnisse des Kolmogorov-Smirnov-Tests (p < 0,000). 171

178 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Prozessdiagnostische Beurteilungen zum Experimentierprozess Zur Auswertung kamen hier alle 19 Items des Prozessdiagnostik-Beurteilungsbogens. Die Auswertung selbst erfolgte analog zum statusdiagnostischen Teil des kombinierten Instrumentes primär auf der Ebene der einzelnen Items und nur sekundär auf Basis des Mittelwertes, berechnet aus den Testergebnissen aller 19 Items. Darstellung der Ergebnisse zu den prozessdiagnostischen Beurteilungen der Studierenden Abb. 7.4 stellt die zum prozessdiagnostischen Teil des kombinierten Instrumentes ermittelten Ergebnisse der N = 57 Probanden von Kohorte 2 in Form eines Balkendiagramms dar. Graphisch veranschaulicht ist hier wieder für jedes Item der Anteil der Probanden (von Kohorte 2), die das jeweilige Item korrekt beantwortet hatten. In der Abbildung weiterhin enthalten sind die Item- Nummer, die Zugehörigkeit der Items zu den Teilbereichen von Scientific Reasoning (H, P, A oder D), eine sinngemäße Wiedergabe der Item-Wortlaute und die Angabe der für die jeweiligen Items zur Verfügung stehenden Antwortkategorien. Abb. 7.4: Übersicht über die Beurteilungen der Studierenden zu den 19 Items des Teilinstrumentes für Prozessdiagnostik, bezogen auf K2 mit N=57. Die Balken zeigen den Anteil der Studierenden, die das jeweilige Item korrekt beantwortet haben (1 entspricht hier 100%) 172

179 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Tab. 7.5 liefert ergänzend zur Abbildung 7.4 den durchschnittlichen Lösungsquotienten zum prozessdiagnostischen Teil des kombinierten Instrumentes (entsprechend dem durchschnittlichen Anteil an im Test abgegebenen korrekten Beurteilungen), zusammen mit der zugehörigen Standardabweichung und einer Angabe des Medians. Tab. 7.5: Durchschnittlicher Anteil korrekter Beurteilungen zum Prozessdiagnostik-Test Teilinstrument zur Prozessdiagnostik Durchschnittlicher Anteil korrekter Beurteilungen Median Standardabweichung 0,61 0,63 0,12 Diskussion der Ergebnisse zu den prozessdiagnostischen Beurteilungen der Studierenden Betrachtet man die Ergebnisse in Abb. 7.4 und Tab. 7.5 und damit die diagnostischen Fähigkeiten der Studierenden für die verschiedenen, im Zusammenhang mit der Beurteilung des Schülerexperimentierprozesses stehenden prozessdiagnostischen Aspekte, so ist festzustellen, dass auch hier wieder, ähnlich wie im statusdiagnostischen Teil, der Anteil an korrekten Beurteilungen von Item zu Item, d. h. von Beurteilungsaspekt zu Beurteilungsaspekt sehr unterschiedlich ausfällt: Die Spanne reicht von Aspekten, die von nur 4 % der Probanden korrekt beurteilt wurden, bis hin zu Aspekten, für die 95 % der Probanden eine korrekte Beurteilung abgegeben hatten. Auffällig ist auch hier, analog zu den Ergebnissen im statusdiagnostischen Testteil, die hohe Zahl an Items, die von mehr als 60 % der Studierenden gelöst werden konnten. Allerdings ist die Verschiebung hin zu höheren Werten nicht so ausgeprägt wie im statusdiagnostischen Teil. Tab. 7.6: Anteil an korrekten Beurteilungen bezogen auf die Items des prozessdiagnostischen Teils des kombinierten Instrumentes (für Kohorte 2 mit N = 57) Anteil an korrekten Beurteilungen Itemanzahl (Gesamtanzahl 19) sehr hoch > 0,8 hoch 0,8 0,61 mittel 0,6 0,41 niedrig 0,4 0,2 sehr niedrig < 0, Mit einer mittleren Lösungswahrscheinlichkeit von 0,61 (SD = 0,12) zeigt sich der durchschnittliche Wert an korrekten prozessdiagnostischen Beurteilungen zwar immer noch hoch, aber deutlich geringer als derjenige zu den statusdiagnostischen Beurteilungen der Studierenden (hier lag der Wert bei 0,73). In Anbetracht der Tatsache, dass die Items in beiden Teilinstrumenten analog konstruiert waren (beide weisen ein MC-Format mit nur wenigen, sehr ähnlich gestalteten Antwortmöglichkeiten auf und sollten damit ähnliche Ratewahrscheinlichkeiten zeigen), weiterhin in Anbetracht, dass sich beide Teilinstrumente auf den gleichen Beurteilungskontext (denselben Schülerexperimentierprozess) beziehen, und als letztes unter der Voraussetzung, dass die Items in beiden Fällen die für das Beurteilen eines Schülerexperimentierprozesses relevanten Kriterien abfragen, kann dieser niedrigere Gesamtwert im Prozessdiagnostik-Test gegenüber dem Statusdiagnostik-Test als eine Folge einer 173

180 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess niedrigeren prozessdiagnostischen Kompetenz gewertet werden. Als Gründe hierfür könnten folgende Überlegungen zutreffend sein: Beide Formen sowohl Statusdiagnostik als auch Prozessdiagnostik stellen für Studierende ungewohnte und schwierige Herausforderungen dar. Vergleicht man aber die Anforderungen beider, so ist von einer noch höheren Komplexität und Fremdheit bei der diagnostischen Betrachtung von Handlungsprozessen auszugehen, zum einen, da bei Handlungsprozessen ein mehrschrittiger und längerer Ablauf betrachtet werden muss, des Weiteren, weil die relevanten Informationen innerhalb eines Prozessgeschehens oft weniger offensichtlich zutage treten als in schriftlich fixierten Ergebnisdarstellungen von Schülerprodukten, und nicht zuletzt auch deshalb, weil die Frage danach, auf welche Weise Ergebnisse zustande kommen im Gegensatz dazu, wie ein Ergebnis letztendlich zu bewerten ist, für die Studierenden eine vollkommen ungewohnte Sichtweise darstellt. Da auch die im Test gemessenen Werte zu den prozessdiagnostischen Fähigkeiten der Studierenden nicht in Bezug auf ihre absolute Höhe betrachtet werden können sondern nur in Relation zu anderen, unter vergleichbaren Bedingungen ermittelten Ergebnissen, wurde auch für den prozessdiagnostischen Teiltest eine Auswertung hinsichtlich der einzelnen Items bevorzugt. Hier erschien vor allem interessant, welche der mit den Items verbundenen prozessdiagnostischen Beurteilungsaspekte im Vergleich zu den anderen besonders schlecht beurteilt werden konnten und welche besonders gut. Prozessdiagnostische Aspekte, die besonders schlecht diagnostiziert werden konnten Auffällig niedrige Lösungsquotienten im Vergleich mit den anderen Items und damit einen auffällig niedrigen Anteil an korrekt abgegebenen Beurteilungen zeigten sich hinsichtlich zweier Beurteilungskriterien: Zum einen betraf dies das Item Nr. 5 zum Teilbereich Versuchsplanung, bei dem die Studierenden zu entscheiden hatten, ob die von den Schülern getroffene Auswahl der Materialien überwiegend planvoll und zielgerichtet oder eher durch Ausprobieren erfolgt. Entsprechend der Referenzlösung war in dem betrachteten Schülerexperimentierprozess ersteres der Fall gewesen. Aber nur 12 % der Probanden von Kohorte 2 hatten dies auch so diagnostiziert. Offensichtlich war es den Studierenden sehr schwer gefallen zu entscheiden, inwieweit das Schülerverhalten im Rahmen der Experimentplanung als planvoll und zielgerichtet angesehen werden kann. Die spezielle Schwierigkeit des Items entsteht vermutlich dadurch, dass eine realistische Einschätzung und Beurteilung eines Schülerverhaltens nur im Vergleich mit schon früher beobachteten oder parallel dargebotenen Schülerleistungen möglich ist. Fehlt dieser Erfahrungshintergrund oder die parallele Vergleichsmöglichkeit, gründet eine Entscheidung darüber, inwieweit ein Schülerverhalten planvoll und zielgerichtet ist, möglicherweise allein auf dem Vergleich mit den eigenen experimentellen Fähigkeiten. Ein Vergleich des Niveaus der experimentellen Fähigkeiten von Biologiestudierenden mit denjenigen von Schülern der 9. Klasse lässt aber ein Schülerverhalten oftmals in zu schlechtem Licht dastehen. Studierende haben in der Regel nur 174

181 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess wenige Möglichkeiten, vor dem Referendariat Schülerverhalten im Zusammenhang mit Experimentierprozessen zu beobachten, zu analysieren und zu reflektieren. Hierin liegt möglicherweise der Grund für das schlechte Abschneiden der Studierenden bei der Beurteilung von Schülerverhalten, zumindest wenn das zu diagnostizierende Verhalten nicht nach eindeutigen vorgegebenen Kriterien abgeschätzt werden kann, sondern für die Beurteilung Erfahrungen bzw. Vergleichswerte notwendig sind. Der zweite Beurteilungsaspekt, der von den Studierenden besonders schlecht diagnostiziert werden konnte, betraf das Item Nr. 9, welches nach dem Umgang der Schüler mit den Variablen im Experiment fragt. Hier hatten sogar nur 4 % der Probanden von Kohorte 2 die korrekte Lösung angekreuzt. Der niedrige Lösungsquotient dieses Items bestätigt die Befunde, welche diesbezüglich auch schon im Zusammenhang mit dem statusdiagnostischen Teil des kombinierten Instrumentes (hier Item Nr. 7) und im Statusdiagnostik-Test zum Beurteilen der Schülerleistungsniveaus an Erhebung 2 ermittelt werden konnten (vgl. Ergebnisdiskussion in Kapitel 7.2.1): Angehende Lehrkräfte sind offensichtlich nicht ausreichend genug in der Lage, den Umgang der Schüler mit den Variablen beim Experimentieren zu beurteilen. Die Ergebnisse zeigen, dass sich die gering ausgeprägte diagnostische Kompetenz für das Beurteilen des Variablenumgangs der Schüler nicht nur in der Beurteilung der Schülerergebnisse bemerkbar macht, sondern in noch stärkerem Ausmaß bei der Beurteilung des Schülerumgangs mit den Variablen im Prozessgeschehen. Die mangelhafte diagnostische Kompetenz für diesen Beurteilungsaspekt könnte möglicherweise eine Folge davon sein, dass auch schon bei Schülern der sachgemäße Umgang mit den Variablen einer der am häufigsten festzustellenden Fehler ist (Hammann, 2006, 2007; Janoschek, 2009; Phan, 2007) und sich dieses Defizit bis in die Studienzeit hinein fortsetzt: Auch vielen Studierenden ist nicht wirklich klar, was experimentelle Variablen sind und wie man sie in einer gegebenen Experimentiersituation erkennt. Insbesondere haben sie oft Schwierigkeiten wie man entscheidet, welche Variable abhängig, welche unabhängig und welche Kontrollvariable ist. Die genannten Schwierigkeiten und Defizite wirken sich auch deshalb bis weit in die Lehramtsausbildung hinein aus (und möglicherweise sogar darüber hinaus), da aufgrund nicht ausreichend vorhandener Übungssituationen auf die Klärung der Begriffe und das Anwenden in Experimentiersituationen nicht adäquat genug eingegangen werden. Aber trotz der auf der einen Seite nachvollziehbaren Gründe für das Zustandekommen der schwach ausgeprägten Beurteilungskompetenz im Zusammenhang mit dem Variablenumgang der Schüler stellt dieser Umstand ein erkennbares Defizit für die zukünftige Lehrkompetenz der angehenden Lehrkräfte dar. Denn gerade hier gilt es ja, den mangelhaften Variablenumgang der Schüler diagnostizieren zu können und daran anknüpfend im Rahmen von gezielten Fördermaßnahmen kompensatorisch tätig zu werden. Weitere Beurteilungsaspekte, die im prozessdiagnostischen Test besonders schlecht diagnostiziert werden konnten, werden durch die Items Nr. 7, Nr. 10 und Nr. 11 abgefragt. Alle drei genannten Items wie auch das zuvor diskutierte Kriterium des sachgemäßen Variablenumgangs stellen Items des 175

182 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Teilbereichs Versuchsdurchführung dar. Item Nr. 7 fragt danach, ob die Experimentdurchführung auch der Versuchsplanung der Schüler entspricht. Nur 39 % der Studierenden von Kohorte 2 hatten sich hier für die korrekte Antwort ja entschieden. Obwohl die Versuchsplanung der Schüler vorlag und klar beschrieben war, waren die Studierenden offensichtlich nur schlecht in der Lage gewesen, korrekt einzuschätzen, ob die im Prozessgeschehen erfolgte Versuchsdurchführung auch den von den Schülern gemachten Vorgaben entsprach. Vermutlich ist dies ein Indiz dafür, dass die Beurteilung eines Verhaltens in einem Prozessgeschehen viel Erfahrung voraussetzt und damit von Studierenden, die dies nicht explizit üben, nur schlecht beherrscht wird. Ebenfalls mit nur mit einem Anteil von 39 % an korrekten Studierendenbeurteilungen zeigt sich das Item Nr. 10, welches die Studierenden den Schülerumgang mit dem Versuchstier einschätzen lässt. Entgegen der Expertenbeurteilungen (vgl. Referenzlösung) hatte die Mehrzahl der Studierenden den Umgang der Schüler mit dem Versuchstier als nicht angemessen beurteilt. Im zugrundegelegten Experimentierprozess hatten die Schüler ein relativ kindliches, aber typisches Schülerverhalten gegenüber den Wasserflöhen gezeigt. Die Ergebnisse zum Item Nr. 10 können damit wieder als Hinweis darauf gesehen werden, dass das Einschätzen der Angemessenheit eines Verhaltens einen besonders schwierig zu diagnostizierenden Aspekt darstellt, der viel Erfahrung voraussetzt. Einen letzten Beurteilungsaspekt, welcher im Vergleich zum mittleren Lösungsquotienten des Prozessdiagnostik-Teilinstrumentes deutlich schlechter diagnostiziert werden konnte, spricht das Item Nr. 11 an, welches danach fragt, ob die von den Schülern im Experiment gemachten Beobachtungen rein qualitativ sind, qualitativ mit quantitativen Ansätzen oder rein qualitative Beobachtungen darstellen. Als vierte Auswahlmöglichkeit stand hier die Kategorie Weiß nicht zur Verfügung. Nur 46 % aller Probanden von Kohorte 2 haben sich im Test für die korrekt anzusehende Kategorie rein qualitativ entschieden. Dieses Ergebnis, welches belegt, dass viele Studierenden bei der Beurteilung eines Experimentiergeschehens nicht ausreichend genug in der Lage sind einzuschätzen, inwiefern die Schüler qualitative oder quantitative Beobachtungen machen, deckt sich mit den Ergebnissen aus dem statusdiagnostischen Teiltest. Auch hier zeigen die Ergebnisse zum Item Nr. 14, dass die Studierenden in nur unterdurchschnittlichem Maße in der Lage gewesen waren einzuschätzen, inwiefern die von den Schülern dokumentierten Beobachtungen qualitativer oder quantitativer Art sind. Prozessdiagnostische Aspekte, die besonders gut diagnostiziert werden konnten Auffallend gut von den Studierenden diagnostiziert werden konnten die Beurteilungsaspekte, die mit den Items Nr. 8 und Nr. 12 verbunden sind. Beide weisen im Testergebnis zur prozessdiagnostischen Kompetenz einen Lösungsquotienten von 0,95 auf. Ersteres Item fragt danach, ob der von den Schülern geplante Versuchsaufbau im Verlauf der Experimentdurchführung abgeändert wird. Das zweite Item fragt danach, ob die Schüler Messwiederholungen durchführen. Für die Interpretation der Werte wird davon ausgegangen, dass auch nach Abzug einer vermutlich erhöhten Ratewahrscheinlichkeit für beide Items ein überdurchschnittlicher Wert bestehen bleibt. 176

183 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Der Befund zu Item Nr. 12, d. h. den guten diagnostischen Fähigkeit zu erkennen, ob die Schüler Messwiederholungen durchgeführt haben, deckt sich mit dem Befund, der hierzu auch schon im statusdiagnostischen Teil des kombinierten Instrumentes erhoben wurde (dort Item Nr. 9). Das Diagnostizieren von Messwiederholungen scheint damit eine Fähigkeit zu sein, die von den Studierenden gut beherrscht wird. Eine Entsprechung zum Items Nr. 8, d. h. zur Frage der Abänderung des geplanten Versuchsaufbaus im Verlauf der Experimentdurchführung, gibt es im Statusdiagnostik-Teil nicht. Eine Erklärung für den hohen Wert könnte darin liegen, dass die korrekte Beurteilung darüber, ob eine Abänderung des Versuchsaufbaus erfolgt, ganz konkret durch den Vergleich von gegebenen Informationen geleistet werden kann und weniger auf Erfahrungen angewiesen ist. Fähigkeit der Studierenden, den Beitrag der einzelnen Schüler zum Gruppenergebnis einzuschätzen Ein nur prozessdiagnostisch zu beurteilender Aspekt ist die Frage nach dem Anteil, den die einzelnen Schüler zum Gesamtergebnis der Gruppe beigetragen haben. Für die Beurteilung und Bewertung von in Gruppenarbeit erbrachten Schülerleistungen stellt diese Fähigkeit eine wesentliche und für die Unterrichtspraxis notwendige Kompetenz dar, weshalb die mit dem Beurteilungsaspekt verbundenen prozessdiagnostischen Fähigkeiten der Studierenden an dieser Stelle noch einmal explizit erwähnt werden sollen. Betrachtet man die diesbezüglichen Ergebnisse im Prozessdiagnostik-Test, so weisen die Studierenden für alle Teilschritte des zu beurteilenden Schülerexperimentierprozesses durchschnittliche hohe Anteile an korrekten Beurteilungen, d. h. durchschnittliche Fähigkeiten auf (67 % korrekte Beurteilungen für das Item Nr. 2 zur Mitarbeit im Teilbereich Hypothesenbildung, 68 % für Item Nr. 6 zur Mitarbeit bei der Versuchsplanung, 63 % für Item Nr. 15 zur Mitarbeit bei der Experimentdurchführung und 51 % für Item Nr. 19 zur Mitarbeit bei der Datenanalyse, bei einem Mittelwert von 61 % für den gesamten Prozessdiagnostik-Test) Leistungsverteilung im Prozessdiagnostik-Test Ergebnisdarstellung zur Leistungsverteilung im Prozessdiagnostik-Test Abb. 7.5 beschreibt die Verteilung der von den Studierenden aus Kohorte 2 erzielten Anteile an korrekten Beurteilungen im Prozessdiagnostik-Test bei Erhebung 3. Die Anteile sind in der Abbildung analog zu der Auswertung des Teilinstrumentes für Statusdiagnostik in Richtung der x-achse aufgetragen, von 0 entsprechend 0 % korrekt abgegebener Beurteilungen bis 1 entsprechend 100 % korrekt abgegebener Beurteilungen. Dabei sind die Anteile in der Abbildung wieder stufenweise zusammengefasst und in Form von Balken dargestellt. In Richtung der y-achse ist die Anzahl der Studierenden aufgetragen. In den Balken selbst findet sich die Anzahl der Studierenden, die die jeweilige Stufe repräsentieren. 177

184 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Abb. 7.5.: Verteilung der von den Studierenden abgegebenen korrekten Beurteilungen im Prozessdiagnostik- Test Diskussion der Leistungsverteilung im Prozessdiagnostik-Test Wie in Abb. 7.5 zu sehen ist, haben die Studierenden auch im Prozessdiagnostik-Test sehr unterschiedliche Leistungen gezeigt. Auch hier bestätigt sich also wieder der in vielen Studien erhaltene Befund, dass für die diagnostische Kompetenz große interindividuelle Unterschiede bestehen (vgl. Kapitel 2.4). Allerdings sind im vorliegenden Fall im Unterschied zu den Ergebnissen aus dem Statusdiagnostik-Test nicht mehr alle Leistungsstufen vertreten: Praktisch alle Studierenden weisen Leistungen im Bereich von 0,4 (von diesen Probanden wurden 40 % der prozessdiagnostischen Aspekte korrekt beurteilt) bis 0,8 (von diesen Probanden wurden 80 % der prozessdiagnostischen Aspekte korrekt beurteilt) auf, wobei im Bereich der mittleren Leistungen ein Maximum vorliegt. Nur zwei der Studierenden zeigen Leistungen, die unter dem Wert von 0,4 liegen. Nach Analyse mit Hilfe der von SPSS vorgegebenen Testverfahren auf Normalverteilung zeigt sich, dass aber auch hier keine Normalverteilung vorliegt (p = 0,017 im Kolmogoroff-Smirnov Test) Untersuchungen zu verschiedenen Zusammenhängen Die Korrelationsanalysen zum kombinierten Instrument fanden unter vier verschiedenen Gesichtspunkten statt: (1) Zum einen wurde untersucht, inwiefern die statusdiagnostischen und die prozessdiagnostischen Testergebnisse der Studierenden von Erhebung 3 miteinander in Zusammenhang stehen. (2) Weiterhin wurde untersucht, ob zwischen den Testergebnissen des Statusdiagnostik-Tests von Erhebung 2 und den Testergebnissen des statusdiagnostischen Teils des kombinierten Intstrumentes von Erhebung 3 Zusammenhänge bestehen. 178

185 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess (3) Ein dritter Fokus bestand darin zu untersuchen, inwiefern die mit Hilfe des kombinierten Instrumentes ermittelten Werte zu den statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen des Schülerexperimentierprozesses in Zusammenhang stehen mit den eigenen fachmethodischen Kenntnissen der Studierenden und ihrem Wissenschaftsverständnis. (4) Der vierte Fokus der Korrelationsanalysen lag auf der Untersuchung der Zusammenhänge zwischen verschiedenen Personen- und Kontextvariablen auf der einen Seite und den an Erhebung 3 gemessenen Werten zur statusund prozessdiagnostischen Kompetenz der Studierenden auf der anderen Seite. Durchgeführt werden konnten die Korrelationsanalysen nur mit den Probanden von Kohorte 2, und hier auch nur mit denjenigen Personen, die jeweils an allen der betrachteten Untersuchungen teilgenommen hatten. Dies ist zu berücksichtigen bei der Interpretation der Werte Zusammenhänge zwischen den ermittelten statusdiagnostischen und prozessdiagnostischen Kompetenzen Ergebnisdarstellung Tab. 7.7 zeigt die Ergebnisse der Korrelationsanalysen zwischen den Testergebnissen aus dem statusdiagnostischen Teil des kombinierten Instrumentes und dem prozessdiagnostischen Teil. Da die beiden in diesem Zusammenhang vorliegenden Datensätze keine Normalverteilung aufwiesen (siehe Kapitel und Kapitel 7.2.4) wurde hierfür der Kendall-Tau-b Test verwendet. Bei kleinen Stichproben (wie im vorliegenden Falle) wird diesem gegenüber dem bei nicht parametrischen Daten ebenfalls geeigneten Spearman-Rho Test der Vorzug gegeben. Tab. 7.7: Korrelationen zwischen den statusund prozessdiagnostischen Testergebnissen der Studierenden für das Beurteilen des Schülerexperimentierprozesses (Kohorte2) Kendall-Tau-b Prozessdiagnostik (19 Items) Statusdiagnostik (17 Items) Testergebnisse Prozessdiagnostik Testergebnisse Statusdiagnostik Korr.-koeffizient,161 Sig. (2-seitig),115 N 57 Korr.-koeffizient,161 Sig. (2-seitig),115 N 57 Signifikante Korrelationen mit * für p<0,05 ** für p<0,01 Diskussion der Zusammenhänge zwischen den statusdiagnostischen und den prozessdiagnostischen Fähigkeiten der Studierenden Der Test weist keine signifikanten Korrelationen zwischen den Ergebnissen der Studierenden im Statusdiagnostik-Test und ihren Ergebnissen im Prozessdiagnostik-Test aus. Auch ist die Stärke der 179

186 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Korrelation mit einem Wert von r = 0,16 als nur sehr gering einzustufen. Dies lässt darauf schließen, dass die beiden Anteile des kombinierten Instrumentes tatsächlich unterschiedliche Fähigkeiten messen. Diese Ergebnisse bestätigen die dieser Arbeit zugrunde gelegte Konzeptualisierung der diagnostischen Kompetenz in Bezug auf Statusdiagnostik und Prozessdiagnostik als zwei unterschiedlichen diagnostischen Formen mit unterschiedlichen Anforderungen an das Kompetenzprofil der Studierenden. Neben diesen Begründungen über das den beiden diagnostischen Formen zugrunde liegende Konzept, hatten die Studierenden im prozessdiagnostischen Test auch die Schülerhandlungen in der Experiment-Durchführung zu beurteilen. Dieser Teil entfällt beim statusdiagnostischen Test. Hier konnten nur die Ergebnisse aus der Experimentdurchführung in die Beurteilung mit einbezogen werden Zusammenhänge zwischen den an Erhebung 2 und an Erhebung 3 ermittelten statusdiagnostischen Kompetenzen Die Korrelationsanalysen zwischen den Testergebnissen des statusdiagnostischen Kompetenztests von Erhebung 3 und denjenigen aus dem Statusdiagnostik-Test von Erhebung 2 wurden in der Absicht durchgeführt zu untersuchen, inwiefern diese beiden auf die statusdiagnostische Kompetenz ausgerichteten Tests unterschiedliche Kompetenzaspekte erfassen oder aber das Gleiche messen. In die Korrelationsanalysen wurden nur diejenigen Studierenden von Kohorte 2 einbezogen, die sowohl am Test bei Erhebung 2 teilgenommen hatten wie auch am Test bei Erhebung 3. Da für die statusdiagnostische Kompetenz der Studierenden in Bezug auf ihre Fähigkeit zum Beurteilen der Schülerleistungsniveaus sowohl Werte vorlagen, die nach der Klassischen Test Theorie (KTT) berechnet worden waren, wie auch Werte, die nach der Item Response Theory (IRT) berechnet worden waren, wurden beide Werte für die Korrelationsanalysen benutzt. Ergebnisdarstellung Tab. 7.8: Korrelationen zwischen den Testergebnissen zur statusdiagnostischen Kompetenz von Erhebung 2 und den Statusdiagnostik-Testergebnissen von Erhebung 3 (Kohorte 2) Statusdiagnostik Erhebung 3 (17 Items) Erhebung 2 Statusdiagnostik (KTT) (Kendall-Tau-b) Erhebung 2 Statusdiagnostik (IRT) (Kendall-Tau-b) Korrelation -,020,058 Signifikanz,867,617 N Leider hatten von den N = 57 Probanden aus Kohorte 2, die an der Testung zu ihren statusund prozessdiagnostischen Fähigkeiten bei Erhebung 3 teilgenommen hatten, nur N = 42 auch schon am Statusdiagnostik-Test der Erhebung 2 teilgenommen. Von daher konnte nur mit dieser recht kleinen Stichprobe eine Korrelationsanalyse durchgeführt werden. Trotzdem fallen die ermittelten Werte sehr 180

187 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess eindeutig aus und zeigen deutlich, dass nach keinem der beiden zur Erhebung 2 angewendeten Berechnungsverfahren (KTT bzw. IRT) eine Korrelation der Ergebnisse zur diagnostischen Kompetenz vorhanden ist. Diskussion der Ergebnisse Damit zeigen die Analysen, dass die beiden an Erhebung 2 bzw. Erhebung 3 eingesetzten Tests unterschiedliche Aspekte der statusdiagnostischen Kompetenz bei den Lehramtsstudierenden abgefragt haben. Inhaltlich erklärbar ist dieser Befund mit folgenden Überlegungen: So setzt der Statusdiagnostik-Kompetenztest von Erhebung 2 seinen Schwerpunkt auf die Fähigkeit zum Beurteilen verschiedener Schülerleistungsniveaus. Darüber hinaus beziehen sich die im Test von den Studierenden zu beurteilenden Schülerantworten auf unterschiedliche Kontexte im Zusammenhang mit Scientific Reasoning (Topfgröße, Flamingofarbe, Borkenkäfer, usw.). Der Statusdiagnostik-Test von Erhebung 3 dagegen legt seinen Fokus auf die Fähigkeit zum Beurteilen eines einzigen, komplett durchlaufenen Experimentierprozesses. Eine Unterscheidung verschiedener Leistungsniveaus wird dabei nicht explizit von den Studierenden verlangt. Grundsätzlich wird in der einschlägigen Forschungsliteratur davon ausgegangen, dass es sich bei der diagnostischen Kompetenz um eine domänenspezifische Kompetenz handelt (vgl. hierzu die Ausführungen im Kapitel 2.4 zur Befundlage im Zusammenhang mit der diagnostischen Kompetenz). Da im vorliegenden Falle tatsächlich unterschiedliche diagnostische Aspekte abgefragt wurden, erscheint die nicht vorhandene Korrelation zwischen den Ergebnissen aus dem Statusdiagnostik-Test von Erhebung 2 und dem statusdiagnostischen Test von Erhebung 3 damit erklärbar Zusammenhänge zwischen den statusund prozessdiagnostischen Fähigkeiten und den Bedingungsfaktoren Entsprechend dem dieser Arbeit zugrunde gelegten Strukturmodell zur diagnostischen Kompetenz (vgl. Kapitel 2) sind ein angemessenes Wissenschaftsverständnis und ein angemessenes fachmethodisches Wissen auf Seiten der Studierenden als Voraussetzung zu betrachten für den Aufbau einer angemessenen diagnostischen Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Zur Untersuchung des möglichen Zusammenhanges zwischen diesen beiden Komponenten (Forschungsfrage 3) wurden die Ergebnisse des kombinierten Testinstrumentes zu den statusund prozessdiagnostischen Kompetenzen der Studierenden korreliert mit den Testergebnissen von Erhebung 1 zum fachmethodischen Wissen der Studierenden im Bereich Scientific Reasoning (Kapitel 5.3.3) und ihrem Wissenschaftsverständnis (vgl. Kapitel 5.3.2). 181

188 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Ergebnisdarstellung Tab. 7.9: Korrelationsanalysen zwischen den Testergebnissen zur statusund prozessdiagnostischen Kompetenz und dem fachmethodischen Wissen bzw. dem Wissenschaftsverständnis (für Kohorte 2) Fachmethodisches Wissen (12 MC-Aufgaben Scientific Reasoning) Wissenschaftsverständnis (NOS-Fragebogen mit 10 Skalen) Komb. Instrument (Kendall-Tau-b) Erhebung 3 Statusdiagnostik (Kendall-Tau-b) Erhebung 3 Prozessdiagnostik (Kendall-Tau-b) Korrelation,204 -,052,359** Signifikanz,080,663,002 N Korrelation,162,031,177 Signifikanz,137,781,108 N * für p<0,05 und ** für p<0,01 Diskussion zu den Zusammenhängen zwischen diagnostischer Kompetenz und dem fachmethodischen Wissen der Studierenden Zwischen den Testergebnissen der Studierenden aus Kohorte 2 zu ihren prozessdiagnostischen Fähigkeiten (Erhebung 3) und ihrem fachmethodischen Wissen lassen sich hoch signifikante Korrelationen nachweisen. Diese sind mit Korrelationswerten von r = 0,359 (nach Kendall-Tau-b) als mittelstark einzustufen. Diese vergleichsweise hohe Korrelation bestätigt die im Diagnosekompetenzmodell gemachte Annahme, dass das fachmethodische Wissen der Studierenden in Zusammenhang steht mit der Ausprägung ihrer diagnostischen Kompetenz. Dagegen stehen die Testergebnisse zu den statusdiagnostischen Fähigkeiten der Studierenden im Statusdiagnostik-Test von Erhebung 3 mit denjenigen zu ihrem fachmethodischen Wissen in keinem Zusammenhang. Die Korrelationswerte liegen hier nahe Null und sind weit weg von der Signifikanzgrenze p = 0,05. Im Gegensatz dazu konnten bei den Korrelationsanalysen im Rahmen der Untersuchungen bei Erhebung 2 zwischen den Ergebnissen im dortigen Statusdiagnostik-Test und dem fachmethodischen Wissen der Studierenden hoch signifikante (mit r = 0,236 ( KTT) bzw. r = 0,233 (IRT) allerdings nur geringe) Korrelationen festgestellt werden. Eine Erklärung für den so unterschiedlichen Befund bei beiden Erhebungen kann im Rahmen dieser Arbeit nicht gesichert abgegeben werden. Diskussion zu den Zusammenhängen zwischen diagnostischer Kompetenz und dem Wissenschaftsverständnis der Studierenden Die Korrelationsanalysen zwischen den Testergebnissen im statusdiagnostischen und im prozessdiagnostischen Test des kombinierten Instrumentes von Erhebung 3 mit den Ergebnissen zum Wissenschaftsverständnis der Studierenden weisen für keinen der untersuchten Fälle einen Zusammenhang aus. Jedoch liegen auch hier die Werte für die Korrelationen mit den Testergebnissen 182

189 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess des Prozessdiagnostik-Tests mit p = 0,108 (Kendall-Tau-b) tendenziell näher an der Signifikanzgrenze von p = 0,05 und weisen eine Korrelation in Höhe von r = 0,177 aus Zusammenhänge zwischen den statusund prozessdiagnostischen Fähigkeiten und den Personen- und Kontextvariablen Ergebnisdarstellung Tab. 7.10: Korrelationen zwischen den an Erhebung 3 ermittelten diagnostischen Kompetenzen der Studierenden und verschiedenen Begleitvariablen (für Kohorte 2) Prozessdiagn.-Test (19 Items) Statusdiagn.-Test (17 Items) Komb. Instrument (36 Items) r,028 -,086 -,023 Geschlecht Sign. (2-seitig) 0,808,466,841 N r -,150 -,028 -,066 Studierte Lehramtsform Sign. (2-seitig),190,811,565 N r,003,144,113 Abiturnote Sign. (2-seitig),981,230,333 N r -,131,021 -,089 Alter Sign. (2-seitig),207,845,387 N r,032 -,107 -,037 Selbsteinschätzungen Sign. (2-seitig),769,331,734 zum diagnost. Wissen N r -,029,015 -,021 Nawi-Fächer Sign. (2-seitig),801,898,857 (1 Fach vs. 2 Fächer) N Korrelationen getestet mit dem Kendall-Tau-b-Test mit * für p<0,05 und ** für p<0,01 Tab zeigt die Ergebnisse der Korrelationsanalysen mit verschiedenen möglichen Einflussvariablen auf die diagnostische Kompetenz. Analog zu den Untersuchungen im Rahmen von Erhebung 2 handelte es sich bei diesen Variablen um die soziodemographischen Faktoren Geschlecht und Alter der Studierenden. Darüber hinaus wurden Faktoren untersucht, die in Zusammenhang mit dem Studium der Probanden stehen, wie die von ihnen studierte Fächerkombination, die von ihnen gewählte Lehramtsform und ihre Abiturnote. Als zusätzlicher Faktor wurden wieder analog zu den Untersuchung an Erhebung 2 Korrelationsanalysen mit den von den Studierenden abgegebenen Selbsteinschätzungen zu ihrem diagnostischen Wissen bezüglich ihrer Fähigkeit, Schülerleistungen beurteilen zu können, durchgeführt. 183

190 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Diskussion der Zusammenhänge zwischen der diagnostischen Kompetenz und den Personen- und Kontextvariablen Für den Zeitpunkt der Erhebung 3 können bei den untersuchten Probanden von Kohorte 2 für keine der untersuchten Personen- und Kontextvariablen signifikanten Zusammenhänge mit ihren diagnostischen Fähigkeiten im Test gemessen werden (Tab. 7.10). Dies gilt sowohl für die prozessdiagnostischen und statusdiagnostischen Testergebnisse der Studierenden als auch für ihre mit dem kombinierten Instrument erfassten diagnostischen Fähigkeiten insgesamt. Im Vergleich zu den Ergebnissen der Korrelationsanalysen im Rahmen der Untersuchungen von Erhebung 2 decken sich die dort ermittelten Befunde für die Variablen Alter, Fächerkombination und Selbsteinschätzung der eigenen diagnostischen Kompetenz (vgl. Kapitel ). Für die Abiturnote und das Geschlecht der Studierenden hatten sich zum Zeitpunkt der Erhebung 2 bei den Studierenden von Kohorte 2 inkonsistente Befunde hinsichtlich eines Zusammenhangs mit der diagnostischen Kompetenz der Studierenden gezeigt (vgl. Kapitel ). In der Untersuchung zum Zeitpunkt der Erhebung 3 waren gar keine Zusammenhänge mehr nachweisbar. Für die Variable Lehramtsform, welche bei Erhebung 2 eindeutig als in Zusammenhang stehend mit den dort gemessenen statusdiagnostischen Fähigkeiten der Studierenden identifiziert werden konnte, können bei Erhebung 3 keine Korrelationen mit den hier erfassten diagnostischen Kompetenzen nachgewiesen werden. Hierfür hat möglicherweise folgende Tatsache den Ausschlag gegeben: Bei den für die Korrelationsanalysen zugrunde gelegten N = 57 Probanden von Kohorte 2 handelte es sich fast ausschließlich um Studierende des Haupt- und Realschullehramtes. Es gab nur einen einzigen Studierenden des Gymnasiallehramtes und nur fünf Studierende des Förderschullehramtes (vgl. Tab. 7.2). Im Gegensatz dazu hatte es sich bei den bei Erhebung 2 getesteten Probanden um 73 angehende Haupt- und Realschullehrer und 40 angehende Gymnasiallehrer gehandelt. Gerade die bei Erhebung 3 praktisch gar nicht erfassten angehenden Gymnasiallehrer hatten bei Erhebung 2 die signifikant besseren diagnostischen Leistungen gezeigt. Das bedeutet, dass selbst wenn zum Zeitpunkt der Erhebung 3 ein Leistungsunterschied zwischen den beiden Lehramtsgruppen vorgelegen hat, hätte dieser aufgrund der bei Erhebung 3 vorliegenden Zusammensetzung der Probandengruppe nicht identifiziert werden können. Die beiden nachfolgend dargestellten Tab und 7.12 zeigen ergänzend zu den Korrelationsanalysen die Mittelwertvergleiche zu den beiden Variablen Geschlecht und studierte Lehramtsform. Entsprechend der Ergebnisse der Korrelationsanalysen liegen die Mittelwerte zur diagnostischen Kompetenz der Studierenden in fast allen der untersuchten Fälle bei ähnlichen Werten und weisen keine signifikanten Unterschiede auf. Einzig bei der Variablen der studierten Lehramtsform erreichten die Studierenden des Förderschullehramtes mit 0,54 einen deutlich niedrigeren Mittelwert als die Studierenden des H/R-Lehramtes mit 0,61. Da es sich bei ihnen mit N = 5 Personen aber nur um eine sehr kleine Probandengruppe gehandelt hatte, waren auch hier keine 184

191 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess signifikanten Mittelwertunterschiede feststellbar. Trotzdem soll an dieser Stelle noch einmal betont werden, dass ein Zusammenhang des studierten Lehramtes mit der diagnostischen Kompetenz der Studierenden auch bei Erhebung 3 nicht verworfen werden kann. Tab. 7.11: Mittelwerte der Testergebnisse zu den mit Hilfe des kombinierten Instruments gemessenen statusund prozessdiagnostischen Kompetenzen, getrennt nach dem Geschlecht der Studierenden Kohorte Geschlecht N Statusdiagnost. Komp. (SD) Signifikanz Prozessdiagnost. Komp. (SD) Signifikanz Kohorte 2 (N = 57) weibl. 47 0,73 (0,10) n.s. 0,60 (0,12) männl. 10 0,71 (0,14) P=0,466 0,62 (0,11) Gesamt 57 0,73 (0,14) 0,61 (0,12) Die Mittelwertvergleiche erfolgten auf Basis des Man-Whitney-U-Tests; n.s.= nicht signifikant für p<0,05; SD = Standardabweichung n.s. P=0,808 Tab. 7.12: Mittelwerte der Testergebnisse zu den mit Hilfe des kombinierten Instruments gemessenen statusund prozessdiagnostischen Kompetenzen, getrennt nach der studierten Lehramtsform Kohorte Lehramtsform N Kohorte 2 (N = 57) Statusdiagnost. Komp. (SD) Signifikanz Prozessdiagn. (SD) Haupt- und Realschule 51 0,73 (0,14) n.s. 0,61 (0,12) Förderschule 5 0,71 (0,15) P=0,576 0,54 (0,13) Gesamt 56 0,73 (0,14) 0,61 (0,12) Mittelwertvergleiche erfolgten auf Basis des Man-Whitney-U-Tests; n.s.= nicht signifikant für p<0,05; SD = Standardabweichung Signifikanz n.s. P=0, Selbsteinschätzungen der Studierenden Analog zu den Untersuchungen an Erhebung 1 und Erhebung 2 wurden auch bei Erhebung 3 die Selbsteinschätzungen der Studierenden zu ihrem Professionswissen und insbesondere zu ihrem diagnostischen Wissen abgefragt. Da bei Erhebung 3 überwiegend Probanden aus Kohorte 2 erfasst worden waren, wurde auf eine Auswertung der Selbsteinschätzungen der Probanden aus Kohorte 1 verzichtet. Tab zeigt die zum Zeitpunkt der Erhebung 3 ermittelten Werte für die Selbsteinschätzungen der Probanden im Vergleich zu den Mittelwerten der vorangegangenen Messzeitpunkte. In der Tabelle aufgeführt sind auch die jeweiligen Zunahmen in den Selbsteinschätzungen für die einzelnen Wissensbereiche und Signifikanzberechnungen hierzu. 185

192 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Ergebnisdarstellung Tab. 7.13: Veränderungen der Selbsteinschätzungen von Erhebung 1 bis Erhebung 3 (Kohorte 2) Selbsteinschätzung bezüglich Erhebung 1 1. Fachsem. Erhebung 2 3. Fachsem. Erhebung 2 5. Fachsem. Zunahme von Erhebung 1 zu Erhebung 2 Zunahme von Erhebung 2 zu Erhebung 3 Zunahme von Erhebung 1 zu Erhebung 3 Fachwissen (FW) 3,04 (SD=0,71) N=151 3,16 (SD=0,62) N=121 3,18 (SD=0,63) N=57 0,12 N=102 n.s. 0,02 N=42 n.s. 0,14 N=42 n.s. Fachdidaktisches Wissen (FDW) 2,72 (SD=0,82) N=152 3,02 (SD=0,67) N=121 3,42 (SD=0,71) N=57 0,30** N=103 P=0,003 0,40* N=42 P=0,021 0,70** N=42 P=0,001 Pädagogisches Wissen (PW) 2,86 (SD=0,89) N=148 3,17 (SD=0,77) N=121 3,49 (SD=0,78) N=57 0,31* N=101 P=0,041 0,32 N=42 n.s. 0,63** N=42 P=0,008 Diagn. Wissen Schülerleistungen beurteilen können 2,66 (SD=0,92) N=152 2,80 (SD=0,83) N=121 3,05 (SD=0,81) N=57 0,14 N=103 n.s. 0,25 N=42 n.s. 0,39 N=42 n.s. ** = p<0,01 * = p<0,05 n.s. = nicht signifikant (Vorzeichen-Test) (1=sehr niedrig bis 5=sehr hoch) Diskussion der Selbsteinschätzungen Wie Tab zu entnehmen ist, lassen sich im Vergleich von Erhebung 2 zu Erhebung 3 wieder in allen vier Wissensbereichen Zunahmen in den Selbsteinschätzungen der Studierenden nachweisen. Diese fallen allerdings sehr unterschiedlich aus: So zeigen sich beim fachdidaktischen Wissen und auch beim pädagogischen Wissen mit 0,40 bzw. 0,32 kräftige Zuwächse, die zu Werten führen, die noch deutlich oberhalb derer des Fachwissens liegen. Dagegen ist beim Fachwissen mit einem Wert von 0,02 nur ein sehr geringer Zuwachs zu verzeichnen. Betrachtet man die Selbsteinschätzungen zum diagnostischen Wissen, so kann mit einem Wert von 0,25 diesmal auch hier ein nennenswerter Anstieg verzeichnet werden. Zum ersten Mal im Verlauf des Studiums wird auch hier ein Wert auf der 5-skaligen Ratingskala erreicht, der knapp oberhalb der Einschätzung mittel liegt. Trotzdem bleibt dieser Wert mit 3,05 deutlich unterhalb der Werte zu den anderen Wissensbereichen und weist trotz der niedrigen Fallzahlen in den meisten Fällen einen signifikanten Unterschied zu diesen auf (Tab. 7.14). Tab. 7.14: Mittelwertunterschiede bei den Selbsteinschätzungen an Erhebung 3 (Kohorte 2) FW / FW FDW PW FDW ** (p=0,007) / PW ** (p=0,009) n.s. / Diagnost. Wissen Schülerleistungen beurteilen n.s * (p=0,021) ** (p=0,000) Für den Vergleich der Mittelwert- Unterschiede wurde der Vorzeichen-Test verwendet mit * p<0,05 und **p<0,

193 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Damit wird deutlich, dass die Studierenden ihre eigene diagnostische Kompetenz zum Zeitpunkt der Erhebung 3 immer noch als eher unterdurchschnittlich ausgeprägt wahrnehmen im Vergleich zu ihrem Fachwissen, ihrem fachdidaktischen Wissen und zu ihrem pädagogischen Wissen. Allerdings haben sie vor allem in dieser letzten Phase ihres Studiums die Wahrnehmung, dass sie ihr diagnostisches Wissen deutlich verbessern konnten. 7.3 Gütekriterien und Kennwerte zum kombinierten Instrument Zur Beantwortung der Forschungsfrage 1 wurden die bei Testentwicklungen üblicherweise angelegten Gütekriterien Validität, Objektivität und Reliabilität herangezogen. Zusätzlich zu den drei genannten Gütekriterien wurde eine Analyse der Itemschwierigkeiten vorgenommen Validität des kombinierten Instrumentes Bei der Konstruktion des kombinierten Instrumentes zum Erfassen der statusund prozessdiagnostischen Kompetenzen der Studierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung war auf die Validität des neu zu entwickelnden Instrumentes zu achten. Dafür galt es erstens, den Bezug des Instrumentes zum Diagnosekompetenz-Modell mit den hier enthaltenen Facetten und Standards sicherzustellen. Zweitens galt es zu gewährleisten, dass die für die Diagnostik des Schüler-Experimentierprozesses angelegten Beurteilungskriterien abgestimmt sind auf den Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Und als dritter Aspekt war zu beachten, dass die mit dem Instrument abgefragte diagnostische Kompetenz eine Entsprechung in der Realität findet und eine Bedeutung für den Schulalltag hat. Der letzte der oben aufgeführten Validitätsaspekte kann dadurch als gewährleistet angesehen werden, weil der im Instrument zugrunde gelegte Schülerexperimentierprozess tatsächlich von Schülern einer 9. Gymnasialklasse in dieser Form durchlaufen wurde, also einen realen Experimentierprozess darstellt. Das Beurteilen solcher Experimentierprozesse ist eine für den Schulalltag wesentliche Kompetenz, da das Experimentieren im Biologieunterricht einen großen Stellenwert hat und das Beurteilen von Experimentierprozessen und das Diagnostizieren von z. B. typischen Schülerfehlern oder von Teilschritten, die für Schüler besonders schwierig sind, Voraussetzungen sind für eine fundierte Leistungsbewertung, für eine gezielte Förderung oder auch für eine geeignete Unterrichtsplanung. Aus der Kombination der realen schulischen Entsprechung und der schulischen Bedeutung, ergibt sich damit die Notwendigkeit, die (statusund prozess-) diagnostische Kompetenz (angehender) Biologielehrkräfte im Bereich der Erkenntnisgewinnung erfassen zu können. Auch dem zweiten Validitätsaspekt, d. h. der Forderung nach der Passung der Beurteilungskriterien auf das Konstrukt der naturwissenschaftlichen Erkenntnisgewinnung wurde auf verschiedene Weise 187

194 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Rechnung getragen. Zum einen wurden das Instrument und die Beurteilungskriterien abgestimmt auf das von Mayer (2007) entwickelte Rahmenkonzept wissenschaftsmethodischer Kompetenzen und sein Modell zum Wissenschaftlichen Denken mit den hier beschriebenen Dimensionen und Teilkompetenzen von naturwissenschaftlicher Erkenntnisgewinnung eine geeignete Fragestellung entwickeln, eine passende Hypothese aufstellen, Planen einer geeigneten Untersuchung, Datenanalyse und Interpretation (Mayer, 2007; vgl. auch Kapitel 2.3 in dieser Arbeit). Zum anderen orientierte sich die Auswahl der Beurteilungskriterien für die beiden Teilinstrumente zur Status- und Prozessdiagnostik an solchen Kriterien, die auch in anderen Forschungsarbeiten angelegt werden im Zusammenhang mit dem Erfassen von Schülerkompetenzen im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Stellvertretend für solche Forschungsarbeiten sollen an dieser Stelle die BiK- Studie genannt werden (Biologie im Kontext, vgl. BIK, 2012; Bayrhuber et al., 2007; Grube, 2010; Lücken & Elster, 2008), die Ergebnisse verschiedener Untersuchungen zu Schülerkompetenzen im Bereich der naturwissenschaftlichen Erkenntnisgewinnung (Grube, 2010; Grube & Mayer, 2010; Möller & Mayer, 2011) und die Untersuchungen verschiedener Arbeitsgruppen zu typischen Schülerfehlern beim Experimentieren (Emden, 2011; Hammann et. al., 2006, 2008; Janoschek, 2009; Phan, 2007). Auch der ersten im Zusammenhang mit der Validitätsprüfung genannten Forderung nach dem Bezug des Instrumentes zu den Facetten und Standards des zugrunde gelegten Diagnosekompetenz-Modells wurde Rechnung getragen. Den Bezug gibt Tab. 4.7 in Kapitel 4.6 wieder. Hier wird ersichtlich, dass die beiden Teile des kombinierten Instrumentes jeweils auf mehrere, teilweise unterschiedliche Standards im Modell Bezug nehmen Objektivität des kombinierten Instrumentes Der Objektivität wurde insofern versucht Rechnung zu tragen, als dass alle Testungen in jeweils parallelen Lehrveranstaltungen und zu den gleichen Bedingungen stattfanden. Bei allen Lehrveranstaltungsgruppen war ich als Testleiterin und Aufsichtsperson anwesend und habe die Erhebungen in immer der gleichen Art und Weise durchgeführt. Auch fanden die verschiedenen Testungen innerhalb der drei Erhebungen jeweils an nur wenigen aufeinanderfolgenden Tagen statt. Weiterhin wurde versucht, das Testinstrument und die Testungen so zu gestalten, dass keine Untergruppe innerhalb der Probanden in irgendeiner Form benachteiligt war Reliabilität des kombinierten Instrumentes Ergebnisse der Reliabilitätsanalyse Als Maß für die Reliabilität wurde Cronbachs Alpha herangezogen. Dies geschah zum einen für das kombinierte Testinstrument als Ganzes und zum anderen getrennt für die Teilinstrumente zur 188

195 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Prozessdiagnostik und zur Statusdiagnostik. Zur Berechnung des Cronbachs Alpha wurden die Items in der nach richtig / falsch kodierten Form in das Statistikprogramm SPSS eingegeben. Die so ermittelten Werte werden im Folgenden vorgestellt und in ihrer Bedeutung diskutiert. Tab. 7.15: Reliabilitäten zum kombinierten Instrument für Kohorte 2 mit N = 57 Reliabilität (Cronbachs Alpha) Kombiniertes Instrument (36 Items) Statusdiagnostik-Teil (17 Items) Prozessdiagnostik-Teil (19 Items) 0,55 0,50 0,34 Diskussion der Ergebnisse aus der Reliabilitätsanalyse Ein Cronbachs Alpha von 0,55 für das kombinierte Instrument kann als zwar nicht gut, aber akzeptabel angesehen werden. Gleiches gilt für das Teilinstrument zur Statusdiagnostik mit einem Wert von 0,50. Demgegenüber muss ein Cronbachs Alpha von 0,34 für das Teilinstrument zur Prozessdiagnostik als nicht ausreichend betrachtet werden. Im Folgenden sollen einige Gründe für die schlechten Werte vor allem des Teilinstrumentes zur Prozessdiagnostik diskutiert werden. Weiterhin werden Überlegungen zur grundsätzlichen Aussagekraft von Cronbachs Alpha als Maß für die Reliabilität des kombinierten Instrumentes angestellt. Entsprechend der Ausführungen zu Erhebung 2 beschreibt die Reliabilität als Testgütekriterium die Zuverlässigkeit eines Tests, d.h. der Wert versucht zu erfassen, inwiefern die Ergebnisse bei einer vergleichbaren Stichprobe und unter vergleichbaren Bedingungen zuverlässig wiederholbar sind. In der KTT werden üblicherweise vier Arten der Reliabilitätsschätzung verwendet: Retest-Reliabilität, Paralleltest-Reliabilität, Split-Half-Reliabilität und Interne Konsistenz (vgl. hierzu auch die Ausführungen in Kapitel 6.3.2). Zur Schätzung der internen Konsistenz wird in der Literatur häufig die Formel von Cronbach (Cronbachs Alpha; vgl. Cronbach, 1951; Moosbrugger & Kevala, 2007) verwendet, welche auf die Varianz der Items im Vergleich zur Gesamttestvarianz bzw. Gesamtskalenvarianz abzielt. Cronbachs Alpha Werte können berechnet werden für das gesamte Testinstrument oder auch für einzelne Skalen. Bei der Interpretation der Werte ist grundsätzlich zu berücksichtigen, dass die im Rahmen der KTT berechneten Reliabilitäten stichprobenabhängig sind und auch abhängig von der Anzahl der einbezogenen Items und der Anzahl der Antwortmöglichkeiten (Becker, 2004). Die hier gemessenen schlechten Cronbachs Alpha Werte zum kombinierten Testinstrument weisen darauf hin, dass das Antwortmuster der Studierenden nicht sehr konsistent war. Die Gründe hierfür können verschiedener Natur sein: So ist es möglich, dass einzelne Items von den Studierenden in unterschiedlicher Weise verstanden und dementsprechend unterschiedlich beantwortet wurden unabhängig von der diagnostischen Kompetenz der jeweiligen Probanden. Ein weiterer Grund könnte darin zu finden sein, dass bei der Beurteilung der Items möglicherweise nicht nur die diagnostische Kompetenz eine bedeutende Rolle gespielt hat, sondern auch ein oder mehrere andere Parameter. 189

196 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess Weiterhin sind die schlechten Reliabilitäten zu einem nicht zu unterschätzenden Ausmaß vermutlich auch auf das spezielle MC-Format der Items zurückzuführen. Dieses beinhaltete für die Mehrzahl der Items nur drei Antwortkategorien: eine korrekte Antwortmöglichkeit, eine falsche Antwortmöglichkeit und eine weiß nicht -Kategorie, die ebenfalls als falsch gewertet wurde. Die mit dieser Form der Kodierung verbundene erhöhte Ratewahrscheinlichkeit könnte ein wesentlicher Faktor sein, der zu den inkonsistenten Antworten und damit schlechten Cronbachs Alpha Werten beigetragen hat. In verschiedenen Studien konnte gezeigt werden, dass bei Testinstrumenten der Einsatz von Items mit MC-Format im Vergleich zu offenen Items in der Regel mit Reliabilitätseinbußen einhergeht (Teichert, 2004). Insbesondere MC-Items mit nur wenigen Antwortmöglichkeiten, wie im Falle des hier betrachteten Prozessdiagnostik-Instrumentes, führen hierbei zu schlechten Werten. Eine Verbesserung der Werte könnte vermutlich dadurch erreicht werden, dass für den Fall der Beibehaltung des MC-Formates deutlich mehr Antwortmöglichkeiten zur Verfügung gestellt würden. Dabei wäre darauf zu achten, dass nur eine dieser Antwortmöglichkeiten die korrekte Antwort darstellt, und die restlichen aus falschen, aber nicht allzu abwegigen bzw. unwahrscheinlichen Antworten bestehen. Im Folgenden soll analog zu den Überlegungen für das Testinstrument zur Statusdiagnostik von Erhebung 2 eine weitere Überlegung dazu angeführt werden, warum die Reliabilität des kombinierten Instrumentes und seiner beiden Teilinstrumente die schlechte Cronbachs Alpha Werte aufweist: In ihrer Studie konstatieren Lintorf et al. (2011) als Resümee der Sichtung von verschiedenen Forschungsarbeiten, dass diagnostische Urteile häufig nicht reliabel sind. Parallel dazu stellen sie in eigenen Untersuchungen fest, dass die von ihnen gemessene diagnostische Kompetenz keine eindimensionale Struktur aufweist (Lintorf et al., 2011). Mit Bezug auf die Arbeiten von Shevlin, Miles, Davies & Walker (2000) geben sie zu bedenken, dass der Nachweis von Eindimensionalität aber Voraussetzung dafür ist, dass Cronbachs Alpha die Reliabilität zuverlässig schätzt. Dementsprechend argumentieren sie, dass eine Interpretation der Werte zur Internen Konsistenz für diagnostische Urteile im Falle von Mehrdimensionalität nicht sinnvoll ist (Lintorf et al., 2011). Auch Spinath (2005) kommt in ihrer Studie zu dem Ergebnis, dass die Annahme eines eindimensionalen Konstruktes für die diagnostische Kompetenz verworfen werden sollte. Entsprechend der in der vorliegenden Arbeit zugrunde gelegten Konzeptualisierung von diagnostischer Kompetenz muss auch für die statusund prozessdiagnostischen Kompetenzen von einer Mehrdimensionalität ausgegangen werden. Gerade im Hinblick auf das Teilinstrument zur Prozessdiagnostik ist dies besonders ersichtlich, werden hier doch mit den einzelnen Items/Beurteilungskriterien sehr unterschiedliche Aspekte abgefragt: So geht es geht um Ergebnisbetrachtungen und Prozessbetrachtungen, um Betrachtungen des Verlaufs der Teilschritte im Erkenntnisprozess, um Einschätzungen darüber, welche Anteile die einzelnen Schüler am Gruppenergebnis haben, u.v.m. Alle diese Items beziehen sich auf sehr unterschiedliche Aspekte, für 190

197 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess deren Beurteilung damit sehr unterschiedliche Fähigkeiten notwendig sind. Damit erscheint in Anbetracht der nicht gegebenen Voraussetzung von Eindimensionalität auch für die hier untersuchten statusund prozessdiagnostischen Kompetenzen der Studierenden eine Interpretation der berechneten Cronbachs Alpha Werte nicht sinnvoll. Ein weiterer Aspekt, der hier nicht unerwähnt bleiben soll, wenn es um die Interpretation der Reliabilitäts-Werte geht, wird ebenfalls in der Studie von Lintorf et al. (2011) angesprochen: Die Autoren geben zu bedenken, dass sowohl für die Ausprägung als auch für die Reliabilität diagnostischer Kompetenzen bisher noch keine Maßstäbe für die zu erwartende Höhe vorliegen (Lintorf et al., S.116; Lorenz & Artelt, 2009) Analyse der Itemschwierigkeiten Ergebnisdarstellung Nach der Klassischen Test Theorie (KTT) entsprechen die Itemschwierigkeiten den Lösungsquotienten der jeweiligen Items und decken sich damit mit dem Anteil an korrekten Beurteilungen für das jeweilige Item. Tab gibt eine Übersicht über die bei Erhebung 3 ermittelten Lösungsquotienten. Zusätzlich ist in der Tabelle die Spanne aufgeführt zwischen dem Item mit dem niedrigsten Lösungsquotienten und demjenigen mit dem höchsten Lösungsquotienten. Wie Tab zu entnehmen ist, liegen die berechneten Werte für die Itemschwierigkeiten beim Teilinstrument zur Statusdiagnostik zwischen 0,33 und 0,96 und beim Teilinstrument zur Prozessdiagnostik zwischen 0,04 und 0,95. Tab. 7.16: Verteilung der Itemschwierigkeiten für das kombinierte Instrument Itemschwierigkeit Lösungsquotient Itemanzahl Min/Max Itemanzahl Min/Max Statusdiagn. (Statusd.) Prozessdiagn. (Prozessd.) Sehr schwer 0,0 0, ,04 schwer 0,2 0,4 2 0,33 2 mittel 0,4 0,6 2 3 leicht 0,6 0,8 5 7 Sehr leicht 0,8 1,0 8 0,96 5 0,95 Summe Grundlage für die Berechnung der Itemschwierigkeiten sind die Testergebnisse der Probanden aus Kohorte 2 Diskussion der Ergebnisse Teilt man die Itemschwierigkeiten in die Kategorien sehr schwer, schwer, mittel, leicht und sehr leicht, ist festzustellen, dass bei beiden Testteilen des kombinierten Instrumentes der Anteil der leichten und sehr leichten Items deutlich höher ist. Wünschenswert nach der KTT ist eine Verteilung der Itemschwierigkeiten über den Bereich von 0,2 bis 0,8, wobei vor allem der Bereich der mittleren Itemschwierigkeiten, welcher den Bereich mit den hauptsächlich vorkommenden Probandenfähigkeiten darstellen sollte, mit ausreichend vielen Items vertreten sein muss. Für die beiden Teile des kombinierten Instrumentes zeigt sich damit die Verteilung der Itemschwierigkeiten 191

198 7 Kompetenzen für Status- und Prozessdiagnostik zu einem Schülerexperimentierprozess über die Messspanne als zu weit verschoben in den Bereich der leichten und sehr leichten Items. Anders ausgedrückt erweisen sich beide Testteile als zu leicht. Dies belegen auch die beiden durchschnittlichen Lösungsquotienten des Statusdiagnostik-Teils bzw. des Prozessdiagnostik-Teil mit Lösungsquotienten von 0,73 (Statusdiagnostik-Test) bzw. 0,61 (Prozessdiagnostik-Test). Die Gründe für die verminderte Schwierigkeit wurden in den vorangegangenen Abschnitten und Kapiteln bereits diskutiert. So ist durch das spezielle MC-Format mit den wenigen Antwortmöglichkeiten von einer erhöhten Ratewahrscheinlichkeit auszugehen. Hier sollte im Fall der Überarbeitung des Instrumentes ein Fokus gesetzt werden. 192

199 8 Zusammenfassende Diskussion und Ausblick 8 Zusammenfassende Diskussion und Ausblick In diesem letzten Hauptkapitel werden die zentralen, in den einzelnen Untersuchungen gewonnenen Befunde zur diagnostischen Kompetenz zusammengeführt und im Hinblick auf die Forschungsfragen abschließend besprochen. Darüber hinaus werden Überlegungen angestellt hinsichtlich der Bedeutung der gewonnenen Befunde für das zugrunde gelegte Diagnosekompetenzmodell und der damit verbundenen Konzeptualisierung von diagnostischer Kompetenz (für Ausführungen hierzu und zum Modell siehe Kapitel 2). Es folgt ein Fazit zur Arbeit in Form einer abschließenden Bewertung der gewonnenen Ergebnisse und Befunde. Den Abschluss des Kapitels bildet ein Ausblick, in dem Anknüpfungsmöglichkeiten für nachfolgende Forschungsarbeiten genannt und auf Basis der gewonnen Befunde Empfehlungen für die Lehramtsausbildung im Fach Biologie ausgesprochen werden. 8.1 Zentrale Befunde zur Arbeit und Beantwortung der Forschungsfragen Jeweils zu Beginn der nachfolgenden fünf Abschnitte wird die Forschungsfrage als Gedankenstütze noch einmal genannt. Im Anschluss daran werden die in den verschiedenen Untersuchungen ermittelten und für die jeweilige Forschungsfrage relevanten Befunde in einer knappen Form zusammengestellt. Damit verbunden ist eine abschließende Beantwortung der Forschungsfrage Abschlussdiskussion zu Forschungsfrage 1 Die erste Forschungsfrage bezieht sich auf die im Rahmen der Arbeit notwendige Neuentwicklung von Instrumenten, mit denen die diagnostische Kompetenz für den Bereich der naturwiss. Erkenntnisgewinnung erfasst werden kann. Besonderes Augenmerk lag hierbei auf der Entwicklung von Instrumenten, welche den für die Arbeit geltenden theoretischen Grundlagen mit der Unterscheidung von Status- und Prozessdiagnostik (vgl. Kapitel 2) gerecht werden können. (1) Können statusund prozessbezogene diagnostische Kompetenzen angehender Biologie- Lehrkräfte im Bereich der naturwissenschaftlichen Erkenntnisgewinnung mittels schriftlicher Tests reliabel und valide erfasst werden? Im Rahmen dieser Arbeit wurden zwei Testinstrumente neu entwickelt. Das erste dient dem Erfassen der statusdiagnostischen Kompetenzen von Biologie-Lehramtsstudierenden für das Beurteilen von Schülerleistungsniveaus im Bereich Erkenntnisgewinnung (genauer: im Bereich des fachmethodischen Kompetenzkonstruktes Scientific Reasoning nach Mayer, 2007; vgl. Kapitel 2). Das zweite Testinstrument fokussiert auf die statusdiagnostischen und prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schüler-Experimentierprozesses. Zum Überprüfen der Passung der Instrumente im Hinblick auf die Forschungsfrage wurden Überlegungen und Untersuchungen angestellt hinsichtlich der Validität der Instrumente, ihrer Reliabilität, der Itemkennwerte, der 193

200 8 Zusammenfassende Diskussion und Ausblick Verteilung der Itemschwierigkeiten, der Testschwierigkeit und der Struktur der Testinstrumente. Im Folgenden sollen die hierzu ermittelten Ergebnisse zusammengefasst werden, getrennt für die beiden Instrumente. a) Instrument zum Erfassen der statusdiagnostischen Kompetenzen der Studierenden für das Beurteilen von Schülerleistungsniveaus im Rahmen von Scientific Reasoning Validitätsprüfung: Im Rahmen der Validitätsprüfung wurde das Instrument in Bezug auf seine Passung zum Kompetenzkonstrukt der naturwissenschaftlichen Erkenntnisgewinnung, der Übereinstimmung mit der dieser Arbeit zugrunde gelegten Konzeptualisierung von diagnostischer Kompetenz und hinsichtlich seiner Inhaltsvalidität geprüft und für geeignet ausgewiesen (für Begründungen und weitere Ausführungen hierzu siehe Kapitel 6.3.1). Auch die Validitätsprüfung im Rahmen der Videoanalysen lieferten keinen Hinweis darauf, dass die Testitems anders verstanden wurden als beabsichtigt, also grundsätzliche Verständnisschwierigkeiten bestanden hatten (Kapitel ). Reliabilitätsprüfung: Die Reliabilität des Instrumentes, bezogen auf die nach der Item Response Theory (IRT) ermittelten Werte, kann in Bezug auf die Item reliability als sehr gut bezeichnet werden. Die Werte für die Person reliability weisen demgegenüber auf einen möglicherweise noch vorhandenen Überarbeitungsbedarf der Items hin (Kapitel 6.3.2). Auch die im Rahmen der Klassischen Test Theorie gewonnenen Daten zur Inneren Konsistenz des Instrumentes sind als noch nicht ganz zufriedenstellend zu betrachten. Allerdings ist dabei zu bedenken, dass für die Reliabilität diagnostischer Kompetenzen bisher noch keine Maßstäbe für die zu erwartende Höhe der Indikatoren vorliegen (Lintorf et al., 2011, S.116) und einige Forschungsarbeiten explizit darauf hinweisen, dass diagnostische Urteile anscheinend häufig nicht reliabel sind (Lorenz & Artelt, 2009). Parallelmessung: Die mit dem Testinstrument gewonnenen Ergebnisse fielen im Vergleich der beiden untersuchten Studierendenjahrgänge sehr ähnlich aus (vgl. Kapitel 6.2 und 6.3). Dies gilt sowohl für die Verteilung der von den Studierenden abgegebenen Niveaubeurteilungen zu den Schülerantworten, für die berechneten Werte zu ihren statusdiagnostischen Kompetenzen, also auch für die Werte zur Reliabilität des Instrumentes und zu den Itemkennwerten. Die Reproduzierbarkeit dieser Testergebnisse kann als Hinweis auf die Messzuverlässigkeit des Testes (im Sinne einer guten Paralleltestreliabilität) gewertet werden. Itemschwierigkeiten und Item-Fit-Werte: Ebenfalls erweist sich das Testinstrument in Bezug auf die Verteilung der Itemschwierigkeiten als geeignet (Kapitel 6.3.4): Die Itemschwierigkeiten decken den gesamten Fähigkeitsbereich der Studierenden ab mit einem deutlichen Maximum im mittleren Fähigkeitsbereich. Auch die ermittelten Item-Fit-Werte sind überwiegend als gut zu bezeichnen und bestätigen damit die Modellpassung der Items. Allerdings deuten einige der Werte 194

201 8 Zusammenfassende Diskussion und Ausblick darauf hin, dass auch hier Optimierungspotential vorhanden ist, d. h. es lohnend sein könnte, einige der Items zu überarbeiten. Schwierigkeit des Testinstrumentes: Die aus den Ergebnisdaten heraus erzeugten Person-Item- Maps weisen die Testschwierigkeit als geeignet aus (Kapitel 6.2.5): Die Mittelwerte der Personenfähigkeiten und der Itemschwierigkeiten liegen im Person-Item-Map auf der gleichen Höhe. b) Kombiniertes Instrument zum Erfassen der statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schülerexperimentierprozesses Validitätsprüfung: Auch bei diesem Instrument fiel die Validitätsprüfung positiv aus (Kapitel 7.3.1): Sowohl seine Passung zum Kompetenzkonstrukt der naturwissenschaftlichen Erkenntnisgewinnung, seine Übereinstimmung mit der dieser Arbeit zugrunde gelegten Konzeptualisierung von diagnostischer Kompetenz als auch die Bedeutung der im Test abgefragten Kompetenzen für den realen Schulalltag werden als gegeben angesehen. Die Auswahl und Begründung der im Testinstrument angelegten Beurteilungskriterien, nach denen die Studierenden den Experimentierprozess und die hier erbrachten Schülerergebnisse und Schülerhandlungen zu beurteilen hatten, und aufgrund welcher dann letztendlich im Test ihre diagnostische Kompetenz beurteilt wird, erfolgte in Abstimmung mit den theoretischen Überlegungen und empirischen Befunden aus der einschlägigen Forschungsliteratur (siehe Kapitel 4.5). Reliabilitätsprüfung: Im Gegensatz zur Validität können die Werte zur Reliabilität des kombinierten Testinstrumentes als noch nicht zufriedenstellend angesehen werden (vgl. Kapitel 7.3.3). Folgende Gründe haben vermutlich hierzu beigetragen: So hat sicherlich das spezielle MC- Format der Items mit den nur wenigen Antwortmöglichkeiten zu einer erhöhten Ratewahrscheinlichkeit und damit zu den inkonsistenten Antworten der Studierenden und den damit verbundenen schlechten Reliabilitäts-Werten beigetragen (für weitergehende Ausführungen hierzu vgl. Kapitel 7.3.3). Abhilfe könnte hier nur eine Überarbeitung der Items schaffen, vor allem hinsichtlich ihres MC-Formats. Daneben gilt aber auch wieder das im Zusammenhang mit dem vorigen Instrument angeführten Argument, dass diagnostische Urteile häufig nicht reliabel sind (Lorenz & Artelt, 2009) und bisher noch keine Maßstäbe für die zu erwartende Höhe der Indikatoren vorliegen (Lintorf et al., 2011). Ein weiterer Gesichtspunkt, der bei der Bewertung der schlechten Reliabilitäten berücksichtigt werden muss, ist der auf die Studie von Lintorf et al. (2011) zurückgehende Einwand, dass eine Interpretation von Werten zur Internen Konsistenz (wie dem Cronbachs Alpha) für diagnostische Urteile im Falle von Mehrdimensionalität nicht sinnvoll ist, da das Vorliegen von Eindimensionalität Voraussetzung dafür ist, dass Cronbachs Alpha die Reliabilität zuverlässig schätzt (Lintorf et al., 2011 mit Bezug auf Shevlin et al., 2000). Da aber 195

202 8 Zusammenfassende Diskussion und Ausblick das Vorliegen von Eindimensionalität für die diagnostische Kompetenz anzuzweifeln ist (Lintorf et al., 2011; Spinat, 2005), müssen auch die im Rahmen dieser Arbeit ermittelten Reliabilitäten mit Vorbehalt gesehen werden. Itemschwierigkeiten: Bei der Analyse der Itemschwierigkeiten zeigte sich, dass die Verteilung der Itemschwierigkeiten verschoben war in den Bereich der leichten bis sehr leichten Items (Kapitel 7.3.4). Insbesondere betraf dies das Teilinstrument zum Erfassen der statusdiagnostischen Kompetenzen. In diesem Zusammenhang soll wieder auf das spezielle MC-Format der Items hingewiesen werden, welches sicherlich zu einer erhöhten Ratewahrscheinlichkeit und damit zu den erhöhten Lösungsquotienten geführt hat (vgl. auch Kapitel 7.2.1). Schwierigkeit des Testinstruments: Entsprechend der Verschiebung hin zu den leichten bis sehr leichten Items erwies sich die Testschwierigkeit des Instrumentes für die Studierenden als zu leicht (siehe Kapitel 7.2). Struktur des Testinstrumentes: Hinsichtlich der Eignung des Instrumentes für das Erfassen der statusdiagnostischen und prozessdiagnostischen Fähigkeiten der Studierenden soll an dieser Stelle auf seine besondere kombinierte Struktur hingewiesen werden: Beide Testteile beziehen sich auf den gleichen Schüler-Experimentierprozess. Unter der Voraussetzung, dass beide Testteile die jeweils relevanten Aspekte von status- bzw. prozessdiagnostischer Kompetenz abfragen, ist es möglich, die ermittelten statusund prozessdiagnostischen Kompetenzen der Studierenden miteinander zu vergleichen. Fazit zur Forschungsfrage 1: Als Fazit aus den oben genannten Befunden zu den Gütekriterien und Kennwerten wird im Hinblick auf die Forschungsfrage 1 der Schluss gezogen, dass der Kompetenztest für Statusdiagnostik geeignet erscheint, die statusdiagnostische Kompetenz der Studierenden zum Beurteilen der Schülerleistungsniveaus valide und reliabel zu erfassen. In Bezug auf den kombinierten Kompetenztest für Status- und Prozessdiagnostik wird geschlussfolgert, dass das Instrument hinsichtlich seiner Validität geeignet erscheint. Insbesondere die Auswahl der Beurteilungskriterien wird als gelungen angesehen zum Erfassen der diagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schülerexperimentierprozesses. Auch wird die getrennte Abfrage der jeweils spezifischen Kompetenzen für Statusdiagnostik und für Prozessdiagnostik (auf Basis des ausgefüllten Schülerarbeitsheftes und auf Basis der Vignette mit der Dokumentation des Schülerarbeitsprozesses) als geeignet angesehen. Verbessert werden müsste dagegen das Format der Items mit den nur wenigen Antwortkategorien und der damit verbundenen hohen Ratewahrscheinlichkeit. Mit diesem Punkt einhergehend ist auch die ebenfalls nicht zufriedenstellende Testschwierigkeit zu betrachten, vor allem die des statusdiagnostischen Teils des kombinierten Instrumentes. Unter Berücksichtigung dieser Überarbeitungsvorschläge sollte sich auch seine Reliabilität verbessern lassen, wobei natürlich 196

203 8 Zusammenfassende Diskussion und Ausblick weiterhin die genannten Argumente hinsichtlich der grundsätzlichen Aussagekraft der Reliabilität zu berücksichtigen sind Abschlussdiskussion zu Forschungsfrage 2 Die zweite Forschungsfrage bezog sich auf die mit Hilfe der verschiedenen Testinstrumente ermittelten Ausprägungen der diagnostischen Kompetenzen der Studierenden: (2) Welche Ausprägungen zeigt die diagnostische Kompetenz der Biologie-Lehramtsstudierenden bezüglich ihrer Fähigkeit für Status- und Prozessdiagnostik im Bereich der naturwissenschaftlichen Erkenntnisgewinnung? a) In Bezug auf die statusdiagnostischen Kompetenzen der Studierenden für das Beurteilen von Schülerleistungsniveaus im Bereich von Scientific Reasoning konnten folgende zentrale Befunde zu den Ausprägungen ermittelt werden: Für beide Kohorten ergab sich der Befund, dass die Studierenden das Leistungsniveau der vorgegebenen Schülerantworten umso schlechter korrekt beurteilen konnten, je höher es war (siehe Kapitel 6.2.2). Dieser Trend zeigte sich nicht nur im Gesamtbild für Scientific Reasoning, sondern auch innerhalb jedes einzelnen der vier Teilbereiche (Fragestellung, Hypothesenbildung, Planen einer Untersuchung, Datenanalyse). Die statusdiagnostischen Kompetenzen der Studierenden waren für die vier Teilbereiche von Scientific Reasoning unterschiedlich hoch (Kapitel 6.2.6). So fiel es ihnen am leichtesten, Schülerantworten aus dem Teilbereich Datenanalyse zu beurteilen. Am schwersten fiel es ihnen, das Leistungsniveau der Schülerantworten aus dem Teilbereich Planen einer Untersuchung einzuschätzen. In Bezug auf die hierzu diskutieren Gründe sei auf das entsprechende Kapitel verwiesen. Die mit Hilfe des Instrumentes ermittelten diagnostischen Kompetenzen der Studierenden verteilen sich über eine große Fähigkeitsspanne: Die von den Probanden im Test erreichten Lösungsquotienten erstrecken sich von circa 20 % korrekt beurteilter Schülerantworten bis hin zu über 80 % an korrekten Schülerbeurteilungen (Kapitel 6.2.4). Damit wird klar, dass die Studierenden große interindividuelle Unterschiede aufweisen hinsichtlich ihrer statusdiagnostischen Kompetenzen, was im Einklang steht mit den Forschungsergebnissen anderer Studien (vgl. Kapitel 2.4). Die Verteilung der Probandenfähigkeiten zeigt sich dabei annähernd als glockenförmig und kann zumindest für die nach der IRT berechneten Daten noch als normalverteilt angesehen werden (Kapitel 6.2.4). Die Videoanalyse zum Kompetenztest für Statusdiagnostik (d. h. die Analyse der Bearbeitungsprozesse der Studierenden im Test) liefert Hinweise darauf, dass ein Teil der 197

204 8 Zusammenfassende Diskussion und Ausblick Studierenden Probleme mit der Bedeutung von einigen Begriffen im Kontext von Scientific Inquiry hatten und dementsprechend Schwierigkeiten beim Umgang mit dem Erwartungshorizont zeigten, wenn diese Begriffe dort in den Beschreibungen der Leistungsniveaus auftauchten (siehe Kapitel ). Die Videoanalyse liefert weiterhin deutliche Hinweise darauf, dass das Hauptproblem beim Beurteilen der Schülerleistungsniveaus darin bestand, dass die Studierenden die im Erwartungshorizont genannten, im Zusammenhang mit Scientific Reasoning stehenden Kriterien zum Einstufen in die entsprechenden Leistungsniveaus nicht in korrekter Weise in den Schülerantworten identifizieren konnten (siehe Kapitel ). Die Untersuchungen legen nahe, dass dies der Hauptgrund für den weiter oben genannten Trend ist: Mit steigendem Leistungsniveau ist die Notwendigkeit verbunden, eine steigende Anzahl von das jeweilige Niveau kennzeichnenden Kriterien in der Schülerantwort zu identifizieren. Und da das Identifizieren den Studierenden Schwierigkeiten bereitet, resultiert die Tendenz, Schülerantworten auf hohem Niveau nicht als solche zu erkennen. Ein dritter Befund aus der Videoanalyse besteht darin, dass die hier untersuchten Studierenden offensichtlich mehrfach aufgrund einer sprachlich einfach gehaltenen Ausdruckweise der Schüler oder einer umständlichen Formulierung auf ein im Vergleich zur Referenzlösung zu niedriges Leistungsniveau geschlossen haben oder zumindest Unsicherheiten bei der Beurteilung zeigten (siehe Kapitel ). Die Biologie-Lehramtsstudierenden waren im Test oft nicht in der Lage, eine korrekte Einschätzung über die Aufgabenschwierigkeiten der Schüleraufgaben abzugeben (Kapitel 6.2.1). Für die hierzu diskutierten Gründe sei auf das Kapitel verwiesen. b) In Bezug auf die statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schülerexperimentierprozesses konnten folgende Befunde zu den Ausprägungen ermittelt werden: Auffällig war hier der große Anteil der Studierenden, die Schwierigkeiten hatten zu beurteilen, ob die Schüler die zu messende und die zu variierende Variable korrekt berücksichtigt hatten. Dieser Befund über die Schwierigkeiten der Studierenden im Zusammenhang mit der Beurteilung des Schülerumgangs mit den Variablen findet sich sowohl in den Ergebnissen zum statusdiagnostischen Teil des kombinierten Testinstrumentes (hier bei der Beurteilung der Versuchsplanung der Schüler, siehe Kapitel 7.2.1) als auch in den Ergebnissen zum prozessdiagnostischen Teil (hier bei der Beurteilung der Versuchsdurchführung, siehe Kapitel 7.2.3). Weiterhin lassen sich auch im Statusdiagnostik-Test, welcher die Fähigkeiten der Studierenden für das Beurteilen der Schülerleistungsniveaus erfasst hatte, Hinweise auf genau 198

205 8 Zusammenfassende Diskussion und Ausblick diese Schwierigkeit finden. Für nähere Ausführungen hierzu sei auf die Kapitel 7.2.1, und die Videoanalysen in Kapitel verwiesen. Sowohl die Ergebnisse zum statusdiagnostischen Teil des kombinierten Instrumentes wie auch diejenigen zum prozessdiagnostischen Teil belegen, dass viele Studierende Schwierigkeiten hatten zu entscheiden, ob es sich bei den Schülerbeobachtungen bzw. den von ihnen dokumentierten Beobachtungen oder Messungen um qualitative oder um quantitative Beobachtungen bzw. Messungen handelt (siehe Kapitel und 7.2.3). Die Ergebnisse aus dem statusdiagnostischen Teil des kombinierten Testinstrumentes weisen darauf hin, dass viele der Studierenden Schwierigkeiten mit der Bedeutung bestimmter Begriffe im Kontext der naturwissenschaftlichen Erkenntnisgewinnung hatten (hier: mit dem Begriff verallgemeinernder bzw. generalisierender Anteil) und dementsprechend nicht in der Lage waren, die vorliegenden Schülerergebnisse korrekt zu beurteilen (siehe Kapitel 7.2.1). Sowohl die mit Hilfe des statusdiagnostischen Teils wie auch die mit Hilfe des prozessdiagnostischen Teils ermittelten diagnostischen Fähigkeiten der Studierenden verteilten sich über eine sehr weite Spanne (vgl. Kapitel und 7.2.4). So gab es beim Statusdiagnostik- Test Studierende, die nur 10 % der geforderten Beurteilungen korrekt abgegeben hatten, bis hin zu Studierenden, bei denen 90 % der Beurteilungen korrekt waren. Nicht ganz so extrem zeigten sich die interindividuellen Unterschiede im Prozessdiagnostik-Test: Hier erstreckte sich die Spanne der von den Probanden abgegebenen korrekten Beurteilungen von 30 % bis 75 %. Die mit Hilfe des kombinierten Instrumentes gewonnenen Korrelationsanlysen belegen, dass die im Test abgefragten statusund prozessdiagnostischen Fähigkeiten der Studierenden tatsächlich unterschiedliche Kompetenzkonstrukte darstellen (siehe Kapitel 7.2.6). Im Vergleich der Ergebnisse aus den beiden Anteilen des kombinierten Instrumentes ergab sich, dass die Werte zu den prozessdiagnostischen Kompetenzen der Studierenden im Durchschnitt deutlich geringer ausfallen als diejenigen zu den statusdiagnostischen Kompetenzen. Unter der Voraussetzung, dass beide Anteile die für die Diagnostik eines Schülerexperimentierprozesses wesentlichen Aspekte abfragen, deutet dieser Befund darauf hin, dass die Prozessdiagnostik für die Studierenden schwieriger ist. Zur möglichen Interpretation dieses Befundes sei auf die Diskussion in Kapitel verwiesen. Fazit zur Forschungsfrage 2: Die Biologie-Lehramtsstudierenden weisen bezüglich ihrer diagnostischen Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung große interindividuelle Unterschiede auf. Für das Beurteilen von Schülerleistungen im Bereich der Erkenntnisgewinnung zeigte sich, dass mit steigendem Niveau der Schülerlösungen auf Seiten der Studierenden eine sinkende Fähigkeit zum Beurteilen dieser einhergeht. Aus den Korrelationsanalysen zwischen den beiden Anteilen des kombinierten Status- und Prozessdiagnostik-Instrumentes geht 199

206 8 Zusammenfassende Diskussion und Ausblick hervor, dass für die Statusdiagnostik ein anderes Kompetenzspektrum benötigt wird als für die Prozessdiagnostik. Damit bestätigt sich auch für die Untersuchungen der vorliegenden Arbeit die in verschiedenen anderen Arbeiten postulierte Domänenspezifität der diagnostischen Kompetenz (vgl. Kapitel 2.4). Im Vergleich der Ausprägung der beiden Kompetenzformen zeigen sich die prozessdiagnostischen Kompetenzen der Studierenden als niedriger ausgeprägt als die statusdiagnostischen Kompetenzen. Betrachtet man die einzelnen Kompetenzfacetten im Bereich der Erkenntnisgewinnung näher, so zeigt sich insbesondere eine große Schwierigkeit der Studierenden beim Beurteilen des Schülerumgangs mit den Variablen. Auch für den Umgang mit einigen Begriffen aus dem Bereich Erkenntnisgewinnung scheinen Unklarheiten zu bestehen. Insbesondere das Übertragen bzw. Anwenden der Begriffe auf die Schülerlösungen und die Schülerhandlungsprozesse scheint bei der Beurteilung dieser Probleme zu bereiten Abschlussdiskussion zu Forschungsfrage 3 Die dritte Forschungsfrage fragt nach den Zusammenhängen zwischen den gemessenen diagnostischen Kompetenzen der Biologie-Lehramtsstudierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung und ihrem fachmethodischen Wissen bzw. ihrem Wissenschaftsverständnis. Letztere beiden stellen im Diagnosekompetenzmodell vermutete Bedingungsfaktoren für die diagnostische Kompetenz im Bereich Erkenntnisgewinnung dar. Die Forschungsfrage war in zwei Unterfragen aufgeteilt: (3a) Welcher Zusammenhang besteht zwischen der diagnostischen Kompetenz der Studierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung und ihrem eigenen fachmethodischen Wissen in diesem Bereich? (3b) Welcher Zusammenhang besteht zwischen der diagnostischen Kompetenz der Studierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung und ihrem Verständnis über die Charakteristiken der Naturwissenschaften (Nature of Science)? In Bezug auf die Befunde zu Forschungsfrage 3 konnten folgende Zusammenhänge zwischen den in den verschiedenen Untersuchungen ermittelten statusund prozessdiagnostischen Kompetenzen gefunden werden (für weitergehende Ausführungen siehe Kapitel und Kapitel 7.2.8). Zur besseren Übersicht sind diese mit Hilfe von Korrelationsanalysen gefundenen Zusammenhänge in Abb. 8.1 diagrammartig zusammengestellt. Darin aufgenommen sind nur die als signifikant getesteten Zusammenhänge. 200

207 8 Zusammenfassende Diskussion und Ausblick Fachmethodisches Wissen im Bereich Scientific Reasoning 0,23** 0,14* Statusdiagnostische Kompetenz für das Beurteilen von Schülerlösungen im Bereich Scientific Reasoning (Erheb. 2) Wissenschaftsverständnis im Bereich Nature of Science 0,36** Statusdiagnostische Kompetenz für das Beurteilen eines Schülerexperimentierprozesses (Erheb. 3) Prozessdiagnostische Kompetenz für das Beurteilen eines Schülerexperimentierprozesses (Erheb. 3) Legende: Korrelationen nach Kendall-Tau-b mit * für p<0,05 und ** für p<0,01 Abb. 8.1: Übersicht über die Zusammenhänge zwischen diagnostischer Kompetenz und fachmethodischem Wissen bzw. Wissenschaftsverständnis (Kohorte 2) Für die diagnostische Kompetenz der Studierenden aus Kohorte 2 sind Zusammenhänge sowohl mit ihrem fachmethodischen Wissen als auch mit ihrem Wissenschaftsverständnis feststellbar. Allerdings sind diese Korrelationen, wenngleich (hoch) signifikant, nur schwach ausgeprägt. Im Vergleich der beiden postulierten Bedingungsfaktoren fallen die Korrelationen mit dem fachmethodischen Wissen deutlich höher aus (siehe auch in den entsprechenden Kapiteln dieser Arbeit). In der Betrachtung der dargestellten Befunde ist auffällig, dass für die mit dem Statusdiagnostik-Test an Erhebung 2 gemessene diagnostische Kompetenz sowohl Korrelationen mit dem fachmethodischen Wissen als auch mit dem Wissenschaftsverständnis vorliegen. Demgegenüber konnten für das kombinierte Instrument nur Korrelationen zwischen der prozessdiagnostischen Kompetenz und dem fachmethodischen Wissen nachgewiesen werden. Erklärt werden könnte dieser Befund damit, dass das kombinierte Testinstrument und hier vor allem der statusdiagnostische Testteil deutlich zu leicht war und dementsprechend möglicherweise nicht mehr ausreichend differenzieren konnte zwischen den verschiedenen Fähigkeitsstufen der Probanden. Diese Differenzierung ist aber notwendig, will man Zusammenhänge mit einem anderen Wissenskonstrukt aufdecken (hier dem fachmethodischen Wissen). Da Korrelationen Zusammenhänge erfassen im Sinne von je mehr desto mehr (bzw. auch genau umgekehrt), ist es notwendig, dass auf beiden Seiten ausreichende Abstufungen in den Fähigkeitsausprägungen vorliegen, will man eine tatsächlich vorhandene Korrelation aufdecken. Differenzieren die Instrumente nicht ausreichend, bleiben möglicherweise vorhandene Zusammenhänge unerkannt. Als Fazit zur Beantwortung der Forschungsfrage 3 wird aus den in den Untersuchungen gewonnenen Befunden und der oben genannten Überlegung der Schluss gezogen, dass vor allem für das fachmethodische Wissen Zusammenhänge mit der diagnostischen Kompetenz der Studierenden anzunehmen sind. Dies gilt sowohl für die statusdiagnostischen wie auch die prozessdiagnostischen Kompetenzen der Studierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung. Sie 201

208 8 Zusammenfassende Diskussion und Ausblick sind allerdings nur schwach ausgeprägt. Die Zusammenhänge zwischen diagnostischer Kompetenz und dem Wissenschaftsverständnis spielen vermutlich eher eine untergeordnete Rolle und waren in den verschiedenen Untersuchungen auch nicht durchgängig vorhanden (vgl. hierzu auch die Ergebnisse in den entsprechenden Kapiteln 6 und 7) Abschlussdiskussion zu Forschungsfrage 4 Die vierte Forschungsfrage fragt nach den Zusammenhängen zwischen den gemessenen diagnostischen Kompetenzen der Biologie-Lehramtsstudierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung und verschiedenen Personen- und Kontextvariablen: (4) Welcher Zusammenhang zeigt sich zwischen Personen- und Kontextvariablen wie Geschlecht, Abiturnote, Alter der Probanden, Studienfächer und die von den Studierenden gewählte Lehramtsform und der diagnostischen Kompetenz der Studierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung? Die Forschungsfrage zielt auf einen möglichen Einfluss dieser Variablen auf die Ausprägung der untersuchten statusund prozessdiagnostischen Kompetenzen. An Befunden zu Forschungsfrage 4 wurden die in Abb. 8.2 dargestellten und in Kapitel 6 und Kapitel 7 beschriebenen Zusammenhänge ermittelt. Für die nicht aufgeführten Variablen Fächerkombination und Alter der Studierenden wurden keine Zusammenhänge nachgewiesen. Für die dargestellten Befunde ist zu berücksichtigen, dass die Zusammenhänge zwischen den an Erhebung 3 gemessenen statusund prozessdiagnostischen Kompetenzen und den drei aufgeführten Personen- und Kontextvariablen nur für Kohorte 2 untersucht worden waren, da Kohorte 1 bei Erhebung 3 nicht in ausreichender Probandenzahl in der Stichprobe vertreten war (vgl. Kapitel 7.2). Lehramtsform ( L2 vs. L3) 0,27** 0,28** 0,20* Statusdiagnostische Kompetenz für das Beurteilen von Schülerlösungen im Bereich Scientific Reasoning (Erheb. 2) Geschlecht 0,14* Abiturnote?? Statusdiagnostische Kompetenz für das Beurteilen eines Schülerexperimentierprozesses (Erheb. 3) Prozessdiagnostische Kompetenz für das Beurteilen eines Schülerexperimentierprozesses (Erheb. 3) Korrelationen nach Kendall-Tau-b mit * für p<0,05 und ** für p<0,01; L2 = Lehramt für Haupt- und Realschulen; L2 = Gymnasiallehramt; Grau = Werte für Kohorte 1; Schwarz = Werte für Kohorte 2;? = konnte nicht berechnet werden Abb. 8.2: Übersicht über die Zusammenhänge zwischen diagnostischer Kompetenz und verschiedenen Personen- und Kontextvariablen 202

209 8 Zusammenfassende Diskussion und Ausblick Von den untersuchten Personen- und Kontextvariablen erweist sich die von den Studierenden gewählte Lehramtsform (Gymnasiallehramt versus Lehramt für Haupt- und Realschulen) als die Variable, die mit der diagnostischen Kompetenz für das Beurteilen der Schülerleistungsniveaus den konsistentesten Zusammenhang aufweist (siehe Abb. 8.2 und Kapitel ). In Bezug auf die diagnostische Kompetenz für das Beurteilen des Schüler-Experimentierprozesses (Erhebung 3) war es aufgrund des Fehlens der angehenden Gymnasiallehrkräfte in der Stichprobe leider nicht möglich die Stärke des Zusammenhanges zu untersuchen. Da aber im Umkehrschluss auch nicht ausgeschlossen werden kann, dass ein solcher Zusammenhang nicht vielleicht doch existiert, sind an der entsprechenden Stelle in der Abbildung Fragezeichen eingefügt. Weniger durchgängig als für die Lehramtsform zeigten sich die Zusammenhänge mit den Variablen Geschlecht und Abiturnote. Für das Geschlecht war nur bei Kohorte 1 ein signifikanter (aber als schwach einzustufender) Zusammenhang mit der statusdiagnostischen Kompetenz für das Beurteilen der Schülerleistungsniveaus vorhanden, bei der Abiturnote zeigte sich dieser Zusammenhang nur bei Kohorte 2. Ein Zusammenhang der beiden Variablen mit der an Erhebung 3 gemessenen statusund prozessdiagnostischen Kompetenz war überhaupt nicht nachweisbar. Auch wenn aufgrund der genannten Befunde ein direkter Zusammenhang zwischen den untersuchten Personen- und Kontextvariablen und der diagnostischen Kompetenz nur für die von den Studierenden gewählte Lehramtsform vermutet wird, können möglicherweise (zusätzlich) auch indirekte Einflüsse der Personen- und Kontextvariablen in Form von Wirkungsketten wirksam sein. So könnten verstärkende Effekte der Personen- und Kontextvariablen zum Beispiel über die Wirkungskette Abiturnote Lehramtsform statusdiagnostische Kompetenz, über die Wirkungskette Abiturnote fachmethodisches Wissen statusdiagnostische Kompetenz, oder über die Wirkungskette Geschlecht fachmethodisches Wissen statusdiagnostische Kompetenz vorliegen (vgl. Abb. 8.3). Lehramtsform ( L2 vs. L3) 0,19* 0,16* 0,17* Fachmethodisches Wissen im Bereich Scientific Reasoning - 0,49** Geschlecht Abiturnote - 0,22** - 0,18** - 0,14* Wissenschaftsverständnis im Bereich Nature of Science Korrelationen nach Kendall-Tau-b mit * für p<0,05 und ** für p<0,01; L2 = Lehramt für Haupt- und Realschulen; L2 = Gymnasiallehramt; Grau = Werte für Kohorte 1; Schwarz = Werte für Kohorte 2 Abb. 8.3: Übersicht über die Zusammenhänge zwischen verschiedenen Personen- und Kontextvariablen und dem fachmethodischen Wissen bzw. dem Wissenschaftsverständnis 203

210 8 Zusammenfassende Diskussion und Ausblick In Bezug auf die Wirkungskette Abiturnote Lehramtsform statusdiagnostische Kompetenz soll ein solches Wirkungsgefüge kurz genauer beschrieben werden: Im Rahmen der in Kapitel 5 beschriebenen Untersuchungen konnte gezeigt werden, dass die Abiturnote mit der Wahl des Lehramtes in Zusammenhang steht: Die Studierenden des Gymnasiallehramtes wiesen die signifikant besseren Abiturnoten auf (vgl. auch Abb. 8.3). Im Rahmen der in Kapitel 6 beschriebenen Untersuchungen wiederum wurde ein Zusammenhang zwischen der gewählten Lehramtsform und der statusdiagnostischen Kompetenz ermittelt (vgl. auch Abb. 8.2). Fazit für die Forschungsfrage 4: Aus den in den Untersuchungen gewonnenen Befunden wird der Schluss gezogen, dass von den untersuchten Personen- und Kontextvariablen nur die von den Studierenden gewählte Lehramtsform in einem direkten Zusammenhang mit der diagnostischen Kompetenz zu stehen scheint. Allerdings sollte berücksichtigt werden, dass möglicherweise auch andere Personen- und Kontextvariablen wie die Abiturnote einen indirekten Einfluss auf die diagnostische Kompetenz haben im Sinne einer der oben angesprochenen Wirkungsketten. Betont werden soll an dieser Stelle, dass es sich bei den hier betrachteten vermuteten Bedingungsfaktoren und den Personen- und Kontextvariablen als möglichen Einflussfaktoren von diagnostischer Kompetenz nur um einen kleinen Ausschnitt der möglichen im Diagnosekompetenzmodell beschriebenen Einflussfaktoren handelt. Viele Faktoren, die vermutlich ebenfalls einen deutlichen Einfluss auf die diagnostische Kompetenz haben (wie z. B. die Motivation der Studierenden, ihre Fähigkeitsselbstkonzepte, ihre Anstrengungsbereitschaften, das Verständnis ihrer Lehrerrolle usw.), bleiben in der vorliegenden Arbeit unberücksichtigt Abschlussdiskussion zu Forschungsfrage 5 Die fünfte und letzte Forschungsfrage dieser Arbeit fragt nach den Selbsteinschätzungen der Biologie- Lehramtsstudierenden zu ihrem eigenen diagnostischen Wissen: (5) Welche Ausprägungen zeigen die Selbsteinschätzungen der Studierenden zu ihrem eigenen diagnostischen Wissen im Verlauf des Studiums? Diese Forschungsfrage zielt darauf ab, wie sich die Selbsteinschätzungen der Studierenden in Bezug auf ihr diagnostisches Wissen im Laufe ihres Studiums verändern. In den Untersuchungen zu dieser Forschungsfrage soll nicht nur aufgedeckt werden, in welcher Weise sich die von den Studierenden empfundene eigene diagnostische Kompetenz im Vergleich mit den anderen Facetten des Professionswissens (Fachwissen, fachdidaktisches Wissen und pädagogisches Wissen) 8 entwickelt, 8 Es soll an dieser Stelle angemerkt werden, dass das diagnostische Wissen Bestandteil des Professionswissens ist. Im Rahmen dieser Arbeit wird es überwiegend im fachdidaktischen Wissen und im pädagogischen Wissen verortet (vgl. hierzu Kapitel 2). In der Abfrage der Selbsteinschätzungen wurde es aber trotzdem gesondert aufgeführt. 204

211 8 Zusammenfassende Diskussion und Ausblick sondern auch, ob die Selbsteinschätzungen in Zusammenhang stehen mit der tatsächlich gemessenen diagnostischen Kompetenz. In Bezug auf die Zusammenhänge mit den tatsächlich gemessenen diagnostischen Kompetenzen konnte in keiner der untersuchten Fälle ein Zusammenhang mit den Ergebnissen zu den Selbsteinschätzungen der Studierenden gefunden werden (vgl. Kapitel und Kapitel 7.2.9). Offensichtlich können die Studierenden ihre eigenen Kompetenzen in diesem Bereich nicht gut einschätzen. Einschränkend soll allerdings erwähnt werden, dass sich die Abfrage des eigenen diagnostischen Wissens nicht speziell auf die diagnostische Kompetenz im Bereich Erkenntnisgewinnung bezogen hatte. Zu Beginn ihres Studiums (1. Fachsemester) wird das eigene diagnostische Wissen als deutlich unterhalb des mittleren Wertes 3 (auf einer Skala von 1 bis 5) eingestuft und liegt damit auf dem niedrigsten Wert im Vergleich mit den anderen Facetten des Professionswissens (vgl. Kapitel 5.3.4). Zu Beginn des Studiums (1. Fachsemester) korrelieren die Selbsteinschätzungen zur diagnostischen Kompetenz hoch signifikant mit denjenigen zum fachdidaktischen Wissen und zum pädagogischen Wissen. Offensichtlich werden diese drei zu Beginn des Studiums in ihrer Bedeutung noch nicht klar unterschieden. Dagegen korrelieren die Selbsteinschätzungen zum Fachwissen nicht mit den anderen drei Wissensarten (Kapitel 5.3.4). Bis zum 3. Fachsemester zeigt sich in Bezug auf die Selbsteinschätzungen zum eigenen diagnostischen Wissen nur eine geringe, nicht signifikante Zunahme bis auf einen Wert, der als einziger der untersuchten Facetten des Professionswissens unterhalb einer mittleren Einschätzung verbleibt. Im gleichen Zeitraum steigen die Selbsteinschätzungen zum pädagogischen Wissen und zum fachdidaktischen Wissen (hoch) signifikant auf Werte, die sich dann oberhalb der Selbsteinschätzungen des eigenen Fachwissens bewegen (Kapitel 6.2.8). Bis zum 5. Fachsemester, d. h. relativ am Ende ihres Studiums zeigt sich dann bei den Selbsteinschätzungen des eigenen diagnostischen Wissens der höchste Zuwachs auf einen Wert von knapp über 3. Damit belegen die Selbsteinschätzungen der Studierenden, dass diese ihr diagnostisches Wissens bis zum Ende des Studiums als diejenige Facette ihres Professionswissens ansehen, die am wenigsten gut ausgeprägt ist. Im gleichen Zeitraum sind vor allem ihre Selbsteinschätzungen zu ihrem fachdidaktischen Wissen und ihrem pädagogischen Wissen noch einmal sehr deutlich gestiegen. Offensichtlich wird das Studium in Bezug auf die Ausbildung ihrer diagnostischen Kompetenz als nicht so förderlich empfunden wie für ihr pädagogisches Wissen und ihr fachdidaktisches Wissen (vgl. Kapitel ). 205

212 8 Zusammenfassende Diskussion und Ausblick Im 5. Fachsemester zeigen sich im Vergleich zum 1. Fachsemester ganz andere Zusammenhänge zwischen den verschiedenen Facetten des Professionswissens (vgl. Kapitel ). So korrelieren die Selbsteinschätzungen zum diagnostischen Wissen hier nur mit dem pädagogischen Wissen (mit einem Wert von r = 0,5** nach dem Kendall-Tau-b Test). Offensichtlich wird die diagnostische Kompetenz zu diesem Zeitpunkt von den Studierenden eher im Bereich des Pädagogischen Wissens verortet und weniger im fachdidaktischen Bereich. Fazit für die Forschungsfrage 5: Aus den oben genannten Befunden wird ersichtlich, dass die Studierenden ihr eigenes diagnostisches Wissen als deutlich schlechter wahrnehmen als die anderen Bestandteile ihres Professionswissens. Die Einschätzung ihrer eigenen diagnostischen Kompetenz bleibt zu allen abgefragten Zeitpunkten diejenige Kompetenz, die am niedrigsten ausgeprägt eingestuft wird. Gleichzeitig fällt auf, dass der Zuwachs gerade in den Bereichen des (restlichen) fachdidaktischen Wissens und des pädagogischen Wissens vergleichsweise hoch ausfällt. Offensichtlich empfinden die Studierenden das Studium in Bezug auf die Ausbildung ihrer diagnostischen Kompetenz als weniger hilfreich im Vergleich mit dem Aufbau der anderen Bereiche des Professionswissens. 8.2 Fazit zur Arbeit und Ausblick Bedeutung für das Diagnosekompetenzmodell und Fazit zur Arbeit In dem folgenden Kapitel wird versucht, ein Resümee zur Arbeit zu ziehen. Es geht darum aufzuzeigen, welchen Nutzen und welche Erkenntnisse die Arbeit gebracht hat und wo ihre Grenzen liegen im Hinblick auf das, was sie leisten konnte oder leisten wollte. Was konnte erreicht werden - Als eine der ersten deutschsprachigen Forschungsarbeiten hat sich die vorliegende Arbeit mit der fachbezogenen diagnostischen Kompetenz von angehenden Biologielehrern im Bereich der naturwissenschaftlichen Erkenntnisgewinnung beschäftigt. - In der Arbeit werden Kriterien vorgeschlagen (und ihre Auswahl begründet), die geeignet sind, die diagnostische Kompetenz von Biologie-Lehramtsstudierenden im Bereich der naturwissenschaftlichen Erkenntnisgewinnung zu erfassen. - Im Rahmen der Arbeit wurden zwei paper-pencil-basierte Testinstrumente entwickelt und nach den gängigen Gütekriterien geprüft, mit Hilfe derer unterschiedliche Aspekte der diagnostischen Kompetenz von angehenden Biologielehrern untersucht werden können. Die beiden neu entwickelten Instrumente erfassen inhaltlich unterschiedliche Aspekte: So bezieht sich eines der beiden Instrument auf die statusdiagnostische Kompetenz der Studierenden für das Diagnostizieren von Schüler-Leistungsniveaus im Bereich Scientific Reasoning. Das andere Instrument fokussiert 206

213 8 Zusammenfassende Diskussion und Ausblick auf die Diagnostik eines Schüler-Experimentierprozesses im Rahmen der Erkenntnisgewinnung, ohne diesen vom Niveau her zu beurteilen. Das Berücksichtigen der Domänenspezifität der diagnostischen Kompetenz (vgl. Kapitel 2.4) ist ein wichtiger Punkt, der bei der Konstruktion von Instrumenten und bei der Interpretation der mit den Instrumenten gewonnenen Daten beachtet werden muss. - In Verbindung mit der Entwicklung der Instrumente wurden verschiedene Methoden zur Berechnung der diagnostischen Kompetenz aus den im Statusdiagnostik-Test bei Erhebung 2 gewonnenen Daten erprobt und verglichen (Vergleich Rasch-Analyse vs. Analyse nach der Klassischen Testtheorie). - Mit der Entwicklung des kombinierten Instrumentes können die statusund prozessdiagnostischen Kompetenzen der Studierenden für das Beurteilen eines Schülerexperimentierprozesses einerseits getrennt erfasst werden, andererseits ist es durch den Bezug beider Bestandteile auf denselben Experimentierprozess möglich, die beiden Formen der diagnostischen Kompetenz miteinander in Beziehung zu setzen. - Auch auf der Ebene der Testungen wurde ein besonderes Verfahren benutzt: Mit Hilfe des an Erhebung 2 eingesetzten Instrumentes wurden die statusdiagnostischen Kompetenzen der Studierenden auf statusdiagnostischem Wege erfasst im Sinne von Welche Beurteilungen geben die Studierenden ab?. Anschließend wurden mit Hilfe von Videoanalysen auf prozessdiagnostischem Wege weitere Informationen zu den Bearbeitungsprozessen der Studierenden abgefragt im Sinne von Aus welchen Gründen kommen die Studierenden zu ihren Beurteilungen? Dieses kombinierte Testverfahren liefert deutlich weitreichendere Informationen über die diagnostische Kompetenz der Studierenden. - Das neu entwickelte Instrument zum Erfassen der Studierendenfähigkeiten für das Beurteilen von Schülerleistungsniveaus stellt eine Anschlussforschungsarbeit zu den Bik-Studien (BiK = Biologie im Kontext; vgl. Kapitel 6) dar: Es wurden die aus der BiK-Studie stammenden Schülerantworten eingesetzt und auch die gleichen Kriterien für die Einstufung in die verschiedenen Leistungsniveaus verwendet wurden, die auch dort zum Einsatz kamen. - In Bezug auf die Ausprägung der diagnostischen Kompetenz liefert die vorliegende Arbeit einige sehr interessante Befunde (vgl. Kapitel 8.1). Besonders auffällig war hier der Befund, dass die diagnostischen Leistungen der Studierenden mit steigendem Leistungsniveau der Schülerantworten abnahmen (vgl. Kapitel 6). - In der Arbeit wurden die Selbsteinschätzungen der Studierenden zu ihrer eigenen diagnostischen Kompetenz über den Verlauf des Studiums untersucht und Ergebnisse hierzu gewonnen. Bedeutung für das Diagnosekompetenzmodell Im Folgenden sollen die im Rahmen der vorliegenden Arbeit gewonnenen Ergebnisse, Befunde und Erkenntnisse genannt werden, die in Zusammenhang stehen mit der dieser Arbeit zugrunde liegenden 207

214 8 Zusammenfassende Diskussion und Ausblick Konzeptualisierung von diagnostischer Kompetenz und dem darauf abgestimmten Diagnosekompetenzmodell. - Die in dieser Arbeit durchgeführten Untersuchungen bestätigen die Annahme des Diagnosekompetenzmodells, dass das fachmethodische Wissen einen Bedingungsfaktor für die diagnostische Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung darstellt (im Modell der Standard V1.3). Für das Wissenschaftsverständnis fallen die Ergebnisse nicht so deutlich aus. Trotzdem konnten auch hier in einigen Untersuchungen Zusammenhänge gefunden werden (im Modell der Standard V1.4). - Die in dieser Arbeit gewonnenen Ergebnisse unterstützen die Konzeptualisierung von diagnostischer Kompetenz mit der Unterscheidung von Statusdiagnostik und Prozessdiagnostik als zwei verschiedene Formen der diagnostischen Kompetenz. - Im Rahmen dieser Arbeit wurden Instrumente entwickelt, die abgestimmt sind auf das Diagnosekompetenzmodell bzw. die hiermit verbundene Konzeptualisierung von diagnostischer Kompetenz. Was konnte nicht erreicht werden / Grenzen der Arbeit - Bei den verschiedenen Untersuchungen über die Ausprägungen der diagnostischen Kompetenzen im Bereich Erkenntnisgewinnung wurden keine Niveaus von diagnostischer Kompetenz unterschieden. - Es wird keine Entwicklung von diagnostischer Kompetenz aufgezeigt. - Vor allem das kombinierte Instrument zum Erfassen der statusdiagnostischen und prozessdiagnostischen Kompetenzen der Studierenden ist in Bezug auf die Testgütekriterien verbesserungswürdig. - Im Rahmen dieser Arbeit wurde nur ein sehr kleiner Ausschnitt des Diagnosekompetenz-Modells untersucht. Ausblick Es ist sinnvoll, weitergehende Untersuchung über die diagnostische Kompetenz im Bereich der naturwissenschaftlichen Erkenntnisgewinnung anzuschließen. Vor allem interessant sind hier Untersuchungen zu den Veränderungen der diagnostischen Kompetenz im Verlauf der universitären Ausbildung. Auf die Ergebnisse, Befunde und Testinstrumente dieser Arbeit könnte in diesem Zusammenhang gut zurückgegriffen werden. Allerdings sollte eine Optimierung vor allem des kombinierten Testinstrumentes zum Untersuchen der statusund prozessdiagnostischen Kompetenzen vorgenommen werden. Sinnvoll und spannend wäre es, auch für das kombinierte statusund prozessdiagnostische Instrument mit Hilfe von Videoanalysen zu untersuchen, aus welchen Beweggründen die Studierenden zu ihren Ergebnissen im Test gelangt sind. Die Kombination aus statusdiagnostischen und prozessdiagnostischen Untersuchungsverfahren erscheint als eine sehr lohnende Methode. 208

215 8 Zusammenfassende Diskussion und Ausblick Auch das Untersuchen der Selbstwahrnehmungen zur diagnostischen Kompetenz im Abgleich mit der gemessenen diagnostischen Kompetenz scheint ein interessantes Forschungsgebiet zu sein. Hier wäre zu empfehlen, die Selbstwahrnehmungen deutlich detaillierter abzufragen mit Hilfe von Skalen zur Selbstwahrnehmung der diagnostischen Kompetenz. Diese könnten Items enthalten, die sich auf ausgewählte Standards innerhalb des Diagnosekompetenz-Modells beziehen im Sinne von Ich kann schon. Sinnvoll wäre es, diese Skalen parallel zu den Messungen zur diagnostischen Kompetenz in immer der gleichen Weise in Form eines Längsschnittes mitlaufen zu lassen Implikationen und Anregungen für die Lehramtsausbildung Ausgehend von der Selbstwahrnehmung der Studierenden, die Lehramtsausbildung derzeit als noch nicht ausreichend hilfreich genug zu empfinden in Bezug auf den Aufbau ihrer diagnostischen Kompetenz und weiterhin ausgehend von der Tatsache, dass in den Untersuchungen zur statusund prozessdiagnostischen Kompetenz der Studierenden verschiedene Defizite aber auch Möglichkeiten für Verbesserungsansätze ersichtlich wurden, sollen an dieser Stelle einige Implikationen und weiterführende Anregungen für die universitäre Lehramtsausbildung von angehenden Biologielehrkräfte (und über das Fach hinaus) präsentiert werden. Eine der wichtigsten Anregungen besteht in der deutlich stärkeren Verwendung von Schülerprodukten zum Aufbau der diagnostischen Kompetenz. In einigen Befunden dieser Arbeit und durch Rückmeldungen an die Testleitung während der Erhebungen wurde sichtbar, dass das Beschäftigen mit originalen Schülerprodukten von den Studierenden als sehr ungewohnt, aber auch als sehr gewinnbringend erachtet wird. Gerade der Umgang mit der sprachlichen Ausdrucksweise der Schüler und die Reflexion über die hinter den Schülerlösungen stehenden spezifischen Schülervorstellungen sind wichtige Grundsteine für den Aufbau einer schülerorientierten diagnostischen Kompetenz. In diesem Zusammenhang ist auch eine Reflexion über die eigenen Beurteilungsmaßstäbe dies wurde sehr deutlich in den Videoanalysen ein eminent wichtiges und geeignetes Mittel, sich das eigene diagnostische Handeln, die angelegten Beurteilungskriterien und auch die unbewussten Diagnosefehler bewusst zu machen. Eine weitere wichtige Anregung besteht darin, nicht nur (schriftliche) Schülerergebnisse zur Diagnostik heranzuziehen, sondern insbesondere auch Schülerarbeitsprozesse und Schülerhandlungen zum Gegenstand der Diagnostik zu machen. Zum einen bietet nur das Üben mit Beidem die Möglichkeit, gezielt statusdiagnostische und prozessdiagnostische Fähigkeiten zu üben und die jeweiligen Betrachtungsblickwinkel einzunehmen. Zum anderen können über eine Kombination die spezifischen diagnostischen Unterschiede und der diagnostische Mehrwert des jeweils einen oder anderen herausgearbeitet werden. In diesem Zusammenhang ist es für Studierende und auch dies steht im Einklang mit Rückmeldungen von Studierenden im Rahmen der Testungen und den Videoanalysen eine vollkommen ungewohnte aber auch gewinnbringende Sichtweise, über 209

216 8 Zusammenfassende Diskussion und Ausblick Prozessbetrachtung zu Schülerarbeitsprozessen Informationen über die den Schülerhandlungen zugrunde liegenden Beweggründe zu erhalten und zu erkennen, dass das, was Schüler als Ergebnis aufschreiben, oftmals nicht dem entspricht, was über die Analyse ihrer Handlungsprozesse zutage tritt. Die hier geschilderten Erfahrungen im Rahmen dieser Arbeit und die hier ausgesprochene Empfehlung, für die Lehrerbildung in deutlich höherem Maße Schülerprodukte zu nutzen und sich verstärkt auch den Schülerlernprozessen hinzuwenden, stehen in der Tradition des Ansatzes der Arbeitsgruppe um von Aufschnaiter (siehe u. a. von Aufschnaiter, 2007; von Aufschnaiter & von Aufschnaiter, 2005). In Bezug auf die aus dieser Arbeit abgeleiteten Implikationen und Anregungen speziell für den Bereich der naturwissenschaftlichen Erkenntnisgewinnung sollen folgende Aspekte angesprochen werden: Zentral wichtig scheint es in einem ersten Schritt, den Studierenden überhaupt erst die Existenz und das Ziel von fachbezogener Diagnostik nahe zu bringen. Was bedeutet Diagnostik im Zusammenhang mit fachdidaktischem Können (im Gegensatz zu rein pädagogisch ausgerichteter Diagnostik wie der Diagnostik von ADHS oder von Lernstörungen)? Und welche Ziele werden mit dieser fachbezogenen Diagnostik verfolgt? Hier sind zum Beispiel zu nennen: fachbezogene Leistungsniveaus beurteilen; sich über die in der Klasse bestehenden themenbezogenen Schülervorstellungen bewusst werden; spezifische fachliche Defizite der Schüler erkennen, um hier gezielt fördern zu können oder eine geeignete Unterrichtsplanung anzuschließen; Schülerarbeitsprozesse kriteriengeleitet zu beobachten, um die praktischen Fähigkeiten der Schüler beurteilen zu können oder aber den Eigenanteil in Gruppenarbeiten einschätzen zu können; und vieles mehr. In einem zweiten Schritt dann sollten genau diese diagnostischen Fähigkeiten geübt werden. Insbesondere im Kompetenzbereich der naturwissenschaftlichen Erkenntnisgewinnung ist dabei die Fähigkeit zur Prozessdiagnostik ein wichtiger Bestandteil der Lehrkompetenz, da hier explizit und häufig Handlungswissen und Handlungskompetenz auf Seiten der Schüler zu beurteilen und zu fördern sind, beispielsweise bei Schülerexperimentierprozessen, bei Mikroskopierarbeiten oder bei kriteriengeleiteten Verhaltensbeobachtungen. In Bezug auf das Üben der spezifischen diagnostischen Fähigkeiten im Rahmen der Erkenntnisgewinnung sind vor allem die in dieser Arbeit zutage getretenen spezifischen Defizite zu nennen, wie das Diagnostizieren des Schülerumgangs mit den Variablen, das Anwenden der für den Bereich der Erkenntnisgewinnung spezifischen Beurteilungskriterien auf die zu beurteilenden Schülerlösungen bzw. Schülerhandlungen und das Beurteilen der Schülerhandlungen und Schülerergebnisse innerhalb des Teilbereichs der Versuchsplanung. Dabei sollte beim Üben und Reflektieren dieser diagnostischen Tätigkeiten darauf geachtet werden, die eigenen fachlichen bzw. fachmethodischen Defizite auf Seiten der Studierenden zu erkennen und aufzuarbeiten. Hierfür könnten z. B. vorgeschaltete fachmethodische Tests eingesetzt werden oder es wird gemeinsam oder in Kleingruppen das Reflektieren des diagnostischen Handelns 210

217 8 Zusammenfassende Diskussion und Ausblick geübt. In diesem Zusammenhang würde auch das Aufarbeiten der in dieser Arbeit festgestellten Defizite beim Umgang mit den Begriffen im Kontext von Scientific Inquiry erfolgen können. Ein ebenfalls wichtiger Baustein für den Aufbau der diagnostischen Kompetenz im Bereich der Erkenntnisgewinnung aber nicht nur hier ist das Arbeiten mit Erwartungshorizonten (wie im statusdiagnostischen Test an Erhebung 2 geschehen). Angefangen von der Analyse der Beurteilungskriterien und -maßstäbe, die der Erwartungshorizont beinhaltet, über das Anwenden dieser beim Beurteilen von Schülerprodukten bis hin zum Aufstellen von eigenen, für die jeweilig verfolgten Ziele geeigneten Erwartungshorizonten bietet sich hier ein reichhaltiges und für den Aufbau der diagnostischen Kompetenz lohnendes Feld. Eine wichtige Kompetenz von Lehrkräften ist die Fähigkeit zum Einschätzen von Aufgabenschwierigkeiten, die im Rahmen der universitären Ausbildung gut ihren Platz finden kann. Entsprechend dem Vorschlag für das Arbeiten mit Erwartungshorizonten könnte auch hier damit angefangen werden, Aufgaben hinsichtlich der ihnen innewohnenden schwierigkeitserzeugenden Merkmale zu analysieren. Anschließend könnten die Aufgaben mit Hilfe dieser Kriterien auf ihre Schwierigkeit für Schüler abgeschätzt werden. Das Einschätzen-Können von Aufgabenschwierigkeiten gehört ebenfalls zu den grundlegenden diagnostischen Kompetenzen. Für eine Lehrkraft ist es wichtig, Aufgaben gestuft von leicht nach schwer in die Unterrichtsplanung einzubauen. Und auch für die Bewertung von Aufgabenlösungen ist die Kenntnis über ihre Schwierigkeit Voraussetzung. Letztendlich wäre dann im Zusammenhang mit den Aufgabenschwierigkeiten zu üben, selbst Aufgaben zu erstellen, die bestimmten diagnostischen Zielen dienen sollen. Auch der Punkt unterschiedliche Aufgabenformate und deren Schwierigkeit gehört hier hin. Es bleibt eine große Zahl an hier nicht erwähnten Möglichkeiten und Tätigkeiten, die für den Aufbau der diagnostischen Kompetenz im Rahmen der universitären Lehramtsausbildung sinnvoll und empfehlenswert erachtet werden. Die Anregungen in diesem Kapitel umfassen aber vor allem nur solche Aspekte, die in Zusammenhang mit den Untersuchungen und Befunden dieser Arbeit stehen. 211

218 Literatur Literatur Abell, S. (2007). Research on science teacher knowledge. In S. Abell & N. G. Lederman (Eds.), Handbook of research on science education (pp ). Mahwah, New Jersey: Lawrence Erlbaum. Abell, S. K. (2008). Twenty Years Later: Does pedagogical content knowledge remain a useful idea? International Journal of Science Education, 30(10), doi: / Abs, H. J. (2007). Überlegungen zur Modellierung diagnostischer Kompetenz bei Lehrerinnen und Lehrern. In M. Lüders & J. Wissinger (Eds.), Forschung zur Lehrerbildung (pp ). Münster: Waxmann. AFT. (1990). Standards for Teacher Competence in Educational Assessment of Students. Washington DC: National Council on Measurement in Education. Alfs, N., & Hößle, C. (2009). Eine Untersuchung zum professionellen Wissen von Biologielehrkräften zum Kompetenzbereich "Bewerten". In U. Harms (Ed.), Heterogenität erfassen - individuell fördern im Biologieunterricht. Internationale Tagung der Fachgruppe Didaktik der Biologie (FDdB) im VBIO (pp ). Kiel: IPN. Alfs, N., & Hößle, C. (2012). Ethisches Bewerten fördern - Ergebnisse einer qualitativen Untersuchung zum fachlichen Wissen von Biologielehrktäften zum Kompetenzbereich Bewertung. In U. Harms & A. Sandmann (Hrsg.), Lehr- und Lernforschung in der Biologiedidaktik 5. Insbruck, Wien, Bozen: Studienverlag. Artelt, C. (2011). Kompetenzdiagnostik und Diagnosekompetenz - Konzeptionen, Befunde und Herausforderungen. Paper presented at the Forschungstag der Pädagogischen Hochschule Nordwestschweiz, Basel. Artelt, C., & Gräsel, C. (2009). Diagnostische Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23(3-4), Astleitner, H. (2008). Die lernrelevante Ordnung von Aufgaben nach der Aufgabenschwierigkeit. In J. Thonhauser (Ed.), Aufgaben als Katalysatoren von Lernprozessen (pp ). Münster: Waxmann. Baumert, J., Bos, W., & Lehmann, R. (2000). TIMSS III Studie In J. Baumert, W. Bos & R. Lehmann (Eds.), TIMSS/III:Dritte Internationale Mathematik- und Naturwissenschaftsstudie - Mathematische und naturwissenschaftliche Bildung am Ende der Pflichtschulzeit. Opladen: Leske + Budrich. Baumert, J., & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9(4), Baumert, J., Lehmann, R. H., Lehrke, M., Schmitz, B., Clausen, M., & Hosenfeld, A. (1997). TIMSS: Mathematisch-naturwissenschaftlicher Unterricht im internationalen Vergleich. Deskriptive Befunde. Opladen: Leske + Budrich. Bayrhuber, H., Bögeholz, S., Eggert, S., Elster, D., Grube, C., Hößle, C.,... Schoormans, G. (2007). Biologie im Kontext (bik) - Erste Forschungsergebnisse zu den Kompetenzbereichen Fachwissen, Erkenntnisgewinnung, Kommunikation & Bewertung sowie zur Evaluation des Projekts. Der Mathematische und Naturwissenschaftliche Unterricht (MNU), 60(5), Becker, G., Horstkemper, M., Risse, E., Stäudel, L., Werning, R., & Winter, F. (Eds.). (2006). Friedrich Jahresheft XXIV - Diagnostizieren und Fördern. Seelze: Friedrich Verlag. Becker, J. (2004). Computergestütztes adaptives Testen (CAT) von Angst, entwickelt auf der Grundlage der Item Response Theorie (IRT). Retrieved from 212

219 Literatur Besser, M., & Krauss, S. (2009). Zur Professionalität als Expertise. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Eds.), Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung. Weinheim und Basel: Beltz. BIK. (2012). Biologie im Kontext - Einführung in den kompetenzorientierten Biologie-Unterricht. 2. Retrieved from hh.de/downloads/li_hh_dokumentation_bik_2012.pdf Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee s ability. In F. M. N. Lord, M.R (Ed.), Statistical theories of mental test scores. Reading, MA: Addison- Wesley. Boone, W. J., & Rogan, J. (2005). Rigour in quantitative analysis: The promise of Rasch analysis technique. African Journal of Research in Mathematics, Science And Technical Education, 9(1), Borowski, A., Neuhaus, B., Tepner, O., Wirth, J., Fischer, H. E., Leutner, D.,... Sumfleth, E. (2010). Professionswissen von Lehrkräften in den Naturwissenschaften (ProwiN) - Kurzdarstellung des BMBF-Projekts. Zeitschrift für Didaktik der Naturwissenschaften (ZfdN), 16, Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6th ed.). Heidelberg: Springer. Bortz, J., & Döring, N. (2006). Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler (4th ed.). Berlin: Springer. Bromme, R. (1997). Kompetenzen, Funktionen und unterrichtliches Handeln des Lehrers. In F. E. Weinert (Ed.), Enzyklopädie der Psychologie. Pädagogische Psychologie (Vol. 3, pp ). Göttingen: Hogrefe. Bromme, R. (2008). Lehrerexpertise. In W. H. Schneider, M. (Ed.), Handbuch der Pädagogischen Psychologie (pp ). Göttingen: Hogrefe. Brown, P., Friedrichsen, P., & Abell, S. (2013). The Development of Prospective Secondary Biology Teachers PCK. Journal of Science Teacher Education, 24(1), Brunner, M., Anders, Y., Hachfeld, A., & Krauss, S. (2011). Diagnostische Fähigkeiten von Mathematiklehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Eds.), Professionelle Kompetenz von Lehrkräften - Ergebnisse des Forschungsprogramms COACTIV (pp ). Münster: Waxmann. Brunner, M., Kunter, M., Krauss, S., Baumert, J., Blum, W., Dubberke, T.,... Neubrand, M. (2006). Welche Zusammenhänge bestehen zwischen dem fachspezifischen Professionswissen von Mathematiklehrkräften und ihrer Ausbildung sowie beruflichen Fortbildungen? Zeitschrift für Erziehungswissenschaft, 4, Brunner, M., Kunter, M., Krauss, S., Klusmann, U., Baumert, J., Blum, W.,... Tsai, Y.-M. (2006). Die professionlle Kompetenz von Mathematiklehrkräften: Konzeptualisierung, Erfassung und Bedeutung für den Unterricht. Eine Zwischenbilanz des COACTIV-Projekts. In M. Prenzel & L. Allolio-Näcke (Eds.), Untersuchungen zur Bildungsqualität von Schule (pp ). Münster: Waxmann. Bühner, M. (2006): Einführung in die Test- und Fragebogenkonstruktion. 2. aktual. Auflage. München: Pearson Studium. Burns, J. C., Okey, J. R., & Wise, K. C. (1985). Development of an Integrated Process Skill Test. Journal or Research in Science Teaching, 22(2), Cappell, J. (2013). Fachspezifische Diagnosekompetenz angehender Physiklehrkräfte in der ersten Ausbildungsphase, Dissertation an der Justus-Liebig Universität Gießen. Veröffentlicht in: Studien zum Physik- und Chemielernen, Band 146, Berlin: Logos Verlag. Chen, S. (2006). Developement of an instrument to assess views on nature of science and attitudes towards teaching science Science Education, Vol. 90. (pp ). Retrieved from Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16,

220 Literatur Cronbach, L. J. (1955). Processes affecting scores on "understanding of others" and "assumed similarity". Psychological Bulletin, 52, Dillashaw, F. G., & Okey, J. R. (1980). Test of the Integrated Science Prozess Skills for Secondary Science Students. Science Education, 64(5), Dübbelde, G., Mayer, J., Möller, A., & von Aufschnaiter, C. (2010). Diagnosekompetenz von Biologie-Lehramtsstudierenden zum Kompetenzbereich Erkenntnisgewinnung. In D. Krüger & A. Upmeier zu Belzen (Eds.), Erkenntnisweg Biologiedidaktik 9 (pp ). Kiel. Dubs, R. (2008). Lehrerbildung zwischen Theorie und Praxis. In E.-M. Lankes (Ed.), Pädagogische Professionalität als Gegenstand empirischer Forschung (pp ). Münster, New York, München und Berlin: Waxmann. Dünnebier, K., Gräsel, C., & Krolak-Schwerdt, S. (2009). Urteilsverzerrungen in der schulischen Leistungsbeurteilung: Eine experimentelle Studie zu Ankereffekten. Zeitschrift für Pädagogische Psychologie, 23, Embretson, S. E., & Reise, S. (2000). Item Resonse Theory for Psychologists. Mahwah, NJ: Erlbaum Publisher. Emden, M. (2011). Prozessorientierte Leistungsmessung des naturwissenschaftlich-experimentellen Arbeitens. Eine vergleichend Studie zu Diagnoseinstrumenten zu Beginn der Sekundarstufe I. In H. Niedderer, H. Fischler & E. Sumfleth (Hrsg.), Studien zum Physik- und Chemielernen: Bd Berlin: Logos. Falkenhausen, E. (1979). Leistungsmessung im Biologieunterricht. In H. H. Falkenhahn (Ed.), Handbuch der praktischen und experimentellen Schulbiologie (pp ). Köln: Aulis- Deubner Verlag. Frey, A. (2004). Die Kompetenzstruktur von Studierenden des Lehrerberufs. Zeitschrift für Pädagogik, 50(6), Frey, A., & Jung, C. (2011). Kompetenzmodelle und Standards in der Lehrerbildung. In E. Terhart, H. Bennewitz & M. Rothland (Eds.), Handbuch der Forschung zum Lehrerberuf (pp ). Münster, New York, München, Berlin: Waxmann. Germann, P. J. (1989). The Processes of Biological Investigation Test. Journal of Research in Science Teaching, 26(7), Gess-Newsome, J., & Lederman, N. G. (Eds.). (1999). Examining Pedagoical Content Knowledge - The Construct and its Implications for Science Education. Dordrecht, Boston, London: Kluver Academic Publishers. GFD. (2005). Fachdidaktische Kompetenzbereiche, Kompetenzen und Standards für die 1. Phase der Lehrerbildung. Retrieved from blikationen_zur_lehrerbildung-anlage_1.pdf Glug, I. (2009). Entwicklung und Validierung eines Multiple-Choice-Tests zur Erfassung prozessbezogener naturwissenschaftlicher Grundbildung. Elektronische Dissertation. Retrieved from Gräsel, C., & Krolak-Schwerdt, S. (2009). Lehrprofessionalität im Schwerpunktprogramm "Kompetenzmodelle". In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Eds.), Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung (pp ). Weinheim und Basel: Beltz. Gräsel, C., Krolak-Schwerdt, S., Nölle, K., & Hörstermann, T. (2010). Diagnostische Kompetenz von Grundschullehrkräften bei der Erstellung der Übergangsempfehlung. Zeitschrift für Pädagogik, 56. Beiheft, Grossman, P. L. (1990). The Making of a Teacher - Teacher Knowledge and Teacher Education. New York: Teachers College Press, Columbia University. Grube, C. (2010). Untersuchung der Struktur und Entwicklung des wissenschaftlichen Denkens bei Schülerinnen und Schülern der Sekundarstufe I. Retrieved from 214

221 Literatur Grube, C., & Mayer, J. (2010). Wissenschaftsmethodische Kompetenzen in der Sekundarstufe I: Eine Untersuchung zur Entwicklung des wissenschaftlichen Denkens. In U. Harms & I. Mackensen-Friedrichs (Eds.), Lehr- und Lernforschung in der Biologiedidaktik. Band 4. Tagungsband der Internationalen Tagung der Fachsektion Didaktik der Biologie im VBIO, Kiel (pp ). Innsbruck: Studienverlag. Hammann, M., Bögeholz, S., Carstensen, C. H., Hasse, S., & Joachim, C. (2012). ExMo: Vermittlungs- und Beurteilungskompetenzen zum Experimentieren: Modellierung, Validierung und Messinstrumenteentwicklung. Retrieved from Hammann, M., Phan, T. T. H., & Bayrhuber, H. (2007). Experimentieren als Problemlösen: Läßt sich das SDDS-Modell nutzen, um unterschiedliche Dimensionen beim Experimentieren zu messen? Zeitschrift für Erziehungswissenschaft, 10, Hammann, M., Phan, T. T. H., Ehmer, M., & Bayhuber, H. (2006). Fehlerfrei experimentieren. MNU, 59(5), Hammann, M., Phan, T. T. H., Ehmer, M. & Grimm, T. (2008). Assessing Pupils Skills in Experimentation. Journal of Biological Education, 42(2), Hartig, J. (2009). Messung der Kompetenzen von Lehrpersonen mit Modellen der Item-Response- Theorie. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Eds.), Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung (pp ). Weinheim und Basel: Beltz. Hascher, T. (2008). Diagnostische Kompetenzen im Lehrberuf. In C. Kraler & M. Schratz (Eds.), Wissen erwerben, Kompetenzen entwickeln. Modelle zur kompetenzorientierten Lehrerbildung (pp ). Münster: Waxmann. Hashweh, M. Z. (2005). Teacher pedagogical constructions: A reconfiguration of pedagogical content knowledge. Teachers and Teaching: Theory and Practice, 11(3), Hattie, J. A. C. (2009). Visible Learning. A synthesis of over 800 meta-analyses relating to achievement. London & New York: Routledge. Helmke, A. (2005). Unterrichtsqualität - erfassen, bewerten, verbessern (4 ed.). Seelze: Kallmeyersche Verlagsbuchhandllung. Helmke, A. (Ed.). (2009). Unterrichtsqualität und Lehrerprofessionalität - Diagnose, Evaluation und Verbesserung des Unterrichts (1 ed.). Seelze-Velber: Kallmeyer / Klett. Helmke, A., Hosenfeld, I., & Schrader, F.-W. (2004). Vergleichsarbeiten als Instument zur Verbesserung der Diagnosekompetenz von Lehrkräften. In R. Arnold & C. Griese (Eds.), Schulleitung und Schulentwicklung. Hohengehren: Schneider-Verlag. Hesse, I., & Latzko, B. (2009). Diagnostik für Lehrkräfte. Opladen & Farmington Hills: Verlag Barbara Budrich, UTB. Heusinger von Waldegge, K., & Hößle, C. (2010). Eine empirische Untersuchung zur diagnostischen Kompetenz von Lehrkräften. Bewertungskompetenz als Diagnosegegenstand. In D. Krüger, A. Upmeier zu Belzen & S. Nitz (Eds.), Erkenntnisweg Biologiedidaktik (Vol. 9, pp ). Kassel: Universitätsdruckerei. Hofer, B. K., & Pintrich, P. R. (1997). The development of epistemological theories: beliefs about knowledge and knowing and their relation to learning. Review of Educational Research, 67, Hoge, R. D., & Coladarci, T. (1989). Teacher-based judgments of academic achievement: A review of literature Review of Educational Research, 59( ). Horstkemper, M. (2004). Diagnosekompetenz als Teil pädagogischer Professionalität. Neue Sammlung, 44, Horstkemper, M. (2006). Fördern heißt diagnostizieren. In G. Becker, M. Horstkemper, E. Risse, L. Stäudel, R. Werning & F. Winter (Eds.), Friedrich Jahresheft Diagnostizieren und Fördern (pp. 4-7). Velber: Friedrich Verlag. 215

222 Literatur Hosenfeld, I., Helmke, A., & Schrader, F.-W. (2002). Diagnostische Kompetenz: Unterrichts- und lernrelevante Schülermerkmale und deren Einschätzung durch Lehrkräfte in der Unterrichtsstudie SALVE. In M. Prenzel & J. E. Doll (Eds.), Bildungsqualität von Schule: Schulische und außerschulische Bedingungen mathematischer, naturwissenschaftlicher und überfachlicher Kompetenzen. (Vol. 45, pp ). Weinheim: Beltz. Impara, J. C., & Plake, B. S. (1998). Teachers ability to estimate item difficulty: A test of the assumption in the Angoff Standard Setting Method. Journal of Educational Measurement, 35(1), Ingenkamp, K.-H., & Lissmann, U. (2008). Lehrbuch der Pädagogischen Diagnostik (6 ed.): Beltz. Jäger, R. S. (2007). Beobachten, beurteilen und fördern! - Lehrbuch für die Aus-, Fort- und Weiterbildung. Landau: Verlag Empirische Pädagogik. Jäger, R. S. (2009). Diagnostische Kompetenz und Urteilsbildung als Element von Lehrprofessionalität. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Eds.), Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung (pp ). Weinheim und Basel: Beltz. Jahnke, L., & Hößle, C. (2011). Wie diagnostizieren Studierende die Problemlösekompetenz von Schülern im Lehr-Lern-Labor? Paper presented at the Internationale Tagung der Fachsektion Didaktik der Biologie (FDdB) im VBio, Bayreuth. Janoschek, K. (2009). Diplomarbeit zum Thema: Empirische Studie zum kumulativen Kompetenzaufbau des Experimentierens mit lebenden Tieren (Asseln). Universität Wien - Didaktik der Biologie und Umweltkunde. Wien. Jüttner, M., & Neuhaus, B. (2010). Vom Schülerfehler zum fachdidaktischen Wissenstest. In U. Harms & I. Mackensen-Friedrichs (Eds.), Lehr- und Lernforschung in der Biologiedidaktik. Tagungsband der Internationalen Tagung der Fachsektion Didaktik de Biologie im VBIO, Kiel 2009 (Vol. 4, pp ). Innsbruck: StudienVerlag. Jüttner, M., & Neuhaus, B. (2011). Vom Schülerfehler zum PCK - Test. Ansätze zur Entwicklung von PCK Items. Paper presented at the Tagung der Fachsektion Didaktik der Biologie (FDdB) im VBIO, Universität Kiel. Jüttner, M., Spangler, M., & Neuhaus, B. (2009). Projektskizze: Professionswissen der Biologielehrer. Paper presented at the 11. Internationale Frühjahrsschule der Fachsektion Didaktik der Biologie (FDdB), März, Institut für Biologiedidaktik der Justus-Liebig-Universität Gießen, Marburg, Marburg. Kardash, C. M., & Howell, K. M. (2000). Effects of epistemological beliefs and topic-specific beliefs on undergraduates cognitive and strategic processing of dual-positional text. Journal of Educational Psychology, 92(3), Karing, C. (2009). Diagnostische Kompetenz von Grundschul- und Gymnasiallehrkräften im Leistungsbereich und im Bereich Interessen. Zeitschrift für Pädagogische Psychologie, 23(3-4), Karing, C., Matthäi, J., & Artelt, C. (2011). Genauigkeit von Lehrerurteilen über die Lesekompetenz ihrer Schülerinnen und Schüler in der Sekundarstufe I -Eine Frage der Spezifität? Zeitschrift für Pädagogische Psychologie, 25(3), Karing, C., Pfost, M., & Artelt, C. (2011). Hängt die diagnostische Kompetenz von Sekundstufenlehrkräften mit der Entwicklung der Lesekompetenz und der mathematischen Kompetenz ihrer Schülerinnen und Schüler zusammen? Journal of Educational Research, 3 (2), Kirschner, S., Wlotzka, U., Borowski, A., & Fischer, H. E. (2011). Das Professionswissen von Physiklehrern - Pilotierung und Validierung. In D. Höttecke (Ed.), Naturwissenschaftliche Bildung als Beitrag zur Gestaltung partizipativer Demokratie ( pp ). Berlin: Gesellschaft für Didaktik der Chemie und Physik. 216

223 Literatur Kliemann, S. (Ed.). (2008). Diagnostizieren und Fördern in der Sekundarstufe I. Berlin: Cornelsen Scriptor. Klug, J., Bruder, S., Kelava, A., Spiel, C., & Schmitz, B. (2013). Diagnostic competence of teachers: A process model that accounts for diagnosing learning behavior tested by means of a case scenario. Teaching & Teacher Education, 30, Retrieved from Klug, J., Bruder, S., Keller, S., & Schmitz, B. (2012). Hängen Diagnostische Kompetenz und Beratungskompetenz von Lehrkräften zusammen? Psychologische Rundschau, 63(1), doi: / /a KMK. (2004). Standards für die Lehrerbildung - Bildungswissenschaften Retrieved from Lehrerbildung.pdf KMK. (2005a). Bildungsstandards im Fach Biologie für den mittleren Bildungsabschluss. München Neuwied: Luchterhand. KMK. (2005b). Bildungsstandards im Fach Chemie für den mittleren Bildungsabschluss. München Neuwied: Luchterhand. KMK. (2005c). Bildungsstandards im Fach Physik für den Mittleren Schulabschluss. München, Neuwied: Luchterhand. KMK. (2008). Ländergemeinsame inhaltliche Anforderungen für die Fachwissenschaften und Fachdidaktiken in der Lehrerbildung. Retrieved from Fachprofile-Lehrerbildung.pdf Köller, O. (2004). Bildungsstandards in der Bundesrepublik und ihre Bedeutung für die Schul- und Unterrichtsentwicklung. Paper presented at the Bildungsstandards und Fortbildung, Soest. Köller, O., & Baumert, J. (2002). Das Abitur - immer noch ein gültiger Indikator für die Studierfähigkeit? Aus Politik und Zeitgeschichte, 26/2002, Krauss, S. (2011). Das Experten-Paradigma in der Forschung zum Lehrerberuf. In E. Terhart, H. Bennewitz & M. Rothland (Eds.), Handbuch der Forschung zum Lehrerberuf (pp ). Münster, New York, München, Berlin: Waxmann. Krauss, S., Kunter, M., Brunner, M., Baumert, J., Blum, W., & Neubrand, M. (2004). COACTIV: Professionswissen von Lehrkräften, kognitiv aktivierender Mathematikunterricht und die Entwicklung von mathematischer Kompetenz. In J. Doll & M. Prenzel (Eds.), Die Bildungsqualität von Schule: Lehrerprofessionalisierung, Unterrichtsentwicklung und Schülerförderung als Strategien der Qualitätsverbesserung (pp ). Münster: Waxmann. Kremer, K. (2010). Die Natur der Naturwissenschaften verstehen - Untersuchungen zur Struktur und Entwicklung von Kompetenzen in der Sekundarstufe I. Dissertation im FB 10 - Mathematik & Naturwissenschaften, Abteilung Didaktik der Biologie der Universität Kassel. Retrieved from Kremer, K., Grube, C., Urhane, D., & Mayer, J. (2010). Exploring Conpetencies in Understanding the Nature of Science and Scientific Inquiry. In M. F. Tasar & G. Cakmakci (Eds.), Contemporary Science Education Research: International Perspectives (Book 3). A collection of papers presented at ESERA 2009 Conference. (pp ). Kremer, K., Urhahne, D., & Mayer, J. (2009). Naturwissenschaftsverständnis und wissenschaftliches Denken bei Schülerinnen und Schülern der Sek. I. In U. Harms & A. Sandmann (Eds.), Lehrund Lernforschung in der Biologiedidaktik (Vol. 3, pp ). Insbruck: Studienverlag. Kremer, K., Urhane, D., & Mayer, J. (2007). Das Verständnis Jugendlicher von der Natur der Naturwissenschaften - Wege der Kompetenzforderung und Kompetenzdiagnostik Erkenntnisweg Biologiedidaktik (Vol. 6, pp ). 217

224 Literatur Kretschmann, R. (2003). Erfordernisse und Elemente einer Diagnostik-Ausbildung für Lehrerinnen und Lehrer. Journal für Lehrerinnen und Lehrerbildung, 2, Kretschmann, R. (2006). Die Zone der aktuellen Leistung ermitteln. Prozess- und curriculumorientierte Diagnostik und Förderung. Diagnostizieren und Fördern. Friedrich Jahresheft 2006, Kretschmann, R. (2009). Von der Diagnose zum Förderplan - Diagnostik in pädagogischen Handlungsfeldern. Paper presented at the Pädagogische Hochschule Steiermark. Symposium : Beobachten - Erkennen - Verstehen - Begleiten. Lernprozessdiagnostik als Grundlage für Individualisierung, Graz. Retrieved from zum_foerderplan.pdf Krolak-Schwerdt, S., Böhmer, M., & Gräsel, C. (2009). Verarbeitung von schülerbezogener Information als zielgeleiteter Prozess. Der Lehrer als "flexibler" Denker. Zeitschrift für Pädagogische Psychologie, 23(3-4), Künsting, J., Billich, M., & Lipowsky, F. (2009). Der Einfluss von Lehrerkompetenzen und Lehrerhandeln auf den Schulerfolg von Lernenden. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Eds.), Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung (pp ). Weinheim und Basel: Beltz. Kunter, M., Baumert, J., Blum, W., Klusmann, U., & Krauss, S. (2011). Professionelle Kompetenz von Lehrkräften: Ergebnisse des Forschungsprogramms COACTIV. Münster: Waxmann. Kunter, M., Klusmann, U., & Baumert, J. (2009). Professionelle Kompetenz von Mathematiklehrkräften: Das COACTIV-Modell. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Eds.), Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung (pp ). Weinheim und Basel: Beltz. Lankes, E.-M. (Ed.). (2008). Pädagogische Professionalität als Gegenstand empirischer Forschung. Münster, New York, München, Berlin: Waxmann. Lawson, A. E., Clark, B., Cramer-Meldrum, E., Falconer, K., Sequist, J. M., Kwon, Y-J. (2000). Development of Scientific Reasoning in College Biology: Do Two Levels of General Hypothesis-Testing Skills Exist? Journal of Research in Science Teaching, 37(1), Lederman, N. G., Abd-El-Khalick, F., Bell, R. L., & Schwartz, R. S. (2002). Views of nature of science questionnaire: toward valid and meaningful assessment of learners conceptions of nature of science. Journal of Research in Science Teaching, 39(6), Legl, A., & Nerdel, C. (2011). Entwicklung diagnostischer Kompetenzen von Biologielehrkräften im Verlauf der Berufsbiographie. Paper presented at the Internationale Tagung der Fachsektion Didaktik der Biologie (FDdB) im VBio, Bayreuth. Lehmann, R. H., Peek, R., Gänsfuß, R., Lutkat, S., Mücke, S., & Barth, I. (2000). Qualitätsuntersuchungen an den Schulen zum Unterricht in Mathematik (QuaSUM). In MBFS (Ed.), Schulforschung in Brandenburg (Vol. Heft 1). Potsdam. Liang, L. L., Chen, S., Chen, X., Kaya, O. N., Adams, A. D., Macklin, M., & Ebenezer, J. (2006). Student understanding of science and scientific inquiry (SUSSI). Paper Prepared for the 2006 Annual Conference of the National Association for Research in Science Teaching (NARST), San Francisco, CA, April 3-6, Retrieved from Linacre, J.M. (2013). Winsteps (Version ) [Computer Software]. Beaverton, Oregon: Winsteps.com. Retrieved January 1, Available from Lintorf, K., McElvany, N., Rjosk, C., Schroeder, S., Baumert, J., Schnotz, W.,... Ullrich, M. (2011). Zuverlässigkeit von diagnostischen Lehrerurteilen. Unterrichtswissenschaft, 2, Lipowsky, F. (2006). Auf den Lehrer kommt es an. Empirische Evidenzen für Zusammenhänge zwischen Lehrerkompetenzen, Lehrerhandeln und dem Lernen der Schüler. Beiheft der Zeitschrift für Pädagogik: Kompetenzen und Kompetenzentwicklung von Lehrerinnen und Lehrern: Ausbildung und Beruf, 51.,

225 Literatur Lorenz, C., & Artelt, C. (2009). Fachspezifität und Stabilität diagnostischer Kompetenz von Grundschullehrkräften in den Fächern Deutsch und Mathematik. Zeitschrift für Pädagogische Psychologie, 23(3-4), Loughran, J., Berry, A., & Mulhall, P. (2006). understanding and developing science teachers` pedagogical content knowledge. Rotterdam: Sense Publishers. Loughran, J., Mulhall, P., & Berry, A. (2008). Exploring pedagogical content knowledge in science teacher education. International Journal of Science Education., 30(10), Lücken, M., & Elster, D. (2007). Biologie im Kontext Retrieved from Maag Merki, K., & Werner, S. (2011). Erfassung und Bewertung professioneller Kompetenz von Lehrpersonen. In E. Terhart, H. Bennewitz & M. Rothland (Eds.), Handbuch der Forschung zum Lehrerberuf (pp ). Münster, New York, München, Berlin: Waxmann. Magno, C. (2009). Item Response Theory in Constructing Measures Retrieved , from Magnusson, S., Krajcik, J., & Borko, H. (1999). Nature, Sources and Development of Pedagogical Content Knowledge for Scvience Teaching. In Gess-Newsome & Lederman (Eds.), Examining Pedagogical Content Knowledge. Boston: Kluwer. Mayer, J. (2007). Erkenntnisgewinnung als wissenschaftliches Problemlösen. In D. Krüger & H. Vogt (Eds.), Theorien in der biologiedidaktischen Forschung - Ein Handbuch für Lehramtsstudierende und Doktoranden (pp ). Berlin Heidelberg: Springer Verlag. Mayer, J., Grube, C., & Möller, A. (2008). Kompetenzmodell wissenschaftlicher Erkenntnisgewinnung. In U. Harms & A. Sandmann (Eds.), Lehr- und Lernforschung in der Biologiedidaktik. Band 3. Ausbildung und Professionalisierung von Lehrkräften. Innsbruck: Studienverlag. McComas, W. F., & Olson, J. K. (1998). The Nature of Science in International Science Education Standard Documents. In W. F. McComas (Ed.), The Nature of Science in Science Education: Rationales and Strategies (pp ). Dordrecht, The Netherlands: Kluwer. McElvany, N., Schroeder, S., Hachfeld, A., Baumert, J., Richter, T., Schnotz, W.,... Ullrich, M. (2009). Diagnostische Fähigkeiten von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23(3-4), doi: / Meier, M., & Mayer, J. (2009). Entwicklung eines Experimentiertests zur Erfassung wissenschaftsmethodischer Kompetenzen.. In U. Harms (Ed.), Heterogenität erfassen - individuell fördern im Biologieunterricht. Internationale Tagung der Fachgruppe Didaktik der Biolgie (FDdB) im VBIO (pp ). Kiel: IPN. Meier, M., & Mayer, J. (2011). Gewusst Vee! Ein Diagnoseinstrument zur Erfassung von Konzeptund Methodenwissen im Biologieunterricht. Schulpädagogik-heute, 1(3), Meier, M., & Mayer, J. (2012). Experimentierkompetenz praktisch erfassen - Entwicklung und Validierung eines anwendungsbezognene Aufgabendesigns. In U. Harms & F. X. Bogner (Eds.), Lehr- und Lernforschung in der Biologiedidaktik (Vol. Band 5, pp ). Innsbruck: StudienVerlag. Möller, A., & Mayer, J. (2009). Defining Levels of Scientific Inquiry Skills in Lower Secondary Biology Education M. F. T. G. Cakmakci (Ed.) Contemporary Science Education Research: Learning and Assessment (Book 4). Part 2. A collection of papers presented at ESERA 2009 Conference. (pp ). Retrieved from Möller, A., & Mayer, J. (2011). Kompetenzentwicklung beim Experimentieren in der Sekundarstufe 1. Paper presented at the Jahrestagung der Gesellschaft für Didaktik der Chemie und Physik, Oldenburg. Moosbrugger, H., & Kelava, A. (2007). Testtheorie und Fragebogenkonstruktionen. Berlin Heidelnberg: Springer Verlag. 219

226 Literatur Nagy, G. (2007). Berufliche Interessen, kognitive und fachgebundene Kompetenzen. In F. Berlin (Ed.). Berlin: Fachbereich Erziehungswissenschaften. Retrieved from NBPTS. (2003). National Board for Professional Teaching Standards - NBPTS Adolescence and Young Adulthood Science Standards. Retrieved from Novick, M. R. (1966). The axioms and principal results of classical test theory. Journal of Mathematical Psychology, 3, NRC. (1996). National Science Education Standards. Washington, DC: National Academy Press. NSTA. (2003). Standards for Science Teacher Preparation. Retrieved from Osborne, J., Collins, S., Ratcliffe, M., Millar, R., & Duschl, R. (2003). What "ideas about science" should be taugt in school science? A Delphi study of the expert community. Journal of Research in Science Teaching, 40, Oser, F. (1997). Standards in der Lehrerbildung. Beiträge zur Lehrerbildung, 15(1), Oser, F. (2001). Standards: Kompetenzen von Lehrpersonen. In F. Oser & J. Oelkers (Eds.), DieWirksamkeit der Lehrerbildungssysteme. Von der Allrounderbildung zur Ausbildung professioneller Standards (pp ). Chur, Zürich: Rügger. Paradies, L., Linser, H. J., & Greving, J. (2007). Diagnostizieren, Fordern und Fördern. Berlin: Cornelsen Scriptor. Park, S., & Chen, Y.-C. (2012). Mapping out the integration of the components of pedagogical content knowledge (PCK): Examples from high school biology classrooms. Journal of Research in Science Teaching, 49(7), doi: /tea Park, S., Jang, J.-Y., Chen, Y.-C., & Jung, J. (2011). Is Pedagocical Content Knowledge (PCK) Necessary for Reformed Science Teaching? Research in Science Education, 41(2), Park, S., & Oliver, J. S. (2008). Revisting the Conceptualisation of Pedagogical Content Knowledge (PCK): PCK as a Conceptual Tool to Understand Teachers as Professionals. Research in Science Education, 38, doi: /s Pauli, C., & Reusser, K. (2009). Zum Einfluss von Professionalität auf die Qualität von Lehr-Lern- Prozessen. In O. Zlatkin-Troitschanskaia, K. Beck, D. Sembill, R. Nickolaus & R. Mulder (Eds.), Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung (pp ). Weinheim und Basel: Beltz. Phan, T. T. H. (2007). Testing levels of competencies in biological experimentation. Dissertation an der Christian-Albrechts-Universität Kiel. Retrieved from PHZ. (2007). Professionsstandards der PHZ (Pädagogische Hochschule Zentralschweiz). Retrieved from PISA-Konsortium, D. (2001). Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Opladen: Leske+Budrich. Praetorius, A.-K., Lipowsky, F. & Karst, K (2012). Diagnostische Kompetenz von Lehrkräften. Aktueller Forschungsstand, unterrichtspraktische Umsetzbarkeit und Bedeutung für den Unterricht. In R. Lazarides & A. Ittel (Hrsg.), Differenzierung im mathematischnaturwissenschaftlichen Unterricht. (pp ). Bad Heilbrunn: Klinkhardt. Prenzel, M., Rost, J., Senkbeil, M., Häußler, P., & Klopp, A. (2001). Naturwissenschaftliche Grundbildung: Testkonzeption und Ergebnisse. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele & W. Schneider (Eds.), Pisa 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (pp ). Opladen: Leske + Budrich. Prenzel, M., Schöps, K., Rönnebeck, S., Senkbeil, M., Walter, O., & Carstensen, C. H. (2007). Naturwissenschaftliche Kompetenz im internationalen Vergleich. In M. Prenzel, C. Artelt, J. 220

227 Literatur Baumert, W. Blum, M. Hammann & E. Klieme (Eds.), PISA 2006: Die Ergebnisse der dritten internationalen Vergleichsstudie (pp ). Münster: Waxmann. Priemer, B. (2006). Deutschsprachige Verfahren der Erfassung von epistemologischen Überzeugungen. Zeitschrift für Didaktik der Naturwissenschaften (Vol. 12, pp ). Rasch, G. (1960). Prohabilistic models for some intelligence and attainment tests. Chicago: University of Chicago. Riese, J., & Reinhold, P. (2009). Fachbezogene Kompetenzen und Kompetenzentwicklung bei Lehramtsstudierenden der Physik im Vergleich verschiedener Studiengänge. Lehrerbildung auf dem Prüfstand, 2(1), Riese, J., & Reinhold, P. (2010). Empirische Erkenntnisse zur Struktur professioneller Handlungskompetenz von angehenden Physiklehrkräften. Zeitschrift für Didaktik der Naturwissenschaften (ZfdN), 16, Rost, J. (2004). Lehrbuch der Testtheorie - Testkonstruktionen. Bern: Huber. Schmelzing, S. (2010). Das fachdidaktische Wissen von Biologielehrkräften: Konzeptionalisierung, Diagnostik, Struktur und Entwicklung im Rahmen der Biologielehrerbildung. Dissertation an der Universität Duisburg-Essen. Schmelzing, S., Wüsten, S., Sandmann, A., & Neuhaus, B. (2010). Fachdidaktisches Wissen und Reflektieren im Querschnitt der Biologielehrerausbildung. Zeitschrift für Didaktik der Naturwissenschaften (ZfdN), 16, Schommer, M. (1993). Epistemological development and academic performance among secondary students. Journal of Educational Psychology, 85(3), Schrader, F.-W. (1989). Diagnostische Kompetenzen von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Frankfurt/Main: Lang. Schrader, F.-W. (2001). Diagnostische Kompetenz von Eltern und Lehrern. In D. H. Rost (Ed.), Handwörterbuch Pädagogische Psychologie (pp ). Weinheim: Beltz. Schrader, F.-W. (2008). Dignoseleistungen und diagnostische Kompetenzen von Lehrkräften. In W. H. Schneider, M. (Ed.), Handbuch der Pädagogischen Psychologie (Handbuch der Psychologie, Band 10) (pp ). Göttingen: Hogrefe. Schrader, F.-W. (2009). Anmerkungen zum Themenschwerpunkt Diagnostische Kompetenz von Lehrkräften. Zeitschrift für Pädagogische Psychologie, 23(3-4), Schrader, F.-W. (2011). Lehrer als Diagnostiker. In E. Terhart, H. Bennewitz & M. Rothland (Eds.), Handbuch der Forschung zum Lehrerberuf (pp ). Münster, New York, München, Berlin: Waxmann. Schrader, F.-W., & Helmke, A. (1987). Diagnostische Kompetenz von Lehrern: Komponenten und Wirkungen. Empirische Pädagogik, 1, Schrader, F.-W., & Helmke, A. (2001). Alltägliche Leistungsbeurteilung durch Lehrer. In F. E. Weinert (Ed.), Leistungsmessungen in Schulen (pp ). Weinheim: Beltz. Schwartz, R. S., Lederman, N. G., & Lederman, J. S. (2008). An Instrument To Assess Views Of Scientific Inquiry: The VOSI Questionnaire. Paper presented at the annual meeting of the National Association for Research in Science Teaching, March 30-April 2, Baltimore, MD. Retrieved from Shevlin, M. E., Miles, J. N. V., Davies, M. N. O., & Walker, S. (2000). Coefficient alpha: a usefull indicator of reliability. Personality and Individual Differences, 28(2), Shulman, L. S. (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15(2), Shulman, L. S. (1987). Knowledge and teaching: Foundations of the new reform. Havard Educational Review 57(1), Siemes, A. (2008). Diagnosetheorien. In S. Kliemann (Ed.), Diagnostizieren und Fördern in der Sekundarstufe I (pp ). Berlin: Cornelsen. 221

228 Literatur Spinath, B. (2005). Akkuratheit der Einschätzung von Schülermerkmalen durch Lehrer/innen und das Konstrukt der diagnostischen Kompetenz. Zeitschrift für Pädagogische Psyhologie / German Journal of Educational Psychology, 19(1/2), Stahl, E., & Bromme, R. (2007). The CAEB: An instrument for measuring connotative aspects of epistemological beliefs. Learning and Instruction, 17(6), Südkamp, A., & Möller, J. (2009). Referenzgruppeneffekte im Simuliertem Klassenraum: direkte und indirekte Einschätzungen von Schülerleistungen. Zeitschrift für Pädagogische Psychologie, 22, Südkamp, A., Möller, J., & Pohlmann, B. (2008). Der Simulierte Klassenraum. Ein Instrument zur Untersuchung von diagnostischer Kompetenz. In E.-M. Lankes (Ed.), Pädagogische Professionalität als Gegenstand empirischer Forschung (pp ). Münster, New York, München, Berlin: Waxmann. Teichert, B. (2004). Lerneffekte beim Gen- und Biotechnischen Experimentieren. Diplomarbeit. Institut für Biolgiedidaktik und Institut für Mikro- und Molekularbiologie. Gießen. Tepner, O., Borowski, A., Dollny, S., Fischer, H. E., Jüttner, M., Kirschner, S.,... Wirth, J. (2012). Modell zur Entwicklung von Testitems zur Erfassung des Professionswissens von Lehrkräften in den Naturwissenschaften. Zeitschrift für Didaktik der Naturwissenschaften, 18, Terhart, E. (2000). Diagnostizieren, Beurteilen und Evaluieren; Fachdidaktische Studien. Perspektiven der Lehrerbildung in Deutschland. Abschlussbericht der von der Kultusministerkonferenz eingesetzten Kommission (pp ; ): Beltz. Terhart, E. (2002). Standards für die Lehrerbildung. Eine Expertise für die Kultusministerkonferenz. Retrieved from /Standards_fuer_die_Lehrerbildung_Eine_Expertise_fuer_die_Kultusministerkonferenz.p df Thonhauser, J., Buschmann, I., & Schmich, J. (2003). Nach welchen Faktoren schätzen Lehrer/innen die Schwierigkeit von Aufgaben ein?: Vortrag auf der 64. Tagung der Arbeitsgemeinschaft für empirisch-pädagogische Forschung (AEPF), Hamburg den Trowbridge, L. W. & Bybee, R.W. (1996). Teaching secondary school science: Starategies for developing scientific literacy. New Jersey: Merrill Urhahne, D., Kremer, K., & Mayer, J. (2008). Welches Verständnis haben Jugendliche von der Natur der Naturwissenschaften? Entwicklung und erste Schritte zur Validierung eines Fragebogens. Unterrichtswissenschaft - Zeitschrift für Lernforschung, 36(1), van Buer, J., & Zlatkin-Troitschanskaia, O. (2009). Diagnostische Lehrerexpertise und adaptive Steuerung unterrichtlicher Entwicklungsangebote. In J. van Buer & C. Wagner (Eds.), Qualität von Schule. Ein kritisches Handbuch. Frankfurt am Main: Peter Lang. von Aufschnaiter, C. (2007). Lernprozessorientierung als wesentliches Element von Lehrerbildung. In D. Lemmermöhle, M. Rothgangel, S. Bögeholz, M. Hasselhorn & R. Watermann (Eds.), Professionell lehren - erfolgreich lernen (pp ). Münster: Waxmann. von Aufschnaiter, C. (2007). Videobasierte Analysen von Lern- und Lehrprozessen in physikalischen Kontexten. In D. Höttecke (Hrsg.), Naturwissenschaftlicher Unterricht im internationalen Vergleich (pp ). Berlin: LIT VERLAG. von Aufschnaiter, C. (2009). Lernerorientierung in der fachdidaktischen Lehrerausbildung. In D. Höttecke (Ed.), Chemie- und Physikdidaktik für die Lehramtsausbildung (pp ). Münster: LIT VERLAG. von Aufschnaiter, C., Dübbelde, G., Cappell, J., Ennemoser, M., Mayer, J., Stiensmaier-Pelster, J.,... Wolgast, A. (2009). Professionsorientierte Lehrerbildung - Horizontale und vertikale Vernetzung fachdidaktischer, pädagogisch-psychologischer und schulpraktischer Ausbildungsanteile zum Aufbau diagnostischer Kompetenzen. SEMINAR - Lehrerbildung und Schule, 3, von Aufschnaiter, C. & von Aufschnaiter, S. (2005). Von Lernervorstellungen zu Lernprozessen: Entwicklung und Relevanz prozessorientierter Forschungsprogramme in den Fachdidaktiken. 222

229 Literatur In A. Wellensiek, M. Welzel & T. Nohl (Hrsg.), Didaktik der Naturwissenschaften Quo vadis? (pp ). Berlin: Logos. Weinert, F. E. (2000). Lehren und Lernen für die Zukunft - Ansprüche an das Lernen in der Schule. Pädagogische Nachrichten Rheinland-Pfalz, 2, Weinert, F. E. (2001). Concept of Competence: A Conceptual Clarification. In D. S. Rychen & L. H. Salganik (Eds.), Defining and Selecting Key Competencies. (pp ). Göttingen: Hogrefe & Huber Weinert, F. E., Schrader, F.-W., & Helmke, A. (1990). Educational Expertise: Closing the Gap between Educational Research and Classroom Practice. School Psychology International, 11. Retrieved from doi: / Wild, E., Maller, J., & Möller, J. (Eds.). (2009). Pädagogische Psychologie: Gabler Wissenschaftsverlage. Witner, S., & Tepner, O. (2009). Professional knowledge of chemistry teachers - test development and evaluation. In: Contemporary Science Education Research. Part 2. A collection of papers presented at ESERA 2009 Conference. Retrieved from Wolgast, A. (2013). Die Wirkung von Selbstregulation, Selbstkonzept und Motivation auf die Diagnosekompetenzangehender Lehrkräfte. Dissertation an der Justus-Liebig-Universität Gießen. Downloadbar unter: Zlatkin-Troitschanskaia, O., Beck, K., Sembill, D., Nickolaus, R., & Mulder, R. (Eds.). (2009). Lehrprofessionalität - Bedingungen, Genese, Wirkungen und ihre Messung. Weinheim und Basel: Beltz 223

230 Anhang 1: Strukturmodell fachbezogener Diagnosekompetenz Anhang 1: Strukturmodell fachbezogener Diagnosekompetenz FUNKTION DES MODELLS: Fungiert als Orientierungsrahmen für Curriculum-Entwicklung und Evaluation des Curriculums. Nicht angestrebt ist die empirische Validierung des Modells. DAS MODELL BESCHREIBT: 1) Neben den Facetten diagnostischer Kompetenz 9 (D) auch die als unverzichtbar angenommenen Voraussetzungen (V) sowie die aus der Diagnose erwachsenen Aspekte der Förderung (F). 2) Die Dimension Facetten diagnostischer Kompetenz wird in eine eher methodische Facette (D1) und in zwei eher inhaltlich orientierte Facetten (D2 und D3) unterschieden. Dabei beziehen sich die Facetten D2 und D3 vor allem auf Ergebnisse von Diagnostik mit einem Bezug zu theoretische Überlegungen. Professionsorientierte Kompetenzen, die nicht im mittelbaren Zusammenhang zu Diagnostik stehen werden NICHT beschrieben GRENZEN DES MODELLS: Das Modell ist auf die 1. Phase beschränkt. Es werden nur solche Kompetenzen angegeben, deren Etablierung in der 1. Phase zumindest in Ansätzen möglich erscheint. Die Standards werden dabei zunächst sehr fein angelegt, um eine möglichst genaue Beschreibung diagnostischer Kompetenz zu entwickeln und einer Prüfung in der Community zugänglich zu machen. Eine Bündelung von Standards kann zu einem späteren Zeitpunkt erfolgen. Einige der im Moment separat formulierten Standards können dabei im Sinne einer Graduierung eines einzelnen Standards reformuliert werden (z.b. D1.7-D1.11 als Graduierung der Fähigkeit, Diagnostik selbst durchzuführen und gezielt zu planen). Es findet eine Beschränkung auf die Kompetenzbereiche Fachwissen und Erkenntnisgewinnung (bei den durch die Lehrkräfte zu diagnostizierenden Kompetenzen der Schüler) statt. Kommunikation und Bewertung sind (zunächst noch) ausgeschlossen. Erste Veröffentlichung zum Projekt und zu einer Vorgängerversion des Modells in v. Aufschnaiter und Mitarbeiter (2009). 9 Im Rahmen des Projektes werden Wissen, Fähigkeiten und Fertigkeiten als zentrale Aspekte von Kompetenz gefasst (vgl. Kompetenzbegriff nach Weinert, 2001). Operatoren in den formulierten Standards sind so ausgewählt, dass diese erkennbar werden lassen, ob sich die jeweilige Kompetenz auf Wissen oder Fähigkeiten bezieht. 1

231 Anhang 1: Strukturmodell fachbezogener Diagnosekompetenz BESCHREIBUNG DER STANDARDS: Voraussetzungen für und Nutzen von Diagnostischer Kompetenz V1 Fachinhalte und Fachmethoden Die Studierenden V erläutern zentrale fachbezogenen Konzepte und Theorien an für die Schule relevanten Beispielen. V1.2 ordnen zentrale Fachkonzepte den Strukturprinzipien des Faches (Prinzipien, Theorien, Disziplinen) zu und erläutern Bezüge zu fachübergreifenden Zusammenhängen/Kontexten. V1.3 nutzen zentrale Schritte von mathematisch-naturwissenschaftlichen Erkenntnismethoden bei der Bearbeitung spezifischer fachlicher Beispiele / Probleme und beherrschen die dabei einzusetzenden fachspezifischen praktischen Arbeitstechniken (practical work). V1.4 interpretieren Fachinhalte und -methoden auf der Basis eines adäquaten Verständnisses der Charakteristika von mathematisch-naturwissenschaftlichen Wissenschaften. V2 Curricula, Bildungsstandards und Lernangebote Die Studierenden V2.0 geben die Struktur und den Aufbau von fachbezogenen Curricula, Lehrplänen und Bildungsstandards wider und beschreiben deren Funktion für die Gestaltung von Lernzielen, von Lernumgebungen und von Leistungsmessungen. BESCHREIBUNG DER STANDARDS: Facetten Diagnostischer Kompetenz D1 Verfahren der fachspezifischen Diagnostik Die Studierenden D1.1 erläutern, worauf sich diagnostische Kompetenz bei Lehrkräften bezieht und welche Ziele mit Diagnostik verfolgt werden können. D1.2 unterscheiden verschiedene Formen der Diagnostik (Status-, Prozess-, Veränderungs- und Verlaufsdiagnostik) und erläutern deren Unterschiede an geeigneten Beispielen. D1.3 geben Beispiele für (erprobte) Verfahren zur Status- und Prozessdiagnostik von fachspezifischen 11 kognitiven Kompetenzen sowie von (fachspezifischen) motivational-emotionalen Zustände an. D1.4 unterscheiden die in diagnostischen Verfahren eingesetzten fachspezifischen Aufgabenformate und erläutern deren Relevanz für den Fachunterricht. D1.5 diskutieren Gütekriterien von diagnostischen Verfahren mit Bezug auf die Umsetzung der Verfahren in Lehr-Lernsituationen. D1.6 unterscheiden verschiedene Bezugsnormierungen und erläutern deren Nutzen und Risiken bei der Diagnostik. D1.7 nutzen von Schülern erstellte fachspezifische Produkte zur Status- und Veränderungsdiagnose von fachspezifischen kognitiven Kompetenzen sowie (fachspezifischen) motivational-emotionalen Zustände unter Einbezug spezifischer Kriterien. D1.8 nutzen Beobachtungen und Dokumentationen von Lehr-Lernsituationen zur Prozess-, Veränderungs- und Verlaufsdiagnose von fachspezifischen Schülerkompetenzen sowie motivational-emotionalen Zustände und Dynamiken unter Einbezug spezifischer Kriterien und Modellierungen des Kompetenzaufbaus. D1.9 evaluieren die Adressatenangemessenheit und die Wirkung von fachspezifischen Lernumgebungen mit Blick auf den inhaltlichen und prozessbezogenen Kompetenzaufbau von Schülern sowie deren motivational-emotionalen Zustände und Dynamiken. D1.10 setzen zielgerichtet Verfahren der Diagnostik (im Rahmen der schulpraktischen Studien) ein zur Erfassung fachspezifischer kognitiver Kompetenzen und motivational-emotionalen 10 Die Nummerierung dient ausschließlich zur Bezeichnung und Wiedererkennung, d. h. Gliederungen oder gar Zuordnungen sind ausgeschlossen. 11 Im Folgenden wird die Bezeichnung fachspezifisch verwendet, wenn sowohl fachinhaltliche als auch fachmethodische (prozessbezogene) Aspekte gemeint sind. 2

232 Anhang 1: Strukturmodell fachbezogener Diagnosekompetenz Zustände/Dynamiken sowie zur Beschreibung des Kompetenzaufbaus. D1.11 gestalten Instrumente der Statusdiagnostik (z.b. Leistungsmessungen) mithilfe verschiedener fachspezifischer Aufgabenformate und mit unterschiedlichen Graduierungsstufen. D1.12 reflektieren eigene Einstellungen, Vorurteile, Stereotype sowie Verhalten in Bezug auf Diagnose im Fachunterricht und erläutern typische Diagnosefehler. D2 Befundlagen und Theorien zu (fachspezifischen) kognitive Kompetenzen und Kompetenzentwicklungen Die Studierenden D2.1 benennen fachspezifische kognitive Kompetenzen von Schülern und erläutern diese an Beispielen. D2.2 beschreiben Kennzeichen von Hoch- und Minderbegabung sowie von Lernstörungen. D2.3 beschreiben typische fachspezifische Kompetenzveränderungen und Kompetenzentwicklungen von Schülern an Beispielen. D2.4 nutzen (Entwicklungs-)Modelle bzw. aus theoretischen Überlegungen abgeleitete Kriterien, um Befundlagen zu kognitiven Kompetenzen zum Kompetenzaufbau sowie zu Hoch- und Minderbegabung zu deuten. D3 Befundlagen und Theorien zu (fachspezifischen) motivational-emotionalen Zuständen Die Studierenden D3.1 erläutern alterstypische motivational-emotionale Zustände (z.b. Interessen, Einstellungen und Motive) von Schülern zu Fachinhalten und Kontexten. D3.2 setzen (fachspezifische) motivational-emotionale Zustände mit theoretischen Modellen in Beziehung. D3.3 beschreiben Zusammenhänge zwischen differentialpsychologischen Determinanten (z.b. Geschlecht, Intelligenz, Selbstkonzept, Motivation, Interesse) und dem Lernverhalten sowie der Entwicklung von Schulleistung. BESCHREIBUNG DER STANDARDS: Nutzung von Diagnostik zur Gestaltung von Lernumgebungen 12 F Nutzung von Diagnostik zur Strukturierung fachspezifischer Lernumgebungen Die Studierenden F0.1 erläutern an Beispielen, welche Rolle die als Voraussetzung anzunehmenden fachspezifische kognitive Kompetenzen sowie motivational-emotionale Zustände für die Gestaltung von Lernumgebungen spielen. F0.2 planen Lernumgebungen unter Einbezug von Befundlagen zu fachspezifischen kognitiven Kompetenzen und motivational-emotionalen Zustände. F0.3 planen Lernumgebungen zielgerichtet in Hinblick auf bei den Schülern zu etablierende inhaltliche und prozessbezogene Kompetenzen. F0.4 planen Lernumgebungen unter Berücksichtigung von Befundlagen und theoretischen Modellierungen zu Lernverläufen von Schülern. F0.5 nehmen Schülerfehler (im Rahmen schulpraktischer Studien) wahr und zeigen einen konstruktiven Umgang mit diesen Fehlern. 12 Im Rahmen des Projektes werden unter Lernumgebung schwerpunktmäßig alle Instruktionen der Lehrkraft, alle eingesetzten Aufgaben, Unterrichtsmaterialien inkl. eingesetzter Software etc. sowie das Interaktionsverhalten der Lehrkraft mit den Schülern gefasst. Lernumgebung ist somit eine übergreifende Bezeichnung für alle von der Lehrkraft gestalteten unterrichtlichen Aktivitäten (inkl. Hausaufgaben). Gegebene bauliche/sächliche (Ausstattung) Randbedingungen werden grundsätzlich als Bestandteil von Lernumgebungen angesehen, im Projekt jedoch nicht (intensiv) thematisiert. 3

233 Anhang 2: Instrument zum Wissenschaftsverständnis Anhang 2: Instrument zum Wissenschaftsverständnis 4

234 Anhang 2: Instrument zum Wissenschaftsverständnis 5

235 Anhang 2: Instrument zum Wissenschaftsverständnis 6

236 Anhang 3: Aufgaben zum fachmethodischen Wissen (Kohorte 1) Anhang 3: Aufgaben zum fachmethodischen Wissen (Kohorte 1) 7

237 Anhang 3: Aufgaben zum fachmethodischen Wissen (Kohorte 1) 8

240 Anhang 3: Aufgaben zum fachmethodischen Wissen (Kohorte 1) Aufgabe 1: IM WASSER LEBENDE RÄUBER In einem Schülerversuch wird folgendes Experiment durchgeführt: Versuchstiere: 1 Gelbrandkäfer (ein Schwimmkäfer) 1 Aeschnalarve (eine Libellenlarve) 11

241 Anhang 4: Aufgaben zum fachmethodischen Wissen (Kohorte 2) Anhang 4: Aufgaben zum fachmethodischen Wissen (Kohorte 2) 12

247 Anhang 5: Beispielseiten zum Kompetenztest für Statusdiagnostik Anhang 5: Beispielseiten zum Kompetenztest für Statusdiagnostik 18

248 Anhang 5: Beispielseiten zum Kompetenztest für Statusdiagnostik 19

249 Anhang 6: Referenzlösung zum Kompetenztest für Statusdiagnostik Anhang 6: Referenzlösung zum Kompetenztest für Statusdiagnostik 20

250 Anhang 6: Referenzlösung zum Kompetenztest für Statusdiagnostik 21

251 Anhang 6: Referenzlösung zum Kompetenztest für Statusdiagnostik 22

252 Anhang 6: Referenzlösung zum Kompetenztest für Statusdiagnostik. 23

253 Anhang 7: Schülerarbeitsheft zum kombinierten Instrument Anhang 7: Schülerarbeitsheft zum kombinierten Instrument 24

254 Anhang 8: Beurteilungsbogen Statusdiagnostik (kombiniertes Instrument) Anhang 8: Beurteilungsbogen Statusdiagnostik (kombiniertes Instrument) 25

255 Anhang 9: Referenzlösung Statusdiagnostik (kombiniertes Instrument) Anhang 9: Referenzlösung Statusdiagnostik (kombiniertes Instrument) 26

256 Anhang 9: Referenzlösung Statusdiagnostik (kombiniertes Instrument) 27

257 Anhang 10: Vignette zum Schülerexperimentierprozess Anhang 10: Vignette zum Schülerexperimentierprozess 28

258 Anhang 10: Vignette zum Schülerexperimentierprozess 29

259 Anhang 11: Beurteilungsbogen Prozessdiagnostik (kombiniertes Instrument) Anhang 11: Beurteilungsbogen Prozessdiagnostik (kombiniertes Instrument) 30