Zusammenfassung Bereich V: DIAGNOSTIK

Ähnliche Dokumente

WORKSHOP METHODEN ZUR TEST- UND FRAGEBOGENKONSTRUKTION UND VERFAHREN DER DATENAUSWERTUNG. Prof. Dr. Nadine Spörer

1.3 Die Beurteilung von Testleistungen

Testungen Version 1.1. Mathematik Standards am Ende der achten Schulstufe/Hd 1/5

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

QM: Prüfen -1- KN

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

8. Grundlagen der empirischen Sozialforschung

GEVITAS Farben-Reaktionstest

Theorie qualitativen Denkens

Inhalt Übersicht über die Testverfahren... 3 Deutsch: Lesen... 4 Klasse Kompetenzbereiche... 4 Aufgabenbeispiele... 4 Klasse 4...

Psychologie im Arbeitsschutz

Psychologische Tests. Name

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Forschungsmethoden in der Sozialen Arbeit (Va)

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Wie Projektziele gemessen werden können oder wie man Indikatoren entwickeln kann?

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

2. Psychologische Fragen. Nicht genannt.

Ziel- und Qualitätsorientierung. Fortbildung für die Begutachtung in Verbindung mit dem Gesamtplanverfahren nach 58 SGB XII

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Leitfaden für das Erstellen eines Fragebogens

B&B Verlag für Sozialwirtschaft GmbH. Inhaltsübersicht

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.

Zeichen bei Zahlen entschlüsseln

Womit beschäftigt sich Soziologie? (1) Verschiedene Antworten:

Das Leitbild vom Verein WIR

Informationsblatt Induktionsbeweis

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Primzahlen und RSA-Verschlüsselung

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Diagnostische Möglichkeiten der Reittherapie

Anwendungshinweise zur Anwendung der Soziometrie

Einführung und Motivation

Persönlichkeit und Persönlichkeitsunterschiede

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Kommunikationskompetenz von Schulleiterinnen und Schulleitern

Kurzeinführung Moodle

COMPUTERIA VOM SERIENBRIEFE UND ETIKETTENDRUCK

Professionelle Seminare im Bereich MS-Office

Überprüfung der Bildungsstandards in den Naturwissenschaften. Chemie Marcus Mössner

Ergebnisse der NOVIBEL-Kundenzufriedenheitsanalyse 2002

Aufnahmeprüfung Psychologie. Studienjahr 2014 / 2015

Schritt für Schritt zur Krankenstandsstatistik

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Auswertung zur. Hauptklausur Unternehmensbesteuerung. vom und Ergebnisse der Kundenbefragung

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

Wie intelligent sind Unternehmen?

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

Das Persönliche Budget in verständlicher Sprache

Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht

Rating-Skalen: Definition

Messmittelfähigkeit. Andreas Masmünster, Quality Control Event, 30. Juni 2011

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

8. Berechnung der kalkulatorischen Zinsen

Arbeitshilfen zur Auftragsdatenverarbeitung

Pilotierung von Unterrichtsbeispielen

Projektmanagement. Einleitung. Beginn. Was ist Projektmanagement? In dieser Dokumentation erfahren Sie Folgendes:

Durch Wissen Millionär WerDen... Wer hat zuerst die Million erreicht? spielanleitung Zahl der spieler: alter: redaktion / autor: inhalt:

Was meinen die Leute eigentlich mit: Grexit?

Was ist Sozial-Raum-Orientierung?

Praktikum Physik. Protokoll zum Versuch: Geometrische Optik. Durchgeführt am

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Auszug aus der Auswertung der Befragung zur Ermittlung der IT-Basiskompetenz

PISA-TEST FÜR LEHRER(INNEN)?

Fragebogen zur Qualität unserer Teamarbeit

Qualitätsbedingungen schulischer Inklusion für Kinder und Jugendliche mit dem Förderschwerpunkt Körperliche und motorische Entwicklung

EINMALEINS BEZIEHUNGSREICH

Vom kompetenzorientierten Unterricht zur kompetenzorientierten Matura

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Statistische Auswertung:

1 Mathematische Grundlagen

Wie kann man Kreativität und Innovation fördern? Psychologische Ansätze zum Ideenmanagement

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Fachanforderungen für die Abiturprüfung im Fach Elektrotechnik

2 Aufbau der Arbeit und wissenschaftliche Problemstellung

Schülerinnen und Schüler als Informationsquelle im Rahmen des Qualitätsmanagements an Schulen. Diplomarbeit

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

Bericht über die Untersuchung zur Erblichkeit von Herzerkrankungen beim PON

offene Netzwerke. In diesem Sinn wird auch interkulturelle Kompetenz eher als Prozess denn als Lernziel verstanden.

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Und im Bereich Lernschwächen kommen sie, wenn sie merken, das Kind hat Probleme beim Rechnen oder Lesen und Schreiben.

Ihr Mandant möchte einen neuen Gesellschafter aufnehmen. In welcher Höhe wäre eine Vergütung inklusive Tantieme steuerrechtlich zulässig?

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder

Willkommen zur Vorlesung Statistik

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Reglement über die Lehrabschlussprüfung

Was muss ich über den Zulassungstest wissen?

Einen Wiederherstellungspunktes erstellen & Rechner mit Hilfe eines Wiederherstellungspunktes zu einem früheren Zeitpunkt wieder herstellen

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Physik & Musik. Stimmgabeln. 1 Auftrag

Transkript:

Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne Scherl Zusammenfassung Bereich V: DIAGNOSTIK

Inhaltsverzeichnis Überblick über Bereich V 4 1. Grundbegriffe (*) 5 1.1. Diagnostik 5 1.2. Arten von Diagnostik 6 1.2.1. Standardisierte und nicht-standardisierte Diagnostik 6 1.2.2. Norm- und kriteriumsorientierte Diagnostik 6 1.2.3. Individual- und Umweltdiagnostik 6 1.3. Methoden 7 1.3.1. Testverfahren 7 1.3.2. Beobachtungsverfahren 8 1.3.3. Gesprächsmethoden 8 1.3.4. Dokumentanalyse / Fragebogen 8 1.3.5. Beurteilungsverfahren 8 2. Gütekriterien(*!) 9 2.1. Überblick 9 2.2. Objektivität (Arten inkl. Herstellung) 9 2.2.1. Durchführungsobjektivität 9 2.2.2. Auswertungsobjektivität 10 2.2.3. Interpretationsobjektivität 11 2.3. Reliabilität 12 2.3.1. Wiederholungsreliabilität 13 2.3.2. Split-Half-Reliabilität 13 2.3.3. Paralelltestreliabilität 13 2.3.4. Konsistenzanalyse 14 2.3.5. Herstellung von Reliabilität 14 2.4. Validität 15 2.4.1. Inhaltsvalidität 15 2.4.2. Empirische Validität 16 2.4.3. Konstruktvalidität 17 2.4.4. Testfairness 17 2.4.5. Herstellung von Validität 18 2.5. Nebengütekriterien 18 2.5.1. Normierung 18 2.5.2. Nützlichkeit und Zumutbarkeit 18 2.5.3. Ökonomie 18 2.5.4. Vergleichbarkeit 18 2.5.5. Akzeptanz 18 3. Fähigkeits - und Leistungstests (*) 19 3.1. Aufbau von Testverfahren 19 3.2. Intelligenztest und Schulleistungstest 19 3.2.1. Intelligenztest 19 3.2.2. Schulleistungstest 21 3.2.2.1. Möglichkeiten der Schulleistungstestkonstruktion 21 3.2.2.2. Formeller Schulleistungstest 22 3.2.2.2.1. Bezugsgruppenorientierte (=sozialnormorientierte) Tests 22 3.2.2.2.2. Kriteriumsorientierte (=lehrzielorientierte) Tests 25 3.2.2.2.3. Gütekriterien formeller Schulleistungstests 27 3.2.2.2.4. Beispiele für formelle Schulleistungstests 28 3.2.2.3. Informelle Schulleistungstests 31 3.2.2.3.1. Gütekriterien informeller Schulleistungstests 32 3.2.2.3.2. Vor- und Nachteile informeller Schulleistungstests 32 3.2.2.4. Zehn Prüfsteine zur Beurteilung von Schulleistungstests 33 3.3. Schulaufgaben 33 2

4. Verschiedene Erhebungsverfahren 34 4.1. Beobachtung 34 4.1.1. Arten der Beobachtung 35 4.1.2. Unterrichtsbeobachtung und Interaktionsdiagnostik 36 4.1.3. Beobachtungssysteme / Interaktions-Analyse-Systeme 37 4.1.3.1. Entwicklung von Beobachtungssystemen 37 4.1.3.2. Verschiedene Beobachtungssysteme 37 4.1.4. Abgrenzung von Beobachtung und Beurteilung 40 4.1.5. Beobachtungs- und Beurteilungsfehler 40 4.1.6. Einsatzmöglichkeiten der Beobachtung / Beurteilung 40 4.2. Fragebogen 41 4.3. Interview 45 4.3.1. Interview 46 4.3.2. Formen des Interviews 46 4.3.3. Selbstdarstellungstechniken und Lüge die Macht des Interviewten 47 4.3.4. Maßnahmen zur Optimierung von Befragungsergebnissen 48 4.4. Soziometrie 49 4.4.1. Dimensionen der klassischen Methode nach Friedrichs 49 4.4.2. Soziographischer Test von Bullis-Seelmann: der soziometrische Test 49 4.4.3. Verschiedene Darstellungsverfahren 50 4.4.4. Probleme bei der soziometrischen Befragung 51 5. Beurteilung I: Standardisierte und nicht-standardisierte Formen (*) 52 5.1. Prinzip der Normierung 52 5.2. Arten von Bezugsnormen 52 5.3. Interindividuelle Normskalen 53 5.3.1. Prozentrangskala 53 5.3.2. IQ-Skala 53 5.3.3. T-Wert-Skala 53 5.4. Schulaufgaben und mündliche Prüfungen 54 5.4.1. Schulaufgaben 54 5.4.1.1. Vorteile 54 5.4.1.2. Formen schriftlicher Prüfungen 54 5.4.1.3. Erfüllung der Gütekriterien bei schriftlichen Prüfungen 54 5.4.1.4. Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung von Schulleistungstests 56 5.4.2. Mündliche Prüfungen 57 5.4.2.1. Arten mündlicher Prüfungen 57 5.4.2.2. Kritik an der mündlichen Prüfung 57 5.4.2.3. Verbesserungsmöglichkeiten 59 5.5. Beurteilung im Unterricht / Urteilsfehler 61 6. Beurteilung II: Schulnoten (*) 63 6.1. Funktionen 63 6.2. Ermittlung 64 6.3. Gütekriterien und Kritik 64 7. Evaluation 67 7.1. Methoden schulbezogener Evaluation 67 7.2. Ergebnisse aus internationalen Schulleistungsvergleichen 67 7.2.1. PISA 67 7.2.2. TIMMS 72 3

- ÜBERBLICK über Bereich V - ARTEN von Diagnostik - Standardisiert - Nicht-standardisiert - Normorientiert - Kriteriumsorientiert - Individual- / Umweltdiagnostik DIAGNOSTIK Theorie, Konstruktion & Analyse von Diagnoseverfahren Beobachtung METHODEN / VERFAHREN Fragebogen GÜTEKRITERIEN a) naiv b) wissenschaftlich: - standard. - nicht-standard. - teilnehm. - nicht teilnehm. - kontinuierl. - diskontin. - offen - verdeckt - Feld - Labor Beobachtungsinstrumente Beurteilung Testmethoden - Aufbau eines Tests - Intelligenztest ß à Schulleistungstest - Schulaufgaben - kriteriumsorient. Leistungsmessung Gesprächsmethoden Hauptgütekriterien Nebengütekriterien Objektivität Reliabilität Validität - Normierung Durchführung Auswertung Interpretation Dokumentanalyse Wiederholungrel. Split-Half-Rel. Paralleltestrel. Konsistenzanalyse Inhaltsvalidität Empirische Val. Konstruktvalidität ( Testfairness) - Nützlichkeit & Zumutbarkeit - Ökonomie - Vergleichbarkeit - Akzeptanz Standard & nicht standard. Formen - Prinzip Normierung - Bezugsnormen - Normskalen - Schulaufg. ß à mündl. Prüf. - Urteilsfehler Schulnoten - Funktionen - Ermittlung - Gütekriterien - Kritik - Anamnese - Katamnese - Interview Formen Einflüsse Optimierung - Definition - Auswertungsmethoden - Methodische Probleme [Lukesch, Band 3, Kap. 6]

1. Grundbegriffe 1.1. Diagnostik Diagnostik ist ein Teilbereich der Psychologie, der sich mit der Theorie, der Konstruktion und der Analyse von Diagnoseverfahren befasst. Diagnose ist dabei die Feststellung des Vorhandenseins oder der Ausprägung von psychologischen Merkmalen, bzw. (nach Guthke) eine normativ wertebezogene und entweder individuum- oder gruppenbezogene Aussage eines Diagnostikers über einen Diagnostikanden als Ergebnis eines diagnostischen Urteilsprozesses. Definition von Dorsch (1982): [nach Lukesch, Band 3, Kap. 1] Diagnostik...die Lehre von der sachgemäßen Durchführung der Diagnose; auch die Ausübung der Diagnose. Psychologische Diagnostik ist die Bezeichnung für alle Methoden und deren Anwendung, welche zur Messung bzw. Beschreibung inter- und intraindividueller Unterschiede verwendet werden. Die pädagogische Diagnostik, von der man im Bereich der Institution Schule spricht, ist im Vergleich zu dieser Umschreibung der psychologischen Diagnostik nicht vollständig abgedeckt, es finden sich Überschneidungen hinsichtlich methodischer Grundlagen, aber auch eigenständige Entwicklungen der päd. Diagnostik. Definition von Ingenkamp (1985): [nach Lukesch, Band 3, Kap. 1] Pädagogische Diagnostik war niemals nur eine Agentur, die Klienten prüfte, ihre Merkmale kennzeichnete und sie mit diesen Kennzeichnungen an den Auftraggeber zurückgab...vielmehr war päd. Diagnostik immer eine Dienstleistung im Rahmen von Erziehung und Unterricht. à Diagnostische Daten sind ein Teilschritt innerhalb eines pädagogischen Handlungssystems. Definition von Klauer (1978): Pädagogische Diagnostik ist das Insgesamt von Erkenntnisbemühungen im Dienste aktueller pädagogischer Entscheidungen. Definition von Rollett (1976): Unter (päd.) Diagnostik soll... zunächst die theoriegeleitete Datengewinnung und -reduktion im Rahmen eines gewichteten Entscheidungsverfahrens im Hinblick auf ein vorgegebenes Behandlungsziel verstanden werden. Bei jeder Diagnostik geht es um Erkenntnis, also um die Feststellung von Sachverhalten, Tatsachen, Eigenschaften oder Merkmalen, Bedingungen und dergleichen. Im Gegensatz zu wissenschaftlicher Forschung ist die diagnostische Erkenntnisbemühung nicht auf Entdeckung allgemeiner Zusammenhänge gerichtet, sondern auf die nähere Kategorisierung oder Einordnung des Einzelfalls. [Lukesch, Band 3, Kap. 1] Es wird entweder nach dem Eintreffen des Einzelergebnisses gefragt ( Wie wird sich die Leistung des Schülers x entwickeln? Wird Schüler y Schullaufbahn erfolgreich beenden? ) oder das Einzelergebnis ist gegeben und soll erklärt werden (Leistungsversagen könnte nur aus Lehrersicht vorliegen, aber nicht in objektiven Testverfahren). Unter diagnostischer Tätigkeit wird dabei ein Vorgehen verstanden, in dem (mit oder ohne diagnostische Instrumente) unter Beachtung wissenschaftlicher Gütekriterien beobachtet und befragt wird, die Beobachtungs- und Befragungsergebnisse interpretiert und mitgeteilt werden, um ein Verhalten zu beschreiben und/ oder die Gründe für dieses Verhalten zu erläutern und/ oder künftiges Verhalten vorherzusagen. Pädagogische Diagnostik beschäftigt sich also mit folgenden Fragen [nach Mietzel, Kap. 7]: Wie kann man feststellen, ob gelernt wurde? Hat Lernen stattgefunden? Was wurde gelernt?

1.2. Arten von Diagnostik Es gibt viele verschiedene Arten der Diagnostik (auch im medizinischen Sinn), hier sind nur einige unterschieden, die für folgende Kapitel bzw. für die Schule relevant sind. 1.2.1. Standardisierte und nicht-standardisierte Diagnostik Bei der standardisierten Diagnostik wird das Diagnoseverfahren auf alle Personen einer ausgewählten, genau beschriebenen Stichprobe in der gleichen Weise und unter vergleichbaren Bedingungen angewendet. Schule: Standardisierte Tests werden meist von Testverlagen vertrieben, großen Stichproben von Schülern zur Bearbeitung vorgelegt und Gesamtpunktwert mit Normwerten einer Eichstichprobe - z. B. Gruppe gleichen Alters und Schulstufe - (vgl. normorientierte Diagnostik) verglichen. (à Hohe Objektivität, vgl. Gütekriterien) Bei der nicht-standardisierten Diagnostik ist genau das Gegenteil der Fall - die Personen werden subjektiv bewertet (beispielsweise in mündlichen Prüfungen) und somit nicht in einer großen Gruppe in gleicher Weise und unter gleichen Bedingungen geprüft bzw. bewertet. 1.2.2. Norm- und kriteriumsorientierte Diagnostik Normorientierte Diagnostik: Definition von Pawlik (1982): Unter normorientierter Diagnostik versteht man einen Untersuchungsansatz mit dem Ziel, das einzelne Untersuchungsergebnis im Hinblick auf statistische Bezugswerte, also relativ zur Verteilung der Testergebnisse in einer Bezugsgruppe (Eichstichprobe), auszudrücken und zu interpretieren. Bsp.: Aussage: Die Fichte ist ziemlich groß. à Ziehe zur Bewertung Vergleichsmaßstab heran (durchschnittliche Höhe von Fichten) Schule: Schüler hat 60 % des Einmaleins richtig à Etwas besser als der Durchschnitt der Klasse Kriteriumsorientierte Diagnostik: Definition von Petermann (1995): Psychologische Diagnostik erfolgt kriteriumsorientiert, wenn der verwendete Vergleichsmaßstab für das zu bewertende Charakteristikum eines Beurteilungssachverhaltes unabhängig festgelegt wird von Informationen über die Verteilung der Ausprägungsgrade dieses Charakteristikums bei einer Menge dieser Sachverhalte. Bsp.: Die Fichte ist ziemlich groß. à Bewertung unabhängig von Verteilung der Höhe der Fichten, sondern z. B. nach Höhe des Wohnzimmers, in das der Baum passen soll (externer Standard), kein Vergleich mit anderen! Schule: Schüler hat 60 % richtig à Das kleine Einmaleins sollte mit mind. 90%-iger Sicherheit beherrscht werden, also schneidet Schüler eher schlecht ab. 1.2.3. Individual- und Umweltdiagnostik Individualdiagnostik: Einzelne Personen; Selbst- oder Fremddiagnostik Umweltdiagnostik: Soziales Verhalten; Gruppe 6

1.3. Methoden Überblick nach Lukesch: Testmethoden (z.b. Schulleistungstests, Intelligenztests, Einschulungstests ) Beobachtungsverfahren (z.b. im Rahmen der schulischen Interaktionsdiagnostik ) Fragebogen Beurteilungsverfahren (bei der mündlichen Schulleistungsbewertung, bei Fremd- und Selbsttraining ) Inhaltsbereiche der pädagogischpsychologischen Diagnostik: z.b. Schüler-, Lehrerverhalten, Schulleistung, familiäre Lernbedingungen, Peergruppeneinflüsse Gesprächsmethoden (Anamnese, Exploration, Interview) Dokumentenanalyse (z.b. Auswertung von Zeugnissen, Schülerbögen ) 1.3.1. Testmethoden (siehe 3) Definition von Ingenkamp: Tests sind Verfahren der Pädagogischen Diagnostik, mit deren Hilfe eine Verhaltensstichprobe, die Voraussetzungen für oder Ergebnisse von Lernprozessen repräsentieren soll, möglichst vergleichbar, objektiv, zuverlässig und gültig gemessen und durch Lehrer oder Erzieher ausgewertet, interpretiert und für ihr pädagogisches Handeln nutzbar gemacht werden kann. Definition von Lienert (1967): [nach Lukesch, Band 3, Kap. 7] Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Erklärung nach Selg und Bauer 1971: - wissenschaftlich: muss sog. Testkriterien genügen - Routineverfahren: festgelegte Instruktion à Test kann handwerksmäßig durchgeführt werden - Untersuchung eines oder mehrerer Persönlichkeitsmerkmale: ein Test kann nie alle Merkmale einer Person untersuchen - Empirisch abgrenzbare Persönlichkeitsmerkmale: Merkmale, die beobachtbar und obj. beschreibbar sind - möglichst quantitative Aussage: nur dann bestehen Gutachten aus logischen Folgen - Relativer Grad der individuellen Merkmalsausprägung: Relative Positionsbestimmung eines Individuums im Vergleich zu einer Gruppe Klassifikation von Tests: (1) Papier- und Bleistifttests, Manipulationstests, Materialbearbeitungstests, Bildtests, opparative Tests (2) verbale und nichtverbale Tests (3) Einzel- oder Gruppentests (4) Ein- oder mehrdimensionales Verfahren (ein Test besteht aus einem oder mehreren Subtests (5) Hoch- und niedrigstrukturierte Tests (6) Geschwindigkeits- und Niveautests (7) Gebundene und freie Antworttypen (8) Verfahren zur Erfassung kognitiver und affektiver Merkmale (= Intelligenz und Persönlichkeitstests) (9) aptitude Tests (Eignung für Berufe) und achievement tests (Erfassung von erworbenen Fertigkeiten) (10) objektive und subjektive Tests (11) Schulleistungstests 7

Im pädagogischen Bereich werden vor allem Schulleistungs- und Intelligenztests, Entwicklungs- und Einschulungstests, Eignungs-, Konzentrations- und Aufmerksamkeitstests sowie Sozialtests eingesetzt. Bei Tests gibt es Freie-Antwort-Formen (Antwort / Lösung muss produziert werden) oder Auswahl-Formen (Multiple-Choice). Fast alle Tests sind nach Regeln einer bestimmten Testtheorie konstruiert. Bei Schulleistungstests unterscheidet man zwischen formellen und informellen Tests. (siehe 3) 1.3.2. Beobachtungsverfahren (siehe 4.1) Definition von Roth (1978): Beobachtung ist das grundlegende Verfahren der empirisch forschenden Sozialwissenschaften und der Erziehungswissenschaft. Bei allen Beobachtungsverfahren ist der Beobachter das Messinstrument, seine Wahrnehmung ist stark durch Erfahrungen, Bedürfnisse oder Einstellungen beeinflusst. Es wird zwischen naiver und wissenschaftlicher Beobachtung unterschieden (siehe 4.1). 1.3.3. Gesprächsmethoden (siehe 4.2) Gespräch = Vorgehensweise der Informationssuche, bei der der Proband durch gezielte Fragen zu Angaben über sich und sein Umfeld angeregt werden soll. Arten diagnostischer Gesprächsmethoden: a) Anamnese (v.a. bei Ärzten, Rückblick vor einer Behandlung, Erfassung der Biografie) b) (Katamnese (Rückblick nach einer Behandlung)) c) Exploration (Erkundungsgespräch, nicht-standardisierte mündliche Befragung eines einzelnen durch einen einzelnen, kein Aufzwingen von Inhalten) d) Interview: Man unterscheidet zwischen verschiedenen Interviewformen (siehe 4.2). 1.3.4. Dokumentanalyse [näheres zur Dokumentanalyse: Lukesch, Band 3, Kap. 6] Definition von Ballstaedt (1987): [Lukesch, Band 3, Kap. 6] Dokumente sind alle Zeugnisse menschlichen Handelns, Denkens und Erlebens, die in natürlichen Situationen entstanden sind und erst nachträglich zur Beantwortung einer Forschungsfrage herangezogen werden. 1.3.5. Beurteilungsverfahren (siehe 4 und 5) Die Beurteilung ist die abstrahierende Beschreibung des Verhaltens mit anschließender Deutung des Verhaltens, wobei ein Vergleich der Beobachtungseinflüsse mit Milieueinflüssen und Lebenslaufdaten stattfindet. Es gibt mehrere Möglichkeiten und Arten der Beurteilung (siehe 4 und 5). 1.3.6. Fragebogen (siehe 4.3) Die schriftliche Befragung oder der Fragebogen ist für Erzieher das am wenigsten aufwendige Verfahren, Auskünfte über objektive Daten und subjektive Einstellungen zu erlangen. Der Fragebogen als wissenschaftliches Instrument ist das Ergebnis sorgfältiger und aufwendiger Expertenkonstruktion. Er soll eingesetzt werden, wenn er für diagnostische Ziele hilfreich erscheint. 8

2. Gütekriterien 2.1. Überblick An die Genauigkeit und Verlässlichkeit von Messergebnissen in der Diagnostik werden Anforderungen gestellt. Man hat Kriterien entwickelt, die es ermöglichen, die Qualität einer Messung zu beurteilen. GÜTEKRITERIEN Hauptgütekriterien Nebengütekriterien Objektivität Reliabilität Validität - Vergleichbarkeit Durchführung Auswertung Interpretation Wiederholungrel. Split-Half-Rel. Paralleltestrel. Konsistenzanalyse Inhaltsvalidität Empirische Val. Konstruktvalidität ( Testfairness) - Normierung - Akzeptanz - Ökonomie - Nützlichkeit & Zumutbarkeit à Die Güte eines Verfahrens ist am größten, wenn dieses hohe Objektivität, Reliabilität und Validität aufweist. Im Folgenden werden die Gütekriterien genauer behandelt. 2.2. Objektivität = Grad, in dem Ergebnisse unabhängig vom Untersucher sind Ein Test wäre vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen gelangen (Lienert, 1967: Interpersonelle Übereinstimmung der Untersucher). à Intersubjektive Einflüsse sollen möglichst ausgeschaltet werden. Dazu müssen möglichst viele Arbeitsschritte im Beurteilungsverfahren genau festgelegt sein. Beispiele für objektive Tests: Führerscheinprüfung oder Intelligenztests. Nicht objektiv sind Projektive Tests die der Tintenklecks- Diagnostik zuzuordnen sind. Objektivität ist (wie Reliabilität) ein formales Kriterium, es sagt nichts über den Inhalt aus! Arten von Objektivität sind Durchführungs-, Auswertungs- und Interpretationsobjektivität: 2.2.1. Durchführungsobjektivität: Gleiche Bedingungen für alle Prüflinge Man versucht zu sichern, dass alle Lernenden bzw. Probanden den gleichen Anforderungen unter gleichen Bedingungen ausgesetzt sind. - Situative Faktoren: Tageszeit, Hilfsmittel, Instruktion, Lärm... - Personale Faktoren: Ermüdung, vorherige Beschäftigung... 9

Herstellung von Durchführungsobjektivität: Vereinheitlichung der Aufgabenstellung, der Bearbeitungszeit, der Erläuterung der Aufgaben, der zulässigen Hilfsmittel usw. Gleichheit der Instruktionen für alle Prüflinge (z.b. schriftlich oder mit Tonband). Strikte Beachtung von Verfahrensregeln Beispiel: Beim Diagnostischen Rechtschreibtest (DRT 3) werden genaue Anleitungen zur Aussprache eines Wortes, zum Zeitraum der Testdurchführung und der Zeitdauer gegeben. Außerdem wird festgelegt, wie der Test einzuführen ist, wie die Sätze zu diktieren sind und wie oft ein Wort vorgelesen werden darf. Positive Wirkung haben folgende Faktoren (gehen evtl. zu Lasten der Objektivität): Der Testleiter ist eine vertraute Person. Positive und angenehme Atmosphäre. Schwierigkeiten: Personale Faktoren nur schwer beeinflussbar (z. B. Prüfungsangst!), nur durch Individualisierung ist Objektivität erreichbar! Verstehensprobleme bei formelhaftem Vortragen der Anweisungen. Nicht alle Bedingungen der Testdurchführung lassen sich standardisieren, z.b. gesundheitliche Tagesverfassung der Probanden. Bei mündlichen Prüfungen ist Durchführungsobjektivität automatisch niedriger, da keine Gleichzeitigkeit gegeben ist. 2.2.2. Auswertungsobjektivität: Ergebnis unabhängig vom Untersucher Verschiedene BeurteilerInnen sollten zu gleichen Ergebnissen gelangen. Die meisten Untersuchungen über die Schwächen der traditionellen Leistungsbeurteilung beziehen sich auf die mangelnde Auswertungsobjektivität (z. B. wenn verschiedene Lehrer Klassenarbeiten unterschiedlich bewerten). Herstellung von Auswertungsobjektivität: Beurteilungsverfahren mit festgelegten Kriterien (für jede Aufgabe wird genau festgelegt, was mit wie vielen Punkten bewertet wird) à Nur Auszählung (z. B. Diktatfehler, Ablesen d. Größe einer Person am Maßband) Beurteilungsverfahren mit geschlossenen Antwortformen (Erhebungsverfahren auf Multiple-Choice-Basis à Auswertung mit Schablonen oder maschinell) Schwierigkeiten: Bei Aufsätzen o. ä. ist die Auswertungsobjektivität eher negativ beeinträchtigt 10

2.2.3. Interpretationsobjektivität: Verschiedene Beurteiler interpretieren das gleiche Auswertungsergebnis gleich Aus gleichen Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden (erst hier findet in der Schule Notengebung statt!). Interpretationsobjektivität ist schwieriger zu erreichen als Auswertungsobjektivität. Mangelnde Interpretationsobjektivität: Schüler hat 12 Punkte erreicht à Ein Lehrer gibt Note 2, der andere Note 4. Ein Testergebnis kann grundsätzlich nach vorliegenden Normentabellen in die Leistungsverteilung oder in das erreichte Lernniveau eingeordnet werden, es kann aber auch notwendig sein, Ergebnisse abzuwägen, zu gewichten und zu bewerten (z. B.: Schulleiter entscheidet, ob Kind eingeschult werden kann oder Zusatzförderung braucht - nach ärztlichen Gutachten, Angaben der Eltern...). Herstellung von Interpretationsobjektivität: Existenz von festen Regeln für diagnostische Schlussfolgerungen (z. B. normierte Leistungstests, Fragebögen, Rohwerte aus Tabellen ablesen...) Einige Daumenregeln zur Notengebung: - Punktwerte so zusammenzufassen, dass sich für die Noten eine Normalverteilung ergibt. - Positive Bewertung ab der Hälfte der erreichten Punkte zu vier äquidistanten Klassen zusammenfassen. (mit 50 % à Note 4) Möglichst umfassende Dokumentation von Datenerhebungen und analysen Schwierigkeiten: Je unterschiedlicher die zu verarbeitenden Informationen und je zahlreicher sie sind, desto schwieriger ist es sie objektiv, d.h. unter Ausschaltung intersubjektiver Einflüsse, zu interpretieren (z. B. bei Übertritt: Zusammenfassung außerleistungsmäßiger Faktoren wie Lernbereitschaft, Unterstützung der Eltern...) Insgesamt: Objektivität ist die notwendige Voraussetzung für die Zuverlässigkeit und Gültigkeit einer Messung/ eines Prüfsystems. Eine Messung, die nicht objektiv ist, kann auch nicht zuverlässig und gültig sein. 11

2.3. Reliabilität = Grad der Messgenauigkeit Unter Reliabilität eines Tests versteht man den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (Lienert, 1967). Testergebnisse sind normalerweise mit Fehlern behaftet. Ein im Test beobachteter Wert setzt sich zusammen aus der Summe eines wahren Wertes (konstant, aber nicht messbar) und eines Fehlerwertes (labil, kann an Gegenstand, Messinstrument oder Beurteiler liegen à Häufiges Messen nötig!). Bei der Zuverlässigkeit einer Messung im sozialwissenschaftlichen Bereich muss bedacht werden, dass die Messung nicht zuverlässiger sein kann als die Stabilität des Merkmals (labiles Merkmal (z. B. Stimmungen) ungenauer als stabiles (z. B. Rechtschreibkenntnisse)). Weiterhin ist klarzustellen, dass die Reliabilität sich immer auf das Testverfahren bezieht und nicht auf die Probanden. Reliabilität ist (wie Objektivität) ein formales Kriterium, es sagt nichts über den Inhalt aus! Der Grad der Zuverlässigkeit einer Messung wird durch den Zuverlässigkeits- oder Reliabilitätskoeffizienten bestimmt. Der Zuverlässigkeitskoeffizient r ist ein Korrelationskoeffizient, der angibt, in welchem Maße unter gleichen Bedingungen gewonnene Messwerte über ein und denselben Probanden übereinstimmen, in welchem Maße das Testergebnis reproduzierbar ist (Lienert, 1969). Kurze Erklärung zum Korrelationskoeffizienten: (Ingrisch-Seminar) Statistisches Hilfsmittel, um Zusammenhänge zwischen Werten zu messen bzw. zu überprüfen. Die Daten werden paarweise zusammengesetzt und mit Durchschnitt verglichen. Ergebnis ist ein Koeffizient zwischen -1 und 1. a) r = + 0.45 Positive Korrelation: Je größer/ kleiner Wert x, desto größer/ kleiner ist Wert y. (z. B. Körpergröße - Schuhgröße) 0.45: mittlerer Zusammenhang. b) r = 0 Kein Zusammenhang zwischen Wert x und y. c) r = - 0.80 Negative Korrelation: Je größer/ kleiner Wert x, desto kleiner/ größer Wert y. (z. B. Anz. Regentage - Sonnentage, Leistung-Notenwert!) 0.80: hoher Zusammenhang. a) b) c) y y y x x Korrelationen machen jedoch keine Aussagen über kausale Zusammenhänge! x Um den Grad der Genauigkeit (also die Reliabilität) eines Verfahrens zu optimieren, müssen Messfehler minimiert werden. Dazu unterscheidet man zunächst verschiedene Arten der Reliabilität, die im Folgenden beschrieben werden. 12

2.3.1. Wiederholungsreliablität = erneute Messung nach einiger Zeit Die Messung wird wiederholt und mit den Ergebnissen der ersten Messung verglichen, dazu ist allerdings zeitliche Stabilität des Merkmals nötig. Beispiele: Mehrmaliges Abwiegen von 1 Liter Milch oder Messen der Größe einer Person durch wiederholtes Messen. Bei der Wiederholungsreliabilität lässt man also die gleichen Aufgaben von den gleichen Versuchspersonen zu verschiedenen Zeiten bearbeiten. Schwierigkeiten: Wird bei der Leistungsmessung selten angewendet, da man bei Wiederholung mit Übungseffekten rechnen muss! à Verfälscht die Messung Bei Lernleistung handelt es sich nicht um ein stabiles Merkmal 2.3.2. Split-Half-Reliabilität = Teilung eines Tests Um nicht wie oben die zeitliche Stabilität fordern zu müssen, wird bei der Split-Half-Methode die Aufgabenzusammenstellung halbiert und getrennt ausgewertet, es erfolgt also nur ein Testdurchgang. Beispiel: 1 Liter Milch durch Abwiegen von 2 Hälften bestimmen, bzw. Leistung bei Aufgaben 1-10 und 11-20 vergleichen. Danach lässt sich der Zusammenhang beider Testhälften berechnen (Koeffizient der inneren Konsistenz gibt an, ob Testhälften gleichwertig sind). Schwierigkeiten: Funktioniert nur bei konsistenten Tests (keine Staffelung nach Schwierigkeit) [evtl. odd- / even-methode: Teile auf in 1,3,5,7 und 2,4,6,8.] 2.3.3. Paralleltestreliabilität = Verwendung mehrerer gleichartiger Testformen Hier werden zwei oder mehrere verschiedene, aber gleichwertige (parallele) Aufgabensammlungen, die sich inhaltlich möglichst ähnlich sind, verwendet. Sie werden gleichzeitig, unmittelbar nacheinander oder mit einigem zeitl. Abstand bearbeitet. Beispiele: 1 Liter Milch durch Abwiegen mit 2 Waagen bestimmen oder gleichwertige Angaben A und B in einer Schulaufgabe (z. B. Mathe: gleiche Rechenwege, verschiedene Zahlen). Der Zusammenhang der Ergebnisse kann berechnet werden (Äquivalenzkoeffizient gibt an, wie gleichwertig die beiden Tests sind). Schwierigkeiten: Gleichwertigkeit mehrerer verschiedener Tests ist kaum möglich (Behaltenseffekt) 13

2.3.4. Konsistenzanalyse = Zerlegung eines Tests in einzelne Items Ein Test wird in seine einzelnen Items (Fragen, die die gleiche Fähigkeit messen) zerlegt und aus dem Zusammenhang zwischen den Itemsbeantwortungen auf Messgenauigkeit rückgeschlossen. Beispiel: 1 Liter Milch durch Abwiegen von vielen kleinen Teilen bestimmen. Der Zusammenhang der Ergebnisse wird in einem Homogenitätskoeffizienten ausgedrückt. Schwierigkeiten: Instrument muss homogen sein (keine untersch. Themen / Lehrzielhierarchien). Aus diesen 4 Methoden können Koeffizienten berechnet werden, die zur Abschätzung des Messfehlers herangezogen werden. Die Reliabilität bzw. der Standardmessfehler sind wichtige Angaben für die Messgenauigkeit eines Verfahrens. (Es lässt sich ein Vertrauensintervall um das konkrete Testergebnis berechnen, in dem der unverfälschte Wert des Probanden liegt). 2.3.5. Herstellung von Reliabilität Faktoren, die sich auf die Messgenauigkeit und somit auf die Reliabilität eines Tests negativ auswirken können: Ungenauigkeit des Messinstruments (z.b. Stichprobenfehler, die bei der Auswahl der Testaufgaben entstehen können à Vorteile / Nachteile bei best. Aufgabentypen) Umgebungsfaktoren (z.b. unzureichend gelüftete Räume, Lärmpegel, Beleuchtung, abgebrochene Bleistifte...) à Diese Mängel sind vom Testleiter durch sorgfältige Planung auszuschalten! Temporäre Veränderungen des Probanden (z.b. Krankheit, Müdigkeit, Desinteresse, Sorgen, Stimmungen...) Ungenaue Durchführung und Auswertung durch den Versuchsleiter (z.b. ungenaue, nicht eindeutige Arbeitsanweisungen, unklar formulierte Aufgaben) Diese Faktoren gilt es zu optimieren, um möglichst gute Reliabilität zu erreichen. Es ist unmittelbar einleuchtend, dass Zuverlässigkeitskoeffizienten z.t. je etwas anderes messen. Je größer der Zeitabstand zwischen den Messungen ist, desto stärker können sich Einflüsse auswirken (Motivierung, zwischenzeitliche Lernergebnisse,...), die nicht mangelnder Zuverlässigkeit des Messinstruments angelastet werden können. Bei sonst gleicher Aufgabenzahl und -qualität können wir daher nach der Split-Half-Methode die höchsten (r 0,90) und nach der Methode der zu verschiedenen Zeiten durchgeführte Parallelenformen die niedrigsten (r 0,80) Zuverlässigkeitskoeffizienten erwarten. Insgesamt: aus der Reliabilität berechnet Messfehler Vertrauensintervall um das konkrete Testergebnis Die Reliabilität einer Messung sagt nur etwas darüber aus, wie genau gemessen wird, aber nicht, was gemessen wird. Aber sie ist Voraussetzung für die Gültigkeit eines Verfahrens! 14

2.4. Validität: Test misst das, was er messen soll Die Validität eines Verfahrens sagt etwas darüber aus, ob tatsächlich das gemessen wird, was man messen will und nicht irgendetwas anderes (Ingenkamp). Definition von Lienert (1967): Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu messen vorgibt, auch tatsächlich misst. Ein Test ist demnach vollkommen valide, wenn seine Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad des zu erfassenden Persönlichkeits- oder Verhaltensmerkmal zulassen, wenn also der individuelle Testpunktewert eines Probanden diesen auf der Merkmalskala eindeutig lokalisiert. Validität ist keine generelle Eigenschaft, ein Test kann für einen bestimmten Zweck valide sein und für einen anderen nicht. Validität ist (im Gegensatz zu Objektivität und Reliabilität!) ein inhaltliches Kriterium! Validität darf nicht mit Reliabilität verwechselt werden, z. B. Versuch, Intelligenz mit Meterstab zu messen à Es ergibt sich mehrfach gleiches Ergebnis (z. B. 90 cm) à Reliabilität ist gegeben! Aber natürlich kann Intelligenz so nicht gemessen werden! Um festzustellen, ob man tatsächlich das gemessen hat, was man messen wollte, braucht man allerdings ein Kriterium. Je nach Art des Kriteriums unterscheidet man im Allgemeinen drei bzw. vier Arten von Validität in der Testmethodik: 2.4.1. Inhaltsvalidität: Test (bzw. Items) repräsentiert das zu messende Merkmal optimal Lukesch: Spricht man von inhaltlicher Validität, so nimmt man an, dass ein Test oder dessen Elemente so beschaffen sind, dass sie das in Frage stehende Persönlichkeitsmerkmal und dergleichen in optimaler Weise repräsentieren, dass also der Test selbst das optimale Kriterium für das Persönlichkeitsmerkmal ist. à Inhaltsvalidität ist zentral in der Schule: Ein valider Test muss eine repräsentative Stichprobe derjenigen Unterrichtsinhalte umfassen, deren Kenntnis es zu prüfen gilt. Der Lehrer muss vorher eine inhaltliche Analyse durchführen (Diagnostiziert der Test, inwieweit Unterrichtsziele erreicht worden sind? Werden Ziele durch Testaufgaben angemessen repräsentiert?). Beispiele: - Test über Groß- und Kleinschreibung von Verben à Es dürfen nicht Schwierigkeiten wie Schreibung von i, ie, ieh eingebaut sein. - Rechenaufgaben mit Text à Es sollten keine zu hohen Anforderungen an Leseverständnis gestellt werden, um mathematische Fertigkeiten zu prüfen. - Überprüfung der Mathematikkenntnisse der 10. Klasse mit Aufgaben der Algebra à Zur allgemeinen Überprüfung sollte Geometrie nicht fehlen! Schwierigkeiten: Inhaltsvalidität ist sehr schwer festzustellen 15

2.4.2. Empirische Validität: Aus Ergebnissen kann Verhalten vorhergesagt werden Bei der Feststellung der empirischen Validität / Kriteriumsvalidität steht nicht im Vordergrund, welche Eigenschaften oder Strukturen durch den Test gemessen werden sollen, sondern ob aus dem Testverhalten ein bestimmtes Verhalten vorhergesagt werden kann. Sie ist rein auf das Empirische ausgerichtet. [Lukesch, Band 3, Kap. 2]. Nach Cronbach (1970) wir die empirische Validität in eine predictive (Vorhersagevalidität) und eine concurrent validity (Gleichzeitigkeitsvalidität) unterteilt, je nachdem ob das Verhalten, auf das geschlossen wird, in der Zukunft liegt, oder gleichzeitig (außerhalb der Testsituation nachweisbar). Man spricht von innerer Validität, wenn das Kriterium selbst wieder ein Test ist, und von äußerer Validität, wenn das Kriterium kein Test, sondern ein anderer Verhaltensaspekt ist. Empirische Validität / Kriteriumsvalidität Gleichzeitigkeitsvalidität (konkurrente Validität) Vorhersagevalidität (prädiktive Validität) Innere Validität (Kriterium ist anderer Test) Äußere Validität (Krierium ist anderer Verhaltensaspekt) Innere Validität (Kriterium ist ein anderer später durchgeführter Test) Äußere Validität (Kriterium ist anderer in Zukunft liegender Verhaltensaspekt) Beispiele: - Gleichzeitigkeitsvalidität: Intelligenztest A sollte Ergebnisse von Intelligenztest B vorhersagen können. - Gleichzeitigkeitsvalidität: Gültigkeit von Schultests wird mit dem Grad der Übereinstimmung ihrer Ergebnisse mit Schulnoten ermittelt. à Vorgehen problematisch, da Schultests ja gerade aus Unzulänglichkeit der Schulnoten verwendet werden sollen. - Vorhersagevalidität: Test in der Grundschule (z. B. Empfehlung des Grundschullehrers, Intelligenztest) soll den Oberschulerfolg (z. B. Erfolg / Intelligenz in der 10. Klasse) vorhersagen. Schwierigkeiten: Ein Test, der Verhalten zu 100 % vorhersagen kann, ist kaum konstruierbar 16

2.4.3. Konstruktvalidität: Es wird das Konstrukt gemessen, das man messen will Ein Konstrukt ist eine relativ stabile, theoretisch angenommene Eigenschaft, die nicht beobachtbar ist (z. B. Angst, Intelligenz...). Die Erfassung von Konstrukten ist nur durch die Erstellung von Theorien möglich, die festlegen, wodurch sich Konstrukte in der beobachtbaren Ebene zeigen. Durch die Erhebung von messbaren Fähigkeiten (z. B. mentales Rotieren, Ängstlichkeit...) und die darauffolgende Einbettung der Ergebnisse in ein Netzwerk von konstruktspezifischen Theorien ( nomologisches Netzwerk ) lassen sich Konstrukte nachweisen. Beispiel Intelligenz: Intelligenz Konstrukt: nicht beobachtbare Ebene mentales Rotieren Muster vervollständigen Fähigkeiten: beobachtbare Ebene Man kann nur beobachtbare Fähigkeiten messen und daraus auf die Ausprägung der Intelligenz schließen. Beispiel Prüfungsangst: Wir können z.b. mit einem Fragebogen Prüfungsangst messen. Ob sie valide gemessen wurde, können wir nur abschätzen, wenn wir überprüfen, ob sich theoretisch erwartete positive oder negative Beziehungen nachweisen lassen. à Fällt z.b. bei einem Probanden mit hoher Prüfungsangst unter Zeitdruck der Leistungserfolg besonders stark ab, reagieren intelligente Prüfungsängstliche anders als weniger intelligente, lassen sich körperliche Begleiterscheinungen (wie Schwitzen oder Zittern) nachweisen? Das Instrument ist dann konstruktvalide, wenn die tatsächlich gefundenen Beziehungen mit dem theoretischen Modell hohe Übereinstimmung zeigen. Schwierigkeiten: Da Konstrukte nicht direkt beobachtbar sind, kann nur schwer festgelegt werden, welche beobachtbaren Kennzeichen für sie typisch sind. 2.4.4. Testfairness: Keine Benachteiligung von Subgruppen Weiterhin sollte bei diagnostischen Verfahren auf Testfairness geachtet werden. Beispiele: - Benachteiligung von ausländischen Testpersonen bei sprachgebundenen Intelligenztests - Kulturgebundenheit von Intelligenztests (culture fair tests: möglichst unabhängig von Kultur, Bildungsgrad und verbaler Kompetenz) Schwierigkeiten: Kulturunabhängigkeit nur schwer möglich 17

2.4.5. Herstellung von Validität Um hohe Validität herzustellen, sollten folgende Punkte beachtet bzw. eingehalten werden: Übereinstimmung von Testinhalt und Unterrichtsinhalt Eindeutige Arbeitsanweisungen und klar formulierte Aufgaben Operationalisierung der Lernziele (genaue Angaben über die notwendige Lehrtätigkeit, die Inhaltsbeschreibung, das angestrebte Endverhalten mit den Bedingungen, unter denen es gezeigt werden soll, und den Maßstab, an dem es gemessen werden soll) Lehrer sollte inhaltliche Analyse durchführen (Diagnostiziert der Test, inwieweit die von ihm ausgewählten Unterrichtsziele erreicht worden sind? Werden diese Ziele durch die Testaufgaben angemessen repräsentiert?) Insgesamt: Die Validität ist das einzige inhaltliche Kriterium und macht eine Aussage darüber, ob gemessen wird, was gemessen werden soll. Sie ist ein sehr wichtiges Kriterium für die Güte einer diagnostischen Messung. 2.5. Nebengütekriterien Neben den drei großen Hauptgütekriterien sollte ein guter Test auch die weniger wichtigen Nebengütekriterien möglichst gut erfüllen. 2.5.1. Normierung: Einordnung der Ergebnisse in ein Bezugssystem Diagnostische Ergebnisse sind nicht aus sich selbst heraus interpretierbar, Schlüsse können nur durch Vergleich mit anderen Ergebnissen gezogen werden. Dazu stehen drei Bezugsgruppen zur Verfügung à Individuelle (intraindividuelle) Norm (Vergleich mit früheren Leistungen derselben Person) à Soziale (interindividuelle) Norm (Vergleich mit Vergleichsgruppe) à Ideale Norm (Vergleich mit gesetztem Kriterium) 2.5.2. Nützlichkeit und Zumutbarkeit: Bestehendes Bedürfnis für das Verfahren Ein Test ist nützlich, wenn er ein Persönlichkeitsmerkmal misst, für dessen Untersuchung ein praktisches Bedürfnis besteht. Nützlichkeit hoch = kein anderer Test misst dasselbe ebenso gut. Die Zumutbarkeit ist ein subjektives Merkmal, sie ist das Ausmaß, in dem ein Test die getestete Person in zeitlicher, psychischer sowie körperlicher Hinsicht beansprucht. 2.5.3. Ökonomie: Einfache und schnelle Handhabung Nach Lienert ist ein Test nur dann ökonomisch, wenn er eine kurze Durchführungszeit beansprucht, wenig Material braucht, einfach zu handhaben ist, als Gruppentest durchführbar ist und schnell und bequem auswertbar ist. 2.5.4. Vergleichbarkeit: Übereinstimmung mit ähnlichen Verfahren lässt sich untersuchen Ein Test ist vergleichbar, wenn - eine oder mehrere Paralleltestformen vorhanden sind - validitätsähnliche Tests verfügbar sind (überprüfen ähnliche Merkmale) Vergleichbarkeit dient der Reliabilität und Validität, ist jedoch nicht zwingend notwendig. 2.5.5. Akzeptanz: Verfahren von der Öffentlichkeit anerkannt Die Güte eines Tests wird auch von der Öffentlichkeit beeinflusst. Akzeptanz = Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolitische Überzeugungen gegen einen Test angeführt werden. Beispiel: Absinken der Verkaufszahlen von formellen Schulleistungstests in den 90ern 18

3. Fähigkeits- und Leistungstests Begriffunterscheidung: Fertigkeit: Technik, Erfahrung, Kenntnisse, durch Übung erworben Fähigkeit ist das gegenwärtige verfügbare Potential, etwas zu leisten; nicht beobachtbar Eignung ist das Leistungsvermögen, nachdem Übung stattgefunden hat Leistung bezieht sich auf die bisherigen Erfolge bei der Bewältigung von Aufgaben; beobachtbar, läßt auf Fähigkeit und Fertigkeit schließen 3.1. Aufbau von Testverfahren 1. Fähigkeitstests können breite oder spezielle intellektuelle Fähigkeiten umfassen. Die am häufigsten verwendeten Tests dieser Art sind Tests - der verbalen und mathematischen Fähigkeiten - der räumlichen Auffassung - des mechanischen Verständnisses - der schriftlichen Ausdrucksfähigkeit Fähigkeitstests sind normbezogen. Sie werden dazu verwendet, Informationen zur Anleitung und Beratung von Schülern zu erhalten.. 2. Leistungstests messen die Unterrichtsziele eines bestimmten Kurses oder einer anderen Einheit des Curriculums. Leistungstests dienen der Messung und Bewertung der Ergebnisse zurückliegender Lernerfahrungen. Der Inhalt von Leistungstests sollte im Gegensatz zu Fähigkeitstests im hohen Grad unterrichtsbezogen sein. Ein Leistungstest sollte also z.b. die Kenntnisse in Geographie oder den französischen Wortschatz überprüfen und nicht das räumliche Vorstellungsvermögen messen. 3.2. Intelligenztest und Schulleistungstest 3.2.1. Intelligenztest Exkurs: Intelligenz Strukturmodelle der Intelligenz (vgl. Bereich II) Geschichte der Intelligenzmessung (1) Psychiatrie: Esquirol (1772 1840), frz. Psychiater, verwendete bereits 1938 die Sprachbeherrschung, um den Ausprägungsgrad von Schwachsinn abzuschätzen. Emil Kraepelin (1855 1926), dt. Psychiater: Verfahren, die sich möglichst an Alltag anlehnen. (2) Genetik: Francis Galton (1822 1911), engl. Biologe, Einführung des Begriffs Test zur Messung von Persönlichkeitseigenschaften, Erblichkeit. (3) Experimentelle Psychologie James McKeen Catell Begründer der Testpsychologie (4) Schulische Anwendungsaspekte Ebbinghaus (1850 1909) Prüfung von Rechenfähigkeit, Gedächtnis und Kombinationsfähigkeit Alfred Binet (1857 1911) + Simon (1911) 1.Erfassung von Intelligenz muss dort ansetzen, wo sich Intelligenz unmittelbar zeigt 2.Galtons Testreihe 3.Intelligenz ist nicht absolut messbar, sondern relativ Intelligenzalter (IA) = Niveau der intelligenten Entwicklung (5) Differentielle Psychologie William Stern (1900): Intelligenzquotient = (Intelligenzalter: Lebensalter) x 100 David Wechsler (1956): IQ = 100 + [(Xi am)/s] x 15 19

Intelligenztests bestehen aus einzelnen Aufgaben oder Items aus jeweils verschiedenen Itemgruppen oder Untertests. Dabei werden in verbaler oder nonverbaler Form Probleme vorgegeben oder Fragen gestellt, die von der Testperson eine Antwort bzw. Bearbeitung erfordern. Die Fragen in diesem Test sind nach Gruppen geordnet, die im Schwierigkeitsgrad ansteigen. Die Summe der Punkte, die in einem IQ- Test erreicht wurde, bildet dann den Rohwert, der dann in einem aussagekräftigen Standardwert umgewandelt wird. IQ- Tests tendieren in der Regel zu einer Normalverteilung. Allgemeines: - Im Unterschied zum Leistungstest (misst tatsächlich erbrachte Leistungen in einzelnen Fächern) werden die Inhalte von Intelligenztests gewöhnlich nicht explizit in der Schule unterrichtet - Intelligenztests testen mehr die fluiden Fähigkeiten, Leistungstests eher kristall. Wissen - Entwicklung der Intelligenz: Intelligenzstabilisierung im Alter von etwa 12 Jahren Beispiel: HAWIK-R (Hamburg-Wechsler-Intelligenztest für Kinder): - allgemein anerkannter Test - berechnet eher unterdurchschnittliche Intelligenz (nicht zur Begabtenauslese geeignet) - eignet sich gut zur Feststellung der Allgemeinintelligenz - wird meist im Zusammenhang mit schulischen Fragen verwendet (z.b. bei Überweisung an Sonderschulen oder zur Berufsberatung) - dauert 1 2 Stunden - besteht aus 11 Untertests: (a) Verbalteil (bezieht sich eher auf Schulisches Wissen) Allgemeines Wissen (Wie heißen die 4 Jahreszeiten?) Allgemeines Verständnis (Warum hat jeder Mensch einen Namen?) Rechnerisches Denken (Welche Zahl musst du durch 7 teilen...?) Gemeinsamkeit finden (Was ist das Gemeinsame bei Schmetterling und Fliegen?) Wortschatz- Test (Was ist ein Streik?) Zahlen nachsprechen (Zahlenfolgen unterschiedlicher Länge werden vorgesprochen und müssen wiederholt werden.) (b) Handlungsteil (in der Schule meist nicht behandelt) Zahlen- Symbol- Test (Zuordnen von Zahlen und Symbolen unter Zeitdruck) Bilder ergänzen (fehlende Details sollen angegeben werden) Bilder ordnen (Vier bis sechs Bilder sollen sinnvoll geordnet werden) Mosaik- Test (Geometrische Muster sollen zusammengesetzt werden) Figuren legen (Zerschnittene Figuren sollen wieder zusammengesetzt werden) Analog gibt es HAWIE-R für Erwachsene Weitere Beispiele:à vgl. Bereich II - IST (Intelligenz-Struktur-Test) - PSB (Prüfsystem für Schul- und Bildungsberatung) 20

3.2.2. Schulleistungstest Definition von Ingenkamp (1997): Schulleistungstests sind Verfahren der PD, mit deren Hilfe Ergebnisse geplanter und an Curricula orientierter Lernvorgänge möglichst objektiv, zuverlässig und gültig gemessen und durch Lehrende oder Beratende ausgewertet, interpretiert und für pädagogisches Handeln nutzbar gemacht werden können. Schulleistungstests dienen der Untersuchung darüber, ob - und eventuell wie gut - ein Lernziel erreicht ist. Die hierbei verwendeten Testaufgaben sind nicht identisch mit dem Lernziel, sondern repräsentieren es nur und dienen dazu, den individuellen Fähigkeitsgrad zu vergleichen. Man unterscheidet verschiedene Arten von Schulleistungstests: formelle (standardisierte und normierte) mit den Untergruppen o bezugsgruppenorientierte Tests und o kriteriumsorientierte Tests sowie informelle Tests (von Lehrern nach festen Aufbaukriterien konzipiert) Man unterscheidet meist nicht zwischen bezugsgruppen- und kriteriumsorientierten informellen Tests, sie können sich aber auch sowohl an gruppenbezogenen Normen als auch an Lernzielen orientieren (vgl. Skizze). 3.2.2.1. Möglichkeiten der Schulleistungstestkonstruktion Verfahren zur Messung kognitiver Schulleistungen kann man danach klassifizieren - welchen Normbezug sie aufweisen (soziale oder ideale Norm) - nach dem Grad der Standardisierung (formell und informell) normorientierte Schulleistungstest formell Lehrzielorientierte Schulleistungstests Soziale Norm (vergleich sbezogen) Informelle normorientierte Tests (ev. auch Klassenarbeiten im herkömmlichen Sinn) Ideale Norm (lehrzielbezogen Informell Informelle lehrzielorientierte Tests Gemeinsamkeiten der vier Testvarianten: - inhaltliche Validität muss immer aufgrund einer Lehrzielanalyse bestimmt werden - lehrzielorientierte Tests können bei anderer Standardisierung auch als normorientierte Tests verwendet werden - normorientierte Tests enthalten zumeist Aufgaben auf mittlerem Lehrzielniveau - informelle Tests unterscheiden sich von anderen nur durch den Grad der Normierung (d.h. durch den Bezug auf eine oder wenige Schulklassen). 21

Überblick über die Möglichkeiten der Konstruktion von SLT: formell: von Testexperten entwickelt Gütekriterien werden streng berücksichtigt Normierung an einer Stichprobe Ziel: Prüfung allgemeinerer Lernziele formell vs informell informell: i. d. R. von Lehrern entwickelt Gütekriterien werden weniger streng berücksichtigt keine Normierung an einer Stichprobe Ziel: Prüfung spezifischerer Lernziele normorientiert: = bezugsgruppenorientiert, sozialnormorientiert Zweck = Vergleich der Schülerleistungen innerhalb einer Gruppe normorientiert vs kriteriumsorientiert Klassifikationen allgemein vs fächerspezifisch allgemein: fächerübergreifend v.a. in Grundschule kriteriumsorientiert: = lehrzielorientiert, idealnormorientiert Zweck = Erfassung der Schülerleistungen in Bezug auf ein o. mehrere Lernziele summativ: den Lernprozess abschließend formelle Schulleistungstests werden meist summativ eingesetzt summativ vs formativ formativ: den Lernprozess begleitend fächerspezifisch: v.a. an weiterführenden Schulen 3.2.2.2. Formeller Schulleistungstest Formelle Tests = standardisierte + normierte 3.2.2.2.1. Bezugsgruppenorientierte (=sozialnormorientierte) Tests In Analogie zu der Definition von Tests nach Lienert (vgl. 1.3.1) können normorientierte Schulleistungstests wie folgt umschrieben werden. Definition von Lukesch: [Lukesch, Band 3, Kap. 13] Ein (sozial-)normorientierter Schulleistungstest ist ein wissenschaftliches Routineverfahren zur Feststellung des Kenntnisstandes in einem (oder mehreren) inhaltlich spezifizierten kognitiven Lehrzielbereich(en);dabei werden Aussagen über die Leistungshöhe aufgrund des Vergleiches mit den Leistungen einer für die jeweilige Altersstufe, Schulstufe oder Schulart repräsentativen Stichprobe getroffen. Bei den bezugsgruppenorientierten Tests werden die individuellen Testergebnisse mit denen einer Bezugsgruppe verglichen. Daher muss die Bezugsgruppe für den jeweiligen Zweck des Tests repräsentativ sein. 22

Konstruktion normorientierter Schulleistungstests (1) Analyse der Lehrpläne Sicherung der inhaltlichen Validität: Lehrpläne nach Lehrzielen analysieren - Erfassung der Lehrziele durch ExpertInnenratings der Lehrpläne (curriculare Validität) - Erfassung der Lerngelegenheit durch Lehrer- & Schülerurteile, à Klassenunterlagen Erstellen einer Lehrzielmatrix: stellt Suchschema dar und erleichtert das Auffinden geeigneter Aufgaben (Auf welcher Höhe der Anforderungen sollen welche Inhalte eines Lehrziel erfasst werden?) - Dimensionen der Matrix: Inhalt (= Lehrziele) & Verhalten (à Taxonomie von Bloom, 1976; à Wissen, Verstehen, Anwenden, Analyse, Synthese, Beurteilung)) [Mietzel, Kap. 7] (2) Entwurf von Testitems (Aufgaben) allgemeine Regeln nach Ebel: keine doppelten Verneinungen, nicht zu viele Lücken in Lückentext, einfache Satzkonstruktion, eindeutige und möglichst klare Formulierungen, keine verdeckten Hinweise auf richtige Antwort usw. formale Gestaltung: - gebundene Antworten: + Auswahlantworten: richtig/falsch; multiple choice + Ordnungsaufgaben: Zuordnungs-; Umordnungsaufgaben - freie Antworten: + Ergänzungsaufgaben (Lückentext) + Kurzantwortaufgaben + Kurzaufsatzaufgaben Festlegung der zugelassenen Hilfsmittel Konstruktion von 50 100% mehr Aufgaben als für Endform nötig Beurteilung der Aufgaben durch erfahrene LehrerInnen à ExpertInnenrating à Aufgabenpool soll die Lehrzielbeschreibung abdecken (3) Vorerprobung an wenigen Fällen Überprüfung der Verständlichkeit der Aufgabenformulierung (4) Testdurchführung an einer kleine Stichprobe (200 400 SS) Überprüfung der Aufgaben- und Testlänge (SchülerInnen- & LehrerInnenkommentare) (5) Aufgaben- und Testanalyse mit den Daten der ersten Stichprobe. Ermittlung der Aufgabenschwierigkeit (eigentlich: Lösungswahrscheinlichkeit) p = (Anzahl der richtigen Antworten / Anzahl der Antworten insgesamt) x 100 p = prozentualer Anteil der auf diese Aufgabe entfallenden richtigen Antworten à bei normorientierten Tests zwischen 20 und 80 (kriteriumsorientiert 80 95) à Anordnung der Aufgaben nach ansteigender Schwierigkeit (Beginn: Eisbrecherfragen) Distraktoranalyse bei gebundenem Antwortformat: Analyse der Wahlhäufigkeit der Distraktoren (wie oft werden Falschantworten angekreuzt?) à Distraktor sollte zwischen 10 15% liegen, p = 50% optimal für richtige Lösung Beispiel bei gebundenem Antwortformat: - Erstellung einer Tabelle mit Spalten für Distraktoren der versch. Aufgaben, Zeile für Gruppe der besten und Zeile für Gruppe der schlechtesten Arbeiten - Anlegen einer Strichliste über die Wahlhäufigkeiten der einzelnen Antwortmöglichkeiten in den beiden Gruppen è ungünstige Distraktoren: werden von guter Gruppe ebenso häufig oder häufiger gewählt als von schlechter oder weder noch z.b.: Dist1 Dist2 Dist3 gute Gruppe 1 5 0 schlechte Gruppe 4 4 0 â â â ok!! 23