Testtheorie 11. Juni Testtheorie. Dr. Sascha Borchers Regionale Schulberatungsstelle des Kreises Borken

Testtheorie Dr. Sascha Borchers Regionale Schulberatungsstelle des Kreises Borken www.rsb-borken.de Veranstaltung: Standardisierte Diagnostik im Kontext von Inklusion (Teil 1: 11. Juni 2015) Befragung: (Zählen Sie die Ja-Antworten) Sie fühlen sich anders als andere? Sie verstehen manchmal nicht, dass andere Menschen Sie nicht verstehen? Sie haben das Gefühl im Leben nicht das erreicht zu haben, was Sie sich vorgestellt haben? Sie fühlen sich unterfordert oder gar überfordert in einigen Bereichen? Sie gehörten in der Schule zu den Besten und waren trotzdem nicht mit sich zufrieden? Sie waren in der Schule nur Mittelmaß oder ausnehmend schlecht? Die Lehrer hatten keine hohe Meinung von Ihnen? Sie waren verhaltensauffällig oder vielfach geistig abwesend? Sie kamen mit dem System Schule oder mit Ihrer Umwelt nicht zurecht? Sie hatten das Gefühl, dass manche Menschen über Ihre Ideen gelacht haben, Sie nicht ernst genommen wurden? Sie wurden von anderen gemobbt und werden es vielleicht heute noch? Dr. Sascha Borchers, rsb-borken.de 1

Auflösung Wer von Ihnen hat mindestens zwei Fragen mit Ja! beantwortet? Wenn Sie mindestens zwei Fragen mit Ja beantworten können, dann könnten Sie zu den wenigen Menschen mit einer besonderen Begabung bzw. einer Hochbegabung gehören, die aber bislang nicht erkannt oder aber von Ihnen nicht für wichtig erachtet wurde. Quelle: http://www.logios.de/hochbegabteerwachsene Hypothesenbildung, Auswahl von Tests Was ist ein standardisierter Test Vor- und Nachteile standardisierter Tests NUTZEN STANDARDISIERTER TESTS Dr. Sascha Borchers, rsb-borken.de 2

Was ist ein standardisierter Test? Ein standardisierter Test ist eine Form der Datenerhebung zur Untersuchung von Persönlichkeitsmerkmalen. Ziel ist es, eine möglichst genaue Aussage über den relativen Grad der individuellen Merkmalsausprägung treffen zu können (Lienert & Raatz, 1998). Ein standardisierter Test sollte folgende Voraussetzungen erfüllen (vgl. Trautner, 1997): Detaillierte Testanweisung Theoretische Fundierung Standardisierte Tests müssen wissenschaftlichen Kriterien (Gütekriterien) standhalten. http://www.lis.bremen.de/sixcms/detail.php?gsid=bremen56.c.47527.de Standardisierung hilft bei der Testauswahl ermöglicht die Vergleichbarkeit von (unterschiedlichen) Tests ermöglicht die Vergleichbarkeit von Ergebnissen unterschiedlicher Testleiter oder Testzeitpunkten ermöglicht, eine Aussage darüber zu treffen, wie zuverlässig (reliabel) das Testergebnis ist wie gültig (valide) das Testergebnis ist hilft, Entscheidungen zu treffen gibt Sicherheit Dr. Sascha Borchers, rsb-borken.de 3

Standardisierter Tests: Vorteile Vergleichbarkeit Sicherheit Durchführbarkeit (oft) einfach Nachteile Eingeschränkte aufgabentypen (Lösungs-) Prozessbetrachtung schwierig Oft Fokussierung auf Schwächen Preis? Diagnostik ausschließlich auf Tests aufbauen ist ungünstig (z.b. Lernbiographie?) Wozu nutze ich standardisierte Test? Diagnostischer Prozess: 1. Fragestellung 2. Hypothesen 3. Datenerhebung Testung o Testauswahl o Testdurchführung o Testauswertung o Testinterpretation Beobachtung Befragungen 4. Interpretation der Daten 5. Beantwortung der Fragestellung Dr. Sascha Borchers, rsb-borken.de 4

Wozu nutze ich standardisierte Test? Diagnostischer Prozess: 1. Fragestellung: Woher resultieren die Lernschwierigkeiten des Schülers? 2. Hypothesen: H1: geringes Lernpotential, H2: Motivationsschwierigkeiten, H3: geringe Lernstrategien, H4: Ablenkende Unruhe im Umfeld (Familie, Freunde), H5: Unstimmigkeiten Lehrer-Schüler-Interaktion, H6: 3. Datenerhebung Testung: Potential, IQ-Test, Lernstrategientest, Motivationtest (NAMEN!) o o o o Testauswahl Testdurchführung Testauswertung Testinterpretation Beobachtung (Lern- und Arbeitsverhalten, Interaktion mit Freunden ) Befragungen (EL, Schüler, Freunde, KL, SchulSoz ) 4. Interpretation der Daten 5. Beantwortung der Fragestellung - Beispiel 1 Nicht förderliches Lernumfeld Trennung der Eltern Schule Familie Kind Umwelt Geringes Lernpotential (IQ = 87) Geringe Lernmotivation Möchte als Klassenclown von seinen Leistungen ablenken Dr. Sascha Borchers, rsb-borken.de 5

Schule sieht Schüler aufgrund der schlechten Leistungen als nicht für Schulform geeignet an. Beispiel 2 Sehr Leistungsmotivierte Eltern Schule Familie Kind Umwelt Sehr hohes Lernpotential (IQ = 126) Nie gelernt zu lernen Möchte nicht als Streber angesehen werden Wozu nutze ich standardisierte Test? Hilft beim Klären der Hypothesen Liefert vglw. verlässliche Daten Liefert vglw. objektive Daten Trägt zur Versachlichung bei Dr. Sascha Borchers, rsb-borken.de 6

Wozu brauche ich einen Test nicht? Selektion Wenn sich die Fragestellung nicht über einen Test beantworten lässt (z.b. Mit welcher Methode kann ich den Schüler am besten fördern? ) Testen um des Test willen Wenn der Aufwand in keinem Verhältnis zum Nutzen (Erkenntnisgewinn) steht Rohwerte, Wertpunkte, Standardwerte (T, IQ, PR ) In-Bezug-setzen (Auswahl der richtigen Vergleichsgruppe) Normierungszeitraum (Vergleich) Wahre Werte, Konfidenzintervall Vor- und Nachteile von Auswertungssoftware TESTERGEBNISSE INTERPRETIEREN Dr. Sascha Borchers, rsb-borken.de 7

Rohwerte, Wertpunkte, Standardwerte Rohwert: Summe der richtig gelöster Aufgabenpunkte, die ein Proband in einem Untertest erreicht hat Wertpunkt Normwert auf Ebene der Untertests bzw. verschiedener Faktoren. D.h. der jeweilige Rohwert wurde in einen Normwert umgerechnet. Standardwert Umgerechneter Wertpunkt in ein Testübergreifendes Standardmaß T-Wert, IQ-Wert, Prozentrang, z-wert Normalverteilung erklärt: Beispiel Körpergröße 166,3cm 6,39cm 12,78cm Die Körpergröße des Menschen ist näherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Mädchen zwischen 14 und 18 Jahren wurde eine durchschnittliche Körpergröße von 166,3 cm (Standardabweichung 6,39 cm) ermittelt. D.h.: annähernd 68 % der Mädchen haben eine Körpergröße im Bereich 166,3 cm ± 6,39 cm 95 % im Bereich 166,3 cm ± 12,78 cm Dr. Sascha Borchers, rsb-borken.de 8

Normalverteilung, PR-Skala, IQ-Skala +/- eine Standardabweichung = 68% Prozentsatz von Personen Personen pro Kurvenabschnitt 0,13 2,14 13,59 34,13 34,13 13,59 2,14 0,13-3 -2-1 0 +1 +2 +3 Prozentrang Standardabweichung Intelligenzquotient IQ 1 5 10 20 30 50 70 80 90 95 99 55 70 85 100 115 130 145 unterdurchschnittlich durchschnittlich überdurchschnittlich Normalverteilung, PR-Skala, T-Skala +/- eine Standardabweichung = 68% Prozentsatz von Personen Personen pro Kurvenabschnitt Standardabweichung 0,13 2,14 13,59 34,13 34,13 13,59 2,14 0,13-3 -2-1 0 +1 +2 +3 Prozentrang T-Werte 1 5 10 20 30 50 70 80 90 95 99 20 30 40 50 60 70 80 unterdurchschnittlich durchschnittlich überdurchschnittlich Dr. Sascha Borchers, rsb-borken.de 9

Beispiel IDS Vergleich verschiedener Altersvorgaben und ihre Auswirkungen auf die Normwerte. Beispiel IDS Alter: 8;4 Dr. Sascha Borchers, rsb-borken.de 10

Dr. Sascha Borchers, rsb-borken.de 11

Alter: 7;4 Dr. Sascha Borchers, rsb-borken.de 12

Wichtige Norm-Maße im Vergleich Norm-Maß Kurzbeschreibung Statistische Kennwerte Mittelwert Standardabweichung Skala (von bis) Normal bereich Prozentrang (PR) Globales Maß der Einordnung auf einer Rangreihe mit einer Skala von 0 bis 100%. 50 +/- 34 0 100 16-84 z Skala auf Basis der Kennwerte der Standardnormalverteilung. 0 +/- 1-3 3-1-+1 T Häufig verwendete Skala. 50 +/- 10 20 80 40-60 Stanine Standard-Nine, Skala aus dem angloamerikanischen Raum mit einer 9-teiligen Skala. 5 +/- 2 1 9 3-7 IQ Wert, der nur für das Konstrukt Intelligenz (!). 100 +/- 15 40 160 85-115 In-Bezug-setzen (Auswahl der richtigen Vergleichsgruppe) Generell: Tests repräsentativ Je nach Einzugsgebiet des Testklientel ist es sinnvoll, einen Blick in die Normierungsdaten zu werfen (siehe Gütekriterien) Schulform Alter (besonders bei sehr jungen Kindern) Sprache Dr. Sascha Borchers, rsb-borken.de 13

Vergleich Schulform am Bsp. DRT-5, T-Werte * Summe Richtigschreibungen Rohwert* HS RS GY 33 T = 50 T = 41 T = 33 46 T = 65 T = 57 T = 50 Differenz: 17 bzw. 15 T-Wert-Punkte, = 1,7 bzw. 1,5 Standardabweichungen Differenz: 13 Wörter mehr richtig Normierungszeitraum Wichtig für Schulleistungstests! Rechtschreib-Tests (z.b. DRT-5: Oktober bis Januar) Lese-Tests (z.b. ELFE 1-6: Schuljahresmitte und Schuljahresende) Rechen-Tests (z.b. DEMAT 3+: Ende Klasse 3, Anfang Klasse 4) Dr. Sascha Borchers, rsb-borken.de 14

Vergleich Normierungszeitraum am Bsp. ELFE 1-6 *Summe richtig gelesener Elemente Rohwert* Schuljahresmitte Schuljahresende Wortverständnis RW = 25 T = 50 T = 44 Satzverständnis RW = 10 T = 49 T = 41 Testverständnis RW = 6 T = 50 T = 43 Differenz: 6-8 T-Wert-Punkte, = 0,6 bis 0,8 Standardabweichungen Wahre Werte? Ist ein Testwert wahr? Nein! Es gibt eine Fehlerwahrscheinlichkeit Mögliche Fehlerquellen Testleiter (z.b. Kenntnis des Tests) Testperson (z.b. Tagesform) Umweltvariable (z.b. Raumtemperatur ) Durch Teststandardisierung sollen Fehlerquellen minimiert werden. Lösung: Statistische Aussagen über Fehler Dr. Sascha Borchers, rsb-borken.de 15

Statistische Aussagen über Fehler Berechnung des Standardschätzfehlers Bildung eines Konfidenzintervalls Wahrscheinlichkeit über Vertrauen in einen Testwert Z.B. Mit 95% Wahrscheinlichkeit liegt das wahre Testergebnis im Bereich von 96 104. Tests machen Aussagen über diese Werte Konfidenzintervall am Beispiel AID-3 Dr. Sascha Borchers, rsb-borken.de 16

Konfidenzintervall am Beispiel AID-3 Konfidenzintervall am Beispiel AID-3 Einstellen im Auswertungsprogramm Dr. Sascha Borchers, rsb-borken.de 17

Konfidenzintervall am Beispiel AID-3 Konfidenzintervall am Beispiel AID-3 Dr. Sascha Borchers, rsb-borken.de 18

Fazit Wahre Werte Ein Testergebnis ist nicht absolut Es kann von verschiedenen Faktoren beeinflusst werden Besteht Unsicherheit bzgl. des Ergebnisses, sollte dieses abgesichert werden Praktikable Vorgehensweise bei Test kognitiver Fähigkeiten: Absicherung z.b. mit CFT-20-R Auswertung auf Untertestebene (vgl. AID) Exkurs: Auswertungssoftware Vorteile Schnelle Auswertung Einfache Auswertung Sauberer Ausdruck Keine Rechenfehler Ergebnis ggf. einfach elektronisch übermittelbar jonglieren mit Daten einfach möglich Nachteile Kontroll- und Bezugsverlust Was macht das Programm? Auswertungsfunktionen oft eingeschränkt Installation oft problematisch (Aktualisierung, Wartung ) Datenschutz z.t. kritisch Dr. Sascha Borchers, rsb-borken.de 19

Auswahl von Tests Testwiederholung & Vergleichbarkeit Alltagstransfer (Kriteriumsvalidität) WARUM GÜTEKRITERIEN WICHTIG SIND Hauptgütekriterien Gütekriterium Kurzbeschreibung Statistischer Kennwert Objektivität Reliabilität Validität Grad, in dem die Ergebnisse des Tests unabhängig vom Untersucher sind Grad der Zuverlässigkeit, mit dem der Test ein bestimmtes Merkmal misst. Grad der Genauigkeit, mit dem der Test das misst, was er messen soll. Kontingenz- oder Korrelationskoefizient (als Maß für die Untersucherübereinstimmung). Variiert zw. 0 und 1. Sollte über 0,7 liegen. Korrelationskoeffizient. Variiert zw. 0 und 1. Sollte über 0,8 liegen. Korrelationskoeffizient. Variiert zw. 0 und 1. Sollte über 0,5 liegen. Testfrage Dr. Sascha Borchers, rsb-borken.de 20

Testfrage Frage: Was mache ich mit einem IQ- Test, dessen Entwicklung teuer war und der sich als nicht valide erwiesen hat? Objektivität und Reliabilität sind aber in Ordnung. Antwort: Ich finde heraus, was er misst (z.b. Konzentration) und verkaufe ihn mit neuer Überschrift Nebengütekriterien (aber auch wichtig!) Normen dient als Bezugssystem, wichtigste diagnostische Alltagsgröße im diagnostischen Prozess Bei welcher Stichprobe und in welchem Zeitraum hat die Normierung stattgefunden (vgl. Folie Normierungszeitraum )? Testökonomie ist ein Test schnell und einfach durchzuführen? Verbraucht die Durchführung wenig Material Ist die Auswertung schnell und bequem möglich? Testfairness wie sehr wird das Testergebnis von bestimmten Faktoren der ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit der Testperson beeinflusst? Dr. Sascha Borchers, rsb-borken.de 21

Beispiel Gütekriterien von Schulnoten Objektivität: Vergeben verschiedene Lehrer bei gleicher Leistung die zur selbe Note? Oder fließen subjektive Verzerrungen ein? Reliabilität/Zuverlässigkeit: Werden gleiche Leistungen verschiedener Schüler in einer Arbeit gleich bewertet? Sind Leistungsunterschiede von Schülern auch in unterschiedlichen Noten repräsentiert? Validität/Gültigkeit: Ist die Note in einem Schulfach auch aussagekräftig für einen entsprechenden Wissensstand in diesem Fach - oder bewertet die Note z.b. eher Verhalten im Unterricht? Fairness: Gibt es bei der Benotung Benachteiligungen für bestimmte Personengruppen (z.b. Schüler mit Migrationshintergrund, die Sprachprobleme haben)? Alltagstransfer (Kriteriumsvalidität) Kriterien einer externen Validierung Andere Tests Schulnoten Dr. Sascha Borchers, rsb-borken.de 22

Cattells Intelligenz-Modell Konstrukt Intelligenz Intelligenz & Schulerfolg Bedeutung von Intelligenz in der schulischen Diagnostik EIN WORT ZUR INTELLIGENZ Konstrukt Intelligenz "Intelligenz ist: Gut urteilen, gut verstehen und gut denken." (Binet & Simon, 1905) "Intelligenz ist den innerhalb einer bestimmten Kultur Erfolgreichen gemeinsame Fähigkeit." (Hofstätter, 1957) "Intelligenz ist die zusammengesetzte oder globale Fähigkeit des Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinanderzusetzen." (Wechsler, 1964) "Intelligenz das ist, was ein Intelligenztest misst" (Amelang & Bartussek, 1990, S. 179). Dr. Sascha Borchers, rsb-borken.de 23

Was messen Intelligenztests logisches Denken Abstraktionsvermögen Allgemeinwissen Merkfähigkeit (kurzfristig, längerfristig) Arbeits- / Verarbeitungsgeschwindigkeit Was war der IQ? IntelligenzQuotient Leistung in einem Intelligenztest bezogen auf Lebensalter Aber: Die Bildung eines Quotienten von Intelligenzalter und Lebensalter macht bei Erwachsenen keinen Sinn! Dr. Sascha Borchers, rsb-borken.de 24

Was ist der IQ? Heute ist der IQ kein Quotient sondern ein Maß für die individuelle Abweichung vom Mittelwert einer Bezugsgruppe (Normierungs- Stichprobe) Abweichungs-IQ : sagt aus, wie sehr die Leistung in einem Intelligenztest von einer Normgruppe abweicht bezogen auf das Lebensalter In standardisierter Form: Mittelwert 100, SD 15 Legende: x = individueller Rohwert im verwendeten Test μ = Mittelwert der verwendeten Skala σ = Standardabweichung des verwendeten Tests Intelligenz & Schulerfolg Wichtigster Einzelfaktor R = 0,5 -> 25% Varianzaufklärung Hattie: Effektstärke d=1,19 sehr hoch Sub-Faktoren in Intelligenztests tw. Höhere Korrelation: HAWIK/WISC: Sprachverständnis AID Primär-IQ KABC / RIAS: Kristalline Intelligenz Dr. Sascha Borchers, rsb-borken.de 25

Intelligenz Logisches Denkvermögen Gedächtnis Phantasie Neugier Lernbereitschaft Anstrengungswille Selbständigkeit Durchhaltevermögen Konzentrationsfähigkeit Interessen Fleiß Schulerfolg Seelische Grundstimmung Angst Belastbarkeit Selbstkonzept (misserfolgsängstlich / erfolgszuversichtlich) Aufgeschlossenheit neuem gegenüber Körperliche Verfassung Widerstandskraft Hören, Sehen Belastbarkeit Bedeutung von Intelligenz in der schulischen Diagnostik mangelnde Passung zwischen Unterrichtsanforderungen und kognitivem Potential : ein Schüler zeigt dauerhaft (zu) schlechte Leistungen die schriftlichen und mündlichen Leistungen eines Schülers unterscheiden sich deutlich. ein Schüler wirkt oft gelangweilt und scheint sein kognitives Potential vermehrt in Störversuche als in die Beteiligung am Unterricht zu investieren ein Schüler macht einen sehr überforderten Eindruck und beginnt, eine Sekundärsymptomatik zu entwickeln Diese Gründe können eine Intelligenzdiagnostik rechtfertigen Sie stehen im Kontext der Individuellen Förderung Dr. Sascha Borchers, rsb-borken.de 26

Diagnostik hilft, den Auflösungsgrad eines Problems zu erhöhen Bewertung des Problems: Auto (ohne Benzin) Kranke Pflanze Wahrscheinliche Entscheidung LRS Geringe Auflösung Werkstatt Schrottplatz Mülleimer Komposthaufen Förderschule Hohe Auflösung Tanken Nährstoffe Gießen Lauskultur Förderung von Höhrwahrnehmung Phonolog. Bewußtheit Nach: Huber & Groschek 2012 Dr. Sascha Borchers, rsb-borken.de 27