Gütekriterien von Messungen

Ähnliche Dokumente
Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Forschungsmethoden VORLESUNG WS 2017/2018

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Forschungsmethoden VORLESUNG SS 2017

Gütekriterien: Validität (15.5.)

Grundlagen sportwissenschaftlicher Forschung Test

Einführung in die Statistik Testgütekriterien

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

T E S T G Ü T E K R I T E R I E N W O R K S H O P I N F R E I B U R G N O V E M B E R

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Testtheoretische Kritik mündlicher und schriftliche Prüfungen (29.5)

Messtherorie Definitionen

4.2 Grundlagen der Testtheorie

Methode der Naturwissenschaften

Grundlagen empirischer Forschung 3. LV. Gütekriterien von Erhebungsverfahren, Tests. Studieren für die berufliche Praxis.

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

SCHRIFTLICHE PRÜFUNGEN UND PÄDAGOGISCHE DIAGNOSTISCHE TESTVERFAHREN

Pädagogisch-psychologische Diagnostik und Evaluation

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Übung Methodenlehre I, SeKo

Einführung in die sonderpädagogische Diagnostik

Messung, Skalen, Indices

GÜTEKRITERIEN SPEZIFISCH p. 1

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Empirisches Relativ: Eine Menge von Objekten, über die eine Relation definiert wurde.

Grundlagen der Testkonstruktion

Studienseminar Koblenz. Diagnostische Expertise - Leistungsmessung

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

Reliabilitäts- und Itemanalyse

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

Prüfen und Testen im DaF- Unterricht. Mag. Norbert Conti, Österreich Institut Brno, Seminar am

Insbesondere Selektionsdiagnostik/Eignungsdiagnostik gerät immer wieder gesellschaftspolitisch in Verruf Modifikationsdiagnostik gewinnt an Bedeutung:

Theorien der Persönlichkeit

1.1 Defininition. Als Test gelten demnach nur solche Untersuchungsverfahren, die

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Lehramt BA Prim / BA Sek 1. Bachelorarbeit

I-S-T 2000-R: INTELLIGENZ- STRUKTUR TEST 2000-R BITTE HANDBUCH ANSEHEN

Psychologische Diagnostik

WESTFÄLISCHE WILHELSM-UNIVERSITÄT MÜNSTER ZEUGNIS KÖNNEN NOTEN LÜGEN? WIE FINDE ICH GEEIGNETE STUDIERENDE?

Grundlagen der empirischen Sozialforschung

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Drum prüfe, wer sich zeitlich bindet und lohnt sich die Investition in ein Einzel-Assessment auch in Zukunft?

Laura Gunkel. Akzeptanz und Wirkung. von Feedback in. Potenzialanalysen. Eine Untersuchung zur Auswahl. von Führungsnachwuchs.

Messung Emotionaler Intelligenz. Prof. Dr. Astrid Schütz - Universität Bamberg

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Inhaltsverzeichnis Abkürzungsverzeichnis... 9 Einleitung und Aufbau der Arbeit... 11

SF-36 Fragebogen zum Gesundheitszustand. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Julia Plato Datum:

AUSWERTUNG VON KLASSENARBEITEN:

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Toolbox für gute Lehre

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Gütekriterien. Gütekriterien. Gütekriterien. Reliabilität Validität. Spezifität. Sensitivität. Praktikabilität.

Universität zu Köln. Vorbereitung auf die mündliche und schriftliche Staatsexamensprüfung. Termin 2: Kriterien für gute Prüfungen

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

Webergänzung Kapitel 6.5.3: Tests

Fragestellung Fragestellungen

TESTS & BEOBACHTUNGSBÖGEN ALS INSTRUMENTE PÄDAGOGISCHER DIAGNOSTIK

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

Diagnostik und Personalauswahl mit computergestützten Problemlöseszenarien?

Neue Formen der Leistungsmessung und Leistungsbeurteilung

Das Minimale Dokumentationssystem (MIDOS²) als deutsche Version der Edmonton Symptom Assessment Scale (ESAS): - Ein Instrument für die Pflege?

Sportmotorische Testverfahren

IBS-KJ Interviews zu Belastungsstörungen bei Kindern und Jugendlichen

Wie intelligent ist mein Kind?

Pädagogische Tagung. Differenzierung und Leistungsorientierung im Unterricht

Messen und Statistik

Definition von Validität

Auswahl von Testaufgaben

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Klaus, wie Sie im Vergleich zum Durchschnitt sind

Entwicklung und Validierung eines. Modells unter Berücksichtigung der

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Screening für Somatoforme Störungen. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum:

Testtheorie und Testkonstruktion. Wintersemester 2006/ 2007 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

QUANTITATIVE VS QUALITATIVE STUDIEN

4.1 Grundlagen der psychologischen Diagnostik. Wintersemester 2008/ 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Einführung in die sonderpädagogische Diagnostik

Lehrbuch Psychologische Diagnostik

Kapitel 25 Checklisten für die Beurteilung psychologischer Gutachten durch Fachfremde

Christof Obermann. Assessment Center. Entwicklung, Durchführung, Trends. Mit originalen AC-Übungen. 3. Auflage GABLER

Inhaltsverzeichnis Danksagung Einleitung Forschungshintergrund Sprachkompetenz...20

TRIERER INVENTAR ZUM CHRONISCHEN STRESS

Grundlagen der psychologischen Testtheorie

WS 5: Mündliche Prüfungen an eidgenössischen Prüfungen

GRUNDLAGEN DER TESTTHEORIE

Grundlagen der psychologischen Testtheorie. WS 2016 Dr. Michael Weber

Testen und Entscheiden Referentin: Christiane Beck Datum: Dozentin: Susanne Jäger. Hochschule Magdeburg-Stendal (FH)

Kompetenzmessung und Lerntransfer eine verschwiegene Beziehung? Richard Fortmüller

Hochbegabung. - Eine Einführung - Dipl.-Psych. Götz Müller

Transkript:

Gütekriterien Messungen 1. Hauptgütekriterien 2. Nebengütekriterien Ökonomie Unter einer Messung (Prüfung) versteht man den Grad, in dem die Ergebnisse einer Messung (Prüfung) unab-hängig den Untersuchern (Prüfern) ist. Objektiv wäre demnach beispielsweise eine Prüfung, wenn verschiedene Prüfer/innen bei demselben Kandidaten/derselben Kandidatin zum gleichen Ergebnis kommen würden. (Zuverlässigkeit) Utilität (Nützlichkeit) und Zumutbarkeit (Gültigkeit) Vergleichbarkeit Akzeptanz Interpretationsobjektivität Auswertungsobjektivität Durchführungsobjektivität Durchführungsobjektivität ist hoch, wenn sich der Untersucher jedem Probanden gegenüber gleich verhält dies ist der Fall, wenn der Untersucher genau instruiert wird (z.b. über Reaktionen auf mögliche Rückfragen, Hilfestellungen etc.) und wenn die situativen Randbedingungen (z.b. Gleichheit des Materials, der Uhrzeit etc.) konstant gehalten werden Auswertungsobjektivität ist gegeben, wenn die Transformation der Daten in Testwerte unabhängig der Person des Versuchsleiters ist Bsp. computergestützte Auswertung, Multiple Choice etc. Besonders gering ist die Auswertungsobjektivität bei projektiven Tests Impuls: Testaufgaben zur Diagnose Kreativität: aus Zimbardo & Gerrig, 1998 1

Interpretationsobjektivität Interpretationsobjektivität ist gegeben, wenn das Testergebnis einer Person mehreren Beurteilern gleich interpretiert wird oder wenn ein Beurteiler gleiche Testergebnisse verschiedener Probanden gleich interpretiert wichtig bei Gutachten und Empfehlungen Unter Reliablität (Zuverlässigkeit) einer Messung (Prüfung) versteht man den Grad der Genauigkeit einer Messung. Messungen sind dann reliabel, wenn die Werte unabhängig vom Zeitpunkt der Messung sind. Reliabel wäre beispielsweise eine Prüfung, wenn man bei demselben Kandidaten/ derselben Kandidatin zu unterschiedlichen Zeitpunkten immer zum gleichen Ergebnis kommen würde. Arten der Testwiederholung (Retest-) Zeitliche Stabilität eines Merkmals Split-half- Gleichwertigkeit zwei Paralelltests Konsistenzanalyse Paralleltestreliabilität Gleichwertigkeit zwei Testhälften Wiederholungsreliabilität Homogenität Testitems Durchführung des Tests zu zwei Messzeitpunkten Wichtig: Verwendung der selben Stichprobe Übereinstimmung der erhaltenen Testwerte = Problem: bei kurzen Zeitabständen beeinflussen Erinnerungs- und Übungseffekte das Ergebnis Testhalbierungsmethode (Split-Half-) Paralleltestmethode einer Stichprobe werden zwei parallele Tests vorgelegt Korrelation der Testergebnisse ergibt die Paralleltest- Problem: Konstruktion Paralleltests schwierig; Übungseffekte auch hier möglich Möglichkeit, die so genannte Innere Konsistenz eines Tests zu messen Ausmaß, mit der die einzelnen Items dasselbe messen eine Stichprobe beantwortet alle Testaufgaben eines Tests der Test wird in zwei gleichwertige Hälften geteilt und beide Teilergebnisse miteinander korreliert der Split-Half-Konsistenzkoeffizient muss rechnerisch aufgewertet werden, da die Testlänge Einfluss auf die hat 2

Unter (Gültigkeit) einer Messung (Prüfung) versteht man das Ausmaß, mit dem ein Messinstrument tatsächlich das misst, was es messen soll. Messungen sind dann valide, wenn sie das zu messende Merkmal repräsentieren. Valide ist ein Intelligenztest, wenn er tatsächlich die Intelligenz misst. Empirische Inhaltliche ist gegeben, wenn ein Test das zu erfassende Persönlichkeitsmerkmal repräsentiert basiert i.d.r. auf einem Experten Bsp.: ein Mathematiktest ist valide, wenn er Aufgaben enthält, die inhaltlich eine Auswahl aus dem Unterrichtsstoff darstellen Bsp.: Testreihe für 10-Jährige (Lukesch, 1998; S. 235) Problem: Auswahl geeigneter Experten (vor allem bei neuartigen oder sehr speziellen Fragestellungen) Konstruktvalidität ein Test verfügt über Konstruktvalidität, wenn er ein bestimmtes theoretisches Konstrukt (z.b. Angst) zu erfassen vermag basiert auf theoretischen Überlegungen mittels empirischer Untersuchungen wird überprüft, ob Personen in der erwarteten Weise auf die Items antworten Bsp.: Vergleich Ängstlichen und Nichtängstlichen Test 1 numerisch Test 2 IQ Merkfähigkeit numerisch numerisch Inhaltsvalidität Konstruktvalidität Verarbeitungskapazität Bearbeitungsgeschwindigkeit Verarbeitungskapazität Bearbeitungsgeschwindigkeit Merkfähigkeit IQ Empirische (Kriteriumsvalidität) die Testergebnisse einer Probandenstichprobe werden mit relevanten Außenkriterien korreliert Außenkriterien: andere Tests, Beobachtungen etc. Konvergente : Korrelation mit ähnlichen Außenkriterien Diskriminante : Korrelation mit Außenkriterien, denen eine Abgrenzung nötig ist Problem: Finden eines geeigneten Außenkriteriums (Bsp. Intelligenztest) Innere vs. äußere (anderer Test vs. anderer Verhaltensaspekt) Gleichzeitigkeits- vs. Vorhersagevalidität Vorhersagevalidität ist gegeben, wenn ein Test Art und oder Ausmaß zukünftigen Verhaltens vorhersagen kann nur im Längsschnitt prüfbar 1. Messzeitpunkt 2. Messzeitpunkt Intelligenztest für Kinder Zeit Schulerfolg 3

Einige empirische Belege Aufsatz : Verschiedene Beurteiler neigen dazu, dem gleichen Ausatz unterschiedliche Zensuren zu geben der einzelne Beurteiler neigt dazu, für den gleichen Aufsatz zu verschiedenen Zeiten unterschiedliche Zensuren zu geben Die Differenzen zeigen die Tendenz, größer zu werden je mehr das Thema Freiheit in der Bearbeitung erlaubt. Unterschiedliche Vorinformation-> unterschiedliche Bewertung Längere Aufsätze werden durchschnittlich besser bewertet Grammatikalische und orthographische Fehler beeinflussen die Beurteilung Schlechte Handschrift wirkt sich negativ aus Die Beliebtheit der Schüler wirkte sich aus Das Geschlecht der Beurteiler und der Beurteilten hat Einfluss Einige empirische Belege Mathematikarbeiten 0.01< r xy < 0.29 sehr niedrig Mathematikzensuren sind 0.30< entgegen r xy < 0.40 der üblichen mässig Meinung genauso wenig verlässlich 0.41< wie jene r xy < für 0.60 Sprache mittel stark und Geschichte Lehrer benutzen unterschiedliche 0.61< r xy = 1 Beurteilungskriterien stark Prognostische Wert Klassenarbeit gering Bsp.: Aufnahmeprüfung für das Gymnasium Eine mittlere Vorhersagegültigkeit nach einem Jahr Diktat: r=0.20 Aufsatz: r=0.16 Mathematikarbeit: r=0.17 Beurteilungsmethoden Beurteilungsmethoden Globalbeurteilung: Hierbei obliegt es dem Beurteiler, auf der Grundlage seiner Kriterien eine Gesamtbeurteilung durchzuführen. Verwendung eines vorbewerteten Korpus Vergleichsaufsätzen als Maßstab: In diesem Fall werden Musteraufsätze vorgegeben, die bereits vorbewertet sind. Der Prüfer kann somit entnehmen, welche Leistung einer Note sehr gut, gut etc. entspricht. Mehrfachbeurteilung durch unabhängig einander arbeitenden Beurteiler mit dem Ziel, den Einfluss einzelner Fehlurteile zu minimieren. Analytische Aufsatzbeurteilung, bei der die Beurteilung in unterschiedlichen Bewertungsdimensionen erfolgt. Auszählen objektiv feststellbarer Mikroelemente des Aufsatzes ( atomistische Aufsatzbeurteilung ). Verbesserungen Teamauswertung Einbeziehen Vergleichsarbeiten Kontrollmethoden Lernzielbezogene Verfahren Kriterienkatalog 4

Problemstellung Die Arbeit beginnt mit dem Kapitel Problemstellung, in dem verdeutlicht wird, warum sich der Leser mit dem Thema beschäftigen sollte (Relevanz im Gesamt-kontext); welche Fragen/ Probleme sich mit dem Thema verbinden; welche dieser Fragen/Probleme in der Arbeit berücksichtigt bzw. vernachlässigt werden und warum. Gesichtspunkte, die im Rahmen der Hausarbeit nicht behandelt werden sollen oder können, die aber als (prinzipiell) relevant für die Fragestellung erachtet werden, sind hier anzusprechen (ggf. mit Verweis auf einschlägige Literaturquellen); in welcher Reihenfolge die als relevant erachteten Inhalte dargestellt werden (mit Begründung und mit entsprechenden Verweisen auf die einzelnen Kapitel). Die Problemstellung soll also einen Problemaufriss sowie eine Darstellung und Begründung der Vorgehensweise enthalten. Arten mündlicher Prüfungen Vortrag: Innerhalb dieser Form einer mündlichen Argumentation hat der Prüfling die Aufgabe, ein Thema in freier Weise zu entwickeln. Abhören: Diese Form der mündlichen Prüfung hat in den meisten Fällen die Funktion der Überprüfung, ob eine aufgetragene Tätigkeit ausgeführt wurdeund in welchem Maße der Inhalt der Tätigkeit beherrscht wird. Arbeitsprobe: Diese Form verlangt einem Prüfling die Erbringung eines Werkstücks. Ein Werkstück kann im weitesten Sinne auch als ein nicht-materielles Stück verstanden werden. Gruppenprüfung: Hier werden mehrere Prüflinge in einer Gruppe geprüft, wobei die Beurteilung sowohl in Bezug auf die Individual- als auch auf die Gruppenleistung bezogen sein kann. Arten mündlicher Prüfungen Disputation: Eine Disputation ist ein Streitgespräch. Es findet heute noch innerhalb einer Doktorprüfung statt. Dabei hat der Prüfling die Aufgabe, vor einer (Fach-) Öffentlichkeit wissenschaftlich argumentierend Fragen zu beantworten und Lösungen zu erwägen, die unter wissenschaftlichen Bedingungen auf ihre Korrektheit überprüft werden können. Rigorosum: Diese Art der Prüfung gilt als sehr strenge mündliche Doktorprüfung, bei welcher der Doktorand mehreren Professoren gegenübersitzt. 5