Einführung in die Testtheorie und konstruktion Skript Lengenfelder WS 07/08

Ähnliche Dokumente
Messtherorie Definitionen

Überblick über die ProbabilistischeTesttheorie

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Forschungsmethoden VORLESUNG WS 2017/2018

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Gütekriterien: Validität (15.5.)

Forschungsmethoden VORLESUNG SS 2017

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler

Reliabilitäts- und Itemanalyse

Forschungsmethoden VORLESUNG SS 2017

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Forschungsmethoden VORLESUNG WS 2017/2018

Einführung in die Theorie psychologischer Tests

Einführung in die Statistik Testgütekriterien

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Klassische Testtheorie (KTT)

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

SF-36 Fragebogen zum Gesundheitszustand. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Julia Plato Datum:

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

4.2 Grundlagen der Testtheorie

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Grundlagen sportwissenschaftlicher Forschung Test

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Grundlagen der Testkonstruktion

Das Rasch-Modell und seine zentralen Eigenschaften

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Was ist eine Testtheorie?

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Screening für Somatoforme Störungen. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum:

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

2.4 Indexbildung und Einblick in Skalierungsverfahren

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Testtheorie und Testkonstruktion

Rekodierung invertierter Items

Trierer Alkoholismusinventar

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

FH Magdeburg-Stendal, Studiengang Rehabilitationspsychologie Seminar Testen und Entscheiden Dozentin Susanne Jäger Referentin Angela Franke, 1. Sem.

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Auswahl von Testaufgaben

I-S-T 2000-R: INTELLIGENZ- STRUKTUR TEST 2000-R BITTE HANDBUCH ANSEHEN

Aufbau des Testberichts. 1. Problemstellung / inhaltliche Einführung. 2. Methode

Was ist eine Testtheorie? Grundlagen der Item-Response. Response-Theorie. Modelle mit latenten Variablen

Beispielberechnung Normierung

Lehrbuch Testtheorie - Testkonstruktion

Klausur Testtheorie: Antworten und Lösungen

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Psychologische Diagnostik

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Statistik II: Grundlagen und Definitionen der Statistik

einzelne Items werden mit Zahlen verknüpft und nach festgelegten Regeln zu einem Score verrechnet

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Tests. Eine Einführung

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Statistik. Jan Müller

Pädagogisch-psychologische Diagnostik und Evaluation

Bildungsurlaub-Seminare: Lerninhalte und Programm

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Angewandte Statistik 3. Semester

6. Faktorenanalyse (FA) von Tests

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Einführung in die Test- und Fragebogenkonstruktion

Forschungsmethoden VORLESUNG WS 2017/2018

Item-Response-Theorie Probabilistische Testtheorie. Christian Stroppel

Forschungsstatistik I

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Psychologische Diagnostik

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Inventar zur Erfassung interpersonaler Probleme (IIP-D)

TRIERER INVENTAR ZUM CHRONISCHEN STRESS

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Testen und Entscheiden Referentin: Christiane Beck Datum: Dozentin: Susanne Jäger. Hochschule Magdeburg-Stendal (FH)

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Der Stressverarbeitungsfragebogen von Janke und Erdmann angepasst für Kinder und Jugendliche (SVF-KJ)

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Parametrische vs. Non-Parametrische Testverfahren

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Daten, Datentypen, Skalen

Statistik II. IV. Hypothesentests. Martin Huber

Exploratorische Faktorenanalyse. Exploratorische Faktorenanalyse. Exploratorische Faktorenanalyse

Allgemeines zu Tests. Statistische Hypothesentests

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Bivariate Analyseverfahren

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Grundlagen sportwissenschaftlicher Forschung Untersuchungsplanung 2 und Grundlagen des Messens

Transkript:

Einführung in die Testtheorie und -konstruktion TEIL A: Einführung 1. Begrifflichkeiten Klassische Testtheorie: hauptsächlich korrelationsstatistische Betrachtung und deterministisches nicht prüfbares Modell bezüglich Zusammenhang zwischen Testwert und wahre Eigenschaftsintensität einer Person. Probabilistische Testtheorie: prüfbare Modelle; Wahrscheinlichkeitstheoretischer Zusammenhang zwischen Testwert und wahre Eigenschaftsintensität einer Person. Wozu eine Theorie über psychometrische Tests? Vernünftiges Umgehen mit dem Phänomen des Messfehlers Begründete Rückschließung auf Ausprägungsgrade nicht beobachtbarer latenter Variablen von beobachtbaren Indikatoren (den Testantworten) aus Wappnung gegen den pauschalierenden Vorwurf, formale Methoden und Psychologie passten nicht zusammen Bestimmung standardisierbarer Kennwerte der Qualität eines Testes Psychologische Diagnostik ist das systematische Sammeln und Aufbereiten von Informationen mit dem Ziel, Entscheidungen und daraus resultierende Handlungen zu begründen, zu kontrollieren, zu optimieren. (Jäger und Petermann) Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. (Amelang und Schmidt-Atzert) Wichtige Anwendungsfelder der Testtheorie und Testkonstruktion in der psychologischen Praxis (= Diagnostik) Fahreignungsdiagnostik (TÜV Rot-Grün-Blindheit) Rehabilitations- und Behindertendiagnostik (Ausmaß der Beeinträchtigung / Erholung messen) Diagnostik in Psychiatrischen Kliniken (Art und Ausprägung eine Störung erheben) Berufwahl unterstützende Diagnostik (Arbeitsamt, Self-Assessment) Auswahl von Führungskräften Auswahl von Mitarbeitern Auswahl von Auszubildenden (Studierendenauswahl) Flugeignugsuntersuchung (z.b. Lufthansa, Bundeswehr) Diagnostik im pädagogischen Bereich (z.b. Sonderschulzuweisung Minderbegabung vs. Hochbegabung) Hochschulzulassung (z.b. Medizinstudium) Zuweisung militärischer Funktionen Rechtspsychologie (z.b. Glaubwürdigkeitsfeststellung, Täterprognose, Zurechnungsfähigkeit) Erziehungsberatung (Defizite in der Erziehung) Therapie-Evaluation Merkmale eines Tests: Standardisiert hinsichtlich Durchführung, Auswertung und Interpretation vorgegebene Regeln zur Durchführung, Auswertung und Interpretation sollte ein objektiv kontrolliertes Verfahren sein 1/10

Verhaltensweisen werden ausgelöst Stichproben aus einem Universum von Verhaltensweisen, das bestimmte Fähigkeiten oder Eigenschaften indiziert. Messung (Quantifizierung) wird angestrebt Wissenschaftliches Verfahren, dessen Wissenschaftlichkeit durch den Nachweis der Hauptgütekriterien (Objektivität, Reliabilität, Validität) und Nebengütekriterien (Normierung, Ökonomie, Ethik) erbracht wird. Lienert & Raatz (1998): Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. 2.Hauptgütekriterien eines Tests Objektivität: Ausmaß der Abhängigkeit der Testergebnisse vom Versuchsleiter. Reliabilität: Messgenauigkeit; Genauigkeit eines Verfahrens das ein Merkmal erfasst (unabhängig ob es um das intendierte Merkmal geht). Validität: Gültigkeit; Maß an Genauigkeit, mit dem der Test das Merkmal misst, was er vorgibt zu messen. 3. Messtheorie Ablaufschema Testkonstruktion Bestimmung des Gegenstandsbereiches der zu erfassenden Dimensionen; Geltungsbereich, Operationalisierungsvarianten Formulierung und Zusammenstellung von Items Gewinnung einer Analysestichprobe (Zielgruppe, Stichprobengröße) Durchführung der Itemanalyse Einzelschritte der Testevaluation Wahl eines testtheoretischen Modells Prüfung bestimmter Gütekriterien Selektion von Items (z.b. mittels Faktorenanalyse) Endgültige Itemzusammenstellung und abschließende Berechnung der Gütekriterien Durchführung von Validierungsstudien Testnormierung 2/10

Modell= reduzierte Abbild der Wirklichkeit auf die Elemente und Strukturen, die von Interesse sind. Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-) Objektes und erfolgt durch eine Zuordnung von Zahlen zu Messobjekten wenn die (numerischen) Beziehungen zwischen Messwerten empirische Beziehungen zwischen den Messpbjekten ausdrücken. (Orth, 1999) Skalenniveaus Absolutskala x =x Identitäsformation (Transformation nur in sich selbst möglich Differenzenskala x =x+b Translation (Nullpunkt festgelegt) Verhältnisskala x =a*x proportionale Transformation Intervallskala x =a*x+b lineare Transformation (Nullpunkt & Einheit unklar) Verhältnisse prüfen A A = B B Ordinalskala x =f(x) mit x>y f(x) >f(y) monotone Transformation Nominalskala x =y für alle x äquivalente Transformation TEIL B: Klassische Testtheorie 4. Axiomatik Axiome: nicht geprüfte Basisannahmen, die gesetzt werden oder sich logisch ergeben (logisch wahr empirisch nicht prüfbar) (1) X = T + E T=True, E= Error Verknüpfungsaxiom Messwert = Summe des wahren und des Fehlerwertes (Abweichung des Messwertes zum wahren Wert (2) M ( E) I = 0 M ( E) P = 0 Mittelwert der Fehler unähnlicher Messungen Mittelwert der Fehler eine Population einer Person verschiedener Bedingungen (3) r ( E, T ) = 0 r ( E, E A B ) = 0 r ( E, T ) = 0 A B Alle Korrelationen mit irgendeinem Fehlerterm ist gleich Null (4) M ( X ) = T Existenzaxiom Mittelwert der Messwerte = True (Verhaltenstendenz einer Person in einer Situation) 5.Erstellen der Testversion Antwortkategorien Freie Beantwortung: (Antwortformat nicht vorgegeben oder sehr frei) - ohne spezielle Vorgabe (z.b. Rorschach) - formale Vorgabe (z.b. 2+4=?) - Lückenvorgabe (z.b. 2+4+6+ ) Gebundene Beantwortung: (Eindeutig in der Antwort) - Zweifachwahl (z.b. ja/nein) - Mehrfachwahl multiple choice (z.b. 2+4= 5, 6, 7, 8 ) Ratewahrscheinlichkeit reduziert sich - Zuordnungsaufgabe (z.b. 1 c, 2 b, 3 d, 4 a) - Umordungsaufgabe (z.b. HAWIE) Gebundene Beantwortung: 1) exhaustiv / 2) disjunkt 1) Bereich der Antworten wird vollständig abgedeckt: - ja: exhaustiv -nein: nicht exhaustiv 2) Antwortmöglichkeiten schließen sich gegenseitig aus: - ja: disjunkt -nein: nicht disjunkt 3/10

BSP.: (3*5)/9=x exhaustiv nicht echaustiv diskunkt x 1,3 1,3 < x < 1,5 x 1,5 x = 1,2 x = 1,7 x = 1,9 nicht disjunkt x < 1,3 1,2 < x < 1,8 x > 1,6 x < 1,5 1,2 < x < 1,9 x = 2,1 Kriterien für Items Inhaltliche Kriterien (itemspezifische Kriterien) - leichte Verständlichkeit - keine doppelte Verneinung - keine zwei Tatbestände - einfache Durchführbarkeit - kurze Lösungszeit - geringer Materialverbrauch - leichte Auswertbarkeit - geringe Häufigkeit von Zufallslösungen - geringe Abhängigkeit von Gedächtnisleistung - Ausschluss von Antworttendenzen - Gegenseitige Unabhängigkeit der Items - Geschlechtsneutrale Formulierung Formale Kriterien - Schwierigkeit - Trennschärfe - Validitätskoeffizient - FA (Ladung) - Aufgabeninterkorrelationen 6. Itemanalyse Gewinnung von empirischen Kennwerten für jedes Item und damit auch für die einzelnen Skalen und deren Relationen. Die berechneten Kennwerte dienen der Beschreibung und Bewertung der Items und der Skalen. Die berechneten Kennwerte bilden die Basis für ein eventuell erforderliche Testrevision A: Kennwerte der Itemanalyse 1) Item-Kennwerte - Schwierigkeit p i (Differenzierungskraft des Items, nicht alle geben selbe Antwort) - Trennschärfe r it (misst Item das, was es messen soll?) - Validitätskoeffizient r il - Aufgabeninterkorrelation ( FAanalyse) (prüft, ob Items der Dimension Lebenszufriedenheit homogen messen, d.h. was anderes messen, als die Items von sozialer Orientierung) 2) evtl. Faktorenanalyse 3) Kennwert für Skalen - Rohwertverteilung - Konsistenz (Reliabilität) B: Gütekriterien - Objektivität - Reliabilität - Validität C: Normen 4/10

ACHTUNG bei Med ex : U, untere Grenze der Medianklasse; N ; NS, Anzahl bis zur Medianklasse; NM, Anzahl in der Medianklasse; I, Klassenbreite Rohwertberechnung Intervalldaten: Aufsummierung mit Gewichtung Kategorien Skalenrohwert = untransformierter, unveränderter Testwert leicht g 1 =0 n 1 =8 mittel g 2 =1 n 2 =7 schwer g 3 =2 n 3 =5 Transformierte Werte im Skalensinn Rohwert: X=(g 1 x n 1 ) + (g 2 x n 2 ) + (g 3 x n 3 ) + + (g i x n i ) g i : Gewicht der Kategorie i; n i : Anzahl der Antworten in Kat. i Trennschärfe Inhaltlich: wie gut spiegelt ein Item eine Skale, di aus den restlichen Items gebildet wird wider bzw. wie prototypisch ist ein Item für diese Skala. Korrigierte Korrelation einer Aufgabe mit einer Skala (Part-whole-Korrektur) Bewertung der Trennschärfe r T +1 ok r T 0 schlecht eliminieren r T +1 ok umpolen Part-Wohle-Korrektur von Trennschärfen r it Korr. Item x mit Test Test = Itemsumme = I1 + I2 + I3 Skalenkonstruktion mittels Faktorenanalyse (Ablaufschema) (1) Berechnung der Korrelationsmatrix R (Iteminterkorrelationen) (2) Hauptkomponentenanalyse (Diagonale der Korrelationsmatrix R:1) (3) Analyse Eigenwertverlauf Indikator für Faktorenzahl f (4) Rotation der f Faktoren (orthogonal oder schiefwinklig) (5) Itemauswahl aufgrund der rotierten Ladungsmatrix Rohwertverteilung Schiefe und Exzess 1. links: linkssteil, linksgipflig 1. rechts: rechtssteil, rechtsgipflig Signifikanzprüfung: One-Sample-T-Test df=n-1 Wenn Sch<0 dann rechtssteil oder rechtsgipflig Wenn Sch=0 dann symmetrisch Wenn Sch>0 dann linkssteil oder linksgipflig Wenn Ex groß dann schmalgipflig Wenn Ex = 0,263 dann normalverteilt Wenn Ex klein dann breitgipflig Die Schiefe beschreibt die Neigungsstärke einer statistischen Verteilung X. Sie zeigt an, ob und wie stark die Verteilung nach links (positive Schiefe) oder nach rechts (negative Schiefe) geneigt ist. Der Exzess beschreibt die Abweichung des Verlaufs der gegebenen Wahrscheinlichkeitsverteilung zum Verlauf einer Normalverteilung. 7. Gütekriterien Objektivität Ausmaß der Abhängigkeit / Unabhängigkeit der Test-Ergebnisse vom Versuchsleiter (Kennwert: z.b. 0%-100%, Intraklass-Korrelation) 5/10

Bezüglich: - Durchführung - Auswertung - Interpretation Objetivität Durchführung Auswertung Interpretation hohe Werte Selbstbeurteilungs-Fragebogen; Leistungstests Selbstbeurteilungs- Fragebogen; Leistungstests Computerdiagnostik bzw. formalisierte Auswertung niedrige Werte projektive Verfahren Verfahren mit offenen übrige Fälle Antworten (projektive Verfahren Verbesserung Standardisierung der Formalisierte Auswertung Formalisierte Regeln Untersuchungs-situation (Schablonen, Computer) z.b. Aufnahmeverfahren klare Anleitung an Testdurchführer und teilnehmer (teilweise übergenau) Schulung der Versuchsleiter Vorlegen des gleichen Materials an zwei Verschiedene Personen gleicher Rohwert? Reliabilität 1. Retestmethode (Korrelation T1/T2: 4 Woche) Zwei Tests, die das gleiche Messen (fast unmöglich) Korrelation Merkmalsstabilität Reliabilität 1 sig. (p<.05) und hoch ja hoch 2 n. sig. (p>.05) oder ja niedrig 3 n. sig. (p>.05) oder nein 3a) hoch 4 n. sig. (p>.05) oder ja, aber unterschiedliche Lern-, Motivationseffekte 3b) niedrig 4a) hoch 4b) niedrig gleiches Material zwei verschiedenen Versuchsleitern vorlegen kommen sie zu gleicher Interpretation? 2. Paralleltestmethode (Testversion A, B; Korrelation T1(A)/T2(B) 7 Tage) Selbe Test wird mit der gleichen Vpn-Gruppe zweimal durchgeführt: Zeitabstand einerseits groß kein Erinnerungseffekt, andererseits klein keine Veränderung des Merkmals Korrelation Merkmalsstabilität Parallelität Reliabilität 1 sig. (p<.05) und hoch ja ja A, B: hoch 2 n. sig. (p>.05) oder 3 n. sig. (p>.05) oder 4 n. sig. (p>.05) oder 5 n. sig. (p>.05) oder 6 n. sig. (p>.05) oder A, B: ja A, B: ja A, B: niedrig A, B: ja A, B: nein 3a) A, B: hoch 3b) A, B: niedrig 3c) A: hoch, B: niedrig 3d) A: niedrig, B: hoch A, B: nein A, B: ja 4a) A, B: hoch 4b) A, B: niedrig A, B: nein A, B: nein 5a) A, B: hoch 5b) A, B: niedrig 5c) A: hoch, B: niedrig 5d) A: niedrig, B: hoch 3. Konsistenzanalysen (innere) a) Testhalbierung Test halbieren und Ähnlichkeit der beiden Hälften untersuchen b) jedes Item wird als eigenständiger Teil angesehen Cronbach α (Maß der inneren Konsistenz) Homogenität der Items 6/10

Nomogramm für die graphische Lösung Validität In welchem Ausmaß misst der Test das, was ich messen will? 1. Testverhalten Verhalten außerhalb 1.1. Repräsentationsschluss Inhaltsvalidität (content validity) Testverhalten ist der Beste Schluss auf (gewünschtes) Verh. (sportl. Wettkampf, Klausuren, Aufnahmeprüfung) 1.2. Korrelationsschluss 1.2.1. Zeitgleiches Kriterium Übereinstimmungsvalidität (concurrent validity) Wir kennen das Ergebnis schon, aber wir möchten wissen, ob unser Test das auch misst 1.2.2. Künftiges Kriterium Vorhersagevalidität (predictive validity) gilt nur für den unersuchten Zeitraum (Eignungsdiagnostik, Studienauswahl, Rückfalldiagnose) 2. Testverhalten Eigenschaft Konstruktvalidität 2.1. konvergente Validität Korrelation mit Tests, die einen ähnlichen Validitätsanspruch erheben (Bereiche: - 1 -.40;.40 1) 2.2. diskriminante / divergente Validität Vergleich mit methodisch ähnlichen Tests, die etwas ähnliches messen, oder auch etwas anderes messen (Bereich: -.40.40) 2.3. faktorielle Validität Faktorenanalyse mit eigenem Test, anderem Test und Außenkriterien 2.4. Expertenanalyse inhaltlich, logische Analyse durch Experten 2.5. Intraindividuell Unterschiede innerhalb der selben Gruppe (mehrere Messwerte pro Vpn; vorher, nachher Design) 2.6. Interindividuell Unterschiede zwischen Gruppen (oder Personen) 2.7. Außenkriterien Gegenüberstellung des Testergebnisses mit mehr oder weniger klaren Außenkriterien Es gibt nur die Validität im Bezug auf die Kriterien (Validität des Testes gibt es nicht) Weitere Kriterien z.b.: Testgrundlage (diagnostische Zielsetzung, Theoretische Grundlage, Nachvollziehbarkeit der Testkonstruktion) Testdurchführung (Durchführungsobjektivität, Test Transparenz, Zumutbarkeit für den Diagnostizierten, Ausmaß der Verfälschbarkeit, Störanfälligkeit) Testverwertung (Auswertungsobjektivität, ja Reliabilität, Validität, Normierung, Bandbreite, Informationsausschöpfung, Kein Validierungs- Änderungssensitivität) Hinweis für Test Testevaluation (Ökonomie, Fairness, Akzeptanz durch Benutzer, Vergleichbarkeit, Bewährung) Äußere Gestaltung (Verständlichkeit, probandenfreundliche Gestaltung) 7/10 Theoretisches Bezugssystem Hypothese(n) i Mit empirischer Überprüfung Bestätigung nein Validierungs- Hinweis für Test

8. Normen Interprtationsobjektivität Gewinnung vergleichbarer Daten Eichstichprobe je größer desto besser z.b. Geschlechterunterschiede Geschlechter durch Normierung vergleichbar 1. Standardnormen (mind. normalverteilte Intervalldaten Normierung mgl.) 2. Prozentrangnormen 3. Äquivalenznormen (werden heut nicht mehr verwendet) X=MW(der Norm)+s(d.N.)*z Stanine-Skala: nur 1-10, immer Rundung auf ganze Werte (Bereich von 1 und 9 größer) Skalentransformation x x z-transformation: z = Transformation in Skala y: y = y + sy * z s x 9. Testprofil Testbatterie Statistische Interpretation von Testresultaten Profilmittelwert (-höhe) k X Ai i= X A = 1 A: Personenindex, k: Anzahl Untertests k Profilstandardabweichung k 2 ( X A X ) i A i= 1 S A = k 1 Verlaufsgestalt ( X ) A i X A ( X A i X A) / S A Profilvergleich mit Profilhöhe und Verlaufsgestalt: Distanzmaß ohne Profilhöhe und Standardabweichung, nur Verlaufsgestalt: Produkt-Monument- Korrelation Vertrauensintervall eines Testwertes X = X ± z * s = x ± z * s 1 r z: kritischer Wert gem. Signifikanzniveau α (zweiseitig) V E tt z ± = 1 normal z ± > 1 über-/unterdurchschnittlich z ± > 1,5 deutlich über-/unterdurchschnittlich Mit einer Irrtumswahrscheinlichkeit von 5% zweiseitig hat Vpn. X einen durchschnittlichen bis deutlich überdurchschnittlichen (Z.B. IQ) (Beispiel Werte waren 110,2 129,8; bei IQ MW=100 und S=15 85-115 normal, >115 überdurchschnittlich ) Profildifferenz (2 Testungen bei gleicher Person; Vergleich 2 Personen in einem Test d beob d crit : Unterschied signifikant 8/10

Profildifferenz (2 verschiedene Tests / Untertests; gleiche Person) d beob d crit : Unterschied signifikant Teil C: Weiter Ansätze 10. Probabilistische und Deterministische Ansätze Deterministische und Probabilistische Modelle in der Testtheorie Deterministischer Ansatz: Guttman-Modell Bedingte Wahrscheinlichkeit: Vorbedingung vorhanden Unplausibel: sprunghafter Anstieg keine Differenzierung bei denen mit p=1 menschliche Natur Fähigkeit ist nicht jeden Tag gleich Probabilistischer Ansatz: Binomial-Modell Mindestausprägung notwendig (z.b. Eigenschaftsausp. Von - 2 notwendig, damit Wahrscheinlichkeit steigt) Trennschärfe = Steigung der Kurve (bei probabilistischen Ansätzen) Je höher die Eigenschaftsausprägung, desto höher die Lösungswahrscheinlichkeit Probleme: keine Differenzierung bei Wahrscheinlichkeit 0 und 1 sprunghafter Anstieg Probabilistischer Ansatz: Rasch-Modell Asymptotische Annäherung monotone Steigung Weitere probabilistische Modelle: Weniger Anforderungen Probabilistischer Ansatz: Birnbaum-Modell Durchgezogene Linie: leichtestes Item Die Itemschwierigkeit ist konstant Probabilistischer Ansatz: Mokken-Skala Rangordnung der Items bleibt erhalten Das dichotome Raschmodell: Eigenschaften des Modells 9/10

Spezifische Objektivität: Der Vergleich zweier Personen ist unabhängig von der gewählten Versuchsbedingung; bei der Modellkonformität fallen für einen Probanden die Item- und Personenparameter immer gleich aus, gleichgültig welche Items bearbeitet werden. Lokale Stochastische Unabhängigkeit: Die Wahrscheinlichkeit des richtigen Lösens von Item 1 hat keinen Einfluss auf die Wahrscheinlichkeit des richtigen Lösens von Item 2. Die lokale stochastische Unabhängigkeit zeigt sich durch Null-Korrelationen zwischen den Items bei Konstanthalten de Personenparameters. Stichprobenunabhängigkeit der Parameterschätzung: (oder auch Teilgruppenkonstanz) Die Schätzung der Itemparameter kann vorgenommen werden, ohne die Personenparameter zu kennen oder Verteilungen darüber annehmen zu müssen. Schätzungen auf Basis von Subgruppen führen zu gleichen Itemparametern. Erschöpfende Statistik: Für die Schätzung des Personenparameters führt das richtige Lösen der Items 3 und 4 zu gleichen Lösungen wie das richtige Lösen der Items 1 und 2. Jede Teilmenge von Items charakterisiert die Ausprägung der latenten Dimension erschöpfend. Unterschiede zwischen Klassischer und Probabilistischer Testtheorie klassische Testtheorie probabilistische Testtheorie Manifeste Variable wird interpretiert Latente Variable wird geschätzt Axiome beziehen sich ausschließlich auf den Messfehler Latente Variable wird über Modell (=Formel) mit Manifester (Messfehlertheorie?) Variable in Verbindung gebracht Itemschwierigkeit ist abhängig von der Itemschwierigkeit ist unabhängig von den Eigenschaftsausprägung der Personen Personenparametern Messgenauigkeit wird durch Reliabilität geschätzt (Verhältnis Konzept der Reliabilität kommt nicht vor in den Varianz der wahren Werte zu Varianz der beobachteten probabilistischen Ansätzen Werte) Mehrere Selektionskriterien für Itemauswahl vorhanden, die Selektionskriterien für Itemauswahl eindeutig sich z.t. gegeseitig widersprechen Weitere Faktoren die auf das Testverhalten wirken, können erst nachträglich bestimmt werden, sind aber nicht Teil des Messmodells Annahmen über die Messfehler werden nicht überprüft Anwendung relativ einfach Auswertungssoftware ausreichend vorhanden Anwendungsbereich sehr breit gestreut Erschöpfende Statistik nicht überprüft, wird aber angenommen Modell zum Testverhalten kann beliebig gestaltet werden und bringt alle Faktoren im Messmodell zueinander (z.b. Raten bei Aufgaben) Theoretisch gut fundiert für den Test wird Modellgeltung überprüft Modellüberprüfung relativ aufwendig Auswertungssoftware nur bedingt vorhanden Anwendungsbereich durch oftmaliges Fehlschlagen der Modellgeltung auf eher spezifische Eigenschaften beschränkt (z.b. spezifische kognitive Leistungen) Erschöpfende Statistik ermöglicht Testergebnis konkreten Leistungsbereichen zuordnen zu können und liefert Belege für die Vergleichbarkeit von Ergebnissen (PISA Studie) Zugänglichkeit der Logik anfangs eher schwierig später aber klar und an verschiedenste Gegebenheiten anpassbar Zugänglichkeit der Logik anfangs eher einfach später aber problematisch durch Lücken im theoretischen Ansatz Rost (1999) stellt fest, dass beide Methoden parallel auf dasselbe Datenmaterial zur Testkonstruktion angewandt zu sehr ähnlichen Ergebnissen kommen. Beide Methoden basieren auf ähnlichen Annahmen und sollten nicht als konkurrierende, sondern sich gegenseitig ergänzende Verfahren betrachtete werden. Bisher sind ca. 90% der psychologischen Tests nach der klassischen Testtheorie konstruiert. 11. Entscheidungsfehler Sensitivität der Zuordnungsregel: Anteil der richtig diagnostizierten Kranken in der Gruppe der Kranken obere Zeile Spezifität der Zuordnungsregel: Anteil der richtig diagnostizierten Gesunden in der Gruppe der Gesunden untere Zeile Prädiktiver Wert einer positiven Zuordnung: Anteil der richtig diagnostizierten Kranke an allen an krank diagnostizierten Personen linke Spalte Prädiktiver Wert einer negativen Zuordnung: Anteil der richtig diagnostizierten Gesunden in der Gruppe der als gesund diagnostizierten Personen rechte Spalte 10/10