Wiederholung - Vertiefung Testkonstruktion

Transkript

1 Wiederholung - Vertiefung Testkonstruktion Kapitel 3 Bühner (2006). Text: direkt aus Bühner 2006 übernommen Danke schön Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

2 3.1 Stufen der Testentwicklung (1) Anforderungsanalyse und Problemstellung (2) Planung und Literatursuche (3) Eingrenzung des Merkmals und Arbeitsdefinition (4) Testentwurf (5) Überprüfung des Testentwurfs (6) Verteilungsanalyse (7) Itemanalyse und Itemselektion (8) Kriterienkontrolle (9) Revision des Tests (10) Eichung / Cut-Off-Werte Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 2 2

3 (1) Anforderungsanalyse und Problemstellung Bezieht sich auf spezifischen Tätigkeitsbereich (tätigkeitsspezifisch oder tätigkeitsübergreifend) 3 Ansätze (Schuler, 2001): erfahrungsgeleitet-intuitive Methode:?? Beschäftigung mit den Eigentümlichkeiten des Tätigkeitsbereichs analytisch-empirische Methode: Tätigkeiten in konkreten Situationen personenbezogen-empirische Methode: Zusammenhang zwischen Merkmalen der tätigen Personen und Kriterien Informationsquellen: Beobachtung, mündliche Befragung, Fragebogenverfahren, Beschäftigung mit dem Material, Auswertung des Materials, Arbeitsausführung einer Tätigkeit Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 3 3

4 (2) Planung und Literatursuche Eingrenzung des zu erfassenden Merkmals mithilfe von: Überblicksartikeln oder Lehrbüchern (z.b. Psyndex, PsycINFO) Befragung von Laien oder Experten anforderungsbezogener Test (ohne expliziten theoretischen Hintergrund) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 4 4

5 (3) Arbeitsdefinition Erstellung einer Arbeitsdefinition: Sammlung und Analyse von Definitionen (z.b. wiederkehrende Definitionsmerkmale herausgreifen) rationale Fragebogenkonstruktion (Fragebogenkonstruktion basiert auf inhaltlichen Gesichtspunkten) Testkonstruktion wird explizit aus einer Theorie abgeleitet = deduktive Methode (Konstrukte wie z.b. Intelligenz oder Aufmerksamkeit) induktive Fragebogenkonstruktion (Fragebogenkonstruktion basiert auf Befragungsergebnissen von Experten oder Laien) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 5 5

6 (4) Testentwurf Überlegungen: 1. Zielgruppe 2. Art der Informationen (subjektive oder objektive Informationen) 3. Zweck des Tests (z.b. verschiedene Gruppen voneinander trennen oder Eigenschaftsbeschreibungen) Überlegungen münden in der Auswahl der Testart und damit verbunden der Itemauswahl Merke: - Wichtig für die Inhaltsvalidität ist eine repräsentative Itemmenge - Prototypenansatz: die ausgewählten Items sind besonders charakteristisch für einen bestimmten Bereich Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 6 6

7 (5) Überprüfung des Testentwurfs geeignete und ausreichend große Stichprobe rekrutieren (Mindestgrenze N = 100) (6) Verteilungsanalyse Betrachtung der Itemverteilungen anhand der Rohdaten, um mögliche Decken- und Bodeneffekte zu vermeiden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 7 7

8 (7) Itemanalyse und Itemselektion Statistische Itemanalyse: Berechnung von Itemschwierigkeit und Itemtrennschärfe Items, die von allen oder keinem Probanden der interessierenden Stichprobe gelöst werden sowie Items mit geringer Trennschärfe werden nicht weiter berücksichtigt, weil sie zur Unterscheidung der Probanden nichts beitragen können Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 8 8

9 (8) Kriterienkontrolle Bestimmung der primären Gütekriterien Reliabilität und Validität des Tests (9) Revision des Tests Anhand der gewonnenen Informationen sollte der Test revidiert werden und erneut einer psychometrischen Prüfung unterzogen werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 9 9

10 (10) Eichung (Normierung) / Cut-Off- Werte Mit der Testendform werden Normen an möglichst repräsentativen, geschichteten oder speziell interessierenden Populationen erhoben In vielen Fällen benötigt man nur einen Cut-Off-Wert, ab dem eine psychische Störung vorliegt oder ein bestimmtes (z.b. Lern- )Ziel erreicht wurde Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 10 10

11 3.2 Auswahl von Testaufgaben (1) Gebundene Aufgabenbeantwortung (2) Allgemeine Probleme gebundener Antwortformate (3) Freie Aufgabenbeantwortung (4) Atypische Aufgabenbeantwortung (5) Probleme bei der Formulierung von Fragebogenitems (6) Hilfen zur Aufgabenkonstruktion (7) Erkennen eines Itembias Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 11 11

12 (1) Gebundenes Antwortformat Bei der gebundenen Beantwortung werden festgelegte Antwortkategorien vorgegeben Es gibt keinen Freiraum für eigene Antworten Beispiele für gebunden Antwortformate: mehrstufige Ratingskalen Richtig-Falsch-Aufgaben Mehrfach-Wahlaufgaben Zuordnungsaufgaben Umordnungsaufgaben Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 12 12

13 (1) Gebundenes Antwortformat mehrstufige Ratingskalen: Ratingskalen bestehen aus mehr als zwei Antwortkategorien Sie sollen die qualitative Beurteilung einer Merkmals-ausprägung ermöglichen Wie differenziert die Antwortkategorien abgestuft werden sollen (z.b. 3-stufig, 4-stufig oder 10-stufig), kann festgelegt werden Ratingskalen können bipolar oder unipolar sein Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 13 13

14 (1) Gebundenes Antwortformat mehrstufige Ratingskalen: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 14 14

15 (1) Gebundenes Antwortformat Vorteile mehrstufige Ratingskalen: Man erhält sehr differenzierte Informationen über die Ausprägung eines Merkmals Durchführung und die Auswertung sind ökonomisch Die Differenziertheit der Fragen kann dem Untersuchungszweck und der Fähigkeit der Probanden angeglichen werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 15 15

16 (1) Gebundenes Antwortformat Nachteile mehrstufige Ratingskalen: Eventuell werden die Abstufungen subjektiv unterschiedlich aufgefasst Antworttendenzen können auftreten, z.b. Neigung zu extremen Antworten oder die Tendenz zu mittleren Urteilen Probanden eine mittlere oder neutrale Kategorie vorzuenthalten kann problematisch sein, da sie so zu einer Entscheidung gezwungen werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 16 16

17 (1) Gebundenes Antwortformat Richtig-Falsch-Aufgaben: Richtig-Falsch-Aufgaben bestehen nur aus zwei Antwortmöglichkeiten Sie kommen als Leistungstestaufgaben (Richtig-Falsch- Aufgaben) oder auch Ja-Nein-Fragen (Trifft zu / Trifft nicht zu) in Persönlichkeitstests vor Der Antwortmodus reicht von Ankreuzen über Durchstreichen bis dahin, ein Item mit einem Haken zu versehen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 17 17

18 (1) Gebundenes Antwortformat Richtig-Falsch-Aufgaben: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 18 18

19 (1) Gebundenes Antwortformat Vorteile der Richtig-Falsch-Aufgaben: Die Bearbeitungs-, Auswertungs- und Lösungszeit ist meist kurz Für die Probanden ist die Testinstruktion in der Regel leicht zu verstehen Die Items können von den Probanden schnell und auch relativ leicht beantwortet werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 19 19

20 (1) Gebundenes Antwortformat Nachteile der Richtig-Falsch-Aufgaben: Ja-Nein-Items müssen so formuliert werden, dass sie eindeutig beantwortet werden können Im Gegensatz zum Ratingformat ist ein hoher Prozentsatz an Zufallslösungen möglich (50 Prozent) Man erhält wenig differenzierte Informationen Es Hinweise dafür, dass bei Ja-Nein-Items eine erhöhte Ja-sage- Tendenz zu beobachten ist (Krosnick, 1999, S. 552) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 20 20

21 (1) Gebundenes Antwortformat Mehrfach-Wahlaufgaben: Mehrfach-Wahlaufgaben haben mehr als zwei Antwortalternativen Eine bekannte Art sind Multiple-Choice-Items, die insbesondere zur Erfassung von Wissen und zur Messung der Intelligenz eingesetzt werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 21 21

22 (1) Gebundenes Antwortformat Mehrfach-Wahlaufgaben: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 22 22

23 (1) Gebundenes Antwortformat Vorteile der Mehrfach-Wahlaufgaben: Durchführung und Auswertung sind ökonomisch Eine zufällige Beantwortung der Items durch den Probanden ist weniger problematisch, je mehr Antwortalternativen zur Verfügung stehen und wenn darüber hinaus Kombinationen aus mehreren Antwortalternativen die Richtigantwort bilden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 23 23

24 (1) Gebundenes Antwortformat Nachteile der Mehrfach-Wahlaufgaben: Antwortalternativen zu finden ist eventuell schwierig, da alle falschen Antwortalternativen gleichwahrscheinlich gewählt werden sollten Nur ein Wiedererkennen von Material oder Wissen wird verlangt, keine Reproduktion Die Antworten können schon Hinweise auf die richtige Lösung enthalten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 24 24

25 (1) Gebundenes Antwortformat Zuordnungsaufgaben: Bei Zuordnungsaufgaben werden bestimmte Zeichen oder Inhalte anderen Zeichen oder Inhalten zugeordnet Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 25 25

26 (1) Gebundenes Antwortformat Vorteile der Zuordnungsaufgaben: Durchführung und Auswertung sind ökonomisch Die zufällige Beantwortung ist bei diesem Aufgabentyp unproblematisch Eignet sich auch zur Überprüfung von Wissen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 26 26

27 (1) Gebundenes Antwortformat Nachteile der Zuordnungsaufgaben: Antwortalternativen zu finden ist eventuell schwierig, da alle falschen Antwortalternativen gleichwahrscheinlich gewählt werden sollten Statt Reproduktion wird nur Wiedererkennen von Material verlangt, was nicht für alle Konstrukte sinnvoll ist Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 27 27

28 (1) Gebundenes Antwortformat Umordnungsaufgaben: Bei Umordnungsaufgaben müssen vorgegebene Fragmente der Reihenfolge entsprechend sortiert werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 28 28

29 (1) Gebundenes Antwortformat Vorteile der Umordnungsaufgaben: Dieser Aufgabentyp ist bei Materialbearbeitungstests einsetzbar, beispielsweise beim HAWIE-R (Tewes, 1991) Nachteile der Umordnungsaufgaben: Speziell bei Gruppentestungen muss das Material, falls es sich um Kärtchen oder Ähnliches handelt, in großen Stückzahlen verfügbar sein Das Itemformat ist nur für wenige spezifische Fragestellungen anwendbar Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 29 29

30 (2) Allgemeine Probleme gebundener Antwortformate Für manche Konstrukte schwierig anzuwenden Absichtliches Fälschen (Simulation und Dissimulation), Raten, Antworttendenzen (Ja-sage oder Nein-sage-Tendenz), Soziale Erwünschtheit, Motivation, Reihenfolgeeffekte Auswirkungen von Verfälschungen: deutliche Verzerrungen der Skalenwerte Strategien gegen Verfälschung: Forced-Choice-Items Spezielle Fragebögen zur Erfassung sozialer Erwünschtheit Validitätsskalen (z.b. L-, F- und K-Skala im MMPI-II) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 30 30

31 (3) Freie Aufgabenbeantwortung Für die Aufgabenbeantwortung werden keine festen Kategorien vorgegeben, sie ist frei oder teilstrukturiert (teilstrukturiert bedeutet, dass Teile der Lösung vorgegeben sind) Z.B. Ergänzungsaufgaben, Kurzaufsatz Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 31 31

32 (4) Atypische Aufgabenbeantwortung Umfasst Antwortformate, die sich den oben erwähnten Kategorien nicht zuordnen lassen Z.B. ZVT Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 32 32

33 (5) Probleme bei der Formulierung von Fragebogenitems Itempolung (Vorsicht bei negativ formulierten Items) Doppelte Verneinung Registrierung von Verhaltenshäufigkeiten (z.b. oft, selten, ) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 33 33

34 (6) Hilfen zur Aufgabenkonstruktion Begriffe mit mehreren Bedeutungen sollten vermieden werden Begriffe und Formulierungen vermeiden, die nur einem Teil der Zielgruppe (z.b. nur Akademikern) geläufig sind Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 34 34

35 (6) Hilfen zur Aufgabenkonstruktion Jedem Item nur einen sachlichen Inhalt / Gedanken zugrunde legen Keine doppelten Verneinungen verwenden, da diese die Verständlichkeit verringern und zu einer längeren Aufgabenbearbeitung führen können Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 35 35

36 (6) Hilfen zur Aufgabenkonstruktion Verallgemeinerungen vermeiden Umständliche Längen und telegraphische Kürzen vermeiden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 36 36

37 (6) Hilfen zur Aufgabenkonstruktion Wichtiges durch Fettdruck oder Unterstreichen oder Ähnlichem hervorheben Der Zeitpunkt bzw. die Zeitspanne, auf die Bezug genommen wird, sollte eindeutig definiert sein Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 37 37

38 (7) Erkennen eines Antwortbias Antwortbias bezeichnet einen systematischen Fehler im Prozess des Messens Ein systematischer Bias beeinflusst alle Messungen in der gleichen Weise, er hat einen verstärkenden oder mindernden Effekt In der Testtheorie wird ein Item als biasfrei bezeichnet, wenn die Erfolgswahrscheinlichkeit, das Item zu lösen, für alle Personen mit gleicher Fähigkeit und aus derselben Untergruppe (z.b. Geschlecht oder Alter) gleich ist Methoden zum Identifizieren eines Antwort- oder Itembias: für jedes Item werden die ICC-Kurven für zwei unterschiedliche Stichproben verglichen Vergleich der Rangreihen der Itemschwierigkeiten in zwei Stichproben Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 38 38

39 3.3 Skalenniveau Bei der empirischen Überprüfung von Theorien müssen Messmodelle abgeleitet werden, die Theorie und Empirie verknüpfen Ziel ist es,relationen zwischen Objekten (empirisches Relativ) möglichst exakt in Zahlen (numerisches Relativ) umzusetzen (homomorphe Abbildung) Welche Interpretationen später mit den Testergebnissen möglich sind, hängt von der Ebene (Skalenniveau) ab, auf der gemessen werden konnte Jedes Skalenniveau zeichnet sich durch bestimmte Eigenschaften aus Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 39 39

40 3.3 Skalenniveau Nominalskalenniveau Antwortformate, die lediglich eine Zuordnung in wertfreie Kategorien verlangen (ja-nein o.ä.) haben Nominalskalenniveau Die Anzahl der Kategorien ist dabei beliebig. Die daraus resultierenden Daten erlauben nur Aussagen über Gleichheit / Ungleichheit bzw. zwischen Anteilswerten (relative Häufigkeiten oder Prozentwerte) - Im Freiburger Persönlichkeitsinventar, revidierte Form (FPI-R, Fahrenberg, Hampel und Selg, 2002) werden Probanden beispielsweise Aussagen vorgegeben, die mit nein (0) oder ja (1) beantwortet werden müssen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 40 40

41 3.3 Skalenniveau Ordinalskalenniveau Daten, die vergleichende Aussagen ( größer / kleiner oder besser / schlechter und gleich / ungleich ) zulassen haben Ordinalskalenniveau (z.b. Schulnoten) Auf Ordinalskalenniveau macht es keinen Sinn, Differenzen zwischen Kategorien zu vergleichen - Der Leistungsunterschied zwischen den Schulnote 1" und 3" muss nicht dem Leistungsunterschied zwischen den Noten 4" und 6" entsprechen) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 41 41

42 3.3 Skalenniveau Intervallskalenniveau Daten, die Differenzbildung ( A - B = C - D ), Relationen ( größer / kleiner oder besser / schlechter ) und Aussagen über Unterschiede ( Gleichheit / Ungleichheit ) zulassen, haben Intervallskalenniveau Beispiel: Maßeinheiten wie Zentimeter oder Kilogramm - Der Unterschied zwischen 20 cm und 10 cm ist exakt der gleiche wie zwischen 90 cm und 80 cm, dieser ist in beiden Fällen genau 10 cm Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 42 42

43 3.4 Ermittlung der Itemrohwerte (1) Verteilungen: Maße der zentralen Tendenz und Dispersion (2) Erstellen eines Histogramms mit SPSS (3) Prüfung auf Normalverteilung mit SPSS (4) Beispiel für die Normalverteilungsprüfung mit SPSS (5) Schwierigkeitsanalyse (6) Ermitteln von deskriptiven Statistiken mit SPSS (7) Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 43 43

44 3.4 Ermittlung der Itemrohwerte Der Probandenrohwert ist der Wert eines Probanden bei der Beantwortung eines einzelnen Items Den über alle Probanden summierten oder gemittelten Probandrohwert nennt man Itemrohwert Mehrere Itemrohwerte können sinnvoll zu Skalen oder Untertestwerten zusammengefasst werden Bei Mehrfachwahlaufgaben kann ein Item auch durch Raten richtig gelöst worden sein, hier kann ein Itemrohwert mit Zufallskorrektur berechnet werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 44 44

45 (1) Verteilungen: Maße der zentralen Tendenz und Dispersion Eigenschaften der Normalverteilung: glockenförmiger Verlauf Symmetrie zwischen einer (zwei) Standardabweichung(en) links und rechts vom Mittelwert liegen 68 (95) Prozent der Probanden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 45 45

46 (1) Verteilungen: Maße der zentralen Tendenz und Dispersion Maße der zentralen Tendenz: - Mittelwert - Median - Modus/Modalwert Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 46 46

47 (1) Verteilungen: Maße der zentralen Tendenz und Dispersion Dispersionsmaße: - Varianz - Standardabweichung - Interquartilabstand - Spannweite Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 47 47

48 (1) Verteilungen: Maße der zentralen Tendenz und Dispersion - Schiefe - Exzess Schiefe und Exzess (Maß für die Schmal-oder Breitgipfligkeit einer Verteilung) sind wichtig um Verteilungsvoraussetzungen von Items zu prüfen, wenn sie weiteren statistischen Analysen unterzogen werden sollen (z.b. linearen Strukturgleichungsmodellen) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 48 48

49 (2) Erstellen eines Histogramms mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 49 49

50 (3) Prüfung auf Normalverteilung mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 50 50

51 (4) Beispiel für die Normalverteilungsprüfung mit SPSS - Nullhypothese: Normalverteilung liegt vor - Die asymptotische (= näherungsweise bestimmte) Signifikanz (α) liegt aber im Beispiel in allen Fällen deutlich unter.05 - Die asymptotische (näherungsweise bestimmte) Prüfgröße ist z- verteilt, das heißt, ein Wert z > 1.96 bedeutet, dass eine signifikante Abweichung von der Normalverteilung vorliegt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 51 51

52 (5) Schwierigkeitsanalyse Bei Ratingskalen wird fast immer der Mittelwert als Schwierigkeitsindex herangezogen, da bei Ratingskalen in der Regel Intervalldatenniveau unterstellt wird In diesem Abschnitt werden daher die folgenden Schwierigkeitsindizes für Nominaldatenniveau behandelt: Schwierigkeitsindex ohne Korrektur Schwierigkeitsindex mit Zufallskorrektur Schwierigkeitsindex mit Inangriffnahmekorrektur Schwierigkeitsindex mit Zufallskorrektur und Inangriffnahmekorrektur Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 52 52

53 (5) Schwierigkeitsanalyse Schwierigkeitsindex ohne Korrektur Einsatz beispielsweise bei Persönlichkeitstests, bei denen Raten eine untergeordnete Rolle spielt Ein hoher Prozentwert steht für eine leichte Aufgabe, ein geringer Prozentwert dagegen für eine schwere Aufgabe Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 53 53

54 (5) Schwierigkeitsanalyse Schwierigkeitsindex mit Zufallskorrektur Einsatz vorwiegend bei Leistungstests, bei denen es eine richtige Lösung gibt oder bei Fragebögen, bei denen zufällige Itembeantwortung eine Rolle spielt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 54 54

55 (5) Schwierigkeitsanalyse Schwierigkeitsindex mit Inangriffnahmekorrektur Einsatz beispielsweise bei Intelligenztests oder bei zeitbegrenzten Niveautests, bei denen nicht alle Aufgaben von allen Probanden gelöst werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 55 55

56 (5) Schwierigkeitsanalyse Schwierigkeitsindex mit Zufallskorrektur und Inangriffnahmekorrektur Bei dieser Methode wird sowohl berücksichtigt, dass Probanden geraten haben könnten, als auch die Tatsache, dass manche Probanden Items aufgrund von Zeitmangel nicht bearbeitet haben bzw. die Itembearbeitung begonnen, aber nicht fertiggestellt haben Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 56 56

57 (5) Schwierigkeitsanalyse Beziehung des Schwierigkeitsindex zu anderen Werten Mittlere P-Werte (Schwierigkeiten) bei dichotomen Items erhöhen die Wahrscheinlichkeit für hohe Streuungen der Itembeantwortung und damit eine hohe Differenzierung zwischen den Probanden (=Voraussetzung für hohe Korrelationen) Extreme Schwierigkeiten ermöglichen eine Differenzierung in Randbereichen, führen aber meist zu reduzierter Homogenität und zu reduzierten Trennschärfen Die Standardabweichung einer Aufgabe mit dichotomen Itemformat rechnerisch vom Schwierigkeitsindex ab: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 57 57

58 (6) Ermitteln von deskriptiven Statistiken mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 58 58

59 (7) Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS Beispiel für ein Item, bei dem die Breite der Antwortkategorien nicht ausgenutzt wurde, d.h. Antwortalternative 0 wurde von keinem Probanden gewählt M =2,65 SD = ,0 1,0 2,0 3,0 4,0 N12 nicht besonder fröhlich" Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 59 59

60 (7) Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS Beispiel für ein Item, das besonders stark streut, d.h die Probanden unterscheiden sich in der Beantwortung dieser Items sehr M =1,83 SD =1, ,0 1,0 2,0 3,0 4,0 N22 gern im Mittelpunkt stehen" Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 60 60

61 (7) Beispiel für die Durchführung einer Schwierigkeitsanalyse mit SPSS Beispiel für ein Item, das extrem schief verteilt ist M =3,13 SD = ,0 1,0 2,0 3,0 4,0 N17 gerne mit anderen unterhalten" Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 61 61

62 3.5 Trennschärfenanalyse (1) Berechnung von Trennschärfen (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit (3) Fremdtrennschärfen (4) Berechnung von Trennschärfen mit SPSS (5) Beispiel einer Trennschärfenanalyse Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 62 62

63 3.5 Trennschärfenanalyse Eine Trennschärfe stellt die korrigierte Korrelation (Part-whole- Korrektur) einer Aufgabe mit einer Skala dar Inhaltlich drückt eine Trennschärfe aus, wie gut ein Item eine Skala, die aus den restlichen Items gebildet wird, widerspiegelt Eigentrennschärfe: Korrelation Item mit Skala; Skala und Item messen das gleiche Kriterium Fremdtrennschärfe: Korrelation Item mit Skalen oder Testwerten andere Fragebögen oder Kriterien Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 63 63

64 3.5 Trennschärfenanalyse Part-whole-Korrektur: Ohne part-whole-korrektur kommt es zu einer Überschätzung der Trennschärfe, da das betreffende Item selbst Bestandteil der Skala ist Ohne part-whole-korrektur ginge ein Teil der Skalenstreuung auf das entsprechende Item zurück, mit dem die Skala korreliert wird Je größer die Itemanzahl einer Skala ist, desto geringer sind die Auswirkungen der Korrektur auf die Trennschärfe, denn mit zunehmender Itemzahl wird der Beitrag eines einzelnen Items relativ zum Gesamtskalenwert geringer Je homogener eine Skala ist, desto weniger ändern sich die Trennschärfen durch eine part-whole- Korrektur Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 64 64

65 (1) Berechnung von Trennschärfen Produkt-Moment-Korrelation als Trennschärfe: Folgende Formel wird zur Berechnung der part-wholekorrigierten Trennschärfe zwischen einem intervallskalierten Item ( Ich bin ein offener Mensch trifft zu trifft nicht zu) und einer intervallskalierten Skala ( Extraversion ) herangezogen: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 65 65

66 (1) Berechnung von Trennschärfen Punktbiseriale-Korrelation als Trennschärfe: Grundlage bildet auch hier die Produkt-Moment-Korrelation, wobei ein dichotomes Item (z.b. Beispiel Ich gehe gerne aus Ja-Nein) mit einer in der Regel intervallskalierten Skala (z.b. Extraversion ) korreliert wird Die entsprechende part-whole-korrigierte Formel lautet: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 66 66

67 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Zusammenhang zwischen Schwierigkeit und Trennschärfe Items mit mittlerer Schwierigkeit differenzieren am besten zwischen Probanden, die ein Item lösen ( Löser ), und Probanden, die ein Item nicht lösen ( Nicht-Löser ) Bei dichotomen Items ist die Itemstreuung rechnerisch vollkommen durch die Itemschwierigkeit determiniert Reichen die Itemschwierigkeiten bei intervallskalierten Items an den Rand der Antwortskala, spricht man von Boden- oder Deckeneffekten Beide Effekte haben zur Folge, dass zwischen Individuen mit verschiedenen Merkmalsausprägungen nicht mehr ausreichend differenziert werden kann Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 67 67

68 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Beispiel Zusammenhang zwischen Schwierigkeit und Trennschärfe bei dichtomem Item: Item mit mittlerer Schwierigkeit (50 Löser und 50 Nichtlöser ) ermöglicht 50 x 50 = Unterscheidungen zwischen den Probanden Item mit hoher Schwierigkeit (20 Löser und 80 Nichtlöser ) ermöglicht nur 20 x 80 = Unterscheidungen zwischen den Probanden Item mit extrem niedriger Schwierigkeit (95 Löser und 5 Nichtlöser ) ermöglicht lediglich 95 x 5 = 475 Unterscheidungen zwischen den Probanden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 68 68

69 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Beispiel Unterschiedliche Trennschärfen bei gleicher Itemschwierigkeit: Bildung von zwei Gruppen von Probanden: Eine Gruppe, die das mittelschwere Intelligenztestitems gelöst hat und eine Gruppe, die es nicht gelöst hat Eine sehr gute Trennschärfe liegt vor, wenn jeder Proband aus der Gruppe der Löser einen Testwert (z.b. IQ ) über 100 und jeder Proband aus der Gruppe der Nicht-Löser einen Testwert ( IQ ) unter 100 aufweist Eine geringe Trennschärfe liegt vor, wenn in der Gruppe der Probanden mit einem IQ von über 100 geringfügig mehr Probanden das entsprechende Item gelöst oder nicht gelöst haben und dies auch für die Gruppe der Probanden mit einem IQ von unter 100 zutrifft 69 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 69

70 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Kombination unterschiedlicher Itemschwierigkeiten mit unterschiedlichen Trennschärfen: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 70 70

71 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Je steiler der Anstieg der Item Characteristic Curves (ICC), desto größer ist die Trennschärfe Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 71 71

72 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Item A ist ideal trennscharf (p =.50, rit. 1). Nur mit diesem Item alleine ließe sich entscheiden, ob ein Proband beispielsweise unter- oder überdurchschnittlich intelligent ist Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 72 72

73 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Mit Aufgabe I (p =.20, rit. 1) ließe sich entscheiden, ob ein Proband zu den etwa 20 Prozent intelligentesten Probanden (IQ. 113) gehört oder nicht Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 73 73

74 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Item B (p =.50, rit = 0) dagegen ist vollkommen nutzlos, da es Intelligente von Nicht-Intelligenten nicht unterscheidet, obwohl es aufgrund seiner mittleren Schwierigkeit eigentlich gute Voraussetzungen besitzt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 74 74

75 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Item C wird von keinem Probanden mit einem IQ unter 85 und von allen Probanden mit einem IQ über 115 richtig beantwortet (erkennbar durch das Auftreffen der ICC auf die X1-Achse bzw. X2-Achse), es hat also eine hohe Trennschärfe Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 75 75

76 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Das Item D (p =.50, rit..30) stellt den weitaus häufigsten Fall eines Items mit mittlerer Trennschärfe bei gleichzeitig geringer bis mittlerer Itemschwierigkeit dar Mit Items dieser Art kann man eine Differenzierung entlang der gesamten Testskala erreichen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 76 76

77 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Im Gegensatz zu allen bisherigen Items, wird Item E von den weniger intelligenten Probanden etwas häufiger gelöst als von den intelligenten; es hat folglich eine geringe und negative Trennschärfe Solche Items sind ebenso wie Item B für die Testkonstruktion unbrauchbar Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 77 77

78 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Die Items F und H differenzieren gut, aber nur in extremen Schwierigkeitsbereichen (IQ. 87 und 113) Die Items C, F und H haben zwar die gleiche Trennschärfe (gleicher Anstieg der ICC), aber unterschiedliche Schwierigkeit Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 78 78

79 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Die Items A, B, C, D und E haben die gleiche Schwierigkeit (ICC ś schneiden sich bei IQ = 100), aber unterschiedliche Trennschärfen (unterschiedlicher Anstieg der ICĆs) Item G hat eine mittlere Trennschärfe (flacher Anstieg der ICC) bei einer Schwierigkeit von p =.20 (p wie bei Item I) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 79 79

80 (2) Inhaltliche Erläuterungen zu Trennschärfe und Schwierigkeit Insgesamt differenzieren Tests mit homogen mittelschweren Items am besten bei mittleren Merkmalsausprägungen Da bei mittlerer Itemschwierigkeit die Wahrscheinlichkeit für hohe Trennschärfen ansteigt, ist für solche Skalen auch eine höhere Reliabilität zu erwarten Um auch in Randbereichen eines Merkmalsbereichs zu differenzieren, muss die Skala auch extremere Schwierigkeitsbereiche mit Items abdecken Meist erreichen Items mit extremen Schwierigkeiten geringere Trennschärfen als mittelschwere Items. Dies reduziert die Itemhomogenität und daher sind für solche Skalen nicht ganz so hohe Reliabilitäten wie für Skalen mit ausschließlich mittelschweren Items zu erwarten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 80 80

81 (3) Fremdtrennschärfen Von Fremdtrennschärfen wird gesprochen, wenn eine Korrelation zwischen einem Item und einem Kriteriumswert erhoben wird Es werden nur die Items ausgewählt, die hoch mit dem Kriterium korrelieren, die restlichen Items werden ausgesondert Fremdtrennschärfen maximieren damit die Kriteriums-Validität eines Tests, während Eigentrennschärfen die Homogenität eines Tests maximieren Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 81 81

82 (3) Fremdtrennschärfen Beispiel: Itemauswahl durch Analyse der Fremdtrennschärfe Mit einem Eignungstest wurden Bewerber für eine betriebliche Ausbildung ausgewählt und dann wurde zwei Jahre später die Leistung im Abschlusstest (erzielte Punkte) gemessen Die Abbildung zeigt die Korrelation der einzelnen Testitems im Eingangstest mit der Gesamtpunktzahl im Abschlusstest (= Kriterium für Ausbildungserfolg) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 82 82

83 (3) Fremdtrennschärfen Insbesondere die Items 18 und 19 sind besonders gut geeignet, die Leistung im Abschlusstest vorherzusagen, da sie hoch mit den Punkten im Abschlusstest korrelieren Lediglich auf Item 3 würde man wahrscheinlich verzichten, da es eine extrem geringe Fremdtrennschärfe aufweist Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 83 83

84 (4) Berechnung von Trennschärfen mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 84 84

85 (5) Beispiel einer Trennschärfeanalyse Führt man eine Trennschärfeanalyse wie oben beschrieben durch, erhält man die folgende SPSS-Ausgabe Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 85 85

86 (5) Beispiel einer Trennschärfeanalyse Die Itemschwierigkeit variiert von 1.68 bis 3.13 Es werden etwa 29 Prozent (Range: = 1.44) der theoretisch möglichen Breite der 5-stufigen Antwortskala ausgeschöpft, dabei zu einem größeren Anteil die rechte Skalenhälfte (Zustimmung) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 86 86

87 (5) Beispiel einer Trennschärfeanalyse Die Itemstreuungen bewegen sich in einem Bereich von.82 bis 1.08 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 87 87

88 (5) Beispiel einer Trennschärfeanalyse Item N47 weist eine sehr geringe Trennschärfe ( Corrected item total correlation ) auf Diese geringe Trennschärfe wirkt sich auch auf die Messgenauigkeit der Skala ( Alpha ) negativ aus: Das Cronbachalpha steigt an, wenn man das Item nicht in die Itemanalyse aufnehmen würde ( alpha if item deleted ) 88 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 88

89 (5) Beispiel einer Trennschärfeanalyse Allerdings sollten die Itemtrennschärfen immer im Zusammenhang mit der Itemschwierigkeit betrachtet werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 89 89

90 (5) Beispiel einer Trennschärfeanalyse Bei den Items N47, N7 und N17 handelt es sich um Items mit extremer Schwierigkeit, da sie an den Endpunkten der Schwierigkeitsverteilung liegen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 90 90

91 (5) Beispiel einer Trennschärfeanalyse N37, N52 und N12 sind mindestens genauso weit oder weiter als das Item N47 von der Skalenmitte (bezüglich der Schwierigkeit der Items) entfernt und weisen somit einen mindestens vergleichbaren Schwierigkeitsgrad bei höherer Trennschärfe auf 91 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 91

92 (5) Beispiel einer Trennschärfeanalyse das Item N47 ist als einziges Item linkssteil verteilt, während die Items N37, N52 und N12 rechtssteil verteilt sind (ähnlich wie die anderen Items der Skala) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 92 92

93 (5) Beispiel einer Trennschärfeanalyse Die andersartige Verteilung oder die geringe Itemschwierigkeit des Items N47 können ein Grund für seine geringe Trennschärfe sein Auch für Items mit extremen Schwierigkeiten sind relativ hohe Trennschärfen möglich, wie die Trennschärfe des Items N17 zeigt 93 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 93

94 (5) Beispiel einer Trennschärfeanalyse Auch eine Betrachtung der Itemstreuung im Zusammenhang mit der Itemschwierigkeit ist sinnvoll Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 94 94

95 (5) Beispiel einer Trennschärfeanalyse Mittelschwere Items weisen in der Regel die höchsten Streuungen auf Bei extremen Schwierigkeiten (geringe oder hohe) nimmt dagegen die Wahrscheinlichkeit für eine hohe Streuungen ab Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 95 95

96 (5) Beispiel einer Trennschärfeanalyse Items, deren Itemschwierigkeit unter der Skalenmitte liegen, kommen in diesem Beispiel fast nicht vor Für solche Items ist die Wahrscheinlichkeit hoch, dass die Itemstreuungen umso geringer ausfallen, je weiter die Itemschwierigkeit nach rechts von der Mittelkategorie abweicht 96 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 96

97 (5) Beispiel einer Trennschärfeanalyse Im Folgenden wird der Zusammenhang zwischen Streuung und Trennschärfe betrachtet Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 97 97

98 (5) Beispiel einer Trennschärfeanalyse Es lässt sich im Beispiel kein positiver Zusammenhang zwischen Streuung und Trennschärfe finden (je höher die Streuung, desto höher die Trennschärfe: Im Idealfall liegen die Punkte auf einer Geraden von links unten nach rechts oben) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 98 98

99 (5) Beispiel einer Trennschärfeanalyse Items mit einer hohen Streuung korrelieren mit höherer Wahrscheinlichkeit mit den anderen Items oder Kriterien als Items, in denen sich Probanden mit geringer Streuung Dies trifft nur dann zu, wenn es sich um systematische und nicht um zufällige (durch Messfehler bedingte) Streuungen handelt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 99 99

100 (5) Beispiel einer Trennschärfeanalyse Die Streuung des Items N47 fällt im Vergleich zu anderen höher aus, jedoch die Trennschärfe ist gering Das heißt, dass sich die Antworten der Probanden auf Item N47 zwar stark unterscheiden, diese Unterscheidungen fallen aber nur in einem geringen Maße im Sinne der Erwartung aus 100 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 100

101 (5) Beispiel einer Trennschärfeanalyse Die Streuung des Items N17 im Vergleich zu den anderen Items ist geringer, aber die Trennschärfe dennoch hoch Das heißt, dass sich die Antworten der Probanden auf Item N17 nicht stark unterscheiden, diese Unterscheidungen aber im Sinne der Erwartung ausfallen 101 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 101

102 (5) Beispiel einer Trennschärfeanalyse Item N2 weist im Vergleich zu den anderen Items eine relativ hohe Streuung und eine hohe Trennschärfe auf Je höher die Ausprägungen der Probanden auf Item N2 sind, desto höher fallen auch die Ausprägungen auf den restlichen Items der Skala aus Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner,

103 (5) Beispiel einer Trennschärfeanalyse Eine weitere nützliche Betrachtungsweise der Items besteht darin, auf Itemstufen eines Items die Mittelwerte der restlichen Items einer Skala abzubilden Beispiel:Die Probanden, die auf dem Item N47 eine geringe Ausprägung aufweisen, sollten auch auf allen anderen Items der Skala Extraversion eine niedrige Ausprägung aufweisen Das heißt, betrachtet man die Probanden, die Item N47 mit starker Ablehnung beantwortet haben, sollten diese einen niedrigeren Skalenwert Extraversion aufweisen als Probanden, die Item N47 mit Ablehnung beantwortet haben Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner,

104 (5) Beispiel einer Trennschärfeanalyse Dazu erstellt man einen Boxplot, das die Summenwerte (ohne Item 47) der Skala Extraversion auf den Itemabstufungen des Items 47 abbildet Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner,

105 (5) Beispiel einer Trennschärfeanalyse Mit zunehmender Ausprägung auf dem jeweiligen Item steigt die Ausprägung auf den restlichen Items nicht an Genau diese Annahme müsste man aber treffen, wenn ein Item hoch mit der Skala korreliert 105 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 105

106 (5) Beispiel einer Trennschärfeanalyse Dieses Beispiel zeigt den gleichen Boxplot für ein trennscharfes Item Es lässt sich erkennen, dass mit zunehmender Itemausprägung auch die Ausprägung auf der Skala Extraversion ansteigt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner,