Reliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

Transkript

1 Reliabilität Kapitel 4 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

2 Reliabilität Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte an Beispiel: nimmt man eine Reliabilität von r tt =.50, dann bestimmen die systematische Varianz (50 Prozent) und der Messfehler (50 Prozent) den Testwert zu gleichen Anteilen Ein solcher Test besitzt folglich eine unbefriedigende Reliabilität oder Messgenauigkeit Ein solcher Test besitzt folglich eine unbefriedigende Reliabilität oder Messgenauigkeit Die Reliabilität begrenzt auch die Höhe, in der Tests miteinander korrelieren können Schließlich wird die Reliabilität auch noch zur Beurteilung von Testergebnissen einzelner Personen herangezogen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 2

3 Reliabilität Wichtig für die Interpretation der Reliabilität ist die Äquivalenz (Gleichwertigkeit) von Messungen Messungen variieren bezüglich des Mittelwertes, der Standardabweichung und der Reliabilität Man unterscheidet folgende Arten der Äquivalenz von Messungen: (1) streng parallel (2) im Wesentlichen parallel (3) tau-äquivalent (4) im Wesentlichen tau-äquivalent (5) kongenerisch Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 3

4 Reliabilität Parallele Messungen: (1) T = T und σ² (E) = σ²(e) (streng parallel) (2) T = T+y und σ² (E) = σ²(e) (im Wesentlichen parallel) Bei parallelen Messungen gilt, dass für jede Person wahrer Wert T und Messfehler (Fehlervarianz σ² (E) ) in beiden Messungen gleich sind Das heißt, eine Person erzielt in Test A den gleichen wahren Wert wie in Test B und die Messfehler (Reliabilität) beider Tests ist gleich Nur unter diesen Bedingungen ist die Korrelation von zwei Messungen eine Schätzung der Reliabilität Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 4

5 Reliabilität Tau-äquivalente Messungen: (1) T = T (tau-äquivalent) (2) T = T+y (im Wesentlichen tau-äquivalent) Bei tau-äquivalenten Messungen gilt, dass für jede Person der wahre Wert in beiden Messungen gleich ist Allerdings besitzen die Messungen eine unterschiedliche Messgenauigkeit, denn der Messfehler (Fehlervarianz) kann variieren Dies bedeutet, dass die Reliabilität und die Validität der Tests, Testteile oder Items verschieden sein können Allerdings sollten die minderungs-korrigierten Korrelationen (Korrelationen der Kennwerte, wenn man beide Kennwerte perfekt messen könnte r tt = 1) der beiden Tests, Testteile oder Items mit Außenkriterien bzw. anderen Tests gleich sein Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 5

6 Reliabilität Kongenerische Messungen: (1) T = βt+y (kongenerisch) Kongenerische Messungen bilden, abgesehen von einer additiven Konstanten und einer um die multiplikative Konstante β unterschiedlichen Maßeinheit, dieselbe Fähigkeit ab In der Anwendung bedeutet das, dass Tests, Testteile oder Items unterschiedliche Maßeinheiten, Mittelwerte, und Fehlervarianzen aufweisen dürfen, aber die wahren Werte perfekt miteinander korrelieren Items sind kongenerisch, wenn sie eindimensional sind (ein Merkmal, Eigenschaft oder Fähigkeit wird erfasst) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 6

7 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Bei der Reliabilitätsbestimmung werden mehrere Methoden unterschieden Die meisten Methoden beruhen statistisch gesehen auf Korrelationen zwischen (1) einem Tests mit unterschiedlichen Retest-Intervallen (2) zwei parallelen Tests, die direkt hintereinander folgen (3) Tests, die aus zwei oder mehreren Testteilen bestehen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 7

8 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Innere (oder interne) Konsistenz (Testhalbierungsmethoden) Testhalbierung Es handelt sich um eine einmalige Durchführung eines Tests an einer Stichprobe Die Bearbeitung der auf zwei oder mehrere Testteile aufgeteilten Items erfolgt direkt aufeinander Die Testhalbierungskoeffizienten sind Konsistenzkoeffizienten mit nur zwei Testhälften Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 8

9 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Berechnung : Zuerst wird die Korrelation der Rohwertpaare beider Testhälften ermittelt Danach wird diese Korrelation mit Hilfe einer Korrekturformel aufgewertet Es gibt die folgenden Aufteilungstechniken der Items in zwei Testhälften: (1) Odd-Even (2) Zufällige Aufteilung (3) Itemzwillinge (4) Aufteilung der Aufgaben nach Testzeit Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 9

10 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Odd-Even : Items mit gerader Reihungsnummer werden in die eine Testhälfte, diejenigen mit ungerader Reihungsnummer in die andere Testhälfte aufgenommen Zufällige Aufteilung: Items werden zufällig zwei Testhälften zugewiesen Itemzwillinge: Es können Aufgabenpaare mit je zwei Aufgaben ähnlicher Schwierigkeit und Trennschärfe gebildet werden Aufteilung der Aufgaben nach Testzeit: bei Halbierung von (Speed-) Schnelligkeitstests ist eine Aufteilung der Aufgaben nach Testzeit sinnvoll Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 10

11 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Anwendung : Die Testhalbierungsmethode wird häufig bei Schnelligkeitstests angewandt Dabei wird als Rohwert die Testzeit verwendet oder innerhalb einer begrenzten Zeitspanne die Anzahl der Richtigen oder die Anzahl der bearbeiteten Zeichen (vgl. Test d2, Brickenkamp 2002) Sie deshalb so beliebt, weil durch die Aufteilung bedingt, sich Übungs- oder Ermüdungseffekte gleichmäßig auf die Testteile verteilen (vgl. Stelzl und Tent, 1993) Sie führt jedoch trivialerweise zu einer hohen Reliabilität (vorausgesetzt es unterlaufen den Probanden kaum Fehler) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 11

12 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Innere (oder interne) Konsistenz : Der Test wird einmalig einer Stichprobe dargeboten Es erfolgt eine Überprüfung des inneren Zusammenhangs der Items (Aufgaben) Der Test wird in so viele Untertests zerlegt wie er Items oder Aufgaben besitzt Der Test kann aber auch in beliebig viele äquivalente Teile (inhaltlich gleiche Items werden zusammengefasst) zerlegt werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 12

13 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Berechnung : Die Berechnung erfolgt auf Basis von Itemstreuungen, Korrelationen oder Kovarianzen Anwendung : Konsistenzanalysen können immer dann sinnvoll eingesetzt werden, wenn homogene Merkmalsbereiche erfasst werden sollen, wie beispielsweise durch Niveau- oder Persönlichkeitstests Bei Tests, die heterogene Aufgaben enthalten, ist die Konsistenzanalyse nicht sinnvoll Ziel eines solchen Tests kann es zum Beispiel sein mit möglichst heterogenen und vielfältigen Aufgaben eine Aussage über ein bestimmtes Kriterium zu treffen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 13

14 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Retestmethode Bei der Retestmethode handelt es sich um die wiederholte Darbietung ein und desselben Tests an ein und derselben Stichprobe in einem angemessenen Zeitabstand Es ist zu beachten, dass sich der gewählte Zeitabstand auf die Höhe des Korrelationskoeffizienten auswirken kann, beispielsweise durch Übungs- und Lerneffekte oder durch zwischenzeitlich auftretende Ereignisse (Medikamente, Krankheiten) In der Regel fällt die Retestreliabilität geringer aus, je weiter zwei Testungen auseinander liegen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 14

15 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Berechnung : Die Berechnung erfolgt durch die Korrelation der Rohwertpaare zwischen der ersten Testung und der Testwiederholung Anwendung : Diese Methode wird häufig bei (Speed-) Schnelligkeitstests durchgeführt, da hier die innere Konsistenz meist hoch ist Generell ist die Retestmethode bei allen Tests sinnvoll verwendbar, die von Lern- oder Übungseinflüssen unabhängig sind Lern- und Übungseffekte können zu einer Erhöhung oder Erniedrigung der Retestreliabilität führen Bei der Durchführung der Retestmethode ist zu beachten, dass die Durchführungsbedingungen zu beiden Testzeitpunkten möglichst gleich sein sollten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 15

16 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Paralleltestmethode Es werden zwei Parallelformen eines Tests ein und derselben Stichprobe vorgegeben Es muss natürlich möglich sein, zwei Parallelformen herzustellen Dies ist bei Aufgaben mit einmaligem Charakter oft schwierig Da das Zeitintervall zwischen erster und zweiter Testung kurz ist, ähnelt die Paralleltestmethode der Testhalbierungsmethode Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 16

17 4.1 Einsatz und Bewertung der Methoden zur Reliabilitätsbestimmung Berechnung : Die Korrelation der Rohwertepaare aus beiden Testformen wird ermittelt. Alternativ können unverzerrte Maximum-Likelihood- Schätzungen der Reliabilität berechnet werden Anwendung : Man wendet die Paralleltestmethode bei Niveautests (Powertests) und (Speed-) Schnelligkeitstests an Allerdings muss auch bei parallelen Tests mit Übungs- bzw. Transfereffekten (Test A führt nach Durchführung zu besseren Leistungen in Test B als wenn Test A nicht durchgeführt worden wäre und umgekehrt) gerechnet werden Um diese Effekte zu kontrollieren, verwendet man ein cross over design, d.h., die Testabfolge wird variiert Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 17

18 4.2 Formeln zur Schätzung der Reliabilität (1) Formeln zur Berechnung von Testhalbierungskoeffizienten (2) Formeln zur Berechnung von Konsistenzkoeffizienten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 18

19 (1) Formeln zur Berechnung von Testhalbierungskoeffizienten Sperman-Brown-Formel: Testhalbierung bedeutet, dass man aus den vorliegenden Testitems zwei oder mehrere Testteile bildet Wenn in beiden Testhälften die Itemzahl gleich ist und es sich um parallele Tests handelt, verwendet man die unten aufgeführte Spearman-Brown-Formel zur Berechnung der (Testhalbierungs-) Reliabilität eines Tests Diese Methode wird in der Praxis häufig eingesetzt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 19

20 (1) Formeln zur Berechnung von Testhalbierungskoeffizienten Flanagan & Guttman: Wenn sich in beiden Testhälften die Streuungen unterscheiden, verwendet man die Formel von Flanagan (in Rulon, 1930) Bis auf Rundungsfehler ergeben die Formeln von Flanagan und Guttman ähnliche Ergebnisse Die Formel von Guttman (1945) stellt einen Spezialfall des α- Koeffizienten von Cronbach für zwei Testteile dar Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 20

21 (1) Formeln zur Berechnung von Testhalbierungskoeffizienten Formel von Kristof: Die oben angegebenen Formeln unterschätzen die Reliabilität bei kleinen Stichprobengrößen Hier sollte für eine erwartungstreue Schätzung der Reliabilität die Formel von Kristof (1963) angewandt werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 21

22 (1) Formeln zur Berechnung von Testhalbierungskoeffizienten Formel von Feldt: Wird ein Test aus irgendwelchen Gründen in mehrere ungleich große Testteile aufgeteilt, führt dies bei den oben genannten Formeln zu einer Unterschätzung der Reliabilität Auch wenn die Korrektureffekte nur gering sind, sollten in einem solchen Fall die folgenden Formeln angewandt werden: Horst (1951), Feldt (1975) und Raju (1977) Die Formel von Feldt soll hier exemplarisch dargestellt werden: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 22

23 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Werden die Testteile in so viele Teile wie Items zerlegt, verwendet man Konsistenzkoeffizienten Es gibt mehrere Formeln zur Schätzung von Konsistenzkoeffizienten Hier sollen nur die wichtigsten dargestellt werden: (1) Cronbach-alpha (2) Guttmańs Lambda 3 (λ 3 ) Dabei ist zu beachten, dass die Items zumindest essentiell, das heißt im wesentlichen τ-äquivalent sein müssen Ist diese Voraussetzung nicht erfüllt, stellen Cronbach-alpha und Guttmańs Lambda 3 eine untere Grenze der Reliabilität dar Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 23

24 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Cronbach-alpha-Koeffizient Der Cronbach-alpha-Koeffizient stellt heute die Standardmethode zur Schätzung der inneren Konsistenz dar Cronbach-alpha liefert dann eine genaue Schätzung der Reliabilität, wenn es sich bei allen Items um im Wesentlichen oder essenziell tau-äquivalente Messungen handelt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 24

25 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Bei Cronbach-alpha ist zu beachten, dass die Höhe des Koeffizienten vom Verhältnis der Summe der einzelnen Itemvarianzen (S j ²) zur Gesamtvarianz (S x ²) des Tests abhängt Wenn Anzahl der Testteile = Anzahl der Items: Der Cronbach-alpha-Koeffizient ist insgesamt niedrig, wenn die Itemvarianzen hoch und die Testvarianz gering ist Sind dagegen die Itemvarianzen im Vergleich zur Testvarianz niedrig, resultiert daraus ein hohes Cronbach-alpha Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 25

26 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Der Cronbach-alpha-Koeffizient fällt mit größerer Itemanzahl höher aus Dies gilt aber nur für Items, die positiv mit den anderen Items korrelieren Items, die mit anderen Items negativ korrelieren, reduzieren das Cronbach-alpha Der Cronbach-alpha-Koeffizient gibt also in Abhängigkeit von der Itemanzahl die Höhe der mittleren Itemzusammenhänge an Bei unterschiedlichen Itemtrennschärfen oder unterschiedlich hohen Faktorladungen stellt Cronbach-alpha eine Mindestschätzung der Reliabilität dar Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 26

27 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Für die wenigen Fälle, in denen das Cronbach-alpha negativ ausfällt, können folgende Gründe verantwortlich sein: (1) Codierung von negativ gepolten Items sind mit positiv gepolten Items vermengt oder einzelne Items weisen hohe negative Trennschärfen auf (2) Die Items sind nicht eindimensional (3) Geringe Probandenzahlen produzieren hohe Stichprobenfehler (4) Ausreißerwerte oder Inkonsistenzen in der Beantwortung führen zu negativen Kovarianzen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 27

28 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Interpretation des Cronbach-alpha-Koeffizienten: Der Cronbach-alpha-Koeffizient ist kein Homogenitätsindex, sondern lediglich ein kombinierter Index, der die mittleren Itembeziehungen und gleichzeitig die Itemanzahl berücksichtigt Ein Homogenitätsmaß (= in welchem Ausmaß, die Items das Gleiche messen) stellt im Gegensatz zu Cronbach-alpha die Höhe der mittleren Interitemkorrelation (MIC) aller Skalenitems dar Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 28

29 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Es ist auf jeden Fall zu empfehlen, neben dem Cronbach-alpha auch die mittlere Iteminterkorrelation und die Präzision von alpha zu betrachten Fällt die mittlere Interitemkorrelation angemessen hoch aus und ist der Präzision von alpha niedrig, ist dies ein Hinweis (und nur das) auf Eindimensionalität Cronbach-alpha ist erst dann unbedenklich zu interpretieren, wenn die Items einen Faktor mit ähnlich hohen Faktorladungen (in der Itemanalyse Trennschärfen) bilden und keine korrelierten Fehlervarianzen auftreten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 29

30 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Guttmańs Lambda 3 (λ 3 ) : Es kann auch vorkommen, dass negative Itemkovarianzen auftreten In diesem Fall wird Lambda 3 von Guttman berechnet Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 30

31 (2) Formeln zur Berechnung von Konsistenzkoeffizienten Negative Itemkovarianzen treten beispielsweise bei unterschiedlich gepolten Items auf Nach Kristof (1983) ist Lambda3 vor allem aus diesem Grund eine bessere oder zumindest gleichwertige Schätzung der Reliabilität als Cronbach-alpha Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 31

32 4.3 Minderungskorrekturen Die Rolle der Reliabilität bei Korrelationen Ermittelt man die Korrelation zwischen zwei Testkennwerten, die in zwei unterschiedlichen, gleich großen Stichproben bestimmt wurden, kann es sein, dass man unterschiedlich hohe Korrelationen zwischen den Testkennwerten in beiden Stichproben findet Die Unterschiede könnten auf die unterschiedliche Reliabilität der Tests in den verschiedenen Stichproben zurückzuführen sein Unterscheidet sich die Reliabilität der Testkennwerte innerhalb der Stichproben, sind die Korrelationen zwischen den Stichproben nicht vergleichbar Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 32

33 4.3 Minderungskorrekturen Erst wenn man die Korrelation in beiden Stichproben anhand der Reliabilität aufgewertet hat, sind die Korrelationen direkt vergleichbar Dazu verwendet man z. B. die doppelte oder einfache Minderungskorrektur Dazu müssen aber folgende wichtige Voraussetzungen gelten: Die Skala (= Summen- oder Mittelwert mehrerer Items) muss eindimensional und die Voraussetzungen für den jeweiligen Reliabilitätskoeffizienten müssen erfüllt sein Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 33

34 4.3 Minderungskorrekturen Eine Minderungskorrektur ist nicht nur sinnvoll, wenn zwei Stichproben vorliegen, sondern auch, wenn nur eine Stichprobe vorliegt und man die Korrelation der wahren Werte ermitteln will Die einfache Minderungskorrektur wird angewendet, wenn nur die Reliabilität eines Wertes bekannt ist Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 34

35 4.3 Minderungskorrekturen Beispiel: Nehmen wir an, wir haben eine Korrelation zwischen einem Schulleistungstest und einem Intelligenztest Die Korrelation beträgt in der Gruppe der Hauptschüler r =.20 (N = 150) und in der Gruppe der Gymnasiasten r =.40 (N = 150) Die Reliabilität des Schulleistungstests und des Intelligenztests betrage in der Stichprobe der Hauptschüler r tt =.70 und r tt =.50, und in der Gruppe der Gymnasiasten r tt =.95 und r tt =.85 In diesem Beispiel muss die doppelte Minderungskorrektur angewendet werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 35

36 4.3 Minderungskorrekturen Damit lauten die doppelt minderungskorrigierten Korrelationen in der Stichprobe der Hauptschüler r =.34 und der Gymnasiasten r =. 45 Diese minderungskorrigierten Korrelationen unterscheiden weniger stark als die nicht minderungskorrigierten Korrelationen Die anfänglichen Korrelationsunterschiede können also auch auf die unterschiedliche Messgenauigkeit der Tests in den Teilstichproben zurückzuführen sein Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 36

37 4.3 Minderungskorrekturen Es ist durchaus möglich, dass minderungskorrigierte Korrelationen größer als 1 werden Dies ist immer dann der Fall, wenn die Reliabilität der Tests unterschätzt wird Dafür sind mehrere Gründe vorstellbar: Die Voraussetzungen für die Berechnung des jeweiligen Reliabilitätsschätzers sind verletzt Die Skala ist nicht eindimensional Korrelierte Messfehler mindern oder erhöhen die Korrelation zwischen zwei Werten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 37

38 4.4 Faktoren, die die Reliabilität beeinflussen Einflussfaktoren sind: (1) Homogenität oder Heterogenität der Testitems (2) Streuung der Testkennwerte (3) unterschiedliche Arten von Messfehlern Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 38

39 4.4 Faktoren, die die Reliabilität beeinflussen Homogenität: Homogene Tests sind fast immer hoch reliabel, da sie meist ähnliche oder gleiche Items bzw. Aufgaben enthalten Heterogene Tests (z.b. Berufseignungstests) enthalten sehr unterschiedliche Items oder Aufgaben und sind in der Regel nur bedingt reliabel Die Höhe der inneren Konsistenz hängt neben der mittleren Interitemkorrelation (Homogenität) auch von der Testlänge ab. Je mehr homogene Items einer Skala hinzugefügt werden, desto höher fällt das Cronbach-alpha aus Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 39

40 4.4 Faktoren, die die Reliabilität beeinflussen Streuung der Testkennwerte: Die Streuung der Testkennwerten kann ebenfalls die Reliabilität beeinflussen Eine hohe Streuung führt meist auch zu hohen Reliabilitäten, wohingegen eine geringe Merkmalsstreuung eine hohe Korrelation unwahrscheinlich werden lässt Die Streuung hängt unter bestimmten Bedingungen von der Aufgabenschwierigkeit ab Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 40

41 4.4 Faktoren, die die Reliabilität beeinflussen Arten von Messfehlern: Zufällige Antwortmessfehler innerhalb eines Erhebungszeitpunkts, z.b. durch unterschiedliche Müdigkeit Vorübergehende Fehler von Messungen z.b. wenn ein Messfehler von einem Messzeitpunkt zum anderen variiert. Dies können z.b. ebenfalls Unterschiede in der Müdigkeit sein Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 41

42 4.4 Faktoren, die die Reliabilität beeinflussen Arten von Messfehlern: Systematische Fehler wie z.b. Übungseffekte oder Antworttendenzen (z.b. Neigung zu extremen Antworten) Spezifische Messfehler beinhalten unterschiedliche Auffassungen von Personen bezüglich gleicher Begriffe Wenn beispielsweise Personen über ihre Aufmerksamkeit befragt werden, kann dieser Begriff unterschiedlich aufgefasst werden, z.b. als schnell reagieren oder auf mehrere Dinge gleichzeitig achten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 42

43 4.4 Faktoren, die die Reliabilität beeinflussen Möglichkeiten der Reliabilitätsverbesserung: Klare Testinstruktionen können dazu dienen, Verständnisschwierigkeiten als Fehlerquelle auszuschalten Neben der Testinstruktion sollten auch die Items klar formuliert werden Ebenso sollten klare Auswertungsregeln verwendet werden, um die Auswertungsobjektivität, die eine Voraussetzung für eine gute Reliabilität ist, zu gewährleisten Eine andere Möglichkeit, die Reliabilität zu verbessern, besteht darin, Items mit geringen Trennschärfen bzw. Items, die bei der Aufnahme in die Testendform die Reliabilität verringern aus dem Test zu entfernen. Eine weitere Methode zur Reliabilitätsverbesserung ist die Testverlängerung mit homogenen Items Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 43

44 4.4 Faktoren, die die Reliabilität beeinflussen Vorhersage der Reliabilität nach Testverlängerung: In der Regel ist es möglich, zu planen, wie hoch die Reliabilität eines Tests bei Hinzunahme inhaltshomogener Items wird Damit kann unter bestmöglicher Abwägung von Testlänge und Reliabilitätshöhe ein optimiertes Verfahren erstellt werden Mit der folgenden Formel kann die Reliabilität nach Testverlängerung vorhergesagt werden: Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 44

45 4.4 Faktoren, die die Reliabilität beeinflussen Es ist ebenso möglich, eine gewünschte Reliabilität vorzugeben und durch Umstellung der obigen Formel die Anzahl der Aufgaben zu berechnen, die hinzugenommen werden müssen, um die gewünschte Reliabilität zu erreichen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 45

46 4.5 Beurteilung der Höhe von Testkennwerten Eine generelle Beurteilung von Schwierigkeitsindizes, Trennschärfen, Reliabilitäten und Validitäten ist schwierig, denn diese hängt ab vom Kontext, wie zum Beispiel der Art des verwendeten Tests (objektiver Test, Persönlichkeitstest, projektiver Test), der untersuchten Stichprobe (homogen/heterogen), der Art und der Breite des gemessenen Merkmals (breiter oder enger Merkmalsausschnitt) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 46

47 4.5 Beurteilung der Höhe von Testkennwerten Eine ungefähre Richtlinie bilden dennoch die Angaben von Fisseni (1997) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 47

48 4.6 Durchführung einer Reliabilitätsanalyse mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 48

49 4.6 Durchführung einer Reliabilitätsanalyse mit SPSS Folgende Reliabilitätsmodelle sind verfügbar: (1) Alpha (2) Split-Half (3) Guttmann (4) Parallel (5) Streng parallel Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 49

50 4.6 Durchführung einer Reliabilitätsanalyse mit SPSS Alpha (voreingestellt) Es handelt sich um das Cronbach-alpha und bei dichtomen Items um die Kuder-Richardson-Formel 20 Guttman Bei diesem Modell werden Guttmańs untere Grenzen für die wahre Reliabilität berechnet Es wird Lambda 1 bis Lambda 6 angegeben Relevant ist hier vor allem Lambda 3 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 50

51 4.6 Durchführung einer Reliabilitätsanalyse mit SPSS Split-Half Bei diesem Modell wird die Skala in zwei Hälften geteilt und die Korrelation zwischen den Hälften berechnet Die Korrelation zwischen beiden Testhälften wird dann mit Hilfe der Spearman-Brown Formel aufgewertet Dabei ist zu beachten, dass die Streuungen beider Testhälften gleich hoch sein müssen Zusätzlich wird eine Reliabilitätsschätzung nach Guttman angezeigt Diese ist dann anzuwenden, wenn die Streuungen in beiden Testhälften nicht gleich hoch sind Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 51

52 4.6 Durchführung einer Reliabilitätsanalyse mit SPSS Parallel Bei diesem Modell wird angenommen, dass alle Items gleiche Varianzen und gleiche Fehlervarianzen für mehrere Wiederholungen aufweisen Unter diesen Annahmen wird eine Maximum-Likelihood- Schätzung der Reliabilität vorgenommen Zusätzlich ist ein unverzerrter Schätzer der Reliabilität angegeben, da die Maximum-Likelihood-Schätzung nicht erwartungstreu ist In der Ausgabe wird angezeigt, ob Parallelität vorliegt oder nicht. Ein signifikantes Ergebnis von p <.05 (bedeutet (Nullhypothese: Tests sind parallel), dass keine Parallelität vorliegt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 52

53 4.6 Durchführung einer Reliabilitätsanalyse mit SPSS Streng parallel Bei diesem Modell gelten die Annahmen des parallelen Modells, und es wird zusätzlich die Gleichheit der Mittelwerte der Items angenommen Unter diesen Voraussetzungen wird eine Maximum-Likelihood- Schätzung der Reliabilität vorgenommen In der Ausgabe wird angezeigt, ob die Annahme der strengen Parallelität zutrifft oder nicht Ein signifikantes Ergebnis von p <.05 bedeutet, dass keine strenge Parallelität vorliegt Die SPSS-Ausgabe entspricht der für parallele Tests. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 53

54 4.6 Durchführung einer Reliabilitätsanalyse mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 54

55 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Im folgenden ist eine Reliabilitätsanalyse anhand der Items der Skala Extraversion aus dem NEO-FFI dargestellt Menschen mit hohen Ausprägungen auf dieser Skala beschreiben sich als gesellig, gesprächig, selbstsicher, aktiv, energisch, heiter und optimistisch Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 55

56 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS In der oberen Tabelle sind die deskriptiven Statistiken der Items (Mean = Mittelwert, Std Dev = Standardabweichung und Cases = Anzahl der Fälle) aufgeführt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 56

57 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Die mittlere Interitemkorrelation stellt einen Homogenitätsindex dar. Es handelt sich um die mittlere Korrelation zwischen den Items, diese ist nicht (!) Fisher-Z-transformiert Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 57

58 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Die Corrected Item-Total Correlation ist die Part-Whole korrigierte Trennschärfe (r it ) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 58

59 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Die Squared Multiple Correlation ist die quadrierte multiple Korrelation der restlichen Items mit dem vorliegenden Item Je höher die multiple Korrelation ist, desto repräsentativer ist dieses Item für alle anderen Items, da der Anteil der gemeinsamen Varianz dann höher ist Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 59

60 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Alpha if Item deleted kennzeichnet die Reliabilität der verbleibenden Items, nachdem das vorliegende Item ausgesondert wurde Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 60

61 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Unter Alpha ist die Gesamtreliabilität unter Berücksichtigung aller Items angegeben Das standardisierte alpha basiert anders als alpha auf Korrelationen (vor der Berechnung werden alle Items z- standardisiert) und nicht auf Varianzen Es führt bei ähnlichen Itemvarianzen zu geringfügig anderen Ergebnissen als Cronbach-alpha Sind die Itemvarianzen stark unterschiedlich, sollte das standardisierte alpha verwendet werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 61

62 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Die wichtigsten Ergebnisse der Reliabilitätsanalyse lassen sich folgendermaßen beschreiben: Das Alpha ist, wenn wir nach Tabelle gehen, gering Alpha =.7254, ebenso wie die mittlere Interitemkorrelation Inter-item correlations (MIC) =.1880 Besonders fällt die geringe Trennschärfe des Items N47 mit ñ Corrected Item-Total Correlation =.0725 ins Auge Die Eliminierung dieses Items hätte eine Erhöhung der Reliabilität auf Alpha if item deleted =.7478 zur Folge Neben möglichen inhaltlichen Gründen für die geringe Trennschärfe sind zwei weitere Gründe denkbar. Zum einen handelt es sich bei dem Item N47 um das Item mit der extremsten Schwierigkeit (M = ) im Vergleich zu den anderen Itemmittelwerten, zum anderen ist es im Gegensatz zu allen anderen Items deutlich linkssteil verteilt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 62

63 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Im Folgenden werden die Ergebnisse der erneuten Reliabilitätsanalyse ohne das Item N47 und ohne Mittelwerte und Standardabweichungen beschrieben Es empfiehlt sich, bei der so genannten alpha-maximierung sukzessiv vorzugehen Das heißt, es wird zunächst nur ein Item aus der Analyse ausgeschlossen Dadurch ändern sich die Summenwerte der Skala und auch alle Trennschärfen So kann es möglich sein, dass nach Aussonderung des Items N47 das Item N7 eine höhere Trennschärfe erhält und das alpha nach Elimination des Items nicht mehr ansteigt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 63

64 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 64

65 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Anhand dieser Itemanalyse könnten aufgrund ihrer relativ niedrigen Trennschärfe zwei weitere Items N7 und N22 ausgesondert werden Doch hier ist Vorsicht geboten, denn ein Test kann auch zu Tode homogenisiert oder optimiert werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 65

66 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Es gibt zwei Hauptgründe, Items zu eliminieren: (1) statistische Kriterien, z.b. M, S, r it und (2) inhaltliche Gründe, z.b. schlechte Formulierung (wenn sie inhaltlich nicht stimmig oder missverständlich formuliert sind) Der Inhalt der Items muss bei der Itemanalyse immer mit einbezogen werden Möglicherweise ist eine Revision der Itemformulierung sinnvoller als ein Aussondern des Items (wenn das Item inhaltlich passt) Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 66

67 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Man muss sich vorher genau überlegen, ob man einen homogenen oder heterogenen Test konstruieren will Im Falle des NEO-FFI ist es sinnvoll, aufgrund inhaltlicher Aspekte alle Items in der Skala zu belassen, denn es handelt sich um einen Persönlichkeitstest, der Persönlichkeit auf einer hohen Abstraktionsebene erfasst Die mittlere Interitemkorrelation (MIC) beträgt in unserem Beispiel nur r =.1880 im Gegensatz zu einem alpha- Koeffizienten von r tt = Die Präzision von alpha ist mit P(α) =.0167 moderat hoch und deutet an, dass es sich um einen heterogenen Test handelt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 67

68 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Die mittlere Interitemkorrelation liegt nach Briggs und Cheek (1986) am unteren Ende des Vertretbaren Sie sollte MIC =.20 nicht unterschreiten und MIC =.40 nicht überschreiten Allerdings ist bei solch starren Regeln immer zu bedenken, dass es auch Ausnahmen gibt So ist es zum Beispiel bei extrem kurzen Fragebögen wenn man eine hohe Messgenauigkeit benötigt mit Skalen aus drei oder vier Items durchaus sinnvoll, homogenere Items mit einer MIC >.40 heranzuziehen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 68

69 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Veränderung der Reliabilität bei Elimination einzelner Items Die Elimination einzelner Items wirkt sich auch auf die Reliabilität aus Erhöht sich das Cronbach-alpha bei der Elimination eines Items im Verhältnis zum Cronbach-alpha der gesamten Skala, kann dieses Item ausgesondert werden, da es inhaltlich nicht gut zu der Skala passt und die Messgenauigkeit bei Aufnahme des Items in die Skala sinkt Allerdings ist bei dieser Methode Vorsicht angebracht Es kann nicht Ziel und Zweck der Testkonstruktion sein, ausschließlich die Homogenität der Skalen zu erhöhen So sollte zum Beispiel bei Erfassung der Depression nicht nur der gleiche Iteminhalt mit jeder Frage erfasst werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 69

70 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Zusammenhang zwischen Itemtrennschärfe und Cronbach-alpha Auf der X-Achse ist das Cronbach-alpha aufgetragen, wenn das entsprechende Item in der Skala nicht berücksichtigt wird Auf der Y-Achse ist die Trennschärfe vermerkt Je höher die Trennschärfe eines Items ist, desto geringer wird das Cronbach-alpha der Skala, wenn man das entsprechende Item in der Skala nicht berücksichtigt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 70

71 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Ab einer gewissen (meist geringen) Trennschärfe, wird Cronbach-alpha höher, wenn man das Item nicht in die Skala aufnimmt Solche Items verringern die Messgenauigkeit der Skala und daher können sie wegfallen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 71

72 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS In unserem Beispiel beträgt das Cronbach-alpha der gesamten Skala (mit Item N47).7254 In der Abbildung kann man erkennen, dass das Cronbachalpha der Skala auf knapp unter.75 ansteigen würde, wenn man Item N47 nicht in der Skala berücksichtigten würde Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 72

73 4.7 Beispiel einer Item- und Reliabilitätsanalyse mit SPSS Nimmt man beispielsweise Item N2, so würde das Cronbach-alpha der gesamten Skala auf unter.68 fallen, wenn dieses Item nicht berücksichtigt würde Ob Item N22 in die gesamte Skala aufgenommen würde oder nicht, ändert dagegen nur wenig an der Höhe von Cronbach-alpha Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 73

74 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik (1) Konfidenzintervalle für den wahren Wert einer individuellen Testleistung (2) Bedeutsamkeit von Untertestdifferenzen (3) Eine mess- und schätzfehlerkritische Analyse von Testdifferenzen (4) Richtlinien zur Interpretation von diskrepanten Testbefunden (5) Unterscheiden sich zwei Probanden in ihrer Leistung? Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 74

75 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Auswirkungen der Messgenauigkeit eines Tests auf den Einzelfall Die Reliabilität eines Tests sagt etwas über seine Messgenauigkeit aus Diese Messgenauigkeit wirkt sich auch auf die Interpretation von Einzeltestergebnissen aus Angenommen, zwei Intelligenztestergebnisse einer Person liegen vor und der eine Intelligenztest misst Intelligenz sehr genau (hohe Reliabilität), der andere nicht (niedrige Reliabilität) In diesem Fall ist das Ergebnis des messgenauen Tests vertrauenswürdiger als das Ergebnis des messungenauen Tests Die Messgenauigkeit eines Tests muss bei der Beurteilung für den Einzelfall berücksichtigt werden Je genauer ein Test eine Fähigkeit misst, desto näher liegt der wahre Wert der Person um den beobachteten Wert Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 75

76 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Psychologische Tests sind nicht perfekt messgenau, daher können die Ergebnisse einzelner Probanden nicht ohne weiteres verglichen werden Vielmehr wird versucht die mangelnde Messgenauigkeit bei der Interpretation von Testwerten zu berücksichtigen Dazu wird ein Bereich angegeben, in dem der wahre Wert eines Probanden mit einer gewissen Wahrscheinlichkeit liegt Dieser Bereich wird auch als Konfidenzintervall oder Vertrauensintervall bezeichnet Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 76

77 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Hintergrund Das Ergebnis einer Person in einem Test wird nach Huber (1973) als Realisation einer intraindividuellen Zufallsvariablen angesehen Die Verteilung dieser Zufallsvariablen erhielte man, wenn man die Person unter identischen Bedingungen unendlich oft untersuchen würde Je geringer diese (intraindividuellen) Messungen einer Person über unendlich viele Messgelgenheiten schwanken würden (intraindividuelle Fehlervarianz der Messwerte), desto genauer könnte man den Testwert einer Person bestimmen Dies ist in der Praxis aber nicht möglich Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 77

78 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Auch die Annahme, man könnte Personen unter identischen Bedingungen wiederholt untersuchen, ist nicht haltbar (Gedächtnis- und Übungseffekte, Müdigkeit usw.) Man versucht deshalb in der Klassischen Testtheorie die intraindividuelle Fehlervarianz der Messwerte einer Person durch die interindividuelle Fehlervarianz der Messwerte vieler Personen zu ersetzen Wenn die testspezifischen Fehlervarianzen innerhalb einer bestimmten Probandenpopulation von Individuum zu Individuum nur geringfügig differieren, dann kann die spezifische Gruppenfehlervarianz eines Tests als guter Näherungswert für die testspezifische Fehlervarianz eines Probanden betrachtet werden, der dieser Population angehört Dies impliziert, je reliabler ein Test ist, desto unproblematischer ist die Interpretation von Testergebnissen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 78

79 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Auch wenn man die Annahmen, die zur Berechnung von Konfidenzintervallen gemacht werden, durchaus kritisieren kann bzw. einige nicht haltbar sind, so führt doch kein Weg an der Absicherung der individuellen Testwerte mit einem Konfidenzintervall vorbei Der Verzicht auf Konfidenzintervalle, wie es in der Praxis zum Teil weit verbreitet ist, stellt einen groben Fehler dar und ist nicht entschuldbar Bei aller Kritik wird durch das Konfidenzintervall dem Umstand Rechnung getragen, dass die Werte, die wir durch Tests erhalten, nicht perfekt gemessen wurden und unter wiederholten Bedingungen nicht identisch ausfallen Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 79

80 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Methoden Zur statistischen Absicherung von beobachteten Testwerten stehen in der Klassischen Testtheorie im Wesentlichen zwei Methoden zur Verfügung: Absicherung des individuellen Testergebnisses mit Hilfe (1) des Standardmessfehlers (Äquivalenzhypothese) und (2) des Standardschätzfehlers (Regressionshypothese) Die Äquivalenzhypothese geht davon aus, dass der beobachtete Wert des Probanden eine gute Annäherung (Schätzung) an den wahren Wert des Probanden darstellt Im Gegensatz dazu geht die Regressionshypothese davon aus, dass der wahre Wert des Probanden erst aus dem beobachteten Wert des Probanden geschätzt werden muss Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 80

81 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Aus den genannten Hypothesen kann man Formeln (siehe folgende Abschnitte) für so genannte Vertrauens- oder Konfidenzintervalle ableiten Diese Konfidenzintervalle geben einen Bereich an, in dem sich der wahre Wert der Person mit einer festgelegten Wahrscheinlichkeit befindet Das heißt nicht, dass er in diesem Bereich liegt, sondern nur dass er in diesem Bereich mit einer gewissen Wahrscheinlichkeit auftritt Bei der Berechnung dieses Vertrauensbereiches wird neben dem beobachteten Wert der Person auch die Messgenauigkeit des Tests berücksichtigt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 81

82 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Klassifikation Die Beurteilung einer Person erfolgt meist im Vergleich zu einer Normstichprobe Um das Testergebnis einer Person zu beschreiben, gibt es bestimmte Kategorien: Z. B. unterdurchschnittlich, durchschnittlich und überdurchschnittlich Diese Kategorien werden anhand der Standardabweichung der Normstichprobe gebildet Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 82

83 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Sicherheitswahrscheinlichkeit Die Breite des Konfidenzintervalls hängt nicht nur von der Reliabilität des Tests ab, sondern auch von inhaltlichen Überlegungen Zusätzlich ist immer darauf zu achten, ob einseitig oder zweiseitig getestet wird Auch von dem beobachteten Messwert selbst hängt die Breite des Vertrauensintervalls ab Ist der beobachtete Wert extrem hoch oder extrem niedrig, ist seine Messgenauigkeit geringer als bei einem Wert mit mittlerer Ausprägung Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 83

84 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Wahl des Kennwertes Man kann sowohl um den Rohwert als auch den Normwert ein Konfidenzintervall bilden Für normierte Werte gilt dabei die geschätzte Reliabilität in gleichem Maße wie für Rohwerte (Huber, 1973) Ziel einer Normierung ist es, unterschiedliche Rohwerte so aufzubereiten, dass sie den gleichen Mittelwert und die gleiche Standardabweichung besitzen Dies hat den Vorteil, dass beide Skalen- oder Untertestwerte nach der Normierung direkt vergleichbar sind Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 84

85 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik Breite des Vertrauensintervalls Insgesamt stehen dem Diagnostiker folgende Möglichkeiten zur Verfügung, die Größe des Vertrauensintervalls vor der Berechnung zu beeinflussen: (1) Art des Vertrauensintervalls (2) Wahl eines angemessenen Sicherheitsbereichs (3) Wahl des geeigneten Reliabilitätskoeffizienten Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 85

86 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik (1) Art des Vertrauensintervalls Im Allgemeinen sind die Konfidenzintervalle, die durch die Anwendung der Regressionshypothese gebildet werden schmaler als die Konfidenzintervalle, die durch die Äquivalenzhypothese berechnet werden Bei extremen Werten nimmt die Regressionshypothese eine Korrektur zur Mitte vor, da bei einer erneuten Testung ein weniger extremer Wert zu erwarten ist (Regression zur Mitte) Durch dieses Vorgehen kann der wahre Wert genauer geschätzt werden Die Äquivalenzhypothese nimmt zwar keine Korrektur zur Mitte vor, allerdings bietet sie den Vorteil, dass das breitere Konfidenzintervall bei Extremwerten eine bessere Schätzung des Konfidenzintervalls darstellt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 86

87 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik (2) Wahl eines angemessenen Sicherheitsbereichs Bei der Wahl des Sicherheitsbereichs ist entscheidend, ob einseitig oder zweiseitig getestet wird Wird einseitig getestet, wird das Konfidenzintervall für den Probanden kleiner Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 87

88 4.8 Das Reliabilitätskonzept in der psychometrischen Einzelfalldiagnostik (3) Wahl des geeigneten Reliabilitätskoeffizienten Um Vertrauensintervalle zu bilden, wird die Reliabilität der Tests benötigt Es ist unbedingt darauf zu achten, dass der Reliabilitätskoeffizient verwendet wird, der anhand der Stichprobe ermittelt wurde, die als Vergleich zur Einordnung des Probanden verwendet wird Soll eine Prognose gemacht werden, sollte die Retestreliabilität verwendet werden, da sie ein Maß für die Stabilität eines Merkmals ist Interessiert lediglich die Prüfung eines aktuellen Status, sollte die interne Konsistenz bzw. die Split-Half-Reliabilität oder die Paralleltestreliabilität verwendet werden Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 88

89 (1) Konfidenzintervalle für den wahren Wert einer individuellen Testleistung Vorraussetzung für die Anwendung der Äquivalenzhypothese Die Fehlervarianz eines Tests ist in allen Skalenbereichen gleich groß Die spezifische Testfehlervarianz der Probanden unterscheidet sich zwischen den Probanden nur geringfügig (Huber, 1973, S. 61) Die Messfehler sind normalverteilt Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 89

90 (1) Konfidenzintervalle für den wahren Wert einer individuellen Testleistung Vorraussetzung für die Anwendung der Regressionshypothese Bei der Regressionshypothese muss zusätzlich die gemeinsame Normalverteilung der Messfehler und der wahren Werte vorliegen Diese Voraussetzungen sind in der Regel durch eine bivariate Normalverteilung der Kennwerte gegeben Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 90

91 (1) Konfidenzintervalle für den wahren Wert einer individuellen Testleistung Äquivalenzhypothese Es wird angenommen, der wahre Wert entspricht dem beobachteten Wert Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 91

92 (1) Konfidenzintervalle für den wahren Wert einer individuellen Testleistung Regressionshypothese Es wird angenommen, dass der wahre Wert erst aus dem beobachteten Wert geschätzt werden muss Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 92

93 (2) Bedeutsamkeit von Untertestdifferenzen Zur Beantwortung der Frage, ob sich die Leistungen eines Probanden in zwei Untertests oder Tests unterscheiden, wird die interne Konsistenz als Reliabilitätsschätzer zur einzelfalldiagnostischen Auswertung benötigt, da lediglich eine Aussage über den momentanen Status und keine Prognose verlangt wird Im Folgenden ist die Absicherung von Testwertdifferenzen zwischen unterschiedlichen Skalen bei einem Probanden dargestellt Dazu wird die intraindividuelle kritische Differenz bestimmt, und zwar nach folgenden Verfahren Voraussetzung ist bei unterschiedlichen Tests, dass gleiche Normwerte vorliegen (z.b. zweimal IQ-Norm). Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 93