Itemschwierigkeit, Trennschärfe.Part whole-korrektur, ICC, Streuung

Größe: px
Ab Seite anzeigen:

Download "Itemschwierigkeit, Trennschärfe.Part whole-korrektur, ICC, Streuung"

Transkript

1 Grundlagen Itemschwierigkeit, Trennschärfe.Part whole-korrektur, ICC, Streuung Empirisch zeigt sich eine umgekehrt u-förmige Beziehung zwischen Schwierigkeit und Trennschärfe, wobei mit mittlerer Schwierigkeit die höchste Trennschärfe einhergeht. Standardabweichung der Testwerte steigt mit den Trennschärfen Die Variation von Itemschwierigkeiten führt zu einer Abnahme der Interkorrelationen zwischen den Items, damit zu einer Abnahme der Homogenität und zu einer Abnahme der Trennschärfe Part-whole-Korrektur: Ohne part-whole-korrektur kommt es zu einer Überschätzung der Trennschärfe, da das betreffende Item selbst Bestandteil der Skala ist Ohne part-whole-korrektur ginge ein Teil der Skalenstreuung auf das entsprechende Item zurück, mit dem die Skala korreliert wird Je größer die Itemanzahl einer Skala ist, desto geringer sind die Auswirkungen der Korrektur auf die Trennschärfe, denn mit zunehmender Itemzahl wird der Beitrag eines einzelnen Items relativ zum Gesamtskalenwert geringer Je homogener eine Skala ist, desto weniger ändern sich die Trennschärfen durch eine partwhole- Korrektur

2 Zusammenhang zwischen Schwierigkeit und Trennschärfe Items mit mittlerer Schwierigkeit differenzieren am besten zwischen Probanden, die ein Item lösen ( Löser ), und Probanden, die ein Item nicht lösen ( Nicht-Löser ) Bei dichotomen Items ist die Itemstreuung rechnerisch vollkommen durch die Itemschwierigkeit determiniert Reichen die Itemschwierigkeiten bei intervallskalierten Items an den Rand der Antwortskala, spricht man von Boden- oder Deckeneffekten Beide Effekte haben zur Folge, dass zwischen Individuen mit verschiedenen Merkmalsausprägungen nicht mehr ausreichend differenziert werden kann Je steiler der Anstieg der Item Characteristic Curves (ICC), desto größer ist die Trennschärfe Insgesamt differenzieren Tests mit homogen mittelschweren Items am besten bei mittleren Merkmalsausprägungen Da bei mittlerer Itemschwierigkeit die Wahrscheinlichkeit für hohe Trennschärfen ansteigt, ist für solche Skalen auch eine höhere Reliabilität zu erwarten Um auch in Randbereichen eines Merkmalsbereichs zu differenzieren, muss die Skala auch extremere Schwierigkeitsbereiche mit Items abdecken Meist erreichen Items mit extremen Schwierigkeiten geringere Trennschärfen als mittelschwere Items. Dies reduziert die Itemhomogenität und daher sind für solche Skalen nicht ganz so hohe Reliabilitäten wie für Skalen mit ausschließlich mittelschweren Items zu erwarten Streuung wird auch als Differenzierungsfähigkeit bezeichnet. Die Streuung eines Tests sollte im Vergleich zu seinem Standardmessfehler groß sein, denn so lassen sich die Probanden besser in mehrere voneinander unterschiedene Gruppen unterteilen.

3 KTT Axiome KTT ( Grundannahmen) X = T + e μ(e) = 0 ρ(t,e) = 0 ρ(ex,ty) = 0 ρ(ex, ey) = 0 1.Das Konzept des Messfehlers: Messfehler umfassen die Gesamtheit aller unsystematischen (!) und nicht kontrollierbaren oder vorhersagbaren potentiellen Einflußgrößen auf das Messergebnis 2. Der (bei häufiger Messwiederholung) erwartete Mittelwert (μ) der Messfehler ist Null: μ(e) = 0 d.h., daß es bei wiederholten Testanwendungen unter identischen Bedingungen zu einem Fehlerausgleich (Ausmittelung von Fehlerschwankungen) kommt und der gemittelte Testwert bei einer Person über alle Messungen dem wahren Wert nahezu entspricht. 3. Die Höhe des Messfehlers E ist unabhängig vom (wahren) Ausprägungsgrad T des getesteten Merkmals, d.h., wahrer Wert und Fehlerwert sind unkorreliert: rte = 0. Beispiel: Fehlereinflüsse durch die Tagesform sind bei Personen mit hoher und niedriger Intelligenz in gleicher Weise wirksam. 4. Die Höhe des Messfehlers E ist unabhängig vom Ausprägungsgrad der wahren Werte T anderer Tests: rt E = 0. Beispiel: Die Messfehler eines Intelligenztests sollten z.b. nicht mit Testangst oder Konzentrationsfähigkeit (mit anderen Tests gemessene Persönlichkeitsmerkmale usw.) korrelieren. 5. Die Messfehler verschiedener Testanwendungen (z.b. E1 und E2) sind voneinander unabhängig, d.h., ihre Messwerte sind unkorreliert: re1e2 = 0. Beispiel: Personen, die bei einer Testanwendung besonders müde sind oder hohe Testangst haben, sollten bei einer Testwiederholung keine analogen Effekte zeigen.

4 Reliabilität: Die Reliabilität R gibt den Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte an Bespiel: Ein Reliabilitätskoeffizient von z. B. R =.80 gibt an, daß die beobachtete Varianz der Testwerte zu 80 % auf wahre Unterschiede zwischen den Testpersonen zurückzuführen ist und zu 20 auf Fehlervarianz beruht. Der Standardmessfehler Die KTT wird oft auch als Messfehlertheorie bezeichnet. ist derjenige Anteil an der Streuung eines Tests, der zu Lasten seiner (gewöhnlich nicht perfekten, also unvollständigen ) Reliabilität geht ist ein Maß für den Anteil der Fehlerstreuung an der Streuung von Messwerten gibt die Streuung der beobachteten Werte um die entsprechenden wahren Werte bei Messwiederholungen einer Person an (läßt sich als Normalverteilung mit wahrem Wert als Zentrum veranschaulichen). Der Standarbmessfehler berechnet sich: und hängt somit von der Streuung s und dem Reliabilitätskoeffizienten R ab (bei perfekter Reliabilität beträgt er 0; bei fehlender Reliabilität entspricht er der Streuung der beobachteten Werte, welche dann ausschließlich auf Fehlereinflüssen beruhen) je reliabler das Messinstrument, desto geringer der Standardmessfehler Es läßt sich zeigen, daß z.b. mit der Verdopplung der Testlänge/der Itemanzahl (in Einheiten von homogenen bzw. äquivalenten Aufgaben!) eine Vervierfachung der wahren Varianz einhergeht, während sich die Fehlervarianz nur verdoppelt. Da Reliabilität als Anteil der wahren Varianz an der Gesamtvarianz definiert ist, würde dies eine Verdoppelung der Reliabilität bedeuten. Diese mathematische Ableitung hat sich auch empirisch gut bestätigen lassen, was für eine Angemessenheit der Axiome der KTT spricht. Der Zusammenhang zwischen Ausgangsreliabilität, Testverlängerung (Faktor k) und neuer Reliabilität läßt sich wie folgt berechnen: Spearman-Brown-Formel Dabei zeigt sich, daß der Reliabilitätszuwachs um so größer ist, je geringer die Ausgangsreliabilität ist.

5 Problemstellung: Sind beobachtete Skalenwertdifferenzen statistisch signifikant? Unterscheiden sich die Testwerte eines Pbn auf zwei Skalen signifikant (intraindividuell)? Unterscheiden sich die Skalenwerte von zwei Pbn auf derselben Skala signifikant (interindividueller Vergleich)? Kritische Differenz: Eine Skalenwertdifferenz ist dann signifikant, wenn sie größer oder gleich der kritischen Differenz ist Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit Item- und Testkennwerte (Schwierigkeit, Trennschärfe, Reliabilität, Validität...) werden an spezifischen Stichproben berechnet Sind diese Befunde generalisierbar? Man kann z.b. durch die Wahl heterogener oder homogener Stichproben die Reliabilität künstlich erhöhen oder senken. Homogenität und Heterogenität: Je homogener eine Stichprobe ist, desto geringer fallen die jeweiligen Korrelationen aus. Dies führt zu einer Varianz der Reliabilitätskoeffizienten, die allein auf die Auswahl der Stichprobe zurückzuführen ist. Reliabilitäten sind somit nur schwer zu generalisieren Messtheorie Daten sollten auf Intervallskalenniveau liegen Bei vielen Tests ist jedoch fraglich, ob diese Voraussetzung erfüllt ist (so müssten etwa die Abstände bei abgestuften Rating-Skalen psychologisch gleich interpretiert werden: Äquidistanz), Berechnung von Mittelwerten und Varianzen Bildung von Messwertdifferenzen Das ist fraglich und es gibt keine explizite Überprüfung. Wissenschaftstheorie Axiomatische Fehlertheorie ohne psychologische Fundierung mit nicht überprüfbarer Axiomatik. Die klassische Testtheorie (KTT) geht davon aus, daß das Testergebnis direkt (wenn auch mit Messfehlern behaftet) dem Ausprägungsgrad des gemessenen (tatsächlichen, wahren) Merkmals entspricht. Der Zusammenhang zwischen Personmerkmal und Testergebnis wird also a priori als deterministisch angenommen und ist zudem (weil axiomatisch) keiner empirischen Überprüfung zugänglich. Der Effekt unkontrollierter Variablen wird als Messfehler bezeichnet

6 Unterschied KTT-PTT PTT Die probabilistische Testtheorie (IRT) legt nicht von vornherein fest, wie der Zusammenhang zwischen Merkmalsausprägung und Testergebnis zu sein hat. Vielmehr unterscheidet sie explizit zwischen: Merkmalsebene (latente Variablen) und Testebene (Itemebene; manifeste Variablen) und betrachtet das Testergebnis lediglich als Indikator für das entsprechende Merkmal Dabei ist die Beziehung zwischen Merkmal und Indikator (meist als Funktion ausgedrückt) in der Regel eine probabilistische (deterministisch kann sie dabei im Extremfall sein) ist, deren Verlauf zudem sehr unterschiedlich sein kann. Das Hauptunterscheidungsmerkmal zur KTT besteht jedoch darin, daß bei der PTT eine (hypothetisch) festgelegte Funktionsform empirisch darauf geprüft werden kann, ob sie auch tatsächlich vorliegt. manifeste Variablen: beschreiben das (unterschiedliche) Antwortverhalten auf verschiedene Testitems können dichotom (wie im dichotomen Rasch-Modell) sein oder abgestuft sein (Ratingskalen), z.b. der eindimensionale Spezialfall des polytomen Rasch- Modells. latente Variablen ξ (Xi): bezeichnen die nicht-beobachtbaren Merkmalsausprägungen (Fähigkeiten, Dispositionen), die dem manifesten Verhalten zugrunde liegen sollen

7 als kontinuierlich (unterschiedliche quantitative Ausprägungen) angenommen werden (Latent-Trait- Modelle), diese sind in der psychologischen Diagnostik am häufigsten, oder nur qualitativ unterschiedliche Ausprägungen (liegt vor versus liegt nicht vor, also z. B. Persönlichkeitstypen) haben (Latent-Class-Modelle). Fähigkeitsparameter (Personenparameter, Dispositionsparameter, ξ oder β (aβility): Beschreibt die Fähigkeit einer Person (Merkmalsausprägung des latenten Traits), ein best. Testitem zu lösen. Schwierigkeitsparameter (Itemparameter,Anforderungsparameter, σ oder δ δifficulty): Anforderung, welche ein Item an die Fähigkeit der zu untersuchenden Person stellt. Der Zusammenhang zwischen der Lösung eines Items und den beiden Parametern ist probabilistisch: In Abhängigkeit von der Höhe von Item- und Personparameter läßt sich dem Ereignis Item wird gelöst ein Wahrscheinlichkeitswert zuordnen. IC-Funktion ( Itemcharastaristik) Diese beschreibt die Beziehung zwischen einem latenten Merkmal (Personenparameter) und dem Reaktionsverhalten auf ein (dichotomes) Item in Form einer Wahrscheinlichkeitsaussage. Deterministische Itemcharakteristiken: Wenn davon ausgegangen wird, daß das Antwortverhalten der Versuchspersonen durch die Item- und Personenparameter vollständig bestimmt wird, d.h. die Lösungswahrscheinlichkeiten für die einzelnen Items je nach β und δ immer entweder Null oder Eins sind. Probabilistische Itemcharakteristiken: Wenn eine stochastische Beziehung zwischen β, δ und der Lösungswahrscheinlichkeit angenommen wird, d.h. Lösungswahrscheinlichkeiten in allen Abstufungen zwischen Null und Eins auftreten können. Solche Funktionen sind in der Regel monoton steigend [d.h., je höher β (also die Fähigkeits- /Merkmalsausprägung einer Person), desto höher die Lösungswahrscheinlichkeit].

8 Allgemein: Annahme eines latenten Kontinuums (Fähigkeit, Eigenschaft) ξ Jede Person v weist auf diesem eine bestimmte Ausprägung ξv auf. Es könnte einen kritischen Wert auf ξ geben, ab dem ein Item gelöst wird. Grundgedanke der Guttman-Skala lokale stochastische Unabhängigkeit Fragestellung: Wie könnte man prinzipiell von mehreren manifesten Variablen auf eine dahinterliegende (die Ausprägungen der manifesten Variable verursachende) latente Variable schließen? Antwort: dies ist dann der Fall, wenn die 1. Items homogen bezüglich der latenten Variablen sind, d.h., wenn die manifesten Variablen miteinander korrelieren, 2. die manifesten Variablen (inhaltlich) Indikatoren der latenten Variablen sind und 3. die latente Variable als Ursachenfaktor (Indikator) für die Korrelation der manifesten Variablen untereinander verantwortlich ist Überprüfung: Itemhomogenität läge dann vor, wenn bei Herauspartialisierung des Einflusses von ξ aus der Korrelation zwischen den manifesten Variablen keine Korrelation mehr zwischen diesen bestünde Die Logik dabei ist, daß wenn nur die latente Merkmalsausprägung die Korrelation zweier Items auf einer Stufe verschwinden läßt (vgl. lokale stochachstische Unabhängigkeit), dann muß dies unabhängig von der Stichprobe sein! Oder anders herum: Ursache der Korrelation der manifesten Variablen ist dann einzig und allein die latente Variable.

9 Dichotomes Rasch-Model ist ein probabilistisches Modell, welches kontinuierliche latente Variablen annimmt, sowie bei dichotomen manifesten Variablen (Alternativantworten) angewendet wird. Die zugrundeliegende IC- Funktion ist logistisch. Dichotomes Rasch-Modell: Probabilistisch-logistisches dichotomes Latent- Trait- Modell mit invarianten Diskriminationsparametern. Die Lösungswahrscheinlichkeit einer best. Person für ein best. Item p (x) wird im Rasch-Modell allein durch die Ausprägungen vom Fähigkeitsparameter β und vom Itemschwierigkeitsparameter δ bestimmt. Der Zusammenhang zwischen Parametern und Lösungswahrscheinlichkeit soll nun durch die sog. logistische Funktion festgelegt sein, welche die Eigenschaft hat, daß im Mittelbereich (dort, wo β und δ gleich sind) nahezu Linearität zwischen Fähigkeit und Lösungswahrscheinlichkeit besteht, während sich die Lösungswahrscheinlichkeiten im oberen und unteren Fähigkeitsbereich asymptotisch den Grenzwerten 0 und 1 nähern. Vorteile: 1. Itemhomogenität 2. Erschöpfende Statistik 3. Spezifische Objektivität 4. Unabhängige Schätzung der Itemparameter Itemhomogenität Es werden nur itemcharakteristische Kurven zugelassen, die sich nicht schneiden, d.h., daß alle Items den gleichen Verlauf der Lösungswahrscheinlichkeiten zeigen (in diesem Sinne sind sie homogen). Sie unterscheiden sich lediglich darin, daß sie an unterschiedlichen Stellen des Item Personenparameter - Kontinuums laufen (je höher δ, desto weiter rechts). Das bedeutet also, daß die IC Kurven parallel entlang der x Achse verschoben sind. Dabei gilt für jedes Item: die Wahrscheinlichkeit, dieses Item zu lösen, ist für tüchtigere Personen immer größer als für weniger tüchtige. Items, die nicht homogen sind, werden bei der Testkonstruktion eliminiert Erschöpfende Statistik Wenn Items lokal stochastisch unabhängig voneinander sind, d.h. wenn die Wahrscheinlichkeit, ein Item zu lösen nicht von der Wahrscheinlichkeit abhängt, ein anderes Item zu lösen, sondern ausschließlich von Fähigkeit und Itemschwierigkeit (s. o.), dann liefert allein die Anzahl der gelösten Items (unabhängig davon, welche Items, bzw. welche Itemteilmengen gelöst worden sind) eine erschöpfende Statistik für die Fähigkeit einer Person. Ebenso liefern die Anzahl der Versuchspersonen (unabhängig davon welche Versuchspersonen das Item bearbeiten) eine erschöpfende Statistik für den Itemparameter. Spezifische Objektivität Innerhalb einer Population, für die Modellkonformität festgestellt worden ist, fallen für einen Probanden (und auch bei Probandenvergleichen) sowohl Item- als auch Personenparameter immer gleich aus, gleichgültig, welche Merkmalsausprägung der Proband hat und unabhängig von den Items, die bearbeitet worden sind Diese Eigenschaft steht im Gegensatz zur KTT, wo zwei Versuchspersonen ihre Rangplätze vertauschen können, wenn man ihre Leistung nach Teilmengen der Items beurteilt.

10 => es besteht Unabhängigkeit beim Vergleich zweier Personen von dem Instrument, anhand dessen der Vergleich vorgenommen wurde! Unabhängige Parameterschätzung Itemparameter können unabhängig von der Kenntnis der Personenparameter und Personenparameter unabhängig von Itemparametern geschätzt werden. Dies hat den Vorteil, daß man keine Verteilungsannahmen über unbekannte Parameter machen muß Empirischer Modelltest Zu Beginn der Testkonstruktion sind weder Schwierigkeit noch Fähigkeit bekannt und müssen geschätzt werden! Schritte bei der Rasch-Skalierung: 1. Erstellung einer Matrix von Schwierigkeitsindizes 2. Transformation in eine Logit-Matrix 3. Schätzung von Item- und Person-Parameter aus der Logit-Matrix 4. Reproduktion der Ausgangsmatrix als Modelltest Die Differenzierungsfähigkeit/Trennschärfe von Items ist dort am größten, wo die logistische Funktion, bzw. die Lösungswahrscheinlichkeit die stärkste Steigung aufweist (Maximum der Iteminformationsfunktion).Die stärkste Steigung liegt am Wendepunkt vor, also dort, wo Item- und Personenparameter identisch sind, die Lösungswahrscheinlichkeit also 50 % beträgt. Tetskonstruktion vier Ansätze/ Konstruktionsstrategien: Rational (deduktiv) External (kriteriumsbezogen) Induktiv (faktorenanalytisch) Prototypisch Rational: Eine Skalenkonstruktion erfolgt dann rational, wenn die Items aufgrund eines theoretisch fundierten und explizierten (Persönlichkeits-)Konstrukts (deduktiv) abgeleitet werden. Psychometrische Konstruktion: Vorliegen einer Theorie (z.b. Cattells Intelligenztheorie) darüber, wie sich Personen hinsichtlich bestimmter Merkmale beschreiben lassen und voneinander unterscheiden. Für jeden Bereich werden sodann Items in Form von Aufgaben oder Fragen nach möglichen Verhaltensweisen zu Skalen oder Subtests zusammengestellt, die als Indikatoren in Betracht kommen. Validierung der Skala an einem Kriterium External Eine Skalenkonstruktion erfolgt dann external, wenn Items aufgrund ihrer Diskriminationsfähigkeit zwischen Mitgliedern verschiedener Gruppen (und nicht aufgrund ihrer inhaltlichen Bedeutung) zusammengestellt werden.

11 Vorliegen von mind. zwei Gruppen in der sozialen Realität! Den Mitgliedern der Gruppen wird eine möglichst große und inhaltlich breit gefächerte Zahl von Items vorgelegt in der Hoffnung, daß sich darunter einige befinden werden, die zwischen den Gruppen empirisch diskriminieren, also unterschiedliche Lösungswahrscheinlichkeiten zeigen. Es werden dann diejenigen (möglicherweise sehr heterogenen) Items selegiert und zu (inhaltlich nicht interpretierbaren) Skalen zusammengefaßt, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination in einer Kreuzvalidierung bei anderen Personen standhält. Induktiv (faktorenanalytisch) Eine Skalenkonstruktion erfolgt dann induktiv, wenn Items (blind-analytisch) mittels einer Faktorenanalyse zu Skalen gruppiert werden, die (empirisch) hoch miteinander (und möglichst gering mit Items anderer Skalen: Einfachstruktur) korrelieren und damit gemeinsam eine Dimension konstituieren Vorgehen: Ein möglichst umfangreicher und für die Zielkonstrukte repräsentativer Itempool wird einer möglichst umfangreichen und für die Zielgruppe repräsentativen PersonenSP zur Beantwortung vorgelegt. Mittels einer Faktorenanalyse werden die Items zu Gruppen hoch interkorrelierender Skalen zusammengefaßt (Ziel ist eine Einfachstruktur). Die einzelnen Faktoren oder Skalen werden interpretiert, indem man nach einer Gemeinsamkeit aller Items einer Skala gesucht wird. Prototypisch Eine Skalenkonstruktion erfolgt dann prototypisch, wenn überwiegend solche Items zu Skalen zusammengefaßt werden, die für eine Dimension (z.b. intelligent, dominant, aggressiv) besonders (proto-)typisch oder zentral sind. Vorgehen: z. B. Act Frequency Approach; dt.: Handlungs- Häufigkeits-Ansatz (Buss & Craig, 1980): 1.Auswählen derjenigen Eigenschaft, für die eine Skala konstruiert werden soll (z.b. Aggressivität) 2.Versuchspersonen sollen an diejenigen Bekannten aus ihrem Umfeld denken, bei denen diese Eigenschaft besonders stark ausgeprägt ist. Versuchspersonen sollen dann konkrete Verhaltensweisen dieser Personen nennen, die indikativ für die Eigenschaft (hier: Aggressivität) sein sollen. 3.Dann werden die so erhaltenen Items anderen Versuchspersonen vorgelegt, die sie nach ihrer Prototypizität hinsichtlich des Merkmals einschätzen sollen. 4. D. h. also, diese Beurteiler sollen feststellen, wie prototypisch/charakteristisch die für Aggressivität gesammelten Verhaltensweiten/Acts Ihrer Meinung nach sind. Interne Konsistenz und Reliabilität: Da rational und induktiv entwickelte Skalen inhaltlich homogener sind (Items korrelieren höher miteinander) als external konstruierte Skalen, weisen sie auch eine höhere interne Konsistenz und (in der Regel) eine höhere (interne!) Reliabilität bei gleicher Testlänge auf. Stichproben-Anfälligkeit: Insbesondere induktiv konstruierte Tests sind in ihrer Validität in hohem Maße davon abhängig, inwieweit Untersuchungs- und AnwendungsSP ähnlich zusammengesetzt sind. Verfälschbarkeit durch Testbeantworter: Ist insbesondere bei external konstruierten Skalen gering, da die Messintention oft nicht evident ist. Hohe Anfälligkeit für Verfälschungsversuche bei Tests, die nach dem Prototypenansatz konstruiert wurden (s. o.). Validitäten: Es zeigt sich keine konsistente Überlegenheit von Konstruktionsstrategien gegenüber anderen.

12 Ökonomie: Rationale Skalen sind besonders ökonomisch zu entwickeln und ihre Testergebnisse sind aufgrund der Verwendung von alltagsnahen Dimensionen leicht kommunizierbar. Gütekriterien Itemschwierigkeit, Trennschärfe und Homogenität charakterisieren einen Test von seinen kleinsten Bausteinen her (den Items). Die sog. Hauptgütekriterien Objektivität, Reliabilität und Validität sind allerdings unter allen Umständen verbindlich. Von den Nebengütekriterien werden im weiteren Normierung (relativ testnah) und Testfairness (relativ entscheidungsnah) genauer ausgeführt werden. Objektivität Objektivität bezeichnet das Ausmaß, in dem die Ergebnisse eines Tests (Durchführung, Auswertung, Interpretation) unabhängig vom Testleiter (Untersucher) sind. Es lassen sich drei Objektivitätsarten unterscheiden: Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität

13 Herstellung von Durchführungsobjektivität: durch maximale Standardisierung dertestsituation (z.b. standardisierte Instruktion,Testmaterialien, Zeitvorgaben, etc.). Quantitative Bestimmung der Durchführungsobjektivität: Theoretisch müßte man eine Versuchsperson mehrmals unter denselben Bedingungen (selber Test, Versuchsleiter, etc.) testen und dann einen Mittelwert bestimmen. Dies ist jedoch aufgrund mangelnder Reliabilität und Testwiederholungseffekten praktisch nicht sinnvoll möglich. Herstellung von Auswertungsobjektivität: Hohe Auswertungsobjektivität liegt in der Regel vor, wenn die Richtigkeit der Antworten mit einem Lösungsschlüssel (z.b. Schablone) oder per Computer bestimmt werden kann. Bei offenen Antwortformaten oder in Tests, wo mehrere Lösungen richtig sein können, bzw. auch teilweise richtig sein können oder gar bei projektiven Verfahren hängt die Auswertungsobjektivität davon ab, wie detailliert die Auswertungskategorien im Testmanual beschrieben und eingegrenzt sind. Quantitative Bestimmung der Auswertungsobjektivität: indem mehrere Gutachter unabhängig voneinander das in einer Stichprobe erhobene Material auswerten und der Grad der Übereinstimmung als Korrelationskoeffizient ermittelt wird. Herstellung von Interpretationsobjektivität: Hoch ist die Interpretationsobjektivität in der Regel, wenn wie in der statistischen Vorgehensweise üblich, die entsprechenden Normwerte aus einer Tabelle im Testmanual abgelesen werden können. In projektiven Verfahren ist die Interpretationsobjektivität dagegen meist gering, da subjektive Einschätzungen der Auswerter in die Interpretation mit eingehen. Reliabilität Grad der Genauigkeit/die Messpräzision oder auch die Zuverlässigkeit, mit der ein Test ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (unabhängig von der Validität, also vom Aspekt ob er das misst, was er messen soll). Beim Übergang zu homogenderen Teilpopulationen wird die Reliabilität kleiner. Wie kann ich die Reliabilität erhöhen? Testlänge erhöhen(kann zu Durchführungseinschränkungen führen, Testökonomie und Zumutbarkeit reduzieren sich). (! Spearman-Brown-Formel, bei Verdoppelung: K = N= 2) Homogenere Testitems verwenden (damit reduzieren sich auch die Aspekte, die er erfaßt). Items mittleren Schwierigkeitsgrades wählen, wodurch sich auch deren Trennschärfe erhöht(wirkt allerdings einer Differenzierung in Extrembereichen entgegen). Objektivität steigern Reliabilitätsschätzung. Es gibt vier verschiedene methodische Zugänge die Reliabilität zu bestimmen: 1. Testwiederholungsmethode 2. Paralleltestmethode 3. Testhalbierungsmethode 4. Konsistenzanalyse (innere/interne Konsistenz, hier z. B. berechnet nach Cronbachs Alpha )

14 Retestreliabilität: Vorgehen: Der gleiche Test wird denselben Versuchspersonen zu (mind.) zwei verschiedenen Zeitpunkten vorgegeben. Die Retestreliabilität wird durch die Korrelation zwischen erster und zweiter Messung bestimmt. Anwendung: Wenn Wiederholungseffekte (Übung, Problemeinsicht, Vertrautheit mit Testsituation, Erinnerung an Aufgaben, etc.) nicht zu erwarten sind (z.b. bei Speedtests oder Persönlichkeitstests) Wenn zwischen beiden Messungen ein größeres Zeitintervall liegt Wenn der Test beansprucht, zeitlich stabile Merkmale zu Erfassen Nachteile: Überschätzung der Reliabilität, wenn Lösungen erinnert werden keine Anwendung bei instabilen Merkmalen (z.b. Stimmungen) großer untersuchungstechnischer Aufwand (da Versuchspersonen erneut kontaktiert werden müssen und mit Versuchspersonen- Verlusten zu rechnen ist) Die Reliabilität berechnet sich hier als Korrelation zweier Testdurchgänge mit den gleichen Personen. R = rx1, x2 x1 = Messwert einer Person bei der ersten Messung x2 = Messwert der gleichen Person bei der zweiten Messung Paralleltestreliabilität Vorgehen: In derselben SP werden nach einer kurzen Intervallzeit zwei streng äquivalente Formen eines Tests nacheinander durchgeführt. Parallel sind Tests dann, wenn Mittelwerte und Standardabweichungen identisch sind, sowie die Korrelationen hoch sind (beide Tests also dasselbe erfassen). Je höher die Ergebnisse beider Tests miteinander korrelieren, um so weniger Fehlereffekte liegen vor. Die ermittelten Koeffizienten liegen meist unter denen der Retestreliabilität. Anwendung: Bei instabilen Merkmalen und wenn ohnehin zwei Testversionen entwickelt werden sollen (z.b. bei Gruppentestungen im Leistungsbereich, damit die Leute nicht voneinander in der Testsituation profitieren, also z. B. durch Spicken!). Vorteil: Königsweg der Reliabilitätsbestimmung, weil ein Test so praktisch (intraindividuell) mit sich selbst verglichen werden kann, ohne daß etwa Erinnerungseffekte auftreten. Der Trick ist also, daß man so eine Quasi Messwiederholung ohne Transfereffekte nutzen kann. Die Reliabilität berechnet sich hier als Korrelation der Messwerte der jeweils gleichen Person in den beiden Paralleltests. R = rx,y x = Messwert einer Person bei einem der Paralleltests y = Messwert der gleichen Person bei dem anderen der beiden Paralleltests

15 Testhalbierungsreliabilität Vorgehen: Ein Test wird nur einmal vorgegeben und danach in zwei gleichwertige Hälften aufgeteilt (zum Beispiel nach der Odd-Even-Methode: die geraden Items innerhalb einer Numerierung in die eine, die ungeraden Items in die andere Hälfte. Andere Aufteilungsmöglichkeiten sind: Halbierung in die erste und die zweite Hälfte (also bei 40 Items die ersten 20 und die letzten 20) Auswahl per Zufall Trennung auf der Basis von Analysedaten (Berücksichtigung von Schwierigkeit und Trennschärfe)wobei dann jede Hälfte als quasi-paralleler Teiltest zur anderen Hälfte aufgefaßt wird. Beide Testhälften werden dann miteinander korreliert (Testhalbierungskoeffizient, der die wahre Reliabilität unterschätzt, da die Reliabilität mit der Anzahl der Items zunimmt und dann nach Spearman-Brown-Formel auf die Gesamttestlänge hochgerechnet. Man berechnet also zunächst rx1, x2 x1 = Messwert einer Person bei der ersten Testhälfte x2 = Messwert der gleichen Person bei der zweiten Testhälfte Die Spearman-Brown-Formel zur Testverdoppelung lautet: Der Reliabilitätskoeffizient wird so auf die doppelte Länge der Skala aufgewertet: Korreliert werden miteinander ja nur die Hälften, doch interessant ist allein die Reliabilität der Gesamtskala. Anwendung: Wenn die obigen Reliabilitätsbestimmungen nicht durchgeführt werden können. Vorteile: geringer untersuchungstechnischer Aufwand Motivations-, Stimmungs-, Aufmerksamkeitsschwankungen können als Varianzquelle praktisch ausgeschlossen werden, so daß die instrumentelle Messgenauigkeit hier am besten bestimmt werden kann. Interne Konsistenz Erweiterung, bzw. Verallgemeinerung der Testhalbierungsmethode, wobei jedes Item als ein Paralleltest behandelt wird (setzt Homogenität, bzw. Äquivalenz der Items voraus). Die Analyse erfolgt analog zur Bestimmung der Split-half-Reliabilität, nur daß hier der Test nicht in zwei Teile, sondern in so viele Teile, wie er Items hat, zerlegt wird. Die Analyse liefert dann einen mittleren Split-Half-Koeffizienten. Berechnung: bei dichotomen Antwortformaten durch Korrelationen zwischen allen Items bestimmt werden (mittels einer Kuder-Richardson-Formel), welche dann die wahre Varianz widerspiegeln bei mehrstufigen Antwortformaten (häufiger verwendet) durch Cronbachs Alpha (Koeffizient entspricht der mittleren Testhalbierungsreliabilität eines Tests für alle möglichen esthalbierungen) Bei heterogenen Tests unterschätzt α jedoch die Reliabilität und wird daher auch als Homogenitätsindex bezeichnet Vorteil: Führt zu stabileren Schätzungen als die Testhalbierungsmethode, bei welcher die Koeffizienten von der Halbierungsmethode (Sie wissen ja: z. B. odd-even; Zufall;.) abhängen und ist daher zu bevorzugen. Dies ist quasi eine Verallgemeinerung der Halbierungsmethode. Rein theoretisch wird hier die Testskala nicht nur in zwei Hälften zerlegt, sondern in so viele wie Items vorhanden sind.

16 Wie erkenne ich nun was in SPSS? Die mittlere Interitemkorrelation stellt einen Homogenitätsindex dar. Es handelt sich um die mittlere Korrelation zwischen den Items, diese ist nicht (!) Fisher-Z-transformiert Die Corrected Item-Total Correlation ist die Part- Whole korrigierte Trennschärfe (rit) Die Squared Multiple Correlation ist die quadrierte multiple Korrelation der restlichen Items mit dem vorliegenden Item Je höher die multiple Korrelation ist, desto repräsentativer ist dieses Item für alle anderen Items, da der Anteil der gemeinsamen Varianz dann höher ist

17 Alpha if Item deleted kennzeichnet die Reliabilität der verbleibenden Items, nachdem das vorliegende Item ausgesondert wurde Unter Alpha ist die Gesamtreliabilität unter Berücksichtigung aller Items angegeben Das standardisierte alpha basiert anders als alpha auf Korrelationen (vor der Berechnung werden alle Items z-standardisiert) und nicht auf Varianzen Es führt bei ähnlichen Itemvarianzen zu geringfügig anderen Ergebnissen als Cronbach-alpha Sind die Itemvarianzen stark unterschiedlich, sollte das standardisierte alpha verwendet werden Die Itemstreuungen bewegen sich in einem Bereich von.82 bis 1.08 Validität Definition: Unter Validität versteht man den Grad der Genauigkeit, in dem ein Test (oder ein Verfahren) wirklich das misst (z. B. Persönlichkeitsmerkmal, Verhaltensweise), was er zu messen vorgibt oder messen soll. Ist die Validität hoch, kann von Testergebnissen (numerisches Relativ) auf Verhalten außerhalb der Testsituation (empirisches Relativ) generalisiert werden. wichtigstes Gütekriterium: Denn ein Test kann trotz hoher Objektivität und hoher Reliabilität (die nur günstige Voraussetzungen zur Erreichung hoher Validität schaffen) unbrauchbar sein, wenn er nicht das misst, was er messen soll.

18 Inhaltsvalisdität Inwiefern repräsentiert das Messverfahren das zu messende unmittelbar? Kein mathemat./numerischer Kennwert! Schluss auf Verhalten außerhalb des Tests, das dem Verhalten im Test ähnlich ist (ohne sich auf ein latentes Merkmal/Konstrukt zu beziehen) Definition: Inhaltsvalidität liegt vor, wenn der Inhalt der Testitems das zu messende Konstrukt in seinen wichtigsten Aspekten erschöpfend erfaßt oder wenn die Aufgaben eines Tests (repräsentative) Stichproben aus dem zu erfassenden Zielmerkmal selbst darstellen (Repräsentationsschluss von Testsituation auf Realsituation). Die Inhaltsvalidität ist maximal, wenn Testsituation und Kriterium vollständig (und augenfällig) übereinstimmen. Beispiel: Englischer Wortschatz Kriteriumsvalidität Numerische(r) Kennwert(e), so viele wie es sinnvolle Kriterien gibt! =>mögliches Problem: diese Validitätsart kann nicht unabhängig von den Reliabilitäten von Test und Kriterium ermittelt werden; evtl. Minderungskorrektur einsetzen bei Interesse an theoret./ "wahren"/ "was wäre bei perfekter Reliabilität" - Zusammenhängen! für praktische (Vorhersage-) Zwecke jedoch unkorrigierte Werte nehmen! Konstruktvalidität

19 Die Analysekriterien der MTMM erlauben aufgrund ihres informellen Charakters keine objektive, quantitative Bestimmung der konvergenten und diskriminativen Validität. Dies führt dazu, daß der Auswerter z.b. selbst entscheiden muß, wie viele Verletzungen eines Kriteriums (die bei zunehmender Anzahl von Traits und Methoden aufgrund von Stichprobenfluktuationen und anderen Artefakten sehr wahrscheinlich werden) er tolerieren soll, ohne damit etwa die diskriminante Validität in Frage zu stellen. Das wichtigste Problem stellt die implizite Voraussetzung des Auswertungsverfahrens dar, daß alle Merkmale mit gleicher Zuverlässigkeit gemessen werden müssten, was in der Praxis nicht der Fall ist und so zu Fehleinschätzungen führt.

20 Normierung / Eichung Definition: Die Normierung eines Tests liefert das Bezugssystem, um die individuellen Testwerte (Rohwerte, die für sich noch keine Aussagekraft haben) im Vergleich zu denen einer größeren (meist repräsentativen) SP von Testteilnehmern einordnen zu können. Zu diesem Zweck werden die Rohwerte in standardisierte Werte (Prozeß der Standardisierung), für die es wiederum verschiedene Skalen gibt (z- Werte, T-Werte, etc.), transformiert. Standardisierung: Bezeichnet die Transformation von Rohwerten in Standardwerte, die einen festgelegten Mittelwert (z.b. M=100) und eine festgelegte Streuung (z.b. s=15) haben. Eine Standardisierung wird mit dem Ziel vorgenommen, Messungen, die auf verschiedenen Maßstäben vorgenommen wurden, vergleichbar zu machen. Ziele: Testwerte verschiedener Probanden im gleichen Test oder von denselben Probanden in verschiedenen Tests sollen vergleichbar gemacht werden. Darstellen auf einer einheitlichen Skala. Transformation der Rohwerte (ohne Änderung des Skalenniveaus). Arten von Normierungen: Man unterscheidet drei unterschiedliche Arten, um Rohwerte in Standardwerte zu transformieren: Äquivalentnormen Variabiliäts- und Abweichungsnormen Prozentränge Variabilitäts- oder Abweichungsnormen liegen vor, wenn die individuelle Leistung mit der Werteverteilung (meist Normalverteilung, durch Mittelwert und Streuung charakterisiert) einer (repräsentativen) Vergleichspopulation (z.b. gleiche Altersgruppe) in Beziehung gesetzt wird. Testwerte werden dabei in Werte einer Standardskala transformiert, z.b. in z-werte (M=0, S=1), Z-Werte (M=100, S=10) oder T-Werte (M=50, S=10). Beispiel: Wechsler-Intelligenztest, bei welchem die Testergebnisse für jede Altersstufe separat normiert worden sind (M=100, S=15). Prozentränge Hier werden die Rohwerte in Prozentwerte transformiert, die darüber informieren, wieviel Prozent aller Mitglieder einer Bezugspopulation (z.b. gleiche Altersstufe) einen höheren oder geringeren Wert erzielt haben. Beispiel: 20 Punkte in einem IQ-Test könnten z.b. einem Prozentrang von 60 entsprechen, d.h., daß 60% der Vergleichspopulation schlechter und 40% besser abgeschnitten haben. Vorteile: Setzt keine best. Verteilungsform voraus (Bezugswerte werden nur gerangreiht). Leichte Verständlichkeit. Problem: Gleiche Prozentrangdifferenzen müssen aufgrund des ordinalen Skalenniveaus nicht gleiche Rohwertdifferenzen bedeuten, oder gleichen Differenzen in Standardnormwerten entsprechen.

21 Eichstichprobe Der Umfang der Eichstichprobe ist abhängig vom: Allgemeinheitsgrad des untersuchten Merkmals vom Heterogenitätsgrad der Zielpopulation Je allgemeiner das Merkmal und je heterogener die Population, desto größer sollte die Eichstichprobe sein Verfälschungen bedrohen die Validität Welche Verfälschungsarten gibt es? Absichtliche Verfälschungen oder Verstellungen (Faking): Wenn Versuchspersonen z.b. versuchen möglichst hohe Werte zu erzielen (Simulation), möglichst niedrige Werte zu erzielen (Dissimulation, Dummstellen ) oder entsprechend der von ihnen wahrgenommenen sozialen Erwünschtheit reagieren. Unbemerkte/unkontrollierte Verzerrungen: Wenn Versuchspersonen unbewußt bestimmte Antworttendenzen (s. u.) bevorzugen oder sich kognitive Effekte aus den Bereichen Gedächtnis (es werden nur ausgewählte, nicht repräsentative Verhaltensaspekte erinnert), Konzentration (nichtüberdachtes Antworten), Informationsverarbeitung, Selbstbeobachtung oder Selbstdarstellung auf die Testergebnisse auswirken. Ursachen für (absichtliche) Testverfälschungen: Da Testergebnisse für die Versuchspersonen oft persönlich sehr wichtig sind (z.b. Einstellungs- oder Selektionstests), haben sie ein Interesse daran, die Ergebnisse so zu korrigieren, daß das von ihnen angestrebte Ziel besser erreicht werden kann. Versuchspersonen können aber auch einfach (z.b. mangels Vertrauen zum Versuchsleiter) nicht geneigt sein, best. Aspekte ihres Verhaltens und Denkens anderen Personen mitzuteilen. Welche wichtigen (voneinander wohl nicht unabhängigen) Verfälschungsarten gibt es? Selbstdarstellung Soziale Erwünschtheit Antworttendenzen Urteilsfehler beim Einsatz von Ratingskalen

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Konstruktvalidität: MTMM # 2 Konstruktvalidität: MTMM # 3 Konstruktvalidität: Probleme der MTMM Die Analysekriterien der MTMM

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Wie läßt sich die Reliabilität erhöhen? Testlänge erhöhen (Kann zu Durchführungseinschränkungen führen; Testökonomie und Zumutbarkeit

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Inhaltsfolie # 2 KTT Axiome 4. Axiom Die Höhe des Messfehlers E ist unabhängig vom Ausprägungsgrad der wahren Werte T anderer

Mehr

Überblick über die ProbabilistischeTesttheorie

Überblick über die ProbabilistischeTesttheorie Überblick über die ProbabilistischeTesttheorie Schwächen der Klassischen Testtheorie Axiome Theoretische Festlegungen nicht überprüfbar! Einige sind kontraintuitiv und praktisch nicht haltbar Stichprobenabhängigkeit

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Probabilistische Testtheorie # 2 Itemcharakteristische Funktionen (Itemcharakteristiken, IC - Funktion): Diese beschreibt die

Mehr

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben? Eigene MC-Fragen Testgütekriterien (X aus 5) 1. Wenn verschieden Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen, entspricht dies dem Gütekriterium a) Durchführungsobjektivität

Mehr

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität Testtheorie und Gütekriterien von Messinstrumenten Objektivität Reliabilität Validität Genauigkeit von Messungen Jede Messung zielt darauf ab, möglichst exakte und fehlerfreie Messwerte zu erheben. Dennoch

Mehr

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals. Basiert auf RETESTRELIABILITÄT Wird auch genannt Teststabilität Geeignet für Korrelation wiederholter Testdurchführungen Abhängig von beeinflusst Stabilität des Zielmerkmals Persönlichkeitstests Speedtests

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Formale Kriterien einer guten Testaufgabe Objektivität: Sie muss von verschiedenen Auswertern gleichermaßen als richtig oder

Mehr

4.2 Grundlagen der Testtheorie

4.2 Grundlagen der Testtheorie 4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt

Mehr

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität Varianzzerlegung Die Varianz der beobachteten Testwerte x v : setzt sich zusammen aus zerlegen wahrer Varianz und Fehlervarianz: σ (x) = σ (τ) + σ (ε) Varianzzerlegung und Definition der Reliabilität (

Mehr

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern Tutorium Testtheorie Termin 3 Charlotte Gagern charlotte.gagern@gmx.de Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität 1 Hauptgütekriterien Objektivität Reliabilität Validität 2 Hauptgütekriterien-Reliabilität

Mehr

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung 3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten

Mehr

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Verfahren zur Skalierung. A. Die klassische Vorgehensweise - nach der Logik der klassischen Testtheorie Verfahren zur Skalierung A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie 1. Daten: z. Bsp. Rating-Skalen, sogenannte "Likert" - Skalen 2. Ziele 1. Eine Skalierung von Items

Mehr

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität Objektivität und Objektivität: Inwieweit ist das Testergebnis unabhängig von externen Einflüssen Effekte des Versuchsleiters, Auswertung, Situation, Itemauswahl : Inwieweit misst der Test das, was er messen

Mehr

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Welche Gütekriterien sind bei der Bewertung von Lernleistungen Welche Gütekriterien sind bei der Bewertung von Lernleistungen wichtig? Anne Spensberger; Ramona Dutschke; überarbeitet von Susanne Narciss Eine gerechte Bewertung von Lernleistungen setzt voraus, dass

Mehr

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017 Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten der

Mehr

Messtherorie Definitionen

Messtherorie Definitionen Messtherorie Definitionen Begriff Definition Beispiel Relationen Empirisches Relativ eine Menge von Objekten und ein oder mehreren beobachtbaren Relationen zwischen dieses Objekten Menge der Objekte =

Mehr

Grundlagen der Testkonstruktion

Grundlagen der Testkonstruktion Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc. Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige

Mehr

Einführung in die Theorie psychologischer Tests

Einführung in die Theorie psychologischer Tests Gerhard H. Fischer Einführung in die Theorie psychologischer Tests Grundlagen und Anwendungen VERLAG HANS HUBER BERN STUTTGART WIEN Inhaltsverzeichnis Vorwort 9 Die Notation 12 Teil 1: Abriss der klassischen

Mehr

Reliabilitäts- und Itemanalyse

Reliabilitäts- und Itemanalyse Reliabilitäts- und Itemanalyse In vielen Wissenschaftsdisziplinen stellt die möglichst exakte Messung von hypothetischen Prozessen oder Merkmalen sogenannter theoretischer Konstrukte ein wesentliches Problem

Mehr

Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Onlinestudie Folie 1 Klassische Testtheorie (KTT) Eigenschaften psychologischer Testverfahren, die auf Basis der Klassischen Testtheorie (KTT) konstruiert wurden: -Gleicher SEE für alle Mitglieder einer

Mehr

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 4 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Was ist eine Testtheorie? Grundlagen der Item-Response. Response-Theorie. Modelle mit latenten Variablen

Was ist eine Testtheorie? Grundlagen der Item-Response. Response-Theorie. Modelle mit latenten Variablen Was ist eine Testtheorie? Eine Testtheorie beschäftigt sich also mit dem Zusammenhang zwischen Testverhalten und dem zu erfassenden Merkmal. Testauswertung Persönlichkeitsmerkmal (z.b. Emotionalität, Fähigkeit)

Mehr

Einführung in die Statistik Testgütekriterien

Einführung in die Statistik Testgütekriterien Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Testgütekriterien Überblick Einleitung Objektivität Reliabilität Validität Nebengütekriterien

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 007 Inhaltsfolie Testtheorien SS 007 Dr. Tobias C. Haupt www.haupt-uni.de haupt@lmu.de # Berechnung von Trennschärfen mit SPSS Testtheorien

Mehr

6. Faktorenanalyse (FA) von Tests

6. Faktorenanalyse (FA) von Tests 6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...

Mehr

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = % allgemein Klassifizierung nach Persönlichkeitseigenschaften Messung von Persönlichkeitseigenschaften Zuordnung von Objekten zu Zahlen, so dass die Beziehungen zwischen den Zahlen den Beziehungen zwischen

Mehr

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3 TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3 Prof. Dr. Franke SS2012 Hochschule Magdeburg-Stendal (FH) M.Sc. Rehabilitationspsychologie Gliederung Reliabilität 1. Überblick 2. Berechnung

Mehr

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro Vorüberlegungen Wie objektiv ist der Test in seiner Durchführung, Auswertung und Interpretation? Misst das Verfahren

Mehr

Gütekriterien: Validität (15.5.)

Gütekriterien: Validität (15.5.) Gütekriterien: Validität (15.5.) Besprechung der Hausaufgaben Validität: Arten und Schätzmethoden Inhaltsvalidität Empirische Validität Konstruktvalidität Testfairness Normierung Nebengütekriterien Zusammenfassung

Mehr

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017 Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Gütekriterien I Heute: -Gütekriterien II Rückblick Gütekriterien der qualitativen Forschung Gütekriterien der quantitativen Forschung:

Mehr

Rekodierung invertierter Items

Rekodierung invertierter Items 16.Testkonstruktion Items analysieren (imrahmen der KTT) Pretest Aussortieren / Umschreiben von unverständlichen, uneindeutigen oder inakzeptablen Items empirische Prüfung Kennwerte: Itemschwierigkeit

Mehr

Das Rasch-Modell und seine zentralen Eigenschaften

Das Rasch-Modell und seine zentralen Eigenschaften Das Rasch-Modell und seine zentralen Eigenschaften Stella Bollmann Seminar Psychometrische Modelle: Theorie und Anwendungen Institut für Statistik, LMU München München, 27. Mai 2014 Stella Bollmann Das

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Sitzung: - Gütekriterien I Heute: -Gütekriterien II Rückblick Gütekriterien der qualitativen Forschung Gütekriterien der quantitativen

Mehr

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und Tests Systematisierung von Tests Itemarten Skalenarten im Detail Die Likert Skala Skala: Eine Skala ist ein Instrument zur Messung von (theoretischen)

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften TEIL 3: MESSEN UND SKALIEREN GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Objektivität Reliabilität Validität Konstruierte Skalen in den Sozialwissenschaften

Mehr

Grundlagen sportwissenschaftlicher Forschung Test

Grundlagen sportwissenschaftlicher Forschung Test Grundlagen sportwissenschaftlicher Forschung Test Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Was ist Messen? Grundlagen des Messens Zuordnen von Objekten (oder Ereignissen)

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

2.4 Indexbildung und Einblick in Skalierungsverfahren

2.4 Indexbildung und Einblick in Skalierungsverfahren 2.4 Indexbildung und Einblick in Skalierungsverfahren 79 15. November 2013 2.4.1 Indexbildung Zusammenfassung mehrerer Indikatoren eines Konstrukts zu einer Kennzahl. Oft sind Konstrukte mehrdimensional

Mehr

Was ist eine Testtheorie?

Was ist eine Testtheorie? Was ist eine Testtheorie? Eine Testtheorie bezeichnet eine Gesamtheit von Methoden zur Behandlung der Fragestellungen, welche sich bei der Testkonstruktion und -auswertung ergeben. Dieser Begriff ist nicht

Mehr

Testtheorie und Testkonstruktion

Testtheorie und Testkonstruktion v *»» Testtheorie und Testkonstruktion von Michael Eid und Katharina Schmidt HOGREFE GÖTTINGEN BERN WIEN PARIS OXFORD PRAG TORONTO BOSTON AMSTERDAM KOPENHAGEN STOCKHOLM FLORENZ HELSINKI Inhaltsverzeichnis

Mehr

Auswahl von Testaufgaben

Auswahl von Testaufgaben Auswahl von Testaufgaben Auswahl von Testaufgaben Itemformat Formulierung Probleme/Verfälschungen Itemanalyse Skalen Itemformat Nach Bortz Offene Beantwortung Nach Bühning Freies Itemformat Halboffene

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische TEIL 3: MESSEN UND SKALIEREN 1 Das Messen eine Umschreibung Feststellung der Merkmalsausprägungen von Untersuchungseinheiten (z.b. Feststellung, wie viel eine Person wiegt oder Feststellung, wie aggressiv

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r Dr. Wolfgang Langer - Methoden V: Explorative Faktorenanalyse SoSe 1999-1 Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala Für die Schätzung der Zuverlässigkeit einer additiven Itemskala,

Mehr

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme Empirische Forschung Übung zur Vorlesung Kognitive Modellierung S. 1 Gliederung 1. Was ist empirische Forschung? 2. Empirie Theorie 3. Gütekriterien empirischer Forschung 4. Sammlung von Daten 5. Beschreibung

Mehr

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung Was heißt messen? Ganz allgemein: Eine Eigenschaft eines Objektes wird ermittelt, z.b. die Wahlabsicht eines Bürgers, das Bruttosozialprodukt eines Landes, die Häufigkeit von Konflikten im internationalen

Mehr

Einführung in die Test- und Fragebogenkonstruktion

Einführung in die Test- und Fragebogenkonstruktion Markus Bühner 1 Einführung in die Test- und Fragebogenkonstruktion 2., aktualisierte und erweiterte Auflage PEARSON Studium ein Imprint von Pearson Education München Boston San Francisco Harlow, England

Mehr

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München Abb. 1.1: Concept-Map zu den Kennzeichen von Diagnostik Abb. 1.2: Concept-Map zu den Arten und Strategien von Diagnostik Abb. 2.3: Concept-Map zur Item-Response-Theorie Abb. 2.4: Concept-Map zur Konstruktionsweise

Mehr

Grundlagen der Statistik

Grundlagen der Statistik Grundlagen der Statistik Übung 6 2009 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den insendeaufgaben geprüften Lehrzielgruppen Lehrzielgruppe:

Mehr

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test Was ist ein Test? Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage

Mehr

Tests. Eine Einführung

Tests. Eine Einführung Eine Einführung Dr. Uwe Wiest, Delmenhorst 2005, 2018 Testaufgaben Wozu der ganze Umstand? Sauber konstruierte und normierte Tests erlauben es, über die Leistungsfähigkeit einer Person in einem definierten

Mehr

Gütekriterien von Messungen

Gütekriterien von Messungen Gütekriterien Messungen 1. Hauptgütekriterien 2. Nebengütekriterien Ökonomie Unter einer Messung (Prüfung) versteht man den Grad, in dem die Ergebnisse einer Messung (Prüfung) unab-hängig den Untersuchern

Mehr

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke 4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie,

Mehr

Inhaltsverzeichnis. Vorwort zur 3. Auflage 11

Inhaltsverzeichnis. Vorwort zur 3. Auflage 11 Vorwort zur 3. Auflage 11 Kapitel 1 Einführung 13 1.1 Ziel des Buches 14 1.2 Testanwendungsbereiche 18 1.3 Arten von Tests 20 1.3.1 Raven Progressive Matrices 23 1.3.2 NEO-FFI und NEO-PI-R 24 1.3.3 Thematischer

Mehr

Klausur Testtheorie: Antworten und Lösungen

Klausur Testtheorie: Antworten und Lösungen Name: Matrikelnummer: Klausur Testtheorie: Antworten und Lösungen Psychologisches Institut der JGU Mainz Freitag, 24. 07. 09 Bitte vergessen Sie nicht, Ihren Namen und Ihre Matrikelnummer anzugeben! 1.

Mehr

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung. Abhängige Variable Die zu untersuchende Variable, die von den unabhängigen Variablen in ihrer Ausprägung verändert und beeinflusst wird (siehe auch unabhängige Variable). Between-Subjects-Design Wenn die

Mehr

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s Explorative Faktorenanalyse als Instrument der Dimensionsreduktion Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im Datensatz

Mehr

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im

Mehr

Personenparameter + Itemparameter

Personenparameter + Itemparameter 9.Testtheorie: Probabilistische Testtheorie PTT - Grundideen Grundgedanke: Item-Response-Theory IRT probabilistischer Zusammenhang! Wie wahrscheinlich ist es, dass sich eine bestimmte Merkmalsausprägung

Mehr

Lehrbuch Testtheorie - Testkonstruktion

Lehrbuch Testtheorie - Testkonstruktion Jürgen Rost Lehrbuch Testtheorie - Testkonstruktion Zweite, vollständig überarbeitete und erweiterte Auflage Verlag Hans Huber Bern Göttingen Toronto Seattle Inhaltsverzeichnis Vorwort zur zweiten Auflage

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Reliabilität in der klassischen (psychometrischen) Testtheorie Statistisches Modell Realisierung mit der SPSS-Prozedur Reliability Klassische Testtheorie:

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 397 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

Testtheorie und Fragebogenkonstruktion

Testtheorie und Fragebogenkonstruktion Helfried Moosbrugger Augustin Kelava (Hrsg.) Testtheorie und Fragebogenkonstruktion Mit 66 Abbildungen und 41 Tabellen 2., aktualisierte und überarbeitete Auflage ~ Springer Kapitelübersicht Einführung

Mehr

Item-Response-Theorie Probabilistische Testtheorie. Christian Stroppel

Item-Response-Theorie Probabilistische Testtheorie. Christian Stroppel Item-Response-Theorie Probabilistische Testtheorie Referat von: Christian Stroppel Testtheorie Personenparameter Latente Variable ξ Testtheorie Manifeste Variable Xvi Eine Testtheorie beschreibt in welchem

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Reliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

Reliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1 Reliabilität Kapitel 4 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1 Reliabilität Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz

Mehr

Das Rasch-Modell. Emil Fazli. 17. Juni Betreuer: Dr. Marco Cattaneo

Das Rasch-Modell. Emil Fazli. 17. Juni Betreuer: Dr. Marco Cattaneo Das Rasch-Modell Emil Fazli Betreuer: Dr. Marco Cattaneo 17. Juni 2013 Inhaltsverzeichnis 1 Einfuehrung 2 2 Mathematische Formulierung 3 2.1 Die Datenmatrix......................... 3 2.2 Die Modellgleichung.......................

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

Name Vorname Matrikelnummer Unterschrift

Name Vorname Matrikelnummer Unterschrift Dr. Hans-Otfried Müller Institut für Mathematische Stochastik Fachrichtung Mathematik Technische Universität Dresden Klausur Statistik II (Sozialwissenschaft, Nach- und Wiederholer) am 26.10.2007 Gruppe

Mehr

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke 4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie,

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Rückblick Letztes Mal: Gütekriterien Heute: Erhebungstechniken I Rückblick Validität Nebengütekriterien Heute: Erhebungstechniken Wie kommt man zu

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten Methoden der Psychologie 14.12.2016 Dr. Z. Shi Wiss. Arbeiten Tree of Knowledge 1. Quantitative vs. Qualitative Forschung 2. Subjektive vs. Objektive Messverfahren 3. Gütekriterien 1. Objektivität 2. Validität

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:

Mehr

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27 Inhalt I Einführung Kapitel 1 Konzept des Buches........................................ 15 Kapitel 2 Messen in der Psychologie.................................. 27 2.1 Arten von psychologischen Messungen....................

Mehr

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler Hausübung In der Übung Übungsblatt 06 1. Gegeben: Skala zur Messung der Gesundheitssorge mit 20 Items (dichotomes Antwortformat).

Mehr

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische TEIL 3: MESSEN UND SKALIEREN 1 Das Messen eine Umschreibung Feststellung der Merkmalsausprägungen von Untersuchungseinheiten (z.b. Feststellung, wie viel eine Person wiegt oder Feststellung, wie aggressiv

Mehr

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 4 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ 20.2.13 Einführung, Verteilung der Termine 1 25.9.13 Psychologie

Mehr

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG GLIEDERUNG: 1. Überblicksartige Beschreibung 2. Testgrundlage

Mehr

Messwiederholungen und abhängige Messungen

Messwiederholungen und abhängige Messungen Messwiederholungen und abhängige Messungen t Tests und Varianzanalysen für Messwiederholungen Kovarianzanalyse Thomas Schäfer SS 009 1 Messwiederholungen und abhängige Messungen Bei einer Messwiederholung

Mehr

Bivariate Analyseverfahren

Bivariate Analyseverfahren Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs

Mehr

Exploratorische Faktorenanalyse. Exploratorische Faktorenanalyse. Exploratorische Faktorenanalyse

Exploratorische Faktorenanalyse. Exploratorische Faktorenanalyse. Exploratorische Faktorenanalyse Exploratorische Faktorenanalyse Der Begriff Faktorenanalyse umfasst eine Gruppe multivariater Analyseverfahren, mit denen zugrundeliegende gemeinsame Dimensionen von Variablenmengen (z.b. Fragebogenitems)

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Psychologische Diagnostik

Psychologische Diagnostik Psychologische Diagnostik von Andre Beauducel und Anja Leue '> -HpGREFE GÖTTINCEN BERN WIEN PARIS OXFORD PRAG TORONTO BOSTON AMSTERDAM KOPENHAGEN STOCKHOLM FLORENZ - HELSINKI Inhaltsverzeichnis Vorwort

Mehr

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent Deskriptive Statistik 1. Verteilungsformen symmetrisch/asymmetrisch unimodal(eingipflig) / bimodal (zweigipflig schmalgipflig / breitgipflig linkssteil / rechtssteil U-förmig / abfallend Statistische Kennwerte

Mehr

Forschungsmethoden VORLESUNG SS 2018

Forschungsmethoden VORLESUNG SS 2018 Forschungsmethoden VORLESUNG SS 2018 SOPHIE LUKES Rückblick Letztes Mal: Gütekriterien Heute: Erhebungstechniken I Rückblick Validität Nebengütekriterien Heute: Erhebungstechniken Wie kommt man zu einer

Mehr