Grundlagen diagnostischer Verfahren

Größe: px
Ab Seite anzeigen:

Download "Grundlagen diagnostischer Verfahren"

Transkript

1

2 35 Grundlagen diagnostischer Verfahren.1 Voraussetzungen und theoretische Basis psychometrischer Tests Anforderungen an einen Test Die klassische Testtheorie (KTT) Item-Response-Theorie (IRT) Helfrich Moosbrugger Grundlagen kriteriumsorientierter Tests 84. Konstruktionsprinzipien psychometrischer Tests Grundlegende Entscheidungen vor der Testkonstruktion 89.. Itemgewinnung Testentwurf Grundzüge von Itemanalysen Gütekriterien diagnostischer Verfahren Qualitätsstandards Objektivität Reliabilität Validität Normierung Weitere Gütekriterien 168 L. Schmidt-Atzert, M. Amelang, Psychologische Diagnostik, DOI / _, Springer-Verlag Berlin Heidelberg 01

3 36 Kapitel Grundlagen diagnostischer Verfahren.1 Voraussetzungen und theoretische Basis psychometrischer Tests.1.1 Anforderungen an einen Test Was versteht man unter einem»test«? Arten von Tests Grundvoraussetzungen für die Konstruktion eines Tests Die klassische Testtheorie (KTT) Annahmen der KTT Ableitungen aus den Grundannahmen der KTT Grenzen der KTT Das Verhältnis gruppenstatistischer Daten zum Einzelfall Item-Response-Theorie (IRT) Helfrich Moosbrugger Grundüberlegungen der Item-Response-Theorie Latent-Trait-Modelle mit dichotomem Antwortmodus Weitere Modelle der IRT Grundlagen kriteriumsorientierter Tests Anforderungen an einen Test Testbegriff Was versteht man unter einem»test«? Der Begriff»Test«ist schon lange in unsere Alltagssprache und unser Alltagsleben eingedrungen. Bevor wir einen neuen Staubsauger, ein Auto, ein Fernsehgerät oder vielleicht auch nur ein Haarwaschmittel kaufen, suchen wir nach einem Testbericht über dieses Produkt. Einige Zeitschriften befassen sich allgemein mit Verbrauchertests (Test, Ökotest, Finanztest), andere wie Auto-, Computer- oder Fotozeitschriften berichten immer wieder über einschlägige Tests. Banken werden einem»stresstest«unterzogen, um ihre Funktionsfähigkeit unter widrigen Randbedingungen abzuschätzen. In der Apotheke kann man Tests kaufen, die eine Schwangerschaft, hohe Blutzuckerwerte oder Eiweiß im Urin erkennen. Und dann gibt es auch Tests, die meist von Psychologen entwickelt wurden. Sie dienen dazu, die Eignung für ein Studium, Persönlichkeitseigenschaften oder etwa die Intelligenz zu messen. Im Internet findet man psychologische»tests«, die vielleicht nicht einmal diesen Namen verdienen. Deshalb ist es sinnvoll, erst einmal zu definieren, was man unter einem Test versteht. Anschließend lässt sich beurteilen, ob ein Produkt den Namen»Test«verdient. Wir werden auch feststellen, dass es diagnostische Verfahren gibt, die nicht als Test bezeichnet werden und dennoch die Definitionskriterien erfüllen. In der Fachliteratur finden sich zahlreiche Definitionen, die auf den ersten Blick uneinheitlich erscheinen. Zunächst wird eine Auswahl von Definitionen vorgestellt, aus der dann wesentliche gemeinsame Definitionsmerkmale herausgearbeitet werden.

4 37.1 Voraussetzungen und theoretische Basis psychometrischer Tests Definitionen von»test«4»a test is a standardized procedure for sampling behavior and describing it with categories or scores. In addition, most tests have norms or standards by which the results can be used to predict other, more important behaviors«(gregory, 004, S. 30). 4»A test may be defined simply as a measuring device or procedure. the term psychological test refers to a device or procedure designed to measure variables related to psychology (for example, intelligence, personality, ) A psychological test almost always involves analysis of a sample of behaviour. The behaviour sample could range from responses to a pencil-and-paper questionnaire to oral responses to questions to performance of same task. The behaviour sample could be elicited by the stimulus of the test itself, or it could be naturally occurring behaviour (under observation)«(cohen & Swerdlik, 010, S. 5). 4»Ein [psychologischer] Test ist ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung«(Moosbrugger & Kelava, 007, S. ). 4»Ein psychometrischer Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Rost (004) erweitert diese Definition mit dem Hinweis, dass es nicht immer um eine quantitative Aussage geht, sondern das Ziel eines Tests auch eine qualitative Aussage sein kann (z. B. Zuordnung von Personen zu bestimmten Kategorien)«(Bühner, 006, S. 1). Der erste Teil der Definition erfolgt mit Verweis auf eine Definition im Lehrbuch von Lienert und Raatz (1998). 4»Ein psychologisch-diagnostisches Verfahren (vereinfacht oft»test«genannt) erhebt unter standardisierten Bedingungen eine Informationsstichprobe über einen (oder mehrere) Menschen, indem systematisch erstellte Fragen/Aufgaben interessierende Verhaltensweisen oder psychische Vorgänge auslösen; Ziel ist es, die fragliche Merkmalsausprägung zu bestimmen«(kubinger, 009, S. 10). Testdefinitionen in der Fachliteratur Einige Definitionsmerkmale kristallisieren sich heraus, die mehrfach erwähnt werden und denen in den übrigen Definitionen meist nicht explizit oder implizit widersprochen wird. Diese können zu einer Definition zusammengeführt werden. Definitionsmerkmale eines Tests Definition Bei einem psychologischen Test (a) handelt es sich um eine Messmethode, (b) mit der ein psychologisches Merkmal (oder auch mehrere Merkmale) erfasst werden soll(en). (c) Das Vorgehen ist standardisiert (d) und schließt die Erhebung einer Verhaltensstichprobe ein. (e) Das Verhalten wird durch die spezifischen im Test realisierten Bedingungen hervorgerufen. (f) Seine Variation soll weitgehend auf die Variation des zu messenden Merkmals zurückzuführen sein. (g) Ziel ist eine quantitative (Ausprägung des Merkmals) (h) und/oder eine qualitative Aussage (Vorhandensein oder Art des Merkmals) über das Merkmal.

5 38 Kapitel Grundlagen diagnostischer Verfahren Messgegenstand standardisiertes Vorgehen Verhaltensstichprobe Das Verhalten wird durch den Test hervorgerufen Testverhalten Quantifizierung qualitative Aussage Ad b. Der Messgegenstand wird pauschal als psychologisches Merkmal bezeichnet. Eine Einengung auf Persönlichkeitsmerkmale (einschließlich Intelligenz, Interessen, Motivation etc.) ist nicht zwingend. Auch wenn solche Eigenschaften häufig Gegenstand von Tests sind, kann ein Test auch emotionales Erleben (Emotionen, Gefühle etc.), Beziehungen zwischen Menschen (etwa die Qualität einer Paarbeziehung) oder situative Merkmale (z. B. belastende Faktoren am Arbeitsplatz) erfassen. Ad c. Das standardisierte Vorgehen ist ein wesentliches Merkmal aller Messmethoden. Die Bedingungen für die Durchführung müssen genau spezifiziert sein, ebenso die Auswertung und Interpretation der Antworten bzw. Ergebnisse (s. dazu die Ausführungen zur Objektivität 7 Abschn..3). Ad d. Die Erhebung einer Verhaltensstichprobe impliziert, dass der Test Verhaltensweisen erfasst (z. B. Antworten auf Fragen). Da es sich um eine Stichprobe von Verhaltensweisen handelt, sind Prinzipien der Stichprobenziehung zu beachten (repräsentative, systematische oder auch zufällige Auswahl aus einem Universum von Verhaltensweisen). Ad e. Das Verhalten wird durch den Test hervorgerufen (vgl. Definition 5). Damit wird gewährleistet, dass nicht unkontrollierbare situative Bedingungen das Verhalten determinieren. In der Regel wird das Verhalten durch eine präzise Instruktion (z. B.»Kreuzen Sie an, ob die Aussage auf Sie zutrifft oder nicht«; Zusatz»zügig arbeiten«,»ehrlich antworten«,»nicht zu lange nachdenken«) und zusätzliche Fragen bzw. Feststellungen (z. B.»Ich bin nicht so leicht aus der Ruhe zu bringenstimmt«oder»stimmt nicht«) oder Aufgaben (z. B.»Streichen Sie alle d s mit zwei Strichen durch«) hervorgerufen. Eine systematische Beobachtung von Alltagsverhalten oder die Beurteilung von Merkmalen wie»durchsetzungsfähigkeit«im Rollenspiel eines Assessment Centers sind demnach nicht als Test anzusehen. Selbst wenn in einem Assessment Center die Rollen der Teilnehmer durch Instruktionen genau festgelegt sind, werden die einzelnen Personen ihre Anweisungen unterschiedlich umsetzen, und sie werden zudem auf das Verhalten der anderen Teilnehmer reagieren. Diese Eigendynamik führt dazu, dass die situativen Bedingungen des Verhaltens eines Teilnehmers nicht die gleichen sind wie die bei einem anderen Teilnehmer. In einem hoch strukturierten Interview werden eventuell nur Fragen vorgelesen und die Antworten wörtlich protokolliert. Hier können alle Merkmale eines Tests erfüllt sein. Es ist dennoch nicht üblich, ein Interview als einen Test zu bezeichnen. Eine systematische Verhaltensbeobachtung in genau definierten Mini-Situationen (z. B. eine Spinne in einem verschlossenen Glas einen Meter vor den Patienten stellen, tote Spinne auf die Hand des Patienten legen bei standardisiertem»testmaterial«) kann ebenfalls als Test gelten. Man könnte hier von einem»verhaltenstest«sprechen. Solche Verfahren kann man wie einen Test im engeren Sinne konstruieren, analysieren und auch bewerten. Ad f. Das Testverhalten soll die Ausprägung oder das Vorhandensein eines Merkmals anzeigen. Unter Verhalten im Test verstehen wir die Antworten, die ein Proband auf Fragen gibt, seine Reaktionszeit auf Reize oder etwa seine Lösung einer Aufgabe. Die auf Kurt Lewin zurückgehende Verhaltensgleichung»Verhalten ist eine Funktion von Person und Umwelt«macht deutlich, dass das Verhalten im Test nur dann als Indikator eines Personenmerkmals interpretiert werden darf, wenn die Situation (Umwelt) während der Testdurchführung konstant gehalten wird. Ad g. Die Quantifizierung eines Merkmals bedeutet, dass die Ausprägung üblicherweise durch einen Normwert, zumindest aber durch einen Rohwert (also immer durch eine Zahl) ausgedrückt wird. Dass die Ausprägung zwecks Interpretation auch in Kategorien wie»durchschnittlich«oder»hochbegabt«übersetzt werden kann, schränkt die Forderung nach zahlenmäßiger Abbildung nicht ein. Ad h. Eine qualitative Aussage wird in den Definitionen 1 und 4 explizit vorgesehen. Manchmal wird nur ermittelt, ob jemand einer bestimmten Klasse oder Kategorie von Menschen zugerechnet werden kann. In der klinischen Diagnostik gelten genaue

6 39.1 Voraussetzungen und theoretische Basis psychometrischer Tests Regeln, wann eine bestimmte psychische Störung zu diagnostizieren ist. Beispielsweise kann verlangt werden, dass Symptom A, B und C voll ausgeprägt vorliegen müssen und darüber hinaus noch zwei weitere von fünf Symptomen. Auf einen Zahlenwert zur Merkmalsausprägung wird verzichtet. Aus dem Gebot der Standardisierung folgt, dass solche Regeln eindeutig festgelegt sein müssen Arten von Tests Alleine im deutschsprachigen Raum gibt es hunderte von psychologischen Tests. Um ein konkretes Testverfahren einordnen zu können und um gezielt Alternativen aufzufinden, ist eine Systematik der Tests hilfreich. Das wichtigste Kriterium für eine Einteilung von Tests ist der Messgegenstand (welches Merkmal soll erfasst werden?). Die Merkmale lassen sich nach Bereichen unterteilen, wobei sich eine hierarchische Ordnung anbietet, da sich Leistungs- und Persönlichkeitsbereich jeweils weiter untergliedern lassen. Beispielsweise bietet sich für den Persönlichkeitsbereich eine Differenzierung in allgemeine Persönlichkeitsmerkmale (Beispiel: Extraversion), klinisch relevante Persönlichkeitsmerkmale (Beispiel: Depressivität), Motive und Interessen an. Die Frage, wie die Verhaltensstichproben für einen Test gewonnen werden, führt zu den Konstruktionsprinzipien»induktiv«,»deduktiv«, und»external«(7 Abschn...). Die Annahmen, wie und warum das Testverhalten Schlussfolgerungen auf das zu messende Merkmal zulässt, können unter dem Begriff»theoretische Modellannahmen über die Entstehung von Testantworten«eingeordnet werden. Bei Fragebögen wird meist angenommen, dass Menschen in der Lage sind, angemessene Selbstbeschreibungen abzugeben. Dazu gehört die Fähigkeit, sich selbst zu beobachten und das Beobachtete schließlich in die richtigen Worte zu fassen bzw. festzustellen, ob eine Aussage zur Selbstbeobachtung passt. Projektiven Verfahren liegt die Annahme zugrunde, dass mehrdeutiges Material in Abhängigkeit von Persönlichkeitsmerkmalen unterschiedlich interpretiert wird; Introspektionsfähigkeit und Selbstbeurteilung spielen keine Rolle. Viele Tests wurden für bestimmte Anwendungsbereiche entwickelt. Wichtige Anwendungsfelder, in denen Tests häufig eingesetzt werden, sind Berufseignungsdiagnostik, Klinische Psychologie, Neuropsychologie und Schul- und Erziehungsberatung. Für Anwender stellt oft die Zielgruppe, für die ein Test aufgrund seiner Aufgaben und seiner Normen geeignet ist, ein wichtiges Auswahlkriterium dar. Es liegen Tests für Kinder, Jugendliche und Erwachsene vor, wobei oftmals der Altersbereich noch genauer festgelegt bzw. eingeschränkt ist. Aus pragmatischer Sicht stellt sich manchmal die Frage, ob ein Test im Einzelversuch durchgeführt werden muss, oder ob auch Gruppenuntersuchungen möglich sind. Letzteres ist bei der Untersuchung vieler Probanden äußerst ökonomisch. Anwender haben manchmal eine Präferenz für Papier-und-Bleistift-Tests oder computergestützte Tests. Letztere haben den Vorteil, dass die Auswertung automatisch erfolgt. Sie setzen aber die Verfügbarkeit von Computerarbeitsplätzen und teilweise die Anschaffung von Basissoftware für ein Testsystem voraus. Weiterführende Informationen zu den unterschiedlichen Arten von Tests finden sich in 7 Kapitel Grundvoraussetzungen für die Konstruktion eines Tests Merkmal ist hinreichend klar definiert und erforscht Nicht für alle Merkmale liegen Tests vor. Neben mangelnder Nachfrage kann dafür auch eine unbefriedigende Forschungslage verantwortlich sein: Was man messen möchte, ist konzeptuell noch nicht hinreichend präzisiert worden, und oft mangelt es an empirischer Forschung, die ein theoretisches Modell auch stützt. Solche Bedenken werden manchmal beiseite geschoben. Verschärft könnte man daher auch behaupten, dass es Tests gibt, die etwas messen (sollen), über das man kaum etwas weiß. Eine stark zugespitzte Bemerkung dazu lautet:»sie wissen nicht, was es ist aber messen können sie es.«zur Entlastung von Messgegenstand als Einteilungskriterium Konstruktionsprinzipien Anwendungsbereiche und Zielgruppen Einzel- oder Gruppenuntersuchung Papier-und-Bleistift- Tests vs. computergestützte Tests Merkmal ist klar definiert

7 40 Kapitel Grundlagen diagnostischer Verfahren Testverhalten indiziert Merkmal Intelligenzmodell von Cattell Anforderungsanalyse Symptome kennzeichnend für Störung Testautoren, die etwas nebulöse Merkmale per Test erfassen wollen, muss man einräumen, dass die Konstruktion und der gezielte Einsatz von Tests auch dazu beitragen können, ein Konstrukt zu präzisieren. Solche Tests sind vorerst ausschließlich für die Forschung geeignet! Verhalten im Test indiziert das Merkmal Wie kommt man zu der Annahme, dass jemand, der weiß, in welcher Himmelsrichtung die Sonne aufgeht, intelligenter ist als andere? Oder warum soll jemand, der einen kurzen englischen Text liest und Fragen zum Inhalt richtig beantwortet, für ein Psychologiestudium geeignet sein? Oder warum soll jemand depressiv sein, der angibt, dass er unter Appetitmangel leidet? Sämtliche Beispiele stammen aus aktuellen diagnostischen Verfahren. Man könnte argumentieren, dass es völlig genügt, empirisch einen Zusammenhang zwischen der Antwort im Test und dem Merkmal nachzuweisen. Tatsächlich begegnen wir dieser Argumentation bei external konstruierten Tests (7 Abschn....). Meist liegen einem Test aber bestimmte Annahmen oder Modelle zugrunde. Anhand der drei oben genannten Itembeispiele soll dies erläutert werden. Ein Intelligenzmodell, das auf den amerikanischen Chemiker und Psychologieprofessor Cattell zurückgeht, besagt folgendes: Menschen haben eine unterschiedlich stark ausgeprägte Fähigkeit, gut (schnell und richtig) zu denken. Diese fluide Intelligenz genannte Fähigkeit führt dazu, dass man sich in der Schule und generell im Leben effizient Wissen aneignen kann, sofern hinreichend Lernmöglichkeiten bestehen. Als Resultat entsteht kristalline Intelligenz, was nichts anderes als Wissen bedeutet. Folglich ist es angebracht, Wissensfragen (z. B.»In welcher Himmelsrichtung geht die Sonne auf?«) zu stellen, um die kristalline Intelligenz zu messen. Da die kristalline Intelligenz eine wichtige Komponente der allgemeinen Intelligenz ist (Carroll, 1996), kann man solche Fragen (in Kombination mit anderen) auch einsetzen, um die allgemeine Intelligenz zu messen. Will man die Eignung für ein bestimmtes Studium messen, beginnt man mit einer Anforderungsanalyse. Man versucht also herauszufinden, welche Voraussetzungen jemand beispielsweise für ein Psychologiestudium mitbringen sollte. Da an den meisten Universitäten englischsprachige Literatur zu lesen ist, sollen die Studierenden diese Texte sinnverstehend lesen können. Deshalb ist eine Aufgabe, die sinnverstehendes Lesen an einem Text prüft, grundsätzlich für einen Studierfähigkeitstest im Fach Psychologie geeignet. Dem dritten Beispiel liegt eine Konvention zugrunde. Experten haben sich darauf geeinigt, welche und wie viele Symptome vorliegen müssen, damit man von einer bestimmten Störung sprechen kann (z. B. ICD-10; Weltgesundheitsorganisation et al., 006). Testautoren greifen deshalb oft genau die Symptome auf, die als kennzeichnend für eine Störung gelten. Ein Depressionsfragebogen kann daher Fragen enthalten, die das Vorliegen von trauriger Stimmung, Pessimismus, mangelndem Appetit oder etwa Schuldgefühlen prüfen sollen. An das Formulieren von Items (Aufgaben, Fragen) werden also weitaus höhere Anforderungen gestellt als nur Einfallsreichtum. Viele Nichtpsychologen trauen sich zu, einen Fragebogen zu»machen«. Wie gezeigt wurde, braucht man jedoch fundiertes Wissen über die Merkmale, die man erfassen will und einiges mehr: Das Thema Itemkonstruktion wird in 7 Abschnitt. vertieft..1. Die klassische Testtheorie (KTT).1..1 Annahmen der KTT Von wenigen Ausnahmen abgesehen sind die heute gebräuchlichen Tests nach den Regeln der sog. klassischen Testtheorie (KTT) konzipiert worden. Gulliksen (1950)

8 41.1 Voraussetzungen und theoretische Basis psychometrischer Tests hat frühere Forschungsarbeiten, darunter auch Arbeiten von Spearman aus den Jahren 1904 bis 1913, zusammengefasst und aufgearbeitet. Eine mathematisch fundierte Fassung haben Lord und Novick (1968) vorgelegt. Dieses Buch gilt als Grundlage der KTT (vgl. Krauth, 1996). Die KTT ist eine Reliabilitätstheorie, liefert also eine theoretische Begründung der Reliabilität (Messgenauigkeit) eines Tests. Eine grundlegende Annahme ist, dass Testwerte, also die Ergebnisse, die uns Persönlichkeitsfragebögen, Intelligenztests, Konzentrationstests etc. liefern, fehlerbehaftet sind. Wenn jemand in einem Intelligenztest einen IQ von 131 erreicht, muss er nicht unbedingt hochbegabt sein; Hochbegabung ist definiert als IQ über 130. Der IQ von 131 ist nur der beobachtete Wert, der wahre Wert der Person kann tatsächlich niedriger, aber auch noch höher sein. Diese Abweichung kommt durch Messfehler zustande. Wir stellen uns vor, dass der Intelligenztest wiederholt würde, ohne dass Erinnerungs- und Übungseffekte auftreten. Der beobachtete IQ wäre nun 15. Da sich die Intelligenz der Person nicht verändert hat (ihr wahrer Wert ist gleich geblieben), muss der Messfehler jedes Mal unterschiedlich groß gewesen sein. Damit sind auch schon die zentralen Begriffe»beobachteter Wert«,»wahrer Wert«und»Messfehler«eingeführt. Auch eine wichtige Annahme über das Wesen des Messfehlers wurde angedeutet: Der Messfehler variiert von Messung zu Messung. Akzeptiert man bestimmte Grundannahmen, lassen sich Formeln zur Schätzung der Messgenauigkeit (Reliabilität) eines Tests herleiten. Wir können damit die Reliabilität eines Tests berechnen und den Bereich bestimmen, in dem der wahre Wert einer Person (mit einer frei wählbaren Sicherheitswahrscheinlichkeit) liegt. Schon diese kurzen Vorbemerkungen weisen darauf hin, dass die KTT ein sehr nützliches Handwerkszeug darstellt. Die KTT beginnt mit einigen wenigen Grundannahmen (Axiomen). Diese werden a priori angenommen und nicht etwa empirisch durch Untersuchungen begründet. Sie stellen die Grundlage für mathematische Ableitungen dar, die schließlich zu Formeln führen, mit denen wir beispielsweise die Messgenauigkeit eines Tests berechnen. Die Auffassungen, welche Aussagen grundlegende Definitionen, welche Zusatzannahmen und welche bereits Ableitungen darstellen, gehen in der Sekundärliteratur auseinander. Steyer und Eid (001), denen sich Bühner (010) anschließt, gehen von nur zwei Grundannahmen aus. Für das Verständnis der KTT, wie sie im Folgenden dargestellt wird, sind diese Unterscheidungen jedoch von nachrangiger Bedeutung. Annahme: Testwerte sind fehlerbehaftet beobachteter Wert, wahrer Wert und Messfehler Annahme: Der Messfehler variiert von Messung zu Messung Grundannahmen der klassischen Testtheorie (KTT) Erläuterung zu den Symbolen und Abkürzungen Für Kennwerte der Population werden in der Statistik griechische und für Kennwerte der Stichprobe lateinische Buchstaben verwendet. Einer besseren Lesbarkeit zuliebe bleiben wir bei den vertrauten lateinischen Buchstaben. Im Folgenden eine Übersicht über die Bedeutung der im Text verwendeten Abkürzungen: Zeichen Bedeutung Anmerkung T True score = wahrer Wert E Error score = Messfehler Äquivalent mit τ (tau, griech. Buchstabe für t) Äquivalent mit ε (epsilon, griech. Buchstabe für e) X beobachteter Wert 6

9 4 Kapitel Grundlagen diagnostischer Verfahren Zeichen Bedeutung Anmerkung Rel Reliabilität r tt wird manchmal allgemein für Reliabilität benutzt, manchmal auch nur für Retest-Reliabilität. Corr Correlation = Korrelation r wird häufig verwendet, indiziert aber streng genommen nur die Produkt-Moment-Korrelation. Für die Korrelation in der Population wird ρ (Rho, gesprochen Roh) verwendet. Cov Kovarianz Gemeinsame Varianz zweier Variablen. Werden die beiden Variablen z. B. durch z-transformation standardisiert, entspricht deren Kovarianz der Korrelation. E(x) Erwartungswert einer Variablen Stochastischer Begriff; arithmetisches Mittel einer Variablen, das sich bei unendlich vielen Wiederholungen theoretisch ergibt. Grundvoraussetzung Eine Grundvoraussetzung für alle weiteren Schritte ist, dass die Testwerte angemessen variieren; die Varianz darf nicht null betragen, und sie darf nicht unendlich groß sein. Diese Voraussetzung dürfte normalerweise erfüllt sein (Krauth, 1996). Die Überlegungen, die nun über Tests und die Werte von Personen in diesen Tests angestellt werden, gelten nicht nur für»komplette«tests. Sie sind auch gültig, wenn man einen Test in zwei Hälften aufteilt und einen halben, verkürzten Test betrachtet. Man kann sogar noch einen Schritt weiter gehen: Sie gelten auch für ein einzelnes Item. Verhältnis wahrer Wert, beobachteter Wert, Messfehler Jeder beobachtete Wert X i einer Person i in einem Test setzt sich zusammen aus einem wahren Wert T i dieser Person i und einem Fehlerwert E i : X T E i i i Fehlerwert oder Messfehler wahrer Wert Der Fehlerwert oder Messfehler wird somit als eine Größe angesehen, die sich beim Vorgang des Messens über den»eigentlichen«oder wahren Wert legt. Das Pluszeichen bedeutet nicht, dass der beobachtete Wert immer größer ist als der wahre Wert. Man muss sich lediglich vorstellen, dass der Messfehler positive und negative Werte annehmen kann. Dadurch weicht der beobachtete, durch die Testanwendung erhaltene Wert mehr oder weniger stark nach oben oder unten vom wahren Wert ab. Das Ergebnis in einem Test (der beobachtete Wert) darf also nicht als absolut genaue Messung angesehen werden. Der wahre Wert einer Person im Test ist unveränderlich; er ist bei jeder Durchführung des Tests gleich groß so die Annahme. Der Begriff»wahr«ist übrigens missverständlich. Damit ist nicht die wahre Ausprägung eines Merkmals gemeint, sondern nur die Ausprägung des Merkmals, wie sie mit diesem Test gemessen wird. Man stelle sich vor, für Forschungszwecke würden zwei Forschergruppen je einen Intelligenztest entwickeln, der eine extrem hohe Messgenauigkeit erreichen soll (was übrigens technisch möglich ist). Nun untersucht man eine Person mit diesen Tests und ist erstaunt, dass der eine Test einen IQ von 10 und der andere einen von 130 ergibt! Um ganz sicher zu sein, untersucht man nun 100 Personen. Die beiden Tests, so stellt man fest, korrelieren r =.60 miteinander (Intelligenztests korrelieren in dieser Größenordnung untereinander). Die Erklärung für dieses Phänomen ist einfach: Jeder Test liefert ein anderes Ergebnis, misst also eine etwas andere Art der Intelligenz. Die wahre Intelligenz einer Person wird man nie herausfinden, da es sie nicht gibt. Intelligenz ist ein Konstrukt, und ein Konstrukt kann man auf vielfältige Weise operationalisieren (mes-

10 43.1 Voraussetzungen und theoretische Basis psychometrischer Tests. Abb..1 Verteilung der Messfehler sen). Der Zusammenhang zwischen unseren beiden Intelligenztests ist eine Frage der Validität dieser Tests! Für jede Person existiert in einem Test ein wahrer Wert Der wahre Wert einer Person ist konstant zumindest über einen bestimmten Zeitraum. Er könnte theoretisch ermittelt werden, indem man den Test extrem (genau genommen unendlich) oft durchführt und dabei sicherstellt, dass keine Erinnerungs- und Übungseffekte auftreten. Der Mittelwert oder Erwartungswert aller Messergebnisse (also aller beobachteter Werte) wäre dann der wahre Wert: wahrer Wert als Erwartungswert aller Messergebnisse T E( X ) i i Der Erwartungswert des Messfehlers ist null Für jede Testperson i stellt der Messfehler E i eine Zufallsvariable mit dem Erwartungswert (Mittelwert bei unendlich vielen Messungen) null dar (. Abb..1): Der Erwartungswert des Messfehlers ist null E( E i ) 0 Theoretisch ergibt die Summe der Fehlerwerte einer Person bei unendlich häufiger Messwiederholung unter identischen Bedingungen null. Inhaltlich umfasst das Konzept des Messfehlers die Gesamtheit aller unsystematischen Einflussgrößen, die auf das Messergebnis einwirken können. Unsystematisch bedeutet, dass man nicht weiß, welche Fehlerquellen im konkreten Fall wie stark wirken und in welche Richtung. Die unten aufgelisteten Messfehler und viele andere mehr sind potenziell bei jeder Messung wirksam. Sie führen dazu, dass es bei einer Messung vielleicht zu einer leichten Abweichung vom wahren Wert nach unten kommt, bei einer anderen Messung zu einer starken Abweichung nach oben. Über unendlich viele Messungen hinweg gleichen sich die Messfehler aus, addieren sich zu null. Würde man (unendlich) viele Messungen an einer Person durchführen, könnte man die Messfehler völlig ignorieren. Der Mittelwert aller Messungen wäre identisch mit dem wahren Wert der Person in diesem Test. Wie entstehen Messfehler? Grundsätzlich sind die Quellen der Fehlervarianz bekannt. Die Messfehler entstehen durch Fehler bei der Testkonstruktion, bei der Durchführung und bei der Auswertung des Tests. Bei der Testkonstruktion besteht die Gefahr, Items aufzunehmen, die mehrdeutig sind, also von unterschiedlichen Testpersonen unterschiedlich interpretiert werden. Messfehler als Gesamtheit aller unsystematischen Einflussgrößen Fehler bei der Testkonstruktion

11 44 Kapitel Grundlagen diagnostischer Verfahren Fehler bei der Durchführung Fehler bei der Auswertung Entstehung des Messfehlers Der Messfehler ist unabhängig vom wahren Wert Messfehler sind unkorreliert Ein Item wie»ich ärgere mich gelegentlich über mich selbst«bietet gleich mehrfach die Gelegenheit für Interpretationen. Was bedeutet»sich ärgern«? Die Spanne reicht von leichter Verärgerung bis Wut. Wie oft muss man sich am Tag oder in der Woche ärgern, um von»gelegentlich«zu sprechen? Worauf soll sich der Ärger beziehen? Auf die ganze Person, auf ein Verhalten, auf Körperteile, auf die Kleidung etc.? Auch die Instruktion kann missverständlich sein.»streichen Sie alle d s mit zwei Strichen durch«wird normalerweise so verstanden, dass alle d s, die mit zwei Strichen versehen sind (egal, ob oben oder unten), durchzustreichen sind. Es ist aber schon vorgekommen, dass eine Testperson alle d s doppelt, also mit zwei Strichen, durchgestrichen hat. Bei der Durchführung eines Tests kann die Testsituation variieren: Lichtverhältnisse, Geräusche, Luftqualität, Raumtemperatur, Sitzkomfort, Art und Anzahl der anderen Testteilnehmer etc. sind nicht immer identisch, wenn der Test durchgeführt wird. Auch die Testperson selbst ist eine Quelle von Fehlervarianz: Die Motivation, ein gutes Ergebnis zu erzielen, die momentane geistige (Wachheit etc.) und emotionale Verfassung (Angst etc.) oder etwa pharmakologische Einflüsse (Einnahme von Medikamenten, Koffeingenuss etc.) können sich auf die Testleistung auswirken. Der Testleiter ist ebenfalls keine Konstante; Aussehen, Geschlecht, Alter, Kleidung, der Tonfall beim Vorlesen einer Instruktion, Gestik und Mimik etc. variieren und können einen Einfluss auf das Testergebnis haben. Die Auswertung kann bei Tests, die freie Antworten verlangen (dies ist etwa bei vielen projektiven Tests der Fall), nicht völlig standardisiert werden. Selbst beim Auflegen von Schablonen und dem Auszählen von Punkten sind Fehler möglich. Wenn anschließend in der Normtabelle für den Rohpunktwert der richtige Standardwert abgelesen wird, kann die falsche Tabelle aufgeschlagen oder beim Ablesen der Zahlen ein Fehler passieren. Diese Auflistung möglicher Fehler ist nicht vollständig. In ihrer Gesamtheit ergeben sie den Messfehler im Sinne der KTT. Die Auflistung macht plausibel, dass die Annahme von Messfehlern begründet ist. Sie hilft auch zu verstehen, warum manche Tests eine hohe und andere eine niedrige Messgenauigkeit aufweisen (je größer der Einfluss von Messfehlern auf das Testergebnis ist, desto geringer ist die Messgenauigkeit des Tests). Die Messfehler sind unabhängig vom wahren Wert Die Fehlerwerte E i sind unabhängig von den wahren Werten T i der Person i im Test: Corr ( E, T ) 0 i i Dass die Fehlerwerte unabhängig von den wahren Werten sind, bedeutet nichts anderes, als dass ein Test im unteren Bereich (niedrige Fähigkeit) ebenso genau misst wie im mittleren oder im oberen Bereich. Die Messfehler zweier Tests A und B sind unkorreliert Die Messfehler in einem Test korrelieren nicht mit den Messfehlern in einem anderen Test. Zwischen den Fehlerwerten zweier Tests besteht eine Nullkorrelation: Corr ( E, E ) 0 A B Dieser Grundgedanke ist auch auf Testteile, bis hin zu den Items, übertragbar. Wenn die Fehlerwerte zweier Tests unkorreliert sind, wie hier angenommen wird, muss die Korrelation der beiden Testwerte alleine auf den wahren Zusammenhang der Merkmale zurückzuführen sein. Es sei daran erinnert, dass Messfehler unsystematische Fehler sind. Selbstverständlich kann die Korrelation zweier Tests durch systematische

12 45.1 Voraussetzungen und theoretische Basis psychometrischer Tests Fehler künstlich erhöht sein. Ein solcher systematischer Fehler könnte etwa die Antworttendenz der Probanden sein. Einige kreuzen im Zweifelsfall eher»ja«, andere eher»nein«an und das bei allen Tests. Dadurch würde sich die Korrelation der Tests erhöhen, und der wahre Zusammenhang der beiden Tests würde überschätzt. Die Messfehler in einem Test A sind unabhängig von den wahren Werten in Test B Die Messfehler eines Tests korrelieren nicht mit den wahren Werten der Personen in einem anderen Test: Corr ( E T ) 0 A, B Auch wenn eine Person in einem anderen Merkmal eine hohe oder niedrige Ausprägung aufweist, hat dies demnach keinen Effekt auf den Messfehler und damit auf die Genauigkeit der Messung. So ist etwa die Messgenauigkeit eines Intelligenztests nicht davon abhängig, ob die Testpersonen hoch oder niedrig depressiv sind..1.. Ableitungen aus den Grundannahmen der KTT Ableitung der Reliabilität Aus den oben aufgeführten Axiomen lässt sich mathematisch eine Aussage über die Reliabilität (Messgenauigkeit) eines Tests ableiten (7 Abschn..3.3 u. Anhang). Diese Formel stellt die wichtigste Ableitung aus den Annahmen der klassischen Testtheorie dar: Var( T) Rel Var( X) Messfehler sind unabhängig vom wahren Wert in anderen Tests Reliabilität Definition Die Reliabilität eines Tests ist der Anteil der Varianz der wahren Werte (T) an der Varianz der beobachteten Werte (X). Ein Reliabilitätskoeffizient von beispielsweise.80 bedeutet demzufolge, dass die beobachtete Varianz der Testwerte zu 80 Prozent auf Unterschiede zwischen den wahren Werten der Testpersonen zurückzuführen ist und zu 0 Prozent auf Fehlervarianz beruht. Die Formel ist hilfreich, um die inhaltliche Bedeutung der Reliabilität zu begreifen. Noch können wir die Reliabilität eines Tests nicht empirisch bestimmen. Wir kennen immer nur die Varianz der beobachteten Werte, wissen also, wie stark die vorliegenden Messwerte streuen. Wahre Werte und deren Varianz entziehen sich der Beobachtung. Schätzung der Reliabilität eines Tests Die Reliabilität wurde als das Verhältnis der Varianz der wahren Werte zur Varianz der beobachteten Werte bestimmt. Um die Reliabilität anhand empirischer Daten bestimmen zu können, müssen wir die Varianz der wahren Testwerte schätzen. Das gelingt so: Der Test t wird erneut unter identischen Bedingungen mit den gleichen Personen durchgeführt. Diesen zweiten (identischen) Test kennzeichnen wir in der Formel mit t. Nun bestimmen wir die Kovarianz dieser beiden Tests. Die beobachteten Werte setzen sich additiv aus wahren Werten und Fehlerwerten zusammen (X = T + E). Die Kovarianz zwischen additiv zusammengesetzten Variablen lässt sich in verschiedene Kovarianzanteile zerlegen. Für die Kovarianz Cov (X t, X t ) der Testwerte X t, und X t aus Tests t und t können wir daher auch schreiben Cov (T t + E t ) bzw. Cov (T t + E t ). Die Kovarianz lässt sich wie folgt in vier Anteile zerlegen: Schätzung der Varianz der wahren Werte Cov(X, X ) Cov(T, T ) Cov(T, E ) Cov(T, E ) Cov(E,E ) t t t t t t t t t t

13 46 Kapitel Grundlagen diagnostischer Verfahren Zerlegung der Kovarianz zweier identischer Tests Die Varianz der wahren Werte entspricht der Kovarianz der beobachteten Werte Formel zur Berechnung der Reliabilität Retest-Reliabilität Festlegung des optimalen Zeitintervalls Die Fehlerwerte zweier Tests (hier t und t ) sind unkorreliert. Die Fehlerwerte eines Tests (E t bzw. E t ) korrelieren auch nicht mit den wahren Werten eines anderen Tests (T t bzw. T t ). Damit werden alle Kovarianzanteile, in denen E t oder E t enthalten sind, null. Die Gleichung reduziert sich auf die Aussage, dass die Kovarianz der beobachteten Werte gleich der Kovarianz der wahren Werte ist: Cov(X, X ) Cov(T, T ) t t t t Oben hatten wir gesagt, dass der Test t lediglich eine Wiederholung von Test t darstellt. Wir nehmen daher an, dass die wahren Werte T t und T t der beiden Tests in einer festen Beziehung zueinander stehen. Wir nehmen an, dass sie entweder völlig identisch sind (tau-äquivalent; T t =T t ) oder sich nur um einen konstanten Wert unterscheiden (essenziell tau-äquivalent; T t =T t + Konstante). Damit ist die Kovarianz Cov (T t, T t ) identisch mit der Varianz der wahren Werte Var (T t ): Cov(T, T ) Var(T ) t t t Fazit ist, dass die Varianz der wahren Werte eines Tests nun geschätzt werden kann, nämlich als Kovarianz der beobachteten Werte Cov (X t, X t ), die bei Wiederholung des Tests unter identischen Bedingungen anfallen. In der Formel für die Reliabilität (Rel = Var (T) / Var (X)) können wir nun Var (T) durch Cov (X t, X t ) ersetzen und Var (X) durch das Produkt der Standardabweichungen SD von X t und X t : Cov(X t, X t ) Rel Corr(X t, X t ) SD(X ) SD(X t ) t Die große Unbekannte»wahrer Wert«taucht jetzt nicht mehr auf: Wir können die Reliabilität eines Tests über die Korrelation des Tests mit sich selbst (zweiter Wert durch Testwiederholung gewonnen) schätzen. Diese Variante der Reliabilitätsschätzung wird als Retest-Reliabilität bezeichnet. Für die Praxis lassen sich insgesamt vier bedeutsame Methoden der Reliabilitätsschätzung aus den Axiomen der KTT ableiten: Retest-Reliabilität Paralleltest-Reliabilität Split-Half-Reliabilität Interne Konsistenz Ad1: Retest-Reliabilität (Testwiederholung) Ein und derselbe Test wird ein und derselben Stichprobe von Probanden zweimal dargeboten. Die Korrelation zwischen den Ergebnissen der beiden Messungen ist identisch mit der Retest- oder Testwiederholungsreliabilität. Diese wird mit dem Symbol r tt gekennzeichnet, weil hier ein Test mit sich selbst korreliert wird. Häufig steht r tt aber auch allgemein für die Reliabilität eines Tests. Deshalb darf man nicht automatisch annehmen, dass ein r tt -Wert durch die Retest-Methode gewonnen wurde. Bei der Festlegung des optimalen Zeitintervalls für die Wiederholung besteht regelmäßig ein Dilemma: Einerseits gilt es, Erinnerungs- und Übungseffekte zu vermeiden. Das macht eher lange Zeitabstände in der Größenordnung von mehreren Wochen oder gar Monaten erforderlich. Andererseits sollen sich die wahren Werte der Testpersonen zwischen den beiden Messungen nicht verändern. Dieses Argument spricht für eine baldige Testwiederholung. Das Dilemma kann nur durch pragmatische Überlegungen gelöst werden: Wenn die Forschung gezeigt hat, dass ein Merkmal sehr stabil ist (Beispiel: Intelligenz), sind lange Retest-Intervalle (z. B. ein Jahr) anzustreben. Bei stark variierenden Merkmalen wie Emotionen oder Stimmungen kann sich die Ausprägung bereits nach wenigen Minuten deutlich verändert haben. Wie stark die zwei-

14 47.1 Voraussetzungen und theoretische Basis psychometrischer Tests te Messung durch Erinnerungs- und Übungseffekte, aber auch durch Ermüdung, Veränderung der Motivation zur ernsthaften Bearbeitung des Tests und andere Faktoren belastet wird, hängt stark vom jeweiligen Test und auch den Probanden ab. Bei einem langen Test mit vielen Aufgaben werden Erinnerungseffekte nach einem kurzen Zeitintervall eher wenig stören. Ermüdung und Mitarbeitsbereitschaft können dagegen ein ernsthaftes Problem darstellen. Kinder und ältere Leute werden eher unter einer Wiederholung nach nur kurzer Pause leiden als junge Erwachsene. Die Retest-Reliabilität kann sich künstlich erhöhen, wenn Testpersonen bei der zweiten Messung absichtlich ähnlich antworten wie beim ersten Mal. Probanden denken vielleicht, ein Fragebogen würde zweimal durchgeführt, um zu kontrollieren, ob sie den Bogen zuvor zuverlässig bearbeitet haben.! Die Retest-Reliabilität wird nicht durch Merkmalsveränderungen beeinflusst, die alle Personen gleichermaßen betreffen. Mittelwertsunterschiede zwischen erster und zweiter Messung haben keine Auswirkung auf die Höhe der Korrelation. Wenn beispielsweise alle Testpersonen bei der zweiten Testdurchführung zehn Punkte mehr erreichen, weil sie sich an einige Lösungen erinnern konnten, wird die Reliabilität dadurch nicht gemindert. Die Retest-Reliabilität verringert sich nur, wenn die Effekte interindividuell unterschiedlich groß ausfallen, einige Personen große Erinnerungseffekte zeigen und andere kleine. Bei der Interpretation von Retest-Reliabilitäts-Koeffizienten ist das Zeitintervall zwischen beiden Messungen zu beachten. Große Zeitabstände führen tendenziell zu niedrigeren Werten. Dabei ist die Stabilität des Merkmals relevant. Je stärker das Merkmal über die Zeit variiert, desto stärker vermindert sich die Retest-Reliabilität durch lange Zeitintervalle. Niedrige Koeffizienten sind deshalb unter Umständen nicht dem Test anzulasten, sondern der unsystematischen Veränderung des Merkmals. Eventuell ist die Retest-Methode nicht geeignet, die Reliabilität eines Tests zu schätzen. Ad : Paralleltestreliabilität Die Vorgabe paralleler Versionen eines Tests an ein und dieselbe Gruppe von Personen gilt als»königsweg«der Reliabilitätsbestimmung. Wie bei der Retest-Methode wird an zwei Zeitpunkten gemessen. Die Reliabilität des Tests ergibt sich aus der Korrelation der beiden Tests. Der zweite Test ist jedoch nicht mit dem ersten identisch, sondern nur inhaltlich äquivalent. Da Übungs- und Erinnerungseffekte keine Rolle spielen, kann ein relativ kurzes Zeitintervall gewählt werden. Das Problem der Merkmalsfluktuation verliert damit an Bedeutung. Problematisch ist alleine die Konstruktion eines Paralleltests. Der Aufwand kann beträchtlich sein, denn man benötigt doppelt so viele Items wie für einen Test. Je zwei Items müssen einander auf eine nicht triviale Art sehr ähnlich sein. Eine Textaufgabe zum rechnerischen Denken könnte lauten:»peter bezahlt für drei Bleistifte 1,50. Wie viel kosten zwei Bleistifte?«Formal parallel (gleiche Schwierigkeit, gleiche Trennschärfe) wäre das Item:»Hans bezahlt für drei Kugelschreiber 1,50. Wie viel kosten zwei Kugelschreiber?«Einige Probanden könnten erkennen, dass es sich um die gleiche Fragestellung handelt und von Erinnerungseffekten profitieren. Verändert man den Preis (1,80 anstatt 1,50 ) oder die Anzahl der Objekte (sechs anstelle von drei) wird sich die Schwierigkeit verändern. Deshalb werden bei der Konstruktion von Paralleltests oft deutlich mehr Items formuliert als man benötigt, um durch eine geschickte Auswahl zwei parallele Formen zusammenstellen zu können. Paralleltests sollen gleiche Mittelwerte und Streuungen aufweisen und hoch miteinander und mit anderen Variablen gleich hoch korrelieren. Wegen des großen Konstruktionsaufwands gibt es nicht viele Tests mit einer Parallelversion. Manchmal wird lediglich die Reihenfolge der Items verändert. Solche Varianten werden als Pseudo-Paralleltests bezeichnet. Paralleltestversionen werden übrigens nicht entwickelt, um die Reliabilität optimal zu schätzen (dafür wäre der Aufwand zu groß), sondern sie erweisen sich in der Praxis Paralleltestreliabilität Konstruktion eines Paralleltests Nutzen von Paralleltestversionen

15 48 Kapitel Grundlagen diagnostischer Verfahren als nützlich. Erstens erlauben sie Gruppentestungen, ohne dass die Gefahr besteht, dass die Probanden voneinander abschreiben. Zweitens kann man sie zur Veränderungsmessung einsetzen, um die Wirksamkeit einer Interventionsmaßnahme (z. B. Therapieverfahren) zu überprüfen. Sie sind dafür besser geeignet als identische Testformen, da bei der zweiten Erhebung keine Erinnerungseffekte auftreten. Die beiden zuvor beschriebenen Methoden sind sehr aufwändig. Sie setzen voraus, dass man die gleichen Personen zu einem späteren Zeitpunkt erneut untersuchen kann. Abgesehen von dem Problem, alle Probanden für eine erneute Untersuchung zu gewinnen, verdoppelt sich alleine durch die zweite Testung der Aufwand. Die Reliabilität eines Tests kann auch ohne Testwiederholung und ohne Konstruktion einer parallelen Form geschätzt werden. Das Prinzip besteht darin, zu prüfen, ob der Test in sich konsistent ist. Für die Schätzung der Reliabilität benötigt man Informationen auf Itemebene, also die Antworten der Probanden auf jedes Item. Split-Half-Reliabilität Spearman-Brown- Formel Ad 3: Split-Half-Reliabilität (Testhalbierung) Der Test wird nach der Durchführung in zwei möglichst äquivalente Hälften aufgeteilt. So erhält man für jeden Probanden zwei Testwerte. Für die Halbierung kommen mehrere Techniken in Betracht: 4 Aufteilung nach ungerader und gerader Nummer der Items (auch als Oddeven-Methode bezeichnet): Die Items mit den Nummern 1, 3, 5, 7 etc. bilden die eine Testhälfte und die mit den Nummern, 4, 6, 8 etc. die andere. Bei ungerader Itemzahl (z. B. 1) muss man auf ein Item verzichten. Diese Aufteilung bietet sich an, wenn die Items im Test nach ihrer Schwierigkeit geordnet sind oder, wie oft bei Persönlichkeitsfragebogen der Fall, überhaupt keine Ordnung aufweisen. 4 Aufteilung in die erste und zweite Testhälfte: Besteht der Test aus 40 Items, bilden Item 1 bis 0 die eine und die Items 1 bis 40 die andere Hälfte. Diese Halbierungsmethode darf nicht angewandt werden, wenn der Test zeitbegrenzt ist oder wenn die Items nach Schwierigkeit geordnet sind. Beide Hälften wären nicht vergleichbar. 4 Halbierung auf Basis von Itemkennwerten: Dazu werden für alle Items zunächst Schwierigkeit und Trennschärfe ermittelt. Unter Berücksichtigung beider Kennwerte werden möglichst ähnliche Itempaare gebildet. Diese kann man zusätzlich nach ihrer Schwierigkeit ordnen, um dann die Paare zu trennen und nach dem Zufallsprinzip auf zwei Testhälften zu verteilen. 4 Wenn der Test die Schnelligkeit der Bearbeitung misst, bietet sich eine weitere Variante an. Der Test wird nach einer der genannten Methoden vor der Durchführung in zwei Hälften aufgeteilt. Für jede Hälfte steht die gleiche Bearbeitungszeit zur Verfügung (die Hälfte der Bearbeitungszeit für den Gesamttest). In diesem Fall werden quasi zwei parallele Tests nacheinander durchgeführt. Die Korrelation der beiden Testhälften unterschätzt die Reliabilität des Tests. Wenn ein Test aus 40 Items besteht, würde er bei der Retest- oder der Paralleltestmethode mit einem 40 Items umfassenden Test korreliert. Bei der Testhalbierung korreliert man dagegen zwei 0-Item-Tests miteinander. Die Reliabilität eines Tests nimmt mit der Itemzahl zu. Deshalb schätzt man mithilfe der»spearman-brown-formel«, wie hoch die Reliabilität des Tests mit der doppelten Itemzahl (im Beispiel 40 Items) wäre. Mit der Spearman-Brown-Formel lässt sich allgemein die Höhe der Reliabilität bei Verlängerung oder Verkürzung des Tests um k Testteile bestimmen. Umgekehrt lässt sich auch die erforderliche Testlänge (Itemanzahl) ermitteln, um eine gewünschte Höhe der Reliabilität zu erreichen. Die Spearman-Brown-Formel lautet: Rel korr k Rel 1 (k 1) Rel

16 49.1 Voraussetzungen und theoretische Basis psychometrischer Tests Rel korr = für die Testlänge korrigierte Reliabilität Rel = Reliabilität des Tests k = Faktor, um den sich die Itemzahl erhöht Für ein Beispiel nehmen wir an, dass die Korrelation beider Testhälften r =.70 betrage. Der Verlängerungsfaktor k ist (Verdopplung der Itemzahl). Daraus errechnet sich ein Wert von Rel korr =.8 für die Split-Half-Reliabilität des Tests. Ad 4: Interne Konsistenz Die Verallgemeinerung der Halbierungsmethode besteht darin, einen Test nicht nur in zwei Hälften zu zerlegen, sondern in so viele Teile, wie Items vorhanden sind. Entsprechend müssten die betreffenden Korrelationen ermittelt und die erhaltenen Werte auf die jeweilige Länge der Skala aufgewertet oder»hochgerechnet«werden. Am bekanntesten dafür ist die Formel von Cronbach (1951): interne Konsistenz m si m i m s t α = Cronbachs Alpha m = Zahl paralleler Messungen (Items) s i = Varianz der i-ten parallelen Messung (Items) s t = Varianz des Tests t (Summenwert aller Items) In der Formel wird die Summe der Varianzen der Items s i mit der Varianz des Testwerts s t in Beziehung gesetzt. Die Kovarianz der Items taucht in der Formel nicht auf, wirkt aber indirekt auf den Kennwert: Sie fließt in die Varianz des Testwerts (Nenner der Gleichung) ein. In der Summe der Itemvarianzen (Zähler der Gleichung) ist sie dagegen nicht enthalten. Gibt es im Extremfall keine Kovarianzen zwischen den Items, entspricht die Summe der Itemvarianzen exakt der Varianz des Tests, und Alpha wird null (in der Formel wird der Quotient von 1 subtrahiert; ein Quotient von 1 führt daher zu einem Alpha von null). Je größer die Zusammenhänge (Kovarianzen) zwischen den Items werden, desto größer wird der Nenner der Formel im Vergleich zum Zähler, und Alpha geht immer mehr gegen eins. Die Formel verrät, von welchen Faktoren die Höhe von Alpha abhängt: von der Itemzahl (je mehr Items, desto mehr Itemvarianzen gehen in den Summenwert im Zähler ein), der Varianz der Items, der Varianz der Testwerte und der Kovarianz (Interkorrelation) der Items. In Anlehnung an Streiner (003) können wichtige Hinweise zur Bewertung von Alpha-Koeffizienten gegeben werden: Cronbachs Alpha! Was man über Cronbachs α wissen sollte 4 Je höher die Items interkorrelieren, desto höher fällt Alpha aus. 5 Daraus folgt nicht im Umkehrschluss, dass ein hohes Alpha für eine große Homogenität des Tests spricht. Alpha hängt nicht nur von der Interkorrelation der Items, sondern auch von weiteren Faktoren ab (s.u.). 5 Daraus folgt weiterhin nicht, dass immer eine hohe Iteminterkorrelation und damit ein hohes Alpha angestrebt werden soll. Begründung: Die Homogenität des Konstrukts ist zu beachten. Heterogene Konstrukte (also solche, die sich durch relativ unabhängige Facetten oder Komponenten auszeichnen) verlangen zwangsläufig nach einer Operationalisierung durch entsprechend niedrig korrelierende Items. 4 Je mehr Items ein Test enthält, desto höher fällt Alpha aus. 6

17 50 Kapitel Grundlagen diagnostischer Verfahren Selbst ein Test für ein heterogenes Konstrukt, der aus niedrig korrelierenden Items besteht, kann deshalb bei sehr vielen Items ein hohes Alpha aufweisen. Weist ein kurzer Test ein sehr hohes Alpha auf, sind die Items meist redundant. Beispielsweise wird die gleiche Frage in unterschiedlichen Variationen immer wieder gestellt. Wenn ein Test so beschaffen ist, dass in der Regel alle Items bis zu einem bestimmten Punkt gelöst werden und dann keine mehr (z. B. Speed-Test, bei dem kaum Fehler vorkommen), fällt Alpha extrem hoch aus (knapp unter 1). Alpha ist hier kein sinnvoller Schätzer der Reliabilität. Alpha ist (wie alle Reliabilitätskoeffizienten) stichprobenabhängig. In heterogenen Stichproben fällt die Varianz der Testwerte höher aus, was wiederum zu höheren Werten für Alpha führt. Diese Bemerkungen gelten gleichermaßen für die Split-Half-Reliabilität, die eng mit Alpha verwandt ist (s.u.). Cronbachs Alpha als Mittelwert aller möglichen Testhalbierungen Standardmessfehler Die Reliabilitätsschätzung mit Cronbachs α (oft auch nur Alpha oder α genannt) führt nicht exakt zum gleichen Ergebnis wie die Split-Half-Methode. Die Testhalbierung (z. B. nach der Odd-even-Methode) führt nur zu einer von vielen möglichen Aufteilungen des Tests. Würde man alle möglichen Testhalbierungen vornehmen und die Split-Half-Reliabilitäten berechnen, würden sich die Koeffizienten um einen Mittelwert verteilen. Der Mittelwert wäre identisch mit Alpha (Cronbach, 1951). Standardmessfehler Den Axiomen der KTT zufolge weichen die beobachteten Testwerte mehr oder weniger stark vom wahren Wert ab. Wie stark sie abweichen, hängt vom Messfehler ab. Wir würden gerne wissen, wie groß der Messfehler bei einer einzelnen Messung ist. Dies ist leider nicht möglich. Allerdings lässt sich schätzen, wie stark die Messfehler bei sehr vielen wiederholten Messungen um den wahren Wert streuen würden. Genau das gibt die Formel für den Standardmessfehler s E an, die aus den Axiomen der KTT abgeleitet wurde. s E s 1 Rel X s E = Standardmessfehler s X = Standardabweichung der (beobachteten) Testwerte Rel = Reliabilität des Tests Definition Der Standardmessfehler gibt an, wie stark die Messfehler um die wahren Werte der Person(en) streuen. Beispiel Einfache Zahlenbeispiele Bei vielen Testverfahren beträgt die Standardabweichung der Normwerte (Standardwerte, T-Werte) 10. Die beobachteten Messwerte haben also in der Population eine Standardabweichung von 10. Weist der Test eine Reliabilität von.84 auf, errechnet sich ein Standardmessfehler von 4,0. Dies ist die Streuung der Fehlerwerte. Bei einer Reliabilität von.96 beträgt der Standardmessfehler nur,0. Betrachten wir nun zwei Extremfälle. Bei Rel = 1.0 errechnet sich ein Wert von null. Die Fehlerwerte streuen überhaupt nicht; alle beobachteten Unterschiede zwischen den Personen können auf Unterschiede in den wahren Werten zurückgeführt werden. 6

Grundlagen diagnostischer Verfahren

Grundlagen diagnostischer Verfahren 35 Grundlagen diagnostischer Verfahren.1 Voraussetzungen und theoretische Basis psychometrischer Tests 36.1.1 Anforderungen an einen Test 36.1. Die klassische Testtheorie (KTT) 40.1.3 Item-Response-Theorie

Mehr

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität Varianzzerlegung Die Varianz der beobachteten Testwerte x v : setzt sich zusammen aus zerlegen wahrer Varianz und Fehlervarianz: σ (x) = σ (τ) + σ (ε) Varianzzerlegung und Definition der Reliabilität (

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten

Mehr

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017 Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten der

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung 3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5

Mehr

4.2 Grundlagen der Testtheorie

4.2 Grundlagen der Testtheorie 4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt

Mehr

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Verfahren zur Skalierung. A. Die klassische Vorgehensweise - nach der Logik der klassischen Testtheorie Verfahren zur Skalierung A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie 1. Daten: z. Bsp. Rating-Skalen, sogenannte "Likert" - Skalen 2. Ziele 1. Eine Skalierung von Items

Mehr

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals. Basiert auf RETESTRELIABILITÄT Wird auch genannt Teststabilität Geeignet für Korrelation wiederholter Testdurchführungen Abhängig von beeinflusst Stabilität des Zielmerkmals Persönlichkeitstests Speedtests

Mehr

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität Testtheorie und Gütekriterien von Messinstrumenten Objektivität Reliabilität Validität Genauigkeit von Messungen Jede Messung zielt darauf ab, möglichst exakte und fehlerfreie Messwerte zu erheben. Dennoch

Mehr

Reliabilitäts- und Itemanalyse

Reliabilitäts- und Itemanalyse Reliabilitäts- und Itemanalyse In vielen Wissenschaftsdisziplinen stellt die möglichst exakte Messung von hypothetischen Prozessen oder Merkmalen sogenannter theoretischer Konstrukte ein wesentliches Problem

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

Überblick über die ProbabilistischeTesttheorie

Überblick über die ProbabilistischeTesttheorie Überblick über die ProbabilistischeTesttheorie Schwächen der Klassischen Testtheorie Axiome Theoretische Festlegungen nicht überprüfbar! Einige sind kontraintuitiv und praktisch nicht haltbar Stichprobenabhängigkeit

Mehr

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben? Eigene MC-Fragen Testgütekriterien (X aus 5) 1. Wenn verschieden Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen, entspricht dies dem Gütekriterium a) Durchführungsobjektivität

Mehr

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Welche Gütekriterien sind bei der Bewertung von Lernleistungen Welche Gütekriterien sind bei der Bewertung von Lernleistungen wichtig? Anne Spensberger; Ramona Dutschke; überarbeitet von Susanne Narciss Eine gerechte Bewertung von Lernleistungen setzt voraus, dass

Mehr

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test Was ist ein Test? Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage

Mehr

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = % allgemein Klassifizierung nach Persönlichkeitseigenschaften Messung von Persönlichkeitseigenschaften Zuordnung von Objekten zu Zahlen, so dass die Beziehungen zwischen den Zahlen den Beziehungen zwischen

Mehr

Psychologische Diagnostik

Psychologische Diagnostik Dr. Andreas Eickhorst Pädagogische Psychologie Psychologische Diagnostik Themen 1. Was ist Diagnostik? 2. Was ist psychologische Diagnostik? 3. Arten diagnostischer Verfahren 4. Diagnostik in der Schule

Mehr

Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Onlinestudie Folie 1 Klassische Testtheorie (KTT) Eigenschaften psychologischer Testverfahren, die auf Basis der Klassischen Testtheorie (KTT) konstruiert wurden: -Gleicher SEE für alle Mitglieder einer

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern Tutorium Testtheorie Termin 3 Charlotte Gagern charlotte.gagern@gmx.de Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität 1 Hauptgütekriterien Objektivität Reliabilität Validität 2 Hauptgütekriterien-Reliabilität

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Sitzung: - Gütekriterien I Heute: -Gütekriterien II Rückblick Gütekriterien der qualitativen Forschung Gütekriterien der quantitativen

Mehr

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017 Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Gütekriterien I Heute: -Gütekriterien II Rückblick Gütekriterien der qualitativen Forschung Gütekriterien der quantitativen Forschung:

Mehr

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 4 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 17. Mai 2017 1 Verteilung

Mehr

Messtherorie Definitionen

Messtherorie Definitionen Messtherorie Definitionen Begriff Definition Beispiel Relationen Empirisches Relativ eine Menge von Objekten und ein oder mehreren beobachtbaren Relationen zwischen dieses Objekten Menge der Objekte =

Mehr

6. Faktorenanalyse (FA) von Tests

6. Faktorenanalyse (FA) von Tests 6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Aufbau des Testberichts. 1. Problemstellung / inhaltliche Einführung. 2. Methode

Aufbau des Testberichts. 1. Problemstellung / inhaltliche Einführung. 2. Methode Aufbau des Testberichts Titelblatt (Beliebig) Zusammenfassung Inhaltsverzeichnis Einführung / theoretisch-inhaltlicher Hintergrund Methode: Konstruktion und Aufbau des Tests, Datenerhebung Ergebnisse Diskussion

Mehr

Was ist eine Testtheorie?

Was ist eine Testtheorie? Was ist eine Testtheorie? Eine Testtheorie bezeichnet eine Gesamtheit von Methoden zur Behandlung der Fragestellungen, welche sich bei der Testkonstruktion und -auswertung ergeben. Dieser Begriff ist nicht

Mehr

Tests. Eine Einführung

Tests. Eine Einführung Eine Einführung Dr. Uwe Wiest, Delmenhorst 2005, 2018 Testaufgaben Wozu der ganze Umstand? Sauber konstruierte und normierte Tests erlauben es, über die Leistungsfähigkeit einer Person in einem definierten

Mehr

Einführung in die Statistik Testgütekriterien

Einführung in die Statistik Testgütekriterien Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Testgütekriterien Überblick Einleitung Objektivität Reliabilität Validität Nebengütekriterien

Mehr

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke 4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie,

Mehr

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Reliabilität in der klassischen (psychometrischen) Testtheorie Statistisches Modell Realisierung mit der SPSS-Prozedur Reliability Klassische Testtheorie:

Mehr

Beispielberechnung Vertrauensintervall

Beispielberechnung Vertrauensintervall Beispielberechnung Vertrauensintervall Auszug Kursunterlagen MAS ZFH in Berufs-, Studien- und Laufbahnberatung Prof. Dr. Marc Schreiber, Dezember 2016 Beispielberechnung Vertrauensintervall Statistische

Mehr

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten

Methoden der Psychologie Dr. Z. Shi Wiss. Arbeiten Methoden der Psychologie 14.12.2016 Dr. Z. Shi Wiss. Arbeiten Tree of Knowledge 1. Quantitative vs. Qualitative Forschung 2. Subjektive vs. Objektive Messverfahren 3. Gütekriterien 1. Objektivität 2. Validität

Mehr

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3 TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3 Prof. Dr. Franke SS2012 Hochschule Magdeburg-Stendal (FH) M.Sc. Rehabilitationspsychologie Gliederung Reliabilität 1. Überblick 2. Berechnung

Mehr

Beispielberechnung Vertrauensintervalle

Beispielberechnung Vertrauensintervalle Beispielberechnung Vertrauensintervalle Auszug Kursunterlagen MAS Berufs-, Studien- und Laufbahnberatung Juni 2015 Prof. Dr. Marc Schreiber Beispielberechnung Vertrauensintervalle Vorbereitung - Statistische

Mehr

Testtheorie und Fragebogenkonstruktion

Testtheorie und Fragebogenkonstruktion Helfried Moosbrugger Augustin Kelava (Hrsg.) Testtheorie und Fragebogenkonstruktion Mit 66 Abbildungen und 41 Tabellen 2., aktualisierte und überarbeitete Auflage ~ Springer Kapitelübersicht Einführung

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München Abb. 1.1: Concept-Map zu den Kennzeichen von Diagnostik Abb. 1.2: Concept-Map zu den Arten und Strategien von Diagnostik Abb. 2.3: Concept-Map zur Item-Response-Theorie Abb. 2.4: Concept-Map zur Konstruktionsweise

Mehr

1 Leistungstests im Personalmanagement

1 Leistungstests im Personalmanagement 1 Leistungstests im Personalmanagement 1.1 Einführung des Begriffs Aus dem beruflichen und privaten Umfeld weiß man, dass sich Menschen in vielen Merkmalen voneinander unterscheiden. Meist erkennt man

Mehr

Rekodierung invertierter Items

Rekodierung invertierter Items 16.Testkonstruktion Items analysieren (imrahmen der KTT) Pretest Aussortieren / Umschreiben von unverständlichen, uneindeutigen oder inakzeptablen Items empirische Prüfung Kennwerte: Itemschwierigkeit

Mehr

Klausur Testtheorie: Antworten und Lösungen

Klausur Testtheorie: Antworten und Lösungen Name: Matrikelnummer: Klausur Testtheorie: Antworten und Lösungen Psychologisches Institut der JGU Mainz Freitag, 24. 07. 09 Bitte vergessen Sie nicht, Ihren Namen und Ihre Matrikelnummer anzugeben! 1.

Mehr

So berechnen Sie einen Schätzer für einen Punkt

So berechnen Sie einen Schätzer für einen Punkt htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung

Mehr

Fragebogen zu Gedanken und Gefühlen (FGG)

Fragebogen zu Gedanken und Gefühlen (FGG) Fragebogen zu Gedanken und Gefühlen (FGG) Informationen zum FGG-14, FGG-37 und IWD Stand: 11-2009 Der Fragebogen zu Gedanken und Gefühlen von Renneberg et al. (2005) ist ein aus der Theorie abgeleitetes

Mehr

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r Dr. Wolfgang Langer - Methoden V: Explorative Faktorenanalyse SoSe 1999-1 Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala Für die Schätzung der Zuverlässigkeit einer additiven Itemskala,

Mehr

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06 Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06 Hiermit versichere ich, dass ich an der Universität Freiburg mit dem Hauptfach Psychologie eingeschrieben bin Name: Mat.Nr.: Unterschrift: Bearbeitungshinweise:

Mehr

Bildungsurlaub-Seminare: Lerninhalte und Programm

Bildungsurlaub-Seminare: Lerninhalte und Programm Bildungsurlaub-Seminare: Lerninhalte und Programm Seminartitel Einführung Testtheorie und Testkonstruktion für Psychologen/innen (BH16116) Termin Mo, den 30.05. bis Fr, den 03.06.2016 Kursgebühr: 179,-

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Inhaltsfolie # 2 KTT Axiome 4. Axiom Die Höhe des Messfehlers E ist unabhängig vom Ausprägungsgrad der wahren Werte T anderer

Mehr

Screening für Somatoforme Störungen. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum:

Screening für Somatoforme Störungen. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum: Screening für Somatoforme Störungen Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Maria Kortus Datum: 20.01.2010 Überblicksartige Beschreibung Autoren: Winfried Rief, Wolfgang Hiller

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Grundlagen der Statistik

Grundlagen der Statistik Grundlagen der Statistik Übung 6 2009 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den insendeaufgaben geprüften Lehrzielgruppen Lehrzielgruppe:

Mehr

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler Hausübung In der Übung Übungsblatt 06 1. Gegeben: Skala zur Messung der Gesundheitssorge mit 20 Items (dichotomes Antwortformat).

Mehr

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG

Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG Leistungs- und Persönlichkeitsmessung SoSe 2010 Prof. Dr. G. H. Franke/ S. Jäger, M.Sc. NEO-PI-R: NEO- PERSÖNLICHKEITSINVENTAR, REVIDIERTE FASSUNG GLIEDERUNG: 1. Überblicksartige Beschreibung 2. Testgrundlage

Mehr

Übung Methodenlehre I, SeKo

Übung Methodenlehre I, SeKo Datenerhebung: Übung Methodenlehre I, SeKo Vivien Röder Professur für Forschungsmethodik & Evaluation Heute Wiederholung Messen & Testen Gütekriterien Befragung Beobachtung www.tu-chemnitz.de 2 Wiederholung

Mehr

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text! Hausaufgaben Welche wesentlichen Vorteile haben formelle Schulleistungstests? Welche Nachteile haben Schulleistungstests? Überlegen Sie sich 2 gute Multiplechoice-Fragen mit je einer richtigen Antwort

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Wie läßt sich die Reliabilität erhöhen? Testlänge erhöhen (Kann zu Durchführungseinschränkungen führen; Testökonomie und Zumutbarkeit

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen

Mehr

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:

Mehr

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript 3. Deskriptive Statistik Die deskriptive (auch: beschreibende) Statistik hat zum Ziel, [ ] Daten durch Tabellen, Kennzahlen [ ] und Grafiken übersichtlich darzustellen und zu ordnen. Dies ist vor allem

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro Vorüberlegungen Wie objektiv ist der Test in seiner Durchführung, Auswertung und Interpretation? Misst das Verfahren

Mehr

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben Anhang 1: Lösungen der Aufgaben 15 +1). Korrelationskoeffizienten unterschiedlicher Stichproben oder verschiedener Variablen können so miteinander verglichen werden, was mit der Kovarianz nicht möglich

Mehr

U. Rausch, 2010 Ganze Zahlen 1

U. Rausch, 2010 Ganze Zahlen 1 U. Rausch, 2010 Ganze Zahlen 1 Ganze Zahlen 1 Einleitung Als ganze Zahlen bezeichnet man die natürlichen Zahlen 1, 2,, 4,..., die Null 0 und die negativen ganzen Zahlen 1, 2,, 4,... Wir verabreden die

Mehr

Methoden der Werkstoffprüfung Kapitel I Grundlagen. WS 2009/2010 Kapitel 1.0

Methoden der Werkstoffprüfung Kapitel I Grundlagen. WS 2009/2010 Kapitel 1.0 Methoden der Werkstoffprüfung Kapitel I Grundlagen WS 2009/2010 Kapitel 1.0 Grundlagen Probenmittelwerte ohne MU Akzeptanzbereich Probe 1 und 2 liegen im Akzeptanzbereich Sie sind damit akzeptiert! Probe

Mehr

Teil 1 Gleichungen und Ungleichungen

Teil 1 Gleichungen und Ungleichungen Teil 1 Gleichungen und Ungleichungen Gleichungen Eine mathematische Gleichung ist eine logische Aussage über die Gleichheit von Termen. Das, was links vom Gleichheitszeichen (=) steht, hat den gleichen

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

Differenzierung und Systematik diagnostischer Testverfahren

Differenzierung und Systematik diagnostischer Testverfahren Differenzierung und Systematik diagnostischer Testverfahren Seminar: Dozent: Referenten: Vertiefung psychodiagnostischer Methoden und Strategien WS 08/09 Dr. Markus Pospeschill Serkan Sertkaya und Kirill

Mehr

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s Explorative Faktorenanalyse als Instrument der Dimensionsreduktion Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im Datensatz

Mehr

Grundlagen der Testkonstruktion

Grundlagen der Testkonstruktion Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc. Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige

Mehr

Methodenlehre. Vorlesung 6. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 6. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 6 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im

Mehr

"Eigenschaften-Situationen-Verhaltensweisen - ESV" Eine ökonomische Ratingform des 16 PF. Werner Stangl. Zielsetzung

Eigenschaften-Situationen-Verhaltensweisen - ESV Eine ökonomische Ratingform des 16 PF. Werner Stangl. Zielsetzung "Eigenschaften-Situationen-Verhaltensweisen - ESV" Eine ökonomische Ratingform des 16 PF Werner Stangl Zielsetzung In Interpretationen psychologischer Untersuchungen wird häufig auf Persönlichkeitsmerkmale

Mehr

Der Bochumer Burnout-Indikator (BBI) Ein Frühwarninstrument zur Erfassung des Burnout-Risikos

Der Bochumer Burnout-Indikator (BBI) Ein Frühwarninstrument zur Erfassung des Burnout-Risikos Forschungsbericht Der Bochumer Burnout-Indikator (BBI) Ein Frühwarninstrument zur Erfassung des Burnout-Risikos Projektteam Testentwicklung, 2014 Verfasser: Rebekka Schulz & Rüdiger Hossiep Projektteam

Mehr

Informationen zur KLAUSUR am

Informationen zur KLAUSUR am Wiederholung und Fragen 1 Informationen zur KLAUSUR am 24.07.2009 Raum: 032, Zeit : 8:00 9:30 Uhr Bitte Lichtbildausweis mitbringen! (wird vor der Klausur kontrolliert) Erlaubte Hilfsmittel: Alle Unterlagen,

Mehr

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen DAS THEMA: VERTEILUNGEN LAGEMAßE - STREUUUNGSMAßE Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen Anteile Häufigkeiten Verteilungen Anteile und Häufigkeiten Darstellung

Mehr

1.9 Beweis durch Kontraposition

1.9 Beweis durch Kontraposition 1.9 Beweis durch Kontraposition 1.9 Beweis durch Kontraposition Ein Beweis durch Kontraposition ist ein Spezialfall des indirekten Beweises. Wir betrachten zwei Aussagen A und B und wollen A B zeigen,

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität Objektivität und Objektivität: Inwieweit ist das Testergebnis unabhängig von externen Einflüssen Effekte des Versuchsleiters, Auswertung, Situation, Itemauswahl : Inwieweit misst der Test das, was er messen

Mehr

Annahmen des linearen Modells

Annahmen des linearen Modells Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Formale Kriterien einer guten Testaufgabe Objektivität: Sie muss von verschiedenen Auswertern gleichermaßen als richtig oder

Mehr

Untersuchungsarten im quantitativen Paradigma

Untersuchungsarten im quantitativen Paradigma Untersuchungsarten im quantitativen Paradigma Erkundungsstudien / Explorationsstudien, z.b.: Erfassung der Geschlechterrollenvorstellungen von Jugendlichen Populationsbeschreibende Untersuchungen, z.b.:

Mehr

Grundlagen sportwissenschaftlicher Forschung Test

Grundlagen sportwissenschaftlicher Forschung Test Grundlagen sportwissenschaftlicher Forschung Test Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Was ist Messen? Grundlagen des Messens Zuordnen von Objekten (oder Ereignissen)

Mehr

Notgepäck Genauigkeit

Notgepäck Genauigkeit Notgepäck Genauigkeit Beat Hulliger Dienst Statistische Methoden, Bundesamt für Statistik 20.4.2006 1 Was ist Genauigkeit genau? Um zu beschreiben, was Genauigkeit in der Statistik ist, müssen wir untersuchen,

Mehr

Konkretes Durchführen einer Inferenzstatistik

Konkretes Durchführen einer Inferenzstatistik Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf

Mehr

Radar gesellschaftlicher Zusammenhalt messen was verbindet. Gesellschaftlicher Zusammenhalt in Deutschland Kurze Einführung in die Methode

Radar gesellschaftlicher Zusammenhalt messen was verbindet. Gesellschaftlicher Zusammenhalt in Deutschland Kurze Einführung in die Methode Radar gesellschaftlicher Zusammenhalt messen was verbindet Gesellschaftlicher Zusammenhalt in Deutschland Kurze Einführung in die Methode Radar gesellschaftlicher Zusammenhalt: Kurze Erklärung der Methoden

Mehr

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt Semester ARBEITSBLATT 11 GLEICHUNGEN UND ÄQUIVALENZUMFORMUNGEN

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt Semester ARBEITSBLATT 11 GLEICHUNGEN UND ÄQUIVALENZUMFORMUNGEN ARBEITSBLATT 11 GLEICHUNGEN UND ÄQUIVALENZUMFORMUNGEN Mathematische Gleichungen ergeben sich normalerweise aus einem textlichen Problem heraus. Hier folgt nun ein zugegebenermaßen etwas künstliches Problem:

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung. Abhängige Variable Die zu untersuchende Variable, die von den unabhängigen Variablen in ihrer Ausprägung verändert und beeinflusst wird (siehe auch unabhängige Variable). Between-Subjects-Design Wenn die

Mehr

JOHANNES GUTENBERG-UNIVERSITÄT MAINZ Psychologisches Institut Abteilung Methodenlehre & Statistik

JOHANNES GUTENBERG-UNIVERSITÄT MAINZ Psychologisches Institut Abteilung Methodenlehre & Statistik JOHANNES GUTENBERG-UNIVERSITÄT MAINZ Psychologisches Institut Abteilung Methodenlehre & Statistik Seminar Datenerhebung, Analyse & Präsentation Dipl.-Psych. Rainer Kämper SS 2012 Fragen und Antworten finaler

Mehr

1. Gruppen. 1. Gruppen 7

1. Gruppen. 1. Gruppen 7 1. Gruppen 7 1. Gruppen Wie schon in der Einleitung erläutert wollen wir uns in dieser Vorlesung mit Mengen beschäftigen, auf denen algebraische Verknüpfungen mit gewissen Eigenschaften definiert sind.

Mehr