BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK)

Größe: px
Ab Seite anzeigen:

Download "BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK)"

Transkript

1 Universität der Bundeswehr München Fakultät für Pädagogik ESF: Tarnai / Schmolck / Wöhling FT 007 BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK) Reliabilität bezeichnet die Genauigkeit eines Meßverfahrens. Die Genauigkeit wird beeinträchtigt durch zufällig streuende Meßfehler, die in den Meßwert (unbemerkt) eingehen. Beispiele für diese Meßfehler sind: Unterschiede zwischen Prüflingen, die auf dem jeweiligen Erfolg / Mißerfolg beim Raten in einem multiplechoice Test beruhen; wenn einzelne Pbn bei einem zu vage formulierten Einstellungsitem "im Kopf auswürfeln", welche Antwort sie geben sollen; wenn in einem Leistungstest einzelne Pbn im Augenblick der Testung müde oder abgelenkt, andere Pbn gerade in Hochform sind. Bei all diesen Beispielen von Meßfehlern handelt es sich um den sog. Zufallsfehler, der nicht mit dem sog. Systematischen Fehler (=bias, Verzerrung) verwechselt werden darf. Dazu wieder Beispiele: Unterschiedliche Geschicklichkeit beim "Spicken" in Prüfungen; wenn einzelne Pbn bei vagen Fragen dazu neigen, ausweichend mit Nein zu antworten, während andere auch dann eine zustimmende Antwort geben, wenn eine solche Frage ihre Meinung nicht so ganz genau wiedergibt; Unterschiede in der Motivation und Anstrengungsbereitschaft in einem Leistungstest. Diese systematischen Fehler beeinträchtigen "nur" die Validität, nicht aber die Reliabilität. Für die Bestimmung der Reliabilität eines gegebenen Tests stehen verschiedene Verfahren zur Wahl. Dabei ist es wichtig zu wissen, daß es von einer Reihe von Bedingungen abhängt, wie brauchbar die einzelnen Verfahren jeweils sind. Man kann immer nur mehr oder weniger angemessene Reliabilitätsschätzungen erhalten, nie die Reliabilität eines Tests. In der Regel läßt sich aber immerhin feststellen, ob man mit einem been Verfahren die "tatsächliche" Reliabilität eher über- oder unterschätzt. In der folgenden Diskussion der einzelnen Verfahren der Reliabilitätsschätzung will ich zum einen ihre jeweiligen Voraussetzungen deutlich machen, zum anderen aber auch zeigen, daß jede Methode bee Aspekte überprüft, die über die rein formale Meßgenauigkeit hinausgehen. Eine Zusammenfassung in Form einer synoptischen Übersicht finden Sie im Anhang am Ende dieses Textes. 1. RETEST-RELIABILITÄT Das Retest-Verfahren setzt voraus, daß das zu messende Merkmal zeitlich stabil ist. Eine hohe Retest- Reliabilität beweist neben der rein formalen Meßgenauigkeit gleichzeitig auch das Zutreffen dieser nauigkeit gleichzeitig auch das Zutreffen dieser Voraussetzung. Eine geringe Retest-Reliabilität bedeutet zwar nicht notwendigerweise, daß der Test ungenau mißt - freilich, wenn der Testkonstrukteur behauptet, daß sein Test eine stabile Disposition, wie z.b. Intelligenz oder Neurotizismus mißt, muß er das auch nachweisen. Zeigt sein Test eine zu geringe Meßwertstabilität (=Retest-Reliabilität), so ist es egal, ob das an Meßwertungenauigkeit im engeren Sinn liegt, oder an Merkmalsinstabilität, der Test ist auf jeden Fall unbrauchbar. Soll der Test ein stark fluktuierendes Merkmal erfassen, z.b. augenblickliche Erregung, Ärger usw., ist das Retest-Verfahren ungeeignet und würde auf jeden Fall eine zu niedrige Schätzung erbringen. Eine Überschätzung der tatsächlichen Reliabilität ist zu erwarten, wenn der zeitliche Abstand zu gering ist und Erinnerungseffekte eine Rolle spielen. Auch Übungseffekte können die Schätzung verzerren. Das Retest-Verfahren setzt nicht voraus, daß der Test intern homogen ist. 1. PARALLELTEST-RELIABILITÄT Für die Erstellung von zwei oder mehreren parallelen Formen eines Tests gibt es verschiedene Gründe, die zunächst nichts mit der Reliabilitätsüberprüfung zu tun haben. Ein Intelligenztest läßt sich z.b. besser in einer Gruppenerhebung einsetzen, wenn man nebeneinander sitzenden Testkandidaten verschiedene Testformen geben, und damit das "Spicken" verhindern kann. Ein anderer wichtiger Anwendungsbereich von Parallelformen liegt in der Veränderungsmessung: Wird ein identischer Leistungstest zweimal vorgegeben, ist immer mit einer Verbesserung durch Lern- und Übungseffekte zu rechnen (außerdem könnten sich die richtigen Lösungen einzelner Aufgaben unter den Testkandidaten "herumsprechen"). Derartige Probleme können bei Verwendung von unterschiedlichen, aber äquivalenten Testformen weitgehend vermieden werden. Voraussetzung für derartige Verwendungen von Paralleltests ist natürlich, daß sie wirklich äquivalent sind, daß das Ergebnis eines Pbn nicht davon abhängt, welche Testform er bearbeitet hat. Die empirische Überprüfung der Äquivalenz von Testformen stellt zugleich eine Methode der Reliabilitätsschätzung dar. Die Entwicklung von Parallelformen bietet sich immer dann an, wenn es leicht ist, eine größere Zahl von guten 1 Das Konzept der internen Konsistenz bzw. Homogenität wird in Abschn. 4 näher erläutert. Datei: Y:\esf\SKRIPTEN\skr-rel07.doc ( :41)

2 METHODEN DER RELIABILITÄTSSCHÄTZUNG Items zu formulieren, als für den Test tatsächlich erforderlich sind. Das Paralleltest-Verfahren setzt keine zeitliche Stabilität des zu messenden Merkmals voraus. Freilich ist es möglich, Retest- und Paralleltest-Ansatz miteinander zu kombinieren. In diesem Fall wird die Merkmalsstabilität zusätzlich überprüft. Das Paralleltest-Verfahren setzt auch keine interne Testhomogenität voraus. Ein gutes Verfahren zur Konstruktion von Parallelformen besteht darin, daß man Paare von Items nach inhaltlichen und statistischen Kriterien zusammenstellt und nach Zufall auf die beiden Formen aufteilt. Faßt man zwei oder mehrere parallele Testformen zu einem entsprechend "längeren" (man spricht hier von "Testverlängerung" um den Faktor, 3 etc.) Test zusammen, so läßt sich die Reliabilität z.t. erheblich steigern. Man kann sich den Zusammenhang zwischen Testlänge und Reliabilität einfach so vorstellen, daß sich bei Zusammenfassung sehr vieler Einzelmessungen der Zufallsfehler (sein Erwartungswert ist Null) "herausmittelt", und damit nur noch der wahre Wert "übrig bleibt". Die bekannte Spearman-Brown Formel gibt an, welche Reliabilität man erreicht, wenn man den Test um den Faktor k verlängert ("r tt " steht für die ursprüngliche, "r ttk " für die neue Reliabilität): (1) r ttk = k r tt / (1 + (k-1) r tt ) Durch Zusammenfassung von zwei äquivalenten Formen mit der Paralleltest-Reliabilität von.60 kommt man so z.b. zu einer Reliabilität von.75. Im übrigen kann die Formel auch für Werte von k < 1, also bei Testkürzung, eingesetzt werden. 3. SPLIT-HALF-RELIABILITÄT Ich habe eben dargelegt, wie man mithilfe der Spearman-Brown Formel die Reliabilität für Tests bestimmen kann, die aus zwei Parallelformen bestehen. Natürlich kann man auch einen bestehenden Test im Nachhinein in zwei (mehr oder weniger) äquivalente Formen aufteilen. Zu diesem Zweck wird häufig das sog. odd-even Verfahren empfohlen: Man be für jeden Pbn je einen Halbtestwert aufgrund der geradzahligen und ungeradzahligen Itemnummern und wertet die Korrelation zwischen diesen Wertepaaren nach der Spearman-Brown Formel auf. Haben die beiden Testhälften unterschiedliche Varianz, sollte eine der beiden folgenden Formeln verwendet werden (V a, V b stehen für die Varianzen der Testhälften, V d für die Varianz der Differenzwerte: d=a-b und V t für die Varianz des Gesamttests: t=a+b): () r tt = 1 - V d / V t (3) r tt = ( 1 - (V a + V b ) / V t ) Diese beiden Formeln lassen sich arithmetisch ineinander überführen, und für V a = V b sind sie auch identisch mit der Spearman-Brown Formel (mit k=). In dem Maß, in dem die beiden Testhälften nicht äquivalent sind, also nicht als gekürzte, aber ansonsten parallele Formen ein- und desselben Tests gelten können, unterschätzt der split-half Koeffizient die tatsächliche Reliabilität des (Gesamt-) Tests. Dies ist insbesondere dann der Fall, wenn die Items insgesamt inhomogen sind und die Testhälften, wie das üblich ist, im Wesentlichen nach Zufall gebildet werden. Obwohl die split-half Methode zur Reliabilitätsschätzung - vermutlich wegen ihrer Anschaulichkeit - relativ häufig verwendet wird, ist dieser Ansatz doch etwas unbefriedigend. Da es für einen Test eine Vielzahl möglicher Aufteilungen in Hälften gibt (bei nur 10 Items bereits 16 mögliche Varianten!), gibt es auch entsprechend viele gleichwertige, aber numerisch doch mehr oder minder unterschiedliche mögliche Koeffizienten. Für welchen der Werte soll man sich da entscheiden? Die im nächsten Abschnitt behandelte Konsistenzanalyse stellt (auch) eine Verallgemeinerung des Prinzips der Testaufteilung dar, die diese unbefriedigende Situation auf überraschend einfache Weise löst. 4. KONSISTENZ-RELIABILITÄT Zunächst eine begriffliche Klärung: Interne Konsistenz eines Tests - die Begriffe Eindimensionalität und Homogenität werden in der Regel synonym dazu verwendet - bezeichnet das Ausmaß, in dem die Items sich auf ein- und dieselbe Dimension beziehen, dieselbe einzelne Fähigkeit erfassen, dasselbe messen. Hohe interne Konsistenz zeigt sich empirisch in hohen Interkorrelationen zwischen den Items. Der Grund für die Forderung nach Eindimensionalität von Meßverfahren liegt vor allem in der Vergleichbarkeit von Meßwerten. Bei einem sehr heterogenen Test kann ein- und derselbe Testwert durch die Lösung ganz unterschiedlicher Aufgaben zustande kommen, und da die Items nur gering interkorrelieren, kann man auch nicht davon ausgehen, daß diese verschiedenen Aufgaben im Effekt doch vergleichbar sind. Ein weiterer Nachteil heterogener Tests besteht darin, daß sie für eine ausreichende Meßgenauigkeit eine größere Itemzahl benötigen als homogene Tests. Es kann leicht gezeigt werden, daß die in der Spearman-Brown Formel dargestellte Relia- Die algebraische Äquivalenz zeigt sich bei Substitution von V d =V a +V b - COV ab und V t =V a +V b + COV ab (gemäß Theorem zur Varianz von Summen- bzw. Differenzwerten). Formel (3) ist im übrigen eine Anwendung der unten erläuterten Formel (4) für Cronbachs alpha, wobei die Testhälften wie Items behandelt werden.

3 METHODEN DER RELIABILITÄTSSCHÄTZUNG 3 bilitätserhöhung durch Testverlängerung nicht gilt, wenn die Testteile unkorreliert sind. Vereinfacht bedeutet das, daß jede in einem komplexen Test enthaltene Teildimension für sich mit hinreichender Genauigkeit gemessen werden muß. Freilich gibt es in einzelnen Fällen auch gute Gründe gegen eine zu hohe interne Konsistenz. Eine Krankheit, sagen wir einmal Alkoholismus, läßt sich relativ zuverlässig diagnostizieren, wenn man einfach ein Inventar der einschlägigen Symptome (=Items) zusammenstellt, und auszählt, wieviele davon zutreffen. Dabei ist es ganz typisch, daß die einzelnen Symptome wenig miteinander zu tun haben, im Extremfall können sie sogar hoch negativ korreliert sein, was dann der Fall ist, wenn sich Symptome gegenseitig ausschließen. In unserem Beispiel wäre das Fettleber und Leberzirrhose. Oder ein anderes, weniger extremes Beispiel für einen notwendigerweise nicht sehr homogenen Test: Die Items einer ESF-Klausur beziehen sich auf eine Reihe verschiedener Themenbereiche; außerdem unterscheiden sich die Items im Anforderungsniveau: etwa Definitionswissen oder Verständnis. Dabei kann man nicht davon ausgehen, und man braucht das auch nicht, daß jeder Student in jedem der Gebiete und in jeder erwarteten Fähigkeit gleich gut oder gleich schlecht ist. Es ist bekannt, daß manche Studenten etwas selektiv lernen. Das ist (in Maßen) auch mit der Klausurintention vereinbar: Es ist durchaus legitim, daß ein Student durch besonders gute Leistungen in been Bereichen einzelne Wissenslücken in anderen Bereichen ausgleichen kann. Es ist auch keineswegs ungerecht, wenn dieser Student dieselbe Klausurnote bekommt wie ein anderer, der in keinem Gebiet echte Lücken aufweist, aber auch in keinem überdurchschnittlich beschlagen ist. (Diese ausführliche Erörterung des Klausurbeispiels sollte Sie dafür sensibilisieren, daß die Zusammenfassung unterschiedlicher Dinge zu einem einzigen Wert in der Regel einer inhaltlichen Begründung bedarf.) Die interne Konsistenz eines Tests wird meist durch Cronbachs alpha (bzw. äquivalent: Kuder-Richardson 0) be (V i steht für die Varianz eines Items, V t für die Gesamtvarianz, n für die Anzahl der Items): (4) alpha = ( n / (n-1) ) (V t - V i ) / V t Die Formel läßt sich leicht durchschauen, wenn man weiß, daß die Testvarianz dargestellt werden kann als Summe der einzelnen Itemvarianzen plus mal die Summe aller Itemkovarianzen. Alpha ist, bei gegebenen Itemvarianzen, umso größer, je höher die Items untereinander korreliert sind. Bei dichotomen Items ist übrigens V i = p q, V i = p - p (p = Schwierigkeit; q = 1 - p). Obwohl alpha sehr einfach zu bestimmen ist, man benötigt neben der Itemzahl nur die einzelnen I- temschwierigkeiten (bei Dichotomaufgaben) und die Testvarianz, ist dieses Reliabilitätsmaß doch sehr aussagekräftig. Durch einfache Arithmetik läßt sich nämlich zeigen, daß diese Formel auf vier ziemlich unterschiedlichen Wegen hergeleitet werden kann 3 (teilweise dargestellt in: A.L. EDWARDS, The Measurement of Personality Traits by Scales and Inventories. New York: Holt, Rinehart & Winston, 1970): (a) Mit alpha erhält man genau den Wert, den man etwas umständlicher dadurch bestimmen könnte, daß man mit Formel () bzw. (3) sämtliche möglichen split-half Koeffizienten berechnet und daraus den Mittelwert. (b) Die bekannte Formulierung "Wenn man den Test in soviele Teile zerlegt, wie er Items hat...": Wenn man annimmt, daß alle Items äquivalente, also untereinander austauschbare Messungen des Merkmals darstellen, läßt sich die Reliabilität eines einzelnen Items durch den Durchschnittswert seiner Korrelationen mit sämtlichen anderen Items schätzen. Zur Bestimmung der Reliabilität des Gesamttests würde man wieder die Spearman-Brown Formel (1) mit dem Faktor k = Anzahl der Items anwenden. Diese Prozedur müßte man für jedes einzelne Item wiederholen, um dann schließlich den Mittelwert aus allen einzelnen Schätzungen für die Gesamttestreliabilität zu berechnen. Dieser Riesenaufwand ist freilich unnötig, da sich zeigen läßt, daß man mit Formel (4) genau dasselbe Ergebnis viel einfacher ermitteln kann. Für die Herleitung der Identität zwischen alpha und der nach Spearman-Brown aufgewerteten durchschnittlichen Iteminterkorrelation ist im übrigen die strenge Äquivalenz-Annahme gar nicht erforderlich. Die Beziehung gilt immer, wenn die Items gleiche Varianz haben, bzw. wenn der Testwert aus standardisierten Itemwerten gebildet wird. (c) Wenn man denselben Test nocheinmal durchführen würde, und dabei Erinnerungs- und Lerneffekte, sowie Merkmalsänderungen ausschließen könnte, würde alpha dann die Korrelation zwischen beiden Erhebungen genau schätzen, wenn die durchschnittliche Kovarianz zwischen unterschiedlichen Items nicht kleiner ist als die zwischen gleichen Items. Wenn diese Bedingung nicht erfüllt ist, stellt alpha, unter obengenannten Voraussetzungen, eine untere Schranke für die tatsächliche Retest-Reliabilität dar. Diese wird umso stärker unterschätzt, umso heterogener der Test ist. (d) Wenn man davon ausgeht, daß die Items eines Tests eine Zufallsstichprobe aus einem (beliebigen, auch heterogenen!) Itemuniversum darstellen, aus dem man eine weitere vergleichbare Stichprobe ziehen könnte, so stellt alpha die zu erwartende 3 Die folgenden Herleitungen und Erörterungen zur Interpretation von Alpha sind zugegebenermaßen etwas anspruchsvoll und sind, im Unterschied zur daran anschließenden Zusammenfassung, nicht als prüfungsrelevanter Stoff gedacht.

4 4 METHODEN DER RELIABILITÄTSSCHÄTZUNG Korrelation zwischen diesen beiden Tests, also zwischen dem vorhandenen und dem "fiktiven", dar. Der interne Konsistenzkoeffizient alpha bzw. KR-0 wird häufig zu Unrecht als direktes Maß für die Eindimensionalität bzw. Heterogenität eines Tests verwendet. Wie Herleitung (b) aber zeigt, hängt alpha nicht nur von der durchschnittlichen Iteminterkorrelation ab, sondern auch von der Zahl der Items. Verlängert man einen relativ heterogenen Test aus 10 Items mit einem alpha =.40 um weitere 10 Items, steigt alpha auf.57, bei 100 gleichermaßen heterogenen Items kommt man gar zu einem alpha =.87. Will man die Homogenität / Heterogenität verschiedener Tests miteinander vergleichen, sollte man daher jedes alpha mit Hilfe von Formel (1) auf eine konstante Itemzahl bzw. auf die durchschnittliche Iteminterkorrelation umrechnen. In Lehrbüchern wird übereinstimmend darauf hingewiesen, daß die Reliabilitätsschätzung durch die Konsistenzmethode nur für homogene Tests anwendbar sei. Der Genauigkeit halber sollte man hier aber doch darauf hinweisen, daß gemäß Ableitung (c) alpha in jedem Fall (mit einer wichtigen Einschränkung, s.u.) eine untere Schranke für die "tatsächliche" Reliabilität (das ist hier die Retest-Reliabilität unter idealisierten Bedingungen) darstellt. Wenn man also beispielsweise für einen Test eine Konsistenzreliabilität von.85 oder darüber ermittelt hat, kann dieses sehr befriedigende Ergebnis in keiner Weise durch den Einwand, der Wert sei unbrauchbar, weil der Test heterogen sei, entkräftet werden! Leider wird in Lehrbüchern meist nicht erwähnt, daß die Konsistenzschätzung in der Regel künstlich überhöht ist, wenn die einzelnen Items keine sog. "experimentell unabhängigen" Messungen darstellen. Wenn etwa die Lösung einer Statistik-Aufgabe Voraussetzung für die Lösung einer Folgeaufgabe ist, handelt es sich nicht um experimentell unabhängige Messungen; zwischen beiden Aufgaben besteht eine künstlich erhöhte Korrelation. Ähnliches gilt für einen Einstellungstest, dessen Items dasselbe Thema mit nur geringen Formulierungsänderungen immer wieder variieren. Auf der Basis von Herleitung (d) ließe sich, im Widerspruch zu den meisten gängigen Lehrbüchern, argumentieren, daß der Konsistenzkoeffizient alpha eine empirische Reliabilitätsschätzung darstellt, die für heterogene Tests genauso brauchbar ist, wie für homogene Tests. Diese Position kann im Prinzip durchaus vertreten werden, allerdings muß dabei beachtet werden, welche spezifische Bedeutung Reliabilität unter dieser Perspektive hat. Ein Koeffizient nahe Null könnte dann etwa als Hinweis genommen werden, daß "Paralleltests" aus gleichartigen Items und mit vergleichbarer (nicht unbedingt niedriger!) Validität denkbar sind, die aber doch mit dem gegebenen Test nahezu unkorreliert sind. Man kann aber nicht erkennen, wie der gegebene heterogene Test mit einem Paralleltest korrelieren würde, dessen Items nicht zufällig sondern systematisch ausgewählt wurden, z.b. mit der Vorgabe einer möglichst engen formalen und inhaltlichen Entsprechung einzelner Itempaare. Bei einem homogenen Itemuniversum gibt es keine derartigen Interpretationsprobleme: Wenn alle Items mehr oder weniger äquivalent sind, dann macht es keinen großen Unterschied, ob man die Items zufällig oder systematisch auswählt. Zusammenfassend läßt sich zu den Voraussetzungen und Interpretationsmöglichkeiten der Konsistenzanalyse folgendes festhalten: 1) Alpha sollte nicht verwendet werden, wenn zwischen den einzelnen Items rechnerische oder experimentelle Abhängigkeiten bestehen (z.b. dadurch, daß das Lösen einer Aufgabe eine notwendige Voraussetzung für die richtige Beantwortung folgender Aufgaben ist). In diesem Fall wäre Alpha artifiziell überhöht. ) Für Tests, die beanspruchen, ein homogenes Konstrukt zu erfassen, stellt alpha eine zuverlässige Reliabilitätsschätzung, sowie zugleich ein Prüfkriterium für die angenommene Eindimensionalität des Tests dar. 3) Für einen heterogenen Test, der ein breites, facettenreiches Konstrukt mit entsprechend heterogenen Items erfassen soll, ist alpha nicht die optimale Methode zur Reliabilitätsschätzung. Immerhin erlaubt es aber auch in diesem Fall, auf einfache Weise zumindest eine untere Schranke für die "tatsächliche" Reliabilität des Tests zu ermitteln. Dies ist insbesondere dann von Bedeutung, wenn kein Paralleltest vorliegt, und wenn das Retestverfahren nicht adäquat (instabiles Merkmal) ist oder aus anderen (z.b. Kosten-) Gründen undurchführbar erscheint.

5 METHODEN DER RELIABILITÄTSSCHÄTZUNG 5 5. KONTROLLFRAGEN 1. Klassische Testtheorie Satz : Ausgangspunkt der klassischen Testtheorie ist die Beschreibung des Testwerts als eine additive Kombination von "wahrem Wert" und systematischem Fehler (=Bias, Verzerrung) Es konnte empirisch nachgewiesen werden, daß unsystematische oder Zufallsfehlerbestandteile vernachlässigt werden können C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig. Testtheorie "wahre" Varianz Satz : Der Reliabilitätskoeffizient gibt an, wie groß der Varianzanteil des "wahren Werts" an der Testwertvarianz ist. Die Korrelation zwischen zwei unabhängig mit demselben Instrument erhobenen Meßwertreihen ist gleich der quadrierten Korrelation zwischen dem Meßwert und seinem meßfehlerfreien Bestandteil. C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 3. Standardmeßfehler: Praktische Bedeutung Die praktische Bedeutung des Standardmeßfehlers besteht darin, daß mit Satz : ihm das Vertrauensintervall von Meßwerten be werden kann, Die Größe dieses Vertrauensintervalls hängt u.a. davon ab, mit welchem Fehlerrisko ( z.b. 5%, 1%, 0.1% ) man arbeitet C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 4. Die Skalen des Freiburger Persönlichkeitsinventars (FPI-R) sollen zeitlich stabile und breite, facettenreiche, also relativ inhomogene Persönlichkeitsdimensionen erfassen. Es liegen keine Parallelformen vor. Satz : Zur Feststellung der Reliabilität der Skalen des FPI-R ist das Retest- Verfahren besser geeignet als Verfahren der Internen Konsistenz (Cronbachs Alpha) Die Berechnung von Cronbachs Alpha setzt voraus, daß jede Test-Skala in zwei äquivalente Formen aufgeteilt werden kann ("split-half"). C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 5. Überprüfen Sie die Eignung der verschiedenen Verfahren der Reliabilitätsschätzung zur Überprüfung der Meßgenauigkeit der Statistikklausur (s. Begleittext Testverfahren I). Berechnen Sie Cronbachs alpha unter Zugrundelegung der drei Subtests (RECHNEN, MCHOICE, OFFEN) anstelle von Items.

6 6 METHODEN DER RELIABILITÄTSSCHÄTZUNG ANHANG: METHODEN DER RELIABILITÄTSSCHÄTZUNG IM ÜBERBLICK Retest Paralleltest Split-Half / Konsistenz (Alpha) Aufwand / Vorgehen Test muß zweimal mit denselben Personen durchgeführt werden Konstruktion einer Parallelform: noch einmal soviele, gleich gut geeignete Items erforderlich. Erhebung beider Formen bei denselben Personen Nur einmalige Erhebung des (einen) Tests. Auch die Berechnung, v.a. von Alpha, sehr leicht durchführbar: nur Itemvarianzen und Gesamtvarianz müssen berechnet werden. Koeffizient erfaßt / bedeutet Korrelation zwischen Test- und Retestwerten Korrelation zwischen Werten für Testform A und Testform B Korrelation zwischen Testhälften, aufgewertet (Spearman- Brown) für die Länge des gesamten Tests; Alpha stellt einen Durchschnittswert für alle möglichen Testhalbierungen dar. Angenommene Voraussetzungen Merkmal stabil (zumindest über Retest- Intervall) Formen A und B äquivalent, d.h. in der Anwendung austauschbar (a) gemessenes Merkmal homogen, Test eindimensional; (b) Items experimentell unabhängig Konsequenzen, wenn Annahmen nicht (voll) erfüllt Tatsächliche Meßgenauigkeit der Erstbzw. Zweiterhebungswerte wird unterschätzt Tatsächliche Meßgenauigkeit beider Formen wird unterschätzt (a) Tatsächliche Meßgenauigkeit wird unterschätzt; (b) Tatsächliche Meßgenauigkeit wird überschätzt Was folgt, wenn Koeffizient hoch? Hohe Meßgenauigkeit und gemessenes Merkmal stabil Hohe Meßgenauigkeit und Formen äquivalent Hohe Meßgenauigkeit und Test eindimensional

7 METHODEN DER RELIABILITÄTSSCHÄTZUNG 7 ANHANG: GLEICHUNGEN UND FORMELN DER KLASSISCHEN TESTTHEORIE DIE GRUNDGLEICHUNG DER KTT (0) X = T + E DIE 3 SOG. AXIOME DER KTT (1) µ = 0 () E TE = 0 (3) EE 1 = 0 (4) aus (0) und (): = + E X T oder: 1 = + T X E X RELIABILITÄT ρ XX = T X oder: ρ XX = 1 E X STANDARDMEßFEHLER E = X T = = 1 ρ E E X XX ZUSAMMENHANG VARIANZ DIFFERENZWERTE (TEST-RETEST) MIT FEHLERVARIANZ = 1 E

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität Varianzzerlegung Die Varianz der beobachteten Testwerte x v : setzt sich zusammen aus zerlegen wahrer Varianz und Fehlervarianz: σ (x) = σ (τ) + σ (ε) Varianzzerlegung und Definition der Reliabilität (

Mehr

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung 3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5

Mehr

4.2 Grundlagen der Testtheorie

4.2 Grundlagen der Testtheorie 4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt

Mehr

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern Tutorium Testtheorie Termin 3 Charlotte Gagern charlotte.gagern@gmx.de Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität 1 Hauptgütekriterien Objektivität Reliabilität Validität 2 Hauptgütekriterien-Reliabilität

Mehr

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität Testtheorie und Gütekriterien von Messinstrumenten Objektivität Reliabilität Validität Genauigkeit von Messungen Jede Messung zielt darauf ab, möglichst exakte und fehlerfreie Messwerte zu erheben. Dennoch

Mehr

Reliabilitäts- und Itemanalyse

Reliabilitäts- und Itemanalyse Reliabilitäts- und Itemanalyse In vielen Wissenschaftsdisziplinen stellt die möglichst exakte Messung von hypothetischen Prozessen oder Merkmalen sogenannter theoretischer Konstrukte ein wesentliches Problem

Mehr

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG WS 2017/2018 Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten

Mehr

Forschungsmethoden VORLESUNG SS 2017

Forschungsmethoden VORLESUNG SS 2017 Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten der

Mehr

6. Faktorenanalyse (FA) von Tests

6. Faktorenanalyse (FA) von Tests 6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...

Mehr

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals. Basiert auf RETESTRELIABILITÄT Wird auch genannt Teststabilität Geeignet für Korrelation wiederholter Testdurchführungen Abhängig von beeinflusst Stabilität des Zielmerkmals Persönlichkeitstests Speedtests

Mehr

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Reliabilität in der klassischen (psychometrischen) Testtheorie Statistisches Modell Realisierung mit der SPSS-Prozedur Reliability Klassische Testtheorie:

Mehr

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r

Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r Dr. Wolfgang Langer - Methoden V: Explorative Faktorenanalyse SoSe 1999-1 Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala Für die Schätzung der Zuverlässigkeit einer additiven Itemskala,

Mehr

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben? Eigene MC-Fragen Testgütekriterien (X aus 5) 1. Wenn verschieden Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen, entspricht dies dem Gütekriterium a) Durchführungsobjektivität

Mehr

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = % allgemein Klassifizierung nach Persönlichkeitseigenschaften Messung von Persönlichkeitseigenschaften Zuordnung von Objekten zu Zahlen, so dass die Beziehungen zwischen den Zahlen den Beziehungen zwischen

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Wie läßt sich die Reliabilität erhöhen? Testlänge erhöhen (Kann zu Durchführungseinschränkungen führen; Testökonomie und Zumutbarkeit

Mehr

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3

TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3 TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3 Prof. Dr. Franke SS2012 Hochschule Magdeburg-Stendal (FH) M.Sc. Rehabilitationspsychologie Gliederung Reliabilität 1. Überblick 2. Berechnung

Mehr

Grundlagen der Statistik

Grundlagen der Statistik Grundlagen der Statistik Übung 6 2009 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den insendeaufgaben geprüften Lehrzielgruppen Lehrzielgruppe:

Mehr

Beispielberechnung Vertrauensintervall

Beispielberechnung Vertrauensintervall Beispielberechnung Vertrauensintervall Auszug Kursunterlagen MAS ZFH in Berufs-, Studien- und Laufbahnberatung Prof. Dr. Marc Schreiber, Dezember 2016 Beispielberechnung Vertrauensintervall Statistische

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)

Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Beispielberechnung Vertrauensintervalle

Beispielberechnung Vertrauensintervalle Beispielberechnung Vertrauensintervalle Auszug Kursunterlagen MAS Berufs-, Studien- und Laufbahnberatung Juni 2015 Prof. Dr. Marc Schreiber Beispielberechnung Vertrauensintervalle Vorbereitung - Statistische

Mehr

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke 4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie,

Mehr

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Welche Gütekriterien sind bei der Bewertung von Lernleistungen Welche Gütekriterien sind bei der Bewertung von Lernleistungen wichtig? Anne Spensberger; Ramona Dutschke; überarbeitet von Susanne Narciss Eine gerechte Bewertung von Lernleistungen setzt voraus, dass

Mehr

Reliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1

Reliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1 Reliabilität Kapitel 4 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1 Reliabilität Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz

Mehr

Einführung in die Theorie psychologischer Tests

Einführung in die Theorie psychologischer Tests Gerhard H. Fischer Einführung in die Theorie psychologischer Tests Grundlagen und Anwendungen VERLAG HANS HUBER BERN STUTTGART WIEN Inhaltsverzeichnis Vorwort 9 Die Notation 12 Teil 1: Abriss der klassischen

Mehr

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 4 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Einführung in die Statistik Testgütekriterien

Einführung in die Statistik Testgütekriterien Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Testgütekriterien Überblick Einleitung Objektivität Reliabilität Validität Nebengütekriterien

Mehr

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und Tests Systematisierung von Tests Itemarten Skalenarten im Detail Die Likert Skala Skala: Eine Skala ist ein Instrument zur Messung von (theoretischen)

Mehr

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung Was heißt messen? Ganz allgemein: Eine Eigenschaft eines Objektes wird ermittelt, z.b. die Wahlabsicht eines Bürgers, das Bruttosozialprodukt eines Landes, die Häufigkeit von Konflikten im internationalen

Mehr

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im

Mehr

Messtherorie Definitionen

Messtherorie Definitionen Messtherorie Definitionen Begriff Definition Beispiel Relationen Empirisches Relativ eine Menge von Objekten und ein oder mehreren beobachtbaren Relationen zwischen dieses Objekten Menge der Objekte =

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014 Kontrolle und Aufbereitung der Daten Peter Wilhelm Herbstsemester 2014 Übersicht 1.) Kontrolle und Aufbereitung der Daten Fehlerkontrolle Umgang mit Missing 2.) Berechnung von Skalen- und Summenscores

Mehr

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s Explorative Faktorenanalyse als Instrument der Dimensionsreduktion Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im Datensatz

Mehr

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische TEIL 3: MESSEN UND SKALIEREN 1 Das Messen eine Umschreibung Feststellung der Merkmalsausprägungen von Untersuchungseinheiten (z.b. Feststellung, wie viel eine Person wiegt oder Feststellung, wie aggressiv

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler 1 Messfehler Jede Messung ist ungenau, hat einen Fehler. Wenn Sie zum Beispiel die Schwingungsdauer eines Pendels messen, werden Sie - trotz gleicher experimenteller Anordnungen - unterschiedliche Messwerte

Mehr

Notgepäck Genauigkeit

Notgepäck Genauigkeit Notgepäck Genauigkeit Beat Hulliger Dienst Statistische Methoden, Bundesamt für Statistik 20.4.2006 1 Was ist Genauigkeit genau? Um zu beschreiben, was Genauigkeit in der Statistik ist, müssen wir untersuchen,

Mehr

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen

Mehr

Fallzahlplanung bei unabhängigen Stichproben

Fallzahlplanung bei unabhängigen Stichproben Fallzahlplanung bei unabhängigen Stichproben Seminar Aktuelle biometrische Probleme Benjamin Hofner benjamin.hofner@stat.uni-muenchen.de 12. Januar 2005 Übersicht 1. Einführung und Grundlagen der Fallzahlplanung

Mehr

Einfache Varianzanalyse für unabhängige Stichproben

Einfache Varianzanalyse für unabhängige Stichproben Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,

Mehr

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Dominik Ernst 26.05.2009 Bachelor Seminar Dominik Ernst Reliabilität und explorative Faktorenanalyse 1/20

Mehr

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität Objektivität und Objektivität: Inwieweit ist das Testergebnis unabhängig von externen Einflüssen Effekte des Versuchsleiters, Auswertung, Situation, Itemauswahl : Inwieweit misst der Test das, was er messen

Mehr

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften TEIL 3: MESSEN UND SKALIEREN GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Objektivität Reliabilität Validität Konstruierte Skalen in den Sozialwissenschaften

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Einführung in die Test- und Fragebogenkonstruktion

Einführung in die Test- und Fragebogenkonstruktion Markus Bühner Einführung in die Test- und Fragebogenkonstruktion 3., aktualisierte und erweiterte Auflage ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,

Mehr

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Verfahren zur Skalierung. A. Die klassische Vorgehensweise - nach der Logik der klassischen Testtheorie Verfahren zur Skalierung A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie 1. Daten: z. Bsp. Rating-Skalen, sogenannte "Likert" - Skalen 2. Ziele 1. Eine Skalierung von Items

Mehr

Was ist eine Testtheorie?

Was ist eine Testtheorie? Was ist eine Testtheorie? Eine Testtheorie bezeichnet eine Gesamtheit von Methoden zur Behandlung der Fragestellungen, welche sich bei der Testkonstruktion und -auswertung ergeben. Dieser Begriff ist nicht

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Mehrdimensionale Zufallsvariablen

Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Messen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse

Messen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse Messen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse Dominik Ernst 26.05.2009 Bachelor Seminar Inhaltsverzeichnis 1 Reliabilität 2 1.1 Methoden zur Reliabilitätsbestimmung.............

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung 0 Einführung 1 Wahrscheinlichkeitsrechnung Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung Motivation und Hinführung Der wahre Anteil der rot-grün Wähler 009 war genau

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Inhaltsfolie # 2 KTT Axiome 4. Axiom Die Höhe des Messfehlers E ist unabhängig vom Ausprägungsgrad der wahren Werte T anderer

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1

Mehr

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X. Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im

Mehr

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation DAS THEMA: KORRELATION UND REGRESSION Korrelation Regression Wenn Daten nicht ohne einander können Korrelation Korrelation Kovarianz Pearson-Korrelation Voraussetzungen für die Berechnung die Höhe der

Mehr

Name Vorname Matrikelnummer Unterschrift

Name Vorname Matrikelnummer Unterschrift Dr. Hans-Otfried Müller Institut für Mathematische Stochastik Fachrichtung Mathematik Technische Universität Dresden Klausur Statistik II (Sozialwissenschaft, Nach- und Wiederholer) am 26.10.2007 Gruppe

Mehr

1 Statistik: Das Spiel mit dem Würfel

1 Statistik: Das Spiel mit dem Würfel 1 Statistik: Das Spiel mit dem Würfel 1.1 Definition des Gegenstandes Der Hauptgegenstand in diesem ersten Teil des Buches ist der klassische sechsseitige Würfel. Wir denken zunächst an den perfekten mathematischen

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

INFORMATIONEN ZU DEN ERGEBNISSEN DES NEO-FFI

INFORMATIONEN ZU DEN ERGEBNISSEN DES NEO-FFI Fakultät Mathematik und Naturwissenschaften FR Psychologie Differentielle & Persönlichkeitspsychologie INFORMATIONEN ZU DEN ERGEBNISSEN DES NEO-FFI Liebe Studierende, in dem Tabellenabruf NEO-FFI Ergebnisse

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Grundlagen der Testkonstruktion

Grundlagen der Testkonstruktion Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc. Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

GÜTEKRITERIEN SPEZIFISCH p. 1

GÜTEKRITERIEN SPEZIFISCH p. 1 GÜTEKRITERIEN SPEZIFISCH p. 1 Validität ( = Gültigkeit): Genereller Terminus, der die Richtigkeit einer Messung bezeichnet (damit ist gemeint, daß ein Test tatsächlich das mißt, was er vorgibt zu messen).

Mehr

Rekodierung invertierter Items

Rekodierung invertierter Items 16.Testkonstruktion Items analysieren (imrahmen der KTT) Pretest Aussortieren / Umschreiben von unverständlichen, uneindeutigen oder inakzeptablen Items empirische Prüfung Kennwerte: Itemschwierigkeit

Mehr

1. Einführung in die induktive Statistik

1. Einführung in die induktive Statistik Wichtige Begriffe 1. Einführung in die induktive Statistik Grundgesamtheit: Statistische Masse, die zu untersuchen ist, bzw. über die Aussagen getroffen werden soll Stichprobe: Teil einer statistischen

Mehr

Übungsaufgaben zu Statistik II

Übungsaufgaben zu Statistik II Übungsaufgaben zu Statistik II Prof. Dr. Irene Prof. Dr. Albrecht Ungerer Die Kapitel beziehen sich auf das Buch: /Ungerer (2016): Statistik für Wirtschaftswissenschaftler Springer Gabler 4 Übungsaufgaben

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Methode der Naturwissenschaften

Methode der Naturwissenschaften Methode der Naturwissenschaften Die Naturwissenschaften arbeiten auf der Basis der Empirie. Die empirische Methode bezieht sich auf Phänomene und Wirklichkeiten, die messbar (feststellen, zählen, wiegen,

Mehr

Experimentelle und quasiexperimentelle

Experimentelle und quasiexperimentelle Experimentelle und quasiexperimentelle Designs Experimentelle Designs Quasi- experimenttel Designs Ex- post- facto- Desingns Experimentelle Designs 1. Es werden mindestens zwei experimentelle Gruppen gebildet.

Mehr

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung. Residuals vs Fitted Normal Q Q Residuals 2 1 0 1 2 16 18 30 Standardized residuals 2 1 0 1 2 18 30 16 5 10 15 20 25 30 Fitted values 2 1 0 1 2 Theoretical Quantiles Abbildung 1: Dieses Quiz soll Ihnen

Mehr

Ablauf. Selbstkonkordanz. Selbstkonkordanz. Selbstkonkordanz. Fokus der Studie. Selbstkonkordanz und Sportteilnahme

Ablauf. Selbstkonkordanz. Selbstkonkordanz. Selbstkonkordanz. Fokus der Studie. Selbstkonkordanz und Sportteilnahme Damaris Wyss, Salome Bachmann 1 Ablauf und Sportteilnahme Sport- und Bewegungsbezogene skala Seminar Motivation zur Verhaltensänderung Damaris Wyss, Salome Bachmann 10.04.07 Studie und Sportteilnahme Studie

Mehr

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese: 2.4.1 Grundprinzipien statistischer Hypothesentests Hypothese: Behauptung einer Tatsache, deren Überprüfung noch aussteht (Leutner in: Endruweit, Trommsdorff: Wörterbuch der Soziologie, 1989). Statistischer

Mehr

Statistik II für Betriebswirte Vorlesung 1

Statistik II für Betriebswirte Vorlesung 1 Statistik II für Betriebswirte Vorlesung 1 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. Oktober 2017 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version:

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand

Mehr

Freisetzen und Fixieren von Parametern in Strukturgleichungsmodellen

Freisetzen und Fixieren von Parametern in Strukturgleichungsmodellen Freisetzen und Fixieren von Parametern in Strukturgleichungsmodellen 1 Variablen und Parameter Variablen haben für verschiedene Personen unterschiedliche Werte. Parameter haben für eine gegebene Population

Mehr

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit

Mehr

Statistik II. Regressionsanalyse. Statistik II

Statistik II. Regressionsanalyse. Statistik II Statistik II Regressionsanalyse Statistik II - 23.06.2006 1 Einfachregression Annahmen an die Störterme : 1. sind unabhängige Realisationen der Zufallsvariable, d.h. i.i.d. (unabh.-identisch verteilt)

Mehr

Annahmen des linearen Modells

Annahmen des linearen Modells Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert

Mehr

Grundlagen sportwissenschaftlicher Forschung Test

Grundlagen sportwissenschaftlicher Forschung Test Grundlagen sportwissenschaftlicher Forschung Test Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Was ist Messen? Grundlagen des Messens Zuordnen von Objekten (oder Ereignissen)

Mehr

R. Brinkmann Seite

R. Brinkmann  Seite R. Brinkmann http://brinkmann-du.de Seite 1 17.3.21 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

Übersicht Klassische Testtheorie (KTT) Axiomatik der klassischen Testtheorie

Übersicht Klassische Testtheorie (KTT) Axiomatik der klassischen Testtheorie Übersicht 10.05.04 Axiomatik der klassischen Testtheorie (wdh.) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität. Itemkennwerte: Schwierigkeit, Varianz, Trennschärfe Mögliche Themen für

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr