BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK)
|
|
- Marielies Böhler
- vor 7 Jahren
- Abrufe
Transkript
1 Universität der Bundeswehr München Fakultät für Pädagogik ESF: Tarnai / Schmolck / Wöhling FT 007 BEGLEITTEXT: METHODEN DER RELIABILITÄTSSCHÄTZUNG (P. SCHMOLCK) Reliabilität bezeichnet die Genauigkeit eines Meßverfahrens. Die Genauigkeit wird beeinträchtigt durch zufällig streuende Meßfehler, die in den Meßwert (unbemerkt) eingehen. Beispiele für diese Meßfehler sind: Unterschiede zwischen Prüflingen, die auf dem jeweiligen Erfolg / Mißerfolg beim Raten in einem multiplechoice Test beruhen; wenn einzelne Pbn bei einem zu vage formulierten Einstellungsitem "im Kopf auswürfeln", welche Antwort sie geben sollen; wenn in einem Leistungstest einzelne Pbn im Augenblick der Testung müde oder abgelenkt, andere Pbn gerade in Hochform sind. Bei all diesen Beispielen von Meßfehlern handelt es sich um den sog. Zufallsfehler, der nicht mit dem sog. Systematischen Fehler (=bias, Verzerrung) verwechselt werden darf. Dazu wieder Beispiele: Unterschiedliche Geschicklichkeit beim "Spicken" in Prüfungen; wenn einzelne Pbn bei vagen Fragen dazu neigen, ausweichend mit Nein zu antworten, während andere auch dann eine zustimmende Antwort geben, wenn eine solche Frage ihre Meinung nicht so ganz genau wiedergibt; Unterschiede in der Motivation und Anstrengungsbereitschaft in einem Leistungstest. Diese systematischen Fehler beeinträchtigen "nur" die Validität, nicht aber die Reliabilität. Für die Bestimmung der Reliabilität eines gegebenen Tests stehen verschiedene Verfahren zur Wahl. Dabei ist es wichtig zu wissen, daß es von einer Reihe von Bedingungen abhängt, wie brauchbar die einzelnen Verfahren jeweils sind. Man kann immer nur mehr oder weniger angemessene Reliabilitätsschätzungen erhalten, nie die Reliabilität eines Tests. In der Regel läßt sich aber immerhin feststellen, ob man mit einem been Verfahren die "tatsächliche" Reliabilität eher über- oder unterschätzt. In der folgenden Diskussion der einzelnen Verfahren der Reliabilitätsschätzung will ich zum einen ihre jeweiligen Voraussetzungen deutlich machen, zum anderen aber auch zeigen, daß jede Methode bee Aspekte überprüft, die über die rein formale Meßgenauigkeit hinausgehen. Eine Zusammenfassung in Form einer synoptischen Übersicht finden Sie im Anhang am Ende dieses Textes. 1. RETEST-RELIABILITÄT Das Retest-Verfahren setzt voraus, daß das zu messende Merkmal zeitlich stabil ist. Eine hohe Retest- Reliabilität beweist neben der rein formalen Meßgenauigkeit gleichzeitig auch das Zutreffen dieser nauigkeit gleichzeitig auch das Zutreffen dieser Voraussetzung. Eine geringe Retest-Reliabilität bedeutet zwar nicht notwendigerweise, daß der Test ungenau mißt - freilich, wenn der Testkonstrukteur behauptet, daß sein Test eine stabile Disposition, wie z.b. Intelligenz oder Neurotizismus mißt, muß er das auch nachweisen. Zeigt sein Test eine zu geringe Meßwertstabilität (=Retest-Reliabilität), so ist es egal, ob das an Meßwertungenauigkeit im engeren Sinn liegt, oder an Merkmalsinstabilität, der Test ist auf jeden Fall unbrauchbar. Soll der Test ein stark fluktuierendes Merkmal erfassen, z.b. augenblickliche Erregung, Ärger usw., ist das Retest-Verfahren ungeeignet und würde auf jeden Fall eine zu niedrige Schätzung erbringen. Eine Überschätzung der tatsächlichen Reliabilität ist zu erwarten, wenn der zeitliche Abstand zu gering ist und Erinnerungseffekte eine Rolle spielen. Auch Übungseffekte können die Schätzung verzerren. Das Retest-Verfahren setzt nicht voraus, daß der Test intern homogen ist. 1. PARALLELTEST-RELIABILITÄT Für die Erstellung von zwei oder mehreren parallelen Formen eines Tests gibt es verschiedene Gründe, die zunächst nichts mit der Reliabilitätsüberprüfung zu tun haben. Ein Intelligenztest läßt sich z.b. besser in einer Gruppenerhebung einsetzen, wenn man nebeneinander sitzenden Testkandidaten verschiedene Testformen geben, und damit das "Spicken" verhindern kann. Ein anderer wichtiger Anwendungsbereich von Parallelformen liegt in der Veränderungsmessung: Wird ein identischer Leistungstest zweimal vorgegeben, ist immer mit einer Verbesserung durch Lern- und Übungseffekte zu rechnen (außerdem könnten sich die richtigen Lösungen einzelner Aufgaben unter den Testkandidaten "herumsprechen"). Derartige Probleme können bei Verwendung von unterschiedlichen, aber äquivalenten Testformen weitgehend vermieden werden. Voraussetzung für derartige Verwendungen von Paralleltests ist natürlich, daß sie wirklich äquivalent sind, daß das Ergebnis eines Pbn nicht davon abhängt, welche Testform er bearbeitet hat. Die empirische Überprüfung der Äquivalenz von Testformen stellt zugleich eine Methode der Reliabilitätsschätzung dar. Die Entwicklung von Parallelformen bietet sich immer dann an, wenn es leicht ist, eine größere Zahl von guten 1 Das Konzept der internen Konsistenz bzw. Homogenität wird in Abschn. 4 näher erläutert. Datei: Y:\esf\SKRIPTEN\skr-rel07.doc ( :41)
2 METHODEN DER RELIABILITÄTSSCHÄTZUNG Items zu formulieren, als für den Test tatsächlich erforderlich sind. Das Paralleltest-Verfahren setzt keine zeitliche Stabilität des zu messenden Merkmals voraus. Freilich ist es möglich, Retest- und Paralleltest-Ansatz miteinander zu kombinieren. In diesem Fall wird die Merkmalsstabilität zusätzlich überprüft. Das Paralleltest-Verfahren setzt auch keine interne Testhomogenität voraus. Ein gutes Verfahren zur Konstruktion von Parallelformen besteht darin, daß man Paare von Items nach inhaltlichen und statistischen Kriterien zusammenstellt und nach Zufall auf die beiden Formen aufteilt. Faßt man zwei oder mehrere parallele Testformen zu einem entsprechend "längeren" (man spricht hier von "Testverlängerung" um den Faktor, 3 etc.) Test zusammen, so läßt sich die Reliabilität z.t. erheblich steigern. Man kann sich den Zusammenhang zwischen Testlänge und Reliabilität einfach so vorstellen, daß sich bei Zusammenfassung sehr vieler Einzelmessungen der Zufallsfehler (sein Erwartungswert ist Null) "herausmittelt", und damit nur noch der wahre Wert "übrig bleibt". Die bekannte Spearman-Brown Formel gibt an, welche Reliabilität man erreicht, wenn man den Test um den Faktor k verlängert ("r tt " steht für die ursprüngliche, "r ttk " für die neue Reliabilität): (1) r ttk = k r tt / (1 + (k-1) r tt ) Durch Zusammenfassung von zwei äquivalenten Formen mit der Paralleltest-Reliabilität von.60 kommt man so z.b. zu einer Reliabilität von.75. Im übrigen kann die Formel auch für Werte von k < 1, also bei Testkürzung, eingesetzt werden. 3. SPLIT-HALF-RELIABILITÄT Ich habe eben dargelegt, wie man mithilfe der Spearman-Brown Formel die Reliabilität für Tests bestimmen kann, die aus zwei Parallelformen bestehen. Natürlich kann man auch einen bestehenden Test im Nachhinein in zwei (mehr oder weniger) äquivalente Formen aufteilen. Zu diesem Zweck wird häufig das sog. odd-even Verfahren empfohlen: Man be für jeden Pbn je einen Halbtestwert aufgrund der geradzahligen und ungeradzahligen Itemnummern und wertet die Korrelation zwischen diesen Wertepaaren nach der Spearman-Brown Formel auf. Haben die beiden Testhälften unterschiedliche Varianz, sollte eine der beiden folgenden Formeln verwendet werden (V a, V b stehen für die Varianzen der Testhälften, V d für die Varianz der Differenzwerte: d=a-b und V t für die Varianz des Gesamttests: t=a+b): () r tt = 1 - V d / V t (3) r tt = ( 1 - (V a + V b ) / V t ) Diese beiden Formeln lassen sich arithmetisch ineinander überführen, und für V a = V b sind sie auch identisch mit der Spearman-Brown Formel (mit k=). In dem Maß, in dem die beiden Testhälften nicht äquivalent sind, also nicht als gekürzte, aber ansonsten parallele Formen ein- und desselben Tests gelten können, unterschätzt der split-half Koeffizient die tatsächliche Reliabilität des (Gesamt-) Tests. Dies ist insbesondere dann der Fall, wenn die Items insgesamt inhomogen sind und die Testhälften, wie das üblich ist, im Wesentlichen nach Zufall gebildet werden. Obwohl die split-half Methode zur Reliabilitätsschätzung - vermutlich wegen ihrer Anschaulichkeit - relativ häufig verwendet wird, ist dieser Ansatz doch etwas unbefriedigend. Da es für einen Test eine Vielzahl möglicher Aufteilungen in Hälften gibt (bei nur 10 Items bereits 16 mögliche Varianten!), gibt es auch entsprechend viele gleichwertige, aber numerisch doch mehr oder minder unterschiedliche mögliche Koeffizienten. Für welchen der Werte soll man sich da entscheiden? Die im nächsten Abschnitt behandelte Konsistenzanalyse stellt (auch) eine Verallgemeinerung des Prinzips der Testaufteilung dar, die diese unbefriedigende Situation auf überraschend einfache Weise löst. 4. KONSISTENZ-RELIABILITÄT Zunächst eine begriffliche Klärung: Interne Konsistenz eines Tests - die Begriffe Eindimensionalität und Homogenität werden in der Regel synonym dazu verwendet - bezeichnet das Ausmaß, in dem die Items sich auf ein- und dieselbe Dimension beziehen, dieselbe einzelne Fähigkeit erfassen, dasselbe messen. Hohe interne Konsistenz zeigt sich empirisch in hohen Interkorrelationen zwischen den Items. Der Grund für die Forderung nach Eindimensionalität von Meßverfahren liegt vor allem in der Vergleichbarkeit von Meßwerten. Bei einem sehr heterogenen Test kann ein- und derselbe Testwert durch die Lösung ganz unterschiedlicher Aufgaben zustande kommen, und da die Items nur gering interkorrelieren, kann man auch nicht davon ausgehen, daß diese verschiedenen Aufgaben im Effekt doch vergleichbar sind. Ein weiterer Nachteil heterogener Tests besteht darin, daß sie für eine ausreichende Meßgenauigkeit eine größere Itemzahl benötigen als homogene Tests. Es kann leicht gezeigt werden, daß die in der Spearman-Brown Formel dargestellte Relia- Die algebraische Äquivalenz zeigt sich bei Substitution von V d =V a +V b - COV ab und V t =V a +V b + COV ab (gemäß Theorem zur Varianz von Summen- bzw. Differenzwerten). Formel (3) ist im übrigen eine Anwendung der unten erläuterten Formel (4) für Cronbachs alpha, wobei die Testhälften wie Items behandelt werden.
3 METHODEN DER RELIABILITÄTSSCHÄTZUNG 3 bilitätserhöhung durch Testverlängerung nicht gilt, wenn die Testteile unkorreliert sind. Vereinfacht bedeutet das, daß jede in einem komplexen Test enthaltene Teildimension für sich mit hinreichender Genauigkeit gemessen werden muß. Freilich gibt es in einzelnen Fällen auch gute Gründe gegen eine zu hohe interne Konsistenz. Eine Krankheit, sagen wir einmal Alkoholismus, läßt sich relativ zuverlässig diagnostizieren, wenn man einfach ein Inventar der einschlägigen Symptome (=Items) zusammenstellt, und auszählt, wieviele davon zutreffen. Dabei ist es ganz typisch, daß die einzelnen Symptome wenig miteinander zu tun haben, im Extremfall können sie sogar hoch negativ korreliert sein, was dann der Fall ist, wenn sich Symptome gegenseitig ausschließen. In unserem Beispiel wäre das Fettleber und Leberzirrhose. Oder ein anderes, weniger extremes Beispiel für einen notwendigerweise nicht sehr homogenen Test: Die Items einer ESF-Klausur beziehen sich auf eine Reihe verschiedener Themenbereiche; außerdem unterscheiden sich die Items im Anforderungsniveau: etwa Definitionswissen oder Verständnis. Dabei kann man nicht davon ausgehen, und man braucht das auch nicht, daß jeder Student in jedem der Gebiete und in jeder erwarteten Fähigkeit gleich gut oder gleich schlecht ist. Es ist bekannt, daß manche Studenten etwas selektiv lernen. Das ist (in Maßen) auch mit der Klausurintention vereinbar: Es ist durchaus legitim, daß ein Student durch besonders gute Leistungen in been Bereichen einzelne Wissenslücken in anderen Bereichen ausgleichen kann. Es ist auch keineswegs ungerecht, wenn dieser Student dieselbe Klausurnote bekommt wie ein anderer, der in keinem Gebiet echte Lücken aufweist, aber auch in keinem überdurchschnittlich beschlagen ist. (Diese ausführliche Erörterung des Klausurbeispiels sollte Sie dafür sensibilisieren, daß die Zusammenfassung unterschiedlicher Dinge zu einem einzigen Wert in der Regel einer inhaltlichen Begründung bedarf.) Die interne Konsistenz eines Tests wird meist durch Cronbachs alpha (bzw. äquivalent: Kuder-Richardson 0) be (V i steht für die Varianz eines Items, V t für die Gesamtvarianz, n für die Anzahl der Items): (4) alpha = ( n / (n-1) ) (V t - V i ) / V t Die Formel läßt sich leicht durchschauen, wenn man weiß, daß die Testvarianz dargestellt werden kann als Summe der einzelnen Itemvarianzen plus mal die Summe aller Itemkovarianzen. Alpha ist, bei gegebenen Itemvarianzen, umso größer, je höher die Items untereinander korreliert sind. Bei dichotomen Items ist übrigens V i = p q, V i = p - p (p = Schwierigkeit; q = 1 - p). Obwohl alpha sehr einfach zu bestimmen ist, man benötigt neben der Itemzahl nur die einzelnen I- temschwierigkeiten (bei Dichotomaufgaben) und die Testvarianz, ist dieses Reliabilitätsmaß doch sehr aussagekräftig. Durch einfache Arithmetik läßt sich nämlich zeigen, daß diese Formel auf vier ziemlich unterschiedlichen Wegen hergeleitet werden kann 3 (teilweise dargestellt in: A.L. EDWARDS, The Measurement of Personality Traits by Scales and Inventories. New York: Holt, Rinehart & Winston, 1970): (a) Mit alpha erhält man genau den Wert, den man etwas umständlicher dadurch bestimmen könnte, daß man mit Formel () bzw. (3) sämtliche möglichen split-half Koeffizienten berechnet und daraus den Mittelwert. (b) Die bekannte Formulierung "Wenn man den Test in soviele Teile zerlegt, wie er Items hat...": Wenn man annimmt, daß alle Items äquivalente, also untereinander austauschbare Messungen des Merkmals darstellen, läßt sich die Reliabilität eines einzelnen Items durch den Durchschnittswert seiner Korrelationen mit sämtlichen anderen Items schätzen. Zur Bestimmung der Reliabilität des Gesamttests würde man wieder die Spearman-Brown Formel (1) mit dem Faktor k = Anzahl der Items anwenden. Diese Prozedur müßte man für jedes einzelne Item wiederholen, um dann schließlich den Mittelwert aus allen einzelnen Schätzungen für die Gesamttestreliabilität zu berechnen. Dieser Riesenaufwand ist freilich unnötig, da sich zeigen läßt, daß man mit Formel (4) genau dasselbe Ergebnis viel einfacher ermitteln kann. Für die Herleitung der Identität zwischen alpha und der nach Spearman-Brown aufgewerteten durchschnittlichen Iteminterkorrelation ist im übrigen die strenge Äquivalenz-Annahme gar nicht erforderlich. Die Beziehung gilt immer, wenn die Items gleiche Varianz haben, bzw. wenn der Testwert aus standardisierten Itemwerten gebildet wird. (c) Wenn man denselben Test nocheinmal durchführen würde, und dabei Erinnerungs- und Lerneffekte, sowie Merkmalsänderungen ausschließen könnte, würde alpha dann die Korrelation zwischen beiden Erhebungen genau schätzen, wenn die durchschnittliche Kovarianz zwischen unterschiedlichen Items nicht kleiner ist als die zwischen gleichen Items. Wenn diese Bedingung nicht erfüllt ist, stellt alpha, unter obengenannten Voraussetzungen, eine untere Schranke für die tatsächliche Retest-Reliabilität dar. Diese wird umso stärker unterschätzt, umso heterogener der Test ist. (d) Wenn man davon ausgeht, daß die Items eines Tests eine Zufallsstichprobe aus einem (beliebigen, auch heterogenen!) Itemuniversum darstellen, aus dem man eine weitere vergleichbare Stichprobe ziehen könnte, so stellt alpha die zu erwartende 3 Die folgenden Herleitungen und Erörterungen zur Interpretation von Alpha sind zugegebenermaßen etwas anspruchsvoll und sind, im Unterschied zur daran anschließenden Zusammenfassung, nicht als prüfungsrelevanter Stoff gedacht.
4 4 METHODEN DER RELIABILITÄTSSCHÄTZUNG Korrelation zwischen diesen beiden Tests, also zwischen dem vorhandenen und dem "fiktiven", dar. Der interne Konsistenzkoeffizient alpha bzw. KR-0 wird häufig zu Unrecht als direktes Maß für die Eindimensionalität bzw. Heterogenität eines Tests verwendet. Wie Herleitung (b) aber zeigt, hängt alpha nicht nur von der durchschnittlichen Iteminterkorrelation ab, sondern auch von der Zahl der Items. Verlängert man einen relativ heterogenen Test aus 10 Items mit einem alpha =.40 um weitere 10 Items, steigt alpha auf.57, bei 100 gleichermaßen heterogenen Items kommt man gar zu einem alpha =.87. Will man die Homogenität / Heterogenität verschiedener Tests miteinander vergleichen, sollte man daher jedes alpha mit Hilfe von Formel (1) auf eine konstante Itemzahl bzw. auf die durchschnittliche Iteminterkorrelation umrechnen. In Lehrbüchern wird übereinstimmend darauf hingewiesen, daß die Reliabilitätsschätzung durch die Konsistenzmethode nur für homogene Tests anwendbar sei. Der Genauigkeit halber sollte man hier aber doch darauf hinweisen, daß gemäß Ableitung (c) alpha in jedem Fall (mit einer wichtigen Einschränkung, s.u.) eine untere Schranke für die "tatsächliche" Reliabilität (das ist hier die Retest-Reliabilität unter idealisierten Bedingungen) darstellt. Wenn man also beispielsweise für einen Test eine Konsistenzreliabilität von.85 oder darüber ermittelt hat, kann dieses sehr befriedigende Ergebnis in keiner Weise durch den Einwand, der Wert sei unbrauchbar, weil der Test heterogen sei, entkräftet werden! Leider wird in Lehrbüchern meist nicht erwähnt, daß die Konsistenzschätzung in der Regel künstlich überhöht ist, wenn die einzelnen Items keine sog. "experimentell unabhängigen" Messungen darstellen. Wenn etwa die Lösung einer Statistik-Aufgabe Voraussetzung für die Lösung einer Folgeaufgabe ist, handelt es sich nicht um experimentell unabhängige Messungen; zwischen beiden Aufgaben besteht eine künstlich erhöhte Korrelation. Ähnliches gilt für einen Einstellungstest, dessen Items dasselbe Thema mit nur geringen Formulierungsänderungen immer wieder variieren. Auf der Basis von Herleitung (d) ließe sich, im Widerspruch zu den meisten gängigen Lehrbüchern, argumentieren, daß der Konsistenzkoeffizient alpha eine empirische Reliabilitätsschätzung darstellt, die für heterogene Tests genauso brauchbar ist, wie für homogene Tests. Diese Position kann im Prinzip durchaus vertreten werden, allerdings muß dabei beachtet werden, welche spezifische Bedeutung Reliabilität unter dieser Perspektive hat. Ein Koeffizient nahe Null könnte dann etwa als Hinweis genommen werden, daß "Paralleltests" aus gleichartigen Items und mit vergleichbarer (nicht unbedingt niedriger!) Validität denkbar sind, die aber doch mit dem gegebenen Test nahezu unkorreliert sind. Man kann aber nicht erkennen, wie der gegebene heterogene Test mit einem Paralleltest korrelieren würde, dessen Items nicht zufällig sondern systematisch ausgewählt wurden, z.b. mit der Vorgabe einer möglichst engen formalen und inhaltlichen Entsprechung einzelner Itempaare. Bei einem homogenen Itemuniversum gibt es keine derartigen Interpretationsprobleme: Wenn alle Items mehr oder weniger äquivalent sind, dann macht es keinen großen Unterschied, ob man die Items zufällig oder systematisch auswählt. Zusammenfassend läßt sich zu den Voraussetzungen und Interpretationsmöglichkeiten der Konsistenzanalyse folgendes festhalten: 1) Alpha sollte nicht verwendet werden, wenn zwischen den einzelnen Items rechnerische oder experimentelle Abhängigkeiten bestehen (z.b. dadurch, daß das Lösen einer Aufgabe eine notwendige Voraussetzung für die richtige Beantwortung folgender Aufgaben ist). In diesem Fall wäre Alpha artifiziell überhöht. ) Für Tests, die beanspruchen, ein homogenes Konstrukt zu erfassen, stellt alpha eine zuverlässige Reliabilitätsschätzung, sowie zugleich ein Prüfkriterium für die angenommene Eindimensionalität des Tests dar. 3) Für einen heterogenen Test, der ein breites, facettenreiches Konstrukt mit entsprechend heterogenen Items erfassen soll, ist alpha nicht die optimale Methode zur Reliabilitätsschätzung. Immerhin erlaubt es aber auch in diesem Fall, auf einfache Weise zumindest eine untere Schranke für die "tatsächliche" Reliabilität des Tests zu ermitteln. Dies ist insbesondere dann von Bedeutung, wenn kein Paralleltest vorliegt, und wenn das Retestverfahren nicht adäquat (instabiles Merkmal) ist oder aus anderen (z.b. Kosten-) Gründen undurchführbar erscheint.
5 METHODEN DER RELIABILITÄTSSCHÄTZUNG 5 5. KONTROLLFRAGEN 1. Klassische Testtheorie Satz : Ausgangspunkt der klassischen Testtheorie ist die Beschreibung des Testwerts als eine additive Kombination von "wahrem Wert" und systematischem Fehler (=Bias, Verzerrung) Es konnte empirisch nachgewiesen werden, daß unsystematische oder Zufallsfehlerbestandteile vernachlässigt werden können C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig. Testtheorie "wahre" Varianz Satz : Der Reliabilitätskoeffizient gibt an, wie groß der Varianzanteil des "wahren Werts" an der Testwertvarianz ist. Die Korrelation zwischen zwei unabhängig mit demselben Instrument erhobenen Meßwertreihen ist gleich der quadrierten Korrelation zwischen dem Meßwert und seinem meßfehlerfreien Bestandteil. C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 3. Standardmeßfehler: Praktische Bedeutung Die praktische Bedeutung des Standardmeßfehlers besteht darin, daß mit Satz : ihm das Vertrauensintervall von Meßwerten be werden kann, Die Größe dieses Vertrauensintervalls hängt u.a. davon ab, mit welchem Fehlerrisko ( z.b. 5%, 1%, 0.1% ) man arbeitet C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 4. Die Skalen des Freiburger Persönlichkeitsinventars (FPI-R) sollen zeitlich stabile und breite, facettenreiche, also relativ inhomogene Persönlichkeitsdimensionen erfassen. Es liegen keine Parallelformen vor. Satz : Zur Feststellung der Reliabilität der Skalen des FPI-R ist das Retest- Verfahren besser geeignet als Verfahren der Internen Konsistenz (Cronbachs Alpha) Die Berechnung von Cronbachs Alpha setzt voraus, daß jede Test-Skala in zwei äquivalente Formen aufgeteilt werden kann ("split-half"). C) Satz 1 ist richtig - Satz ist falsch D) Satz 1 ist falsch - Satz ist richtig 5. Überprüfen Sie die Eignung der verschiedenen Verfahren der Reliabilitätsschätzung zur Überprüfung der Meßgenauigkeit der Statistikklausur (s. Begleittext Testverfahren I). Berechnen Sie Cronbachs alpha unter Zugrundelegung der drei Subtests (RECHNEN, MCHOICE, OFFEN) anstelle von Items.
6 6 METHODEN DER RELIABILITÄTSSCHÄTZUNG ANHANG: METHODEN DER RELIABILITÄTSSCHÄTZUNG IM ÜBERBLICK Retest Paralleltest Split-Half / Konsistenz (Alpha) Aufwand / Vorgehen Test muß zweimal mit denselben Personen durchgeführt werden Konstruktion einer Parallelform: noch einmal soviele, gleich gut geeignete Items erforderlich. Erhebung beider Formen bei denselben Personen Nur einmalige Erhebung des (einen) Tests. Auch die Berechnung, v.a. von Alpha, sehr leicht durchführbar: nur Itemvarianzen und Gesamtvarianz müssen berechnet werden. Koeffizient erfaßt / bedeutet Korrelation zwischen Test- und Retestwerten Korrelation zwischen Werten für Testform A und Testform B Korrelation zwischen Testhälften, aufgewertet (Spearman- Brown) für die Länge des gesamten Tests; Alpha stellt einen Durchschnittswert für alle möglichen Testhalbierungen dar. Angenommene Voraussetzungen Merkmal stabil (zumindest über Retest- Intervall) Formen A und B äquivalent, d.h. in der Anwendung austauschbar (a) gemessenes Merkmal homogen, Test eindimensional; (b) Items experimentell unabhängig Konsequenzen, wenn Annahmen nicht (voll) erfüllt Tatsächliche Meßgenauigkeit der Erstbzw. Zweiterhebungswerte wird unterschätzt Tatsächliche Meßgenauigkeit beider Formen wird unterschätzt (a) Tatsächliche Meßgenauigkeit wird unterschätzt; (b) Tatsächliche Meßgenauigkeit wird überschätzt Was folgt, wenn Koeffizient hoch? Hohe Meßgenauigkeit und gemessenes Merkmal stabil Hohe Meßgenauigkeit und Formen äquivalent Hohe Meßgenauigkeit und Test eindimensional
7 METHODEN DER RELIABILITÄTSSCHÄTZUNG 7 ANHANG: GLEICHUNGEN UND FORMELN DER KLASSISCHEN TESTTHEORIE DIE GRUNDGLEICHUNG DER KTT (0) X = T + E DIE 3 SOG. AXIOME DER KTT (1) µ = 0 () E TE = 0 (3) EE 1 = 0 (4) aus (0) und (): = + E X T oder: 1 = + T X E X RELIABILITÄT ρ XX = T X oder: ρ XX = 1 E X STANDARDMEßFEHLER E = X T = = 1 ρ E E X XX ZUSAMMENHANG VARIANZ DIFFERENZWERTE (TEST-RETEST) MIT FEHLERVARIANZ = 1 E
σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität
Varianzzerlegung Die Varianz der beobachteten Testwerte x v : setzt sich zusammen aus zerlegen wahrer Varianz und Fehlervarianz: σ (x) = σ (τ) + σ (ε) Varianzzerlegung und Definition der Reliabilität (
Mehr3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung
3.2 Grundlagen der Testtheorie 3.2.6 Methoden der Reliabilitätsbestimmung 6.1 Was ist Reliabilität? 6.2 Retest-Reliabilität 6.3 Paralleltest-Reliabilität 6.4 Splithalf-(Testhalbierungs-)Reliabilität 6.5
Mehr4.2 Grundlagen der Testtheorie
4.2 Grundlagen der Testtheorie Januar 2009 HS MD-SDL(FH) Prof. Dr. GH Franke Kapitel 5 Vertiefung: Reliabilität Kapitel 5 Vertiefung: Reliabilität 5.1 Definition Die Reliabilität eines Tests beschreibt
MehrTutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern
Tutorium Testtheorie Termin 3 Charlotte Gagern charlotte.gagern@gmx.de Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität 1 Hauptgütekriterien Objektivität Reliabilität Validität 2 Hauptgütekriterien-Reliabilität
MehrTesttheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität
Testtheorie und Gütekriterien von Messinstrumenten Objektivität Reliabilität Validität Genauigkeit von Messungen Jede Messung zielt darauf ab, möglichst exakte und fehlerfreie Messwerte zu erheben. Dennoch
MehrReliabilitäts- und Itemanalyse
Reliabilitäts- und Itemanalyse In vielen Wissenschaftsdisziplinen stellt die möglichst exakte Messung von hypothetischen Prozessen oder Merkmalen sogenannter theoretischer Konstrukte ein wesentliches Problem
MehrForschungsmethoden VORLESUNG WS 2017/2018
Forschungsmethoden VORLESUNG WS 2017/2018 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten
MehrForschungsmethoden VORLESUNG SS 2017
Forschungsmethoden VORLESUNG SS 2017 SOPHIE LUKES Überblick Letzte Woche: - Stichprobenziehung und Stichprobeneffekte Heute: -Gütekriterien I Rückblick Population und Stichprobe verschiedene Arten der
Mehr6. Faktorenanalyse (FA) von Tests
6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...
MehrRETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.
Basiert auf RETESTRELIABILITÄT Wird auch genannt Teststabilität Geeignet für Korrelation wiederholter Testdurchführungen Abhängig von beeinflusst Stabilität des Zielmerkmals Persönlichkeitstests Speedtests
MehrForschungspraktikum Gruppenbezogene Menschenfeindlichkeit
Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Reliabilität in der klassischen (psychometrischen) Testtheorie Statistisches Modell Realisierung mit der SPSS-Prozedur Reliability Klassische Testtheorie:
MehrBestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala. Cronbach s. 1 (k 1)r
Dr. Wolfgang Langer - Methoden V: Explorative Faktorenanalyse SoSe 1999-1 Bestimmung der Zuverlässigkeit / Reliabilität einer additiven Itemskala Für die Schätzung der Zuverlässigkeit einer additiven Itemskala,
MehrEigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?
Eigene MC-Fragen Testgütekriterien (X aus 5) 1. Wenn verschieden Testanwender bei Testpersonen mit demselben Testwert zu denselben Schlussfolgerungen kommen, entspricht dies dem Gütekriterium a) Durchführungsobjektivität
Mehr= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %
allgemein Klassifizierung nach Persönlichkeitseigenschaften Messung von Persönlichkeitseigenschaften Zuordnung von Objekten zu Zahlen, so dass die Beziehungen zwischen den Zahlen den Beziehungen zwischen
MehrVorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007
Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Wie läßt sich die Reliabilität erhöhen? Testlänge erhöhen (Kann zu Durchführungseinschränkungen führen; Testökonomie und Zumutbarkeit
MehrTESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3
TESTTHEORIE UND TESTKONSTRUKTION - PRAKTISCHE ANWENDUNG - TEIL 3 Prof. Dr. Franke SS2012 Hochschule Magdeburg-Stendal (FH) M.Sc. Rehabilitationspsychologie Gliederung Reliabilität 1. Überblick 2. Berechnung
MehrGrundlagen der Statistik
Grundlagen der Statistik Übung 6 2009 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den insendeaufgaben geprüften Lehrzielgruppen Lehrzielgruppe:
MehrBeispielberechnung Vertrauensintervall
Beispielberechnung Vertrauensintervall Auszug Kursunterlagen MAS ZFH in Berufs-, Studien- und Laufbahnberatung Prof. Dr. Marc Schreiber, Dezember 2016 Beispielberechnung Vertrauensintervall Statistische
MehrKlassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)
Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.
MehrKlassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)
Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.
MehrBrückenkurs Statistik für Wirtschaftswissenschaften
Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München
MehrBeispielberechnung Vertrauensintervalle
Beispielberechnung Vertrauensintervalle Auszug Kursunterlagen MAS Berufs-, Studien- und Laufbahnberatung Juni 2015 Prof. Dr. Marc Schreiber Beispielberechnung Vertrauensintervalle Vorbereitung - Statistische
Mehr4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke
4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie,
MehrWelche Gütekriterien sind bei der Bewertung von Lernleistungen
Welche Gütekriterien sind bei der Bewertung von Lernleistungen wichtig? Anne Spensberger; Ramona Dutschke; überarbeitet von Susanne Narciss Eine gerechte Bewertung von Lernleistungen setzt voraus, dass
MehrReliabilität. Kapitel 4. Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1
Reliabilität Kapitel 4 Einführung in die Test- und Fragebogenkonstruktion, Pearson Education 2003, Markus Bühner, 1 Reliabilität Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz
MehrEinführung in die Theorie psychologischer Tests
Gerhard H. Fischer Einführung in die Theorie psychologischer Tests Grundlagen und Anwendungen VERLAG HANS HUBER BERN STUTTGART WIEN Inhaltsverzeichnis Vorwort 9 Die Notation 12 Teil 1: Abriss der klassischen
MehrMethodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 4 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
MehrEinführung in die Statistik Testgütekriterien
Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Testgütekriterien Überblick Einleitung Objektivität Reliabilität Validität Nebengütekriterien
MehrEine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item
KONSTRUKTION UND ANALYSE VON SKALEN Ziel Skalen und Tests Systematisierung von Tests Itemarten Skalenarten im Detail Die Likert Skala Skala: Eine Skala ist ein Instrument zur Messung von (theoretischen)
MehrWas heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung
Was heißt messen? Ganz allgemein: Eine Eigenschaft eines Objektes wird ermittelt, z.b. die Wahlabsicht eines Bürgers, das Bruttosozialprodukt eines Landes, die Häufigkeit von Konflikten im internationalen
MehrFaktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s
Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im
MehrMesstherorie Definitionen
Messtherorie Definitionen Begriff Definition Beispiel Relationen Empirisches Relativ eine Menge von Objekten und ein oder mehreren beobachtbaren Relationen zwischen dieses Objekten Menge der Objekte =
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrParametrische vs. Non-Parametrische Testverfahren
Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer
MehrKontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014
Kontrolle und Aufbereitung der Daten Peter Wilhelm Herbstsemester 2014 Übersicht 1.) Kontrolle und Aufbereitung der Daten Fehlerkontrolle Umgang mit Missing 2.) Berechnung von Skalen- und Summenscores
MehrFaktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s
Explorative Faktorenanalyse als Instrument der Dimensionsreduktion Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im Datensatz
MehrDozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische
TEIL 3: MESSEN UND SKALIEREN 1 Das Messen eine Umschreibung Feststellung der Merkmalsausprägungen von Untersuchungseinheiten (z.b. Feststellung, wie viel eine Person wiegt oder Feststellung, wie aggressiv
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
MehrStatistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
Mehr1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler
1 Messfehler Jede Messung ist ungenau, hat einen Fehler. Wenn Sie zum Beispiel die Schwingungsdauer eines Pendels messen, werden Sie - trotz gleicher experimenteller Anordnungen - unterschiedliche Messwerte
MehrNotgepäck Genauigkeit
Notgepäck Genauigkeit Beat Hulliger Dienst Statistische Methoden, Bundesamt für Statistik 20.4.2006 1 Was ist Genauigkeit genau? Um zu beschreiben, was Genauigkeit in der Statistik ist, müssen wir untersuchen,
MehrÜbungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression
Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen
MehrFallzahlplanung bei unabhängigen Stichproben
Fallzahlplanung bei unabhängigen Stichproben Seminar Aktuelle biometrische Probleme Benjamin Hofner benjamin.hofner@stat.uni-muenchen.de 12. Januar 2005 Übersicht 1. Einführung und Grundlagen der Fallzahlplanung
MehrEinfache Varianzanalyse für unabhängige Stichproben
Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,
MehrMessen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse
Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Dominik Ernst 26.05.2009 Bachelor Seminar Dominik Ernst Reliabilität und explorative Faktorenanalyse 1/20
MehrObjektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität
Objektivität und Objektivität: Inwieweit ist das Testergebnis unabhängig von externen Einflüssen Effekte des Versuchsleiters, Auswertung, Situation, Itemauswahl : Inwieweit misst der Test das, was er messen
MehrGLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften
TEIL 3: MESSEN UND SKALIEREN GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Objektivität Reliabilität Validität Konstruierte Skalen in den Sozialwissenschaften
Mehr8. Konfidenzintervalle und Hypothesentests
8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars
MehrEinführung in die Test- und Fragebogenkonstruktion
Markus Bühner Einführung in die Test- und Fragebogenkonstruktion 3., aktualisierte und erweiterte Auflage ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
MehrVerfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie
Verfahren zur Skalierung A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie 1. Daten: z. Bsp. Rating-Skalen, sogenannte "Likert" - Skalen 2. Ziele 1. Eine Skalierung von Items
MehrWas ist eine Testtheorie?
Was ist eine Testtheorie? Eine Testtheorie bezeichnet eine Gesamtheit von Methoden zur Behandlung der Fragestellungen, welche sich bei der Testkonstruktion und -auswertung ergeben. Dieser Begriff ist nicht
MehrMethodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
MehrLage- und Streuungsparameter
Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
Mehrk np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr
Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p
MehrMessen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse
Messen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse Dominik Ernst 26.05.2009 Bachelor Seminar Inhaltsverzeichnis 1 Reliabilität 2 1.1 Methoden zur Reliabilitätsbestimmung.............
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung
0 Einführung 1 Wahrscheinlichkeitsrechnung Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung Motivation und Hinführung Der wahre Anteil der rot-grün Wähler 009 war genau
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
MehrStandardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
MehrVorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007
Vorlesung Testtheorien Dr. Tobias Constantin Haupt, MBA Sommersemester 2007 Inhaltsfolie # 2 KTT Axiome 4. Axiom Die Höhe des Messfehlers E ist unabhängig vom Ausprägungsgrad der wahren Werte T anderer
MehrHypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
MehrSPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen
SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1
MehrWS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.
Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im
MehrKorrelation Regression. Wenn Daten nicht ohne einander können Korrelation
DAS THEMA: KORRELATION UND REGRESSION Korrelation Regression Wenn Daten nicht ohne einander können Korrelation Korrelation Kovarianz Pearson-Korrelation Voraussetzungen für die Berechnung die Höhe der
MehrName Vorname Matrikelnummer Unterschrift
Dr. Hans-Otfried Müller Institut für Mathematische Stochastik Fachrichtung Mathematik Technische Universität Dresden Klausur Statistik II (Sozialwissenschaft, Nach- und Wiederholer) am 26.10.2007 Gruppe
Mehr1 Statistik: Das Spiel mit dem Würfel
1 Statistik: Das Spiel mit dem Würfel 1.1 Definition des Gegenstandes Der Hauptgegenstand in diesem ersten Teil des Buches ist der klassische sechsseitige Würfel. Wir denken zunächst an den perfekten mathematischen
MehrMethodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft
MehrMethodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie
MehrSchätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
MehrINFORMATIONEN ZU DEN ERGEBNISSEN DES NEO-FFI
Fakultät Mathematik und Naturwissenschaften FR Psychologie Differentielle & Persönlichkeitspsychologie INFORMATIONEN ZU DEN ERGEBNISSEN DES NEO-FFI Liebe Studierende, in dem Tabellenabruf NEO-FFI Ergebnisse
MehrStatistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
MehrGrundlagen der Testkonstruktion
Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Grundlagen der Testkonstruktion Maik Beege M.Sc. Test und Fragebogen Fragebogen: Sammelausdruck für vielfältige
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrGÜTEKRITERIEN SPEZIFISCH p. 1
GÜTEKRITERIEN SPEZIFISCH p. 1 Validität ( = Gültigkeit): Genereller Terminus, der die Richtigkeit einer Messung bezeichnet (damit ist gemeint, daß ein Test tatsächlich das mißt, was er vorgibt zu messen).
MehrRekodierung invertierter Items
16.Testkonstruktion Items analysieren (imrahmen der KTT) Pretest Aussortieren / Umschreiben von unverständlichen, uneindeutigen oder inakzeptablen Items empirische Prüfung Kennwerte: Itemschwierigkeit
Mehr1. Einführung in die induktive Statistik
Wichtige Begriffe 1. Einführung in die induktive Statistik Grundgesamtheit: Statistische Masse, die zu untersuchen ist, bzw. über die Aussagen getroffen werden soll Stichprobe: Teil einer statistischen
MehrÜbungsaufgaben zu Statistik II
Übungsaufgaben zu Statistik II Prof. Dr. Irene Prof. Dr. Albrecht Ungerer Die Kapitel beziehen sich auf das Buch: /Ungerer (2016): Statistik für Wirtschaftswissenschaftler Springer Gabler 4 Übungsaufgaben
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrMethode der Naturwissenschaften
Methode der Naturwissenschaften Die Naturwissenschaften arbeiten auf der Basis der Empirie. Die empirische Methode bezieht sich auf Phänomene und Wirklichkeiten, die messbar (feststellen, zählen, wiegen,
MehrExperimentelle und quasiexperimentelle
Experimentelle und quasiexperimentelle Designs Experimentelle Designs Quasi- experimenttel Designs Ex- post- facto- Desingns Experimentelle Designs 1. Es werden mindestens zwei experimentelle Gruppen gebildet.
MehrAbbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.
Residuals vs Fitted Normal Q Q Residuals 2 1 0 1 2 16 18 30 Standardized residuals 2 1 0 1 2 18 30 16 5 10 15 20 25 30 Fitted values 2 1 0 1 2 Theoretical Quantiles Abbildung 1: Dieses Quiz soll Ihnen
MehrAblauf. Selbstkonkordanz. Selbstkonkordanz. Selbstkonkordanz. Fokus der Studie. Selbstkonkordanz und Sportteilnahme
Damaris Wyss, Salome Bachmann 1 Ablauf und Sportteilnahme Sport- und Bewegungsbezogene skala Seminar Motivation zur Verhaltensänderung Damaris Wyss, Salome Bachmann 10.04.07 Studie und Sportteilnahme Studie
Mehr2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:
2.4.1 Grundprinzipien statistischer Hypothesentests Hypothese: Behauptung einer Tatsache, deren Überprüfung noch aussteht (Leutner in: Endruweit, Trommsdorff: Wörterbuch der Soziologie, 1989). Statistischer
MehrStatistik II für Betriebswirte Vorlesung 1
Statistik II für Betriebswirte Vorlesung 1 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. Oktober 2017 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version:
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrProf. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006
Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand
MehrFreisetzen und Fixieren von Parametern in Strukturgleichungsmodellen
Freisetzen und Fixieren von Parametern in Strukturgleichungsmodellen 1 Variablen und Parameter Variablen haben für verschiedene Personen unterschiedliche Werte. Parameter haben für eine gegebene Population
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrStatistik II. Regressionsanalyse. Statistik II
Statistik II Regressionsanalyse Statistik II - 23.06.2006 1 Einfachregression Annahmen an die Störterme : 1. sind unabhängige Realisationen der Zufallsvariable, d.h. i.i.d. (unabh.-identisch verteilt)
MehrAnnahmen des linearen Modells
Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert
MehrGrundlagen sportwissenschaftlicher Forschung Test
Grundlagen sportwissenschaftlicher Forschung Test Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Was ist Messen? Grundlagen des Messens Zuordnen von Objekten (oder Ereignissen)
MehrR. Brinkmann Seite
R. Brinkmann http://brinkmann-du.de Seite 1 17.3.21 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit
MehrZufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
MehrÜbersicht Klassische Testtheorie (KTT) Axiomatik der klassischen Testtheorie
Übersicht 10.05.04 Axiomatik der klassischen Testtheorie (wdh.) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität. Itemkennwerte: Schwierigkeit, Varianz, Trennschärfe Mögliche Themen für
MehrStatistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
Mehr