1. Testgütekriterien
|
|
|
- Regina Brauer
- vor 10 Jahren
- Abrufe
Transkript
1 Testtheorie und Testkonstruktion 1. Testgütekriterien 2. Testentwicklung 3. Testevaluation 4. Klassische Testtheorie 5. Probabilistische Testtheorie 1. Testgütekriterien Wissenschaftlicher/Diagnostischer Test Wissenschaftliches Verfahren zur Messung psychologischer Merkmale Mithilfe von Skalen oder Kategorien Ziel: Ermittlung des Ausprägungsgrades individueller Merkmale wurde sich mithilfe von Testgütekriterien empirisch überprüft im Gegensatz zu unwissenschaftlichen Tests Testobjekte Einzelperson Gruppen Kombi aus Personen und Situationen Zeitbereiche Veränderungsmessung Testitems Einzelne zu bearbeitende Aufgaben eines Tests Testskala Satz von Items die den gleichen Skalierungseigenschaften genügen Testbatterie Kombination aus Einzeltests Zur Erhöhung der Genauigkeit und Güte der Messung Testtheorie ist Theorie über Verschiedene Arten von Tests, deren Aufbau und Konstruktionsprinzipien Zusammenhang von Testverhalten und dem zu erfassender Merkmal Ableitung von Gütekriterien Testmanual bei wissenschaftlichen Test sind hier die Testgütekriterien erläutert Testgütekriterien Instrument der Qualitäts- und Wissenschaftlichkeitsprüfung In Testmanual erläutert Hauptgütekriterien
2 Objektivität Das Ergebnis des Tests, also die gemessenen Merkmale, sind unabhängig vom Versuchsleiter, von der auswertenden Person und der Ergebnisinterpretation Durchführungsobjektivität: Standardisierung de Testsituation Auswertungsobjektivität: Antworten genau quantifizieren Interpretationsobjektivität: Schlussfolgerungen unabhängig vom Testanwender Reliabilität Zuverlässigkeit mit der ein Test ein Merkmal misst/maß für die Messgenauigkeit Je geringer der Messfehler, desto höher Reliabilitätskoeffizient: r=1 gibt es keinen Messfehler r=0 ist das Ergebnis ein einziger Messfehler r=0,7 akzeptabel, 0,8 + 0,9 gut Quotient von wahrer Varianz (Veränderung des Merkmals/Merkmalsstreuung der wahren Werte) zur Gesamtvarianz (wahre Varianz + Messfehler) Dieses Varianzverhältnis kann nur geschätzt werden Reliabilität anhand korrelativer Techniken bestimmt weisen Probanden in 2 Testungen die gleichen Werte auf? Probleme bei der Reliabilität: Testwerte zeigen hohe Abhängigkeit von der Grundgesamtheit, aus der eine Person stammt (je nachdem wie hoch da die Varianz ist) Die Genauigkeit eines einzelnen Testwertes bei einer bestimmten Person kann nicht bestimmt werden, aber diese können unterschiedlich sein Immer nur Testung für das ganze Testverfahren Retest-Reliabilität: Zeitliche Stabilität der Werte zwischen 2 Testungen Derselbe Test nochmal präsentiert Testergebnisse korreliert Merkmal muss konstant bleiben Annahme konstanter wahrer Werte und gleicher Messfehlereinflüsse Zeitintervall darf keinen Einfluss haben Bei instabilen Merkmalen kurzes Intervall, bei stabilen länger Übungseffekte müssen ausgeschlossen sein Probleme: Minderung der Retest-Reliabilität, wenn sich Merkmalsausprägungen im Zeitverlauf verändern also bei Veränderung der wahren Werte Systematische Veränderung der wahren Werte unkritisch: wenn sich alle Probanden z.b. durch Training verändern Unsystematische Veränderung der wahren Werte beeinflusst Reliabilität: wenn Zu-oder Abnahme der wahren Werte für verschiedene Probanden unterschiedlich Paralleltest-Reliabilität: Zusammenhang zwischen parallelisierten Testformen Inhaltlich ähnliche Items aus zwei Tests, deren Mittelwerte und Varianz gleich sind bzw. mit gleichen wahren Werten und gleicher Fehlervarianz Entscheidend ist der zeitliche Abstand für die Vorgabe der Parallelformen:
3 Bei unterschiedlichen Iteminhalten: kurzer Abstand wenn die eine Form sich deutlich von der anderen unterscheidet Bei interindividuell unterschiedlichen situativen Einflüssen auf das Merkmal: längeres Intervall Gibt es Schwankungen, dann sollten sich die beiden Tests aber dennoch nicht gegenseitig beeinflussen dann wären sie nicht mehr unabhängig Bei längeren Intervallen: unsystematische Veränderungen in den wahren Merkmalsausprägungen wahrscheinlicher Sind Übertragungseffekte nicht auszuschließen, sollte die Reihenfolge der Präsentation der Parallelformen ausbalanciert werden Vorteile: Übungs- oder Erinnerungseffekte können ausgeschlossen werden Unsystematische Fehlervarianzen, die für alle unterschiedlich sind, sind unkritisch Probleme: Erstellung paralleler Testformen aufwändig Bei Persönlichkeitstest wird großer Itempool benötigt Prüfung der Parallelität durch KTT nur indirekt und ungenau nur Vergleich der Mittelwerte, Varianzen und Korrelationen der Testformen Bereits geringe Abweichungen in der Itemformulierung können zu Differenzen der Testwert und somit zu Minderung der Paralleltest- Reliabilität führen Split-Half-Reliabilität: Ein Zeitpunkt, eine Testform Teile eines Tests als parallele Testversionen Reliabilität als Korrelation der beiden Teile: diese entspricht allerdings nur einer Reliabilität eines halben Tests Reliabilität gegenüber dem Gesamttest verringert sich Spearman-Brown-Korrektur: berücksichtigt, dass sich bei Testverlängerung um parallelen Testteil die Fehlervarianz verdoppelt und die wahre Varianz vervierfacht Grund: die wahren Werte beider Testwerte kovariieren, die Fehleranteile aber nicht Odd-Even-Methode: geradzahlige und ungeradzahlige Items bilden Testhälften Zeitpartitionierungsmethode: Zeit der Testbearbeitung als zwei gleich lange Testhälften Itemzwillingsmethode: Itempaare gleicher Schwierigkeit und Trennschärfe, die per Zufall der einen oder andern Testhälfte zugeordnet werden Problem: Verschiedene Arten der Bildung des Testhälften führt zu Unterschieden der Koeffizienten Grundsätzlich: Methoden, die auf Testteilen basieren, unterschätzen die Reliabilität bei inhaltlicher Heterogenität der Items! Konsistenzanalyse/Interne Konsistenz: Verallgemeinerung der Testhalbierungen Jedes Item des Tests wird als eigenständiger Testteil aufgefasst
4 Berechnung von Cronbachs Alpha: mittlere Reliabilität bei Bildung aller möglichen Testhalbierungen Umso höher, je stärker Items korrelieren nur wenn alle Items das gleiche Merkmal messen, ist Cronbachs α korrekt Heterogene Merkmale führen zu Unterschätzung der Konsistenz Cronbachs α ist kein Beleg für Eindimensionalität eines Tests, da es auch im Falle einem mehrdimensionalen Merkmals hoch sein kann Höhe von cronbachs α ist von der Anzahl der Items abhängig Invers formulierte Items: werden eingesetzt um Antworttendenzen vorzubeugen Solche können Reliabilität über-oder unterschätzen, da sie unabhängig vom Iteminhalt einen eigenen Faktor bilden können Negative cronbachs α: Wenn einzelne Items negativ mit den übrigen korrelieren z.b. wenn inverse Items nicht umkodiert werden ist nicht sinnvoll zu interpretieren Vorteil: bei zeitlich instabilen Merkmalen adäquatere Schätzmethode als Retest-Reliabilität Validität Gültigkeit der Interpretationen von Testergebnissen Ein Test misst das, was er zu messen vorgibt daher muss genau beschrieben werden, wozu der Test dienen soll Es gibt verschiedene Arten der Validitätsbestimmung (also der Operationalisierung) Inhaltsvalidität: Items des Tests sollen inhaltlich das Konstrukt wiederspiegeln, das der Test erfassen soll Frage, inwieweit die Items eine repräsentative Stichprobe aus allen möglichen Items sind, die auf das zu messende Merkmal bezogen sind Frage: Erfassen alle Items das zu messende Konstrukt? Bestimmung der Inhaltsvalidität selten numerisch, sondern anhand fachkompetenter Analysen auf Item- und Testebene Nicht berechenbar, nicht formalisiert Nur durch Expertenurteile objektivierbar Keine empirische Begründung Muss durch Planung des Tests sichergestellt werden Merkmal wird operational oder theoretisch definiert Operational: Merkmal durch die Testinhalte definiert Unterschiede in den Testergebnissen unterliegen keinen theoretischen Annahmen, sondern werden nur anhand der Testinhalte festgestellt Solche Merkmale dürfen nicht als Ursache für das Testergebnis betrachtet werden keine kausale Beziehung zum Merkmal Merkmale werden repräsentativ erfasst bei operationaler Merkmalsdefinition Inhaltsvalidität bezieht sich auf Generalisierung von Interpretationen von Testresultaten über die Inhalte des Test hinaus
5 Inwieweit die Items das Universum der möglichen Items angemessen repräsentieren, sodass Repräsentationsschluss möglich ist Theoretisch: Merkmal wird durch ein theoretisches Konstrukt definiert Inhaltsvalidität bezieht sich auf eine erklärende Interpretation von Testresultaten auf Itemebene Annahme, dass unterschiedliche Itemantworten auf Unterschiede im erfassten Konstrukt zurückzuführen sind, so dass von den Antworten Rückschlüsse auf das Konstrukt gezogen werden können Konstruktvalidität: Wenn psychologische Theorie vorhanden ist Stark theoretisch Empirisches Gesetz: aus den Axiomen der Theorie werden Vorhersagen über die Zusammenhänge von Konstrukten abgeleitet, die dann anhand beobachtbarer Variablen empirische überprüft werden Konstrukt: theoretische Größe, die definiert wird und nur indirekt erfasst werden kann (nicht direkt abmessbar/ablesbar) Das durch den Test gemessene Konstrukt soll mit ähnlichen Konstrukten zusammenhängen, um es zu stützen, aber unabhängig sein von inhaltsfremden Konstrukten es soll also wirklich NUR das Konstrukt gemessen werden, sodass von den Ergebnissen auf das Konstrukt geschlossen werden kann Folgende Arten der Bestimmung der Konstruktvalidität: Konvergente Validität: Korrelation zwischen vorliegendem Test und Vergleichstest Divergente Validität: von den Merkmalen anderer Tests abgrenzbar; niedrige Korrelationen Empirische Bestimmung: Keine Kennwerte zur Bestimmung der Konstruktvalidität vorhanden Zur inferenzstatistischen Absicherung werden neben Angaben zur erwarteten Effektgröße, zum α- und β-fehler sowie zum optimalen Stichprobenumfang vor allem gerichtete Hypothesen vorausgesetzt Ferner sind Grenzwerte für Korrelationskoeffizienten zu formulieren Doppelte Minderungskorrektur: Da bei psychologischen Tests nicht von optimaler Reliabilität ausgegangen werden kann, ist der beobachtete Zusammenhang zwischen 2 Testwerten unter der Berücksichtigung der Reliabilitäten für x und y zu korrigieren Verwendung der Formel der doppelten Minderungskorrektur Kriteriumsvalidität: Das Verhalten einer Person soll außerhalb der Testsituation anhand der produzierten Testsituations-Daten vorhergesagt werden. Bezieht sich auf die praktische Anwendbarkeit des Tests Validierung: Bestimmung der Korrelation der Testvariablen und der Kriteriumsvariablen Zusammenhänge zwischen den Testwerten mit den Außenkriterien werden hergestellt Konkurrente Validität: ein zeitgleiches Außenkriterium liegt vor Prognostische Validität: Intension ist eine Prognose einer zukünftigen Merkmalsausprägung
6 Inkrementelle Validität: Zur Vorhersage eines externen Kriteriums werden verschiedene Prädiktoren herangezogen, wodurch die Vorhersage genauer werden soll. Augenscheinvalidität: Nachvollziehbarkeit durch Laien Vpn sollen nachvollziehen können wozu der Test dient Nicht immer gewollt, um Fälschung und soziale Erwünschtheit zu vermeiden Gefahr der Trivialisierung von Diagnostik Nebengütekriterien Normierung/Eichung Erstellung eines Bezugssystems zum Vergleich und zur Einordnung des Ergebnisses mit anderen Vpn Bessere Interpretierbarkeit, Leistungsvergleich möglich Verwendung von z-werten Durch folgende Aspekte wird der Geltungsbereich einer Norm bestimmt: Repräsentativität: An wem wurde der Test normiert? Gegenüber welcher SP können Aussagen getroffen werden? Alter der Normen: ständige Aktualisierung notwendig Testbedingungen: Wie wurde bei der Normierung getestet? Skalierung Die laut Verrechnungsregel ergebenden Testwerte müssen die empirischen Merkmalsrelationen adäquat abbilden Mit den Unterschieden in den Testwerten müssen adäquat die empirischen Merkmalsrelationen abgebildet werden Messinstrumente müssen mit den entsprechenden Skalenniveaus ausgestattet sein Ökonomie Gemessen am Erkenntnisgewinn wenig Ressourcen Zeit, Geld und Auswertungsaufwand Nützlichkeit/Utilität nützliche Anwendungsmöglichkeiten Praktische Relevanz Die auf seiner Grundlage getroffenen Entscheidungen sollen mehr nützen als schaden Zumutbarkeit Verhältnis zwischen Testnutzen und zeitlicher, psychischer und physischer Beanspruchung der Testperson Unverfälschbarkeit Testperson darf die Ausprägungen der Testwert nicht durch gezieltes Testverhalten steuern oder verzerren Wird durch niedrige Augenscheinvalidität erreicht um zb soziale Erwünschtheit zu vermeiden
7 Fairness Keine Benachteiligung bestimmter Personen Keine diskriminierenden Schlussfolgerungen gegen ethnische oder geschlechtsspezifische Merkmale Beziehung zwischen den Hauptgütekriterien Objektivität ist ein Test nicht objektiv, sind seine Ergebnisse auf Fehler bei der Durchführung, der Auswertung oder der Interpretation zurückzuführen notwendig, aber nicht hinreichend für Reliabilität ist ein Test nicht reliabel, wird kein einheitliches Konstrukt gemessen, d.h. die Items erfassen unterschiedliche Sachverhalte notwendig, aber nicht hinreichend für Validität ist ein Test nicht valide, können auf seiner Grundlage keine angemessenen Aussagen und Entscheidungen getroffen werden 2. Testentwicklung 5 Phasen der Testentwicklung Testplanung Testentwicklung Erstellung Vorläufige Erprobung einer Vorversion Ziel der Revision zum finalen Test 1. Schritt Exakte Definition des zu messenden Konstrukts Basis: psychologisches Modell oder Theorie Testplanung: Erhebungsmerkmale Qualitative Merkmale: kategoriale, nominalskalierte Ausprägung (z.b. ja/nein) Quantitative Merkmale: Abstufungen zum Grad der Ausprägung; ordinal- oder intervallskaliert Eindimensionale Merkmale: repräsentiert nur ein Konstrukt Mehrdimensionale Merkmale: repräsentiert mehr als ein Konstrukt Zeitlich stabile Merkmale: Traits z.b. Persönlichkeitsmerkmale
8 Zeitlich veränderliche Merkmale: States situationsabhängiger Zustand z.b. in einem Lernprozess Testart Fähigkeits- und Leistungstest Dimensionen der kognitiven Leistungsfähigkeit (max. Leistung) Z.B. Wechsler-Intelligenztest Speed- oder Geschwindigkeitstest: Einfache Aufgaben Mit Zeitbegrenzung Bewertung der richtigen Antworten Power- oder Niveautest: Schwierige Aufgaben steigender Schwierigkeitsgrad Ohne Zeitbegrenzung Bewertung des maximal möglichen Leistungsniveaus Mischformen aus beiden Testarten möglich Persönlichkeitstest z.b. NEO-FFI Ausprägungen von Persönlichkeitsmerkmalen Verhaltensdisposition Keine Leistung sondern Selbstauskunft Fragebögen Kein richtig oder falsch Neigen zur Verfälschbarkeit da subjektiv Objektive Persönlichkeitstests Z.B. objektiver Leistungsmotivationstest Keine Augenscheinvalidität Verhalten in einer standardisierten Testsituation Projektives Verfahren Z.B. Rohrschach-Test Persönlichkeits-Entfaltungstests Erfassen Gesamtpersönlichkeit anhand qualitativer Marker Mehrdeutiges bildhaftes Testmaterial Unbewusstes soll ins Material projiziert werden Testgütekriterien nur unzureichend erfüllt Geltungsbereich Festlegung des Einsatzbereiches und der Anwendungsmöglichkeiten Je höher, desto mehr Infos müssen erfasst werde Personenkreis/Zielgruppe festlegen Testlänge Testdauer Konstruktionsstrategie Intuitive Konstruktionsstrategie Keine zugrunde liegende Theorie Items aus Annahmen des Konstrukteurs abgeleitet
9 Rationale KS Test wird auf Grundlage von Theorie entwickelt Items sollen Theorie umsetzen Externale/kriteriumsorientierte KS Außenliegendes Kriterium das erfasst werden soll Keine Items, die Theorie am besten widerspiegeln, sondern das Kriterium am besten differenzieren Induktive/faktorenanalytische KS Items, die sich verschiedenen Verhaltensdimensionen zuordnen lassen Durch Faktorenanalyse in Dimensionen untergliedert Hohe Korrelationen gemeinsamer Faktor Prototypenansatz Sonderfall Probanden sollen Items finden, die dem Prototyp entsprechen Items Itemstamm: Frage, Aussage, Aufgabe, Stimulusmaterial Antwortformat Aufgabentypen Offenes Antwortformat Testperson formuliert Antwort selbst Kurzaufsatz: Eigenständige Wissensreproduktion, nicht nur Wiedererkennen Kreativität, Sprachverständnis, Wissensanwendung Hoher Auswertungsaufwand Wenig Auswertungsobjektivität Ergänzungsaufgabe: Itemstamm durch Schlüsselwort vervollständigen Teillösungen bei komplexen Fragestellungen Gebundenes Antwortformat Antwortalternativen Ökonomische und objektive Auswertung Ordnungsaufgaben: Zuordnungsaufgaben: bei Wissens- und Kenntnisprüfung Testung von korrektem Wiedererkennen Zuordnung von je zwei Elementen Bei zu vielen Zuordnungsaufgaben zu hohe Ratewahrscheinlichkeit Umordnungsaufgaben: bei Verwendung von Bildmaterial Umsortierung von Elementen Nachweis von Schlussfolgerndem Denken Ordnungsaufgaben Vor- und Nachteile Beeinträchtigung durch Lesefahigkeit ausgeschlossen Schlussfolgerndes denken, Erkennen von Ursache- Wirkungszusammenhänge erfassen
10 Materialentwicklung aufwendig Gruppentestung eingeschränkt Auswahlaufgaben Mehrere Alternativen richtige Antwort wählen Leistungstests: formulieren von Antwortalternativen, die richtig aussehen, aber inhaltlich falsch sind Je mehr Distraktoren (zerstreuende Items), umso kleiner Zufallswahrscheinlichkeit richtige Antwort zu raten Aber nur eine Antwort darf richtig sein, die anderen müssen Disjunktion (gegenseitiges Ausschließen) erfüllen Bei Persönlichkeitstests: Exhaustivität (Vollständigkeit) muss gegeben sein Dichotome aufgaben (nur zwei alternativen) ökonomisch, aber 50% Ratewahrscheinlichkeit Mehrfachwahlaufgaben(multiple-choice) Vor- und Nachteile Auswahlaufgaben: Ökonomisch, objektiv, einfach Ratewahrscheinlichkeit kann verringert werden Auswahlaufgaben erfassen nur Rekognitionsleistung Beurteilungsaufgaben(statements) Bei Persönlichkeitstests diskrete Ratingskala (Stufenskala): 4-10 Abstufungen mit numerischer Gewichtung Ratingskala meist für gesamten Test gleich: bessere Verrechnung am Ende zu gesamtpunktwerten (Scores) Kontinuierliche Analogskala: Kontinuum zwischen Extrempositionen Optimale Anzahl von skalenstufen: Hängt von Diskriminationsfähigkeit der Vps ab Bei einzelner Skala 9+-2 Kategorien empfohlen Bei Itembatterie: 5+-2, da Verarbeitung mehrerer Items zu globalwert den wertebereich der Skalierung erhöht 7 Stufen optimal für Informationsgewinn Forciert/nicht forciert: Ungerade Anzahl: nicht-forciert neutraler Mittelpunkt, der nicht immer leicht interpretierbar neutrale Ausweichkategorie empfehlenswert (ab weiß nicht) Forciert: zwang zu urteil; keine neutrale Position möglich Polarität der Skala: Bipolare Skalen: positiv (stark zustimmend), negativer Pol (stark ablehnend) Unipolar: Punkt geringster und größter Intensität Balancierung einer Skala: Balanciert/symmetrisch: gleich viele positive wie negative Kategorien Unbalanciert/asymmetrisch: ungleiche Skala: bei erwartetem Zustimmungseffekt differenziertere Ausgangsmöglichkeiten für die erwartete Richtung Verankerung einer Ratingskala: Definition der skalenendpunkte sowie der skalenstufen Numerische Verankerung: Zahlenbezeichungen
11 Verbale: worte oder Sätze als Bezeichungen Optische Form von ratingskalen: Horizontale oder vertikale Präsentation Symbolische Marker (Emilies) Verbundene oder getrennte Darstellungsweise Skalenniveaus von ratingskalen: Keine Messtheorie vorhanden Man unterstellt Intervallskalenniveau obwohl das bei verbaler Verankerung nicht möglich ist Keine Generalisierung für alle Situationen Merkmal, Probanden und Messinstrument interagieren bei jeder Messung Eingeschränkter Geltungsbereich Messinstrument nur fähig ein bestimmtes Skalenniveau zu erreichen Reliabilität und Validität von Ratingskalen: Zwei Methoden der Reliabilitätsbestimmung: Test-Retest Methode Interratermethode: Übereinstimmung der Beurteiler bei der Einstufung desselben Stimulus Vor- und Nachteile Beurteilungsaufgaben Leichte Handhabung, Ökonomie und Akzeptanz durch Vps Messtheoretisch Problematisch: Zuordnung von Zahlen zu Skalenpunkten, denen Intervallskalierung unterstellt wird, wobei nur ordinalskala- abstufung Fehlerquellen bei der Itembearbeitung Systematische Fehler sind zu berücksichtigen erzeugen konstruktirrelevante Varianz Soziale Erwünschtheit: Antwort in Übereinstimmung mir gesellschaftl Normen Selbsttäuschung: unbewusste Tendenz, sich selbst besser darzustellen deshalb: Kontroll- Lügenskalen Antworttendenzen: Unsicherheit, Unwissen Tendenz zur Mitte, um sich unauffällig zu verhalten reduzierte Itemvarianz Zustimmungstendenz: bei unreflektierter Reaktion Itemart Direkt: (sind sie ängstlich) kann zu unterschiedlichen Bedeutungszuweisungen führen Indirekt : erleichtern Interpretation, sind aber schwer zu wählen Hypothetische Situation (stellen sie sich vor): anfällig für Fehleinschätzungen Biografiebezogen (wie haben sie sich verhalten als):sind hinsichtlich ihres uneingeschränkten Zutreeffens für die Zielgruppe zu validieren Abstrakt (wie schätzen sie ein): interpretationsfreiräume Konkret (wie verhalten sie sich): von situationalen Faktoren abhängig Personalisiert (verwenden sie): Verletzung der Privatsphäre Depersonalisiert (sollte man): Gefahr sozialer Erwünschtheit Varianz im Antwortverhalten Wenn zu leicht oder zu schwer: was alle können, bzw nicht können differenziert nicht zwischen Vps überflüssig keine Varianz
12 Sollte: unterschiedliche Merkmalsausprägungen auch maximale unterschiede Sollen jedoch außergewöhnliche Merkmale (in Klinik) erhoben werden, zb extreme Schwierigkeitsgrade, gilt Regel nicht mehr Weitere Aspekte bei Itemformulierung Anhaltende Aktualität Keine implizite werte Keine Suggestivfragen, die gewünschte antworten nahe legen Kein hervorrufen von konstruktfremden Emotionen, um Beantwortung nicht zu erschweren Vortestversion: Instruktion/Testanweisung Mitteilung des Forschungszwecks Animation zur Mitarbeit Verweis auf vollständige Beantwortung Regeln für Beantwortung (spontan ) Anonymitätshinweis Vorgabe von Antwortbeispiel Bei Fragebögen: soziodemografische angaben Vortestversion: Anordnung des Itempools Sortierung nach Komplexität/Schwierigkeit (Leistungstests): Zur Motivation leichte an Anfang Zur Konzentration: schwere an Anfang Konsistenzeffekt (Persönlichkeitstests): Nicht Eindruck gleicher Merkmalsmessung, was identische Antwort erwartet Verringerung durch Randomisierung/ Ausbalancierung Verschleierung der Messintention auch durch Testbezeichnung möglich Aktualisierungseffekt: Keine Erzeugung von Kognitionen, die nachfolgende Interpretation der Items beeinflussen Unabhängigkeit der Itembeantwortung Vortestversion: Erprobung des Itempools Zusammenstellung des Itempools: In Itempool mehr items als nötig In Itmeselektion unbrauchbare entnommen Durch größere Zahl von Items höhere Repräsentativität und Reliabilität Testökonomie: Wirkt Repräsentativität und Reliabilität entgegen Zumutbarkeit erfordert Begrenzung Für diagnostische Situation angemessen Anzahl benötigter Items pro Merkmal: Abhängig von weite des Merkmals Ca. 30 bis 60 pro m. im Itempool ausgewählt Bei Leistungstests, z.b. für Intelligenz höher
13 3. Testevaluation Verschiedene Analyseschritte zur Qualitätsbestimmung und Einhaltung von Normen Es wird von Intervallskalenniveau ausgegangen Itemschwierigkeit Schwierigkeitsindex Pi: Quotient der erreichten Punktwerte und der maximal erreichbaren Punktsumme aller Probanden mal 100 Indizes zwischen 0 und 100 Je größer P, desto leichter ist das Item Leistungstests Speed-Tests: Unterscheidung zwischen richtig und falsch und ausgelassen und unbearbeitet Ausgelassen: nur dieses Item wurde nicht beantwortete, danach folgende ab er schon Unbearbeitet: ab diesem Item wurde nicht mehr beantwortet Bearbeitete Items setzten sich zusammen aus richtigen, falschen und ausgelassenen Antworten Schwierigkeitsindex: Verhältnis richtige zu bearbeiteten Items Power-Tests: Unterscheidung richtig und falsch und ausgelassen Schwierigkeitsindex als Quotient aus richtigen und allen Antworten Eventuell Ratekorrektur des Indizes Persönlichkeitstests Unterscheidung zwischen symptomatisch (hohe Werte) und unsymptomatisch (niedrige Werte) für eine Merkmalsausprägung Bei 2 Antwortkategorien: (1=symp., 0=unsympt.): wie bei Powertest Verhältnis symptomatische und alle Antworten Mehr als 2 Kategorien: Dichotomisierung Werte in 2 Kategorien hoch und niedrig anhand eines Grenzwertes eingeteilt macht Skala grob (Informationsverlist) Daher: Schwierigkeitsindex für intervallskalierte Stufen möglich: Quotient aus i-ter Spaltensumme und maximal möglicher Spaltensumme Mittlere Werte für diesen Index(50): maximale Streuung hohe Differenzierung zwischen den Probanden (Löser werden von Nicht-Lösern unterschieden) Sucht man Differenzierung in den Extremen (z.b. Klinik), also sehr schwer, oder sehr leicht, wird breite Streuung der Schwierigkeitskoeffizienten angestrebt Itemvarianz Itemvarianz entspricht bei dichotomen Items dem Produkt der Wahrscheinlichkeit, das Item zu lösen und der Gegenwahrscheinlichkeit, das Item nicht zu lösen Maximale Varianz bei mittlerer Itemschwierigkeit Zu den Extremen nimmt sie kontinuierlich ab Für zweistufige Items (gelöst, nicht gelöst) besteht quadratischer Zusammenhang zwischen Itemschwierigkeit und Itemvarianz Man kann mit Itemvarianz Differenzierungsfähigkeit eines Items feststellen Items, die keine Varianz erzeugen, differenzieren auch nicht Trennschärfe
14 Korrelation zwischen Item- und Testwerten (Item-Test-Korrelation) Korrelation einzelner Itemwerte mit dem Testwert sämtlicher Items eines Tests Misst inwieweit Differenzierung erfolgreicher und erfolgloser Probanden durch ein Item mit der Differenzierung durch den Test übereinstimmt Passt das Item zum Test Bei wenigen Items: Part-Whole-Korrektur: Das zu korrelierende Item sollte nicht beim Testwert dabei sein, um Trennschärfe nicht zu überschätzen, da ansonsten Korrelation der Variablen mit sich selbst eingeht Testwert wird um zu korrelierendes Item bereinigt Die Korrektur verringert sich mit zunehmender Zahl an Items Bildung eines Testwerts setzt Itemhomogenität voraus, d.h. Items sollten das gleiche Merkmal messen Bei intervallskalierten Items: Produkt-Moment-Korrelation nach Pearson Bei dichotomen Merkmalen: punkt-biseriale Korrelation Interpretation 0,4-0,7: gute Trennschärfe Hoher Wert: Items sind homogen gegenüber dem Gesamttest Probanden mit hoher Merkmalsausprägung lösen das Item Kleiner Wert: mangelnde Differenzierung durch ein Item in Zusammenhang mit der Differenzierung des Gesamttests Item für Unterscheidung von Probanden ungeeignet Negative Werte: fehlerhafte Itemformulierung Kodierung muss umgedreht werden Probanden mit niedriger Merkmalsausprägung lösen das Item Selektionskennwert Trennschärfe von den Interkorrelationen der Items abhängig Hohe Interkorrelationen: hohe Trennschärfe Bei unterschiedlichen Schwierigkeitskoeffizienten in einem Test geringe Interkorrelationen Selektionskennwert: Übergeordnetes Maß für die Güte des Items Berücksichtigung der Trennschärfe und der Aufgabenstreuung Geht man nur von Trennschärfe aus, selektiert man Items, die extreme Merkmalsausprägung messen entfernt man Items mit niedrigem Selektionskennwert, entgeht man der Gefahr, die extremen zu verlieren Zusammenfassend: Itemselektion Simultane Berücksichtigung der Ergebnisse der Itemanalyse (Schwierigkeit, Varianz, Trennschärfe) Mittlerer Schwierigkeitsgrad: differenzieren zwischen hoher und niedriger Merkmalsausprägung Für Erfassung der Extreme: hohe oder niedrige Schwierigkeit Items sollten immer gute Trennschärfe haben Idealerweise differenziert ein Test über gesamten Schwierigkeitsbereich Items ohne oder mit negativer Trennschärfe sind zu entfernen Bei Items gleicher Schwierigkeit entscheidet die höhere Trennschärfe Testwertermittlung Leistungstests Einfachster Fall: Testwert=Anzahl richtiger Antworten Falsch-Antworten können mit Gewichtungsfaktor miteingerechnet werden
15 Einzelne Aufgaben können unterschiedlich gewichtet werden Wenn Auswahlaufgaben auch geraten sein können: Rate/-Zufallskorrektur Ratekorrektur Damit kann errechnet werden, wie viele richtige Antworten richtig erraten wurden Diese Anzahl ist vom zufallskorrigierten Testwert abzuziehen Persönlichkeitstests Testwertermittlung durch Summenbildung über die Itemantworten Kategorien der Ratingskala müssen intervallskaliert s4in Testwertverteilung Maße Lagemaße: Mittelwert, Median, Modus, Perzentilgrenzen Dispersionsmaße: Varianz, Standardabweichung, Standardfehler, Spannweite Verteilungsmaße: Schiefe, Exzess/Kurtosis Abweichungen von der Normalverteilung Schiefe Verteilung bei zu leichten (rechtssteil) oder zu schweren (linkssteil)tests schränkt Differenzierungsfähigkeit im Bereich der unterrepräsentierten Items ein Gründe: Konstruktionsmangel oder Fahlanwendung der Zielgruppe Multiple Verteilungen: Gesamtstichprobe setzt sich aus unterschiedlichen Unterstichproben zusammen man sollte dann die Testeichung an den Untergruppen vornehmen Beliebige Verteilungen, wenn Merkmal in Population nicht normalverteilt Normalisierung Wenn Testverteilung nur in der Stichprobe nicht normalverteilt, kann man nicht-lineare Transformation der Testwerte vornehmen normalverteilte Testverteilung Durch: Logarithmierung: jeder Testwert durch seinen natürlichen Logarithmus ersetzt Flächentransformation: Histogramm in Richtung einer Normalverteilung verschoben 4. Klassische Testtheorie Grundlage für die Testkonstruktion Konzept zur Behandlung von Messwerten von Personen Axiome der klassischen Testtheorie Axiome = Setzungen oder Definitionen, die einfach ohne weitere Erklärung aufgestellt werden Beziehen sich auf die beobachteten Testwerte, die wahren Testwerte und einen Messfehler 1. Axiom: Existenzaxiom: o Der wahre Wert einer Person ist der Erwartungswert der Messung x eines Probanden v in Item i, wenn man häufig genug misst 2. Axiom: Verknüpfungsaxiom: o Jede Messung setzt sich aus einem wahren Wert und einem zufälligen Fehlerwert zusammen o Der Messfehler überdeckt den wahren Wert und führt zu Abweichungen vom wahren Wert. o Die Differenz zwischen dem wahren Wert und dem Ergebnis der Vp ist der Fehler
16 Beide Axiome nehmen an, dass der Zufallsfehler einen Erwartungswert von 0 besitzt, d.h. wenn man häufig genug misst, mittelt sich der Fehler weg. Vorausgesetzt wird also, dass die Wiederholungen unter konstanten Bedingungen stattfinden und keine Messung von der vorherigen beeinflusst wird 3. Axiom: Unabhängigkeitsaxiom: o Die Korrelation zwischen den wahren Werten und den Messfehlern ist 0 o Wäre Korrelation nicht 0, wäre der Fehler systematisch Fazit: o Beobachtbar ist nach den Axiomen nur die Messung xvi o Wahrer Wert und Fehlerwert sind nicht beobachtbar und somit sind sie unbekannte Größen wahrer Wert und Fehlerwert ergeben sich aus Schätzungen Zusatzannahme der klassischen Testtheorie: Unabhängigkeit der Messfehler Es wird angenommen, dass die Fehlervariablen zweier Items für dieselbe Person unabhängig sind bedeutet, dass Erfolg bei einem Item unabhängig von anderen Items bei einer Person ist, sprich, dass es keinen (Lern-)Effekt gibt, dass die Fehlervariablen zweier Personen bei dem selben Item unabhängig sind. bedeutet, die Itembearbeitung muss von unabhängigen Personen erfolgen Bestimmung des wahren Testwertes Man muss den Zufallsfehler neutralisieren Mehrere Messungen zu einem Merkmal mit verschiedenen Items Verrechnung zu einem Testwert Gesucht: Erwartungswert von xv, was dem wahren Testwert entspricht Die Messwertsumme kann als Punktschätzung des wahren Wertes einer bestimmten Person verwendet werden Voraussetzung: es wurde oft genug gemessen Bestimmung der wahren Varianz und Fehlervarianz Zerlegung der Gesamtvarianz (beobachtete Varianz) in wahre Varianz (ein Proband ist einfach besser als ein anderer Unterschiede in den wahren Merkmalsausprägungen der Probanden) und Fehlervarianz (Messfehler der Probanden) Bestimmung der Reliabilität Maß der Zuverlässigkeit Reliabilität ist wahre Varianz geteilt durch beobachtete Varianz Ist das Verhältnis der beiden Varianzanteile 1, dann gäbe es keine Messfehler und die Reliabilität wäre perfekt. Ist die Reliabilität null, misst der Test nur Messfehler Reliabilität und Testlänge Parallele Testteile: Zwei Testteile p und q mit gleichen wahren Werten und gleicher wahrer Varianz Verlängert man Test p um q, ist die gemeinsame Testvarianz die Summe der Einzelvarianzen plus der zweifachen Kovarianz der beiden Tests Bei Verdopplung der Testlänge durch einen parallelen Testteil, resultiert die doppelte Fehlervarianz, aber die vierfache wahre Varianz Spearman-Brown-Formel
17 K=Verlängerungsfaktor (K=2 Verdopplung, K=3 Verdreifachung, ) Standardmessfehler Unerklärter Fehlervarianzanteil der Testwertevarianz Berücksichtigt zusätzlich zur Standardabweichung, wie genau ein Test ist (Präzision des Tests) Standardabweichung für den Fehler = Standardabweichung multipliziert mit der Wurzel aus der Unreliabilität Unreliabilität ist die Unzuverlässigkeit eines Tests Mit dem Standardmessfehler wird der Anteil an der Streuung eines Tests bestimmt, der auf seine Ungenauigkeit zurückgeht Konfidenzintervall des wahren Testwerts Standardmessfehler wird dazu genutzt, die Messwertsumme das Punktschätzung um ein Konfidenzintervall zu erweitern, in dem der wahre Wert liegt. Vertrauensbereich, in dem z.b. 95% aller möglichen wahren Werte liegen, die den Stichprobenschätzwert erzeugt haben könnten Voraussetzungen: o dass Test eine ausreichende Reliabilität hat (größer 0,80) o Fehler sind normalverteilt o Stichprobe größer 60; bei kleineren kann t-verteilung herangezogen werden Minderungskorrektur Korrelation zwischen den wahren Werten zweier Tests soll geschätzt werden Reliabilitäten und die Korrelation der beiden Tests müssen bekannt sein Minderungskorrektur für die Korrelation Mit Minderungskorrektur kann Schätzung der Korrelation zweier Variablen mit wahren Werten vorgenommen werden, wenn deren Reliabilitätskoeffizienten vorliergen Es lässt sich so der Korrelationskoeffizient für den Fall korrigieren, wenn die beiden korrelierten Werte fehlerbehaftet sind, wodurch deren Korrelation vermindert war Doppelte Minderungskorrektur: wenn Test t und Kriterium c eine unzureichende Reliabilität besitzen Kritik an der Klassischen Testtheorie Pragmatisch, aber sie ist umstritten, da sie viele starke Annahmen macht, die nicht empirisch überprüfbar oder fraglich sind: o Nullkorrelation zwischen wahrem Wert und Fehlerwert und bei abhängigen Messungen kontraintuitiv o Konstanz wahrer Werte Annahme, dass Menschen sich nicht verändern (nur bei kurzen Zeitintervallen) o Annahme, dass alle Tests intervallskalierte Daten liefern o Mit den statistischen Verfahren verbundenen Implikationen fraglich, z.b. ob alle psychischen Werte normalverteilt sind o Parameter der KTT sind populations- bzw. Stichprobenabhängig o Mögliche Subpopulationen mit anderen Reliabilitäten und Validitäten werden nicht berücksichtigt o Man kann nicht von Gruppenstatistik auf den Einzelfall schließen wenn Reliabilität/ und oder Validität unter 1 liegt
18 Positives: o Pragmatische Gründe o Die darauf basierenden Tests haben sich in der Praxis oft bewährt o Es liegen inzwischen auch Erweiterungen der KTT vor Fehlerwerte Messfehler ist Zufallsvariable mit dem Erwartungswert null und einer Fehlervarianz, die für alle Personen gleich ist Aus den beiden ersten Axiomen resultiert, dass der Zufallsfehler einen Erwartungswert von 0 besitzt wenn man häufig genug misst, mittelt sich der Fehler weg Korrelationen zwischen wahren Werten und den Messfehlern bei beliebigen Personen und beliebigen Items ist null Wenn r nicht null wäre, wäre der Fehler systematisch Schlussfolgerung, dass sowohl die Summe der Fehlerwerte einer Person bei unendlich vielen Messungen, als auch die Summe der Fehlerwerte einer Messung bei unendlich vielen Personen null ergeben muss Messfehler kommt folgendermaßen zustande: o Einflüsse, die sich im Zuge der Messung unkontrolliert auf das Testverhalten der Probanden auswirken und damit das Messresultat kontaminieren können (Klima, Motivation, Versuchsleiter, ) Zusatzannahme der klassischen Testtheorie: Unabhängigkeit der Messfehler Wahrer Wert und Fehlerwert Messfehler überdeckt den wahren Wert und führt zu Abweichungen von ihm Messfehler sorgt dafür, dass der wahre Wert schwankt Die beobachtbare Messung setzt sich aus einem wahren Wert und einem Fehlerwert zusammen, die beide nicht beobachtbar sind unbekannte Größen, die sich aus Schätzungen ergeben 5. Probabilistische Testtheorie (PBT)/Item- Response-Theorie (IRT) Theorie, die auf Wahrscheinlichkeiten basiert Frage: wie verhält sich die Schwierigkeit des Items zu dem, was der Proband kann Unterscheidung zweier Ebenen von Variablen: Manifeste Variablen die beobachtbaren Antworten auf Testitems Rückschluss von manifesten Variablen auf latente Variable Indikatoren der latenten Variable, also das dahinterliegende Konstrukt Korrelationen sind auf Einfluss der latenten Variable zurückzuführen Latente Variablen nicht beobachtbare Fähigkeits-und Persönlichkeitsmerkmale nicht direkt messbar
19 manifeste Variablen werden genutzt um Ausprägung einer Person auf latenter Variable rauszufinden Ausprägung der l.v. kann nur erschlossen werden Merkmal, das die Itemantworten zustande kommen lässt (l.v. verursacht die Itemkreuze) Lokale stochastische Unabhängigkeit um von manifesten Variablen auf latente Variable zu schließen, müssen mehrere korrelierte manifeste Variablen als Datenbasis vorliegen. Hinreichende Bedingung: Itemhomogenität bezüglich der latenten Variable dass das Antwortverhalten nur durch das latente Merkmal beeinflusst wird Itemhomogenität, wenn die manifesten Variablen die Bedingung der lokalen stochastische Unabhängigkeit erfüllen l.s.u. Lässt sich so untersuchen: latente Variable wird auf einen bestimmten Wert konstant gehalten Stichprobe von Probanden, die alle die gleiche Ausprägung hinsichtlich des Merkmals haben Korrelationen der Antwortvariablen untersuchen liegt Itemhomogenität vor, verschwinden die Korrelationen zwischen den Antwortvariablen wenn die Items homogen sind, müssen Personen mit gleicher Merkmalsausprägung der latenten Variable bei einem Items die selben Werte erreichen im idealen Fall ohne Fehlereinflüsse gäbe es also einen Datenpunkt in einem Streudiagramm, bzw. mit Messfehlern eine enge kleine Punktwolke mit Nullkorrelation wäre die Korrelation nicht null, wären die Items nicht homogen und die Items würden dann noch etwas anderes messen als das Merkmal Überprüfung der Unkorreliertheit mithilfe des Multiplikationstheorems für unabhängige Ereignisse: Wahrscheinlichkeit für Auftreten zweier Ereignisse ist Produkt ihrer Einzelwahrscheinlichkeiten in unserem Fall: Wahrscheinlichkeit dass man zwei Items i und j zustimmt, wenn man eine bestimmte Merkmalsausprägung der latenten Variable hat Sind die Items unabhängig, ist die latente Variable der einzige Verursacher, was bedeutet, dass die Items homogen sind sie sind Indikator der latenten Variable Modelltypen unterscheiden sich in der Definition der latenten Variable Latent-Class-Modelle kategoriale latente Klassen zur Charakterisierung von Personenunterschieden Latent-Trait-Modelle verwenden quantitative, kontinuierliche latente Variablen Beziehung zwischen manifesten Testantworten und der Ausprägung der latenten Variable als Itemcharaktaristische Funktion (IC-Funktion) Abszisse: latente Variable, Ordinate: Lösungswahrscheinlichkeit Items sind durch Schwierigkeitsparameter charakterisiert: wie leicht oder schwer das Item ist Personenparameter: gibt an, wie fähig eine Person ist welche Leistung jmd. bringen kann Ausprägung der latenten Variable einer Person für jedes Item lässt sich bestimmen, welche Lösungswahrscheinlichkeit eine Person mit einem bestimmten Personenparameter hat: Beziehung der Itemschwierigkeit und der Lösungswahrscheinlichkeit in Abhängigkeit davon, welche Merkmalsausprägung jemand hat Probabilistische und Deterministische Modelle sind Latent-Trait-Modelle, die sich nur in ihren
20 IC-Fuktionen unterscheiden Latent Trait Modelle 1. Deterministische Modelle gehen davon aus, dass Antwortverhalten nur durch Item- und Personenparameter bestimmt wird Skalogramm-Modell/Guttmann-Modell Items sind von links nach rechts nach ihrer Schwierigkeit abgetragen. Eine Person mit einem bestimmten Fähigkeitsparameter kann, wenn er Item 2 lösen kann auch Item 1 links davon lösen Items sind dichotom: es gibt nur gelöst und ungelöst Für jedes Item wird ein bestimmter Fähigkeitswert angenommen, ab dem es gelöst wird Auswertung des Guttmann-Modells: Reproduzierbarkeitskoeffizienten: o anhand dessen wird festgestellt, ob Modellkonformität/Itemhomogenität gegeben ist o maßgeblich: Anzahl der Rangplatzvertauschungen, wenn schwierigere Items gelöst, leichtere nicht gelöst werden (dies ist nämlich nicht modellkonform!!!), also Überprüfung, ob die Probanden sich Modellkonform verhalten Der Skalenwert/Testwert eines Probanden ist die Rangzahl des Items, auf das noch positiv reagiert wird Kritik: es können nur Ranginformationen abgelesen werden (ordinale Information) keine Aussagen zu Distanzen 2. Probabilistische Modelle gehen von stochastischer Beziehung zwischen dem Antwortverhalten und dem Item- und Personenparameter Verwendung monoton steigender IC-Funktionen (logistische Funktion) Ordnet jeder Ausprägung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein Proband ein bestimmtes Item löst eine Funktion bezieht sich immer auf ein einzelnes Item Lösungswahrscheinlichkeit steigt mit Fähigkeit der Probanden je weiter rechts die Funktion liegt, desto schwieriger ist ein Item am Wendepunkt ist immer eine Lösungswahrscheinlichkeit von ½ hier ist der Personenparameter gleich der Itemschwierigkeit Günstiger sind IC-Funktionen bei dichotomen Items Einparameter-Logistisches Modell mit Itemschwierigkeitsparameter Rasch-Modell Zweiparameter-Logistisches Modell mit dem Itemschwierigkeitsparameter und dem Itemdiskriminationsparameter Birnbaum-Modell Dreiparameter-Logistisches Modell mit dem Itemschwierigkeitsparameter, dem Itemdiskriminationsparameter, und dem Rateparameter Rate-Modell 2.1. Rasch-Modell (1PL-Modell Einparameter-Logistisches Modell) Einfachster Fall: Annahme: für alle Items die gleiche logistische IC-Funktion Definiton Itemcharakteristische Funktion (IC-Funktion): Sie legt in Form einer mathematischen Gleichung fest, welche Annahmen über den Zusammenhang zwischen manifesten und latenten Variablen getroffen werden. Sie stellt dabei die Grundlage für die Schätzung der Personen- und Itemparameter dar.
21 es gibt zwei Wahrscheinlichkeiten: Item gelöst und Gegenwahrscheinlichkeit Item nicht gelöst zwei Verläufe der Funktion Gleichung wesentlich durch Differenz von Merkmalsausprägung einer Person (Personenparameter) minus Itemschwierigkeit bestimmt, da der Itemschwierigkeitsparameter darüber entscheidet, welche Anforderungen das Item an den Personenparameter stellt beide Parameter gleich: Lösungswahrscheinlichkeit ½ (Wendepunkt der Funktion) Item ist haarscharf daran, was jemand kann Personenparameter größer als Itemschwierigkeit: Items von Fähigkeit einer Person übertroffen Lösungswahrscheinlichkeit steigt Personenparameter kleiner als Itemschwierigkeit: Itemschwierigkeit übersteigt Fähigkeit Lösungswahrscheinlichkeit sinkt rasch-homogene Items: unterscheiden sich nur in ihren Schwierigkeitsparametern, ansonsten sehen sie gleich aus. unterscheiden sich also nur in der Lage: leichtere weiter links, schwierigere rechts die IC-Funktionen können als einzelne Funktionen auf gemeinsamer Skala abgebildet werden : joint scale Parameterschätzung: Schätzung der Item- und Personenparameter Ausdruck, der die Wahrscheinlichkeit aller beobachteten Daten angibt: Likelihoodfunktion L: Produkt der Wahrscheinlichkeiten der empirischen Werte und der gewählten Parameter für alle Reaktionen wird je eine Wahrscheinlichkeit berechnet, die dann mit anderen Wahrscheinlichkeiten pro Reaktion zu einem Wert multipliziert wird Ergebnis: Wahrscheinlichkeit für eine Datenmatrix, in der für n Personen und m Items alle Reaktionen angetragen sind mit passenden Parametern steigt die Wahrscheinlichkeit, mit unpassenden sinkt sie beste Schätzer für die Parameter: die für die Funktion einen Maximalwert ergeben Summennormierung: Werte des Itemparameter in einem Intervall -3 bis +3 gewählt, sodass deren Summe Null ergibt : leichte Items: negative Werte des Itemparameters schwere Items: positive geringe Merkmalsausprägung: negative Werte für den Personenparameter hohe Merkmalsausprägung: positive Werte unbedingte ML-Methode: (maximum-likelihood-schätzung) wird Item 1 häufiger gelöst als Item 2, ist Item 2 schwieriger als Item 1 Item 1 bekommt niedrigen Schwierigkeitsparameter (-1) und Item 2 hohen (+1) Löst Person 1 beide Items, bekommt sie hohe Merkmalsausprägung (2), löst Person 2 nur ein Item, bekommt sie mittlere Ausprägung (0), löst Person 3 kein Item, bekommt er niedrige Ausprägung (-2) Die Parameter müssen sich immer zu 0 addieren Likelihood erreicht Maximum wenn die geschätzten Item- und Personenparameter optimal sind Likelihood: Ermittlung aus den Zeilen- und Spaltensummen der Datenmatrix erschöpfende Statistik Bedingte ML-Methode: (Conditional Maximum Likelihood): Itemparameter lassen sich ohne Berücksichtigung der Personenparameter schätzen Separierbarkeit der Parameter Rechentechnisch aufwendig Itemparameter werden iterativ bestimmt, so dass sie optimal zu den
22 empirisch beobachteten Daten passen Modellkonformität Likelihoodschätzung sagt nicht darüber aus, ob die getroffenen Modellannahmen auch zutreffen Es muss also empirische geprüft werden, ob die empirischen Daten den Modellannahmen entsprechen Wie gut passen die Parameter zum Modell; wie konform sind die Daten zum Modell? Es könnte sein, dass die optimal geschätzten Parameter nur zu verhältnismäßig geringen Wahrscheinlichkeiten für die Daten führen Voraussetzung der Stichprobenunabhängigkeit durch Aufteilung der Gesamtstichprobe in zwei Substichproben anhand eines relevanten Kriteriums So können getrennte Itemparameter geschätzt werden, die bei ausreichender Modellkonformität nur zufällig variieren dürfen. Graphische Modelltest: in einem Streudiagramm sollten die Itemparameter nahe der Hauptdiagonalen liegen Nullhypothese: Modellkonformität gegeben Prüfung mit Likelihood-Quotienten-Test nach Anderson: nimmt für jede Stichprobe eine eigene CML-Schätzung vor und testet die Nullhypothese der Gleichheit der Schätzungen sollte nicht signifikant werden Liegen die Itemparameter (kalibrierte Items) vor, und ist Modellkonformität bestätigt, muss nicht für jede Person eigener Personenparameter geschätzt werden Alle Personen mit gleichen Zeilensummenscore haben den gleichen Parameter o Wenn kein Item gelöst: Zeilensummenscore=0 o Alle Items gelöst: Zeilensummenscore = m (m=anzahl der Items) o Nicht genau bestimmbar, wie der Personenparameter gegen - und + strebt o Durch Normierung können aber plausible Parameter zugewiesen werden Ob sich Personen modellkonform verhalten kann mit Person-fit-indices festgestellt werden Wird anhand des Antwortmusters eingeschätzt, ob die Testergebnisse plausibel sind Lösen die Probanden die Items so, wie sie es nach ihrer Schwierigkeit sollten Fällt Person-fit-index ungünstig aus, muss entschieden werden ob noch sinnvolle Interpretation möglich ist Modellkonform kann auch sein, dass Personen einen abweichenden Arbeitsstil zur Mehrheit besitzen Ist Modellkonformität gegeben resultiert spezifische Objektivität der Vergleiche Wenn IC-Funktionen aller Items die gleiche Form aufweisen und entlang der x-achse parallel verschoben sind Ermöglicht Schwierigkeitsunterschied zweier Items unabhängig von Merkmalsausprägung einer Person festzustellen Ebenso: Unterschiede zwischen Personenparameter können unabhängig von Itemschwierigkeit festgestellt werden Iteminformation: Definition Iteminformation: Beschreibt den Beitrag eines Items zur Messung des entsprechenden Merkmals. Je höher der Informationswert, desto mehr trägt das Item zur Messung eines Merkmals bei. Der Informationswert ist somit das Pendant zum Standardmessfehler eines Tests aus der klassischen Testtheorie, der allerdings nicht als konstantes Merkmal des Tests, sondern als Funktion der Personenkennwerte beschrieben wird. Je größer die Steigung der IC-Funktion, desto höher der Informationsgewinn durch Anwendung des Items i bei einer best. Person Jedes Item liefert unterschiedliche Informationen über die Merkmalsausprägungen
23 verschiedener Personen Verlauf des Informationsgewinns in Iteminformationsfunktion I ausgedrückt Variiert mit dem Grad der Übereinstimmung zwischen Itemschwierigkeit und der Fähigkeit Erreicht Maximum, wenn Itemschwierigkeit = Fähigkeit Bei zunehmender Differenz fällt sie zu beiden Seiten ab und strebt gegen Null Itemschwierigjeit weicht zunehmend von Fähigkeiten ab Entspricht dem Produkt aus bedingter Lösungswahrscheinlichkeit und Nichlösungswahrscheinlichkeit des Items bei gegebener Fähigkeit Durch Addition der einzelnen Iteminformationsbeiträge kann für einen besimmten Probanden die Testinformation additiv bestimmt werden Bei Anstieg der Testinformation steigt die Testgenauigkeit für den Probanden 2.2. Birnbaum-Modell (2PL-Modell) Zusätzlich: Itemdiskriminationsparameter Gibt an, wie stark sich die Lösungswahrscheinlichkeiten in Abhängigkeit von der Merkmalsausprägung ändern Maß für die Sensitivität der Items für Merkmalsunterschiede Je kleiner der Parameter, desto geringer die Diskriminationsfähigkeit des Items Ein solches Item ist aber sensitiv im oberen oder unteren Bereich Entspricht etwa Trennschärfe in KKT 2.3. Rate-Modell (3PL-Modell) Dritter Itemparameter: Rateparameter Modellvergleich Rasch-Modell ist hinsichtlich seiner Gültigkeit mit Modelltests überprüfbar Gültigkeit meint: erschöpfende Statistiken, spezifische Objektivität, Stichprobenunabhängigkeit, Intervallskalierung 2Pl und 3PL Modell nicht! obwohl umfassendere Modellierung des Probandenverhaltens Es gibt hier nur Goodness-of-Fit-Maße keine Rückschlüsse auf das Zutreffen der Modellimplikationen möglich 1 PL Modell hat also vorteilhaftere Modelleigenschaften deshalb häufige Anwendung Vergleich IRT und KTT KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person und der Schwierigkeit eines Items her Bei IRT werden Fähigkeitsschätzungen und Itemschwierigkeiten auf joint scale abgebildet Eindeutig ist die relative Lokalisation der Personenfähigkeit zu der Itemschwierigkeit nur dann, wenn die IC-Funktionen aller Items parallel verlaufen KTT liefert als Messfehlertheorie Konzepte zur Reliabilitätsschätzung IRT expliziert Beziehungen zwischen Antworten von Probanden und dahinter stehenden latenten Merkmalen Beide Ansätze ergänzen sich daher Unterschiede KTT und IRT KTT: Antworten auf die Items ist gleichgesetzt mit der Messung des im Test erfassten Konstrukts IRT: Antworten auf die Items auf eine Fähigkeit/Eigenschaft zurückgeführt, die das Testverhalten verursacht
24
Übersicht zur Veranstaltung
Übersicht zur Veranstaltung Psychometrie: Teil 1 Itemschwierigkeit Bedeutung der Itemschwierigkeit Bestimmung der Itemschwierigkeit Die Prüfung von Schwierigkeitsunterschieden Trennschärfe Bedeutung der
1.3 Die Beurteilung von Testleistungen
1.3 Die Beurteilung von Testleistungen Um das Testergebnis einer Vp zu interpretieren und daraus diagnostische Urteile ableiten zu können, benötigen wir einen Vergleichsmaßstab. Im Falle des klassischen
Rating-Skalen: Definition
Rating-Skalen: Definition Rating-Skalen dienen dazu, einen Gegenstand (z.b. sich selbst) hinsichtlich eines bestimmten Merkmals (z.b. Schüchternheit) zu beurteilen. Rating-Skalen geben (gleich große) markierte
QM: Prüfen -1- KN16.08.2010
QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,
AUTOMATISIERTE HANDELSSYSTEME
UweGresser Stefan Listing AUTOMATISIERTE HANDELSSYSTEME Erfolgreich investieren mit Gresser K9 FinanzBuch Verlag 1 Einsatz des automatisierten Handelssystems Gresser K9 im Portfoliomanagement Portfoliotheorie
Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über
Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion
METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER
METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede
Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung
Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Bearbeitet von Martina Sümnig Erstauflage 2015. Taschenbuch. 176 S. Paperback ISBN 978 3 95485
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
Statistische Auswertung:
Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.
Korrelation (II) Korrelation und Kausalität
Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen
Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8
1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen
Leitfaden für das Erstellen eines Fragebogens
Leitfaden für das Erstellen eines Fragebogens DI Thusnelda Reinisch-Rotheneder Quelle:www.2ask.net Fragebögen Noelle Neumann (1965): "Nicht der Interviewer muss schlau sein, sondern der Fragebogen." FRIEDRICHS
Risikodiversifikation. Birgit Hausmann
diversifikation Birgit Hausmann Übersicht: 1. Definitionen 1.1. 1.2. diversifikation 2. messung 2.1. messung im Überblick 2.2. Gesamtaktienrisiko und Volatilität 2.3. Systematisches und Betafaktor 2.4.
Überblick über die Verfahren für Ordinaldaten
Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische
Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.
Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,
Ein möglicher Unterrichtsgang
Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige
2. Psychologische Fragen. Nicht genannt.
Checkliste für die Beurteilung psychologischer Gutachten durch Fachfremde Gliederung eines Gutachtens 1. Nennung des Auftraggebers und Fragestellung des Auftraggebers. 2. Psychologische Fragen. Nicht genannt.
Einfache statistische Auswertungen mit dem Programm SPSS
Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...
Forschungsmethoden in der Sozialen Arbeit
Forschungsmethoden in der Sozialen Arbeit Erhebungsinstrument Lehrveranstaltung an der Fachhochschule für Sozialarbeit und Sozialpädagogik "Alice Salomon" Hochschule für Soziale Arbeit, Gesundheit, Erziehung
Stichprobenauslegung. für stetige und binäre Datentypen
Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung
50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
WERKZEUG KUNDENGRUPPEN BILDEN
Integrierter MarketinXervice Dr. Rüdiger Alte Wilhelm-Busch-Straße 27 99099 Erfurt Tel.: 0361 / 55 45 84 38 WERKZEUG GRUPPEN BILDEN Die folgenden Fragen mögen Ihnen helfen, Kriterien aufzustellen, anhand
Melanie Kaspar, Prof. Dr. B. Grabowski 1
7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen
Forschungsmethoden in der Sozialen Arbeit (Va)
Forschungsmethoden in der Sozialen Arbeit (Va) Erhebungsinstrumente (Der Fragebogen) Lehrveranstaltung an der Fachhochschule für Sozialarbeit und Sozialpädagogik "Alice Salomon" Hochschule für Soziale
W-Rechnung und Statistik für Ingenieure Übung 11
W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz ([email protected]) Mathematikgebäude Raum 715 Christoph Kustosz ([email protected]) W-Rechnung und Statistik
Zeichen bei Zahlen entschlüsseln
Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren
Einfache Varianzanalyse für abhängige
Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese
Forschungsstatistik I
Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike [email protected] WS 008/009 Fachbereich
OECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland
OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben
Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.
Klausur Nr. 1 2014-02-06 Wahrscheinlichkeitsrechnung Pflichtteil Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt. Name: 0. Für Pflicht- und Wahlteil gilt: saubere und übersichtliche Darstellung,
Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b
Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und
Tutorial: Homogenitätstest
Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite
4. Erstellen von Klassen
Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl
Informationsblatt Induktionsbeweis
Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln
Durch diese Anleitung soll eine einheitliche Vorgehensweise bei der Vermessung und Bewertung von Golfplätzen sichergestellt werden.
Da die Länge der Spielbahnen auch unter dem Course-Rating-System (CRS) das wichtigste Bewertungskriterium für einen Golfplatz darstellt, ist die korrekte Vermessung der Spielbahnen eine unverzichtbar notwendige
Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt
Das Mathematik-Abitur im Saarland
Informationen zum Abitur Das Mathematik-Abitur im Saarland Sie können Mathematik im Abitur entweder als grundlegenden Kurs (G-Kurs) oder als erhöhten Kurs (E-Kurs) wählen. Die Bearbeitungszeit für die
Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?
Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test? Auch wenn die Messungsmethoden ähnlich sind, ist das Ziel beider Systeme jedoch ein anderes. Gwenolé NEXER g.nexer@hearin gp
Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".
Mathematik- Unterrichts- Einheiten- Datei e. V. Klasse 9 12 04/2015 Diabetes-Test Infos: www.mued.de Blutspenden werden auf Diabetes untersucht, das mit 8 % in der Bevölkerung verbreitet ist. Dabei werden
Grundlagen der Inferenzstatistik
Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,
Modellbildungssysteme: Pädagogische und didaktische Ziele
Modellbildungssysteme: Pädagogische und didaktische Ziele Was hat Modellbildung mit der Schule zu tun? Der Bildungsplan 1994 formuliert: "Die schnelle Zunahme des Wissens, die hohe Differenzierung und
90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft
Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte
1 Mathematische Grundlagen
Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.
1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R
C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R L Ö S U N G E N Seite 7 n Wenn vier Menschen auf einem Quadratmeter stehen, dann hat jeder eine Fläche von 50 mal 50 Zentimeter
Praktikum Physik. Protokoll zum Versuch: Geometrische Optik. Durchgeführt am 24.11.2011
Praktikum Physik Protokoll zum Versuch: Geometrische Optik Durchgeführt am 24.11.2011 Gruppe X Name1 und Name 2 ([email protected]) ([email protected]) Betreuerin: Wir bestätigen hiermit, dass wir das
Technical Note Nr. 101
Seite 1 von 6 DMS und Schleifringübertrager-Schaltungstechnik Über Schleifringübertrager können DMS-Signale in exzellenter Qualität übertragen werden. Hierbei haben sowohl die physikalischen Eigenschaften
V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,
Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen
Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: 978-3-446-42033-5. Weitere Informationen oder Bestellungen unter
Leseprobe Wilhelm Kleppmann Versuchsplanung Produkte und Prozesse optimieren ISBN: -3-44-4033-5 Weitere Informationen oder Bestellungen unter http://www.hanser.de/-3-44-4033-5 sowie im Buchhandel. Carl
Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3
Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen
R ist freie Software und kann von der Website. www.r-project.org
R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird
Studiendesign/ Evaluierungsdesign
Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung
GEVITAS Farben-Reaktionstest
GEVITAS Farben-Reaktionstest GEVITAS Farben-Reaktionstest Inhalt 1. Allgemeines... 1 2. Funktionsweise der Tests... 2 3. Die Ruhetaste und die Auslösetaste... 2 4. Starten der App Hauptmenü... 3 5. Auswahl
Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik
Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.
1. Allgemeine Hinweise [email protected]
1. Allgemeine Hinweise [email protected] Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte
Vermessung und Verständnis von FFT Bildern
Vermessung und Verständnis von FFT Bildern Viele Auswertungen basieren auf der "Fast Fourier Transformation" FFT um die (ungewünschten) Regelmäßigkeiten im Schliffbild darzustellen. Die Fourier-Transformation
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde
Willkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang
Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.
Der Gutachtenstil: Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Das Ergebnis steht am Schluß. Charakteristikum
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
Mean Time Between Failures (MTBF)
Mean Time Between Failures (MTBF) Hintergrundinformation zur MTBF Was steht hier? Die Mean Time Between Failure (MTBF) ist ein statistischer Mittelwert für den störungsfreien Betrieb eines elektronischen
Business Value Launch 2006
Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung
Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1
Abiturprüfung Mathematik (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe Für jedes t f t () + t R ist die Funktion f t gegeben durch = mit R. Das Schaubild von f t heißt K t.. (6 Punkte)
Data Mining: Einige Grundlagen aus der Stochastik
Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener
Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?
UErörterung zu dem Thema Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken? 2000 by christoph hoffmann Seite I Gliederung 1. In zu großen Mengen ist alles schädlich. 2.
Info zum Zusammenhang von Auflösung und Genauigkeit
Da es oft Nachfragen und Verständnisprobleme mit den oben genannten Begriffen gibt, möchten wir hier versuchen etwas Licht ins Dunkel zu bringen. Nehmen wir mal an, Sie haben ein Stück Wasserrohr mit der
Statistik II für Betriebswirte Vorlesung 2
PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander
Ringversuch zur 9. Pilztagung des VDB 2005 in Hamburg
Ringversuch zur 9. Pilztagung des VDB 25 in Hamburg Randbedingungen und Zielsetzung des Ringversuches Um den Einfluss der Probenehmer und des verwendeten Verfahren auf die Schwankungen der Ergebnisse zu
Elektrischer Widerstand
In diesem Versuch sollen Sie die Grundbegriffe und Grundlagen der Elektrizitätslehre wiederholen und anwenden. Sie werden unterschiedlichen Verfahren zur Messung ohmscher Widerstände kennen lernen, ihren
Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de
Statistik im Versicherungs- und Finanzwesen
Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Grimmer Statistik im Versicherungs- und Finanzwesen Eine anwendungsorientierte Einführung 2014 1. Auflage Übungsaufgaben zu Kapitel
Quadratische Gleichungen
Quadratische Gleichungen Aufgabe: Versuche eine Lösung zu den folgenden Zahlenrätseln zu finden:.) Verdoppelt man das Quadrat einer Zahl und addiert, so erhält man 00..) Addiert man zum Quadrat einer Zahl
Primzahlen und RSA-Verschlüsselung
Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also
Psychologie im Arbeitsschutz
Fachvortrag zur Arbeitsschutztagung 2014 zum Thema: Psychologie im Arbeitsschutz von Dipl. Ing. Mirco Pretzel 23. Januar 2014 Quelle: Dt. Kaltwalzmuseum Hagen-Hohenlimburg 1. Einleitung Was hat mit moderner
Lineare Gleichungssysteme
Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der
WORKSHOP METHODEN ZUR TEST- UND FRAGEBOGENKONSTRUKTION UND VERFAHREN DER DATENAUSWERTUNG. Prof. Dr. Nadine Spörer
WORKSHOP METHODEN ZUR TEST- UND FRAGEBOGENKONSTRUKTION UND VERFAHREN DER DATENAUSWERTUNG Prof. Dr. Nadine Spörer Gliederung Messmodelle: Status- und Prozessdiagnostik Schulleistungstests und Fragebögen
Gutes Leben was ist das?
Lukas Bayer Jahrgangsstufe 12 Im Hirschgarten 1 67435 Neustadt Kurfürst-Ruprecht-Gymnasium Landwehrstraße22 67433 Neustadt a. d. Weinstraße Gutes Leben was ist das? Gutes Leben für alle was genau ist das
Professionelle Seminare im Bereich MS-Office
Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion
Einführung in die Fuzzy Logic
Einführung in die Fuzzy Logic Entwickelt von L. Zadeh in den 60er Jahren Benutzt unscharfe (fuzzy) Begriffe und linguistische Variablen Im Gegensatz zur Booleschen Logik {0,} wird das ganze Intervall [0,]
Bernadette Büsgen HR-Consulting www.buesgen-consult.de
Reiss Profile Es ist besser mit dem Wind zu segeln, als gegen ihn! Möchten Sie anhand Ihres Reiss Rofiles erkennen, woher Ihr Wind weht? Sie haben verschiedene Möglichkeiten, Ihr Leben aktiv zu gestalten.
Repetitionsaufgaben Wurzelgleichungen
Repetitionsaufgaben Wurzelgleichungen Inhaltsverzeichnis A) Vorbemerkungen B) Lernziele C) Theorie mit Aufgaben D) Aufgaben mit Musterlösungen 4 A) Vorbemerkungen Bitte beachten Sie: Bei Wurzelgleichungen
1 topologisches Sortieren
Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung
Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe
Sozialberichterstattung NRW. Kurzanalyse 02/2010 09.07.2010 12.07.2010 Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe 2008
Taschenbuch Versuchsplanung Produkte und Prozesse optimieren
Wilhelm Kleppmann Taschenbuch Versuchsplanung Produkte und Prozesse optimieren ISBN-10: 3-446-41595-5 ISBN-13: 978-3-446-41595-9 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-41595-9
Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar
Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar Inhaltsverzeichnis Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung:
Die Näherung durch die Sekante durch die Punkte A und C ist schlechter, da der Punkt C weiter von A entfernt liegt.
LÖSUNGEN TEIL 1 Arbeitszeit: 50 min Gegeben ist die Funktion f mit der Gleichung. Begründen Sie, warum die Steigung der Sekante durch die Punkte A(0 2) und C(3 11) eine weniger gute Näherung für die Tangentensteigung
Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?
Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen können zwei Ebenen (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Wie heiÿt
II. Zum Jugendbegleiter-Programm
II. Zum Jugendbegleiter-Programm A. Zu den Jugendbegleiter/inne/n 1. Einsatz von Jugendbegleiter/inne/n Seit Beginn des Schuljahres 2007/2008 setzen die 501 Modellschulen 7.068 Jugendbegleiter/innen ein.
4. Versicherungsangebot
4. Versicherungsangebot Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Versicherungsökonomie (FS 11) Versicherungsangebot 1 / 13 1. Einleitung 1.1 Hintergrund In einem grossen Teil
Qualitative und Quantitative Forschungsmethoden
Qualitative und Quantitative Forschungsmethoden Unterschiede zwischen den Forschungsstrategien Überprüfendes vs. Entdeckendes Erkenntnisinteresse Ziel ist die Überprüfung von Theorieaussagen. Es werden
7 Rechnen mit Polynomen
7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn
Die reellen Lösungen der kubischen Gleichung
Die reellen Lösungen der kubischen Gleichung Klaus-R. Löffler Inhaltsverzeichnis 1 Einfach zu behandelnde Sonderfälle 1 2 Die ganzrationale Funktion dritten Grades 2 2.1 Reduktion...........................................
Berechnung der Erhöhung der Durchschnittsprämien
Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die
Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht
Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht In die Auswertung der Beurteilungen der Unterrichtsbeispiele gingen von Seiten der SchülerInnen insgesamt acht Items ein,
Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und
Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und β-fehler? Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg [email protected]
Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005
Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen
1 Wiederholung einiger Grundlagen
TUTORIAL MODELLEIGENSCHAFTEN Im vorliegenden Tutorial werden einige der bisher eingeführten Begriffe mit dem in der Elektrotechnik üblichen Modell für elektrische Netzwerke formalisiert. Außerdem soll
