Gütekriterien. Gütekriterien. Gütekriterien. Reliabilität Validität. Spezifität. Sensitivität. Praktikabilität.

Ähnliche Dokumente
Gütekriterien HS Sprachstandsdiagnose und Sprachförderung SS2011 Referentin: Meghann Munro

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Forschungsmethoden VORLESUNG WS 2017/2018

Forschungsmethoden VORLESUNG SS 2017

Reliabilitäts- und Itemanalyse

Eigene MC-Fragen Testgütekriterien (X aus 5) 2. Das Ausmaß der Auswertungsobjektivität lässt sich in welcher statistischen Kennzahl angeben?

Eine Skala ist also Messinstrument, im einfachsten Fall besteht diese aus einem Item

Objektivität und Validität. Testgütekriterien. Objektivität. Validität. Reliabilität. Objektivität

Einführung in die Statistik Testgütekriterien

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Welche Gütekriterien sind bei der Bewertung von Lernleistungen

Forschungsmethoden VORLESUNG WS 2017/2018

= = =0,2=20% 25 Plätze Zufallsübereinstimmung: 0.80 x x 0.20 = %

RETESTRELIABILITÄT. Teststabilität. Korrelation wiederholter Testdurchführungen. Persönlichkeitstests. Stabilität des Zielmerkmals.

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Forschungsmethoden VORLESUNG SS 2017

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

T E S T G Ü T E K R I T E R I E N W O R K S H O P I N F R E I B U R G N O V E M B E R

Dr. Heidemarie Keller

Kodierbogen zur Beurteilung von psychometrischen Eigenschaften (Reliabilität und Validität) diagnostischer Selbst- und Fremdbeurteilungsverfahren

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Effektstärken Nachtrag

Gütekriterien: Validität (15.5.)

Methode der Naturwissenschaften

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

WATCHING YOUR STEP - Clinical Trial Process

3.2 Grundlagen der Testtheorie Methoden der Reliabilitätsbestimmung

Grundlagen der Statistik

Gütekriterien für evaluative Messinstrumente in der Rehabilitation

Das Minimale Dokumentationssystem (MIDOS²) als deutsche Version der Edmonton Symptom Assessment Scale (ESAS): - Ein Instrument für die Pflege?

4.2 Grundlagen der Testtheorie

Psychologische Diagnostik

Aufgaben und Ziele der Wissenschaften

Messtherorie Definitionen

Überblick der heutigen Sitzung

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

3.3.1 Referenzwerte für Fruchtwasser-Schätzvolumina ( SSW)

Übung Methodenlehre I, SeKo

Der Zusammenhang zwischen Verständlichkeit von Fragen und Interraterreliabilität bei Meßinstrumenten der Mitarbeiterzufriedenheit

Eigene MC-Fragen "Lesen" 1. Zu den Komponenten eines effektiven Leseprozesses lt. Werder (1994) gehört nicht

Grundlagen der Labormedizin. Die analytische Phase

Messung, Skalen, Indices

Messung Emotionaler Intelligenz. Prof. Dr. Astrid Schütz - Universität Bamberg

Beispielberechnung Vertrauensintervall

σ 2 (x) = σ 2 (τ) + σ 2 (ε) ( x) ( ) ( x) ( ) ( ) σ =σ τ +σ ε σ τ σ σ ε ( ) ( x) Varianzzerlegung Varianzzerlegung und Definition der Reliabilität

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

SOZIALE INTEGRATION IN DIE SCHULKLASSE. EIN BEITRAG ZUR SYSTEMATISCHEN ANALYSE SOZIALER PROZESSE. Brigitte Anliker

Beispielberechnung Vertrauensintervalle

Rekodierung invertierter Items

Psychologische Methodenlehre Statistik

QUANTITATIVE VS QUALITATIVE STUDIEN

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

Wie valide sind AC im deutschsprachigen Raum?

Bivariate Analyseverfahren

WAS IST LEBENSQUALITÄT? DIPL. PGW R. BECKER

IBS-KJ Interviews zu Belastungsstörungen bei Kindern und Jugendlichen

Forschungsmethoden VORLESUNG WS 2017/2018

Psychological Ownership in Organisationen

Fragestellung Fragestellungen

Methodenlehre. Vorlesung 4. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Familiäre Pflege: Welche Bedeutung haben Ressourcen für pflegende Angehörige? Assessment zur Erfassung Ressourcen pflegender Angehöriger (RPA)

Bindegewebszonen als Indikator für Lebererkrankungen

Medizinische Biometrie (L5)

Forschungsmethoden VORLESUNG SS 2017

Normung für die Praxis: Überblick über die Anforderungen an Verfahren

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische

Kendall s Tau. Betrachte Paare von Beobachtungen (x i, y i ) und (x j, y j ) Ein Paar heißt:

SF-36 Fragebogen zum Gesundheitszustand. Seminar: Testen und Entscheiden Dozentin: Susanne Jäger Referentin: Julia Plato Datum:

Berufserfahrung und beruflicher Erfolg

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Grundlagen sportwissenschaftlicher Forschung Test

Untersuchungsarten im quantitativen Paradigma

Leseuntersuchung mit dem Stolperwörtertest

1 EINLEITUNG... 1 TEIL I: STAND DER FORSCHUNG PROFESSIONELLES WISSEN UND HANDELN VON LEHRKRÄFTEN Fachwissen...

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

Messen und Statistik

Evidenzbasiertes Sturzrisiko-Assessment Weiterentwicklung einer bestehenden Maßnahme des Qualitätsmanagements

Kipp/Opitz UdS 2007/08. Experimentalmethodik

Forschungsmethoden VORLESUNG WS 2016/17

III. Methoden der empirischen Kommunikations forschung. Hans-Bernd Brosius Friederike Koschel. Eine Einführung. 3. Auflage - CKIZ

The ROC curve in screening with multiple markers: An application to the triple test in prenatal diagnostics

Statistical Coaching. Thomas Forstner

Neuere Konzepte von Intelligenz und deren Probleme. Thomas Hoch Martina Weber

EbM-Splitter 10 Sensitivität und Spezifität: Auswirkung der Wahl des Trennpunktes

Begriffe und Methoden (8.5.)

Entwicklung eines testtheoretisch fundierten Instruments zur Erfassung des Selbstpflegeverhaltens von Menschen mit Diabetes mellitus Typ 2

VL Organisationspsychologie

Verfahren zur Skalierung. A. Die "klassische" Vorgehensweise - nach der Logik der klassischen Testtheorie

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc).

Aufbau des Testberichts. 1. Problemstellung / inhaltliche Einführung. 2. Methode

Inhalt. 1 Ziel und Forschungsprozess Grundlage von Wissenschaft Wissenschaftstheoretische Grundbegriffe 27

Kapitel 4: Merkmalszusammenhänge

Sorbet. Testverfahren. Testverfahren. 1. Sinnvoll? 2. Objektiv? 3. Realistisch? 4. Bereich? 5. Entwicklung? 6. Testverfahren?

Transkript:

Reliabilität Validität Sensitivität Spezifität Objektivität Praktikabilität 1 bei quantitativen Studien: Objektivität Durchführung, Auswertung, Interpretation ist unabhängig vom Untersucher Reliabilität Maß für Messgenauigkeit ( Fehlereinflüsse) Validität (!) Maß für Genauigkeit wird tatsächlich gemessen, was gemessen werden soll? Praktikabilität einfache Durchführung, zeit- und kostensparend 2 Objektivität Durchführung, Auswertung, Interpretation ist unabhängig vom Untersucher es sollen dieselben Ergebnisse entstehen, egal wer die Studie durchführt Unabhängigkeit der Untersuchung von subjektiven Einflüssen (Untersucher darf keinen Einfluss auf Ergebnisse haben) möglichst weitreichende Kontrolle von Störeinflüssen Standardisierung des Studiendesigns! Beispiel: Mangelnde Objektivität wäre gegeben, wenn Untersuchungen zur Arbeitszufriedenheit in einem Pflegebereich z.b. (nicht anonymisiert) von der Pflegedienstleitung durchgeführt würden. 3 1

Reliabilität Maß für Messgenauigkeit ( Fehlereinflüsse) formale Genauigkeit wissenschaftlicher Studien Messfehler jeder Art sind (möglichst) auszuschließen, Ergebnisse sind reproduzierbar rechnerische Überprüfung durch Reliabilitätskoeffizienten kein Rückschluss von Reliabilität auf Validität! Beispiel: Mangelnde Reliabilität wäre gegeben, wenn Untersuchungen zum BMI von Patient(inn)en bei fünf direkt aufeinander folgenden Messungen ein unterschiedliches Gewicht ergeben (Messinstrument = Waage ist nicht reliabel) Test-Retest-Reliabilität (Stabilität) Ausmaß der Übereinstimmung bei mehrfacher Anwendung von Messinstrumenten oder Erhebungsmethoden zu unterschiedlichen Zeitpunkten und unter ansonsten gleichen Bedingungen wird durch Korrelationskoeffizienten bestimmt hohe/geringe Korrelation = hohe/geringe Reliabilität Achtung: Messwiederholung ist davon abhängig, dass - sich die zu messende Größe nicht kurzfristig verändert (Pflegeabhängigkeit + / Schmerzmessung - ) - keine Erinnerungs-/Lerneffekte auftreten (Assessments) 5 Split-Half-Reliabilität Ausmaß der Übereinstimmung von (vergleichbaren) Teilen/ Hälften eines Messinstrumentes zu demselben Zeitpunkten und unter ansonsten gleichen Bedingungen Hälften werden als zeitgleiche Messwiederholungen betrachtet Berechnung durch (korrigierte) Korrelationskoeffizienten Achtung: abhängig von der jeweiligen Aufteilung (Split)! 6 2

Paralleltest-Reliabilität Ausmaß der Übereinstimmung von vergleichbaren Messinstrumenten (Tests) zu demselben Zeitpunkten und unter ansonsten gleichen Bedingungen Berechnung durch Korrelationskoeffizienten Achtung: abhängig von tatsächlich vergleichbaren Tests! 7 Interrater-Reliabilität (Objektivität) Ausmaß der Übereinstimmung bei mehrfacher Anwendung von Messinstrumenten oder Erhebungsmethoden durch unterschiedliche Untersucher (Rater) wird durch Korrelationskoeffizienten bestimmt hohe/geringe Korrelation = hohe/geringe Reliabilität Hinweis: bei mehr als zwei Untersuchern: Intra-Class-Korrelationskoeffizient bei nominalen Daten: Kappa-Koeffizient Mayer, H. et. al (200). "Qualitätskriterien von Assessmentinstrumenten - Cohen's Kappa als Maß der Interrater- Reliabilität", in: Pflege (Zeitschrift), 17(1):36-6 Fleiss, J. L. & Cohen, J. (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement 33, 613-619. Wirtz, M. & Caspar, F. (2002).Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe. 8 Intrarater-Reliabilität Ausmaß der Übereinstimmung bei mehrfacher Anwendung von Messinstrumenten oder Erhebungsmethoden durch identischen Untersucher (Rater) wird durch Korrelationskoeffizienten bestimmt hohe/geringe Korrelation = hohe/geringe Reliabilität. Wirtz, M. & Caspar, F. (2002).Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe. 9 3

Interne Konsistenz Ausmaß der Übereinstimmung zwischen den einzelnen Items eines Instrumentes und der Gesamtheit der übrigen Items (Mehrdimensionalität!) bei (einfacher) Anwendung durch einen Untersucher wird durch Cronbachs Alpha bestimmt hohe/geringe Werte = hohe/geringe Konsistenz (max. +1). nr α = ( 1+ r( n 1)) n = Anzahl Items, ř = Mittelwert aus allen bivariaten Korrelationen zwischen den Items 10 Validität (!) Maß für Genauigkeit wird tatsächlich gemessen, was gemessen werden soll? liegt vor, wenn die gewählten Items wirklich und präzise messen, was gemessen werden soll und keine verwandten oder andere Konstrukte abbilden es existieren verschiedene Konzepte/Zugänge Beispiel: Mangelnde Validität wäre gegeben, wenn Untersuchungen zur allgemeinen gesundheitlichen Situation z.b. nur auf der Messung des Blutdrucks basieren würden. 11 Validität: interne Validität (= Eindeutigkeit) studienbezogen Ergebnisse sind eindeutig interpretierbar, es gibt keine plausibleren, alternativen Erklärungen Ausmaß der Übereinstimmung bei mehrfacher Anwendung Schlussfolgerung auf einen Zusammenhang zwischen der abhängigen Variablen und der/den unabhängigen Variablen ist zulässig Mögliche Einflussfaktoren, die die interne V. gefährden können, sind: externe zeitliche Einflüsse (es wirken andere Einflussfaktoren zeitlich bedingt) Reifungsprozesse (Teilnehmer verändern sich und damit auch Ergebnisse) Testübung (Trainingseffekte) mangelnde instrumentelle Reliabilität (verwendetes Instrument ist nicht reliabel) statistische Regressionseffekte (keine Verwendung von Zufallsstichproben) Selektionseffekte (keine Randomisierung, Selbstselektion) vgl. Bortz & Döring: Forschungsmethoden und Evaluation 12

Validität: externe Validität studienbezogen Ergebnisse können auf andere vergleichbare Situationen / Bereiche / Gruppen übertragen / generalisiert werden ist abhängig von Repräsentativität der untersuchten Gruppe Mögliche Einflussfaktoren, die die externe V. gefährden können, sind: mangelnde instrumentelle Validität (Validität hängt immer auch vom Kontext ab!) Stichprobenfehler (mangelnde Repräsentativität) Pretest-Effekte (Teilnehmer verändern Einstellungen aufgrund von Pretest) Hawthorne-Effekte (Bewusstsein einer Studie verändert Verhalten) vgl. Bortz & Döring: Forschungsmethoden und Evaluation 13 Validität: Inhaltsvalidität (content validity - instrumentbezogen) wird auch als face validity oder Augenscheinvalidität bezeichnet manchmal auch als innere Validität misst, inwieweit das Test-Item das zu messende Konstrukt erfasst durch (einzelne) Messungen (Items) erfasste Inhalte erfassen das relevante Phänomen möglichst in allen Aspekten Gültigkeit der Messung geht aus den einzelnen Teilen des hervor beruht nur auf Einschätzungen, wird nicht numerisch bestimmt Experten bewerten, inwieweit bzw wie gut die einzelnen Items (Fragen) das zu untersuchende Konstrukt abdecken Konzept ist vor allem auf Tests und Fragebögen anwendbar hohe face-validity manchmal nicht erwünscht -> soziale Erwünschtheit (Fragen werden nicht ehrlich beantwortet sensible Themen) 1 Validität: Kriteriumsvalidität (criterion-related validity instrumentbezogen) Übereinstimmung eines Messinstruments mit anderen relevanten Merkmalen (Außenkriterien) spielt in der Praxis eine wichtige Rolle, ist aber von einem brauchbaren Außenkriterium abhängig gutes Außenkriterium oft schwierig / nicht vorhanden Unterscheidung zwischen der Übereinstimmungsvalidität (concurrent validity) das Außenkriterium wird gleichzeitig erhoben Goldstandard notwendig Korrelationsmessung (Religiosität -??? Gottesdienstbesuche, Lektüre,???) 15 5

Validität: Kriteriumsvalidität (criterion-related validity instrumentbezogen) und der Vorhersagevalidität (predictive validity) das Außenkriterium wird erst später gemessen es wird beurteilt, ob der Test eine gute Vorhersage für späteres Verhalten liefert (z.b. Studieneingangstest späterer Studienerfolg) 16 Validität: Konstruktvalidität (construct validity Instrumentbezogen Übereinstimmung zwischen Instrument und theoretischem Konstrukt es werden Hypothesen über das Konstrukt formuliert und deren Beziehungen untereinander und zum Konstrukt überprüft hohe Konstruktvalidität bedeutet gute empirische Bestätigung dieser Hypothesen z.b. Messung von Einsamkeit korrespondiert mit Selbstwertgefühl, sozialer Ängstlichkeit, Familienstatus oft von besonderer Wichtigkeit 17............ geringe Reliabilität geringe Validität hohe Reliabilität geringe Validität... hohe Reliabilität hohe Validität Aus Reliabilität kann nicht auf Validität geschlossen werden! 18 6

Praktikabilität gute Instrumente sind objektiv, reliabel, valide und einfach in der Handhabung verständlich zeitsparend kostengünstig 19 Sensitivität (sensitivity) Kriterium zur Güte von Testverfahren beschreibt die Fähigkeit Fälle (z.b. Kranke) auch als solche zu erkennen als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ 20 Spezifität (specificity) Kriterium zur Güte von Testverfahren beschreibt die Fähigkeit Nicht-Fälle (z.b. Gesunde) auch als solche zu erkennen als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ 21 7

Beispiel Sensitivität / Spezifität Studie zum Dekubitusrisiko Halek & Mayer 2002 kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch positiv 125 Dekubitusrisiko 0 85 nicht als erkannt falsch negativ richtig negativ 21 kein Dekubitusrisiko 17 102 16 Sensitivität = 0/ = 0,909 = 90,9% Spezifität = 17/102 = 0,167 = 16,7% je höher diese Werte liegen, desto besser ist ein Instrument 22 Effizienz Anteil aller korrekt klassifizierten Fälle und Nicht-Fälle kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch kein positiv 125 Dekubitusrisiko ( erkrankt ) 0 ( nicht erkrankt ) 85 als nicht als erkannt erkannt richtig falsch positiv negativ richtig falsch positiv negativ 21 (als kein krank Dekubitusrisiko diagnostiziert) 17 nicht als erkannt falsch negativ richtig 102 negativ 16 (als gesund diagnostiziert) Anzahl richtig positiver + Anzahl richtig negativer Effizienz = Gesamtzahl 23 Beispiel Effizienz Studie zum Dekubitusrisiko Halek & Mayer 2002 kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch positiv 125 Dekubitusrisiko 0 85 nicht als erkannt falsch negativ richtig negativ 21 kein Dekubitusrisiko 17 102 16 Effizienz = (0+17) / 16 = 0,390 = 39,0% 2 8

prädiktive Werte positiv prädiktiver Wert: Wahrscheinlichkeit, bei einem positiven, tatsächlich ein zu sein als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ Anzahl richtig positiver positiv prädiktiver Wert = ( Anzahl richtig positiver + Anzahl falsch positiver) 25 prädiktive Werte negativ prädiktiver Wert: Wahrscheinlichkeit, bei einem negativen, tatsächlich kein zu sein als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ Anzahl richtig negativer negativ prädiktiver Wert = ( Anzahl richtig negativer + Anzahl falsch negativer) 26 Beispiel prädiktive Werte Studie zum Dekubitusrisiko Halek & Mayer 2002 kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch positiv 125 Dekubitusrisiko 0 85 nicht als erkannt falsch negativ richtig negativ 21 kein Dekubitusrisiko 17 102 16 positiv präd. Wert = 0/125 = 0,320 = 32,0% negativ präd. Wert = 17/21 = 0,810 = 81,0% 27 9

ROC-Kurve (ROC = receiver operating curve) Spezifität (Anteil der korrekt klassifizierten Nicht-Fälle (Gesunde)) und Sensitivität (Anteil der korrekt klassifizierten Fälle (Kranke)) sind (ebenso wie die prädiktiven Werte) abhängig davon, wie die Testentscheidung getroffen wird Schwellenwert (cut-off point) Berechnung einer empirische ROC-Kurve: der Schwellenwert durchläuft (fiktiv) den gesamten Bereich möglicher Testwerte, es werden jeweils Sensitivität und Spezifität berechnet Grafische Darstellung von Sensitivität (Anteil der korrekt positiv klassifizierten Fälle ) und 1 Spezifität (Anteil der falsch positiv klassifizierten Fälle ) in einem Koordinatensystem (x-achse = 1 - Spezifität, y-achse = Sensitivität) Kurve kann nur in der linken oberen Hälfte Werte annehmen 28 ROC-Kurve (ROC = receiver operating curve) Idealfall: Sensitivität = 100% 1-Spezifität = 0% (Spezifität = 100%) Worst Case : Sensitivität = 1- Spezifität Vergleich verschiedener Tests: AUC-Kriterium = Fläche unter der ROC-Kurve (0,5 < AUC < 1) Quelle: https://www.imbi.uni-freiburg.de/biom/imbiadministration/uploads/kurzfassung05.pdf 29 Links zur Berechnung Diagnostische Tests (Sensitivität, Spezifität, prädiktive Werte) http://faculty.vassar.edu/lowry/clin1.html http://www.cebm.utoronto.ca/practise/ca/statscal/ http://statpages.org/ctab2x2.html http://www.healthcare.ubc.ca/calc/bayes.html Quelle:http://ibe.web.med.uni-muenchen.de/Services/statRes/statTest/diagnostT/index.html 30 10

Literatur: Brandenburg H, Panfil E & Mayer H (Hrsg.) (2007): Pflegewissenschaft 2. Huber, Bern. Bortz J & Döring N (1995): Forschungsmethoden und Evaluation. 2. Aufl. Springer, Berlin. 31 11