Gütekriterien. Gütekriterien. Gütekriterien. Reliabilität Validität. Spezifität. Sensitivität. Praktikabilität.

Transkript

1 Reliabilität Validität Sensitivität Spezifität Objektivität Praktikabilität 1 bei quantitativen Studien: Objektivität Durchführung, Auswertung, Interpretation ist unabhängig vom Untersucher Reliabilität Maß für Messgenauigkeit ( Fehlereinflüsse) Validität (!) Maß für Genauigkeit wird tatsächlich gemessen, was gemessen werden soll? Praktikabilität einfache Durchführung, zeit- und kostensparend 2 Objektivität Durchführung, Auswertung, Interpretation ist unabhängig vom Untersucher es sollen dieselben Ergebnisse entstehen, egal wer die Studie durchführt Unabhängigkeit der Untersuchung von subjektiven Einflüssen (Untersucher darf keinen Einfluss auf Ergebnisse haben) möglichst weitreichende Kontrolle von Störeinflüssen Standardisierung des Studiendesigns! Beispiel: Mangelnde Objektivität wäre gegeben, wenn Untersuchungen zur Arbeitszufriedenheit in einem Pflegebereich z.b. (nicht anonymisiert) von der Pflegedienstleitung durchgeführt würden. 3 1

2 Reliabilität Maß für Messgenauigkeit ( Fehlereinflüsse) formale Genauigkeit wissenschaftlicher Studien Messfehler jeder Art sind (möglichst) auszuschließen, Ergebnisse sind reproduzierbar rechnerische Überprüfung durch Reliabilitätskoeffizienten kein Rückschluss von Reliabilität auf Validität! Beispiel: Mangelnde Reliabilität wäre gegeben, wenn Untersuchungen zum BMI von Patient(inn)en bei fünf direkt aufeinander folgenden Messungen ein unterschiedliches Gewicht ergeben (Messinstrument = Waage ist nicht reliabel) Test-Retest-Reliabilität (Stabilität) Ausmaß der Übereinstimmung bei mehrfacher Anwendung von Messinstrumenten oder Erhebungsmethoden zu unterschiedlichen Zeitpunkten und unter ansonsten gleichen Bedingungen wird durch Korrelationskoeffizienten bestimmt hohe/geringe Korrelation = hohe/geringe Reliabilität Achtung: Messwiederholung ist davon abhängig, dass - sich die zu messende Größe nicht kurzfristig verändert (Pflegeabhängigkeit + / Schmerzmessung - ) - keine Erinnerungs-/Lerneffekte auftreten (Assessments) 5 Split-Half-Reliabilität Ausmaß der Übereinstimmung von (vergleichbaren) Teilen/ Hälften eines Messinstrumentes zu demselben Zeitpunkten und unter ansonsten gleichen Bedingungen Hälften werden als zeitgleiche Messwiederholungen betrachtet Berechnung durch (korrigierte) Korrelationskoeffizienten Achtung: abhängig von der jeweiligen Aufteilung (Split)! 6 2

3 Paralleltest-Reliabilität Ausmaß der Übereinstimmung von vergleichbaren Messinstrumenten (Tests) zu demselben Zeitpunkten und unter ansonsten gleichen Bedingungen Berechnung durch Korrelationskoeffizienten Achtung: abhängig von tatsächlich vergleichbaren Tests! 7 Interrater-Reliabilität (Objektivität) Ausmaß der Übereinstimmung bei mehrfacher Anwendung von Messinstrumenten oder Erhebungsmethoden durch unterschiedliche Untersucher (Rater) wird durch Korrelationskoeffizienten bestimmt hohe/geringe Korrelation = hohe/geringe Reliabilität Hinweis: bei mehr als zwei Untersuchern: Intra-Class-Korrelationskoeffizient bei nominalen Daten: Kappa-Koeffizient Mayer, H. et. al (200). "Qualitätskriterien von Assessmentinstrumenten - Cohen's Kappa als Maß der Interrater- Reliabilität", in: Pflege (Zeitschrift), 17(1):36-6 Fleiss, J. L. & Cohen, J. (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement 33, Wirtz, M. & Caspar, F. (2002).Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe. 8 Intrarater-Reliabilität Ausmaß der Übereinstimmung bei mehrfacher Anwendung von Messinstrumenten oder Erhebungsmethoden durch identischen Untersucher (Rater) wird durch Korrelationskoeffizienten bestimmt hohe/geringe Korrelation = hohe/geringe Reliabilität. Wirtz, M. & Caspar, F. (2002).Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen: Hogrefe. 9 3

4 Interne Konsistenz Ausmaß der Übereinstimmung zwischen den einzelnen Items eines Instrumentes und der Gesamtheit der übrigen Items (Mehrdimensionalität!) bei (einfacher) Anwendung durch einen Untersucher wird durch Cronbachs Alpha bestimmt hohe/geringe Werte = hohe/geringe Konsistenz (max. +1). nr α = ( 1+ r( n 1)) n = Anzahl Items, ř = Mittelwert aus allen bivariaten Korrelationen zwischen den Items 10 Validität (!) Maß für Genauigkeit wird tatsächlich gemessen, was gemessen werden soll? liegt vor, wenn die gewählten Items wirklich und präzise messen, was gemessen werden soll und keine verwandten oder andere Konstrukte abbilden es existieren verschiedene Konzepte/Zugänge Beispiel: Mangelnde Validität wäre gegeben, wenn Untersuchungen zur allgemeinen gesundheitlichen Situation z.b. nur auf der Messung des Blutdrucks basieren würden. 11 Validität: interne Validität (= Eindeutigkeit) studienbezogen Ergebnisse sind eindeutig interpretierbar, es gibt keine plausibleren, alternativen Erklärungen Ausmaß der Übereinstimmung bei mehrfacher Anwendung Schlussfolgerung auf einen Zusammenhang zwischen der abhängigen Variablen und der/den unabhängigen Variablen ist zulässig Mögliche Einflussfaktoren, die die interne V. gefährden können, sind: externe zeitliche Einflüsse (es wirken andere Einflussfaktoren zeitlich bedingt) Reifungsprozesse (Teilnehmer verändern sich und damit auch Ergebnisse) Testübung (Trainingseffekte) mangelnde instrumentelle Reliabilität (verwendetes Instrument ist nicht reliabel) statistische Regressionseffekte (keine Verwendung von Zufallsstichproben) Selektionseffekte (keine Randomisierung, Selbstselektion) vgl. Bortz & Döring: Forschungsmethoden und Evaluation 12

5 Validität: externe Validität studienbezogen Ergebnisse können auf andere vergleichbare Situationen / Bereiche / Gruppen übertragen / generalisiert werden ist abhängig von Repräsentativität der untersuchten Gruppe Mögliche Einflussfaktoren, die die externe V. gefährden können, sind: mangelnde instrumentelle Validität (Validität hängt immer auch vom Kontext ab!) Stichprobenfehler (mangelnde Repräsentativität) Pretest-Effekte (Teilnehmer verändern Einstellungen aufgrund von Pretest) Hawthorne-Effekte (Bewusstsein einer Studie verändert Verhalten) vgl. Bortz & Döring: Forschungsmethoden und Evaluation 13 Validität: Inhaltsvalidität (content validity - instrumentbezogen) wird auch als face validity oder Augenscheinvalidität bezeichnet manchmal auch als innere Validität misst, inwieweit das Test-Item das zu messende Konstrukt erfasst durch (einzelne) Messungen (Items) erfasste Inhalte erfassen das relevante Phänomen möglichst in allen Aspekten Gültigkeit der Messung geht aus den einzelnen Teilen des hervor beruht nur auf Einschätzungen, wird nicht numerisch bestimmt Experten bewerten, inwieweit bzw wie gut die einzelnen Items (Fragen) das zu untersuchende Konstrukt abdecken Konzept ist vor allem auf Tests und Fragebögen anwendbar hohe face-validity manchmal nicht erwünscht -> soziale Erwünschtheit (Fragen werden nicht ehrlich beantwortet sensible Themen) 1 Validität: Kriteriumsvalidität (criterion-related validity instrumentbezogen) Übereinstimmung eines Messinstruments mit anderen relevanten Merkmalen (Außenkriterien) spielt in der Praxis eine wichtige Rolle, ist aber von einem brauchbaren Außenkriterium abhängig gutes Außenkriterium oft schwierig / nicht vorhanden Unterscheidung zwischen der Übereinstimmungsvalidität (concurrent validity) das Außenkriterium wird gleichzeitig erhoben Goldstandard notwendig Korrelationsmessung (Religiosität -??? Gottesdienstbesuche, Lektüre,???) 15 5

6 Validität: Kriteriumsvalidität (criterion-related validity instrumentbezogen) und der Vorhersagevalidität (predictive validity) das Außenkriterium wird erst später gemessen es wird beurteilt, ob der Test eine gute Vorhersage für späteres Verhalten liefert (z.b. Studieneingangstest späterer Studienerfolg) 16 Validität: Konstruktvalidität (construct validity Instrumentbezogen Übereinstimmung zwischen Instrument und theoretischem Konstrukt es werden Hypothesen über das Konstrukt formuliert und deren Beziehungen untereinander und zum Konstrukt überprüft hohe Konstruktvalidität bedeutet gute empirische Bestätigung dieser Hypothesen z.b. Messung von Einsamkeit korrespondiert mit Selbstwertgefühl, sozialer Ängstlichkeit, Familienstatus oft von besonderer Wichtigkeit geringe Reliabilität geringe Validität hohe Reliabilität geringe Validität... hohe Reliabilität hohe Validität Aus Reliabilität kann nicht auf Validität geschlossen werden! 18 6

7 Praktikabilität gute Instrumente sind objektiv, reliabel, valide und einfach in der Handhabung verständlich zeitsparend kostengünstig 19 Sensitivität (sensitivity) Kriterium zur Güte von Testverfahren beschreibt die Fähigkeit Fälle (z.b. Kranke) auch als solche zu erkennen als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ 20 Spezifität (specificity) Kriterium zur Güte von Testverfahren beschreibt die Fähigkeit Nicht-Fälle (z.b. Gesunde) auch als solche zu erkennen als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ 21 7

8 Beispiel Sensitivität / Spezifität Studie zum Dekubitusrisiko Halek & Mayer 2002 kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch positiv 125 Dekubitusrisiko 0 85 nicht als erkannt falsch negativ richtig negativ 21 kein Dekubitusrisiko Sensitivität = 0/ = 0,909 = 90,9% Spezifität = 17/102 = 0,167 = 16,7% je höher diese Werte liegen, desto besser ist ein Instrument 22 Effizienz Anteil aller korrekt klassifizierten Fälle und Nicht-Fälle kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch kein positiv 125 Dekubitusrisiko ( erkrankt ) 0 ( nicht erkrankt ) 85 als nicht als erkannt erkannt richtig falsch positiv negativ richtig falsch positiv negativ 21 (als kein krank Dekubitusrisiko diagnostiziert) 17 nicht als erkannt falsch negativ richtig 102 negativ 16 (als gesund diagnostiziert) Anzahl richtig positiver + Anzahl richtig negativer Effizienz = Gesamtzahl 23 Beispiel Effizienz Studie zum Dekubitusrisiko Halek & Mayer 2002 kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch positiv 125 Dekubitusrisiko 0 85 nicht als erkannt falsch negativ richtig negativ 21 kein Dekubitusrisiko Effizienz = (0+17) / 16 = 0,390 = 39,0% 2 8

9 prädiktive Werte positiv prädiktiver Wert: Wahrscheinlichkeit, bei einem positiven, tatsächlich ein zu sein als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ Anzahl richtig positiver positiv prädiktiver Wert = ( Anzahl richtig positiver + Anzahl falsch positiver) 25 prädiktive Werte negativ prädiktiver Wert: Wahrscheinlichkeit, bei einem negativen, tatsächlich kein zu sein als erkannt (als krank diagnostiziert) nicht als erkannt (als gesund diagnostiziert) kein ( erkrankt ) ( nicht erkrankt ) richtig positiv falsch positiv falsch negativ richtig negativ Anzahl richtig negativer negativ prädiktiver Wert = ( Anzahl richtig negativer + Anzahl falsch negativer) 26 Beispiel prädiktive Werte Studie zum Dekubitusrisiko Halek & Mayer 2002 kein Originale Norton-Skala Dekubitus kein Dekubitus vorhanden als erkannt richtig positiv falsch positiv 125 Dekubitusrisiko 0 85 nicht als erkannt falsch negativ richtig negativ 21 kein Dekubitusrisiko positiv präd. Wert = 0/125 = 0,320 = 32,0% negativ präd. Wert = 17/21 = 0,810 = 81,0% 27 9

10 ROC-Kurve (ROC = receiver operating curve) Spezifität (Anteil der korrekt klassifizierten Nicht-Fälle (Gesunde)) und Sensitivität (Anteil der korrekt klassifizierten Fälle (Kranke)) sind (ebenso wie die prädiktiven Werte) abhängig davon, wie die Testentscheidung getroffen wird Schwellenwert (cut-off point) Berechnung einer empirische ROC-Kurve: der Schwellenwert durchläuft (fiktiv) den gesamten Bereich möglicher Testwerte, es werden jeweils Sensitivität und Spezifität berechnet Grafische Darstellung von Sensitivität (Anteil der korrekt positiv klassifizierten Fälle ) und 1 Spezifität (Anteil der falsch positiv klassifizierten Fälle ) in einem Koordinatensystem (x-achse = 1 - Spezifität, y-achse = Sensitivität) Kurve kann nur in der linken oberen Hälfte Werte annehmen 28 ROC-Kurve (ROC = receiver operating curve) Idealfall: Sensitivität = 100% 1-Spezifität = 0% (Spezifität = 100%) Worst Case : Sensitivität = 1- Spezifität Vergleich verschiedener Tests: AUC-Kriterium = Fläche unter der ROC-Kurve (0,5 < AUC < 1) Quelle: 29 Links zur Berechnung Diagnostische Tests (Sensitivität, Spezifität, prädiktive Werte) Quelle:

11 Literatur: Brandenburg H, Panfil E & Mayer H (Hrsg.) (2007): Pflegewissenschaft 2. Huber, Bern. Bortz J & Döring N (1995): Forschungsmethoden und Evaluation. 2. Aufl. Springer, Berlin