Statistical Coaching Thomas Forstner
Diagnoseverfahren
Allgemein Vergleich: wahrer Befund mit Test (Diagnose) wahrer Befund muss bekannt sein (Goldstandard) 3
Analogie zur Testtheorie 4
Beurteilung von Diagnosestudien Mittels Klassifikationswahrscheinlichkeiten bzw. Prognosewahrscheinlichkeiten auf Basis bedingter Wahrscheinlichkeiten Sensitivität (Se): P(positive Diagnose krank) krank und eine positive Diagnose Spezifizität (Sp): P(negative Diagnose gesund) gesund und eine negative Diagnose Positiver Vorhersagewert (PPV): P(krank positive Diagnose) positive Diagnose und wirklich krank Negativer Vorhersagewert (NPV): P(gesund negative Diagnose) negative Diagnose und wirklich gesund Prävalenz: P(krank) Verbreitung der Krankheit in der Bevölkerung 5
Berechnung 6
Beispiel 7
Perfektes Diagnoseverfahren Sensitivität (Se): P(positive Diagnose krank) = 100% Spezifizität (Sp): P(negative Diagnose gesund) = 100% Positiver Vorhersagewert (PPV): P(krank positive Diagnose) = 100% Negativer Vorhersagewert (NPV): P(gesund negative Diagnose) = 100% 8
Zufalls -Diagnoseverfahren Sensitivität (Se) = P(Diagnose positiv) Spezifizität (Sp) = P(Diagnose negativ) Positiver Vorhersagewert (PPV) = Prävalenz Negativer Vorhersagewert (NPV) = 1- Prävalenz 9
Beurteilung von Diagnosestudien Likelihood Ratio+: Sensitivität / (1 Spezifität) Likelihood Ratio-: (1-Sensitivität) / Spezifität Likelihood-Ratio quantifiziert die Änderung der Chancen auf die Krankheit bei Kenntnis des positiven bzw. negativen Testergebnisses Bei einem perfekten Diagnoseverfahren ist LR+ = bzw. LR- = 0 Bei einem nutzlosen Zufalls-Diagnoseverfahren ist LR+ = LR- = 1 10
Vergleich von Diagnoseverfahren Ein Verfahren ist in allen Maßzahlen besser -> eindeutige Entscheidung Das Verfahren ist nur in einer Maßzahl (z.b.: Sensitivität besser) -> Entscheidung schwieriger Lösung: Ein Maß definieren, dass beide Maßzahlen (Sensitivität und Spezifizität) verwendet -> häufig werden die Kosten dafür verwendet 11
Kosten C Kosten des Tests CDp Kosten der Behandlung für eine erkrankte und positiv diagnostizierte Person CDn Kosten der Behandlung für eine erkrankte aber negativ diagnostizierte Person CGp Kosten (z.b.: unnötige Behandlungen) für eine gesunde aber positiv diagnostizierte Person Kosten = C + CDp * Se * Prävalenz + CDn * (1-Se) * Prävalenz + CGp * (1-Sp) * (1-Prävalenz) 12
Beispiel Man stellt sich die Frage ob ein Screening für eine bestimmte Krebsart rein von der Kostenseite her sinnvoll ist. Man nimmt eine Prävalenz von 0,8% an. Ein Screeningverfahren hat eine Sensitivität von 51% bzw. eine Spezifität von 98%. C Testkosten 40 $ / CDp Behandlungskosten erkrankte und positiv getestete Person 1730 $ / CDn teurere Behandlungskosten erkrankte aber negativ getetste Person 17500 $ / CGp Kosten für weitere Untersuchung für gesunde aber positiv getestete Personen 170$ Kosten bei Screening = 40+1730*0,51*0,008+17500*0,49*0,008+170*0,02*0,992 = 119 $ Kosten ohne Screening = Prävalenz * CDn = 0,008*17500 = 140 $ 13
ordinales bzw. metrische Testergebnisse Beispiel: Radiologin beurteilt Mammographien auf einer Skala zwischen 1 (normal) bis 5 (bösartig) Allgemein: 14
ordinales bzw. metrische Testergebnisse Wahl von verschiedenen Cut-Off-Werten ( Trennwerte zw. gesund und krank ) und Dichotomisierung des metrischen bzw. ordinalen Testergebnisse Bildung und Betrachtung der Sensitivität bzw. Spezifität für alle möglichen Cut-Off-Werte getrennt Grafische Darstellung aller möglichen Cut-Off-Werte mittels ROC-Kurven 15
ROC-Kurven ROC-Kurve: Methode zur Beschreibung der Güte eines Diagnoseverfahrens unter der Berücksichtigung von verschiedenen Cut-Off-Werten 16
ROC-Kurven Erstellung durch stückweise lineare Interpolation (Verbindung von Punktepaaren Sensitivität und 1-Spezifität jeweils abhängig vom Cut-Off-Wert, 1-Spezifität wird als False Positve Rate bezeichnet) Maximum-Likelihood-Methode: Mittels ML-Schätzung Bestimmung einer Kurve durch die Punktepaare Sensitivität und Spezifität (sehr rechenintensiv, in Praxis kaum verwendet) Beispiel: Patienten mit künstlichen Herzklappen. Ab einem Herzklappenabstand von 0,14 cm (Cut-Off-Wert) wird von einem Defekt ausgegangen. Es sollen verschiedenen Cut-Off-Werte verglichen werden. 17
Interpretation Quelle: Fletcher, Fletcher und Wagner, Klinische Epidemiologie 18
ROC-Kurven Sensitivität und Spezifität: Maßzahlen für die Güte eines Diagnoseverfahrens bei einem fixen Cut-Off-Wert an Gesucht: Maßzahl, welches die Güte eines Diagnoseverfahrens abhängig von verschiedenen Cut-Off-Werten angibt: Fläche unter der ROC-Kurve (Wertebereich zw. 0 und 1) 19
Fläche unter ROC Empirische ROC-Kurven: Mittels der Trapezregel: Parametrische ROC-Kurven: Mittels Integralrechnung: 20
Beispiel Mammographie an 58 Frauen. Wahrer Zustand mittels Biopsie bestätigt. Fläche unter der ROC-Kurve soll berechnet werde. 21
Interpretation der Fläche durchschnittlicher Wert der Sensitivität für alle möglichen Werte der Spezifität durchschnittlicher Wert der Spezifität für alle möglichen Werte der Sensitivität jene Wahrscheinlichkeit, dass bei zufälligen Auswahl je eines Objektes, auf das die Bedingung zutrifft, und eines Objektes, auf das die Bedingung nicht zutrifft, das Objekt mit der Bedingung mit einer höheren Wahrscheinlichkeit von einem Klassifikationsschema als positiv eingestuft wird. Kann das Klassifikationsschema keine Zuordnung treffen, ist die Wahrscheinlichkeit nicht höher als bei einer zufälligen Entscheidung. Beispiel: Man hat eine Grundgesamtheit von 100 Personen. 50 Personen sind an einer bestimmten Krankheit erkrankt, die anderen 50 sind gesund. Wählt man nun eine kranke und eine gesunde Person aus, wird ein medizinischer Test die kranke Person wahrscheinlicher als krank erkennen als die gesunde Person. 22
Varianz der Fläche Die Berechnung der Fläche unter der ROC-Kurve ist formal mit der Berechnung der Teststatistik des Mann-Whitney-U-Test verwandt. Dieser Zusammenhang kann zur Berechnung der Varianz ausgenützt werden. 23
Vergleich zweier ROC-Kurven Vergleichsmaß: Fläche unter der Kurve Hypothesen: Teststatistik: Teststatistik ist asymptotisch normalverteilt 24
Konfidenzintervalle Asymptot. Konfidenzintervall für eine ROC-Kurve: Basis Konfidenzintervalle für die jeweiligen Punktepaare Sensitivität und Spezifität: Asymptot. Konfidenzintervall für Fläche: 25
Beispiel Vergleichen Sie die ROC-Kurven der Mammographie-Befunde von jeweils 60 Frauen, die mit 2 verschiedenen Computertomographen erstellt wurden. Computertomograph A: Fläche = 0,847 (20 bösartig, 40 gutartig) Computertomograph B: Fläche = 0,747 (10 bösartig, 50 gutartig) Nullhypothese kann nicht abgelehnt werden p = 0,206 26
Optimaler Cut-Off-Wert Optimal ist hier definiert als maximale Sensitivität und maximale Spezifität Bestimmung mittels Youden-Index Youden-Index: Punkt welcher am weitesten von der 45 Grad Geraden entfernt ist 27