2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs durch Mammographie Prognosestudien prognostische Faktoren In gewissem Sinne Spezialfall einer Diagnosestudie Beispiel: Prognose ob ein Patient bei vorliegenden klinischen Daten in einem definierten Zeitraum stationär behandelt werden muss. Skalentyp des Testergebnisses Auswahl der Studienteilnehmer Vergleich von diagnostischen Tests Test Integrität Screening: Population wird mit kostengünstigem diagnostischen Test untersucht, Bsp.: Pap smear screening. Biostatistische Methoden 1 Biostatistische Methoden 2 Skalentyp des Testergebnisses Auswahl der Studienteilnehmer Typischerweise binär, ordinal oder stetig nicht-binäre Skalen werden häufig mit einem Schwellenwert in zwei Kategorien eingeteilt. Fall-Kontroll-Design : Eine feste Anzahl von kranken und gesunden Personen wird mit diagnostischem Test untersucht Kohorten-Design : Eine Gruppe von Personen wird mit Test untersucht, gleichzeitig wird wahrer Krankheitszustand durch gold standard definite test, kurz Gold Standard erhoben ( ascertainment, Verifikation) Es gibt weitere Varianten, z.b. wiederholte Anwendung eines diagnostischen Tests und Verifikation nur dann, wenn mindestens ein Testergebnis positiv war. Biostatistische Methoden 3 Biostatistische Methoden 4

Vergleich von zwei Tests Test Integrität Verbundene Stichproben: Anwendung beider Tests auf jeden Studienteilnehmer Unverbundene Stichproben: Jeder Teilnehmer wird nur mit einem Test untersucht. Kenntnis des wahren Krankheitsstatus darf nicht das Testergebnis beeinflussen. Beispiel: Radiologe beurteilt Röntgenbild von Patientinnen, von denen er weiss dass sie Brustkerbs haben. Abhilfe: Verblindete Studien: Person, die den Test durchführt, kennt Krankheitsstatus nicht. Person, die den wahren Status ermittelt, kennt Testergebnis nicht. Biostatistische Methoden 5 Biostatistische Methoden 6 Beispiel: CASS Studie 2.1 Einfache Verfahren bei binären Tests CASS: coronary artery surgery study exercise stress test (EST) und chest pain history (CPH) bei 1465 Männern mit möglicher Herzerkrankung. Gebundene Stichprobe. Arteriographie: Gold Standard Kohortenstudie, wobei bestimmte Einschlußkriterien gelten müssen. Notation: Y = D = { 1 disease 0 non-disease { 1 test positive for disease 0 test negative for disease D = 0 D = 1 Y = 0 True negative False negative Y = 1 False positive True positive Biostatistische Methoden 7 Biostatistische Methoden 8

Klassifikationswahrscheinlichkeiten Fehlklassifikationswahrscheinlichkeit Man definiert nun (oft auch als Raten bezeichnet): false positive fraction FPF = P (Y = 1 D = 0) true positive fraction TPF = P (Y = 1 D = 1) false negative fraction FNF = P (Y = 0 D = 1) = 1 TPF true negative fraction TNF = P (Y = 0 D = 0) = 1 FPF Im Deutschen sind die Begriffe Sensitivität für TPF und Spezifität für TNF üblich. Mit Hilfe der Prävalenz ρ läßt sich die Fehlklassifikationswahrscheinlichkeit bestimmen: Probleme: P (Y D) = FPF (1 ρ) + FNF ρ Die zwei Möglichkeiten für Fehlklassifikation können sehr unterschiedliche Konsequenzen haben, werden hier aber gleich behandelt Die Fehlklassifikationswahrscheinlichkeit hängt von der Prävalenz ab. Biostatistische Methoden 9 Biostatistische Methoden 10 Prädiktive Werte Idealer und nutzloser Test Alternativ lässt sich die Güte eines Tests auch über die prädiktiven Werte beschreiben: positive predictive value PPV = P (D = 1 Y = 1) negative predictive value NPV = P (D = 0 Y = 0) Prädiktive Werte werden häufig zusammen mit der Wahrscheinlichkeit für ein positives Testergebnis τ = P (Y = 1) angegeben. Beachte: Prädiktive Werte hängen von der Prävalenz ρ ab. Ein idealer, perfekter Test hat die Eigenschaften TPF = 1 und FPF = 0 bzw. PPV = NPV = 1 Ein nutzloser Test hat die Eigenschaften TPF = FPF bzw. PPV = ρ und NPV = 1 ρ Biostatistische Methoden 11 Biostatistische Methoden 12

Wahl der Parametrisierung Die gemeinsame Verteilung von D und Y kann mit drei Parametern beschrieben werden, hierbei kann sowohl (TPF, FPF, ρ) als auch (PPV, NPV, τ) verwendet werden: PPV = NPV = ρ TPF ρ TPF + (1 ρ) FPF (1 ρ) (1 FPF) (1 ρ) (1 FPF) + ρ (1 TPF) τ = ρ TPF + (1 ρ) FPF TPF = FPF = τ PPV τ PPV + (1 τ) (1 NPV) τ (1 PPV) τ (1 PPV) + (1 τ) NPV ρ = τ PPV + (1 τ) NPV Beispiel: CASS Studie D: CAD: coronary artery disease Y : EST: exercise stress test Es ergibt sich: D = 0 D = 1 Y = 0 22.3% 14.2% 36.5% Y = 1 7.8% 55.6% 63.5% 30.2% 69.8% 100% TPF = 0.797, FPF=0.259, ρ = 0.698 PPV = 0.877, NPV = 0.611, τ = 0.634 Biostatistische Methoden 13 Biostatistische Methoden 14 Likelihood-Quotienten Interpretation von Likelihood-Quotienten diagnostic likelihood ratio : DLR Man definiert: positive DLR = DLR + = negative DLR = DLR = Auch Bayes-Faktoren genannt. P (Y = 1 D = 1) P (Y = 1 D = 0) = TPF FPF P (Y = 0 D = 1) P (Y = 0 D = 0) = 1 TPF 1 FPF PPV 1 PPV = ρ DLR+ 1 ρ 1 NPV NPV = ρ DLR 1 ρ Posteriori-Odds = Likelihood-Quotient Priori-Odds DLRs quantifizieren, wie viel man durch ein Testergebnis lernt, genauer: um wieviel sich die Chance für Krankheit bei einem positivem bzw. negativem Testergebnis ändert. DLRs hängen nicht von der Prävalenz ab. Im Beispiel ergibt sich DLR + = 3.08 und DLR = 0.27 Biostatistische Methoden 15 Biostatistische Methoden 16

Datengrundlage: Schätzen der Kenngrößen D = 0 D = 1 Y = 0 n D n D n Y = 1 n + D n + D n+ n D n D ML-Schätzung der Klassifikationswahrscheinlichkeiten und der prädiktiven Werte durch übliche Anteilsschätzung: ˆπ = n 1 /(n 1 + n 2 ) = n 1 /n Bsp: TPF = n + D /n D und PPV = n + D /n+ 1. Über se(ˆπ) = 2. Über se(log ˆπ) = ˆπ (1 ˆπ) n 1 ˆπ nˆπ 3. Über se(logit ˆπ) = 1 n 1 + 1 n 2 4. Über Likelihood-Intervalle Standardfehler (wird später benötigt) 3. und 4. sind im Allgemeinen zur Berechnung von Konfidenzintervallen (KI) zu bevorzugen, wenn ˆπ nahe bei 0 bzw. 1 liegt. Biostatistische Methoden 17 Biostatistische Methoden 18 Simultane Konfidenzregion für (FPF, TPF) Gesucht ist eine simultane Konfidenzregion (KR) für das Paar (FPF, TPF) zum Niveau 1 α. Da die Schätzungen TPF und FPF unabhängig sind (sie basieren auf unterschiedlichen Daten), kann man leicht eine rechteckige KR über zwei univariate KI für TPF bzw. FPF zum Niveau 1 α mit α = 1 1 α definieren. Alternativ: Ellipsoide KR basierend auf asymptotischer Normalität. Diese sind aber schwieriger zu vermitteln. Analog: Simultane KR für prädiktive Werte. Schätzung von Likelihood-Quotienten ML-Schätzung wegen Invarianz: DLR + = TPF FPF und DLR = 1 TPF 1 FPF Standardfehler auf Log-Skala (se(log DLR ) analog): se(log DLR + ) = 1 TPF 1 FPF + n D TPF n D FPF Im Beispiel ergibt sich DLR + = 3.1 (2.6, 3.6) und DLR = 0.27 (0.24, 0.31) Biostatistische Methoden 19 Biostatistische Methoden 20

Simultane Konfidenzregionen für DLR + und DLR Schätzungen bei Fall-Kontroll-Design Problem: DLR + und DLR sind abhängig mit asymptotische Kovarianz gleich ( Cov(log DLR +, log DLR 1 ) = + 1 ) n D n D Beweis über multivariate Delta-Regel Kovarianz hängt nur vom Stichprobenumfang ab, kann zur Konstruktion von KRen basierend auf as. Normalität verwendet werden. Klassifikationswahrscheinlichkeiten und DLRs lassen sich genauso schätzen Schätzung der prädiktiven Werte ist nicht möglich, da Prävalenz unbekannt ist. Fall-Kontroll-Design kann aber bei seltenen Krankheiten deutlich effizienter sein, d.h. einen kleineren Stichprobenumfang benötigen. Rechteckige KRen sind hier wegen der Korrelation weniger geeignet. Biostatistische Methoden 21 Biostatistische Methoden 22 Vergleich der Genauigkeit von Tests In der CASS Studie wurden zwei Tests verglichen: FPF TPF EST 26% 80% CPH 55% 95% Als Maß zum Vergleich von Test A (CPH) mit Test B (EST) bieten sich relative Klassifikationswahrscheinlichkeiten an: rtpf(a, B) = TPF A /TPF B Alternative Größen zum Vergleich von Tests Absolute Differenzen: TPF(A, B) = TPF A TPF B FPF(A, B) = FPF A FPF B Odds Ratios: otpf(a, B) = TPF A (1 TPF B ) TPF B (1 TPF A ) ofpf(a, B) = analog rfpf(a, B) = FPF A /FPF B Hier ergibt sich rtpf(a, B) = 1.19 und rfpf(a, B) = 2.12. Biostatistische Methoden 23 Biostatistische Methoden 24

Vergleich von prädiktiven Werten Vergleich von Likelihood-Quotienten Die gleichen Größen lassen sich auch für prädiktive Werte definieren: rppv(a, B), oppv(a, B), rnpv(a, B), onpv(a, B) und rnpv(a, B) = (1 NPV A )/(1 NPV B ) Zum Vergleich von Likelihood-Quotienten bieten sich relative Likelihood-Quotienten an: rdlr + (A, B) = DLR + A /DLR+ B Bei geringer Prävalenz ( rare disease assumption ) gilt: rppv(a, B) oppv(a, B) rnpv(a, B) 1 rnpv(a, B) 1/oNPV(B, A) Es gilt: rdlr (A, B) = DLR A /DLR B rdlr + (A, B) = oppv(a, B) rdlr (A, B) = 1/oNPV(A, B) Biostatistische Methoden 25 Biostatistische Methoden 26 Beispiel: CASS Studie Welcher Test ist besser? Hier ist DLR + EST = 3.06, DLR+ CPH = 1.71, DLR EST DLR CPH = 0.12. Somit: rdlr + (CPH, EST) = 0.56 rdlr (CPH, EST) = 0.43 Interpretation? = 0.28 und Antwort einfach wenn sowohl rtpf(a, B) > 1 als auch rfpf(a, B) < 1, da gilt: Die folgenden Bedingungen sind äquivalent: (i) rtpf(a, B) > 1 und rfpf(a, B) < 1 (ii) rppv(a, B) > 1 und rnpv(a, B) > 1 Weiterhin folgt aus (i) (iii) rdlr + (A, B) > 1 und rdlr (A, B) < 1, der Umkehrschluss ist aber im Allgemeinen nicht gültig. Biostatistische Methoden 27 Biostatistische Methoden 28

Welcher Test ist besser? Wenn beide Dimensionen des Vergleichs nicht übereinstimmen, bietet sich ein entscheidungstheoretischer Ansatz mit erwarteten Kosten an. Beispiel: Pap smear Test und Zervikalkarzinom. Biostatistische Methoden 29