2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns



Ähnliche Dokumente
Vorlesung - Medizinische Biometrie

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Statistik II für Betriebswirte Vorlesung 2

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Tutorial: Homogenitätstest

9. Schätzen und Testen bei unbekannter Varianz

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Zeichen bei Zahlen entschlüsseln

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Die Invaliden-Versicherung ändert sich

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Der Provider möchte möglichst vermeiden, dass die Werbekampagne auf Grund des Testergebnisses irrtümlich unterlassen wird.

Technische Analyse der Zukunft

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Die Post hat eine Umfrage gemacht

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Algorithmen und Datenstrukturen

W-Rechnung und Statistik für Ingenieure Übung 11

Professionelle Seminare im Bereich MS-Office

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

4. Mathematik Olympiade 2. Stufe (Kreisolympiade) Klasse 8 Saison 1964/1965 Aufgaben und Lösungen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Theoretische Grundlagen der Informatik WS 09/10

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Statistische Thermodynamik I Lösungen zur Serie 1

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

WAS finde ich WO im Beipackzettel

Wurzeln als Potenzen mit gebrochenen Exponenten. Vorkurs, Mathematik

Der HIV-Antikörper-Schnelltest aus Sicht des Labormediziners. Dr. Thomas Berg, Berlin

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Stichprobenauslegung. für stetige und binäre Datentypen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Lichtbrechung an Linsen

Die Größe von Flächen vergleichen

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

Übungen Programmieren 1 Felix Rohrer. Übungen

Korrelation (II) Korrelation und Kausalität

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Windows XP Jugendschutz einrichten. Monika Pross Molberger PC-Kurse

Was meinen die Leute eigentlich mit: Grexit?

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

Die Gesellschaftsformen

Repetitionsaufgaben Wurzelgleichungen

Behindert ist, wer behindert wird

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Geld Verdienen im Internet leicht gemacht

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen!

Lineare Gleichungssysteme

Übung Grundlagen der Programmierung. Übung 03: Schleifen. Testplan Testergebnisse

3. LINEARE GLEICHUNGSSYSTEME

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Lösungshinweise zur Einsendearbeit 2 SS 2011

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Inventur. mit Microsoft Dynamics NAV 2013 R2

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Data Mining: Einige Grundlagen aus der Stochastik

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Musterlösungen zur Linearen Algebra II Blatt 5

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Informationsblatt Induktionsbeweis

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Step by Step Webserver unter Windows Server von Christian Bartl

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

4. Übungsblatt Matrikelnr.:

Abitur 2007 Mathematik GK Stochastik Aufgabe C1

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Anleitung Typo3-Extension - Raumbuchungssystem

How to do? Projekte - Zeiterfassung

Erfahrungen mit Hartz IV- Empfängern

QM: Prüfen -1- KN

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Präsentation vom im Rahmen der Fachberatertagung der Unfallkasse NRW in Haltern.

Aufgabe 1 Berechne den Gesamtwiderstand dieses einfachen Netzwerkes. Lösung Innerhalb dieser Schaltung sind alle Widerstände in Reihe geschaltet.

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Grundbegriffe der Informatik

Überblick über die Verfahren für Ordinaldaten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Elexis-BlueEvidence-Connector

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER


Info-Veranstaltung zur Erstellung von Zertifikaten

WINDOWS 10 Upgrade. Beispiel: Desktop-Ausschnitt von vorhandenem WIN 8.1 (rechte Ecke der Taskleiste)

Richtlinie zur Feststellung und Überwachung des PRRS-Status von Schweinebeständen (PRRS-Richtlinie) Rd. Erl. des MLU vom 27.

Transkript:

2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs durch Mammographie Prognosestudien prognostische Faktoren In gewissem Sinne Spezialfall einer Diagnosestudie Beispiel: Prognose ob ein Patient bei vorliegenden klinischen Daten in einem definierten Zeitraum stationär behandelt werden muss. Skalentyp des Testergebnisses Auswahl der Studienteilnehmer Vergleich von diagnostischen Tests Test Integrität Screening: Population wird mit kostengünstigem diagnostischen Test untersucht, Bsp.: Pap smear screening. Biostatistische Methoden 1 Biostatistische Methoden 2 Skalentyp des Testergebnisses Auswahl der Studienteilnehmer Typischerweise binär, ordinal oder stetig nicht-binäre Skalen werden häufig mit einem Schwellenwert in zwei Kategorien eingeteilt. Fall-Kontroll-Design : Eine feste Anzahl von kranken und gesunden Personen wird mit diagnostischem Test untersucht Kohorten-Design : Eine Gruppe von Personen wird mit Test untersucht, gleichzeitig wird wahrer Krankheitszustand durch gold standard definite test, kurz Gold Standard erhoben ( ascertainment, Verifikation) Es gibt weitere Varianten, z.b. wiederholte Anwendung eines diagnostischen Tests und Verifikation nur dann, wenn mindestens ein Testergebnis positiv war. Biostatistische Methoden 3 Biostatistische Methoden 4

Vergleich von zwei Tests Test Integrität Verbundene Stichproben: Anwendung beider Tests auf jeden Studienteilnehmer Unverbundene Stichproben: Jeder Teilnehmer wird nur mit einem Test untersucht. Kenntnis des wahren Krankheitsstatus darf nicht das Testergebnis beeinflussen. Beispiel: Radiologe beurteilt Röntgenbild von Patientinnen, von denen er weiss dass sie Brustkerbs haben. Abhilfe: Verblindete Studien: Person, die den Test durchführt, kennt Krankheitsstatus nicht. Person, die den wahren Status ermittelt, kennt Testergebnis nicht. Biostatistische Methoden 5 Biostatistische Methoden 6 Beispiel: CASS Studie 2.1 Einfache Verfahren bei binären Tests CASS: coronary artery surgery study exercise stress test (EST) und chest pain history (CPH) bei 1465 Männern mit möglicher Herzerkrankung. Gebundene Stichprobe. Arteriographie: Gold Standard Kohortenstudie, wobei bestimmte Einschlußkriterien gelten müssen. Notation: Y = D = { 1 disease 0 non-disease { 1 test positive for disease 0 test negative for disease D = 0 D = 1 Y = 0 True negative False negative Y = 1 False positive True positive Biostatistische Methoden 7 Biostatistische Methoden 8

Klassifikationswahrscheinlichkeiten Fehlklassifikationswahrscheinlichkeit Man definiert nun (oft auch als Raten bezeichnet): false positive fraction FPF = P (Y = 1 D = 0) true positive fraction TPF = P (Y = 1 D = 1) false negative fraction FNF = P (Y = 0 D = 1) = 1 TPF true negative fraction TNF = P (Y = 0 D = 0) = 1 FPF Im Deutschen sind die Begriffe Sensitivität für TPF und Spezifität für TNF üblich. Mit Hilfe der Prävalenz ρ läßt sich die Fehlklassifikationswahrscheinlichkeit bestimmen: Probleme: P (Y D) = FPF (1 ρ) + FNF ρ Die zwei Möglichkeiten für Fehlklassifikation können sehr unterschiedliche Konsequenzen haben, werden hier aber gleich behandelt Die Fehlklassifikationswahrscheinlichkeit hängt von der Prävalenz ab. Biostatistische Methoden 9 Biostatistische Methoden 10 Prädiktive Werte Idealer und nutzloser Test Alternativ lässt sich die Güte eines Tests auch über die prädiktiven Werte beschreiben: positive predictive value PPV = P (D = 1 Y = 1) negative predictive value NPV = P (D = 0 Y = 0) Prädiktive Werte werden häufig zusammen mit der Wahrscheinlichkeit für ein positives Testergebnis τ = P (Y = 1) angegeben. Beachte: Prädiktive Werte hängen von der Prävalenz ρ ab. Ein idealer, perfekter Test hat die Eigenschaften TPF = 1 und FPF = 0 bzw. PPV = NPV = 1 Ein nutzloser Test hat die Eigenschaften TPF = FPF bzw. PPV = ρ und NPV = 1 ρ Biostatistische Methoden 11 Biostatistische Methoden 12

Wahl der Parametrisierung Die gemeinsame Verteilung von D und Y kann mit drei Parametern beschrieben werden, hierbei kann sowohl (TPF, FPF, ρ) als auch (PPV, NPV, τ) verwendet werden: PPV = NPV = ρ TPF ρ TPF + (1 ρ) FPF (1 ρ) (1 FPF) (1 ρ) (1 FPF) + ρ (1 TPF) τ = ρ TPF + (1 ρ) FPF TPF = FPF = τ PPV τ PPV + (1 τ) (1 NPV) τ (1 PPV) τ (1 PPV) + (1 τ) NPV ρ = τ PPV + (1 τ) NPV Beispiel: CASS Studie D: CAD: coronary artery disease Y : EST: exercise stress test Es ergibt sich: D = 0 D = 1 Y = 0 22.3% 14.2% 36.5% Y = 1 7.8% 55.6% 63.5% 30.2% 69.8% 100% TPF = 0.797, FPF=0.259, ρ = 0.698 PPV = 0.877, NPV = 0.611, τ = 0.634 Biostatistische Methoden 13 Biostatistische Methoden 14 Likelihood-Quotienten Interpretation von Likelihood-Quotienten diagnostic likelihood ratio : DLR Man definiert: positive DLR = DLR + = negative DLR = DLR = Auch Bayes-Faktoren genannt. P (Y = 1 D = 1) P (Y = 1 D = 0) = TPF FPF P (Y = 0 D = 1) P (Y = 0 D = 0) = 1 TPF 1 FPF PPV 1 PPV = ρ DLR+ 1 ρ 1 NPV NPV = ρ DLR 1 ρ Posteriori-Odds = Likelihood-Quotient Priori-Odds DLRs quantifizieren, wie viel man durch ein Testergebnis lernt, genauer: um wieviel sich die Chance für Krankheit bei einem positivem bzw. negativem Testergebnis ändert. DLRs hängen nicht von der Prävalenz ab. Im Beispiel ergibt sich DLR + = 3.08 und DLR = 0.27 Biostatistische Methoden 15 Biostatistische Methoden 16

Datengrundlage: Schätzen der Kenngrößen D = 0 D = 1 Y = 0 n D n D n Y = 1 n + D n + D n+ n D n D ML-Schätzung der Klassifikationswahrscheinlichkeiten und der prädiktiven Werte durch übliche Anteilsschätzung: ˆπ = n 1 /(n 1 + n 2 ) = n 1 /n Bsp: TPF = n + D /n D und PPV = n + D /n+ 1. Über se(ˆπ) = 2. Über se(log ˆπ) = ˆπ (1 ˆπ) n 1 ˆπ nˆπ 3. Über se(logit ˆπ) = 1 n 1 + 1 n 2 4. Über Likelihood-Intervalle Standardfehler (wird später benötigt) 3. und 4. sind im Allgemeinen zur Berechnung von Konfidenzintervallen (KI) zu bevorzugen, wenn ˆπ nahe bei 0 bzw. 1 liegt. Biostatistische Methoden 17 Biostatistische Methoden 18 Simultane Konfidenzregion für (FPF, TPF) Gesucht ist eine simultane Konfidenzregion (KR) für das Paar (FPF, TPF) zum Niveau 1 α. Da die Schätzungen TPF und FPF unabhängig sind (sie basieren auf unterschiedlichen Daten), kann man leicht eine rechteckige KR über zwei univariate KI für TPF bzw. FPF zum Niveau 1 α mit α = 1 1 α definieren. Alternativ: Ellipsoide KR basierend auf asymptotischer Normalität. Diese sind aber schwieriger zu vermitteln. Analog: Simultane KR für prädiktive Werte. Schätzung von Likelihood-Quotienten ML-Schätzung wegen Invarianz: DLR + = TPF FPF und DLR = 1 TPF 1 FPF Standardfehler auf Log-Skala (se(log DLR ) analog): se(log DLR + ) = 1 TPF 1 FPF + n D TPF n D FPF Im Beispiel ergibt sich DLR + = 3.1 (2.6, 3.6) und DLR = 0.27 (0.24, 0.31) Biostatistische Methoden 19 Biostatistische Methoden 20

Simultane Konfidenzregionen für DLR + und DLR Schätzungen bei Fall-Kontroll-Design Problem: DLR + und DLR sind abhängig mit asymptotische Kovarianz gleich ( Cov(log DLR +, log DLR 1 ) = + 1 ) n D n D Beweis über multivariate Delta-Regel Kovarianz hängt nur vom Stichprobenumfang ab, kann zur Konstruktion von KRen basierend auf as. Normalität verwendet werden. Klassifikationswahrscheinlichkeiten und DLRs lassen sich genauso schätzen Schätzung der prädiktiven Werte ist nicht möglich, da Prävalenz unbekannt ist. Fall-Kontroll-Design kann aber bei seltenen Krankheiten deutlich effizienter sein, d.h. einen kleineren Stichprobenumfang benötigen. Rechteckige KRen sind hier wegen der Korrelation weniger geeignet. Biostatistische Methoden 21 Biostatistische Methoden 22 Vergleich der Genauigkeit von Tests In der CASS Studie wurden zwei Tests verglichen: FPF TPF EST 26% 80% CPH 55% 95% Als Maß zum Vergleich von Test A (CPH) mit Test B (EST) bieten sich relative Klassifikationswahrscheinlichkeiten an: rtpf(a, B) = TPF A /TPF B Alternative Größen zum Vergleich von Tests Absolute Differenzen: TPF(A, B) = TPF A TPF B FPF(A, B) = FPF A FPF B Odds Ratios: otpf(a, B) = TPF A (1 TPF B ) TPF B (1 TPF A ) ofpf(a, B) = analog rfpf(a, B) = FPF A /FPF B Hier ergibt sich rtpf(a, B) = 1.19 und rfpf(a, B) = 2.12. Biostatistische Methoden 23 Biostatistische Methoden 24

Vergleich von prädiktiven Werten Vergleich von Likelihood-Quotienten Die gleichen Größen lassen sich auch für prädiktive Werte definieren: rppv(a, B), oppv(a, B), rnpv(a, B), onpv(a, B) und rnpv(a, B) = (1 NPV A )/(1 NPV B ) Zum Vergleich von Likelihood-Quotienten bieten sich relative Likelihood-Quotienten an: rdlr + (A, B) = DLR + A /DLR+ B Bei geringer Prävalenz ( rare disease assumption ) gilt: rppv(a, B) oppv(a, B) rnpv(a, B) 1 rnpv(a, B) 1/oNPV(B, A) Es gilt: rdlr (A, B) = DLR A /DLR B rdlr + (A, B) = oppv(a, B) rdlr (A, B) = 1/oNPV(A, B) Biostatistische Methoden 25 Biostatistische Methoden 26 Beispiel: CASS Studie Welcher Test ist besser? Hier ist DLR + EST = 3.06, DLR+ CPH = 1.71, DLR EST DLR CPH = 0.12. Somit: rdlr + (CPH, EST) = 0.56 rdlr (CPH, EST) = 0.43 Interpretation? = 0.28 und Antwort einfach wenn sowohl rtpf(a, B) > 1 als auch rfpf(a, B) < 1, da gilt: Die folgenden Bedingungen sind äquivalent: (i) rtpf(a, B) > 1 und rfpf(a, B) < 1 (ii) rppv(a, B) > 1 und rnpv(a, B) > 1 Weiterhin folgt aus (i) (iii) rdlr + (A, B) > 1 und rdlr (A, B) < 1, der Umkehrschluss ist aber im Allgemeinen nicht gültig. Biostatistische Methoden 27 Biostatistische Methoden 28

Welcher Test ist besser? Wenn beide Dimensionen des Vergleichs nicht übereinstimmen, bietet sich ein entscheidungstheoretischer Ansatz mit erwarteten Kosten an. Beispiel: Pap smear Test und Zervikalkarzinom. Biostatistische Methoden 29