Retrospektives Studiendesign

Ähnliche Dokumente
Medizinische Biometrie (L5)

Diagnostikstudien. Dr. Dirk Hasenclever IMISE, Leipzig.

Nutzen einer diagnostischen Tests in der Praxis: prädiktive Werte

3.3.1 Referenzwerte für Fruchtwasser-Schätzvolumina ( SSW)

Medizinische Psychologie. Bewertung wissenschaftlicher Ergebnisse, Evidenzbasierte Medizin, Anwendung statistischer Information

Vorlesung - Medizinische Biometrie

Südtiroler Akademie für Allgemeinmedizin. Seminar

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

Die aktuelle S3-Leitlinie zur Diagnsotik, Therapie und Nachsorge des Ovarialkarzinoms. Diagnostik

Querschnittsbereich Epidemiologie, Med. Biometrie und Med. Informatik Diagnose und Prognose WS 06/07 Übung 5

Grundlagen der Labormedizin. Die analytische Phase

MaReCum Klausur in Biomathematik WS 2006 / 2007 Freitag, den 27. Oktober 2006

Prinzipien der klinischen Epidemiologie

Interventionsstudien

Themenblock. Diagnose und Prognose. Querschnittsbereich Epidemiologie, Med. Biometrie und Med. Informatik. Themen im Block Diagnose und Prognose

Klinische Studien IVD Erfahrungen und Fallstricke

Zur Statistik im neuen Genehmigungsantrag

Chancen und Risiken der digitalen Gesundheitsversorgung: Diagnose vor Therapie und Abwägung vor Versand

Auswertung und Lösung

Täuschung und Manipulation mit Zahlen Teil 1

Verbesserung des Tuberkulose-Screenings bei Patienten mit rheumatischen Erkrankungen vor Beginn einer Therapie mit TNFα-Blockern

Biostatistische Studienplanung. Dr. Matthias Kohl SIRS-Lab GmbH

Diagnose und Prognose: Kurzfassung 4

Inhaltsverzeichnis. Vorwort

3.4.1 Referenzwerte für das fetale Schätzgewicht in der SSW

Exakter Binomialtest als Beispiel

Biometrie im neuen Antragsverfahren

Täuschung und Manipulation mit Zahlen

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Cut-off Werte und Normwert-Tabellen zum Fragebogen zur Erfassung von DSM-IV Persönlichkeitsstörungen, ADP-IV

Aussagekraft von Anamnese, körperlicher Untersuchung und EKG in der Diagnostik der KHK. Eine systematische Übersichtsarbeit.

Ein- und Zweistichprobentests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Wie schreibe ich (m)eine Dissertation???

Grundlagen der evidenzbasierten neurologischen Rehabilitation

Kapitel VIII - Tests zum Niveau α

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Bewertung diagnostischer Tests

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Diagnostisches Testen. Coniecturalem artem esse medicinam

Übungen mit dem Applet Vergleich von zwei Mittelwerten

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

Lösungen zur Biomathe-Klausur Gruppe A Montag, den 16. Juli 2001

EINLEITUNG: EINFÜHRUNG IN WISSENSCHAFTLICHES ARBEITEN 1 WIE ENTSTEHT WISSEN? 7 METHODISCHE GRUNDLAGEN DER MEDIZINISCHEN WISSENSCHAFTEN...

8. Konfidenzintervalle und Hypothesentests

Ablaufschema beim Testen

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Grundlegende Eigenschaften von Punktschätzern

Bedingte Wahrscheinlichkeiten & Unabhängigkeit

Kapitel 5: Einfaktorielle Varianzanalyse

Unabhängigkeit KAPITEL 4

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc).

Pittfalls in der Autoimmundiagnostik. Initiiated and supported by

Epidemiologie der spezifischen Phobien

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

Querschnittsbereich Nr. 1: Epidemiologie, Medizinische Biometrie und Medizinische Informatik. Behandelt werden 4 Themenblöcke

Seminar Diagnostik L5

Ma 13 - Stochastik Schroedel Neue Wege (CON)

Evidenzbasierte Diagnostik

Multiples Testen wer hat schon immer nur eine Fragestellung?

Anhang 4. Bias durch Überdiagnose von papillären Mikrokarzinomen

Rückbildung von Aphasien und Wirkung von Sprachtherapie

Aufgaben zu Kapitel 9

Statistische Tests zu ausgewählten Problemen

Medizinische Statistik Epidemiologie und χ 2 Vierfeldertest

Chi Quadrat-Unabhängigkeitstest

Willkommen zur Vorlesung Statistik (Master)

Aufbau und Beurteilung der Prüfung (Gültig für Prüfungstermine vor dem )

Angewandte Statistik 3. Semester

Zusätzliche Behandlungs möglichkeiten für Ihre Patienten

Fragebogen Fallzahlberechnung / -begründung

Klausur in Epidemiologie SS 2006 Freitag, den 14. Juli 2006

Statistik II: Signifikanztests /1

Bitte lesen Sie die folgende Musteraufgabe konzentriert durch. Musteraufgabe I

VS PLUS

Als Krebspatient an einer Studie teilnehmen was sollte man wissen?

Experimentelle und quasiexperimentelle

Medizinische Entscheidungstheorie

Relatives Risiko (RR; relative risk, riskratio) wie OddsRatio wichtiger Kennwert in klinischer Forschung

Zusammenhangsanalyse in Kontingenztabellen

Was ist eine gute Klinische Studie - die Sicht der Statistik. Peter Martus Institut für Biometrie und Klinische Epidemiologie

Lokale Bildgebung der Prostata

Glossar Biometrie / Statistik. Auszug für Fragebogen Fallzahlberechnung/-begründung

Vektoren - Basiswechsel

1.1 Studientitel: XY 1.2 Studienleiter: XY 1.3 Medizinischer Hintergrund

kontrolliert wurden. Es erfolgte zudem kein Ausschluss einer sekundären Genese der Eisenüberladung. Erhöhte Ferritinkonzentrationen wurden in dieser S

3. Ergebnisse Ergebnisse. 3.1 MDR1-Polymorphismen

CHEMISCHES RECHNEN II ANALYT. CHEM. FÜR FORTGS

Jahrestagung refonet Methodenseminar Fehlerquellen in Studien Bias und Confounding

Studiendesign. Seminar Pflegewissenschaft Prof. Dr. U. Toellner-Bauer

Einführung in die Maximum Likelihood Methodik

Gütekriterien für evaluative Messinstrumente in der Rehabilitation

Workshop Meta-Analysen bei der Arzneimittelbewertung. 55. GMDS-Jahrestagung, Mannheim, 2010

Transkript:

Studiendesign Zielsetzungen, Studientypen Genau wie für die klassische Labordiagnostik muss auch für die Genexpressionsanalyse (und andere hochdimensionale Verfahren wie z.b. die Massenspektrometrie) vor der Routineanwendung eine wissenschaftliche Prüfung der diagnostischen Validität erbracht werden. Dies erfolgt analog zur Medikamentenprüfung in mehreren Phasen, denen jeweils spezielle Fragestellungen, Studiendesigns und Validitätsparameter zugeordnet sind. Im ersten Abschnitt gehen wir von diagnostischen Tests mit binärem Ergebnis (positiv/negativ) aus. Allerdings ist die Definition der Phasen der Prüfung von Diagnostika im Gegensatz zur Bewertung von Medikamenten noch nicht vereinheitlicht. Das hier vorgestellte Schema orientiert sich an Vorschlägen von Köbberling et al., Zhou et al. und Bossuyt et al (s.u.). Wir beziehen uns auf Genexpressionsanalysen, die Übertragung auf andere hochdimensionale Verfahren ist ohne Probleme möglich. Vor der eigentlichen klinischen Evaluierung müssen für diagnostische Verfahren Mess- Standards (vgl. Kapitel 2) definiert, die Kurz- und Langzeitreproduzierbarkeit geprüft und Normbereiche festgelegt werden. Bei Genexpressionsanalysen kommt als zusätzliche Herausforderung die Auswahl relevanter Gene und die Zusammenfassung der Einzelwerte in einen diagnostischen oder prognostischen Score (vgl. Kapitel 5) hinzu. Erst wenn diese Vorarbeiten geleistet sind, kann die Bewertung im Rahmen vergleichender Studien erfolgen. Hier unterscheidet man das retrospektive, das prospektive und das randomisierte Design. Beim retrospektiven Design werden Kranke mit einer gesunden Kontrollgruppe verglichen. Der Anteil der Kranken in der Gesamtstichprobe entspricht im allgemeinen nicht dem bei der klinischen Anwendung zu erwartenden Anteil. Aus diesem Grund können für diese Studien lediglich Sensitivität und Spezifität (vgl. Glossar), nicht aber die prädiktiven Werte geschätzt werden. Im folgenden Schema wird dieser Studientyp dargestellt: Retrospektives Studiendesign Patienten Gesunde Sensitivität Spezifität Die i.a. unrealistische Prävalenz ist nicht der einzige Mangel retrospektiver diagnostischer Studien, durch Anwendung der Bayesschen Formel könnten die Studienergebnisse sogar auf andere Prävalenzen umgerechnet werden. Problematischer ist die Tatsache, dass in diesen Studien häufig weder die Patienten noch die Gesunden repräsentativ für eine spätere klinische Anwendung sind. Wenn beispielsweise Patienten mit fortgeschrittenem Erkrankungsstadium mit völlig Gesunden verglichen werden, muss man sowohl die Überschätzung der Sensitivität als auch der Spezifität erwarten. Vorzuziehen ist das prospektive Studiendesign. Bei diesem Design werden Patienten mit Krankheitsverdacht in die Studie aufgenommen. Dann werden jeweils gegenseitig verblindet

diagnostischer Test und Goldstandard durchgeführt. Wenn die Studienpopulation wirklich repräsentativ für die spätere klinische Anwendung ist, können alle interessierenden Parameter, also Sensitivität, Spezifität und prädiktive Werte korrekt geschätzt werden: Prospektives Studiendesign Repräsentative Auswahl von Verdachtspatienten Test positive Test negative Falsch positive Richtig positive Falsch negative Richtig negative Positiver Prädiktiver Wert Sensitivität Spezifität Negativer Prädiktiver Wert Eigentliches Ziel eines neuen Diagnoseverfahrens ist es, den klinischen Outcome der Patienten durch Vermeidung von Unter- oder Übertherapie zu verbessern. Zum Nachweis ist eine randomisierte Studie mit therapeutischem Zielkriterium nötig: Ein Studienarm erhält die neue Diagnostik, der Kontrollarm wird konventionell diagnostiziert. In Abhängigkeit der gewonnenen Informationen erfolgt die Therapie in beiden Studienarmen möglichst einheitlich. Am Ende gilt die neue Diagnostik der alten gegenüber als überlegen, wenn Überlegenheit bzgl. des therapeutischen Zielkriteriums gezeigt werden kann: Randomisiertes Studiendesign Randomisierung von Verdachtspatienten Neue Diagnostik Herkömmliche Diagnostik Positiv Negativ Positiv Negativ Therapie Keine Therapie Therapie Keine Therapie Gesamtbewertung (Therapieerfolg, Toxizität) Vergleich Gesamtbewertung (Therapieerfolg, Toxizität)

Im allgemeinen wird man vor Überführung in die Routine von einem Diagnoseverfahren zumindest die prospektive Evaluierung verlangen. Randomisierte Studien mit therapeutischem Zielkriterium stellen zur Zeit noch die Ausnahme dar. Auswerteverfahren Genexpressionsmessungen führen zu quantitativen Daten, die einer Vorverarbeitung unterzogen und dann zu - ebenfalls quantitativen - Scores zusammengefasst werden. Immer dann, wenn am Ende des diagnostischen Prozesses eine Entscheidung stehen soll, müssen diese quantitativen Ergebnisse in Kategorien zusammengefasst werden (z.b. Therapie ja/nein, weitergehende Diagnostik ja/nein). Ohne diesen Schritt lassen sich aus den Messungen lediglich Wahrscheinlichkeiten für die Kategorien, nicht aber Handlungsanweisungen ableiten. Für die praktische Anwendung ist also die Festlegung von Normbereichen bzw. Schwellenwerten von entscheidender Bedeutung. Studien zur Festlegung von Normbereichen verlangen im allgemeinen sehr große Fallzahlen (Harris et al.) und werden in gesunden Referenzpopulationen durchgeführt. Mathematisch handelt es sich hier um Quantilschätzungen, die parametrisch (anhand von Verteilungsannahmen) oder nichtparametrisch erfolgen können. Für die wissenschaftliche Bewertung eines Diagnoseverfahrens kann es aber auch sinnvoll sein, zunächst auf die Kategorisierung der Ergebnisse zu verzichten. Methodischer Standard ist in dieser Situation die ROC-Analyse (Receiver Operating Characteristic), bei der für alle möglichen Schwellenwerte die Paare von Sensitivität und Spezifität bestimmt und dann grafisch dargestellt werden. Bei dieser Darstellung wird auf der x-achse die Wahrscheinlichkeit eines positiven Testergebnisses bei Kontrollen (also 1-Spezifität) und auf der y-achse die Wahrscheinlichkeit eines positiven Testergebnisses bei Kranken (also die Sensitivität) aufgetragen. % Kranke pathologisch = Sensitivität 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 % Gesunde pathologisch = 1- Spezifität Die Fläche unter dieser Kurve (AUC) wird als Prävalenz-unabhängiges Maß für die Güte des Diagnoseverfahrens verwendet. Für einen optimalen Test ist die Fläche unter der Kurve gleich 100%, für einen völlig wertlosen Test 50%. Die partielle Fläche unter der Kurve berechnet man nur für sinnvolle Kombinationen von Sensitivität und Spezifität, etwa beide > 70%.

Fallzahlschätzung Die Fallzahlschätzung für diagnostische Studien hängt von der Studienphase und dem jeweiligen Zielparameter ab. In der prospektiven und der retrospektiven Studie für ein Diagnoseverfahren will man meistens diagnostische Parameter mit einer vorgegebenen Präzision schätzen. Die folgende Tabelle gibt einige Richtwerte an. Schätzung von Sensitivität und Spezifität Erwarteter Parameterwert 0.70 0.70 0.80 0.80 0.90 0.90 Schätzgenauigkeit ± 10% ± 5% ± 10% ± 5% ± 10% ± 5% Fallzahl 84 336 64 256 36 144 Soll also beispielsweise die Sensitivität eines binären diagnostischen Tests mit 10% Genauigkeit bestimmt werden und geht man von einer Größenordnung von 80% aus, so sind dafür 64 Erkrankte notwendig. Für die Spezifität kann man dieselbe Tabelle verwenden. Soll die Spezifität eines diagnostischen Tests mit einer Genauigkeit von 5% bestimmt werden und geht man von einer Größenordnung von 90% aus, sind dafür 144 Gesunde notwendig. Werden zwei Diagnoseverfahren untereinander verglichen, sollte man falls möglich identische Probanden mit beiden Verfahren (und dem Goldstandard) untersuchen. Bei binären diagnostischen Tests kann man drei verschiedene Analysen durchführen: Vergleich der Sensitivität, der Spezifität und der Anzahl korrekter Testergebnisse insgesamt. Alle drei Analysen können mit Hilfe des Tests von Mc Nemar durchgeführt werden. Die Fallzahlbestimmung ist kompliziert, da sie nicht nur davon abhängt wie unterschiedlich die Fehlerhäufigkeiten beider Verfahren sind, sondern auch davon, ob die Fehlerursachen beider Verfahren identisch sind (hohe Korrelation) oder verschieden (niedrige Korrelation). Die Fallzahlschätzung erfolgt deswegen sinnvollerweise nicht anhand des Gesamtstichprobenumfangs sondern anhand der Zahl der Probanden, die ein unterschiedliches Testergebnis zeigen. Beispiele finden sich im Buch von Machin (Kapitel 3). Die Fallzahlschätzung für die Fläche unter einer ROC-Kurve erfolgt relativ einfach und unabhängig von Modellannahmen mit Hilfe von Formeln, die z.b. im Buch von Zhou et al angegeben sind (Kapitel 6, Formeln (6.1), (6.2)). Offensichtlich benötigt man hier Kranke und Kontrollen. Wir gehen von einem Verhältnis 1:1 aus, in der Tabelle ist die Gesamtzahl der Kranken und Gesunden angegeben.. Schätzung der Fläche unter der ROC-Kurve Erwarteter Parameterwert 0.70 0.70 0.80 0.80 0.90 0.90 Schätzgenauigkeit ± 10% ± 5% ± 10% ± 5% ± 10% ± 5% Fallzahl 104 416 76 302 40 158 Wie man deutlich erkennt, liegen die Fallzahlen etwas höher als bei der Schätzung von Sensitivität und Spezifität. Geht man z.b. davon aus, dass für ein Diagnoseverfahren die Fläche unter der ROC-Kurve etwa 80% ist und will man diese Fläche mit einer Genauigkeit von +-10% schätzen, benötigt man 38 Kranke und 38 Kontrollen. Soll eine Fläche der Größenordnung 90% mit einer Genauigkeit von +-5% geschätzt werden, müssen dagegen 79 Kranke und 79 Kontrollen in die Studie aufgenommen werden.

In der randomisierten Studie werden dieselben Methoden der Fallzahlschätzung wie bei Therapiestudien verwendet. Man will für einen vorgegebenen relevanten klinischen Unterschied die Überlegenheit des neuen Diagnoseverfahrens hinsichtlich des klinischen Outcomes der Patienten nachweisen. Die folgende Tabelle orientiert sich an den üblichen Standards für Therapiestudien (Fehler erster Art =5% zweiseitig, Fehler zweiter Art = 20%). Randomisierter Vergleich zweier Diagnoseverfahren mit therapeutischem Outcome Herkömmliche Diagnostik 50% 70% 70% 80% 80% 90% Neue Diagnostik 80% 80% 90% 90% 95% 95% Fallzahl pro Gruppe 39 294 62 199 76 435 Geht man also davon aus, dass die herkömmliche Diagnostik in 80% aller Probanden zu einem gewünschten therapeutischen Endpunkt führt, die neue dagegen in 90% aller Probanden, so werden insgesamt 2*199, also etwa 400 Probanden benötigt. Allerdings setzt dieser Vergleich ein kombiniertes Zielkriterium für therapierte und nicht therapierte Probanden voraus. Die notwendige Fallzahl kann u.u. von der Prävalenz der Erkrankung in der Studienpopulation abhängen. Zusammenfassung Die neuen, hochkomplexen Diagnoseverfahren werfen technische Probleme bei der Datenerhebung und -Weiterverarbeitung auf, die durch spezielle bioinformatische Verfahren gelöst werden können. Die abschließende Bewertung muss aber nach denselben biometrischen Prinzipien erfolgen, die auch auf klassische Diagnoseverfahren angewendet werden. Glossar Bayessche Formel: Mathematische Formel, die es erlaubt, aus Sensitivität, Spezifität und Prävalenz prädiktive Werte zu berechnen. Goldstandard: Das beste zur Verfügung stehendediagnoseverfahren, dessen Ergebnisse als korrekt angenommen werden. Bei manchen Erkrankungen ist der Goldstandard so fehleranfällig, dass der tatsächliche Erkrankungszustand erst nachträglich im klinischen Verlauf bestimmt werden kann. Negativer Prädiktiver Wert (abhängig von der Prävalenz): Wahrscheinlichkeit, dass ein Testnegativer tatsächlich gesund ist = Anteil richtig Negative / Negative Parameter, diagnostischer: Überbegriff für Sensitivität, Spezifität, prädiktive Werte Positiver Prädiktiver Wert (abhängig von der Prävalenz): Wahrscheinlichkeit, dass ein Testpositiver tatsächlich krank ist = Anteil richtig Positive / Positive ROC-Kurve: Grafische Darstellung von Sensitivität und Spezifität für variable Schwellenwerte bei quantitatitiv oder ordinal skalierten diagnostischen Verfahren Prävalenz: Anteil der Kranken in der Population Sensitivität: Wahrscheinlichkeit, einen Kranken als krank zu erkennen = Anteil richtig Positive/ Kranke Spezifität: Wahrscheinlichkeit, einen Gesunden als gesund zu erkennen = Anteil richtig Negative/ Gesunde Referenzen Bossuyt PM + 10 weitere Autoren. Towards Complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. Annals of Internal Medicine 138:40-45 (2003) Harris EK, Boyd JC. Statistical Bases of Reference Values in Laboratory Medicine. Marcel Dekker 1995. Köbberling J., Trampisch H-J, Richter K, Windeler J. Methodologie der medizinischen Diagnostik. Springer 1991 (vergriffen). Machin D, Campbell M, Fayers P, Pinol A. Sample size tables for clinical studies (2nd ed.), Blackwell 1997. Zhou X-H, Obuchowski NA, McClish DK. Statistical Methods in Diagnostic Medicine. Wiley, 2002.