Studiendesign Zielsetzungen, Studientypen Genau wie für die klassische Labordiagnostik muss auch für die Genexpressionsanalyse (und andere hochdimensionale Verfahren wie z.b. die Massenspektrometrie) vor der Routineanwendung eine wissenschaftliche Prüfung der diagnostischen Validität erbracht werden. Dies erfolgt analog zur Medikamentenprüfung in mehreren Phasen, denen jeweils spezielle Fragestellungen, Studiendesigns und Validitätsparameter zugeordnet sind. Im ersten Abschnitt gehen wir von diagnostischen Tests mit binärem Ergebnis (positiv/negativ) aus. Allerdings ist die Definition der Phasen der Prüfung von Diagnostika im Gegensatz zur Bewertung von Medikamenten noch nicht vereinheitlicht. Das hier vorgestellte Schema orientiert sich an Vorschlägen von Köbberling et al., Zhou et al. und Bossuyt et al (s.u.). Wir beziehen uns auf Genexpressionsanalysen, die Übertragung auf andere hochdimensionale Verfahren ist ohne Probleme möglich. Vor der eigentlichen klinischen Evaluierung müssen für diagnostische Verfahren Mess- Standards (vgl. Kapitel 2) definiert, die Kurz- und Langzeitreproduzierbarkeit geprüft und Normbereiche festgelegt werden. Bei Genexpressionsanalysen kommt als zusätzliche Herausforderung die Auswahl relevanter Gene und die Zusammenfassung der Einzelwerte in einen diagnostischen oder prognostischen Score (vgl. Kapitel 5) hinzu. Erst wenn diese Vorarbeiten geleistet sind, kann die Bewertung im Rahmen vergleichender Studien erfolgen. Hier unterscheidet man das retrospektive, das prospektive und das randomisierte Design. Beim retrospektiven Design werden Kranke mit einer gesunden Kontrollgruppe verglichen. Der Anteil der Kranken in der Gesamtstichprobe entspricht im allgemeinen nicht dem bei der klinischen Anwendung zu erwartenden Anteil. Aus diesem Grund können für diese Studien lediglich Sensitivität und Spezifität (vgl. Glossar), nicht aber die prädiktiven Werte geschätzt werden. Im folgenden Schema wird dieser Studientyp dargestellt: Retrospektives Studiendesign Patienten Gesunde Sensitivität Spezifität Die i.a. unrealistische Prävalenz ist nicht der einzige Mangel retrospektiver diagnostischer Studien, durch Anwendung der Bayesschen Formel könnten die Studienergebnisse sogar auf andere Prävalenzen umgerechnet werden. Problematischer ist die Tatsache, dass in diesen Studien häufig weder die Patienten noch die Gesunden repräsentativ für eine spätere klinische Anwendung sind. Wenn beispielsweise Patienten mit fortgeschrittenem Erkrankungsstadium mit völlig Gesunden verglichen werden, muss man sowohl die Überschätzung der Sensitivität als auch der Spezifität erwarten. Vorzuziehen ist das prospektive Studiendesign. Bei diesem Design werden Patienten mit Krankheitsverdacht in die Studie aufgenommen. Dann werden jeweils gegenseitig verblindet
diagnostischer Test und Goldstandard durchgeführt. Wenn die Studienpopulation wirklich repräsentativ für die spätere klinische Anwendung ist, können alle interessierenden Parameter, also Sensitivität, Spezifität und prädiktive Werte korrekt geschätzt werden: Prospektives Studiendesign Repräsentative Auswahl von Verdachtspatienten Test positive Test negative Falsch positive Richtig positive Falsch negative Richtig negative Positiver Prädiktiver Wert Sensitivität Spezifität Negativer Prädiktiver Wert Eigentliches Ziel eines neuen Diagnoseverfahrens ist es, den klinischen Outcome der Patienten durch Vermeidung von Unter- oder Übertherapie zu verbessern. Zum Nachweis ist eine randomisierte Studie mit therapeutischem Zielkriterium nötig: Ein Studienarm erhält die neue Diagnostik, der Kontrollarm wird konventionell diagnostiziert. In Abhängigkeit der gewonnenen Informationen erfolgt die Therapie in beiden Studienarmen möglichst einheitlich. Am Ende gilt die neue Diagnostik der alten gegenüber als überlegen, wenn Überlegenheit bzgl. des therapeutischen Zielkriteriums gezeigt werden kann: Randomisiertes Studiendesign Randomisierung von Verdachtspatienten Neue Diagnostik Herkömmliche Diagnostik Positiv Negativ Positiv Negativ Therapie Keine Therapie Therapie Keine Therapie Gesamtbewertung (Therapieerfolg, Toxizität) Vergleich Gesamtbewertung (Therapieerfolg, Toxizität)
Im allgemeinen wird man vor Überführung in die Routine von einem Diagnoseverfahren zumindest die prospektive Evaluierung verlangen. Randomisierte Studien mit therapeutischem Zielkriterium stellen zur Zeit noch die Ausnahme dar. Auswerteverfahren Genexpressionsmessungen führen zu quantitativen Daten, die einer Vorverarbeitung unterzogen und dann zu - ebenfalls quantitativen - Scores zusammengefasst werden. Immer dann, wenn am Ende des diagnostischen Prozesses eine Entscheidung stehen soll, müssen diese quantitativen Ergebnisse in Kategorien zusammengefasst werden (z.b. Therapie ja/nein, weitergehende Diagnostik ja/nein). Ohne diesen Schritt lassen sich aus den Messungen lediglich Wahrscheinlichkeiten für die Kategorien, nicht aber Handlungsanweisungen ableiten. Für die praktische Anwendung ist also die Festlegung von Normbereichen bzw. Schwellenwerten von entscheidender Bedeutung. Studien zur Festlegung von Normbereichen verlangen im allgemeinen sehr große Fallzahlen (Harris et al.) und werden in gesunden Referenzpopulationen durchgeführt. Mathematisch handelt es sich hier um Quantilschätzungen, die parametrisch (anhand von Verteilungsannahmen) oder nichtparametrisch erfolgen können. Für die wissenschaftliche Bewertung eines Diagnoseverfahrens kann es aber auch sinnvoll sein, zunächst auf die Kategorisierung der Ergebnisse zu verzichten. Methodischer Standard ist in dieser Situation die ROC-Analyse (Receiver Operating Characteristic), bei der für alle möglichen Schwellenwerte die Paare von Sensitivität und Spezifität bestimmt und dann grafisch dargestellt werden. Bei dieser Darstellung wird auf der x-achse die Wahrscheinlichkeit eines positiven Testergebnisses bei Kontrollen (also 1-Spezifität) und auf der y-achse die Wahrscheinlichkeit eines positiven Testergebnisses bei Kranken (also die Sensitivität) aufgetragen. % Kranke pathologisch = Sensitivität 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 % Gesunde pathologisch = 1- Spezifität Die Fläche unter dieser Kurve (AUC) wird als Prävalenz-unabhängiges Maß für die Güte des Diagnoseverfahrens verwendet. Für einen optimalen Test ist die Fläche unter der Kurve gleich 100%, für einen völlig wertlosen Test 50%. Die partielle Fläche unter der Kurve berechnet man nur für sinnvolle Kombinationen von Sensitivität und Spezifität, etwa beide > 70%.
Fallzahlschätzung Die Fallzahlschätzung für diagnostische Studien hängt von der Studienphase und dem jeweiligen Zielparameter ab. In der prospektiven und der retrospektiven Studie für ein Diagnoseverfahren will man meistens diagnostische Parameter mit einer vorgegebenen Präzision schätzen. Die folgende Tabelle gibt einige Richtwerte an. Schätzung von Sensitivität und Spezifität Erwarteter Parameterwert 0.70 0.70 0.80 0.80 0.90 0.90 Schätzgenauigkeit ± 10% ± 5% ± 10% ± 5% ± 10% ± 5% Fallzahl 84 336 64 256 36 144 Soll also beispielsweise die Sensitivität eines binären diagnostischen Tests mit 10% Genauigkeit bestimmt werden und geht man von einer Größenordnung von 80% aus, so sind dafür 64 Erkrankte notwendig. Für die Spezifität kann man dieselbe Tabelle verwenden. Soll die Spezifität eines diagnostischen Tests mit einer Genauigkeit von 5% bestimmt werden und geht man von einer Größenordnung von 90% aus, sind dafür 144 Gesunde notwendig. Werden zwei Diagnoseverfahren untereinander verglichen, sollte man falls möglich identische Probanden mit beiden Verfahren (und dem Goldstandard) untersuchen. Bei binären diagnostischen Tests kann man drei verschiedene Analysen durchführen: Vergleich der Sensitivität, der Spezifität und der Anzahl korrekter Testergebnisse insgesamt. Alle drei Analysen können mit Hilfe des Tests von Mc Nemar durchgeführt werden. Die Fallzahlbestimmung ist kompliziert, da sie nicht nur davon abhängt wie unterschiedlich die Fehlerhäufigkeiten beider Verfahren sind, sondern auch davon, ob die Fehlerursachen beider Verfahren identisch sind (hohe Korrelation) oder verschieden (niedrige Korrelation). Die Fallzahlschätzung erfolgt deswegen sinnvollerweise nicht anhand des Gesamtstichprobenumfangs sondern anhand der Zahl der Probanden, die ein unterschiedliches Testergebnis zeigen. Beispiele finden sich im Buch von Machin (Kapitel 3). Die Fallzahlschätzung für die Fläche unter einer ROC-Kurve erfolgt relativ einfach und unabhängig von Modellannahmen mit Hilfe von Formeln, die z.b. im Buch von Zhou et al angegeben sind (Kapitel 6, Formeln (6.1), (6.2)). Offensichtlich benötigt man hier Kranke und Kontrollen. Wir gehen von einem Verhältnis 1:1 aus, in der Tabelle ist die Gesamtzahl der Kranken und Gesunden angegeben.. Schätzung der Fläche unter der ROC-Kurve Erwarteter Parameterwert 0.70 0.70 0.80 0.80 0.90 0.90 Schätzgenauigkeit ± 10% ± 5% ± 10% ± 5% ± 10% ± 5% Fallzahl 104 416 76 302 40 158 Wie man deutlich erkennt, liegen die Fallzahlen etwas höher als bei der Schätzung von Sensitivität und Spezifität. Geht man z.b. davon aus, dass für ein Diagnoseverfahren die Fläche unter der ROC-Kurve etwa 80% ist und will man diese Fläche mit einer Genauigkeit von +-10% schätzen, benötigt man 38 Kranke und 38 Kontrollen. Soll eine Fläche der Größenordnung 90% mit einer Genauigkeit von +-5% geschätzt werden, müssen dagegen 79 Kranke und 79 Kontrollen in die Studie aufgenommen werden.
In der randomisierten Studie werden dieselben Methoden der Fallzahlschätzung wie bei Therapiestudien verwendet. Man will für einen vorgegebenen relevanten klinischen Unterschied die Überlegenheit des neuen Diagnoseverfahrens hinsichtlich des klinischen Outcomes der Patienten nachweisen. Die folgende Tabelle orientiert sich an den üblichen Standards für Therapiestudien (Fehler erster Art =5% zweiseitig, Fehler zweiter Art = 20%). Randomisierter Vergleich zweier Diagnoseverfahren mit therapeutischem Outcome Herkömmliche Diagnostik 50% 70% 70% 80% 80% 90% Neue Diagnostik 80% 80% 90% 90% 95% 95% Fallzahl pro Gruppe 39 294 62 199 76 435 Geht man also davon aus, dass die herkömmliche Diagnostik in 80% aller Probanden zu einem gewünschten therapeutischen Endpunkt führt, die neue dagegen in 90% aller Probanden, so werden insgesamt 2*199, also etwa 400 Probanden benötigt. Allerdings setzt dieser Vergleich ein kombiniertes Zielkriterium für therapierte und nicht therapierte Probanden voraus. Die notwendige Fallzahl kann u.u. von der Prävalenz der Erkrankung in der Studienpopulation abhängen. Zusammenfassung Die neuen, hochkomplexen Diagnoseverfahren werfen technische Probleme bei der Datenerhebung und -Weiterverarbeitung auf, die durch spezielle bioinformatische Verfahren gelöst werden können. Die abschließende Bewertung muss aber nach denselben biometrischen Prinzipien erfolgen, die auch auf klassische Diagnoseverfahren angewendet werden. Glossar Bayessche Formel: Mathematische Formel, die es erlaubt, aus Sensitivität, Spezifität und Prävalenz prädiktive Werte zu berechnen. Goldstandard: Das beste zur Verfügung stehendediagnoseverfahren, dessen Ergebnisse als korrekt angenommen werden. Bei manchen Erkrankungen ist der Goldstandard so fehleranfällig, dass der tatsächliche Erkrankungszustand erst nachträglich im klinischen Verlauf bestimmt werden kann. Negativer Prädiktiver Wert (abhängig von der Prävalenz): Wahrscheinlichkeit, dass ein Testnegativer tatsächlich gesund ist = Anteil richtig Negative / Negative Parameter, diagnostischer: Überbegriff für Sensitivität, Spezifität, prädiktive Werte Positiver Prädiktiver Wert (abhängig von der Prävalenz): Wahrscheinlichkeit, dass ein Testpositiver tatsächlich krank ist = Anteil richtig Positive / Positive ROC-Kurve: Grafische Darstellung von Sensitivität und Spezifität für variable Schwellenwerte bei quantitatitiv oder ordinal skalierten diagnostischen Verfahren Prävalenz: Anteil der Kranken in der Population Sensitivität: Wahrscheinlichkeit, einen Kranken als krank zu erkennen = Anteil richtig Positive/ Kranke Spezifität: Wahrscheinlichkeit, einen Gesunden als gesund zu erkennen = Anteil richtig Negative/ Gesunde Referenzen Bossuyt PM + 10 weitere Autoren. Towards Complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. Annals of Internal Medicine 138:40-45 (2003) Harris EK, Boyd JC. Statistical Bases of Reference Values in Laboratory Medicine. Marcel Dekker 1995. Köbberling J., Trampisch H-J, Richter K, Windeler J. Methodologie der medizinischen Diagnostik. Springer 1991 (vergriffen). Machin D, Campbell M, Fayers P, Pinol A. Sample size tables for clinical studies (2nd ed.), Blackwell 1997. Zhou X-H, Obuchowski NA, McClish DK. Statistical Methods in Diagnostic Medicine. Wiley, 2002.