Teil 26 der Serie zur Bewertung wissenschaftlicher Publikationen

Transkript

1 Übersichtsarbeit Studienplanung und -auswertung nach dem Stepped-Wedge-Design Teil 6 der Serie zur Bewertung wissenschaftlicher Publikationen Stefan Wellek, Norbert Donner-Banzhoff, Jochem önig, Philipp Mildenberger, Maria Blettner nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz; Abteilung Biostatistik, Zentralinstitut für Seelische Gesundheit, Universitäts - medizin Mannheim, Universität Heidelberg: Prof. Dr. rer. nat. Stefan Wellek Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin, Philipps- Universität Marburg: Prof. Dr. med. Norbert Donner- Banzhoff, MHSc nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz: Dr. sc. hum. Jochem önig nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz: Philipp Mildenberger, MSc nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz: Prof. Dr. rer. nat. Maria Blettner Zusammenfassung Hintergrund: Das Stepped-Wedge-Design (SWD) ist in den letzten Jahren ausgesprochen populär geworden, insbesondere in der Versorgungsforschung. Die randomisierte Zuweisung zu den Behandlungsoptionen erfolgt typischerweise in Gruppen (Clustern). Methoden: Es erfolgte eine selektive Literaturrecherche in PubMed sowie der statistischen Literaturdatenbank CS. Die Grundprinzipien und die statistischen Verfahren werden vorgestellt. Ergebnisse: m Standardfall einer SWD-Studie wird mit der ntervention zu einem von Cluster zu Cluster variierenden Zeitpunkt begonnen. Bis zu diesem Zeitpunkt befinden sich alle Probanden der jeweiligen Gruppe im ontrollarm. Nach Eintritt in die nterventionsgruppe wird die ntervention bis zum Ende der Laufzeit des Studienprojekts unverändert weitergeführt. Der Startzeitpunkt für die ntervention wird für jedes Cluster mittels Randomisierung festgelegt. Zum ersten Messzeitpunkt erfolgt in keinem Cluster eine ntervention, zum letzten wird die ntervention in allen Clustern durchgeführt. Der Therapieeffekt kann unter Berücksichtigung einer zwischen allen Zeitpunkten als identisch angenommenen orrelation optimal geschätzt werden. Für den zugehörigen Signifikanztest existiert ein Verfahren für die Berechnung der Power beziehungsweise der benötigten Anzahl von Clustern. Alle dargestellten statistischen Verfahren basieren auf der Voraussetzung, dass die Clustermittelwerte normalverteilt sind und dass der Effekt der ntervention über alle Messzeitpunkte hinweg konstant bleibt. Schlussfolgerungen: Für die Planung und Auswertung von SWD-Studien stehen die erforderlichen statistischen Werkzeuge zur Verfügung. Dennoch ist ein entsprechendes Studienprojekt mit erheblichen Risiken behaftet, da valide Ergebnisse nur zu erhalten sind, wenn weitreichende Modellannahmen erfüllt sind. Zitierweise Wellek S, Donner-Banzhoff N, önig J, Mildenberger P, Blettner M: Planning and analysis of trials using a stepped wedge design part 6 of a series on evaluation of scientific publications. Dtsch Arztebl nt 9; 6: 8. DO:.8/arztebl.9. Die Bedeutung des Prinzips der Randomisierung zum Vergleich von Therapien und nterventionen ist in der medizinischen Forschung weiterhin unumstritten und randomisierte kontrollierte Studien (RCT) sind als Goldstandard anerkannt. Aus praktischen Erwägungen wurden neben dem klassischen Design unterschiedliche Varianten entwickelt, darunter die sogenannte clusterrandomisierte Studie und das Stepped -Wedge-Design (SWD). Beim clusterrandomisierten Parallelgruppendesign dem vorherrschenden Design für clusterrandomisierte Studien wird die zufällige Zuteilung der ntervention nicht mehr für einzelne ndividuen, sondern für eine Gruppe von ndividuen (etwa in Arztpraxen, Schulklassen, Regionen) vorgenommen. Diese Gruppen werden im Allgemeinen und auch im Folgenden als Cluster bezeichnet. Grundprinzip, Modellvoraussetzungen und Schätzung des Behandlungseffekts Beim SWD werden alle ndividuen oder Cluster zunächst eine Zeit lang unter ontrollbedingungen und dann bis zum Ende der Studie unter nterventionsbedingungen beobachtet. Der Zeitpunkt des Übergangs zur ntervention wird randomisiert zugeordnet. Die Anzahl von konsekutiven Zeitpunkten, zu denen die Outcome- Variable beobachtet wird, ist von Fällen mit fehlenden Werten abgesehen für alle Cluster identisch. ndividuen können entweder jeweils nur einmal behandelt werden (SWD vom Querschnittstyp) oder im Zeitverlauf von der ontrollbehandlung zur ntervention wechseln (SWD vom offenen versus geschlossenen ohortentyp). Grundsätzlich kann beim SWD die Beobachtungseinheit entweder ein ndividuum oder ein Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9

2 TABELLE Stepped-Wedge-Design mit fünf möglichen Startzeitpunkten der ntervention (T = ) und einem Cluster pro Startzeitpunkt (n = ) Startzeitpunkt der ntervention, ntervention;, ontrolle TABELLE Cluster Nr. Messzeitpunkt Optimale Gewichtung der Clustermittelwerte im Falle n =, T = a) Rho = / (tabellierte Werte: Zähler von Brüchen mit Nenner 6) Cluster Nr. Cluster Nr. b) Rho = (tabellierte Werte: Zähler von Brüchen mit Nenner ) 7 Cluster sein. n der Praxis wird das SWD aber (meistens) als Alternative zur clusterrandomisierten Studie durchgeführt. Das SWD hat für die Planung wissenschaftlicher Studien in der Medizin und in der Versorgungsforschung in den letzten Jahren eine beachtliche Popularität erlangt. Dies spiegelt sich auch im Volumen medizinisch-wissenschaftlicher Literatur zum SWD wider: So ergab die Suche in der Datenbank PubMed unter dem Stichwort Stepped Wedge bei einer systematischen Literaturübersicht zu Publikationen der Jahre insgesamt 9 Treffer () (Stand: 8. Juni 8). Auch unter den Projekten der Versorgungsforschung, die vom nnovationsfonds des Gemeinsamen Me s sz e it p unk t Messezeitpunkt Bundesausschusses (G-BA) seit geförderte werden, sind mehrere Studien, in denen die ntervention durch ein SWD evaluiert werden soll. Das SWD wurde bereits Ende der 97-er Jahre in der Literatur zur Versuchsplanung beschrieben (). Das erste große Studienprojekt, in dem nach diesem Prinzip vorgegangen und der Begriff eingeführt wurde, geht auf das Jahr 987 zurück (). n dieser Studie wurde ein groß angelegtes mpfprogramm in Gambia durchgeführt. Für diese mpfaktion wurden 7 Teams gebildet. Alle Teams starteten zunächst mit einem Standardimpfprogramm. Nach und nach wurde jeweils in einem weiteren Team die Hepatitis-mpfung hinzugefügt. Ziel war es, nach etwa vier Jahren alle inder gegen Hepatitis-B-Viren (HBV) zu impfen. Als Hauptgrund für dieses Vorgehen wurden logistische Aspekte angeführt, unter anderem die Verfügbarkeit des mpfstoffes. Zielgröße war die nzidenz von Lebertumoren. Die indirekte Evidenz der Wirkung der mpfung zur Reduktion der HBV-nfektion war zuvor bereits durch mehrere Studien in Hochrisiko-Gruppen bestätigt worden. Bekannt war auch, dass die HBV-nfektion ein Risikofaktor für Leberkrebs ist. Wünschenswert war so die Autoren der Studie eine direkte Evidenz dafür zu erhalten, dass die mpfung die nzidenz an Lebertumoren reduziert. Es wurde damals auch darüber diskutiert, ob man alternativ zum SWD ein klassisches Paralleldesign über vier Jahre durchführen sollte. Allerdings sprachen viele organisatorische Gründe dagegen, so dass man sich dafür entschied, stufenweise vorzugehen. SWD-Studien werden vielfach auch als uni-direktionale Cross-over-Studien bezeichnet (). Diese Bezeichnung begründet sich durch das in Tabelle für den Standardfall einer zweiarmigen SWD-Studie dargestellte Schema für den zeitlichen Ablauf der Überführung der Cluster vom ontroll- in den nterventions- Arm der Studie: Jedes Cluster beginnt im ontrollarm (). Der Übergang zur nterventionsbehandlung () erfolgt spätestens bis zum letzten Nachbeobachtungstermin. Für zwei aufeinanderfolgende Zeitpunkte sind also nur die ombinationen -, -, -, nicht aber -, möglich. Anders als im echten, bi-direktionalen Crossover () ist also nicht vorgesehen, dass es auch Beobachtungseinheiten gibt, für die in der Studie die Messungen unter ontrollbedingungen nach Beendigung der nterventionsphase erfolgen. Welches Cluster welcher Zeile der Versuchsplan-Matrix zugeordnet wird, wird per Randomisierung festgelegt. n Tabelle ist eine solche Versuchsplan-Matrix mit der namensgebenden gestuften eil(stepped Wedge)-Form zwischen ontroll- und nterventionsperioden zu sehen. Die Anzahl von Clustern pro Startzeitpunkt braucht dabei nicht auf beschränkt zu sein, sollte aber über die Zeitpunkte hinweg nach Möglichkeit konstant bleiben. SWDs werden dann gegenüber dem Paralleldesign oder dem (echten) Cross-over-Design bevorzugt, wenn man davon ausgeht, dass die ntervention als sinnvoll und gewinnbringend erachtet wird und wenn man es nicht rechtfertigen kann (oder will), eine einmal eingeführte ntervention abzubrechen. Das SWD hat darüber Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9

3 hinaus den Vorteil, dass jeweils nur in wenigen Clustern gleichzeitig die ntervention etabliert werden muss, was unter organisatorischen Gesichtspunkten oft sehr bedeutsam ist. So war es etwa in dem genannten Beispiel der Gambia-Studie organisatorisch nicht möglich, bei allen 6 indern ( % des Studienkollektivs) zum selben Zeitpunkt mit der HBV-mpfung zu beginnen. Für das Design aus Tabelle wird in Tabelle exemplarisch das optimale Gewichtungsschema dargestellt. Dabei wird hier von folgenden vereinfachenden Annahmen ausgegangen (, 6): Annahme : Die Analyse erfolgt in zwei Schritten: Für jedes Cluster und jeden Messzeitpunkt werden Mittelwerte für das Zielkriterium bestimmt. Sie bilden die Grundlage für den zweiten, hier ausschließlich beschriebenen Schritt Modellannahmen werden über die Verteilung der Mittelwerte und deren orrelationsstruktur getroffen. Annahme : Die Clustermittelwerte sind normalverteilt (zumindest näherungsweise) mit einer Varianz, die weder vom Zeitpunkt noch von der Behandlung abhängt. Annahme : Die Clustermittelwerte sind zwischen den Messzeitpunkten korreliert. Das Ausmaß dieser orrelation hängt aber weder vom Abstand der Messzeitpunkte noch von der Art der Behandlung (/) ab. Die orrelation ist auch davon abhängig, ob und wie ndividuen wiederholt in die Analysen eingehen. Annahme : Gemittelt über die Population aller Cluster setzen sich die clusterweisen arithmetischen Mittelwerte additiv zusammen aus einem für den Messzeitpunkt spezifischen Periodeneffekt und dem zeitunabhängigen Effekt (im Folgenden als θ bezeichnet) der zu prüfenden Therapie (ntervention). Unter den genannten Annahmen lässt sich auch der Standardfehler (stderr) des optimalen Schätzers des Therapieeffekts exakt berechnen. Um diesen für eine beliebige Anzahl von nterventionsstartzeitpunkten (T) und Clustern (n), die zum selben Zeitpunkt in die nterventionsphase überführt werden, zu ermitteln, kann eine relativ einfache Formel genutzt werden (asten ). Die Formel lässt sich dazu verwenden, für den als Ergebnis der Auswertung einer SWD-Studie erhaltenen geschätzten Therapieeffekt ein onfidenzintervall zu berechnen. Die in asten tabellierten Werte zeigen, wie die Weite dieses onfidenzintervalls und damit die statistische Präzision der Schätzung durch die Grundparameter des Designs beeinflusst wird. ASTEN Fehlervarianz (stderr ) des optimalen Schätzers für den Therapieeffekt Symbole: T = Anzahl der Untersuchungszeitpunkte bzw. Zeitpunkte für den Start der ntervention n = Anzahl von Clustern mit gleichem nterventionsbeginn σ = Varianz der Clustermittelwerte ρ = orrelationskoeffizient zwischen den Mess ergebnissen für dasselbe Cluster zu zwei verschiedenen Zeitpunkten stderr = Standardfehler (Quelle: Rhoda et al. [7]; Hughes et al. [8]) Breite des 9-%-onfidenzintervalls () für θ in Abhängigkeit von den Design-Parametern T, n und ρ bei σ = T ρ,,,9,,,9 Signifikanztest, Power und Fallzahlplanung Genauso einfach wie die Berechnung von onfidenzgrenzen ist die Durchführung eines statistischen Tests der Nullhypothese, die besagt, dass der Therapieeffekt θ in Wahrheit (das heißt, ohne Überlagerung durch zufallsbedingte Abweichungen) gleich ist. Bei der Planung eines SWD ist zu beachten, dass sich die Berechnungsvorschrift für die Power nicht in eine einfache Formel für die Fallzahl n (= Anzahl von Clustern mit nterventionsbeginn zum selben Zeitpunkt) umwandeln lässt. Wie aus der in asten gezeigten Formel ersichtlich wird, hängt der Standardfehler von θ est, und damit auch die Power, nicht nur von der Varianz (σ²) der Clustermittelwerte, der Clusterzahl (n), sondern auch von der Anzahl der nterventions-startzeitpunkte (T) und der orrelation zwischen wiederholten Messungen im selben Cluster ab. Entsprechend unterschiedlich sind daher die Schlussfolgerungen, die sich aus vergleichen- n Breite,9,6,78,,,6,,9,,,9,9,7,77,,8,6, Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9

4 ASTEN Beispiel für die Planung und statistische Auswertung einer SWD-Studie (nach []) Zielsetzung Nachweis, dass die Lebensqualität gebrechlicher Senioren durch geriatrische Schulung von Pflegekräften verbessert werden kann Studienablauf Beginn der ntervention (Schulung der Pflegekräfte nach dem Chronic Care Model [CCM], []) 6,, 8 oder Monate nach Projektbeginn (< > T = ); Cluster bestehen aus Praxen, die je Patienten versorgen; nterventionsstart mit 8 Praxen zu jedem der vier Zeitpunkte Outcome-riterium Physical Composite Score (PCS) des Short Form Questionnaire zur Lebensqualität (SF-) (); hohe Punktzahl ist als günstig zu werten Annahmen für Power-Berechnung Clusterweise Mittelwerte sind normalverteilt mit Varianz σ² =,8 und orrelation ρ =,66 zwischen wiederholten Messungen. Die durch die ntervention erreichte Verbesserung des Scores beträgt im Mittel über die Praxen θ =, Punkte. Festlegung des Signifikanzniveaus auf α = % (zweiseitig) Power bei nterventionsbeginn in 8 Praxen pro Halbjahr mittels der Formel aus asten berechnet sich der Standardfehler des geschätzten nterventionseffekts zu,6. Damit beträgt die Wahrscheinlichkeit, dass der zugehörige Test ein signifikantes Ergebnis liefert, 9,7 % (Power). Analyse des Datensatzes aus Tabelle Für die in Tabelle aufgelisteten clusterweisen PCS-Scores erhält man bei einer vollständigen, auch die Streuung und die orrelation zwischen Zeitpunkten einbeziehenden statistischen Analyse folgende Ergebnisse: geschätzter Effekt der ntervention (± Standardfehler): θ est =,77 ±,9 9-%-onfidenzintervall: [,969;,7] p-wert (-seitig) für den Test der Nullhypothese θ = : p =,9 Danach ist das Ergebnis der Studie negativ. Das heißt, die Daten erlauben es nicht, auf einen positiven Effekt der ntervention im Hinblick auf die physische Lebensqualität der Patienten zu schließen. den Betrachtungen zur Effizienz verschiedener SWD, clusterrandomisierter Studien im Parallelgruppendesign und individuell randomisierter Studien ergeben. Man kann die Anzahl der teilnehmenden ndividuen, die Anzahl der wiederholten Messungen pro ndividuum, die Anzahl der Cluster je Startzeitpunkt und die Anzahl der Startzeitpunkte variieren. m easten werden clusterrandomisierte Studien im SWD und im Parallelgruppendesign in verschiedenen Szenarien verglichen, in denen sowohl die Varianz σ² der Clustermittelwerte als auch deren orrelation ρ zwischen den Messzeitpunkten vom sogenannten ntraclass-orrelationskoeffizienten (CC) innerhalb der Cluster abhängen. Misst man die Effizienz eines Designs an der Gesamtzahl von Clustern, die benötigt werden, um in einem Test auf dem üblichen Signifikanzniveau von α =, (zweiseitig) einen Effekt von θ =, mit einer Wahrscheinlichkeit von,9 (Power) aufzudecken, zeigt sich: SWDs besitzen in diesen Situationen, außer für sehr geringe Werte des CC, eine höhere Effizienz als das Parallelgruppen-Design (egrafik ). Zu beachten ist jedoch, dass sich dieses Bild qualitativ grundsätzlich ändert, wenn die Anzahl der zu jedem Zeitpunkt in den einzelnen Clustern durchzuführenden Messungen anders als in den im easten untersuchten Szenarien für alle Designs identisch ist. Das Parallelgruppen-Design besitzt dann außer für sehr hohe Werte von ρ wesentlich höhere Effizienz als ein SWD. Vorgehen bei unbekannter Streuung der Outcome- Variablen und unbekannter zeitlicher orrelation Die hier zusammengestellten Fakten und Ergebnisse zur statistischen Planung und Analyse von SWD-Studien gelten unter der Annahme, dass sowohl die Varianz σ zwischen den Clustern als auch der orrelationskoeffizient ρ zwischen den Messergebnissen für dasselbe Cluster zu verschiedenen Zeitpunkten bekannte Größen sind. Wann immer eine SWD-Studie ohne entsprechende Vorkenntnisse auszuwerten ist, muss ein wesentlich komplizierteres statistisches Verfahren eingesetzt werden, das es erlaubt, außer dem primär interessierenden Behandlungseffekt θ auch σ und ρ aus den aktuellen Studiendaten zu schätzen. Für eine detaillierte Beschreibung dieser erweiterten Schätzprozedur, mittels derer die in asten gezeigten Ergebnisse der Auswertung der Beispiel-SWD-Studie aus Tabelle gewonnen wurden, sei auf die Dokumentation von Software-Programmen für die Analyse sogenannter gemischter linearer Modelle, wie zum Beispiel 6 Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9

5 die Prozedur PROC MXED aus dem SAS-System (9), verwiesen. Solche komplexeren statistischen Modelle sind auch für die Analyse von Studien heranzuziehen, in denen davon auszugehen ist, dass die orrelationen zwischen zeitlich wiederholten Messungen durch intraindividuelle Effekte zustande kommen. Das hat typischerweise unter anderem zur Folge, dass die Variabilität zwischen den Clustern nicht mehr entsprechend der Annahme durch einen einzigen Streuungsparameter beschrieben werden kann. Auch wenn die Schätzung von σ und ρ im Rahmen der Auswertung einer SWD- Studie zu erfolgen hat, wird bei der Planung der Studie üblicher weise () nach dem oben dargestellten Ansatz für den Fall bekannter Werte für σ und ρ verfahren. TABELLE Rohdaten zum Beispiel aus asten Praxis Nr nterventionsbeginn 6 Mon Mon 8 Mon Mon Messzeitpunkt (Monate [Mon]) Diskussion Genau wie beim echten Cross-over-Design erhält man in einer SWD-Studie Daten von longitudinaler Struktur, da in jeder Beobachtungseinheit (Cluster) wiederholte Messungen durchgeführt werden. Beide Designs haben ferner gemeinsam, dass entsprechende Studien mit hohen Risiken behaftet sind: Wenn die sehr restriktive Grundannahme, dass es keine nteraktionen zwischen nterventionseffekt und Messzeitpunkt gibt, nicht erfüllt ist, lässt sich der Therapieeffekt nicht mehr biasfrei schätzen. Auf diese Voraussetzung ist sowohl bei der Planung als auch bei der nterpretation der Studien besonders zu achten. Alternativ lässt sich eine SWD-Studie auch auffassen als eine Sequenz von T+ Parallelgruppen-Studien mit konstanter Fallzahl (n), aber zeitlich variabler Proportion (ansteigend von auf %) von Beobachtungseinheiten, die dem nterventionsarm zugewiesen werden. Auch wenn in einer SWD-Studie tatsächlich normalverteilte Clustermittelwerte vorliegen, kommt man beim Testen von Hypothesen über den Therapieeffekt meistens nicht ohne Näherungsverfahren aus. Dabei sind verschiedene Ansätze in Betracht zu ziehen, die unterschiedliche Ergebnisse liefern und von denen sich nicht allgemein sagen lässt, welcher Ansatz zu bevorzugen ist. Wie oft bei der Analyse von Longitudinaldaten werden SWD-Studien außerdem standardmäßig unter stark vereinfachenden Annahmen über die orrelationsstruktur ausgewertet (Äquikorrelations-Modell). Als praktische Hauptmotivation für die Durchführung von Studien nach dem SWD wird meistens angeführt, es sei erwünscht, allen Patienten wenigstens in der letzten Periode die zu prüfende ntervention zukommen zu lassen. Das gilt insbesondere als erstrebenswert, wenn Erkenntnisse vorliegen, die darauf schließen lassen, dass die ntervention wirksam ist. Dieses Argument war ausschlaggebend für die Gambia- Studie. Hier war man von der prinzipiellen Wirkung der mpfung überzeugt. Das SWD ist dann eine Alternative zu den herkömmlichen Studien, wenn praktische Restriktionen zeigen, dass eine clusterrandomisierte Studie nicht durchführbar wäre. Dies würde nämlich voraussetzen, dass die mit der zu prüfenden ntervention einhergehenden Maßnahmen der Schulung des Pflegepersonals et cetera so zügig durchgeführt werden können, dass die ntervention bei allen zum gleichen Zeitpunkt gestartet werden könnte. Bei korrekter (und komplexer) statistischer Auswertung können methodische Anforderungen dennoch erfüllt werden. Die Voraussetzungen für eine statistisch saubere Evaluierung des Therapieeffekts sind zwar theoretisch klar zu spezifizieren, aber in der Praxis schwierig zu überprüfen. 8,, 8,,,,,,,9,7 9, 9,9 8,8 8,6 7, 8,9,6 8,, 7, 9,, 8,6 9,,6 8,,, 7, 6,, 9, 6 8,7, 7,,7,,9,6 8,9,,7 9, 8,9,7 9, 8, 9,,7,, 7, 9,,6 8, 9,,,,,7 9, 7, 8, 8, 9,6, 7,7,6,,,,, 9, 9, 9,, 9,8 8, 8,9, 8, 9, 7,6 9,7,9 8,, 8, 9,,, 9,7 7,6, 8, 8,7, 7,,,,,,, 9, 8, 9,8, 9,9 8,8 8,,6 7, 9, 8, 9, 9,7 7,, 9,7, ,,9 7, 9,,,6, 8,8,8, 8,7 9,,6, 9, 7,,9,,7 7, 8,,6,7,9, 9,,, 9,,7 9,7 9,7 Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9 7

6 ernaussagen Der potenzielle Hauptnutzen des Stepped-Wedge-Designs (SWD) liegt darin, dass es erlaubt, eine ntervention, die sich nicht für alle zu rekrutierenden Probanden zum gleichen Zeitpunkt durchführen lässt, in einer kontrollierten und randomisierten Studie mit einer Negativkontrolle zu vergleichen. Das Design hat mit dem einer herkömmlichen Cross-over-Studie nur entfernt Ähnlichkeit, da es nicht vorsieht, dass das Out - come-riterium für jede Beobachtungseinheit sowohl unter ontrollbedingungen als auch während der ntervention eruiert wird. Entscheidender Schwachpunkt des SWD ist, dass eine korrekte statistische Auswertung nur möglich ist, wenn gewährleistet ist, dass der Effekt der zu beurteilenden ntervention weder von der Dauer noch vom Zeitpunkt ihres Beginns innerhalb der Studie abhängt. Das SWD wird von manchen Autoren auch unabhängig von Machbarkeitsaspekten gegenüber dem Parallelgruppen-Design mit dem Argument bevorzugt, dass es die Möglichkeit bietet, allen Probanden die ntervention wenigstens in einem Studienabschnitt zukommen zu lassen. Ähnlich wie für herkömmliche echte Cross-over-Studien existieren einfach interpretierbare Modelle und Verfahren für die statistische Auswertung von SWD-Studien nur für den Fall, dass man es mit näherungsweise normalverteilten Daten zu tun hat. Für Studien mit binären oder kategorialen Daten existieren mehrere konkurrierende Ansätze. nteressenkonflikt Die Autoren erklären, dass kein nteressenkonflikt besteht. Manuskriptdaten eingereicht:.. 8, revidierte Fassung angenommen:.. 9 Literatur. Beard E, Lewis JJ, Copas A, et al.: Stepped wedge randomised controlled trials: systematic review of studies published between and. Trials ; 6:.. Cook TD, Campbell DT: Quasi-experimentation: design and analysis issues for field settings. Boston: Houghton Mifflin Gambia Hepatitis Study Group: The Gambia Hepatitis ntervention Study. Cancer Res 987; 7: Hussey MA, Hughes JP: Design and analysis of stepped wedge cluster randomized trials. Contemp Clin Trials 7; 8: Wellek S, Blettner M: On the proper use of the crossover design in clinical trials: part 8 of a series on evaluation of scientific publica - tions. Dtsch Arztebl nt ; 9: Hemming, Lilford R, Girling AJ: Stepped-wedge cluster randomised controlled trials: a generic framework including parallel and multiplelevel designs. Stat Med ; : Rhoda DA, Murray DM, Andridge RR, Pennell ML, Hade EM: Studies with staggered starts: multiple baseline designs and group-randomiz ed trials. Am J Public Health ; : Hughes JP, Granston TS, Heagerty PJ: Current issues in the design and analysis of stepped wedge trials. Contemp Clin Trials ; (Pt. A): SAS: SAS/STAT(R). User s guide. The MXED procedure. sup port.sas.com/documentation/cdl/en/statug/686/html/default/vie wer.htm#statug_mixed_details.htm (last accessed on May 9).. Hoogendijk EO, van der Horst HE, van de Ven PM, et al.: Effectiveness of a geriatric care model for frail older adults in primary care: Results from a stepped wedge cluster randomized trial. Eur J ntern Med 6; 8:.. Coleman, Austin BT, Brach C, Wagner EH: Evidence on the Chronic Care Model in the new millennium. Health Affairs 9; 8: Brook RH, Ware JEJ, Davies-Avery A, et al.:. Overview of adult health measures fielded in Rand s health insurance study. Med Care 979 ; 7:. Anschrift für die Verfasser Prof. Dr. rer. nat. Maria Blettner nstitut für Medizinische Biometrie, Epidemiologie und nformatik Johannes-Gutenberg-Universität Mainz Obere Zahlbacher Straße 69 Mainz blettner@uni-mainz.de Zitierweise Wellek S, Donner-Banzhoff N, önig J, Mildenberger P, Blettner M: Plann ing and analysis of trials using a stepped wedge design part 6 of a serieson evaluation of scientific publications. Dtsch Arztebl nt 9; 6: 8. DO:.8/arztebl.9. Die englische Version des Artikels ist online abrufbar unter: Zusatzmaterial easten, egrafik, etabelle: oder über QR-Code Die Reichweite des Deutschen Ärzteblattes Das Deutsche Ärzteblatt ist mit einer Auflage von mehr als Exemplaren die mit Abstand größte medizinische Zeitschrift in Deutschland. Einen cme-artikel im Deutschen Ärzteblatt bearbeiten im Durchschnitt mehr als Teilnehmer. Der wissenschaftliche Teil des Deutschen Ärzteblattes wird auch in der meinungsführenden Publikumspresse mehr als andere deutschsprachige medizinische Journale als wichtige Quelle wahrgenommen. 8 Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9

7 Zusatzmaterial zu: Studienplanung und -auswertung nach dem Stepped-Wedge-Design Teil 6 der Serie zur Bewertung wissenschaftlicher Publikationen Stefan Wellek, Norbert Donner-Banzhoff, Jochem önig, Philipp Mildenberger, Maria Blettner Dtsch Arztebl nt 9; 6: 8. DO:.8/arztebl.9. easten Planung und Auswertung von Studien auf der Grundlage des sogenannten Stepped-Wedge-Designs (SWD) m vorliegenden Supplement werden exemplarisch clusterrandomisierte Studien im SWD und im Parallelgruppendesign in verschiedenen Szenarien verglichen, in denen sowohl die Varianz σ² der Clustermittelwerte als auch deren orrelation ρ zwischen den Messzeitpunkten vom so genannten ntraclass-orrelationskoeffizienten (CC) innerhalb der Cluster abhängen. Die Szenarien ergeben sich unter den folgenden Annahmen (die vollständigen Spezifikationen enthält die etabelle): Jedes ndividuum wird nur einmal beobachtet. Die Zahl der pro Monat in einem Cluster teilnehmenden ndividuen wird konstant auf festgesetzt. Die Studienlaufzeit wird auf Monate festgesetzt Es werden SWDs mit, und nterventionsstartzeitpunkten und eine Parallelgruppen-CRT (CRT, cluster randomiz ed trial ) mit einer Rekrutierungsdauer von Monaten miteinander verglichen. Die Periodenanzahl beträgt damit, bzw. 6 und für das Parallelgruppen-CRT. Die Periodendauern betragen dann,, bzw. für das Parallelgruppen-CRT Monate. Die Zahl der pro Cluster und Periode beobachteten Patienten beträgt dann,, bzw.. Zufällige Clustereffekte sind über alle Perioden hinweg konstant. Sowohl die Varianz der Clustermittelwerte als auch deren orrelation zwischenden Messzeitpunkten hängt ab vom CC, indem gilt: σ² = CC + (-CC)/m, ρ = CC/σ², mit m als der Anzahl von ndividuen pro Messzeitpunkt. Die etabelle zeigt nun abhängig vom CC die insgesamt benötigte Clusteranzahl, um einen Effekt von θ =, mit einer Wahrscheinlichkeit von,9 (Power) aufzudecken, wenn der oben beschrieben Test zweiseitig zum Niveau α =, verwendet wird. Da alle Cluster gleichlang über Monate rekrutieren, sind die unter ontrolle und ntervention beobachteten ndividuen ein konstantes Vielfaches, das -Fache, der Clusterzahl. Anhand der egrafik wird deutlich, dass für die hier ausgewählten Design-Varianten gilt: Die Effizienz eines Designs hängt vom CC ab. SWDs mit großer Zahl von nterventionsstartzeitpunkten sind effizienter als SWDs mit kleiner Zahl von nterventionsstartzeitpunkten. Man wird aber im Einzelfall aus logistischen Gründen nicht die maximale Periodenzahl mit einem Cluster pro Startzeitpunkt wählen können, weil dann die Periodendauer zu kurz ist. n der Regel wird es fixe osten/aufwände je Cluster geben. Dann sind die dargestellten Szenarien nicht entscheidungsrelevant, können aber Bedeutung erlangen, wenn für die Gesamtrekrutierungsdauer oder die Rekrutierungsrate je nach Design verschiedene Optionen zur Wahl stehen. Schließlich gilt, dass die Annahme eines additiven Periodeneffekts und eine Reihe von Annahmen über die orrelationsstruktur im Parallelgruppen-CRT (CRT, cluster randomiz ed trial ) nicht getroffen zu werden brauchen und daher die Studien im Parallelgruppen-CRT grundsätzlich ein geringeres Verzerrungsrisiko ( risk of bias ) und einen höheren Evidenzgrad haben. Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9 Zusatzmaterial

8 egraf 7 6 Clusteranzahl (n) zwei nterventionsstartzeitpunkte drei nterventionsstartzeitpunkte fünf nterventionsstartzeitpunkte Parallelgruppen-CRT Benötigte Anzahl von Clustern für v erschiedene SWDs und ein Parallelgruppen-CRT in Abhängigkeit vom CC CRT, cluster randomized trial ; CC, ntraclass-orrelationskoeffizient; SWD, Stepped- Wedge-Design,,,,6,8, CC etabelle Spezifikation der verglichenen Designs Anzahl der nterventionsstartzeitpunkte Anzahl ndividuen pro Cluster pro Monat Studienlaufzeit (Monate) Periodenanzahl Periodendauer (Monate) Anzahl ndividuen pro Periode pro Cluster (m) Anzahl, Cluster pro Startzeitpunkt marginale interindividuelle Varianz Varianz σ der Clustermittelwerte für CC =, für CC =, orrelation ρ zwischen Clustermittelwerten für CC =, für CC =, SWD,,7,9,68 Design SWD SWD Parallelgruppen-CRT 6 abhängig von orrelationsparametern,,6,8,8,98,8,,7 n. r.,6, n. r. CRT, cluster randomiz ed trial ; CC,ntraclass-orrelationskoeffizient; n. r. nicht relevant; SWD, Stepped-Wedge-Design Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9 Zusatzmaterial