Teil 26 der Serie zur Bewertung wissenschaftlicher Publikationen
|
|
- Stephan Brodbeck
- vor 4 Jahren
- Abrufe
Transkript
1 Übersichtsarbeit Studienplanung und -auswertung nach dem Stepped-Wedge-Design Teil 6 der Serie zur Bewertung wissenschaftlicher Publikationen Stefan Wellek, Norbert Donner-Banzhoff, Jochem önig, Philipp Mildenberger, Maria Blettner nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz; Abteilung Biostatistik, Zentralinstitut für Seelische Gesundheit, Universitäts - medizin Mannheim, Universität Heidelberg: Prof. Dr. rer. nat. Stefan Wellek Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin, Philipps- Universität Marburg: Prof. Dr. med. Norbert Donner- Banzhoff, MHSc nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz: Dr. sc. hum. Jochem önig nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz: Philipp Mildenberger, MSc nstitut für Medizinische Biometrie, Epidemiologie und nformatik, Universitätsmedizin Mainz: Prof. Dr. rer. nat. Maria Blettner Zusammenfassung Hintergrund: Das Stepped-Wedge-Design (SWD) ist in den letzten Jahren ausgesprochen populär geworden, insbesondere in der Versorgungsforschung. Die randomisierte Zuweisung zu den Behandlungsoptionen erfolgt typischerweise in Gruppen (Clustern). Methoden: Es erfolgte eine selektive Literaturrecherche in PubMed sowie der statistischen Literaturdatenbank CS. Die Grundprinzipien und die statistischen Verfahren werden vorgestellt. Ergebnisse: m Standardfall einer SWD-Studie wird mit der ntervention zu einem von Cluster zu Cluster variierenden Zeitpunkt begonnen. Bis zu diesem Zeitpunkt befinden sich alle Probanden der jeweiligen Gruppe im ontrollarm. Nach Eintritt in die nterventionsgruppe wird die ntervention bis zum Ende der Laufzeit des Studienprojekts unverändert weitergeführt. Der Startzeitpunkt für die ntervention wird für jedes Cluster mittels Randomisierung festgelegt. Zum ersten Messzeitpunkt erfolgt in keinem Cluster eine ntervention, zum letzten wird die ntervention in allen Clustern durchgeführt. Der Therapieeffekt kann unter Berücksichtigung einer zwischen allen Zeitpunkten als identisch angenommenen orrelation optimal geschätzt werden. Für den zugehörigen Signifikanztest existiert ein Verfahren für die Berechnung der Power beziehungsweise der benötigten Anzahl von Clustern. Alle dargestellten statistischen Verfahren basieren auf der Voraussetzung, dass die Clustermittelwerte normalverteilt sind und dass der Effekt der ntervention über alle Messzeitpunkte hinweg konstant bleibt. Schlussfolgerungen: Für die Planung und Auswertung von SWD-Studien stehen die erforderlichen statistischen Werkzeuge zur Verfügung. Dennoch ist ein entsprechendes Studienprojekt mit erheblichen Risiken behaftet, da valide Ergebnisse nur zu erhalten sind, wenn weitreichende Modellannahmen erfüllt sind. Zitierweise Wellek S, Donner-Banzhoff N, önig J, Mildenberger P, Blettner M: Planning and analysis of trials using a stepped wedge design part 6 of a series on evaluation of scientific publications. Dtsch Arztebl nt 9; 6: 8. DO:.8/arztebl.9. Die Bedeutung des Prinzips der Randomisierung zum Vergleich von Therapien und nterventionen ist in der medizinischen Forschung weiterhin unumstritten und randomisierte kontrollierte Studien (RCT) sind als Goldstandard anerkannt. Aus praktischen Erwägungen wurden neben dem klassischen Design unterschiedliche Varianten entwickelt, darunter die sogenannte clusterrandomisierte Studie und das Stepped -Wedge-Design (SWD). Beim clusterrandomisierten Parallelgruppendesign dem vorherrschenden Design für clusterrandomisierte Studien wird die zufällige Zuteilung der ntervention nicht mehr für einzelne ndividuen, sondern für eine Gruppe von ndividuen (etwa in Arztpraxen, Schulklassen, Regionen) vorgenommen. Diese Gruppen werden im Allgemeinen und auch im Folgenden als Cluster bezeichnet. Grundprinzip, Modellvoraussetzungen und Schätzung des Behandlungseffekts Beim SWD werden alle ndividuen oder Cluster zunächst eine Zeit lang unter ontrollbedingungen und dann bis zum Ende der Studie unter nterventionsbedingungen beobachtet. Der Zeitpunkt des Übergangs zur ntervention wird randomisiert zugeordnet. Die Anzahl von konsekutiven Zeitpunkten, zu denen die Outcome- Variable beobachtet wird, ist von Fällen mit fehlenden Werten abgesehen für alle Cluster identisch. ndividuen können entweder jeweils nur einmal behandelt werden (SWD vom Querschnittstyp) oder im Zeitverlauf von der ontrollbehandlung zur ntervention wechseln (SWD vom offenen versus geschlossenen ohortentyp). Grundsätzlich kann beim SWD die Beobachtungseinheit entweder ein ndividuum oder ein Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9
2 TABELLE Stepped-Wedge-Design mit fünf möglichen Startzeitpunkten der ntervention (T = ) und einem Cluster pro Startzeitpunkt (n = ) Startzeitpunkt der ntervention, ntervention;, ontrolle TABELLE Cluster Nr. Messzeitpunkt Optimale Gewichtung der Clustermittelwerte im Falle n =, T = a) Rho = / (tabellierte Werte: Zähler von Brüchen mit Nenner 6) Cluster Nr. Cluster Nr. b) Rho = (tabellierte Werte: Zähler von Brüchen mit Nenner ) 7 Cluster sein. n der Praxis wird das SWD aber (meistens) als Alternative zur clusterrandomisierten Studie durchgeführt. Das SWD hat für die Planung wissenschaftlicher Studien in der Medizin und in der Versorgungsforschung in den letzten Jahren eine beachtliche Popularität erlangt. Dies spiegelt sich auch im Volumen medizinisch-wissenschaftlicher Literatur zum SWD wider: So ergab die Suche in der Datenbank PubMed unter dem Stichwort Stepped Wedge bei einer systematischen Literaturübersicht zu Publikationen der Jahre insgesamt 9 Treffer () (Stand: 8. Juni 8). Auch unter den Projekten der Versorgungsforschung, die vom nnovationsfonds des Gemeinsamen Me s sz e it p unk t Messezeitpunkt Bundesausschusses (G-BA) seit geförderte werden, sind mehrere Studien, in denen die ntervention durch ein SWD evaluiert werden soll. Das SWD wurde bereits Ende der 97-er Jahre in der Literatur zur Versuchsplanung beschrieben (). Das erste große Studienprojekt, in dem nach diesem Prinzip vorgegangen und der Begriff eingeführt wurde, geht auf das Jahr 987 zurück (). n dieser Studie wurde ein groß angelegtes mpfprogramm in Gambia durchgeführt. Für diese mpfaktion wurden 7 Teams gebildet. Alle Teams starteten zunächst mit einem Standardimpfprogramm. Nach und nach wurde jeweils in einem weiteren Team die Hepatitis-mpfung hinzugefügt. Ziel war es, nach etwa vier Jahren alle inder gegen Hepatitis-B-Viren (HBV) zu impfen. Als Hauptgrund für dieses Vorgehen wurden logistische Aspekte angeführt, unter anderem die Verfügbarkeit des mpfstoffes. Zielgröße war die nzidenz von Lebertumoren. Die indirekte Evidenz der Wirkung der mpfung zur Reduktion der HBV-nfektion war zuvor bereits durch mehrere Studien in Hochrisiko-Gruppen bestätigt worden. Bekannt war auch, dass die HBV-nfektion ein Risikofaktor für Leberkrebs ist. Wünschenswert war so die Autoren der Studie eine direkte Evidenz dafür zu erhalten, dass die mpfung die nzidenz an Lebertumoren reduziert. Es wurde damals auch darüber diskutiert, ob man alternativ zum SWD ein klassisches Paralleldesign über vier Jahre durchführen sollte. Allerdings sprachen viele organisatorische Gründe dagegen, so dass man sich dafür entschied, stufenweise vorzugehen. SWD-Studien werden vielfach auch als uni-direktionale Cross-over-Studien bezeichnet (). Diese Bezeichnung begründet sich durch das in Tabelle für den Standardfall einer zweiarmigen SWD-Studie dargestellte Schema für den zeitlichen Ablauf der Überführung der Cluster vom ontroll- in den nterventions- Arm der Studie: Jedes Cluster beginnt im ontrollarm (). Der Übergang zur nterventionsbehandlung () erfolgt spätestens bis zum letzten Nachbeobachtungstermin. Für zwei aufeinanderfolgende Zeitpunkte sind also nur die ombinationen -, -, -, nicht aber -, möglich. Anders als im echten, bi-direktionalen Crossover () ist also nicht vorgesehen, dass es auch Beobachtungseinheiten gibt, für die in der Studie die Messungen unter ontrollbedingungen nach Beendigung der nterventionsphase erfolgen. Welches Cluster welcher Zeile der Versuchsplan-Matrix zugeordnet wird, wird per Randomisierung festgelegt. n Tabelle ist eine solche Versuchsplan-Matrix mit der namensgebenden gestuften eil(stepped Wedge)-Form zwischen ontroll- und nterventionsperioden zu sehen. Die Anzahl von Clustern pro Startzeitpunkt braucht dabei nicht auf beschränkt zu sein, sollte aber über die Zeitpunkte hinweg nach Möglichkeit konstant bleiben. SWDs werden dann gegenüber dem Paralleldesign oder dem (echten) Cross-over-Design bevorzugt, wenn man davon ausgeht, dass die ntervention als sinnvoll und gewinnbringend erachtet wird und wenn man es nicht rechtfertigen kann (oder will), eine einmal eingeführte ntervention abzubrechen. Das SWD hat darüber Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9
3 hinaus den Vorteil, dass jeweils nur in wenigen Clustern gleichzeitig die ntervention etabliert werden muss, was unter organisatorischen Gesichtspunkten oft sehr bedeutsam ist. So war es etwa in dem genannten Beispiel der Gambia-Studie organisatorisch nicht möglich, bei allen 6 indern ( % des Studienkollektivs) zum selben Zeitpunkt mit der HBV-mpfung zu beginnen. Für das Design aus Tabelle wird in Tabelle exemplarisch das optimale Gewichtungsschema dargestellt. Dabei wird hier von folgenden vereinfachenden Annahmen ausgegangen (, 6): Annahme : Die Analyse erfolgt in zwei Schritten: Für jedes Cluster und jeden Messzeitpunkt werden Mittelwerte für das Zielkriterium bestimmt. Sie bilden die Grundlage für den zweiten, hier ausschließlich beschriebenen Schritt Modellannahmen werden über die Verteilung der Mittelwerte und deren orrelationsstruktur getroffen. Annahme : Die Clustermittelwerte sind normalverteilt (zumindest näherungsweise) mit einer Varianz, die weder vom Zeitpunkt noch von der Behandlung abhängt. Annahme : Die Clustermittelwerte sind zwischen den Messzeitpunkten korreliert. Das Ausmaß dieser orrelation hängt aber weder vom Abstand der Messzeitpunkte noch von der Art der Behandlung (/) ab. Die orrelation ist auch davon abhängig, ob und wie ndividuen wiederholt in die Analysen eingehen. Annahme : Gemittelt über die Population aller Cluster setzen sich die clusterweisen arithmetischen Mittelwerte additiv zusammen aus einem für den Messzeitpunkt spezifischen Periodeneffekt und dem zeitunabhängigen Effekt (im Folgenden als θ bezeichnet) der zu prüfenden Therapie (ntervention). Unter den genannten Annahmen lässt sich auch der Standardfehler (stderr) des optimalen Schätzers des Therapieeffekts exakt berechnen. Um diesen für eine beliebige Anzahl von nterventionsstartzeitpunkten (T) und Clustern (n), die zum selben Zeitpunkt in die nterventionsphase überführt werden, zu ermitteln, kann eine relativ einfache Formel genutzt werden (asten ). Die Formel lässt sich dazu verwenden, für den als Ergebnis der Auswertung einer SWD-Studie erhaltenen geschätzten Therapieeffekt ein onfidenzintervall zu berechnen. Die in asten tabellierten Werte zeigen, wie die Weite dieses onfidenzintervalls und damit die statistische Präzision der Schätzung durch die Grundparameter des Designs beeinflusst wird. ASTEN Fehlervarianz (stderr ) des optimalen Schätzers für den Therapieeffekt Symbole: T = Anzahl der Untersuchungszeitpunkte bzw. Zeitpunkte für den Start der ntervention n = Anzahl von Clustern mit gleichem nterventionsbeginn σ = Varianz der Clustermittelwerte ρ = orrelationskoeffizient zwischen den Mess ergebnissen für dasselbe Cluster zu zwei verschiedenen Zeitpunkten stderr = Standardfehler (Quelle: Rhoda et al. [7]; Hughes et al. [8]) Breite des 9-%-onfidenzintervalls () für θ in Abhängigkeit von den Design-Parametern T, n und ρ bei σ = T ρ,,,9,,,9 Signifikanztest, Power und Fallzahlplanung Genauso einfach wie die Berechnung von onfidenzgrenzen ist die Durchführung eines statistischen Tests der Nullhypothese, die besagt, dass der Therapieeffekt θ in Wahrheit (das heißt, ohne Überlagerung durch zufallsbedingte Abweichungen) gleich ist. Bei der Planung eines SWD ist zu beachten, dass sich die Berechnungsvorschrift für die Power nicht in eine einfache Formel für die Fallzahl n (= Anzahl von Clustern mit nterventionsbeginn zum selben Zeitpunkt) umwandeln lässt. Wie aus der in asten gezeigten Formel ersichtlich wird, hängt der Standardfehler von θ est, und damit auch die Power, nicht nur von der Varianz (σ²) der Clustermittelwerte, der Clusterzahl (n), sondern auch von der Anzahl der nterventions-startzeitpunkte (T) und der orrelation zwischen wiederholten Messungen im selben Cluster ab. Entsprechend unterschiedlich sind daher die Schlussfolgerungen, die sich aus vergleichen- n Breite,9,6,78,,,6,,9,,,9,9,7,77,,8,6, Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9
4 ASTEN Beispiel für die Planung und statistische Auswertung einer SWD-Studie (nach []) Zielsetzung Nachweis, dass die Lebensqualität gebrechlicher Senioren durch geriatrische Schulung von Pflegekräften verbessert werden kann Studienablauf Beginn der ntervention (Schulung der Pflegekräfte nach dem Chronic Care Model [CCM], []) 6,, 8 oder Monate nach Projektbeginn (< > T = ); Cluster bestehen aus Praxen, die je Patienten versorgen; nterventionsstart mit 8 Praxen zu jedem der vier Zeitpunkte Outcome-riterium Physical Composite Score (PCS) des Short Form Questionnaire zur Lebensqualität (SF-) (); hohe Punktzahl ist als günstig zu werten Annahmen für Power-Berechnung Clusterweise Mittelwerte sind normalverteilt mit Varianz σ² =,8 und orrelation ρ =,66 zwischen wiederholten Messungen. Die durch die ntervention erreichte Verbesserung des Scores beträgt im Mittel über die Praxen θ =, Punkte. Festlegung des Signifikanzniveaus auf α = % (zweiseitig) Power bei nterventionsbeginn in 8 Praxen pro Halbjahr mittels der Formel aus asten berechnet sich der Standardfehler des geschätzten nterventionseffekts zu,6. Damit beträgt die Wahrscheinlichkeit, dass der zugehörige Test ein signifikantes Ergebnis liefert, 9,7 % (Power). Analyse des Datensatzes aus Tabelle Für die in Tabelle aufgelisteten clusterweisen PCS-Scores erhält man bei einer vollständigen, auch die Streuung und die orrelation zwischen Zeitpunkten einbeziehenden statistischen Analyse folgende Ergebnisse: geschätzter Effekt der ntervention (± Standardfehler): θ est =,77 ±,9 9-%-onfidenzintervall: [,969;,7] p-wert (-seitig) für den Test der Nullhypothese θ = : p =,9 Danach ist das Ergebnis der Studie negativ. Das heißt, die Daten erlauben es nicht, auf einen positiven Effekt der ntervention im Hinblick auf die physische Lebensqualität der Patienten zu schließen. den Betrachtungen zur Effizienz verschiedener SWD, clusterrandomisierter Studien im Parallelgruppendesign und individuell randomisierter Studien ergeben. Man kann die Anzahl der teilnehmenden ndividuen, die Anzahl der wiederholten Messungen pro ndividuum, die Anzahl der Cluster je Startzeitpunkt und die Anzahl der Startzeitpunkte variieren. m easten werden clusterrandomisierte Studien im SWD und im Parallelgruppendesign in verschiedenen Szenarien verglichen, in denen sowohl die Varianz σ² der Clustermittelwerte als auch deren orrelation ρ zwischen den Messzeitpunkten vom sogenannten ntraclass-orrelationskoeffizienten (CC) innerhalb der Cluster abhängen. Misst man die Effizienz eines Designs an der Gesamtzahl von Clustern, die benötigt werden, um in einem Test auf dem üblichen Signifikanzniveau von α =, (zweiseitig) einen Effekt von θ =, mit einer Wahrscheinlichkeit von,9 (Power) aufzudecken, zeigt sich: SWDs besitzen in diesen Situationen, außer für sehr geringe Werte des CC, eine höhere Effizienz als das Parallelgruppen-Design (egrafik ). Zu beachten ist jedoch, dass sich dieses Bild qualitativ grundsätzlich ändert, wenn die Anzahl der zu jedem Zeitpunkt in den einzelnen Clustern durchzuführenden Messungen anders als in den im easten untersuchten Szenarien für alle Designs identisch ist. Das Parallelgruppen-Design besitzt dann außer für sehr hohe Werte von ρ wesentlich höhere Effizienz als ein SWD. Vorgehen bei unbekannter Streuung der Outcome- Variablen und unbekannter zeitlicher orrelation Die hier zusammengestellten Fakten und Ergebnisse zur statistischen Planung und Analyse von SWD-Studien gelten unter der Annahme, dass sowohl die Varianz σ zwischen den Clustern als auch der orrelationskoeffizient ρ zwischen den Messergebnissen für dasselbe Cluster zu verschiedenen Zeitpunkten bekannte Größen sind. Wann immer eine SWD-Studie ohne entsprechende Vorkenntnisse auszuwerten ist, muss ein wesentlich komplizierteres statistisches Verfahren eingesetzt werden, das es erlaubt, außer dem primär interessierenden Behandlungseffekt θ auch σ und ρ aus den aktuellen Studiendaten zu schätzen. Für eine detaillierte Beschreibung dieser erweiterten Schätzprozedur, mittels derer die in asten gezeigten Ergebnisse der Auswertung der Beispiel-SWD-Studie aus Tabelle gewonnen wurden, sei auf die Dokumentation von Software-Programmen für die Analyse sogenannter gemischter linearer Modelle, wie zum Beispiel 6 Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9
5 die Prozedur PROC MXED aus dem SAS-System (9), verwiesen. Solche komplexeren statistischen Modelle sind auch für die Analyse von Studien heranzuziehen, in denen davon auszugehen ist, dass die orrelationen zwischen zeitlich wiederholten Messungen durch intraindividuelle Effekte zustande kommen. Das hat typischerweise unter anderem zur Folge, dass die Variabilität zwischen den Clustern nicht mehr entsprechend der Annahme durch einen einzigen Streuungsparameter beschrieben werden kann. Auch wenn die Schätzung von σ und ρ im Rahmen der Auswertung einer SWD- Studie zu erfolgen hat, wird bei der Planung der Studie üblicher weise () nach dem oben dargestellten Ansatz für den Fall bekannter Werte für σ und ρ verfahren. TABELLE Rohdaten zum Beispiel aus asten Praxis Nr nterventionsbeginn 6 Mon Mon 8 Mon Mon Messzeitpunkt (Monate [Mon]) Diskussion Genau wie beim echten Cross-over-Design erhält man in einer SWD-Studie Daten von longitudinaler Struktur, da in jeder Beobachtungseinheit (Cluster) wiederholte Messungen durchgeführt werden. Beide Designs haben ferner gemeinsam, dass entsprechende Studien mit hohen Risiken behaftet sind: Wenn die sehr restriktive Grundannahme, dass es keine nteraktionen zwischen nterventionseffekt und Messzeitpunkt gibt, nicht erfüllt ist, lässt sich der Therapieeffekt nicht mehr biasfrei schätzen. Auf diese Voraussetzung ist sowohl bei der Planung als auch bei der nterpretation der Studien besonders zu achten. Alternativ lässt sich eine SWD-Studie auch auffassen als eine Sequenz von T+ Parallelgruppen-Studien mit konstanter Fallzahl (n), aber zeitlich variabler Proportion (ansteigend von auf %) von Beobachtungseinheiten, die dem nterventionsarm zugewiesen werden. Auch wenn in einer SWD-Studie tatsächlich normalverteilte Clustermittelwerte vorliegen, kommt man beim Testen von Hypothesen über den Therapieeffekt meistens nicht ohne Näherungsverfahren aus. Dabei sind verschiedene Ansätze in Betracht zu ziehen, die unterschiedliche Ergebnisse liefern und von denen sich nicht allgemein sagen lässt, welcher Ansatz zu bevorzugen ist. Wie oft bei der Analyse von Longitudinaldaten werden SWD-Studien außerdem standardmäßig unter stark vereinfachenden Annahmen über die orrelationsstruktur ausgewertet (Äquikorrelations-Modell). Als praktische Hauptmotivation für die Durchführung von Studien nach dem SWD wird meistens angeführt, es sei erwünscht, allen Patienten wenigstens in der letzten Periode die zu prüfende ntervention zukommen zu lassen. Das gilt insbesondere als erstrebenswert, wenn Erkenntnisse vorliegen, die darauf schließen lassen, dass die ntervention wirksam ist. Dieses Argument war ausschlaggebend für die Gambia- Studie. Hier war man von der prinzipiellen Wirkung der mpfung überzeugt. Das SWD ist dann eine Alternative zu den herkömmlichen Studien, wenn praktische Restriktionen zeigen, dass eine clusterrandomisierte Studie nicht durchführbar wäre. Dies würde nämlich voraussetzen, dass die mit der zu prüfenden ntervention einhergehenden Maßnahmen der Schulung des Pflegepersonals et cetera so zügig durchgeführt werden können, dass die ntervention bei allen zum gleichen Zeitpunkt gestartet werden könnte. Bei korrekter (und komplexer) statistischer Auswertung können methodische Anforderungen dennoch erfüllt werden. Die Voraussetzungen für eine statistisch saubere Evaluierung des Therapieeffekts sind zwar theoretisch klar zu spezifizieren, aber in der Praxis schwierig zu überprüfen. 8,, 8,,,,,,,9,7 9, 9,9 8,8 8,6 7, 8,9,6 8,, 7, 9,, 8,6 9,,6 8,,, 7, 6,, 9, 6 8,7, 7,,7,,9,6 8,9,,7 9, 8,9,7 9, 8, 9,,7,, 7, 9,,6 8, 9,,,,,7 9, 7, 8, 8, 9,6, 7,7,6,,,,, 9, 9, 9,, 9,8 8, 8,9, 8, 9, 7,6 9,7,9 8,, 8, 9,,, 9,7 7,6, 8, 8,7, 7,,,,,,, 9, 8, 9,8, 9,9 8,8 8,,6 7, 9, 8, 9, 9,7 7,, 9,7, ,,9 7, 9,,,6, 8,8,8, 8,7 9,,6, 9, 7,,9,,7 7, 8,,6,7,9, 9,,, 9,,7 9,7 9,7 Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9 7
6 ernaussagen Der potenzielle Hauptnutzen des Stepped-Wedge-Designs (SWD) liegt darin, dass es erlaubt, eine ntervention, die sich nicht für alle zu rekrutierenden Probanden zum gleichen Zeitpunkt durchführen lässt, in einer kontrollierten und randomisierten Studie mit einer Negativkontrolle zu vergleichen. Das Design hat mit dem einer herkömmlichen Cross-over-Studie nur entfernt Ähnlichkeit, da es nicht vorsieht, dass das Out - come-riterium für jede Beobachtungseinheit sowohl unter ontrollbedingungen als auch während der ntervention eruiert wird. Entscheidender Schwachpunkt des SWD ist, dass eine korrekte statistische Auswertung nur möglich ist, wenn gewährleistet ist, dass der Effekt der zu beurteilenden ntervention weder von der Dauer noch vom Zeitpunkt ihres Beginns innerhalb der Studie abhängt. Das SWD wird von manchen Autoren auch unabhängig von Machbarkeitsaspekten gegenüber dem Parallelgruppen-Design mit dem Argument bevorzugt, dass es die Möglichkeit bietet, allen Probanden die ntervention wenigstens in einem Studienabschnitt zukommen zu lassen. Ähnlich wie für herkömmliche echte Cross-over-Studien existieren einfach interpretierbare Modelle und Verfahren für die statistische Auswertung von SWD-Studien nur für den Fall, dass man es mit näherungsweise normalverteilten Daten zu tun hat. Für Studien mit binären oder kategorialen Daten existieren mehrere konkurrierende Ansätze. nteressenkonflikt Die Autoren erklären, dass kein nteressenkonflikt besteht. Manuskriptdaten eingereicht:.. 8, revidierte Fassung angenommen:.. 9 Literatur. Beard E, Lewis JJ, Copas A, et al.: Stepped wedge randomised controlled trials: systematic review of studies published between and. Trials ; 6:.. Cook TD, Campbell DT: Quasi-experimentation: design and analysis issues for field settings. Boston: Houghton Mifflin Gambia Hepatitis Study Group: The Gambia Hepatitis ntervention Study. Cancer Res 987; 7: Hussey MA, Hughes JP: Design and analysis of stepped wedge cluster randomized trials. Contemp Clin Trials 7; 8: Wellek S, Blettner M: On the proper use of the crossover design in clinical trials: part 8 of a series on evaluation of scientific publica - tions. Dtsch Arztebl nt ; 9: Hemming, Lilford R, Girling AJ: Stepped-wedge cluster randomised controlled trials: a generic framework including parallel and multiplelevel designs. Stat Med ; : Rhoda DA, Murray DM, Andridge RR, Pennell ML, Hade EM: Studies with staggered starts: multiple baseline designs and group-randomiz ed trials. Am J Public Health ; : Hughes JP, Granston TS, Heagerty PJ: Current issues in the design and analysis of stepped wedge trials. Contemp Clin Trials ; (Pt. A): SAS: SAS/STAT(R). User s guide. The MXED procedure. sup port.sas.com/documentation/cdl/en/statug/686/html/default/vie wer.htm#statug_mixed_details.htm (last accessed on May 9).. Hoogendijk EO, van der Horst HE, van de Ven PM, et al.: Effectiveness of a geriatric care model for frail older adults in primary care: Results from a stepped wedge cluster randomized trial. Eur J ntern Med 6; 8:.. Coleman, Austin BT, Brach C, Wagner EH: Evidence on the Chronic Care Model in the new millennium. Health Affairs 9; 8: Brook RH, Ware JEJ, Davies-Avery A, et al.:. Overview of adult health measures fielded in Rand s health insurance study. Med Care 979 ; 7:. Anschrift für die Verfasser Prof. Dr. rer. nat. Maria Blettner nstitut für Medizinische Biometrie, Epidemiologie und nformatik Johannes-Gutenberg-Universität Mainz Obere Zahlbacher Straße 69 Mainz blettner@uni-mainz.de Zitierweise Wellek S, Donner-Banzhoff N, önig J, Mildenberger P, Blettner M: Plann ing and analysis of trials using a stepped wedge design part 6 of a serieson evaluation of scientific publications. Dtsch Arztebl nt 9; 6: 8. DO:.8/arztebl.9. Die englische Version des Artikels ist online abrufbar unter: Zusatzmaterial easten, egrafik, etabelle: oder über QR-Code Die Reichweite des Deutschen Ärzteblattes Das Deutsche Ärzteblatt ist mit einer Auflage von mehr als Exemplaren die mit Abstand größte medizinische Zeitschrift in Deutschland. Einen cme-artikel im Deutschen Ärzteblatt bearbeiten im Durchschnitt mehr als Teilnehmer. Der wissenschaftliche Teil des Deutschen Ärzteblattes wird auch in der meinungsführenden Publikumspresse mehr als andere deutschsprachige medizinische Journale als wichtige Quelle wahrgenommen. 8 Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9
7 Zusatzmaterial zu: Studienplanung und -auswertung nach dem Stepped-Wedge-Design Teil 6 der Serie zur Bewertung wissenschaftlicher Publikationen Stefan Wellek, Norbert Donner-Banzhoff, Jochem önig, Philipp Mildenberger, Maria Blettner Dtsch Arztebl nt 9; 6: 8. DO:.8/arztebl.9. easten Planung und Auswertung von Studien auf der Grundlage des sogenannten Stepped-Wedge-Designs (SWD) m vorliegenden Supplement werden exemplarisch clusterrandomisierte Studien im SWD und im Parallelgruppendesign in verschiedenen Szenarien verglichen, in denen sowohl die Varianz σ² der Clustermittelwerte als auch deren orrelation ρ zwischen den Messzeitpunkten vom so genannten ntraclass-orrelationskoeffizienten (CC) innerhalb der Cluster abhängen. Die Szenarien ergeben sich unter den folgenden Annahmen (die vollständigen Spezifikationen enthält die etabelle): Jedes ndividuum wird nur einmal beobachtet. Die Zahl der pro Monat in einem Cluster teilnehmenden ndividuen wird konstant auf festgesetzt. Die Studienlaufzeit wird auf Monate festgesetzt Es werden SWDs mit, und nterventionsstartzeitpunkten und eine Parallelgruppen-CRT (CRT, cluster randomiz ed trial ) mit einer Rekrutierungsdauer von Monaten miteinander verglichen. Die Periodenanzahl beträgt damit, bzw. 6 und für das Parallelgruppen-CRT. Die Periodendauern betragen dann,, bzw. für das Parallelgruppen-CRT Monate. Die Zahl der pro Cluster und Periode beobachteten Patienten beträgt dann,, bzw.. Zufällige Clustereffekte sind über alle Perioden hinweg konstant. Sowohl die Varianz der Clustermittelwerte als auch deren orrelation zwischenden Messzeitpunkten hängt ab vom CC, indem gilt: σ² = CC + (-CC)/m, ρ = CC/σ², mit m als der Anzahl von ndividuen pro Messzeitpunkt. Die etabelle zeigt nun abhängig vom CC die insgesamt benötigte Clusteranzahl, um einen Effekt von θ =, mit einer Wahrscheinlichkeit von,9 (Power) aufzudecken, wenn der oben beschrieben Test zweiseitig zum Niveau α =, verwendet wird. Da alle Cluster gleichlang über Monate rekrutieren, sind die unter ontrolle und ntervention beobachteten ndividuen ein konstantes Vielfaches, das -Fache, der Clusterzahl. Anhand der egrafik wird deutlich, dass für die hier ausgewählten Design-Varianten gilt: Die Effizienz eines Designs hängt vom CC ab. SWDs mit großer Zahl von nterventionsstartzeitpunkten sind effizienter als SWDs mit kleiner Zahl von nterventionsstartzeitpunkten. Man wird aber im Einzelfall aus logistischen Gründen nicht die maximale Periodenzahl mit einem Cluster pro Startzeitpunkt wählen können, weil dann die Periodendauer zu kurz ist. n der Regel wird es fixe osten/aufwände je Cluster geben. Dann sind die dargestellten Szenarien nicht entscheidungsrelevant, können aber Bedeutung erlangen, wenn für die Gesamtrekrutierungsdauer oder die Rekrutierungsrate je nach Design verschiedene Optionen zur Wahl stehen. Schließlich gilt, dass die Annahme eines additiven Periodeneffekts und eine Reihe von Annahmen über die orrelationsstruktur im Parallelgruppen-CRT (CRT, cluster randomiz ed trial ) nicht getroffen zu werden brauchen und daher die Studien im Parallelgruppen-CRT grundsätzlich ein geringeres Verzerrungsrisiko ( risk of bias ) und einen höheren Evidenzgrad haben. Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9 Zusatzmaterial
8 egraf 7 6 Clusteranzahl (n) zwei nterventionsstartzeitpunkte drei nterventionsstartzeitpunkte fünf nterventionsstartzeitpunkte Parallelgruppen-CRT Benötigte Anzahl von Clustern für v erschiedene SWDs und ein Parallelgruppen-CRT in Abhängigkeit vom CC CRT, cluster randomized trial ; CC, ntraclass-orrelationskoeffizient; SWD, Stepped- Wedge-Design,,,,6,8, CC etabelle Spezifikation der verglichenen Designs Anzahl der nterventionsstartzeitpunkte Anzahl ndividuen pro Cluster pro Monat Studienlaufzeit (Monate) Periodenanzahl Periodendauer (Monate) Anzahl ndividuen pro Periode pro Cluster (m) Anzahl, Cluster pro Startzeitpunkt marginale interindividuelle Varianz Varianz σ der Clustermittelwerte für CC =, für CC =, orrelation ρ zwischen Clustermittelwerten für CC =, für CC =, SWD,,7,9,68 Design SWD SWD Parallelgruppen-CRT 6 abhängig von orrelationsparametern,,6,8,8,98,8,,7 n. r.,6, n. r. CRT, cluster randomiz ed trial ; CC,ntraclass-orrelationskoeffizient; n. r. nicht relevant; SWD, Stepped-Wedge-Design Deutsches Ärzteblatt Jg. 6 Heft 6 8. Juni 9 Zusatzmaterial
Statistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrEin exakter Test für die Meta-Analyse von Studien mit binären Endpunkten. Oliver Kuß, Cora Gromann
Ein exakter Test für die Meta-Analyse von Studien mit binären Endpunkten Oliver Kuß, Cora Gromann Institut für Medizinische Epidemiologie, Biometrie und Informatik, Universität Halle-Wittenberg, Halle
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 12. Januar 2011 1 Vergleich zweier Erwartungswerte Was heißt verbunden bzw. unverbunden? t-test für verbundene Stichproben
MehrAfter Work Statistics
After Work Statistics Maja Krajewska Institute of Biometry and Clinical Epidemiology maja.krajewska@charite.de U N I V E R S I T Ä T S M E D I Z I N B E R L I N Institut für Biometrie und klinische Epidemiologie
MehrStatistische Überlegungen: Eine kleine Einführung in das 1 x 1
Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012 Inhaltsübersicht Allgemeine
MehrHypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests
ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen
MehrProf. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung
Systematische Stichprobe Rel. große Gruppe von Stichprobenverfahren. Allgemeines Merkmal: es existiert ein festes, systematisches Muster bei der Auswahl. Wie passt das zur allgemeinen Forderung nach Randomisierung
MehrZur Statistik im neuen Genehmigungsantrag
Zur Statistik im neuen Genehmigungsantrag 21. Essener Informationstreffen, 12. März 2014 PD Dr. Nicole Heussen nheussen@ukaachen.de Institut für Medizinische Statistik RWTH Aachen Zur Statistik im neuen
MehrMasterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.
Fach: Prüfer: Mikroökonometrie Prof. Regina T. Riphahn, Ph.D. Masterprüfung Vorbemerkungen: Bearbeitungszeit: 60 Minuten. Anzahl der Aufgaben: Bewertung: Erlaubte Hilfsmittel: Wichtige Hinweise: Die Klausur
MehrEvaluation von Interventionen zur Patientenversorgung: Die grundlegenden Designs
Evaluation von Interventionen zur Patientenversorgung: Die grundlegenden Designs Werner Vach Koordinierungsstelle Versorgungsforschung Medizinische Fakultät der Universität Freiburg Versorgungsinterventionen
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests Nach Verteilungsannahmen: verteilungsabhängig: parametrischer [parametric] Test verteilungsunabhängig: nichtparametrischer [non-parametric] Test Bei parametrischen Tests
MehrCluster-randomisierte Studien in der Pflegewissenschaft
Cluster-randomisierte Studien in der Pflegewissenschaft Kuss O 1,2, Jahn P 3, Renz P 3, Landenberger M 3 1 Institut für Medizinische Epidemiologie, Biometrie und Informatik, 2 Biometrisches Zentrum, Pflegeforschungsverbund
MehrT-Test für unabhängige Stichproben
T-Test für unabhängige Stichproben Wir gehen von folgendem Beispiel aus: Wir erheben zwei Zufallstichproben, wobei nur die Probanden der einen Stichprobe einer speziellen experimentellen Behandlung (etwa
MehrSoftwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen
Softwaretechnik Prof. Dr. Rainer Koschke Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Wintersemester 2010/11 Überblick I Statistik bei kontrollierten Experimenten
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
Mehr2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht
43 Signifikanztests Beispiel zum Gauß-Test Bei einer Serienfertigung eines bestimmten Typs von Messgeräten werden vor der Auslieferung eines jeden Gerätes 10 Kontrollmessungen durchgeführt um festzustellen,
MehrSignifikanzprüfung. Peter Wilhelm Herbstsemester 2016
Signifikanzprüfung Peter Wilhelm Herbstsemester 2016 1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha-Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung
MehrKindern mit Leukämie in Deutschland,
Raum-zeitliche Analyse von Kindern mit Leukämie in Deutschland, 1987-2007 Arbeitstagung Bayes-Methodik, räumliche Statistik, Ökologie und Umwelt Sven Schmiedel, Peter Kaatsch, Maria Blettner, Joachim Schüz
MehrStatistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS
Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS Verena Hofmann Dr. phil. des. Departement für Sonderpädagogik Universität Freiburg Petrus-Kanisius-Gasse 21
MehrMethodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 13 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 19.05.15 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie
MehrVergleich von Parametern zweier Stichproben
Vergleich von Parametern zweier Stichproben Vergleich von Mittelwerten bei gebundenen Stichproben Vergleich von Mittelwerten bei unabhängigen Stichproben Vergleich von Varianzen bei unabhängigen Stichproben
Mehr3) Testvariable: T = X µ 0
Beispiel 4.9: In einem Molkereibetrieb werden Joghurtbecher abgefüllt. Der Sollwert für die Füllmenge dieser Joghurtbecher beträgt 50 g. Aus der laufenden Produktion wurde eine Stichprobe von 5 Joghurtbechern
MehrKapitel 5: Einfaktorielle Varianzanalyse
Rasch, Friese, Hofmann & Naumann (010). Quantitative Methoden. Band (3. Auflage). Heidelberg: Springer. Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung
MehrForschungsstatistik I
Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrKapitel 5: Einfaktorielle Varianzanalyse
Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung 1 Teststärkebestimmung a posteriori Berechnen der Effektgröße f aus empirischen Daten und Bestimmung
MehrWie liest man Konfidenzintervalle? Teil II. Premiu m
Wie liest man Konfidenzintervalle? Teil II Premiu m - Hintergrund Anderer Wahrscheinlichkeitsbegriff subjektiver Wahrscheinlichkeitsbegriff Beispiel: Was ist die Wahrscheinlichkeit dafür, dass ein Patient
MehrFallzahlplanung bei unabhängigen Stichproben
Fallzahlplanung bei unabhängigen Stichproben Seminar Aktuelle biometrische Probleme Benjamin Hofner benjamin.hofner@stat.uni-muenchen.de 12. Januar 2005 Übersicht 1. Einführung und Grundlagen der Fallzahlplanung
MehrAufgaben zu Kapitel 3
Aufgaben zu Kapitel 3 Aufgabe 1 a) Berechnen Sie einen t-test für unabhängige Stichproben für den Vergleich der beiden Verarbeitungsgruppen strukturell und emotional für die abhängige Variable neutrale
MehrAnalyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
MehrWie liest man Konfidenzintervalle? Teil I. Premiu m
Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall
MehrMeta-Regression in klinischen. Studien. Hintergrund und Anwendung in SAS. Meike Hastert Mareike Herrmann
Meta-Regression in klinischen Studien Hintergrund und Anwendung in SAS Meike Hastert Mareike Herrmann Gliederung Meta-Regression im Allgemeinen Statistischer Hintergrund Anwendung mit SAS Output Interpretation
MehrMathematische und statistische Methoden II
Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrAuswertung und Lösung
Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden
MehrMesswiederholungen und abhängige Messungen
Messwiederholungen und abhängige Messungen t Tests und Varianzanalysen für Messwiederholungen Kovarianzanalyse Thomas Schäfer SS 009 1 Messwiederholungen und abhängige Messungen Bei einer Messwiederholung
MehrTHEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ
WEBINAR@LUNCHTIME THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ EINLEITENDES BEISPIEL SAT: Standardisierter Test, der von Studienplatzbewerbern an amerikanischen Unis gefordert
MehrEVIDENZ KOMPAKT. Lungenfunktionstestung mittels Spirometrie bei asymptomatischen Erwachsenen
EVIDENZ KOMPAKT Lungenfunktionstestung mittels Spirometrie bei asymptomatischen Erwachsenen Stand: 14.02.2017 Autoren Stefanie Butz (M. Sc. Public Health) Dr. med. Dagmar Lühmann (Oberärztliche Koordinatorin
MehrWahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -
wahrer Sachverhalt: Palette ist gut Palette ist schlecht Entscheidung des Tests: T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit
Mehro o o o o o o o o o o o
Klumpen-Stichproben = Cluster Sampling Obs.: Bei einer uneingeschränkten Zufallsauswahl wird pro Randomisierungs- Schritt genau eine Beobachtung gemacht. Ein ganz wesentlicher Punkt : Jedes zufällig ausgewählte
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
MehrPartialbruchzerlegung
Partialbruchzerlegung Lucas Kunz 27. Januar 207 Inhaltsverzeichnis Theorie 2. Definition.................................... 2.2 Nullstellen höheren Grades........................... 2.3 Residuen-Formel................................
MehrDas Stepped Wedge Design
Das Stepped Wedge Design Chance und Herausforderung zur Bestimmung der Effektivität in der Versorgungsforschung Sven Reuther, MScN 4. Fachtagung der DGP Methodische Herausforderungen an Pflegeforschung
MehrBach-Blütentherapie. Ergebnisbericht aktualisierte Fassung
Bach-Blütentherapie Ergebnisbericht aktualisierte Fassung Recherche Datum der Erstrecherche: 13.08.2011 Datum der Aktualisierungsrecherche: 11.03.2015 PICO-Fragestellung: Population: Personen mit diversen
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-06 Dr. Malte Persike persike@uni-mainz.de
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrKapitel 5: Einfaktorielle Varianzanalyse
Rasch, Friese, Hofmann & Naumann (006). Quantitative Methoden. Band (. Auflage). Heidelberg: Springer. Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung
MehrPROBASE: Große deutsche Studie zum Prostatakrebs-Screening. PROBASE Große deutsche Studie zum Prostatakrebs-Screening
PROBASE Große deutsche Studie zum Prostatakrebs-Screening Dresden (27. September 2013) Ziel der PROBASE-Studie (Risk-adapted prostate cancer early detection study based on a baseline PSA value in young
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrDossier zur Nutzenbewertung Modul 4 A Stand:
Tabelle 4-226: Ergebnisse des ITC für FF/UMEC/VI vs. BDP/FF/GB; nabbruch wegen unerwünschter Ereignisse ITT-Population (Beobachtungszeitraum 24 Wochen in der CTT116853 (FULFIL) und 52 Wochen in CTT116855
Mehr5. Seminar Statistik
Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrQualität von Publikationen randomisierter Nicht-Unterlegenheitsund Äquivalenzstudien
Qualität von Publikationen randomisierter Nicht-Unterlegenheitsund Äquivalenzstudien, Nicole Burchardi, Michael Niestroj, Meinhard Kieser Nicht-Unterlegenheit und Äquivalenz Überlegenheit Test vs. Placebo
MehrMethodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
MehrJost Reinecke. 7. Juni 2005
Universität Bielefeld 7. Juni 2005 Testtheorie Test für unabhängige Stichproben Test für abhängige Stichproben Testtheorie Die Testtheorie beinhaltet eine Reihe von Testverfahren, die sich mit der Überprüfung
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 16. Januar 2013 1 Allgemeine Hypothesentests Nullhypothese und Alternative Beispiel: Blutdrucksenker Testverfahren
MehrMethodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun http://blog.ruediger-braun.net Heinrich-Heine-Universität Düsseldorf 21. Januar 2015 1 t-tests für Erwartungswerte Verbundene und unverbundene Stichproben
MehrEmpirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme
Empirische Forschung Übung zur Vorlesung Kognitive Modellierung S. 1 Überblick: Forschungsprozess Theoriebil dung Auswertung Interpretation Operationalisierung Erhebung S. 2 Versuchsplanung Festlegung
Mehr9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T
9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon
MehrSo berechnen Sie einen Schätzer für einen Punkt
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung
MehrSystematische Reviews und Meta-Analysen
Systematische Reviews und Meta-Analysen Univ.-Prof. DI Dr. Andrea Berghold Institut für Med. Informatik, Statistik und Dokumentation Medizinische Universität Graz Szenario Sollen wir Julians Mittelohrentzündung
MehrMethodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie
MehrBrückenkurs Statistik für Wirtschaftswissenschaften
Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München
MehrKapitel 9: Verfahren für Nominaldaten
Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test 1 Zweidimensionaler und Vierfelder Chi²-Test 5 Literatur 6 Eindimensionaler Chi²-Test Berechnen der Effektgröße w² Die empirische Effektgröße
MehrSignifikanzprüfung. Peter Wilhelm Herbstsemester 2014
Signifikanzprüfung Peter Wilhelm Herbstsemester 2014 1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha- Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung
MehrEmpirische Methoden zur Analyse gesprochener Sprache
Empirische Methoden zur Analyse gesprochener Sprache Prinzip der Hypothesenprüfung (am Beispiel des t-tests für unabhängige Stichproben) Statistische Verfahren: Einordnung Deskriptive (beschreibende) Statistik:
MehrEvidenzpolizei Welche Rolle sollen systematische Reviews haben?
Evidenzpolizei Welche Rolle sollen systematische Reviews haben? IQWiG im Dialog Köln, 17. Juni 2016 Erik von Elm, MD MSc FMH Co-Direktor Cochrane Schweiz Institut universitaire de médecine sociale et preventive
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1
MehrBiomathematik für Mediziner
Institut für Medizinische Biometrie, Informatik und Epidemiologie der Universität Bonn (Direktor: Prof. Dr. Max P. Baur) Biomathematik für Mediziner Klausur SS 2002 Aufgabe 1: Franz Beckenbauer will, dass
MehrBeispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
MehrBayesianische Modellwahl. Helga Wagner Bayes Statistik WS 2010/11 161
Bayesianische Modellwahl Helga Wagner Bayes Statistik WS 2010/11 161 Modellwahl Problem der Modellwahl: Welches von K möglichen Modellen M 1,...,M K ist für die Daten y am besten geeignet? Klassisch: LQ-Test
MehrBeispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10
6 Hypothesentests Gauß-Test für den Mittelwert bei bekannter Varianz 6.3 Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10 G(µ) 0 α 0. 0.4 0.6 0.8 1 n = 10 n =
MehrLiegen 2 Beobachtungen an n Objekten vor, spricht man von einer gebundenen Stichprobe Typische Struktur bei "stimulus-response" Versuchen
Mittelwertsvergleich bei gebundenen Stichproben Liegen Beobachtungen an n Objekten vor, spricht man von einer gebundenen Stichprobe Typische Struktur bei "stimulus-response" Versuchen Obj.1 Obj.... Obj.n
MehrAnnahmen des linearen Modells
Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
Mehr2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X
Hypothesentests Bisher betrachtet: Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts Hierzu: Verwendung der 1 theoretischen Information über Verteilung von X empirischen Information aus Stichprobenrealisation
MehrPragmatische Studien in Settings der Routineversorgung
Pragmatische Studien in Settings der Routineversorgung Norbert Donner-Banzhoff Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin Philipps-Universität Marburg 2. Diskussionsforum zur
MehrAuswertung und Lösung
Residuals vs Fitted Normal Q Q Residuals 2 1 0 1 2 16 18 30 Standardized residuals 2 1 0 1 2 18 30 16 5 10 15 20 25 30 Fitted values 2 1 0 1 2 Theoretical Quantiles Abbildung 1: Dieses Quiz soll Ihnen
MehrInterventionsstudien
Interventionsstudien Univ.-Prof. DI Dr. Andrea Berghold Institut für Med. Informatik, Statistik und Dokumentation Medizinische Universität Graz Vorgangsweise der EBM 1. Formulierung der relevanten und
MehrBerechnung des LOG-RANK-Tests bei Überlebenskurven
Statistik 1 Berechnung des LOG-RANK-Tests bei Überlebenskurven Hans-Dieter Spies inventiv Health Germany GmbH Brandenburger Weg 3 60437 Frankfurt hd.spies@t-online.de Zusammenfassung Mit Hilfe von Überlebenskurven
MehrCox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells
Cox-Regression Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells In vielen Fällen interessiert, wie die Survivalfunktion durch Einflussgrößen beeinflusst
MehrMarcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 13. Winterthur, 24. Mai Institut für Datenanalyse und Prozessdesign
Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 24. Mai 2017 1 Ausblick Wir
MehrÜbung 2 im Fach "Biometrie / Q1"
Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie, D-897 Ulm Institut für Epidemiologie und Medizinische Biometrie Leiter: Prof. Dr. D. Rothenbacher Schwabstr. 3, 8975 Ulm Tel. +49
MehrInterne Validität bei RCTs und Non-RCTs
Interne Validität bei RCTs und Non-RCTs Prof. Regina Kunz Institut für Klinische Epidemiologie und Biostatistik Uni-Spital Basel Übersicht 1. Weshalb wir randomisierte Studien brauchen 2. Unterschied randomisierte
MehrEvidenz in der Präventionsmedizin
Evidenz in der Präventionsmedizin Symposium Ist Vorsorgen Immer Besser als Heilen? 20. und 21. Februar 2008 Dr. Gerald Gartlehner, MPH, Department für evidenzbasierte Medizin und klinische Epidemiologie
MehrKapitel 6: Zweifaktorielle Varianzanalyse
Kapitel 6: Zweifaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung 1 Teststärkebestimmung a posteriori 4 Berechnen der Effektgröße f² aus empirischen Daten und Bestimmung
MehrMethodenlehre. Vorlesung 6. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 6 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
MehrHüftarthroskopie. erstellt von Dr. in Anna Glechner.
Hüftarthroskopie erstellt von Dr. in Anna Glechner http://www.ebminfo.at/hueftarthroskopie Bitte den Rapid Review wie folgt zitieren: Glechner A., Hüftarthroskopie. EbM Ärzteinformationszentrum; Februar
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage
MehrMultivariate Statistik
27.04.2017 27.04.2017 Multivariate Statistik Inhaltliche Abstimmung innerhalb des Moduls Vorlesung Grundlegende Konzepte der Datenanalyse Lineare Regression Allgemeines Lineares Model Übung Konkrete Einführung
Mehrlimhatewerzeoelhiniii
limhatewerzeoelhiniii Vorwort 13 Kapitel 1 Einleitung 15 1.1 Wozu brauchen wir Statistik? 16 1.2 Medizinische Statistik 16 1.3 Beschreibende und schließende Statistik 17 1.4 Das Buch in Kürze 17 Kapitel
MehrGoldimplantate (Berlockimplantate) zur Behandlung von Gelenksschmerzen
Goldimplantate (Berlockimplantate) zur Behandlung von Gelenksschmerzen erstellt von Dr.in Glechner, Dr.in Angela Kaminski-Hartenthaler http://www.ebminfo.at/goldimplantate-bei-gelenksschmerzen Bitte den
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrHypothesentests mit SPSS
Beispiel für eine zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor (univariate Lösung) Daten: POKIII_AG4_V06.SAV Hypothese: Die physische Attraktivität der Bildperson und das Geschlecht
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
Mehr