Konfidenzintervalle. die anschauliche Alternative zum p-wert...

Konfidenzintervalle die anschauliche Alternative zum p-wert...

Grundidee des Konfidenzintervalls Studie Realität Studienergebnis falsch-positiver Rückschluß??? Realität???? Studie 10 %

Grundidee des Konfidenzintervalls Problem des Signifikanztests: ja/nein-antwort Klinischer Bezug in p 0.05??? 95%-Konfidenzintervall: Bereich um Effektmaß der Studie, in dem mit 95%-iger Sicherheit wahrer Wert des Effektmaßes liegt ( ) 30 % Punktschätzer (Studienergebnis) Bereichschätzer (95%-KI)

Grundidee des Konfidenzintervalls Problem des Signifikanztests: ja/nein-antwort Klinischer Bezug in p 0.05??? 95%-Konfidenzintervall: Bereich um Effektmaß der Studie, in dem mit 95%-iger Sicherheit wahrer Wert des Effektmaßes liegt ( ) ( 1 α ) Konfidenzintervall: Bereich um den Punktschätzer (Studie), welcher den wahren Wert mit Sicherheit 1 α enthält. 1 α = Konfidenzniveau α = Irrtumswahrscheinlichkeit

Konfidenzintervall einer Häufigkeit relative Häufigkeit h, binäre Zielgröße h ± 1.96 h(1 h) (95% - KI ) n h ± 2.57 h(1 h) n (99% - KI ) h: relative Häufigkeit in der Studie n: Fallzahl der Studie

Konfidenzintervall einer Häufigkeit Beispiel: Nachstarrate unter 350 Kataraktoperationen Nachstar-OP notwendig bei 70 Eingriffen n = 350, h = 70 / 350 = 20 % h ± 1.96 = 0.20 ± 1.96 h (1 h) n 0.20 (1 0.20) 350 0.20 ± 0.04 h unten = 0.20 0.04 = 0.16 h oben = 0.20 + 0.04 = 0.24 95% - KI = ( 16 % ; 24 % )

Intervallbreite = Präzision der Aussage n = 10 h = 3 / 10 = 30% n = 100 h = 30 / 100 = 30% n = 1000 h = 300 / 1000 = 30% 95%-KI = ( 0.02 ; 0.58 ) 95%-KI = ( 0.21 ; 0.39 ) 95%-KI = ( 0.27 ; 0.33 )

Konfidenzintervall eines Effektmaßes 95 %-Konfidenzintervall des Effektmaßes der Studie: Bereich um den Studienwert des Effektmaßes, in dem mit 95%iger Sicherheit der wahre Wert des Effektmaßes liegt wahrer Effekt Effektmaß Studie ( ) 10 %

Konfidenzintervall eines Effektmaßes Grundidee des 95%-KI des absoluten Risikos: symmetrischer Bereich um Effektmaß-Wert der Studie hängt sonst nur noch ab von Patientenzahl (n) der Studie Studienwert ± 1.96 * irgendwas Wurzel aus der Patientenzahl n sichert 95%ige Aussagesicherheit

Konfidenzintervall eines Effektmaßes Berechnung des 95%-KI des absoluten Risikos: Komplikationsrate h K = 10% nach konservativer Versorgung Komplikationsrate h W = 20% nach Stift-gestützter Versorgung ( h W h K ) ± 1.96 * (20% - 10%) ± 1.96 h K (1 h K ) + h W (1 h W ) n 10% * 90% + 20% * 80% 100 10% ± 9.8 % 95%-Konfidenzintervall: ( 0.2 % ; 19.8 % )

Konfidenzintervall eines Effektmaßes 0 % 10 % ( ) absolute Risikodifferenz [%]

Konfidenzintervall eines Effektmaßes Signifikanzaussagen mittels 95%-KI des absoluten Risikos: statistische Signifikanz: 0 ist nicht im 95%-KI enthalten 0 ( ) absolutes Risiko signifikant erhöht

Konfidenzintervall eines Effektmaßes Signifikanzaussagen mittels 95%-KI des absoluten Risikos: statistische Signifikanz: 0 ist nicht im 95%-KI enthalten 0 ( absolutes Risiko signifikant gesenkt ) ( absolutes Risiko signifikant erhöht ) ( absolute Risiken nicht signifikant erhöht / gesenkt ( ) )

Konfidenzintervall eines Effektmaßes 0 % 10 % ( ) absolute Risikodifferenz [%] Die Komplikationsraten zwischen konservativ und Stift-gestützt versorgten Endodontien sind statistisch signifikant verschieden.

Konfidenzintervall eines Effektmaßes Beispielstudie: Prognose von Wurzelstift-gestützter versus konservativer Versorgung von Prämolaren primärer Endpunkt: Komplikation im Zeitraum 5 Jahre nach Ende der Versorgung [ja / nein] klinisch relevanter Vorteil: Unterschied der Komplikationsraten um mindestens 10 Prozent

Konfidenzintervall eines Effektmaßes Beispielstudie: Prognose von Wurzelstift-gestützter versus konservativer Versorgung von Prämolaren primärer Endpunkt: Komplikation im Zeitraum 5 Jahre nach Ende der Versorgung [ja / nein] klinisch relevanter Vorteil: Unterschied der Komplikationsraten um mindestens 10 Prozent mögliche Risikofaktoren: Versorgungsart [Stift / konservativ] Kiefer [Oberkiefer / Unterkiefer] Oralhygiene [hinreichend / suboptimal] Nachbarversorgungen [keine / progn. relevante] Alter bei Versorgung [< 40 Jahre / > 40 Jahre] etc. etc.

Konfidenzintervall eines Effektmaßes 0 % 10 % absolute Risikodifferenz [%] Stift ( ) Oberkiefer ( ) Oralhygiene ( ) Nachbarvers. ( ) Alter < 40 ( )

Konfidenzintervall eines Effektmaßes Interpretation des 95%-KI des absoluten Risikos: klinische Relevanz: Lage des Studienwerts statistische Signifikanz: 0 ist nicht im KI enthalten Aussagepräzision: Breite des KI Kommentar: genauso im Falle eines quantitativen primären Endpunkts mit 95%-Konfidenzintervall des Median-Abstands möglich!

hunting for significance... (IV) Komplikationsraten 10% versus 20% bei wachsender Fallzahl n n = 30 Zähne pro Gruppe: 95%-KI = ( 0.09 ; 0.29 ) n = 60 Zähne pro Gruppe: 95%-KI = ( 0.06 ; 0.26 ) n = 90 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.21 ) n = 120 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.19 ) 10% ( ( ( ( ) ) ) )

hunting for significance... (V) Komplikationsraten 10% versus 20% bei wachsender Fallzahl n n = 30 Zähne pro Gruppe: 95%-KI = ( 0.09 ; 0.29 ) p = 0.286 n = 60 Zähne pro Gruppe: 95%-KI = ( 0.06 ; 0.26 ) p = 0.215 n = 90 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.21 ) p = 0.061 n = 120 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.19 ) p = 0.030 n = 150 Zähne pro Gruppe: 95%-KI = ( 0.02 ; 0.18 ) p = 0.014

hunting for significance... (VI) Also: Werden nur genug Patienten eingebracht, zeigt jede Studie ein signifikantes Ergebnis!!! Statistische Signifikanz ist keine klinische Relevanz!!!

rumgedreht: Fallzahlplanung (I) Fakt: je größer die Fallzahl, desto schmaler das Intervall Idee: Intervallbreite vorgeben, daraus Fallzahl bestimmen also: Fallzahlplanung abhängig von Vorinformation!!! ( h W h K ) ± 1.96 * h K (1 h K ) + h W (1 h W ) n

Fallzahlplanung (II) Unterschied: h W = 20 % (Stift-gestützt) h K = 10 % (konservativ) Intervallbreite: maximal ± 5 % 0 % 10 % ( ) ±5%

Fallzahlplanung (III) Unterschied: h W = 20 % (Stift-gestützt) h K = 15 % (konservativ) Intervallbreite: maximal ± 5 % 0 % 5 % ( ) ±5%

Fallzahlplanung (IV) Unterschied: h W = 20 % (Stift-gestützt) h K = 15 % (konservativ) Intervallbreite: maximal ± 2,5 % 0 % 5 % ( ) ±2,5%

Fallzahlplanung (VII) Intervallbreite Zähne pro Gruppe ± 2.5 % 1276 ± 5 % 319 ± 7.5 % 142 ± 10 % 80 realistische Empfehlung: 142 Zähne pro Gruppe drop out-rate: 10% Nettofallzahl: 160 Zähne pro Gruppe

Fallzahlplanung (VIII) Intervallbreite Zähne pro Gruppe δ = 20% - 5% // δ = 20% - 10% ± 2.5 % 1276 // 1537 ± 5 % 319 // 385 ± 7.5 % 142 // 171 ± 10 % 80 // 97 realistische Empfehlung:???

Fallzahlplanung (VIII) Intervallbreite Zähne pro Gruppe δ = 20% - 5% // δ = 20% - 10% ± 2.5 % 1276 // 1537 ± 5 % 319 // 385 ± 7.5 % 142 // 171 ± 10 % 80 // 97 realistische Empfehlung: 385 Zähne pro Gruppe drop out-rate: 10% Nettofallzahl: 424 Zähne pro Gruppe

Fallzahlplanung () Faustregel 1: Je geringer der nachzuweisende klinisch relevante Unterschied gefordert wird, desto höher die Fallzahl der Studie! Faustregel 2: Je geringer die einzuhaltende Intervallbreite, desto höher die Fallzahl der Studie! Faustregel 3: Je geringer der einzuhaltende α-fehler gefordert wird (also je höher das Konfidenzniveau), desto höher die Fallzahl der Studie! ( h W h K ) ± 1.96 * h K (1 h K ) + h W (1 h W ) n

Wiedergabe in Publikationen Zentrales Qualitätskriterium: dokumentierte Fallzahlplanung Vorgabe, welcher Unterschied als klinisch relevant erachtet wird Vorgabe zum Mindestwert des Effektmaßes der Studie Vorgabe zum Niveau des KI (meistens 95% oder 99%) Vorgabe zur statistischen Signifikanz der Studie Vorgabe, welche Breite des KI maximal zugelassen wird Vorgabe zur Aussagepräzision der Studie

Wiedergabe in Publikationen Zentrales Qualitätskriterium: dokumentierte Fallzahlplanung Vorgabe, welcher Unterschied als klinisch relevant erachtet wird Vorgabe zum Mindestwert des Effektmaßes der Studie Vorgabe zum Niveau des KI (meistens 95% oder 99%) Vorgabe zur statistischen Signifikanz der Studie Vorgabe, welche Breite des KI maximal zugelassen wird Vorgabe zur Aussagepräzision der Studie damit nach Studienende: klare Entscheidungsregel, ob Ergebnis klinisch relevant ist klar, dass Negativ-Ergebnisse nicht Fallzahl-bedingt sind GOOD CLINICAL PRACTICE (GCP)

Fallzahlplanung bei stetigem Endpunkt Faustregel 1: Je geringer der nachzuweisende klinisch relevante Unterschied gefordert wird, desto höher die Fallzahl der Studie!

Fallzahlplanung bei stetigem Endpunkt Faustregel 1b: Je größer die Streuung in einem stetigen primären Endpunkt, desto höher die Fallzahl der Studie!

Zusammenfassung: Fallzahlplanung Vorgehen entlang Konfidenzintervallen: 1. genaues Festlegen eines (!) primären Endpunkts (wenn möglich binär mit Interpretation Erfolg? [ja / nein]) 2. Vorgabe des klinisch relevanten Unterschieds δ in dessen Auftrittshäufigkeiten 3. Vorgabe der maximal tolerablen Breite ± B und des Konfidenzniveaus (1 α) zum Konfidenzintervall dieses Unterschied in den Auftrittshäufigkeiten 4. Fallzahlvariation entlang Eingabewerten B und δ 5. Fallzahlempfehlung inclusive 10% 20% drop outs höhere Fallzahl bei kleinerem Unterschied δ kleinerer Breite B

take home messages 1. Statistische Signifikanz: Übertragbarkeit 2. Klinische Relevanz: Patientennutzen 3. Statistische Signifikanz ist keine klinische Relevanz! 4. Wiedergabe von Studienergebnissen auf zwei Ebenen: Konfidenzintervall (statistische Signifikanz) Effektmaß (klinische Relevanz) 5. Qualitätskriterien in einer Studienpublikation: primärer klinischer Endpunkt (am besten binär) korrekte Kennwerte für Effektmaß der Studie (Mediane, %,...) Konfidenzintervall oder p-wert für Signifikanz dieses Effektmaß nachvollziehbare Fallzahlplanung