Konfidenzintervalle. die anschauliche Alternative zum p-wert...

Ähnliche Dokumente
Methode des statistischen Testens


Statistische Signifikanz versus Klinische Relevanz der Sch(l)uss von der Studie in die Realität

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Bereiche der Statistik

2.3 Intervallschätzung

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

VII. Inhaltsverzeichnis

Einführung in Planung und Auswertung klinischer Prüfungen: Biometrische Grundlagen

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Multiples Testen wer hat schon immer nur eine Fragestellung?

2.3 Intervallschätzung

Fragebogen Fallzahlberechnung / -begründung

Fallzahlplanung bei unabhängigen Stichproben

Kapitel 3 Schließende Statistik

Qualität von Publikationen randomisierter Nicht-Unterlegenheitsund Äquivalenzstudien

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

3.3 Konfidenzintervalle für Regressionskoeffizienten

Was bedeutet p<0.05?

Beurteilende Statistik

Beschreibende Statistik Deskriptive Statistik. Schließende Statistik Inferenzstatistik. Schluss von der Stichprobe auf die Grundgesamtheit

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Statistik I für Betriebswirte Vorlesung 14

Schätzung im multiplen linearen Modell VI

3 Konfidenzintervalle

8. Konfidenzintervalle und Hypothesentests

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Statistik II. IV. Hypothesentests. Martin Huber

Prof. Dr. Rainer Koch Juli 1997, Februar 2008

Vorlesung: Statistik II für Wirtschaftswissenschaft

Bewertung klinischer Relevanz zwischen 0.2 und ärztlichem Urteil

Mathematische und statistische Methoden II

Wie schreibe ich (m)eine Dissertation???

Konfidenzintervalle. SeKo. Heute. Konjunktion, Disjunktion, bedingte Wahrscheinlichkeit

Diagnose und Prognose: Kurzfassung 4

Software oder Tabellen (nicht Thema dieser Veranstaltung).

= 3. Kapitel 4: Normalverteilung.. und Standardnormalverteilung und: das Konfidenzintervall..

Einführung in Quantitative Methoden

Beispiel: Multiples Modell/Omitted Variable Bias I

limhatewerzeoelhiniii

Study fact sheet für ID: Knapp, 2009

Schließende Statistik

Willkommen zur Vorlesung Statistik (Master)

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Klausur in Biomathematik WS 2005 / 2006 Montag, den 6. Februar 2006

Konfidenzintervalle. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Beispiel: Multiples Modell/Omitted Variable Bias I

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Klausur in Biomathematik WS 2005 / 2006 Montag, den 6. Februar 2006

Klausur in "Biomathematik" WS 2007 / 2008 Montag, den 28. Januar 2008

Qualitätssicherung bei Fallpauschalen und Sonderentgelten. Qualitätsmerkmale (Krankenhausvergleich)

6. Schätzverfahren für Parameter

Studiendesign und Statistik: Interpretation publizierter klinischer Daten

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

11. Sitzung Auswertungsstrategien; Darstellung von Forschungsergebnissen

Willkommen zur Vorlesung Statistik (Master)

Breite eines Konfidenzintervalls*

U N I V E R S I T Ä T S M E D I Z I N B E R L I N. After Work Statistics

Mathematik für Biologen

Statistik II: Grundlagen und Definitionen der Statistik

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Analyse von Querschnittsdaten. Signifikanztests I Basics

Systematische Reviews und Meta-Analysen

Vorlesung: Statistik II für Wirtschaftswissenschaft

Effektgrößen. Evidenz-basierte Medizin und Biostatistik, Prof. Andrea Berghold

Statistik für NichtStatistiker

WB 11 Aufgabe: Hypothesentest 1

Stoffverteilungsplan Mathematik Leistungskurs. Lambacher Schweizer Stochastik ISBN Klassenarbeit

After Work Statistics

Möglichkeiten und Grenzen von Mindestmengen als Regulierungsinstrument

KLAUSUR IN BIOMATHEMATIK WS 2007/08 MONTAG, DEN 28. JANUAR 2008

Medizinische Statistik

Exakter Binomialtest als Beispiel

Statistisches Testen: Signifikanz und Relevanz Christiane Spiel

Institut für Medizinische Biometrie und Epidemiologie

Tabelle 1: Mittelwerte der Messwerte aller Probanden je Messzeitpunkt nach Messverfahren. 03:00 Uhr 18,2 ±3,9 mmhg 19,5 ±4,1 mmhg 19,2 ±3,6 mmhg

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Study fact sheet für ID: Knapp, 2004

Transkript des Vortrags: Bewertung klinischer Relevanz - zwischen 0.2 und ärztlichem Urteil

Risiken einschätzen: die wahren Ursachen feststellen. Marloes Maathuis Seminar für Statistik ETH Zürich

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Statistische Tests für unbekannte Parameter

Statistische Tests für unbekannte Parameter

Kapitel 3 Schließende Statistik

Stoffverteilungsplan Mathematik Grundkurs. Lambacher Schweizer Stochastik ISBN Klassenarbeit

Statistische Methoden in den Umweltwissenschaften

Statistik II. Statistische Tests. Statistik II

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Transkript:

Konfidenzintervalle die anschauliche Alternative zum p-wert...

Grundidee des Konfidenzintervalls Studie Realität Studienergebnis falsch-positiver Rückschluß??? Realität???? Studie 10 %

Grundidee des Konfidenzintervalls Problem des Signifikanztests: ja/nein-antwort Klinischer Bezug in p 0.05??? 95%-Konfidenzintervall: Bereich um Effektmaß der Studie, in dem mit 95%-iger Sicherheit wahrer Wert des Effektmaßes liegt ( ) 30 % Punktschätzer (Studienergebnis) Bereichschätzer (95%-KI)

Grundidee des Konfidenzintervalls Problem des Signifikanztests: ja/nein-antwort Klinischer Bezug in p 0.05??? 95%-Konfidenzintervall: Bereich um Effektmaß der Studie, in dem mit 95%-iger Sicherheit wahrer Wert des Effektmaßes liegt ( ) ( 1 α ) Konfidenzintervall: Bereich um den Punktschätzer (Studie), welcher den wahren Wert mit Sicherheit 1 α enthält. 1 α = Konfidenzniveau α = Irrtumswahrscheinlichkeit

Konfidenzintervall einer Häufigkeit relative Häufigkeit h, binäre Zielgröße h ± 1.96 h(1 h) (95% - KI ) n h ± 2.57 h(1 h) n (99% - KI ) h: relative Häufigkeit in der Studie n: Fallzahl der Studie

Konfidenzintervall einer Häufigkeit Beispiel: Nachstarrate unter 350 Kataraktoperationen Nachstar-OP notwendig bei 70 Eingriffen n = 350, h = 70 / 350 = 20 % h ± 1.96 = 0.20 ± 1.96 h (1 h) n 0.20 (1 0.20) 350 0.20 ± 0.04 h unten = 0.20 0.04 = 0.16 h oben = 0.20 + 0.04 = 0.24 95% - KI = ( 16 % ; 24 % )

Intervallbreite = Präzision der Aussage n = 10 h = 3 / 10 = 30% n = 100 h = 30 / 100 = 30% n = 1000 h = 300 / 1000 = 30% 95%-KI = ( 0.02 ; 0.58 ) 95%-KI = ( 0.21 ; 0.39 ) 95%-KI = ( 0.27 ; 0.33 )

Konfidenzintervall eines Effektmaßes 95 %-Konfidenzintervall des Effektmaßes der Studie: Bereich um den Studienwert des Effektmaßes, in dem mit 95%iger Sicherheit der wahre Wert des Effektmaßes liegt wahrer Effekt Effektmaß Studie ( ) 10 %

Konfidenzintervall eines Effektmaßes Grundidee des 95%-KI des absoluten Risikos: symmetrischer Bereich um Effektmaß-Wert der Studie hängt sonst nur noch ab von Patientenzahl (n) der Studie Studienwert ± 1.96 * irgendwas Wurzel aus der Patientenzahl n sichert 95%ige Aussagesicherheit

Konfidenzintervall eines Effektmaßes Berechnung des 95%-KI des absoluten Risikos: Komplikationsrate h K = 10% nach konservativer Versorgung Komplikationsrate h W = 20% nach Stift-gestützter Versorgung ( h W h K ) ± 1.96 * (20% - 10%) ± 1.96 h K (1 h K ) + h W (1 h W ) n 10% * 90% + 20% * 80% 100 10% ± 9.8 % 95%-Konfidenzintervall: ( 0.2 % ; 19.8 % )

Konfidenzintervall eines Effektmaßes 0 % 10 % ( ) absolute Risikodifferenz [%]

Konfidenzintervall eines Effektmaßes Signifikanzaussagen mittels 95%-KI des absoluten Risikos: statistische Signifikanz: 0 ist nicht im 95%-KI enthalten 0 ( ) absolutes Risiko signifikant erhöht

Konfidenzintervall eines Effektmaßes Signifikanzaussagen mittels 95%-KI des absoluten Risikos: statistische Signifikanz: 0 ist nicht im 95%-KI enthalten 0 ( absolutes Risiko signifikant gesenkt ) ( absolutes Risiko signifikant erhöht ) ( absolute Risiken nicht signifikant erhöht / gesenkt ( ) )

Konfidenzintervall eines Effektmaßes 0 % 10 % ( ) absolute Risikodifferenz [%] Die Komplikationsraten zwischen konservativ und Stift-gestützt versorgten Endodontien sind statistisch signifikant verschieden.

Konfidenzintervall eines Effektmaßes Beispielstudie: Prognose von Wurzelstift-gestützter versus konservativer Versorgung von Prämolaren primärer Endpunkt: Komplikation im Zeitraum 5 Jahre nach Ende der Versorgung [ja / nein] klinisch relevanter Vorteil: Unterschied der Komplikationsraten um mindestens 10 Prozent

Konfidenzintervall eines Effektmaßes Beispielstudie: Prognose von Wurzelstift-gestützter versus konservativer Versorgung von Prämolaren primärer Endpunkt: Komplikation im Zeitraum 5 Jahre nach Ende der Versorgung [ja / nein] klinisch relevanter Vorteil: Unterschied der Komplikationsraten um mindestens 10 Prozent mögliche Risikofaktoren: Versorgungsart [Stift / konservativ] Kiefer [Oberkiefer / Unterkiefer] Oralhygiene [hinreichend / suboptimal] Nachbarversorgungen [keine / progn. relevante] Alter bei Versorgung [< 40 Jahre / > 40 Jahre] etc. etc.

Konfidenzintervall eines Effektmaßes 0 % 10 % absolute Risikodifferenz [%] Stift ( ) Oberkiefer ( ) Oralhygiene ( ) Nachbarvers. ( ) Alter < 40 ( )

Konfidenzintervall eines Effektmaßes Interpretation des 95%-KI des absoluten Risikos: klinische Relevanz: Lage des Studienwerts statistische Signifikanz: 0 ist nicht im KI enthalten Aussagepräzision: Breite des KI Kommentar: genauso im Falle eines quantitativen primären Endpunkts mit 95%-Konfidenzintervall des Median-Abstands möglich!

hunting for significance... (IV) Komplikationsraten 10% versus 20% bei wachsender Fallzahl n n = 30 Zähne pro Gruppe: 95%-KI = ( 0.09 ; 0.29 ) n = 60 Zähne pro Gruppe: 95%-KI = ( 0.06 ; 0.26 ) n = 90 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.21 ) n = 120 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.19 ) 10% ( ( ( ( ) ) ) )

hunting for significance... (V) Komplikationsraten 10% versus 20% bei wachsender Fallzahl n n = 30 Zähne pro Gruppe: 95%-KI = ( 0.09 ; 0.29 ) p = 0.286 n = 60 Zähne pro Gruppe: 95%-KI = ( 0.06 ; 0.26 ) p = 0.215 n = 90 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.21 ) p = 0.061 n = 120 Zähne pro Gruppe: 95%-KI = ( 0.01 ; 0.19 ) p = 0.030 n = 150 Zähne pro Gruppe: 95%-KI = ( 0.02 ; 0.18 ) p = 0.014

hunting for significance... (VI) Also: Werden nur genug Patienten eingebracht, zeigt jede Studie ein signifikantes Ergebnis!!! Statistische Signifikanz ist keine klinische Relevanz!!!

rumgedreht: Fallzahlplanung (I) Fakt: je größer die Fallzahl, desto schmaler das Intervall Idee: Intervallbreite vorgeben, daraus Fallzahl bestimmen also: Fallzahlplanung abhängig von Vorinformation!!! ( h W h K ) ± 1.96 * h K (1 h K ) + h W (1 h W ) n

Fallzahlplanung (II) Unterschied: h W = 20 % (Stift-gestützt) h K = 10 % (konservativ) Intervallbreite: maximal ± 5 % 0 % 10 % ( ) ±5%

Fallzahlplanung (III) Unterschied: h W = 20 % (Stift-gestützt) h K = 15 % (konservativ) Intervallbreite: maximal ± 5 % 0 % 5 % ( ) ±5%

Fallzahlplanung (IV) Unterschied: h W = 20 % (Stift-gestützt) h K = 15 % (konservativ) Intervallbreite: maximal ± 2,5 % 0 % 5 % ( ) ±2,5%

Fallzahlplanung (VII) Intervallbreite Zähne pro Gruppe ± 2.5 % 1276 ± 5 % 319 ± 7.5 % 142 ± 10 % 80 realistische Empfehlung: 142 Zähne pro Gruppe drop out-rate: 10% Nettofallzahl: 160 Zähne pro Gruppe

Fallzahlplanung (VIII) Intervallbreite Zähne pro Gruppe δ = 20% - 5% // δ = 20% - 10% ± 2.5 % 1276 // 1537 ± 5 % 319 // 385 ± 7.5 % 142 // 171 ± 10 % 80 // 97 realistische Empfehlung:???

Fallzahlplanung (VIII) Intervallbreite Zähne pro Gruppe δ = 20% - 5% // δ = 20% - 10% ± 2.5 % 1276 // 1537 ± 5 % 319 // 385 ± 7.5 % 142 // 171 ± 10 % 80 // 97 realistische Empfehlung: 385 Zähne pro Gruppe drop out-rate: 10% Nettofallzahl: 424 Zähne pro Gruppe

Fallzahlplanung () Faustregel 1: Je geringer der nachzuweisende klinisch relevante Unterschied gefordert wird, desto höher die Fallzahl der Studie! Faustregel 2: Je geringer die einzuhaltende Intervallbreite, desto höher die Fallzahl der Studie! Faustregel 3: Je geringer der einzuhaltende α-fehler gefordert wird (also je höher das Konfidenzniveau), desto höher die Fallzahl der Studie! ( h W h K ) ± 1.96 * h K (1 h K ) + h W (1 h W ) n

Wiedergabe in Publikationen Zentrales Qualitätskriterium: dokumentierte Fallzahlplanung Vorgabe, welcher Unterschied als klinisch relevant erachtet wird Vorgabe zum Mindestwert des Effektmaßes der Studie Vorgabe zum Niveau des KI (meistens 95% oder 99%) Vorgabe zur statistischen Signifikanz der Studie Vorgabe, welche Breite des KI maximal zugelassen wird Vorgabe zur Aussagepräzision der Studie

Wiedergabe in Publikationen Zentrales Qualitätskriterium: dokumentierte Fallzahlplanung Vorgabe, welcher Unterschied als klinisch relevant erachtet wird Vorgabe zum Mindestwert des Effektmaßes der Studie Vorgabe zum Niveau des KI (meistens 95% oder 99%) Vorgabe zur statistischen Signifikanz der Studie Vorgabe, welche Breite des KI maximal zugelassen wird Vorgabe zur Aussagepräzision der Studie damit nach Studienende: klare Entscheidungsregel, ob Ergebnis klinisch relevant ist klar, dass Negativ-Ergebnisse nicht Fallzahl-bedingt sind GOOD CLINICAL PRACTICE (GCP)

Fallzahlplanung bei stetigem Endpunkt Faustregel 1: Je geringer der nachzuweisende klinisch relevante Unterschied gefordert wird, desto höher die Fallzahl der Studie!

Fallzahlplanung bei stetigem Endpunkt Faustregel 1b: Je größer die Streuung in einem stetigen primären Endpunkt, desto höher die Fallzahl der Studie!

Zusammenfassung: Fallzahlplanung Vorgehen entlang Konfidenzintervallen: 1. genaues Festlegen eines (!) primären Endpunkts (wenn möglich binär mit Interpretation Erfolg? [ja / nein]) 2. Vorgabe des klinisch relevanten Unterschieds δ in dessen Auftrittshäufigkeiten 3. Vorgabe der maximal tolerablen Breite ± B und des Konfidenzniveaus (1 α) zum Konfidenzintervall dieses Unterschied in den Auftrittshäufigkeiten 4. Fallzahlvariation entlang Eingabewerten B und δ 5. Fallzahlempfehlung inclusive 10% 20% drop outs höhere Fallzahl bei kleinerem Unterschied δ kleinerer Breite B

take home messages 1. Statistische Signifikanz: Übertragbarkeit 2. Klinische Relevanz: Patientennutzen 3. Statistische Signifikanz ist keine klinische Relevanz! 4. Wiedergabe von Studienergebnissen auf zwei Ebenen: Konfidenzintervall (statistische Signifikanz) Effektmaß (klinische Relevanz) 5. Qualitätskriterien in einer Studienpublikation: primärer klinischer Endpunkt (am besten binär) korrekte Kennwerte für Effektmaß der Studie (Mediane, %,...) Konfidenzintervall oder p-wert für Signifikanz dieses Effektmaß nachvollziehbare Fallzahlplanung