Einführung in Planung und Auswertung klinischer Prüfungen: Biometrische Grundlagen

Einführung in Planung und Auswertung klinischer Prüfungen: Biometrische Grundlagen PD Dr. Thomas Sudhop PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 1

Klinische Prüfung Biomedizinisches Experiment mit Arzneimitteln am Menschen Versuch eine Aussage für eine Population zu generieren anhand von Daten, die aus einer Stichprobe aus der Population ermittelt wurden Fragestellung Klinische Relevanz? Stichprobe Repräsentativität? PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 2

Fragestellungen Klinischer Prüfungen Explorative Fragestellungen i.a. keine statistischen Tests Vorherige Festlegung sinnvoll Deskriptive Analytik Lagemaße, Streumaße (Konfidenzintervalle) Konfirmatorische Fragestellungen i.a. Anwendung statistischer Tests Vorherige Festlegung notwendig Primäre Zielgröße(n), sekundäre Zielgrößen PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 3

Beispiele für explorative Analysen Pharmakokinetik AUC, C max, t max, t 1/2 Häufig Geometrischer Mittelwert Bestimmung aus logarithmierten Werten Bestimmung einer Wirkdifferenz Mittelwert mit Streuungsparameter Bestimmung eines Verhältnisses Odd s Ratio (Risk/Hazard Ratios) PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 4

Konfirmatorische Fragestellungen Prüfung einer vorab festgelegten Hypothese Entscheidung, ob an der vorab festgelegten Hypothese festgehalten wird oder diese Hypothese verworfen werden muss, erfolgt auf der Basis einer experimentellen Beobachtung Die Daten der Beobachtungen sind Realisationen von Zufallsvariablen, daher besteht keine absolute Sicherheit, ob die Hypothese tatsächlich zutrifft oder nicht Mit Hilfe statistischer Test wird versucht die Wahrscheinlichkeit von Fehlentscheidungen zu kontrollieren PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 5

Falsifikationismus Annahme, dass Hypothesen sich niemals sicher beweisen lassen, aber gegebenenfalls widerlegen lassen Nach diesem Prinzip werden viele statistische Tests in der Medizin durchgeführt: Die Widerlegung einer fehlerhaften Hypothese führt zur Akzeptanz der Alternativ-Hypothese (in einem vollständigen Hypothesenmodell) D.h. viele Tests haben nicht den Beweis der H0- Hypothese zum Ziel, sondern deren Widerlegung PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 6

Hypothese 0) Das Mittel wirkt nicht (Falls man einen Effekt sieht, war dieser zufällig) 1) Das Mittel wirkt (Die beobachtete Wirkung war systematisch) Die beiden Hypothesen schließen sich aus Wenn die Hypothese unter 0) wahr ist, muss die alternative Hypothese unter 1) falsch sein, und umgekehrt Weicher formuliert: Wenn angenommen wird, die Null-Hypothese sei falsch, dann muss daraus gefolgert werden, die Alternativ-Hypothese PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 7

Konsequenzen einer Fehlentscheidung 0) Das Mittel wirkt nicht Der Angeklagte ist nicht schuldig 1) Das Mittel wirkt Der Angeklagte ist schuldig Welche Fehlannahme (welcher Irrtum) ist schlimmer? In der Rechtsprechung gilt: In dubio pro reo Im Zweifel für den Angeklagten Würde fälschlicherweise die Hypothese H0 widerlegt (verworfen), würde deshalb fälschlicherweise die Hypothese H1 als wahr angenommen ein Unschuldiger würde fälschlich verurteilt In der Medizin: Nihil nocere (Alles) nur nicht schaden! Würde fälschlicherweise die Hypothese H0 widerlegt (verworfen), würde deshalb fälschlicherweise die Hypothese H1 als wahr angenommen ein nicht wirksames Arzneimittel (mit möglicherweise drastischen Nebenwirkungen) würde fälschlicherweise als wirksam angesehen Keinen Nutzen aber ev. Schaden PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 8

Statistischer Test Hypothesengenerierung Untersuchung zum Einfluss einer medizinischen Intervention H 0 : Intervention hat keinen Einfluss auf Erkrankungsverlauf H 1 : Intervention hat einen Einfluss auf Erkrankungsverlauf Bezogen auf gemessene Differenzen einer Stichprobe (z.b. Vorher- Nachher-Vergleich) H 0 : Differenz ist nicht 0 verschieden H 1 : Differenz ist von 0 verschieden (Intervention hat Einfluss!) PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 9

Aufbau der Hypothesen Die Null-Hypothese (H 0 ) geht von keinem systematischen Unterschied aus. Falls Unterschiede gefunden werden, werden diese als zufällig und nicht als systematisch betrachtet Die Alternativ-Hypothese (H 1 / H A ) ist die logische Umkehrung der Null- Hypothese, d.h. es existiert ein systematischer Unterschied Gefundene Unterschiede sind nicht zufällig, sondern systematisch Null- und Alternativ-Hypothesen müssen sich gegenseitig ausschließen und alle Möglichkeiten abdecken Wenn H 0 falsch ist, muss H 1 wahr sein Wenn H 0 wahr ist, muss H 1 falsch sein PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 10

Experimentergebnis und Wirklichkeit 4 Möglichkeiten, wie Testergebnis und Wirklichkeit zusammentreffen können Das Experiment sagt das AM wirkt und es wirkt in auch Wirklichkeit RICHTIG POSITIV ( zu Recht Wirkung entdeckt ) Das Experiment sagt das AM wirkt, aber das AM wirkt in Wirklichkeit nicht FALSCH POSITIV ( zufällig eine Wirkung entdeckt, lag aber nicht am AM ) Das Experiment sagt das AM wirkt nicht und das AM wirkt auch in Wirklichkeit nicht RICHTIG NEGATIV ( zu Recht keine Wirkung gefunden ) Das Experiment sagt das AM wirkt nicht, aber das AM wirkt in Wirklichkeit FALSCH NEGATIV ( zufällig keine Wirkung entdeckt, obwohl es wirkt ) PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 11

Experiment Statische Fehler Fehler I. Art und II. Art AM wirkt! (H 1 ist wahr) AM wirkt nicht (Zufall)! (H 0 ist wahr) AM wirkt! (H 0 ablehnen) Richtig positiv (Power = 1-b) Falsch positiv (Fehler I. Art a-fehler) AM wirkt nicht (Zufall)! (H 0 beibehalten) Falsch positiv (Fehler I. Art a-fehler) Richtig negativ PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 12

Testergebnis und Wirklichkeit Statistische Fehler a-fehler (FALSCH POSITIVES TESTERGEBNIS) Eine Wirkung wird angenommen, wo keine ist H 0 -Hypothese wird abgelehnt, obwohl H 0 in Wirklichkeit wahr ist Es wird angenommen das Arzneimittel wirkt, obwohl? b-fehler (FALSCH NEGATIVES TESTERGEBNIS) Eine vorhandene Wirkung wird nicht erkannt H 0 -Hypothese wird akzeptiert, obwohl H 1 in Wirklichkeit wahr ist Es wird angenommen das Arzneimittel wirkt nicht, obwohl? Welcher Fehler ist schlimmer und ist daher eher zu vermeiden? PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 13

Signifikanz-Niveau Konsequenzen eines falsch-positiven Tests Uneffektive Behandlung Risiko ohne Nutzen ( Nihil nocere ) Kosten ohne Nutzen Fazit Das Risiko eines falsch positiven Tests ist zwar nicht vermeidbar, sollte aber vorher bekannt sein und durch vorherige Festlegung eines a-niveaus (Signifikanz-Niveaus) kontrolliert werden Festlegung der maximalen Wahrscheinlichkeit ein falsch positives Testergebnis zu akzeptieren (Irrtumswahrscheinlichkeit) Übliche Werte für a 0,05 (5%), 0,01 (1%), 0,001 (0,1%)... Das Signifikanz-Niveau muss vorher im Prüfplan festgelegt werden PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 14

Ablauf eines statistischen Tests Festlegung des Höchstwertes für den Fehlers 1. Art (α-fehler) Normalerweise Signifikanzniveau α < 0,05 (<5%) Festlegung der Hypothesen H0: AM wirkt nicht / H1: AM wirkt und Festlegung des stat. Verfahrens Datengenerierung in der klinischen Prüfung und Dateneingabe in Statistik-Programm Statistik-Programm liefert p-wert für die vorgegebene Test-Statistik und die eingegebenen Daten ja Ist der p-wert < α (0,05)? nein Testergebnis signifikant H0 wird verworfen H1 wird angenommen AM wirkt! Testergebnis nicht signifikant H0 wird beibehalten H1 wird nicht angenommen AM wirkt nicht! PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 15

Bedeutung des p-wertes Stat. Tests liefern einen p-wert, der in Relation zum vorher festgelegten Signifikanz- Niveau a die Entscheidung zur Annahme oder Ablehnung der Test-Hypothesen bewirkt Ist der p-wert kleiner als das zuvor festgelegte Signifikanz-Niveau a, wird die H0- Hypothese verworfen und H1-Hypothese angenommen Einfacher formuliert (Voraussetzung H0/H1 sind korrekt gewählt und a = 0,05): Ist p < 0,05 haben wir einen signifikanten Unterschied gefunden Ist p < 0,05 nehmen wir eine Wirkung des AM an! Ist p < 0,05 irren wir uns mit einer Irrtumswahrscheinlichkeit von höchstens 5%, dass das AM fälschlicherweise wirkt [falsch positiv] Würden wir 100 mal das Experiment (Studie) wiederholen, würden wir allerhöchstens in 5 Experimenten versehentlich eine Wirkung des AMs beobachten PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 16

Statistische Testverfahren PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 17

2-Stichproben-Tests Parametrisch Nicht-parametrisch Verbundene Daten (gepaart) Gepaarter t-test Wilcoxon signed-ranks Test unverbundene Daten t-test für unverbundene Daten Mann-Whitney U Test PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 18

Parametrische vs. nicht-parametrische Testung Bei der parametrischen Testung wird die gesamte Information, d.h. z.b. die absolute Differenz zum Lagemaß herangezogen Bei nicht-parametrischer Testung werden die Absolutwerte durch z.b. Rangwerte ersetzt, d.h. es wird nur noch die relative Position in einer Stichprobe zur Berechnung herangezogen, nicht aber die absolute Lage PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 19

Studie: Neue Tablette zur RR-Senkung Diastolischer Blutdruck (mmhg) vor Behandlung nach Behandlung Differenz 97 95-2 - 96 90-6 - 98 94-4 - 99 89-10 - 90 88-2 - 89 82-7 - 90 90 0 0 95 85-10 - 91 95 4 + 90 90 0 0 94 96 2 + -3.18 PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 20

Studie: Neue Tablette zur RR-Senkung α = 0.05 (5%), gepaarter t-test Diastolischer Blutdruck (mmhg) vor Behandlung nach Behandlung Differenz 97 95-2 96 90-6 98 94-4 99 89-10 90 88-2 89 82-7 90 90 0 95 85-10 91 95 4 90 90 0 94 96 2-3.18 p-wert (gepaarter t-test, 2-seitig) 0.0472 PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 21

Aussage des p-wertes Im Voraus definiertes Signifikanzniveau a = 0,05 Ermittelter p-wert im gepaarten t-test: p = 0,047 = 4,7/100 = 4,7% = 47/1000 p < 0,05 Interpretation des p-wertes Bei 1000-facher Wiederholung des Experiments würde bei 47 Experimenten eine Differenz von 3,18 mmhg oder mehr im diastolischen Blutdruck zufällig beobachtet werden, ohne dass das Arzneimittel tatsächlich wirkt Die Wahrscheinlichkeit, dass die im Experiment gefundene Differenz von 3,18 mmhg zufälliger Natur ist und nicht auf einem systematischen Effekt beruht, ist 4,7% (und damit kleiner als das vorher festgelegte Signifikanzniveau von 5%) Da der p-wert kleiner als das vorher festgelegte Signifikanzniveau a ist, wird der gefundene Unterschied nicht als zufällig sondern als systematisch betrachtet, d.h. wir sind hinreichend sicher, dass die gefundene Differenz auf den Effekten der Intervention basiert (Einnahme der neuen Tablette) und nicht eine zufällige Beobachtung darstellt Ein solche Differenz wird signifikant genannt, man spricht von einem signifikanten Unterschied PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 22

Abhängigkeit des p-wertes Umfang der Stichprobe ( Fallzahl ) Tatsächlicher Unterschied der Stichprobe Streuung in der Stichprobe PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 23

Studie: Neue Tablette zur RR-Senkung α = 0,05 (5%), gepaarter t-test, 2-seitig Vor Therapie Nach Therapie Differenz 97 95-2 96 90-6 98 94-4 99 89-10 90 88-2 89 82-7 90 90 0 95 85-10 91 95 4 90 90 0 94 96 2 Differenz -3,18 p-wert (2-seitiger verbundener t-test) 0,04720228 PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 24

Studie: Neue Tablette zur RR-Senkung α = 0,05 (5%), gepaarter t-test, 2-seitig Vor Therapie Nach Therapie Differenz 97 95-2 96 90-6 98 94-4 99 89-10 89 82-7 90 90 0 95 85-10 91 95 4 90 90 0 94 96 2 Differenz -3,30 p-wert (2-seitiger verbundener t-test) 0,062056988 Entfernung eines Datensatzes aus der Stichprobe führt trotz Zunahme der RR-Senkung (-3,30 vs. -3,18) zu einer Verschlechterung des p-wertes (p>0,05): Senkung des RR nicht mehr signifikant! PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 25

Einfluss der Fallzahl Eine zu geringe Fallzahl kann falsch negative statistische Testergebnisse bewirken (Fehler II. Art/b-Fehler) Experimente müssen die notwendige statistische Power aufweisen, um signifikante Ergebnisse liefern zu können Fazit: Beim Design eines Experiments ist eine Fallzahlabschätzung notwendig! PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 26

b-fehler und Statistische Power b-fehler Definition: Wahrscheinlichkeit H 0 nicht zu verwerfen, obwohl H 0 falsch ist z.b.: Obwohl µ PBO µ Z99 liefert der Test x PBO = x Z99 (falsch negatives Ergebnis) Statistische Power (1-b) Definition: Wahrscheinlichkeit H0 zu verwerfen, wenn H0 falsch ist, d.h. die Wahrscheinlichkeit eine reale Differenz auch als solche zu entdecken Vereinfacht: Wahrscheinlichkeit ein signifikantes Testergebnis zu erhalten (wenn ein signifikanter Unterschied besteht) PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 27

Vermeidung von b-fehlern: Power-Schätzung/Berechnung Power-Schätzung Wenn die statistische Power eines Studiendesigns nur 50% beträgt, wird jede 2. Studie mit diesen Parametern keine signifikanten Unterschiede anzeigen Konfirmatorische Studien: Power 80% Große Phase III Studien: 85-90% PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 28

GPOWER - Version 2.0 Franz Faul & Edgar Erdfelder Power & Fallzahl PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 29

n n n n Faktoren, die die Fallzahl beeinflussen Signifikanz-Niveau (a) Je niedriger das angestrebte a, um so höher die erforderliche Fallzahl Power (1-b) Je größer die gewünschte Power, um so höher die erforderliche Fallzahl a Geschätzte Differenz Je kleiner die nachzuweisende Differenz, um so höher die erforderliche Fallzahl Power Geschätzte Standardabweichung Je größer die Standardabweichung, um so höher die erforderliche Fallzahl x PBO - x Z99 SD PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 30

Fallzahlberechnung 1. Festlegung von a und gewünschter Power z.b. a = 0.05 (5%), power = 80% 2. Schätzung der nachzuweisenden Differenz Ist die Schätzung klinisch relevant? 3. Schätzung der erwarteten Varianz/Standardabweichung Möglichst realistische Werte aus vorangegangenen Experimenten oder der Literatur verwenden 4. Fallzahlberechnung durchführen (oder durchführen lassen!) Ist die geschätzte Fallzahl klinisch realisierbar? Ist die geschätzte Fallzahl adäquat zum klinischen Problem? Anpassung der Fallzahl an die geschätzte Drop-Out-Rate PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 31

Beispiel einer Fallzahlschätzung a = 5% Power = 80% Geschätzte Differenz & SD x PBO - x Z99 ~ 13 mmhg SD pooled ~ 16 Effektstärke = 13/16 = 0,8125 Fallzahlberechnung 2 x n = 50, n = 25 Antizipierte Drop out -Rate: 20% 30 Patienten pro Gruppe benötigt PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 32

Signifikant Relevant Unabhängig von der Teststatistik ist die klinische Relevanz der beobachteten Unterschiede zu bewerten Ist eine signifikante Senkung des diastolischen Blutdrucks von 0,9 mmhg wirklich auch klinisch relevant? Wie viele Patienten müssten im obigen Beispiel behandelt werden, um auch einen Schlaganfall zu verhindern? Umgekehrt: Ist ein nicht-signifikantes Ergebnis ohne Information? Ist eine Senkung des diastolischen Blutdrucks um 12 mmhg mit einem p-wert von p=0,055 in einer Studie mit 13 Patienten wirklich ein Beweis, dass das Arzneimittel nicht den Blutdruck senkt? PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 33

Konfidenzintervalle & Statistische Tests PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 34

Konfidenzintervalle x = 6 mmhg 95%-KI für einen Mittelwert: Das Intervall, in dem mit 95%iger Wahrscheinlichkeit der wahre Mittelwert liegt 3 mmhg x = 12 mmhg 9 mmhg 99%-KI: Das Intervall für einen Wert, in dem mit 99%iger Wahrscheinlichkeit der wahre Mittelwert liegt Die Breite des KI hängt ab Vom Stichprobenumfang: Je kleiner die Stichprobe umso größer das KI Von der Präzision des KI: 99%-KI ist breiter als 95%-KI 1 mmhg 13 mmhg x 1,96*SEM SEM SD n PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 35

Beispiele für Konfidenzintervalle Odd s Ratio (OR) für Depressionen in Abhängigkeit vom Geschlecht bei 2 Studien Bedeutung der OR > 1: Risiko ist für Frauen erhöht = 1: Risiko ist für Frauen gleich hoch < 1: Risiko ist für Frauen erniedrigt Studie A OR für Depressionen bei Frauen: 2,8; 95%KI: [1,4; 4,2] Studie B OR für Depressionen bei Frauen: 2,8; 95% KI:[0,9; 5,7] 1,4 4,2 0,9 5,7 1,0 2,8 PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 36

p-wert und Konfidenzintervall für Differenzen Mittlere Differenz -3,18 mmhg, Standardabweichung 4,76 mmhg 95%-Konfidenzintervall der Differenz [-5,94 ; -0,42 mmhg] Interpretation Bei 100 Stichprobenziehungen würde bei 95 die gefundene Differenz in dem Intervall von -5,94 bis -0,42 mmhg liegen Die wahre Differenz der Population liegt mit 95%iger Wahrscheinlichkeit in dem Intervall [-5,94 ; -0,42 mmhg] Mit mindestens 95% Wahrscheinlichkeit ist die Null ( 0 ) nicht im Konfidenzintervall enthalten, d.h. es wird mit 95% Wahrscheinlichkeit ein systematischer Effekt der Behandlung beobachtet Die Wahrscheinlichkeit, dass die beobachtete Differenz nur zufälliger Natur ist, liegt unter 5% PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 37

Genderaspekte 42 Abs. 2 AMG: Die Genehmigung darf nur versagt werden, wenn 2. die vorgelegten Unterlagen, insbesondere die Angaben zum Arzneimittel und der Prüfplan einschließlich der Prüferinformation nicht dem Stand der wissenschaftlichen Erkenntnisse entsprechen, insbesondere die klinische Prüfung ungeeignet ist, den Nachweis der Unbedenklichkeit oder Wirksamkeit eines Arzneimittels einschließlich einer unterschiedlichen Wirkungsweise bei Frauen und Männern zu erbringen, oder PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 38

Genderaspekte Bei der Planung einer Studie sind bereits Geschlechtsaspekte zu berücksichtigen Population: Entspricht das rekrutierte Geschlechterverhältnis der Prävalenz in der Zielpopulation Response Verträglichkeit Abbruchraten PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 39

Vielen Dank für Ihre Aufmerksamkeit! Kontakt Bundesinstitut für Arzneimittel und Medizinprodukte Wissenschaftlicher Service Kurt-Georg-Kiesinger-Allee 3 53175 Bonn Ansprechpartner PD Dr. Thomas Sudhop Thomas.Sudhop@bfarm.de www.bfarm.de Tel. +49 (0)228 99 307-4360 Fax +49 (0)228 99 307-3424 PD Dr. Thomas Sudhop Ringvorlesung - Biometrie 25.10.2016 Seite 40