Biometrische Beratung. Biometrisches Tutorial. Biometrisches Tutorial. Biometrisches Tutorial. Was ist Statistik? Was ist Statistik?

Biometrische Beratung Dienstleistung des Instituts für Medizinische Informatik und Statistik für Doktoranden, Habilitanden und wissenschaftlichen Mitarbeitern/Mitarbeiterinnen der Medizinischen Fakultät. Beratung wissenschaftlicher Arbeiten umfasst: - Studien- und Versuchsplanung - Datenerfassung - Statistische Auswertungsverfahren - Darstellung/Interpretation von Ergebnissen - wissenschaftliche Publikationen - Als Vorbereitung auf weiterführende Beratungen wird die Teilnahme am biometrischen Tutorial vorausgesetzt. Darin werden folgende Themen behandelt: - Statistik in der Medizin - Studienplanung - Datenaufbereitung / beschreibende Statistik - Statistisches Testen - Auswertungsverfahren Biometrisches Tutorial Danach können Sie Biometrisches Tutorial Biometrisches Tutorial sich von uns beraten lassen! ihre Fragestellung formulieren ihr Forschungsvorhaben strukturieren ihre Daten aufbereiten statistische Verfahren unterscheiden/anwenden ihre Ergebnisse interpretieren Amke Caliebe Jürgen Hedderich Sandra Freitag-Wolf Oliver Vollrath Was ist Statistik? Was ist Statistik? Definition "Statistik bezeichnet die Mathematik des Sammelns, Ordnens und Interpretierens numerischer Daten, insbesondere zur Analyse von Populationscharakteristika auf der Grundlage von Stichproben." American Heritage Dictionary Deskriptive Statistik Zusammenfassung experimenteller und observationaler Daten Schätztheorie Schätzung von Behandlungseffekten Hypothesentests Entscheidungsfindung auf der Basis empirischer Beobachtungen Assoziations- und Regressionsanalyse Modellierung des Zusammenhangs von Faktoren Universitätsklinikum Schleswig-Holstein 2005 Seite: 1

Wozu Statistik in der Medizin? kritische Bewertung von Beobachtungen Berücksichtigung des Zufalls Ergänzung des "gesunden Menschenverstands" "Wissenschaftliche Theorien, die auf Eigenschaften einer großen Zahl von Individuen rekurrieren, [...] werden anfällig gegen Fehlinterpretationen, wenn man die statistische Natur ihrer Beweisgrundlagen aus dem Auge verliert." Ronald Aylmer Fisher (1890-1962) Verständnis der wissenschaftlichen Literatur Verstehen von Zweck und Design Beurteilung der wissenschaftlichen Glaubwürdigkeit Design und Durchführung von Experimenten Wahl des angemessenen Studiendesigns Gebrauch angemessenen statistischen Methode richtige Interpretation von Resultaten Evidenzbasierte Medizin "... das systematische Auffinden, Bewerten, und Nutzen aktueller wissenschaftlicher Ergebnisse als Grundlage klinischer Entscheidungen." Rosenberg W, Donald A (1995). Evidence based medicine: an approach to clinical problem solving. BMJ 310: 1122-1126 "... verlangt, dass Sie den richtigen Artikel zur richtigen Zeit lesen und anschließend Ihr Verhalten (und, was oft viel schwieriger ist, das Verhalten anderer Leute) dementsprechend ändern" Greenhalgh T (1997). How to read a paper: the basics of evidence based medicine. BMJ, London Ziel Verbesserung der medizinischen Praxis auf der Grundlage valider wissenschaftlicher Forschung. Methodik Frage Design Studie Schlussfolgerung universelle Realität Evidenzbasierte Medizin valide Forschung als Grundlage Analyse Daten Studienrealität generische Fragestellungen Hat eine bestimmte Ursache einen bestimmten Effekt? Wie groß ist der Effekt einer bestimmten Ursache? Grundlagenforschung Sekundärforschung Primärforschung Klinische Forschung Epidemiologische Forschung Metaanalyse Reviews Beispiele Verursacht Rauchen Krebs und Herzerkrankungen? Erhöht regelmäßiger Sport die Lebenserwartung? Prädisponiert Accutan zum Selbstmord? Um wie viel erhöht Asbest das Krebsrisiko? Wie groß ist das Geburtsgewicht von Frühgeborenen? experimentell Klinische Prüfung, Phase I-IV beobachtend Therapie-, Prognose-, Diagnose- Anwendungs- Beobachtung experimentell Interventionsstudien beobachtend Querschnittstudien, Kohortenstudien, Fall-Kontroll-Studien Universitätsklinikum Schleswig-Holstein 2005 Seite: 2

experimentell oder beobachtend Die meisten medizinisch-wissenschaftlichen Studien lassen sich grob klassifizieren als experimentelle Studien einer oder mehrere Faktoren werden bewusst auf einem bestimmten Niveau festgelegt. Beobachtungsstudien Daten werden in einer gegebenen Situation erhoben, ohne Eingriff des Beobachters. Behandlung oder Kontrolle Eine der grundlegenden Methoden des wissenschaftlichen Arbeitens besteht im Vergleich zweier Gruppierungen. Behandlungsgruppe - erhielt eine bestimmte Behandlung - weist ein gewisses Merkmal (eine Krankheit) auf - ist (war) einem bestimmten Einfluss ausgesetzt Kontrollgruppe - erhielt keine bzw. eine Vergleichs- oder Kontrollbehandlung (Placebo) - weist ein gewisses Merkmal (eine Krankheit) nicht auf - ist (war) einem bestimmten Einfluss nicht ausgesetzt Stichproben- oder systematische Fehler Stichproben- oder systematische Fehler Die Aussagekraft wissenschaftlicher Studien wird durch zwei Arten von Fehlern beeinträchtigt. Stichprobenfehler reflektieren zufällige Komponenten des Mess- bzw. Beobachtungsvorgangs, verfälschen aber "im Mittel" nicht das Ergebnis systematische Fehler (engl. Bias) verfälschen "im Mittel" Beobachtungen oder Messungen (zufällig oder deterministisch) in eine bestimmte Richtung genau präzise genau nicht präzise nicht genau präzise nicht genau nicht präzise systematische Fehlermöglichkeiten (Bias) Fehlerbegrenzung Typ Auswahlbias (Verfügbarkeit) Durchführungsbias (Aufmerksamkeit) Zermürbungsbias (Compliance) Entdeckungsbias (Interpretation) Stadium Zuweisung, Rekrutierung Intervention, Beobachtung Intervention, Nachverfolgung Erhebung, Auswertung Zur Begrenzung von Fehlern müssen Behandlungs- und Kontrollgruppe vergleichbar sein hinsichtlich... Struktur gleiche Verteilung kritischer Einflussfaktoren wie z.b. Alter und Geschlecht Behandlung gleiche Behandlungsbedingungen, außer eventuell für experimentell relevante Faktoren Beobachtung gleiche Beobachtungs- und Dokumentationsbedingungen Universitätsklinikum Schleswig-Holstein 2005 Seite: 3

Fehlerbegrenzung Systematische und zufällige Fehler werden in Beobachtungsstudien begrenzt durch - Matching - Stratifizierung - Adjustierung für Störgrößen (Modellierung) - Erhöhung des Stichprobenumfangs - Replikation Systematische und zufällige Fehler werden in experimentellen Studien begrenzt durch - Randomisierung - Verblindung - Matching, Stratifizierung Fehlerbegrenzung - Vermeidung von Störgrößen - Erhöhung des Stichprobenumfangs, Replikation Klinische Forschung Experimentelle Studie "Kontrollierte klinische Studien, in denen Patienten, die ein Medikament bekommen haben, mit solchen verglichen werden, die einer anderen Behandlung unterzogen wurden, ist der beste wissenschaftliche Weg zur Klärung, was ein Medikament tatsächlich bewirkt. Aus diesem Grund sind kontrollierte klinische Studien für die FDA die einzige rechtliche Grundlage zur Feststellung, dass ein neues Medikament seine Wirksamkeit hinreichend unter Beweis gestellt hat." aus: Flieger, Testing Drugs in People Phase 0 Phase I Phase II Labor- /Tierexperiment, Pharmakokinetik, Toxizität (Präklinik) "first-in-man", freiwillige Probanden, Dosis-Wirkung, Sicherheit, Verträglichkeit "proof of concept", Untersuchung von Effizienz und Wirksamkeit, Dosisfindung, eventuell Kontrollgruppe Phase III an Patienten (große Fallzahlen), Vergleich mit etablierten Behandlungen oder Placebo (Kontrollgruppe), Nebenwirkungen, Nachweis der Wirksamkeit als Voraussetzung für die Zulassung Phase IV Klinische Forschung Experimentelle Studie Etablierung als Standardbehandlung, Nebeneffekten Nutzen eines zusätzlichen Stents in der MI-Therapie Patienten mit akutem Myocardinfarkt Good Clinical Practice (GCP) 1. Klinische Studien müssen in Übereinstimmung mit den ethischen Prinzipien der Deklaration von Helsinki durchgeführt werden, was die Einhaltung der GCP und ihrer regulatorischen Anforderung impliziert. 2. Vor einer Studie müssen die vorhersehbaren Risiken gegen den erwarteten Nutzen für Studienteilnehmer und Gesellschaft abgewogen werden. Eine Studie darf nur dann durchgeführt werden, wenn der erwartete Nutzen die Risiken rechtfertigt. Randomisierung PTCA+Stent Reinfarkt gesund Reinfarkt PTCA gesund 3. Rechte, Sicherheit und Wohlbefinden der Teilnehmer haben absolute Priorität und stehen über den Interessen von Wissenschaft und Gesellschaft. 4. Die verfügbare klinische und nicht-klinische Information über das zu untersuchende Produkt muss die Notwendigkeit der geplante Studie hinreichend belegen. PTCA: Percutaneous Transluminal Coronary Angioplasty Minister of Public Works and Government Services Canada 1997 Universitätsklinikum Schleswig-Holstein 2005 Seite: 4

Good Clinical Practice (GCP) 5. Klinische Studien müssen wissenschaftlich sinnvoll sein und in einem detaillierten Protokoll klar beschrieben werden. 6. Eine Studie muss in Übereinstimmung mit einem Protokoll durchgeführt werden, das zuvor die Zustimmung einer unabhängigen Ethikkommission erhalten hat. 7. Medizinische Handlungen und Entscheidungen stehen immer in der Verantwortung eines qualifizierten Arztes oder Zahnarztes. 8. Alle an der Durchführung einer Studie Beteiligten müssen durch entsprechende Ausbildung, Training und Erfahrung für ihre Aufgaben qualifiziert sein. 9. Von jedem Teilnehmer ist vor Einschluss in eine Studie die informierte Zustimmung zur Teilnahme einzuholen. Good Clinical Practice (GCP) 10. Informationen zu einer Studie müssen so gespeichert und gehandhabt werden, dass alle diesbezüglichen Berichte und Interpretationen überprüfbar bleiben. 11. Die Vertraulichkeit von personenbezogenen Daten muss zur Wahrung der Grundrechte der Teilnehmer und unter Beachtung einschlägiger gesetzlicher Regelungen gesichert werden. 12. Die zum Einsatz kommenden Produkte müssen gemäß der jeweils anwendbaren Good Manufacturing Practice (GMP) hergestellt, behandelt und gelagert werden. Sie müssen in Übereinstimmung mit dem Studienprotokoll verwendet werden. 13. Für alle Aspekte der Studie müssen entsprechende Maßnahmen zur Qualitätssicherung implementiert werden. Minister of Public Works and Government Services Canada 1997 Minister of Public Works and Government Services Canada 1997 Kohortenstudie Epidemiologische Forschung Beobachtungsstudien - prospektiv an nicht betroffenen Individuen mit bekanntem Expositionsstatus - Neuerkrankungen werden dokumentiert Fall-Kontrollstudie - retrospektiv an Individuen mit bekanntem Erkrankungsstatus - Expositionsstatus wird dokumentiert exponiert (z.b. Raucher) Die Framingham-Studie Kohorte 485 209 Männer und Frauen Rekrutierung nicht exponiert (z.b. Nichtraucher) KHK-Fälle Kontrollen KHK-Fälle Kontrollen MI-Risiko und erhöhtes Serum-Cholesterin nicht exponiert Serum-Cholesterin <200mg/dl Fälle (MI) Risikopopulation Fälle und Kontrollen exponiert Serum-Cholesterin >200mg/dl Rekrutierung nicht exponiert Serum-Cholesterin <200mg/dl Kontrollen (kein MI) exponiert Serum-Cholesterin >200mg/dl Explorative Datenanalyse Anhand eines Datensatzes wird eine statistische Analyse durchgeführt. Die Ziele sind dabei: - Annahmen (Hypothesen) über die Ursache und den Grund der beobachteten Daten zu bilden - Annahmen einzuschätzen worauf statistische Inferenz basieren kann - Die Auswahl von passenden statistischen Werkzeugen und Techniken zu unterstützen - Eine Basis für die weitere Daten-Sammlung durch Umfragen oder Design von Experimenten bereitzustellen Universitätsklinikum Schleswig-Holstein 2005 Seite: 5

Zusammenfassung Die erfolgreiche Implementierung evidenzbasierter Medizin setzt valide wissenschaftliche Forschung voraus, die für jeden Arzt zugänglich und verständlich ist. Stichproben können systematischen und unsystematischen Fehlern unterliegen, die sich durch Design, Sorgfalt und hinreichend große Fallzahlen reduzieren lassen. vollzieht sich typischer Weise in kontrollierten experimentellen Studien oder, wenn dies nicht möglich ist, in Beobachtungsstudien unter Adjustierung eventueller Gruppenunterschiede. Phasen der medizinischen Studie (z.b. für eine medizinische Doktorarbeit) Erkundungsphase Literaturstudium, Diskussion, Fachleute etc. Theoretische Phase Formulierung der Hypothese Analystisch-statistische Phase Planung, Datenerhebung und Auswertung Entscheidungsphase Entscheidung für oder gegen die Nullhypothese Veröffentlichung/Dr.-Arbeit Probleme im Vorfeld vermeiden Erkundungsphase Selbstbetrachtung (innovativer Anspruch, zeitliche Gebundenheit, Fachgebiet) Betreuung (Fragestellung klar formuliert? Was ist, wenn die Ziele nicht erreicht werden? Literaturempfehlung, Ruf) Vorbereitung (Softwarekurse, Anmeldung im Dekanat, Ethikantrag, Patienteneinwilligung) Umgang mit anderen Betreuer hat keine Zeit, Mitarbeiter unkooperativ, Konkurrenz Zeitmanagement Statistik wird unterschätzt, Wiedereinstieg schwierig, aktuelle Forschungsstand ändert sich derzeitiges Wissen Theoretische Phase neues Wissen durch Falsifikation Falsifikation neues Wissen H A Probiotika bei Immunisierung Theoretische Phase Hypothese formulieren Probiotika hat keinen Einfluss Probiotika hat einen Einfluss Primäres Ziel Hauptfragestellung: Probiotika reduzieren die unerwünschten Nebenwirkungen (Symptomatik) des Impfstoffes Nullhypothese: Probiotika hat keinen Einfluss auf die Symptomatik Alternativhypothese: Probiotika hat Einfluss auf die Symptomatik Falsifikation H A Sekundäres Ziel Nebenaspekte: die Medikation zur Behandlung der Nebenwirkung reduziert sich durch Probiotikagabe, Frauen haben weniger Komplikationen, Schwerbetroffene profitieren von Nullhypothesen und dazugehörige Alternativhypothese Universitätsklinikum Schleswig-Holstein 2005 Seite: 6

Probiotika bei Immunisierung Theoretische Phase Ziel- und Einflussgrößen Zielgröße Reduktion im Symptomscore Primäre Zielgröße Symptomscore im Vergleich zur Baseline (Einheit) Störgröße Alter, Geschlecht Störgröße Art der Allergie Einflussgröße Probiotikagabe (ja/nein) Einflussgröße Probiotika Störgrößen / sekundäre Zielgrößen Alter (Jahre), Schweregrad der Allergie (I-V), Allergieart (H,P, ) andere Krankheiten (D,KHK), behandelnder Arzt (1, ) Theoretische Phase Studiendesign Population und Stichprobe Die Daten sind prospektiv oder retrospektiv Die Beobachtungen sind - unabhängig - gruppiert - longitudinal - Messwiederholungen Eine Population ist eine (üblicherweise große) Gruppe von Objekten, über die eine Aussage getroffen werden soll. Eine Stichprobe besteht aus einer (üblicherweise kleinen) Anzahl von Mitgliedern der Population. Population und Stichprobe Stichprobentechniken Population Stichprobe ziehen Stichprobe systematisch jedes k.-mitglied der Population Stichprobenstatistik Schlussfolgerung Inferenz bilden Daten erheben Populationsparameter zufällig jedes Mitglied der Population mit gleicher Wahrscheinlichkeit (z.b. mittels Zufallszahlen) stratifiziert in vorgegebenem Verhältnis aus Teilpopulationen Universitätsklinikum Schleswig-Holstein 2005 Seite: 7

Datenaufbereitung Datenerfassung: Datenbankprogramm (z.b. ACCESS, D-Base) oder Statistikprogramm (z.b. SPSS, SAS) - EXCEL geht aber auch! Anordnung: Fälle (Patienten, Probanden, Versuche,...) in Zeilen und in deren Spalten die Merkmale (Beobachtungen), in jeder Zeile wird ein Fall dokumentiert, in jeder Spalte ein Merkmal Verschlüsselung: Pseudonymisierung von identifizierenden Daten, Kategorielle Merkmale verschlüsseln in Zahlenkodierung, metrische Merkmale mit festen Dezimalstellen, Dokumentieren: verwendete Schlüssel, Aufbereitungsschritte, Deskriptive Statistik Qualitative Merkmale Die deskriptive Statistik dient dazu, Daten in verständlicher Weise zusammenzufassen. Graphische Methoden sind besser als numerische Methoden dazu geeignet, Muster in Daten zu erkennen. Numerische Ansätze sind meistens präziser and objektiver. Tortendiagramm Balkendiagramm Quantitative Merkmale Qualitative/Quantitative Merkmale Die Wahl des gewählten statistischen Auswertungsverfahrens hängt von der Skala des Merkmals ab. Qualitative Variable - nominal: Kategorien ohne Anordnung (z.b. Blutgruppe) - ordinal: Kategorien mit Anordnung (z.b. Tumor-Stadien) Histogramm Boxplot Quantitative Variable - diskret: ganze Zahlen (z.b. Zellzahl) - stetig: reelle Zahlen (z.b. Blutdruck) Universitätsklinikum Schleswig-Holstein 2005 Seite: 8

Binomialverteilung Bin(n,π) Binomialverteilung Bin(n,π) Modell: n unabhängige Wiederholungen eines Experiments mit binärem Ausgang ("Erfolg", "Misserfolg") und konstanter Erfolgswahrscheinlichkeit π bei jeder Wiederholung X: Anzahl der Erfolge n f(k) = P(X = k) = π k n 1 2... n n! = = k 1 2... k 1 2... (n k) k!(n k)! k (1 π) n k "Binomialkoeffizient" Die Wahrscheinlichkeit für eine unerwünschte Impfreaktion beträgt 5%, 10 Personen werden geimpft. Fragen Wie groß ist die Wahrscheinlichkeit dafür, dass es keine unerwünschte Impfreaktionen gibt? Wie groß ist die Wahrscheinlichkeit für genau zwei unerwünschte Impfreaktionen? Modell Binomialmodell Bin(n, π) mit n = 10 und π=0.05 Binomialverteilung Bin(10,0.05) Parameterschätzung Binomialverteilung Bin(n,π) Parameter θ Beobachtungen x 1,...,x n Schätzer θ ) x,...,x ) ( 1 n π π ˆ π ˆ π = = k k /n /n 0,0,1,1,0,1,... Wahrscheinlichkeit Wahrscheinlichkeit 0,0,1,1,0,1,... Anteil Anteil Anzahl Erfolge Konfidenzintervall Um Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruiert man aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Das Konfidenzintervall überdeckt den unbekannten Parameter mit einer Wahrscheinlichkeit von z.b. 95%. Je größer der Stichprobenumfang ist, desto schmaler ist das Konfidenzintervall. Wahrscheinlichkeit für die Geburt eines Jungen Geschlecht Quartal Jan.-Mär. Apr.-Jun. Jul.-Sep. Okt.-Dez. weiblich 202 184 213 170 männlich 206 205 224 227 total 408 389 437 397 πˆ 0.505 (0.455-0.554) Geschlecht Jan.-Dez. weiblich 769 männlich 862 total 1631 πˆ 0.529 (0.504-0.553) 0.527 0.513 (0.476-0.557) (0.465-0.560) 0.572 (0.521-0.621) Ist die Wahrscheinlichkeit für die Geburt eines Jungen πˆ > 0.5? Viele Fragen können auch mit Hilfe eines KI beantwortet werden! Universitätsklinikum Schleswig-Holstein 2005 Seite: 9

Nullhypothese Alternativhypothese Die Nullhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder wünscht), dass es falsch ist. Sie repräsentiert meistens Konservativismus bzw. die allgemeine Meinung. Die Nullhypothese nicht zu verwerfen, bedeutet nicht, dass sie wahr ist. Die Alternativhypothese impliziert üblicherweise das, wovon der Wissenschaftler erwartet (oder wünscht), dass es wahr ist. Die Alternativhypothese gilt als etabliert, wenn die Nullhypothese verworfen wurde. : Die Wahrscheinlichkeit für die Geburt eines Jungen beträgt 50%. H A : Die Wahrscheinlichkeit für die Geburt eines Jungen ist größer als 50%. Statistisches Testen Einseitig versus zweiseitig Teststatistik H A ungleich ( ) gleich (=) größer (>) höchstens ( ) kleiner (<) mindestens ( ) zweiseitig (ungerichtet) einseitig (gerichtet) Unter wird eine zum Test gehörige Wahrscheinlichkeitsfunktion berechnet. Mit dieser Teststatistik kann jedes Ergebnis durch eine Wahrscheinlichkeit unter bewertet werden. Folgt aus der Teststatistik, dass das Ergebnis unter sehr unwahrscheinlich ist (z.b. < 5%), wird abgelehnt. H A : Die Wahrscheinlichkeit für einen Jungen ist ungleich 50%. H A : Die Wahrscheinlichkeit für einen Jungen ist größer/kleiner 50%. Wahrscheinlichkeit für die Geburt eines Jungen Binomialverteilung unter kritischer Wert P(X = 8) + P(X = 9) + P(X =10) 0.045 + 0.01 + 0.001 = 0.0561 kritischer Wert Annahmebereich Ablehnungsbereich Die kritischen Werte werden so gewählt, dass das Signifikanzniveau α des zugehörigen Tests höchstens einen fest vorgegebenen Wert annimmt (z.b. 5 %). Die Wahl der kritischen Werte hängt nur von der Nullhypothese ab, aber nicht von H A. Sind die kritischen Werte einmal gewählt, hängt die Power des Tests nur von H A ab. Anzahl der Jungen Universitätsklinikum Schleswig-Holstein 2005 Seite: 10

p-wert Der p-wert ist die Wahrscheinlichkeit dafür, dass die Teststatistik T den beobachteten oder einen noch unwahrscheinlicheren Wert als t obs annimmt, wenn die Nullhypothese wahr ist. Er entspricht dem Signifikanzniveau, bei dem gerade eben verworfen würde. t obs p T mögliche Fehler Ein Typ-I-Fehler wird begangen, wenn die Nullhypothese verworfen wird, obwohl sie wahr ist. Ein Typ-II-Fehler wird begangen, wenn die Nullhypothese beibehalten wird, obwohl sie falsch ist. Entscheidung beibehalten verworfen richtig Typ-I- Fehler Wahrheit H A Typ-II- Fehler richtig mögliche Fehler Entscheidung Das Signifikanzniveau (α) eines Tests ist die Wahrscheinlichkeit, einen Typ-I-Fehler zu begehen. Die Power (1-β) eines Tests ist die Wahrscheinlichkeit, einen Typ-II-Fehler zu vermeiden. wird getestet verwerfe verwerfe nicht Entscheidung beibehalten verworfen Wahrheit H A 1-α β α 1-β H A H A wird angenommen? negative Ergebnisse Negative Ergebnisse sind genauso wichtig wie positive Ergebnisse, da sie das Unwissen verringern und auf neue interessante Hypothesen oder Forschungsziele verweisen. Sie sind auch notwendig, um zukünftiger Forschung in einem bestimmten Gebiet die richtige Richtung zu weisen (Publikationsbias). Universitätsklinikum Schleswig-Holstein 2005 Seite: 11