Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012

Inhaltsübersicht Allgemeine Bemerkungen Begriffsklärungen: Testhypothesen, Prüfgröße, p-wert, Signifikanzniveau, Fehler 1. und 2. Art Fallzahlberechnung Beispiel einer einfachen Fallzahlberechnung Statistische Überlegungen: Inhaltsübersicht

Zu empfehlen: Statistische Überlegungen

Allgemeine Bemerkungen Statistische Tests machen meist Aussagen zum Vergleich zwischen zwei oder mehr Stichproben Diese Aussagen werden aufgrund der Daten der Stichproben getroffen, sollen aber für die Grundgesamtheiten gelten Stichprobe: Menge aller Beobachtungseinheiten, die im Versuch tatsächlich beobachtet werden Grundgesamtheit: Menge der Beobachtungseinheiten, über die anhand der Ergebnisse eines Versuchs Aussagen gemacht werden sollen Mit Hilfe der schließenden Statistik sollen anhand einer Stichprobe Aussagen über die Grundgesamtheit gemacht werden. Die berechneten Parameter der Stichprobe liefern dabei eine Schätzung für die wahre Verteilung in der Grundgesamtheit Statistische Überlegungen: Allgemeine Bemerkungen

Formulieren von Hypothesen Diejenige Hypothese, auf Grund derer eine Untersuchung überhaupt durchgeführt wird, bezeichnet man als Alternativhypothese H 1 (meist ein postulierter Unterschied bzw. Behandlungseffekt, welcher mit der Studie belegt werden soll) Die dazu komplementäre Hypothese (kein Unterschied, kein Behandlungseffekt) bezeichnet man als Nullhypothese H 0 Statistische Überlegungen: Formulieren von Hypothesen

Prüfgröße und p-wert Berechnen der Prüfgröße aus den vorliegenden Daten mit einem für die Fragestellung und die Daten geeigneten statistischen Test Bestimmung des durch die Prüfgröße gegebenen p-werts (anhand von Tabellen oder mit einer Statistiksoftware) p-wert Irrtumswahrscheinlichkeit (Die Wahrscheinlichkeit, mit der man einem Irrtum unterliegt, wenn man die Nullhypothese ablehnt) Statistische Überlegungen: Prüfgröße und p-wert

Signifikanzniveau α Legt fest, ab welchem p-wert (also ab welcher Irrtumswahrscheinlichkeit) die Nullhypothese abgelehnt werden kann ( Wenn die Wahrscheinlichkeit gering ist, mich zu irren, wenn ich die Nullhypothese ablehne, kann ich sie ablehnen und damit die Alternativhypothese annehmen. ) In Biologie und Medizin legt man normalerweise das Signifikanzniveau auf α = 0.05 (bzw. α = 5%) fest. das Risiko einer Fehlentscheidung bei der Ablehnung der Nullhypothese beträgt dann 5% Statistische Überlegungen: Signifikanzniveau α

Testentscheidung Wirklichkeit Testentscheidung H 0 richtig H 1 richtig für H 0 für H 1 Richtige Entscheidung 1 - α Falsch positiv Fehler 1. Art α Falsch negativ Fehler 2. Art β Richtige Entscheidung 1 - β Statistische Überlegungen: Testentscheidung

Fehler 1. und 2. Art Fehler 1. Art (α Fehler, falsch positive Entscheidung): Annahme der Alternativhypothese (d.h. Postulierung eines Unterschieds bzw. Effekts) wenn in Wirklichkeit die Nullhypothese richtig ist (also kein Unterschied bzw. Effekt existiert) Fehler 2. Art (β Fehler, falsch negative Entscheidung): Beibehaltung der Nullhypothese (kein Unterschied bzw. Effekt) obwohl in Wirklichkeit die Alternativhypothese richtig ist (also tatsächlich ein Unterschied bzw. Effekt existiert); Teststärke ( Power ) = 1 - β Statistische Überlegungen: Fehler 1. und 2. Art

Fallzahlberechnungen Internationale Standards zur Durchführung von klinischen Studien mit Medikamenten/Medizinprodukten schreiben Fallzahlplanungen vor. Gesucht wird jeweils die notwendige Fallzahl (= Stichprobengröße), um einen vorher bestimmten medizinisch relevanten Unterschied auf einem vorher bestimmten Signifikanzniveau (α) mit einer vorher bestimmten Teststärke (1 - β) nachweisen zu können. Statistische Überlegungen: Fallzahlberechnungen

Fallzahlberechnungen - Beispiel In einer zweiarmigen klinischen Studie soll an Patienten mit akutem Herzinfarkt eine neue Therapie mit der Standardtherapie verglichen werden (zwei unabhängigen Gruppen: Patienten mit Standardtherapie oder mit neuer Therapie) Zielkriterium ist die Hospitalmortalität nach 28 Tagen (dichotomes Merkmal gestorben ja / nein) χ 2 -Vierfelder-Test Statistische Überlegungen: Fallzahlberechnungen - Beispiel

Exkurs - Prinzip des χ 2 -Vierfelder-Tests: Vergleich der beobachteten Häufigkeiten mit den unter der Nullhypothese H 0 zu erwartenden Häufigkeiten Tod innerhalb von 28 Tagen ja nein Randsummen Standardtherapie a b n 1 = a + b Neue Therapie c d n 2 = c + d Randsummen a + c b + d n = a + b + c + d Statistische Überlegungen: Exkurs χ 2 -Vierfelder-Test

Statistische Überlegungen: Fallzahlberechnungen - Beispiel

Fallzahlberechnungen - Beispiel Mortalität unter Standardtherapie 20% P 2 = 0.2 Medizinisch relevanter Unterschied, den man mit der Studie nachweisen will: Senkung der Hospitalmortalität um 8% P 2 - P 1 = 0.08 P 1 = 0.12 Q 1 = 1 P 1 Q 1 = 0.88 Q 2 = 1 P 2 Q 2 = 0.8 P = (P 1 + P 2 )/2 P = 0.16 Q = 1 P Q = 0.84 Statistische Überlegungen: Fallzahlberechnungen - Beispiel

Fallzahlberechnungen - Beispiel Statistische Überlegungen: Fallzahlberechnungen - Beispiel

Fallzahlberechnungen - Beispiel Formulierung dieser Fallzahlkalkulation für das Studienprotokoll: Es wird angenommen, dass die Hospitalmortalität nach einem Herzinfarkt bei Behandlung mit der Standardtherapie bei etwa 20% liegt (Referenz). In dieser Studie soll mit einem vorgegebenen Signifikanzniveau von α = 5% eine Verringerung der Hospitalmortalität bei Behandlung mit der neuen Therapie um 8% auf 12% mit einer Teststärke von 80% entdeckt werden können. Zur Überprüfung der Hypothese mittels eines χ 2 -Vierfelder-Tests ist eine Fallzahl von ca. 328 Patienten pro Behandlungsarm erforderlich. Statistische Überlegungen: Fallzahlberechnungen - Beispiel

Fallzahlberechnungen Folgende Faktoren beeinflussen den Stichprobenumfang: Signifikanzniveau α: Je kleiner α desto größer n (meist α = 0.05 bzw. 0.01) Teststärke 1 - β: Je größer die Teststärke 1 - β desto größer n (meist 0.8 bzw. 0.9) Mittelwertsunterschied: je kleiner der klinisch relevante Unterschied desto größer n. Statistische Überlegungen: Fallzahlberechnungen

P1 (Wahrscheinlichkeit für Ereignis nach neuer Therapie) Fallzahlberechnungen P2 (Wahrscheinlichkeit für Ereignis nach Standardtherapie) Benötigtes n pro Gruppe 0.05 0.10 435 0.08 0.10 3210 0.10 0.20 200 0.12 0.20 328 0.15 0.20 904 0.18 0.20 6032 0.80 0.90 200 0.85 0.90 686 0.88 0.90 3840 Statistische Überlegungen: Fallzahlberechnungen