Life Tables und Kaplan Meier

Ähnliche Dokumente
Berechnung des LOG-RANK-Tests bei Überlebenskurven

Diagnose und Prognose: Kurzfassung 4

Formelsammlung zur Vorlesung Lebensdaueranalyse

Ereignisanalyse. Petra Stein / Marcel Noack

Übung 2 im Fach "Biometrie / Q1"

Grundzüge der Ereignisdatenanalyse

Übungsaufgaben, Statistik 1

Survival Analysis. December 2008

Statistische Analyse von Ereigniszeiten

Kaplan-Meier-Schätzer

Übersicht. VL Forschungsmethoden. Ereignisdatenanalyse

Tutorial: Anpassungstest

Survival Analysis (Modul: Lebensdaueranalyse)

Präsentation auf dem ersten ALWA User Workshop, , Nürnberg, Deutschland

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

Aufgaben zu Kapitel 5:

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

I. Zahlen, Rechenregeln & Kombinatorik

Übung Statistik I Statistik mit Stata SS Grafiken und Wiederholung

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Stochastik für die Naturwissenschaften

Zufallsvariablen [random variable]

WAHRSCHEINLICHKEITSTHEORIE A N W E N D U N G Terminologie

Statistik und Wahrscheinlichkeitsrechnung

8 Verteilungsfunktionen und Dichten

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Tumorregister München

Schätzung des Lifetime Values von Spendern mit Hilfe der Überlebensanalyse

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Statistische Tests zu ausgewählten Problemen

Laden des Datensatzes und erstellen eines Survival-Objektes. Laden des Datensatzes und Data Cleaning

Klassifikation von Signifikanztests

Einführung in die Survival-Analyse (Modul: Methoden II)

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)

Nicht-parametrische Statistik Eine kleine Einführung

1.5 Berechnung von Rangzahlen

Survival Analysis (Modul: Lebensdaueranalyse)

Demographie I Demographische Prozesse

Mortalität nach Schlaganfall bei diabetischen und nicht-diabetischen Patienten

Analyse von Querschnittsdaten. Signifikanztests I Basics

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Nachteile: STD existiert nur für Verteilungen mit E(FL 2 ) <, d.h. nicht ansetzbar bei leptokurtischen ( fat tailed ) Verlustverteilungen;

Übung Statistik I Statistik mit Stata SS Probeklausur, Wiederholungen und Übungen

Einführung in die Induktive Statistik: Testen von Hypothesen

13. Übungswoche. Kapitel 12: Varianzanalyse (Fortsetzung)

Aufgaben zu Kapitel 8

Tumorregister München

Anpassungstests VORGEHENSWEISE

Tumorregister München

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Tumorregister München

Mathematik für Biologen

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Tumorregister München

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Survival Analysis (Modul: Lebensdaueranalyse)

Kapitel 8: Verfahren für Rangdaten

Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion

Tumorregister München

Tumorregister München

Statistische Thermodynamik I Lösungen zur Serie 1

15.5 Stetige Zufallsvariablen

Tumorregister München

Tumorregister München

Tumorregister München

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Eine Einführung in R: Varianzanalyse

Arne Weber, Sabine Groos, Bernd Hagen, Jens Kretschmann, Lutz Altenhofen. Versorgungsforschungskongress Berlin 2013

Regressionsanalysen mit Stata

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Simulation von Zufallsversuchen mit dem Voyage 200

Tumorregister München

Frailty Models in Survival Analysis

Klausur Stochastik und Statistik 31. Juli 2012

Teilklausur des Moduls Kurs 42221: Vertiefung der Statistik

Ausgewählte Kapitel Diskreter Mathematik mit Anwendungen

Studiendesign und Statistik: Interpretation publizierter klinischer Daten

Monte Carlo Methoden in Kreditrisiko-Management

Beweis: Mit Hilfe des Satzes von der totalen Wahrscheinlichkeit folgt, dass

Seminar im Wintersemester 2010/2011: Quantitative und implementierte Methoden der Marktrisikobewertung

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

5. Spezielle stetige Verteilungen

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Medizinische Informatik Klinische Versuchsplanung

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

Tumorregister München

Tumorregister München

Ungleiche Voraussetzungen für wissenschaftliche Karrieren bei Frauen und Männern

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

User Tasks for the Empirical Evaluation of SemTimeZoom and KNAVE

Aufgaben zu Kapitel 9

Transkript:

9. Mai 2012

Inhaltsverzeichnis 1 Mathematische Grundlagen Der Datensatz 2

Zusammenhänge Mathematische Grundlagen Der Datensatz F (t) + S(t) = 1 P (T t) + P (T t) = P (Ω) = 1 t 0 f(u)du + t f(u)du = 0 f(u)du = 1

Dichtefunktion f(t) Mathematische Grundlagen Der Datensatz 0.4 0.3 f x 0.2 0.1 0.0 0 2 4 6 8 Abbildung: t=5

Verteilungsfunktion F (t) Mathematische Grundlagen Der Datensatz 0.8 0.6 F x 0.4 0.2 0.0 0 2 4 6 8 Abbildung: t=5

Survivalfunktion S(t) Mathematische Grundlagen Der Datensatz 0.8 0.6 S x 0.4 0.2 0.0 0 2 4 6 8 Abbildung: t=5

Datensatz Mathematische Grundlagen Der Datensatz Die Beispiele orientieren sich an dem Lehrbuch Blossfeld, H.-P.; Golsch, K. und Rohwer, G. (2007): Event History Analysis With Stata. New York: Erlbaum. Der verwendete Datensatz kann unter http://web.uni-bamberg.de/sowi/soziologie-i/eha/stata/ heruntergeladen werden.

Variablen Mathematische Grundlagen Der Datensatz Variable id noj tstart tn sex ti tb te tmar pres presn edu Beschreibung Identiziert jede einzelne Befragungsperson im Datensatz Laufende Nummer der Jobepisode Anfangszeit der Jobepisode in Monaten seit Beginn des Jahrhunderts (1=1900) Endzeit der Jobepisode in Monaten seit Beginn des Jahrhunderts Geschlecht: 1=Männer, 2=Frauen Interviewzeitpunkt in Monaten seit Beginn des Jahrhunderts Geburtsdatum Eintritt in den Arbeitsmarkt in Monaten seit Beginn des Jahrhunderts Eintritt in die Ehe in Monaten seit Beginn des Jahrhunderts, 0 wenn unverheiratet Prestigewert des Jobs Prestigewert des darauf folgenden Jobs, -1 falls kein weiterer Job Höchster Bildungsabschluss vor Eintritt in den Arbeitsmarkt in Jahren

Beispiel: 1. Fall Mathematische Grundlagen Der Datensatz list id noj tstart tn sex ti tb te tmar pres presn edu in 1/9, sepby(id)

Arbeitsvariablen Mathematische Grundlagen Der Datensatz Erstellung der Variable des für destination: des misst, ob eine Episode mit einem Ereignis endet oder eine Rechtszensierung vorliegt Rechtszensiert, wenn tn=ti; Episode beendet, wenn tn ~= ti. Erstellung der Variablen tf für nish time: Bildet die Dierenz aus den Variablen tn und tstart. Auf diese Weise wird die Verweildauer in einer Jobepisode für jede Befragungsperson in Monaten gemessen. destination & nish time gen des = tn ~= ti gen tf = tn - tstart + 1

sind Verfahren, bei denen keine Annahmen über die Verteilung der Wartezeit gemacht wird. Hierzu zählen die Life-Table-Methode (Sterbetafelschätzung) als auch die Kaplan-Meier-Schätzung (Product-Limit Estimation). Die Life-Table Methode hat ihren Ursprung in der Demographie und zählt zu den bekanntesten und lange Zeit beliebtesten Methoden der Ereignisanalyse. Der wesentlicher Unterschied zwischen diesen beiden nichtparametrischen explorativen Verfahren ist, dass die Sterbetafel-Schätzung für gruppierte Wartezeiten und die Produkt-Limit-Schätzung für exakte Wartezeiten konzipiert ist.

Life Table Methode: Verweildauer in Intervallen Wie bereits erwähnt, sind bei der Life-Table Methode keine Annahmen über die Verteilung von T notwendig. Errechnet werden die Survivorfunktionen zu Beginn des jeweiligen Intervalls sowie für jedes Intervall die Dichte- und Hazardfunktion (und deren Standardfehler). Nachteile dieser Methode sind, dass diskrete Zeitintervalle nötig sind und dass sie eine groÿe Anzahl an events benötigt, um reliabel zu sein. Um die diskreten Intervalle zu erhalten, wird die Zeitachse punktweise aufgesplittet.

Life Table Methode: Notation Mit der Konvention: τ L+1 = existieren L Intervalle, von denen jedes die linke Grenze beinhaltet, aber nicht die Rechte. Terminologie: I l = {t τ l T < τ l+1 }, l = 1,, L N l Zahl der Fälle, die in Intervall I l eintreten. E l Zahl der Ereignisse / Übergänge im Intervall I l,ausfälle Z l Zahl der Zensierungen im intervall I l R l Risk Set / Risikomenge im Intervall I l,noch lebende R l Zahl der Elemente in R l

Life Table Methode: Grundidee Rekursive Bestimmung von N l. Es gilt für das erste Intervall: Für alle weiteren Intervalle N 1 = N N l = N l 1 E l 1 Z l 1 Zur Berechnung der Risikomenge sind nun Annahmen über die Verteilung der zensierten Fälle während des Intervalls zu machen, normalerweise: R l = N l 1 2 Z l

Beispiel

: Stata Der Befehl, um Sterbetafeln in Stata zu berechnen lautet ltable. Einen Überblick könne wir uns mit help ltable verschaen. Der Befehl ltable tf des, intervals(30) su f h zerlegt die Zeit in 30-Monats-Intervalle und führt zu 3 Tabellen. Die Optionen führen zu folgendem Output: su survival: Verteilungsfunktion der Überlebenswahrscheinlichkeiten f failure: Dichtefunktion h hazard: Risikofunktion Da Sterbetafeln recht unübersichtlich sein können, bietet es sich an, die in ihnen enthaltene Information graphisch darzustellen.

Survival

Failure

Hazard

ltable tf des, intervals(30) gr Proportion Surviving.1.2.3.4.5.6 0 100 200 300 400 500 tf

ltable tf des, intervals(30) by(sex) gr 1 2 Proportion Surviving 0.2.4.6 0 500 0 500 Graphs by Geschlecht: 1=Männer, 2=Frauen tf

ltable tf des, intervals(30) by(sex) gr overlay Proportion Surviving 0.2.4.6 0 100 200 300 400 500 tf sex = 1 sex = 2

ltable tf des, intervals(30) by(sex) gr overlay ci Proportion Surviving 0.2.4.6.8 0 100 200 300 400 500 tf 95% CI sex = 1 sex = 2

Graph Editor / set scheme Proportion Surviving 0.2.4.6.8 Proportion Surviving 0.2.4.6.8 0 100 200 300 400 500 tf 95% CI sex = 1 sex = 2 0 100 200 300 400 500 tf 95% CI sex = 1 sex = 2

Der Unterschied zu der Life-Table Methode ist die direkte Verwendung der Wartezeiten. Es ist also unnötig, eine Zusammenfassung der Zeit in Intervallen vorzunehmen. Statt dessen wird die Risikomenge für jeden Zeitpunkt, an dem ein Ereignis statt ndet, berechnet. Eine Sortierung der Zeitpunkte mit Ereignissen ist erforderlich: τ 1 < τ 2 < τ 3 < < τ L wobei τ 1 den Zeitpunkt bezeichnet, an dem das erste Ereignis stattndet, τ 2 den Zeitpunkt, an dem das zweite Ereignis standet, und so weiter.

: Notation E l Zahl der Episoden mit Ereignissen zum Zeitpunkt τ l. Z l Zahl der Zensierugen im Intervall [τ l 1, τ l ) R l Gröÿe der Risikomenge zum Zeitpunkt τ l, d.h.: Anzahl der Episoden mit einer Startzeit τ Start < τ l und einer Endzeit τ Ende τ l. Also die Personen die noch leben Es gilt für einen Zeitpunkt mit Ereignis: q l = E l R l p l = 1 q l = 1 E l R l

Product-Limit-Estimator Der Product-Limit-Estimator für S(t) ist deniert als: Ŝ(t) = p 1 p 2 p 3 p l 1 = Ŝ(t) = l:τ l <t p l = l:τ l <t Ŝ(t) = (1 q 0 ) (1 q 1 ) (1 q 2 ) (1 q 3 ) 1 E l R l ( 1 E ) ( 0 1 E ) ( 1 1 E ) ( 2 1 E ) 3 R 0 R 1 R 2 R 3 Beispiel: ( Ŝ(t) = 1 0 ) ( 1 1 ) ( 1 1 ) ( 1 1 ) ( 1 2 ) ( 1 1 ) 125 125 124 123 122 120 Ŝ(t) = 1 0, 992 0, 99194 0, 99187 0, 98361 0, 99167

Beispiel

in Stata Um eine Kaplan-Meier Schätzung in Stata durchzuführen müssen wir Stata ein paar Angaben mitteilen. Als Ereignisdaten deklarieren stset tf, f(des)

Ereignisdatensatz denieren Denieren über stset, Informationen durch stdes und stsum.

Schätzung Der Stata Befehl für die Kaplan-Meier Schätzung lautet sts list

sts graph 0.00 0.25 0.50 0.75 1.00 Kaplan-Meier survival estimate 0 100 200 300 400 analysis time

sts graph, by(sex) 0.00 0.25 0.50 0.75 1.00 Kaplan-Meier survival estimates 0 100 200 300 400 analysis time sex = 1 sex = 2

sts graph, by(sex) ci Kaplan-Meier survival estimates 0.25.5.75 1 0 100 200 300 400 analysis time 95% CI 95% CI sex = 1 sex = 2

Signikanztests Die Teststatistiken folgen nährungsweise einer χ 2 -Verteilung. H 0 geht davon aus, dass keine Unterschiede zwischen den Subgruppen bestehen. H 1 nimmt an, dass sich die Überlebensfunktionen unterscheiden. Wilcoxon Test (Breslow) : sts test varlist, wilcoxon Log-Rank Test (Savage) : sts test varlist, logrank Tarone-Ware Test : sts test varlist, tware Peto-Peto-Prentice Test : sts test varlist, peto Fleming-Harrington Test : sts test varlist, fh() Cox Test : sts test varlist, cox

sts test sex, wilcoxon / sts test sex, logrank

Testcharakteristiken Abbildung: Unterschiedliche Sensitivität des Wilcoxon und Log-Rank Test Aus Blossfeld, H.-P.; Golsch, K. und Rohwer, G. (2007): Event History Analysis With Stata. New York: Erlbaum, S. 81

Nachteile nichtparametrischer Verfahren 1 Bei vielen Subgruppen wird n g schnell so klein, dass ein Vergleich der S g (t) nicht mehr sinnvoll ist. 2 Ist n g in den Subgruppen groÿ genug, so ist der Vergleich von S g (t) schnell sehr komplex und die Interpretation äuÿerst schwierig. 3 Sollen metrische Variablen werden, ist es nötig diese zu gruppieren, um die Survivorfunktionen schätzen zu können. Der potentielle Informationsverlust ist dementsprechend groÿ.