9. Mai 2012
Inhaltsverzeichnis 1 Mathematische Grundlagen Der Datensatz 2
Zusammenhänge Mathematische Grundlagen Der Datensatz F (t) + S(t) = 1 P (T t) + P (T t) = P (Ω) = 1 t 0 f(u)du + t f(u)du = 0 f(u)du = 1
Dichtefunktion f(t) Mathematische Grundlagen Der Datensatz 0.4 0.3 f x 0.2 0.1 0.0 0 2 4 6 8 Abbildung: t=5
Verteilungsfunktion F (t) Mathematische Grundlagen Der Datensatz 0.8 0.6 F x 0.4 0.2 0.0 0 2 4 6 8 Abbildung: t=5
Survivalfunktion S(t) Mathematische Grundlagen Der Datensatz 0.8 0.6 S x 0.4 0.2 0.0 0 2 4 6 8 Abbildung: t=5
Datensatz Mathematische Grundlagen Der Datensatz Die Beispiele orientieren sich an dem Lehrbuch Blossfeld, H.-P.; Golsch, K. und Rohwer, G. (2007): Event History Analysis With Stata. New York: Erlbaum. Der verwendete Datensatz kann unter http://web.uni-bamberg.de/sowi/soziologie-i/eha/stata/ heruntergeladen werden.
Variablen Mathematische Grundlagen Der Datensatz Variable id noj tstart tn sex ti tb te tmar pres presn edu Beschreibung Identiziert jede einzelne Befragungsperson im Datensatz Laufende Nummer der Jobepisode Anfangszeit der Jobepisode in Monaten seit Beginn des Jahrhunderts (1=1900) Endzeit der Jobepisode in Monaten seit Beginn des Jahrhunderts Geschlecht: 1=Männer, 2=Frauen Interviewzeitpunkt in Monaten seit Beginn des Jahrhunderts Geburtsdatum Eintritt in den Arbeitsmarkt in Monaten seit Beginn des Jahrhunderts Eintritt in die Ehe in Monaten seit Beginn des Jahrhunderts, 0 wenn unverheiratet Prestigewert des Jobs Prestigewert des darauf folgenden Jobs, -1 falls kein weiterer Job Höchster Bildungsabschluss vor Eintritt in den Arbeitsmarkt in Jahren
Beispiel: 1. Fall Mathematische Grundlagen Der Datensatz list id noj tstart tn sex ti tb te tmar pres presn edu in 1/9, sepby(id)
Arbeitsvariablen Mathematische Grundlagen Der Datensatz Erstellung der Variable des für destination: des misst, ob eine Episode mit einem Ereignis endet oder eine Rechtszensierung vorliegt Rechtszensiert, wenn tn=ti; Episode beendet, wenn tn ~= ti. Erstellung der Variablen tf für nish time: Bildet die Dierenz aus den Variablen tn und tstart. Auf diese Weise wird die Verweildauer in einer Jobepisode für jede Befragungsperson in Monaten gemessen. destination & nish time gen des = tn ~= ti gen tf = tn - tstart + 1
sind Verfahren, bei denen keine Annahmen über die Verteilung der Wartezeit gemacht wird. Hierzu zählen die Life-Table-Methode (Sterbetafelschätzung) als auch die Kaplan-Meier-Schätzung (Product-Limit Estimation). Die Life-Table Methode hat ihren Ursprung in der Demographie und zählt zu den bekanntesten und lange Zeit beliebtesten Methoden der Ereignisanalyse. Der wesentlicher Unterschied zwischen diesen beiden nichtparametrischen explorativen Verfahren ist, dass die Sterbetafel-Schätzung für gruppierte Wartezeiten und die Produkt-Limit-Schätzung für exakte Wartezeiten konzipiert ist.
Life Table Methode: Verweildauer in Intervallen Wie bereits erwähnt, sind bei der Life-Table Methode keine Annahmen über die Verteilung von T notwendig. Errechnet werden die Survivorfunktionen zu Beginn des jeweiligen Intervalls sowie für jedes Intervall die Dichte- und Hazardfunktion (und deren Standardfehler). Nachteile dieser Methode sind, dass diskrete Zeitintervalle nötig sind und dass sie eine groÿe Anzahl an events benötigt, um reliabel zu sein. Um die diskreten Intervalle zu erhalten, wird die Zeitachse punktweise aufgesplittet.
Life Table Methode: Notation Mit der Konvention: τ L+1 = existieren L Intervalle, von denen jedes die linke Grenze beinhaltet, aber nicht die Rechte. Terminologie: I l = {t τ l T < τ l+1 }, l = 1,, L N l Zahl der Fälle, die in Intervall I l eintreten. E l Zahl der Ereignisse / Übergänge im Intervall I l,ausfälle Z l Zahl der Zensierungen im intervall I l R l Risk Set / Risikomenge im Intervall I l,noch lebende R l Zahl der Elemente in R l
Life Table Methode: Grundidee Rekursive Bestimmung von N l. Es gilt für das erste Intervall: Für alle weiteren Intervalle N 1 = N N l = N l 1 E l 1 Z l 1 Zur Berechnung der Risikomenge sind nun Annahmen über die Verteilung der zensierten Fälle während des Intervalls zu machen, normalerweise: R l = N l 1 2 Z l
Beispiel
: Stata Der Befehl, um Sterbetafeln in Stata zu berechnen lautet ltable. Einen Überblick könne wir uns mit help ltable verschaen. Der Befehl ltable tf des, intervals(30) su f h zerlegt die Zeit in 30-Monats-Intervalle und führt zu 3 Tabellen. Die Optionen führen zu folgendem Output: su survival: Verteilungsfunktion der Überlebenswahrscheinlichkeiten f failure: Dichtefunktion h hazard: Risikofunktion Da Sterbetafeln recht unübersichtlich sein können, bietet es sich an, die in ihnen enthaltene Information graphisch darzustellen.
Survival
Failure
Hazard
ltable tf des, intervals(30) gr Proportion Surviving.1.2.3.4.5.6 0 100 200 300 400 500 tf
ltable tf des, intervals(30) by(sex) gr 1 2 Proportion Surviving 0.2.4.6 0 500 0 500 Graphs by Geschlecht: 1=Männer, 2=Frauen tf
ltable tf des, intervals(30) by(sex) gr overlay Proportion Surviving 0.2.4.6 0 100 200 300 400 500 tf sex = 1 sex = 2
ltable tf des, intervals(30) by(sex) gr overlay ci Proportion Surviving 0.2.4.6.8 0 100 200 300 400 500 tf 95% CI sex = 1 sex = 2
Graph Editor / set scheme Proportion Surviving 0.2.4.6.8 Proportion Surviving 0.2.4.6.8 0 100 200 300 400 500 tf 95% CI sex = 1 sex = 2 0 100 200 300 400 500 tf 95% CI sex = 1 sex = 2
Der Unterschied zu der Life-Table Methode ist die direkte Verwendung der Wartezeiten. Es ist also unnötig, eine Zusammenfassung der Zeit in Intervallen vorzunehmen. Statt dessen wird die Risikomenge für jeden Zeitpunkt, an dem ein Ereignis statt ndet, berechnet. Eine Sortierung der Zeitpunkte mit Ereignissen ist erforderlich: τ 1 < τ 2 < τ 3 < < τ L wobei τ 1 den Zeitpunkt bezeichnet, an dem das erste Ereignis stattndet, τ 2 den Zeitpunkt, an dem das zweite Ereignis standet, und so weiter.
: Notation E l Zahl der Episoden mit Ereignissen zum Zeitpunkt τ l. Z l Zahl der Zensierugen im Intervall [τ l 1, τ l ) R l Gröÿe der Risikomenge zum Zeitpunkt τ l, d.h.: Anzahl der Episoden mit einer Startzeit τ Start < τ l und einer Endzeit τ Ende τ l. Also die Personen die noch leben Es gilt für einen Zeitpunkt mit Ereignis: q l = E l R l p l = 1 q l = 1 E l R l
Product-Limit-Estimator Der Product-Limit-Estimator für S(t) ist deniert als: Ŝ(t) = p 1 p 2 p 3 p l 1 = Ŝ(t) = l:τ l <t p l = l:τ l <t Ŝ(t) = (1 q 0 ) (1 q 1 ) (1 q 2 ) (1 q 3 ) 1 E l R l ( 1 E ) ( 0 1 E ) ( 1 1 E ) ( 2 1 E ) 3 R 0 R 1 R 2 R 3 Beispiel: ( Ŝ(t) = 1 0 ) ( 1 1 ) ( 1 1 ) ( 1 1 ) ( 1 2 ) ( 1 1 ) 125 125 124 123 122 120 Ŝ(t) = 1 0, 992 0, 99194 0, 99187 0, 98361 0, 99167
Beispiel
in Stata Um eine Kaplan-Meier Schätzung in Stata durchzuführen müssen wir Stata ein paar Angaben mitteilen. Als Ereignisdaten deklarieren stset tf, f(des)
Ereignisdatensatz denieren Denieren über stset, Informationen durch stdes und stsum.
Schätzung Der Stata Befehl für die Kaplan-Meier Schätzung lautet sts list
sts graph 0.00 0.25 0.50 0.75 1.00 Kaplan-Meier survival estimate 0 100 200 300 400 analysis time
sts graph, by(sex) 0.00 0.25 0.50 0.75 1.00 Kaplan-Meier survival estimates 0 100 200 300 400 analysis time sex = 1 sex = 2
sts graph, by(sex) ci Kaplan-Meier survival estimates 0.25.5.75 1 0 100 200 300 400 analysis time 95% CI 95% CI sex = 1 sex = 2
Signikanztests Die Teststatistiken folgen nährungsweise einer χ 2 -Verteilung. H 0 geht davon aus, dass keine Unterschiede zwischen den Subgruppen bestehen. H 1 nimmt an, dass sich die Überlebensfunktionen unterscheiden. Wilcoxon Test (Breslow) : sts test varlist, wilcoxon Log-Rank Test (Savage) : sts test varlist, logrank Tarone-Ware Test : sts test varlist, tware Peto-Peto-Prentice Test : sts test varlist, peto Fleming-Harrington Test : sts test varlist, fh() Cox Test : sts test varlist, cox
sts test sex, wilcoxon / sts test sex, logrank
Testcharakteristiken Abbildung: Unterschiedliche Sensitivität des Wilcoxon und Log-Rank Test Aus Blossfeld, H.-P.; Golsch, K. und Rohwer, G. (2007): Event History Analysis With Stata. New York: Erlbaum, S. 81
Nachteile nichtparametrischer Verfahren 1 Bei vielen Subgruppen wird n g schnell so klein, dass ein Vergleich der S g (t) nicht mehr sinnvoll ist. 2 Ist n g in den Subgruppen groÿ genug, so ist der Vergleich von S g (t) schnell sehr komplex und die Interpretation äuÿerst schwierig. 3 Sollen metrische Variablen werden, ist es nötig diese zu gruppieren, um die Survivorfunktionen schätzen zu können. Der potentielle Informationsverlust ist dementsprechend groÿ.