Interaktive internetbasierte Auswertung der Krebsregister am OSP Stuttgart mittels der Software OCDM Online Clinical Data Mining Version 2.

Transkript

1 Interaktive internetbasierte Auswertung der Krebsregister am OSP Stuttgart mittels der Software OCDM Online Clinical Data Mining Version 2.5 Handbuch 4. August 2009 c Random Research, c/o Institut für Stochastik und Anwendungen, Fachbereich Mathematik, Universität Stuttgart, Pfaffenwaldring 57, Stuttgart Kontakt: Jürgen Dippon, dippon@random-research.de phone 0711/ , fax 0711/ , mobile

2 Inhaltsverzeichnis 1 Interaktive internetbasierte Auswertung von klinischen Krebsregistern 3 2 Startseite 4 3 Methoden Subgruppenanalyse Auswahl ähnlicher Fälle Cox-Regression Ergebnisse Profilbeschreibung Diagramme Kaplan-Meier Hazard-Rate Jahre Alter Histologie pt Tumorgröße pn Anzahl der befallenen Lymphknoten pm Metastasierung Klassifikation ER Östrogenrezeptorstatus PR Progesteronrezeptorstatus Todesursache Adjuvant Klinik Menopausenstatus Brusterhaltende Therapie Überleben Daten Cox A Glossar zu einigen statistischen Begriffen 17 Literatur 19 2

3 1 Interaktive internetbasierte Auswertung von klinischen Krebsregistern Die Software OCDM (Online Clinical Data Mining) dient zur statistischen Auswertung von klinischen Krebsregistern. Hierzu gehören deskriptive, grafische, exploratorive und konfirmatorische statistische Methoden. Die Auswertung erfolgt interaktiv und internetbasiert über einen Browser. Es muss keine zusätzliche Software installiert werden. Alle Anfragen und Berechnungen erfolgen auf einem Server. Der Zugang zu diesem Server ist passwortgeschützt und läuft in geschützter Weise über eine VPN-Verbindung. Eine besondere Stärke der Software liegt in der Möglichkeit des explorativen Vorgehens. Hierbei werden von dem Ergebnis einer vorangegangenen statistischen Analyse weitere Hypothesen abgeleitet und in einem Dialog untersucht. Als Beispiele für Fragestellungen, die mit OCDM behandelt werden können, seien die folgenden genannt: Konnte meine Klinik die Ergebnisqualität bei nichtmetastasiereten Patientinnen in den letzten fünf Jahren steigern? Wenn ja, bei welchen Subgruppen von Patienten? Ist die relative Anzahl der brusterhaltenden Operationen an den einzelnen Kliniken in Stuttgart unterschiedlich? Falls ja, könnte dies eventuell mit der Altersverteilung der Patientinnen an den jeweiligen Kliniken zusammenhängen? In welchen Subgruppen werden brusterhaltende Operationen vorwiegend durchgeführt? Hat die Wahl dieser Methode einen Einfluss auf die Restlebenszeit? Gibt es Unterschiede in der Ergebnisqualität im Vergleich der einzelnen Kliniken? Woran könnte dies gegebenenfalls liegen? Hat der histologische Befund bei Brustkrebs einen Einfluss auf den klinischen Verlauf der Erkrankung? Wie ist der zu erwartende klinische Verlauf einer Patientin mit Brustkrebs im Alter von 45 Jahren, Östrogenrezeptorstatus negativ, Progesteronrezeptorstatus positiv, keinen befallenen Lymphknoten, Tumorgröße < 2cm und weiteren klinischen Parametern? Kann man zu einem neuen Fall die zehn ähnlichsten Fälle aus der Datenbank extrahieren? Wie war deren klinischer Verlauf? Welche Therapie wurde bei diesen Patienten gewählt? 3

4 Kann man die Unterschiede im klinischen Verlauf zweier Subgruppen unter Verwendung des Hazard Ratios quantifizieren, ferner hierfür einen p-wert und ein Konfidenzintervall angeben? Wie kann ich die Daten einer bestimmten Subgruppe zu einer weiteren statistischen und grafischen Verarbeitung an meinem Arbeitsplatz aus der Datenbank extrahieren? Warnung: Die Interpretation der Ergebnisse verlangt in der Regel statistischen Sachverstand, um mögliche Verzerrungen zu erkennen oder Fehlschlüsse zu vermeiden. 2 Startseite Zur Zeit können die Daten von Patienten mit einer der fünf folgenden Krebserkrankungen untersucht werden (siehe Abbildung 1): Brustkrebs Bronchialkrebs Kolonkarzinom Rektumkarzinom Prostatakrebs 3 Methoden Nach Wahl einer Krebsentität stehen drei verschiedene Analysemethoden zur Verfügung: Subgruppenanlyse Auswahl ähnlicher Fälle Cox-Regression 3.1 Subgruppenanalyse Bei einer Subgruppenanalyse kann eine Subgruppe untersucht oder mehrere Subgruppen miteinander verglichen werden. Die Anzahl der zu untersuchenden Subgruppen kann unter Anzahl der Profile gewählt werden (siehe Abb. 2. Soll einem Patienten eine gewisse Subgruppe zugeordnet werden, so können dessen Daten zur leichteren späteren Zuordnung 4

5 Abbildung 1: Startseite eingegeben werden. Hierzu ist unter Dokumentation die Alternative ja zu wählen. Standardmäßig werden die Daten zu den zehn ersten Patienten eines jeden Profils ausgegeben. Es können aber auch andere Anzahlen gewählt werden. Für die Überlebenszeitanalyse ist noch von Bedeutung, welche Ereignisse als Tod und welche als zensiert zu interpretieren sind. Hierbei hat man die drei Wahlmöglichkeiten jede Todesursache, unbekannt oder Krebs, nur Krebs. Es ist allerdings zu beachten, dass bei vielen Patienten die genaue Todesursache nicht bekannt ist. Deshalb wird man hier meist jede Todesursache als Ereignis ansehen. Die Definition von Profilen kann verwendet werden, um die Verlaufsdaten und Struktur von Patientengruppen mehrerer Krankenhäuser miteinander zu vergleichen. Ebenso können auch verschiedene Subgruppen von Patienten miteinander verglichen werden. Z.B. können bei Brustkrebs die Verlaufsdaten von prä-, peri- und postmenopauselen Frauen miteinander verglichen werden. Bei der Krebsart Brustkrebs kann der Zeitraum der Erstdiagnose, das Alter bei Erstdiagnose, der histologische Typ des Tumors, die Größe des Tumors, die Anzahl der befallenen Lymphknoten, das Vorliegen von Fernmetastasen, die Klassifikation des Tumors (Grading), der Menopausenstatus, der Östrogenrezeptorstatus, der Progesteronrezeporstatus und die Art der OP-Methode (brusterhaltende Therapie) gewählt werden. Wurde oben die Eingabemöglichkeit für eine Dokumentation gewählt, so erscheinen anschließend noch drei Felder für einen Freitexteintrag (Name des Patienten, Geburtsdatum, Therapie). Wird im Feld Alter für Erstdiagnose ein Intervall angegeben, so wird zu dem Alter, 5

6 welches der Intervallmitte entspricht, die Sterbekurve der Gesamtbevölkerung berechnet und im Kaplan-Meier-Chart jedem Profil entsprechend ausgegeben. Als Beispiel vergleichen wir die Überlebenszeiten und klinischen Faktoren von östrogenrezeptorpositiven und -negativen Frauen bei Brustkrebs. Hierbei schließen wir all diejenigen Fälle aus, die bei der Erstdiagnose bereits Metastasen aufwiesen. Das Formular zur Erstellung dieser beiden Profile ist in Abbildung 2, die beiden dazugehörigen Überlebenszeitkurven sind in Abbildung 3 zu finden. 3.2 Auswahl ähnlicher Fälle Anstelle der Definition von Subgruppen werden hier die zu einem gegebenen Profil k ähnlichsten Fälle aus der Datenbank ausgewählt. Hierbei wird das Ähnlichkeitsmaß auf dem von den Faktoren (Einflussgrößen) aufgespannten Raum vermittels deren Einfluss (Hazard Ratio) auf die Überlebenszeit konstruiert. Die zu betrachtenden Faktoren können hierbei vom Benutzer ausgewählt werden. Es ist sogar möglich, alle Faktoren auszuwählen. Werden bei einer Subgruppenanalyse zuviele Faktoren ausgewählt, kann dies zur Folge haben, dass nur sehr wenige oder gar keine Fälle mit dem dadurch vorgegebenen Profil übereinstimmen. Dieses Phänomen ist unter dem Namen Fluch der hohen Dimension bekannt. Im Gegensatz dazu werden bei der Methode der Suche nach den k ähnlichsten Fällen immer genau k Fälle ausgewählt. Weitere Details hierzu findet man in [2, 3]. Die hier vorgestellte Methode dient dazu, zu einem gegebenen vorliegenden neuen Fall die hinsichtlich der Überlebenszeit ähnlichsten Fälle zu suchen, um deren bekannte Überlebenszeit zu verwenden, die Überlebenszeitfunktion des vorliegenden neuen Falles zu schätzen. Zusätzlich könnte das Studium der Verläufe und Therapien der ähnlichsten Fälle Hinweise auf den Verlauf und die Wahl der Therapie für den neuen vorliegenden Fall liefern (Case based reasoning). 3.3 Cox-Regression Um den Einfluss von Faktoren auf die Überlebenszeit genauer abschätzen zu können, gibt es auch die Möglichkeit, eine Cox-Regression durchzuführen. Hierbei werden in der ersten Spalte zunächst diejenigen Faktoren ausgewählt, die in das Modell aufgenommen werden sollen. Rechts davon können verschiedene Profile definiert werden, deren Vereinigung diejenige Teilmenge von Fällen definiert, für die das Cox-Modell berechnet werden soll. Zum Beispiel könnte es von Interesse sein, nur prämenopausale oder metastasierte Patienten oder Fälle mit Klassifikation (Grading) 1 oder 2 zu betrachten. Als Beispiel untersuchen wir die Frage, welchen Einfluss der Östrogenrezeptorstatus und die Wahl einer brusterhaltenden Therapie auf Verteilung der Überlebenszeit besitzt, 6

7 Abbildung 2: Durch die Wahl Anzahl der Profile gleich 2 erscheint ein Formular mit zwei Profilen. Werden dann anschließende beim Faktor Östrogenrezeptorstatus die Alternativen Positiv und Negativ gewählt und bei Fernmetastasen bei Erstdiagnose der Eintrag nein, so können diese beiden Subgruppen miteinander verglichen werden. Weitere Einschränkungen sind möglich, z.b. hinsichtlich des Alters oder der Klinik. Diese weiteren Einschränkungen werden bei den meisten Fragestellungen in beiden Profilen jedoch übereinstimmen, um eine sinnvolle Interpretation der Ergebnisse zu ermöglichen. Bei der Wahl eines Altersintervalles wird im Kaplan-Meier-Chart noch die Überlebenszeitkurve einer weiblichen Person aus der deutschen Normalbevölkerung angegeben, deren Alter dem Intervallmittelpunkt entspricht (Daten vom Statistischen Bundesamt). und zwar in der in der Gruppe derjenigen Patientinnen, die zwischen 20 und 40 Jahre alt sind und T1-Tumore aufwiesen. Die Anfrage kann wie in Abbildung 4 durchgeführt werden. Das Ergebnis ist in Abbildung 8 zu finden. Die Ausgabe erfolgt in Tabellenform unter der Karteikarte Cox. Hierbei werden die zu den einzelnen Faktoren gehörigen Schätzung für die log-hazards-ratios, Hazard-Ratios, Standardfehler, z-werte, p-werte, untere und obere 95%-Konfidenzintervallgrenzen für die 7

8 Abbildung 3: Über eine Seite dieses Typs können die Ergebnisse abgerufen werden. Zu sehen ist die Definition der Profile und die Überlebenszeitkurven samt in heller Farbe dargestellte Konfidenzbereiche. Beim Vergleich der Überlebenszeitkurven mittels Log-Rang-Test ergibt sich der im Titel der Grafik angegebene p-wert. Im gewählten Beispiel sind die beiden Überlebenszeitkurven hoch signifikant verschieden. Der Überlebenszeitvorteil östrogenrezeptorpositiver Frauen (rot) kehrt sich nach etwa 12 Jahren um. Eine mögliche Ursache könnte darin liegen, dass Frauen mit positivem Östrogenrezeptorstatus im Durchschnitt etwas älter sind als Frauen mit negativem Östrogenrezeptorstatus. Dies kann durch Vergleich der Altersverteilungen bestätigt werden (siehe Abb. 6). Ob dadurch die beschriebene Beobachtung vollständig erklärt werden kann, sei hier dahingestellt. Eine Überprüfung dieser Vermutung mittels einer Cox-Regression mit den Faktoren Östrogenrezptorstatus und Alter, basierend auf der Subgruppe der Frauen, die bei Erstdiagnose noch keine Metastasen aufwiesen, ist hier jedoch nicht zulässig, da die Überlebenszeitkurven die Proportional-Hazard-Annahme offensichtlich nicht erfüllen. Eine mögliche Strategie könnte z.b. darin bestehen, altersadjustierte Überlebenszeiten zu analysieren. Hazard-Ratios und weitere mit der Likelihood-Schätzung in Verbindung stehende Kenngrößen angegeben. Als Baseline-Werte dienen für die einzelnen Faktoren immer die nicht genannten Ausprägungen. Weitere Details hierzu findet man in der einschlägigen Litera- 8

9 Abbildung 4: Formular zur Berechnung einer Cox-Regression mit den beiden Faktoren Östrogenrezeptorstatus und brusterhaltende Therapie, wobei nur diejenigen Patientinnen betrachtet werden sollen, die zwischen 20 und 40 Jahre alt sind und T1-Tumore aufweisen. tur zur Überlebenszeitanalyse, z.b. [1]. Hier finden sich auch die Voraussetzungen, unter denen eine solche Analyse zulässig ist (z.b. die Proportional-Hazards-Annahme). 4 Ergebnisse Die Daten werden gemäß der gewählten Methode in verschiedenerlei Hinsicht ausgewertet: grafisch, deskriptiv und konfirmatorisch. Die vorzufindenden Grafiken und Analysen hängen von der gewünschten Methode und der zu untersuchenden Krebsentität ab. Die nachfolgende Beschreibung konzentriert sich auf die für Brustkrebs verfügbaren Faktoren. 4.1 Profilbeschreibung Hier werden die gewählten Profile in übersichtlicher Form auf der Ergebnisseite wiederholt. Ein Beispiel hierzu ist in Abbildung 3 zu finden. 9

10 4.2 Diagramme Neben der grafischen Darstellung der jeweiligen Zielgröße für jedes Profil werden meist noch statistische Tests auf Homogenität durchgeführt. Bei Überlebenszeiten ist dies der Log-Rang-Test, bei Zähldaten der χ 2 -Test. Die dazugehörigen p-werte erscheint in der jeweiligen Titelzeile. Die χ 2 -Tests können dazu dienen, mögliche Ursachen im unterschiedlichen Überleben der einzelnen Profile zu identifizieren. Es ist zu beachten, dass bei zu kleinen Zellenzahlen in den Kontingenztafeln in dieser Version noch keine Warnung ausgegeben wird. Ist der Wert eines Faktors zu einem Patienten unbekannt, so erhält der Faktor die Ausprägung NA (not available). Deshalb taucht in den Häufigkeitsgrafiken die Ausprägung NA auf Kaplan-Meier Zu jedem Profil wird eine Überlebenszeitkurve generiert. Punktweise 95%-Konfidenzbereiche werden in schraffierter Form angegeben. Mittels Log-Rang-Test wird die Hypothese überprüft, ob die Profile unterschiedliche Überlebenszeitverteilungen besitzen. Der dazugehörige p-wert wird im Titel der Grafik angezeigt. Ein Beispiel hierzu ist in Abbildung 3 zu finden Hazard-Rate Die zu den Hazard-Raten gehörigen Kurven bieten oft eine genauere Art der Analyse als die Überlebenszeitverteilungen. Da in dieser Version noch keine Konfidenzbereiche angezeigt werden, sind die Kurven im rechten Bereich (große Überlebenszeiten) mit Vorsicht zu interpretieren, siehe Abb Jahre Diese Kurven geben die absolute oder relative Anzahl der Fälle mit Erstdiagnose in den genannten Jahren zu den einzelnen Profilen an Alter Diese Kurven geben die absolute oder relative Anzahl der Fälle mit Erstdiagnose in den genannten Lebensjahren zu den einzelnen Profilen an. In Abbildung 6 werden die Altersverteilungen östrogenrezeptorpositiven und -negativen Patientinnen verglichen. 10

11 Abbildung 5: Vergleich der Hazardraten von Brustkrebspatientinnen mit positivem bzw. negativen Östrogenrezeptorstatus in der Subgruppe der Frauen ohne Frühmetastasierung. Die Hazardraten werden in Abhängigkeit der Zeit nach Erstdiagnose der Erkrankung angegeben. Es ist zu erkennen, dass die momentane Gefahr innerhalb der ersten fünf Jahre zu versterben bei einer östrogenrezeptorpositiven Frau kleiner ist als bei einer östrogenrezeptornegativen Frau, danach ist es umgekehrt. Der dargestellte Verlauf der Hazardkurven ab dem 15. Jahr sollte jedoch mit Vorsicht betrachtet werden, da die dazugehörigen Konfidenzbereiche vermutlich sehr breit sind. Es sei noch bemerkt, dass viele klinische Studien meist nur ein Follow-Up bis zu fünf Jahre betrachten. Ein Langzeit-Follow-Up der hier dargestellten Art ist eine besondere Stärke eines klinischen Krebsregisters. Schließlich sei noch erwähnt, dass die Fläche unter einer Hazardratenkurve bis zum Zeitpunkt t gleich dem Wert H(t) der sogenannten kumulativen Hazardfunktion ist. Diese ist mit der Wahrscheinlichkeit S(t) bis zum Zeitpunkt t zu versterben durch die Gleichung S(t) = exp( H(t)) gekoppelt Histologie Hier werden die absoluten oder relativen Häufigkeiten der Patienten mit der Ausprägungen invasiv duktal, invasiv lobulär, sonstige oder NA angegeben, siehe Abbildung 7. 11

12 Abbildung 6: Altersverteilung von Brustkrebspatientinnen mit positivem bzw. negativem Östrogenrezeptorstatus. Die Ordinate gibt die (geglättete) Anzahl der Patientinnen zu dem jeweiligen Alter an. Offensichtlich sind östrogenrezeptornegative Frauen im Mittel etwas jünger. Eine Darstellung mit relativen Häufigkeiten (Button rechts) stellt diesen Sachverhalt noch klarer dar pt Tumorgröße Hier werden die absoluten oder relativen Häufigkeiten der Patienten mit den Tumorgrößen T1, T2, T3, T4, Sonstige, NA dargestellt pn Anzahl der befallenen Lymphknoten Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten mit Anzahl der befallenen Lymphknoten mit einer der Ausprägungen pn0, pn1, pn2, pn3, pn4, NA dargestellt pm Metastasierung Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten dargestellt, bei denen eine oder keine Metastasierung bei Erstdiagnose festgestellt wurde. Ist darüber nichts bekannt, erfolgt die Angabe NA. 12

13 Abbildung 7: Vergleich der Histologie von östrogenrezeptorpositiven und -negativen Patientinnen. Durch Wahl des Buttons relativ werden die relativen Häufigkeiten angezeigt, was einen Vergleich Profile erleichtert. Der χ 2 -Test bestätigt, dass die Verteilungen der histologischen Typen bei östrogenrezeptorpositiven und -negativen Patientinnen signifikant unterschiedlich sind. Eine Darstellung mit relativen Häufigkeiten (Button rechts) visualisiert diesen Sachverhalt noch offensichtlicher Klassifikation Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten dargestellt, bei denen die Klassifikation des Tumors in eine der Klassen G1, G2, G3, G4 oder NA fällt ER Östrogenrezeptorstatus Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten dargestellt, bei denen positiver oder negativer Östrogenrezeptorstatus diagnostiziert wurde. Ist darüber nichts bekannt, erfolgt die Angabe NA. 13

14 PR Progesteronrezeptorstatus Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten dargestellt, bei denen positiver oder negativer Progesteronrezeptorstatus diagnostiziert wurde. Ist darüber nichts bekannt, erfolgt die Angabe NA Todesursache Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten dargestellt, die noch am Leben sind, eines nicht in Beziehung zur betrachteten Krebserkrankung stehenden Todes gestorben sind, deren Todesursache unbekannt ist, oder die an den Folgen der Krebserkrankung gestorben sind Adjuvant Hier wird angegeben, wieviele der Patienten in den betrachteten Profilen eine eine adjuvanten oder palliative Versorgung erhielten. Auch hier ist eine Darstellung in absoluten oder relativen Häufigkeiten möglich Klinik Hier werden die absoluten oder relativen Häufigkeiten der Patienten in den einzelnen Kliniken dargestellt Menopausenstatus Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten dargestellt, die sich bei Erstdiagnose im prä-, peri- oder postmenopausalen Status befinden. Ist darüber nichts bekannt, erfolgt die Angabe NA Brusterhaltende Therapie Hier werden die absoluten oder relativen Häufigkeiten derjenigen Patienten dargestellt, bei denen eine oder keine brusterhaltende Therapie durchgeführt wurde. Ist darüber nichts bekannt, erfolgt die Angabe NA. 4.3 Überleben Diese Karteikarte liefert statistische Kennziffern zum Überleben der einzelnen Profile, welche durch Anklicken abgerufen werden können: Mediane Überlebenszeit 14

15 Untere Grenze eines 95%-Konfidenzintervalles zur n-jahresüberlebenswahrscheinlichkeit Geschätze n-jahresüberlebenswahrscheinlichkeit Obere Grenze eines 95%-Konfidenzintervalles zur n-jahresüberlebenswahrscheinlichkeit Die n-jahreswahrscheinlichkeit des Überlebens wird sofern aufgrund der Datenlage möglich zu den Jahren n = 2, 5, 10 und 20 geschätzt. 4.4 Daten Die zu den einzelnen Profilen passenden Daten können unter dieser Karteikarte eingesehen werden. Außer dem Alter werden keine weiteren biografischen Angaben gezeigt. Die maximale Anzahl der hier dargestellten Fälle kann auf der Seite, auf welcher die Profile definiert werden, eingestellt werden. Am unteren Ende dieser Tabelle befindet sich ein Link, über den die Tabelle zu dem betrachteten Profil als csv-datei zur weiteren Analyse heruntergeladen werden kann. 4.5 Cox Wird als Methode die Cox-Regression gewählt, so wird unter der Karte Cox das Ergebnis ausgegeben. 15

16 Abbildung 8: Output der Cox-Regression mit den beiden Faktoren Östrogenrezeptorstatus und brusterhaltende Therapie, basierend auf der Gruppe derjenigen Patientinnen, die zwischen 20 und 40 Jahre alt sind und T1-Tumore aufwiesen. 16

17 A Glossar zu einigen statistischen Begriffen Im Folgenden werden einige wichtige biostatistische Begriffe erläutert. Für weitere und tiefergehende Erklärungen wird auf die einschlägige Literatur verwiesen. χ 2 -Test auf Unabhängigkeit: Dient zur Überprüfung der Hypothese, ob eine kategorielle Zufallsgröße von einer weiteren kategoriellen Zufallsgröße abhängt, z.b. ob die Anzahl der befallenen Lymphknoten stochastisch unabhängig von einem gewissen Hormonrezeptorstatus ist. Ganz allgemein kann mit OCDM überprüft werden, ob ein gewisses kategorielles Merkmal stochastisch unabhängig von einer Serie von vom Anwender gewählten Profilen ist. Cox-Regression: Das von Sir David Cox vorgeschlagene Regressionsmodell dient zur Untersuchung des Verhaltens der Hazardfunktion in Abhängigkeit von gewissen Einflussfaktoren, wie epidemiologischen oder klinischen Parametern. Liegen zum Beispiel die Werte x 1,..., x q von q dichotomen Einflussfaktoren für ein gewisses Individuum vor, so wird die Hazardfunktion dieses Individuums über die Relation h(t) = h 0 (t) exp(β 1 x β q x q ) (1) modelliert. h 0 bezeichnet dabei eine unbekannte Baseline-Hazardfunktion, die unabhängig von den Einflussfaktoren ist und zur Modellierung der Zeitabhängigkeit dient. Der Faktor x i hat den Wert 1, falls der betreffende Einflussfaktor vorliegt, ansonsten den Wert 0. Die unbekannten Parameter β 1,..., β q müssen über die vorliegenden Daten geschätzt werden. Ist der i-te Einflussfaktor x i dichotom, so kann β i als logarithmiertes Hazardverhältnis zweier Individuen interpretiert werden, die sich nur in der Ausprägung dieses i-ten Faktors unterscheiden, in den anderen Faktoren aber identisch sind. Weist der betrachtete Faktor k Faktorstufen auf mit k > 2, so werden zu diesem Faktor k 1 Parameter βi 1,..., β k 1 i Parameter geschätzt. Der Summand β i x i in Gleichung (1) muss dann durch die Summe βi 1 x 1 i β k 1 i x k 1 i ersetzt werden, wobei x j i genau dann gleich 1 ist, wenn die (j +1)-te Faktorstufe des Faktors i vorliegt, sonst gleich 0. Die zu Faktor i gehörigen Werte β j i können als die logarithmierten Hazardraten zu den Faktorstufen j + 1 und 0 interpretiert werden. Hazardrate, Hazardfunktion: Die zu einem Zeitpunkt t bestehende Neigung, dass eine gewisses Ereignis, z.b. Rezidiv oder Tod, eintritt. Formal ist die Hazardrate h(t) definiert als P (t T t + t T t) h(t) = lim t 0 t wobei T die zufällige Zeit des betrachteten Ereignis und t der Zeitpunkt, zu dem die Hazardrate berechnet werden soll. Die im Zähler stehende Ausdruck ist die bedingte 17

18 Wahrscheinlichkeit, dass das zufällige Ereignis im Zeitintervall zwischen t und t+ t eintritt unter der Voraussetzung, dass das Ereignis nicht schon vor dem Zeitpunkt t eingetreten ist. Hazardverhältnis: Verhältnis der Hazardraten zweier Individuen oder Subgruppen. partielle Likelihood: Wird zur Berechnung der Koeffizienten β i im Regressions-Modell verwendet. Hierbei werden grob gesagt diejenigen Werte für β 1,..., β q gewählt, die das Auftreten der tatsächlich ermittelten Daten (Überlebenszeiten, Faktorwerte) am wahrscheinlichsten erscheinen lassen. Log-Rang-Test: Dient zur Überprüfung der Hypothese H 0 über die Gleichheit mehrerer Überlebenszeitkurven. Ist der dazugehörige p-wert kleiner als 0,05, so wird die Hypothese H 0 zum Signifikanzniveau 0,05 verworfen. Median: Teilt den Wertebereich einer numerischen Zufallsgröße in zwei Hälften, die jeweils das Wahrscheinlichkeitmaß 0,5 besitzten. p-wert: Gibt bei einem statistischen Signifikanztest das größte Signifikanzniveau an, zu welchem die Nullhypothese des Tests gerade noch fälschlicherweise verworfen würde. stochastische Unabhängigkeit zweier Ereignisse: Liegt vor, wenn die Wahrscheinlichkeit des Eintretens des einen Ereignisses unabhängi vom Eintritt des anderen Ereignisses ist. Sind zwei Ereignisse stochastisch unabhängig, so sind diese nicht notwendigerweise auch in einem kausalen Sinne unabhängig und umgekehrt. Überlebensfunktion, Survivalfunktion: Eine Funktion in Abhängigkeit von der Variablen t, die die Wahrscheinlichkeit S(t) angibt, dass das betrachtete Ereignis (z.b. Tod) nach dem Zeitpunkt t eintritt. 95%-Konfidenzintervall für einen Parameter: Ein Intervall, dessen Grenzen unter Verwendung der vorliegenden Daten berechnet wird. Würde man unter denselben Voraussetzungen die Datenerhebung und die darauf basierende Berechnung der Intervallgrenzen wiederholen, so würden diese Intervalle in mindestens 95% aller Fälle den gesuchten aber unbekannten Parameter einschließen. 18

19 Literatur [1] David Collett. Modelling Survival Data in Medical Research, 2nd ed. Chapman & Hall (2003). [2] Jürgen Dippon, Peter Fritz, Michael Kohler. A statistical approach to case based reasoning, with application to breast cancer data. Computational Statistics & Data Analysis 40(2002), [3] Sebastian Klenk, Jürgen Dippon, Peter Fritz, Gunther Heidemann. Interactive survival analysis with the OCDM system: from development to application. Information Systems Frontiers. Erscheint