Integrated Data Repository Toolkit (IDRT)



Ähnliche Dokumente
Das Nationale Metadata Repository. Standardisierte Datenelemente für die patientenorientierte Forschung

TMF-Projekt "Integrated Data Repository Toolkit"

IDRT: Unlocking Research Data Sources with ETL for use in a Structured Research Database

Werkzeuge zur Unterstützung der Studienspezifikation in OpenClinica. Dr. Frank Meineke TMF Workshop OpenClinica, Berlin

T:\Dokumentationen\Asseco_BERIT\Schulung\BERIT_LIDS7_Basiskurs\Impo rt_export\beritde_lt_do_ _lids7.basisschulung_import_export.

i2b2/shrine Eine alternative Registerplattform

Reporting Lösungen für APEX wähle Deine Waffen weise

Medical Data Models Ein offenes Repository Medizinscher Formulare

Integrated Data Repository Toolkit (IDRT)

Führungsmittelsatz - Anleitung -

RIB itwo Modellbasiertes Planen und Bauen AVA, Kosten- & Projektsteuerung, Baubetrieb, BIM 5D. ARRIBA AVA, Kostenplanung und Projektsteuerung

G DATA TechPaper. Update auf Version 14.2 der G DATA Unternehmenslösungen

BI Publisher Berichtswesen einfach und sicher. Alexander Klauss Centric IT Solutions GmbH

CDISC ODM. Christian Bauer. Vortrag im Rahmen des TMF forum Metadata and Linked data Workshop. Dienstag,

Customizing Datensicht erstellen. Erweiterung der Baumstruktur um eigene Sichten

PDF Ausgabe mit dem BI Publisher in ApEx 3.0

ProMaSoft.de PDFMotor ab Version (1.104) Seite 1 von 10

G DATA TechPaper. Update auf Version 14.1 der G DATA Unternehmenslösungen

Eine Referenzarchitektur für semantische Interoperabilität und ihre praktische Anwendung

Medical Data Models Ein offenes Repository Medizinscher Formulare

CALUMMA ETL Tool Benutzerhandbuch

Upgrade-Leitfaden. Apparo Fast Edit. Wechsel von Version 2 auf Version oder Wechsel von Version auf Version 3.0.

Sage 50c. Excel 365 Integration. Impressum Sage GmbH Emil-von-Behring-Str Frankfurt am Main

Upgrade-Leitfaden. Apparo Fast Edit. Wechsel von Version 2 auf Version oder Wechsel von Version auf Version 3.0.

IBM Cognos Analytics 11 Self-Service dann aber richtig!

ARRIBA AVA, Kostensteuerung & Projektmanagement

Access für Windows. Andrea Weikert 1. Ausgabe, 4. Aktualisierung, Juni Grundlagen für Anwender

WICHTIGSTE NEUERUNGEN VON A-PLAN 2018 ZUSAMMENFASSUNG

Projektverwaltung im System Egger

Anleitung. UTF-8 codierte CSV-Dateien mit Microsoft Excel öffnen und anwenden

Benutzerhandbuch. Liquid-Preisvergleichsportale. Version

SUMEX DRG EXPERT MACHT DIESES REGELWERK TRANSPARENT

Sprengnetter-AKuK -Handbuch

Leitfaden zum Generieren von Revit -Modellen

Medizinische Dokumentation. Wiederholung, Taxonomien, Ontologien, Terminologien

Datenbanken. Produkte Dienstleistungen Referenzen

Darstellung von Diagnosen mittels HL7 Version 3 für das deutsche Gesundheitswesen - Implementierungsleitfaden

Anleitung zur Benutzung des Admin Control Panel

Inhaltsverzeichnis. 1:Element Filter : Modelllinie an Objekt : Pläne duplizieren : Kabellänge : Ebenenbemaßung...

Das Portal für Medizinische Datenmodelle: mehr als medizinische Formulare mit semantischen Annotationen. Sarah Riepenhausen

SVG Maut Exact. SVG Wir bewegen Logistik

Die Bedeutung kontrollierter Vokabulare für Fachabteilungslösungen

MDRE die nächste Generation des Requirements Engineerings

Dokumentation Benachrichtigungen

Themes Organisation in Contao

Konfiguration des Biografiekataloges

Layouterstellung im Web und interaktives Arbeiten mit dem BI Publisher

Benutzerhandbuch (Lehrer)

Ihr Name: Massen- Globalmutation via Export und Re- Import

Modulbeschreibung Koronarangiographie und perkutane transluminale Koronarangioplastie (PCI) für ambulante Fälle. Version: 1.1

Upgrade-Leitfaden. Apparo Fast Edit. Wechsel von Version 2 auf Version 3 1 / 10

Katalogimport Kurzanleitung

Unternehmensdokumente mit dem XML Publisher erzeugen

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

DESIGO-S7 Installation und Update SICX-OPC-Tool Anleitung

Dateien von CSV-Datei Importieren

Erstellen von PDF-Dokumenten für Business-Anwendungen mit XSL-FO

Kurzbeschreibung. Kassenbuch für Microsoft Excel Version 1.70

Benutzer-Dokumentation V

Terminologieaustausch für Jedermann?

Einrichten FIBU-Überleitung aus CIPS² Rechnungsüberleitung aus CIPS² V2.0

Downloadbedingungen für ICD-10-GM, OPS und Alpha-ID Stand:

Dineso Software - Technische Daten

DOKinform VirtualPrinter für ELOoffice, ELOprofessional, ELOenterprise. Dokumentation

Smart Sheets. Planlayouts verwenden, ändern und aktualisieren. Kompendium v1.0

Whitepaper. Produkt: combit address manager. Import von cobra Adress Plus Version 10/11. combit GmbH Untere Laube Konstanz

Modulbeschreibung NWIES / NWIEA Einrichtungsbezogene QS-Dokumentation (stationär / ambulant) Version: 1.1

Cognos im Siebel Marketingprozess - die Integration zweier Welten

Update von XBRL Publisher 1.11 auf XBRL Publisher

TYPO3-Publikations-Daten aus TYPO3 exportieren und in Citavi importieren

Seriendruck Einführung

Erstellen und Verwalten von Karteikarten für imcards am iphone / ipod touch

ILTIS-PLS. DataExport. IST Engineering AG

:44 1/8 Fachwahl

Downloadbedingungen für ICD-10-GM, OPS, ICD-10-WHO und Alpha-ID

Zugang zu archivischer Information - invenio und Portale. Frauke Laufhütte, Rainer Jacobs

1. astendo MailConnector im Überblick Systemvoraussetzungen Lizenzierung Installation... 3

E-Rechnungen mit ZUGFeRD

Dokumentation Goobi-Plugin

Gert Domsch, CAD-Dienstleistung Autodesk CIVIL 3D 2010

seca 101-TurboMed GDT-Anbindung

Dokumentation PICA Import-Plugin

Trainingsmanagement Gutschein Management. Beschreibung

Mail Integration Solution White Paper

Downloadbedingungen für ICD-10-GM, OPS, ICD-10-WHO und Alpha-ID

Windows Verbindung mit WLAN BZPflege trennen... 42

Erstellung von Reports mit Anwender-Dokumentation und anderen Textbausteinen

AI WEBLAUNCHER. Installation und Betrieb

Schulung advertzoom. advertzoom Release 2.1 Stand Januar advertzoom GmbH

Datenintegration. Integrationsansätze, Beispielszenarien, Problemlösungen, Talend Open Studio. von Ines Rossak. 1. Auflage. Hanser München 2013

Anleitung zur Anwendung der Auswertungssoftware für Schule Team

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

Import SIMATIC-Variablen

Intelligente Suchmaschine in einer ELGA-Umgebung

Transkript:

Integrated Data Repository Toolkit (IDRT) TMF-Projekt V091-MI_03 D4.1 Standardterminologien Report Matthias Löbe Sebastian Stäubert Prof. Dr. Alfred Winter

1. Autoren Autor 1: Matthias Löbe Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) Universität Leipzig Härtelstraße 16-18 04107 Leipzig Tel.: +49 341 97 16113 Fax: +49 341 97 16169 E-Mail: matthias.loebe@imise.uni-leipzig.de sowie Center for Sepsis Control and Care (CSCC) Universitätsklinikum Jena Autor 2: Sebastian Stäubert Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) Universität Leipzig Härtelstraße 16-18 04107 Leipzig Tel.: +49 341 97 16122 Fax: +49 341 97 16130 E-Mail: sebastian.staeubert@imise.uni-leipzig.de sowie IFB AdipositasErkrankungen Universitätsklinikum Leipzig Autor 3: Prof. Dr. Alfred Winter Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) Universität Leipzig Härtelstraße 16-18 04107 Leipzig Tel.: +49 341 97 16107 Fax: +49 341 97 16109 E-Mail: alfred.winter@imise.uni-leipzig.de Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 2 / 21

2. Inhaltsverzeichnis 1. Autoren... 2 2. Inhaltsverzeichnis... 3 3. Zusammenfassung... 4 4. Einleitung... 5 5. Methode... 7 5.1. Konventionen... 7 5.1.1. Globale Variablen... 7 5.1.2. Benennung der Navigationspfade... 8 5.1.3. Benennung der Konzepte... 9 5.1.4. Benennung der Codes... 9 5.1.5. Wahl der Hierarchieebene... 9 5.2. Prozess des Imports... 10 5.2.1. Vorbereitung der Datenbank... 10 5.2.2. Transformation aus ClaML-Format in XML... 10 5.2.3. Import aus XML-Format... 11 5.2.4. Import aus CSV-Format... 12 5.2.5. Einspielen der Datensätze in die Datenbank... 13 5.3. Import über das Standalone-Importwerkzeug... 14 6. Ergebnisse, Diskussion und Ausblick... 16 7. Literatur... 18 8. Abbildungen & Tabellen... 19 9. Glossar/Abkürzungsverzeichnis... 20 10. Anhänge... 21 Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 3 / 21

3. Zusammenfassung Ziel von Arbeitspaket 4.1 ist die Entwicklung eines Verfahrens zur Bereitstellung von häufig verwendeten Terminologien, darunter ICD-10, OPS, 21-Codelisten, TNM, ICD-O, LOINC und MedDRA, für den automatisierten Aufbau von Data-Warehouse-Ontologien. Die Auswahl der bereitzustellenden Terminologien erfolgte im Rahmen der Anforderungsanalyse im Arbeitspaket 1.1 unter Beachtung der Wünsche und Prioritäten der Anwendercommunity. Zur Umsetzung des Zieles wurde aufbauend auf den Ergebnissen des Arbeitspakets 2.2 "ETL- Plattform" das Datenintegrationswerkzeug Talend Open Studio verwendet. Es wurde ein "Job" (Transformationsprozess) entwickelt, welcher soweit möglich aus den originären (normativen) Quellformaten der einzelnen Standardterminologien Ontologien im i2b2-format erzeugt. Dieses Dokument beschreibt die Vorgehensweise und Konfigurationsoptionen des Jobs zum Import der Standardterminologien. Damit lassen sich Designentscheidungen innerhalb der verwendeten Methodik nachvollziehen und darauf aufbauend Sub-Jobs für andere Terminologien ergänzen oder notwendige Modifikationen der vorhandenen neue Formate vornehmen. Ferner wird im Folgenden auf die Möglichkeit des vereinfachten Imports der in diesem Arbeitspaket erstellten i2b2-ontologien mit Hilfe des Standalone-Importer-Werkzeugs hingewiesen. Eine tiefere Erläuterung der prinzipiellen Möglichkeiten und Konstrukte zum Aufbau von i2b2- Ontologien erfolgt im Arbeitspaket 5.1 "Dokumentation Best Practices Ontologie-Aufbau". Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 4 / 21

4. Einleitung Datenelemente sind sowohl in Informationssystemen der klinischen Forschung wie auch der Versorgung häufig mit Konzepten standardisierter medizinischer Terminologien annotiert. Diese Terminologien müssen, wenn sie als Parameter für Analysen in einem Data Warehouse verwendet werden sollen, in der Data-Warehouse-Ontologie verfügbar sein. Ein Beispiel hierfür ist die Verwendung (von Teilen) der ICD-10- bzw. der OPS-Klassifikation zur Bildung von Diagnosebezogenen Fallgruppen (DRG) zum Zwecke der Abrechnung zwischen Leistungsträger und Kostenträger im deutschen Gesundheitswesen. Ein weiteres Problem bei der Integration von Daten aus verschiedenen Quellsystemen ist die Frage, ob bestimmte Datenelemente im Hinblick auf Bedeutung und Ausprägung gleich sind, ob also identische und damit aufeinander abbildbare Variablen erhoben wurden. Diese Frage lässt sich retrospektiv meist nicht zufriedenstellend beantworten. Daher ist es vorteilhaft, wenn vorhandene Standardterminologien im Sinne von Referenzterminologien a priori die semantische Ebene der Integration unterstützen. Das Arbeitspaket verfolgt im Wesentlichen zwei Ziele: 1. Die Anwender sollen bei der Definition von Navigationshierarchien für die Quelldaten unterstützt werden. Dies betrifft im Besonderen das Problem, dass viele Terminologien teilweise oder ausschließlich in elektronischen Formaten vorliegen, die nicht für eine maschinelle Weiterverarbeitung geeignet sind und somit vor Übergabe an den Transformationsjob manuell bearbeitet werden müssen. 2. Die Bereitstellung standardisierter Terminologien soll den Aufwand für die Erstellung von Dimensionshierarchien in lokalen Installationen verringern. Einerseits profitieren Anwender von bereits fertig verfügbaren Terminologien und von einer aufgrund der durchgeführten Tests postulierten geringeren Wahrscheinlichkeit enthaltener Fehler, andererseits können die hier erarbeitenden Lösungen leicht an eigene Erfordernisse adaptiert werden. Medizinische Terminologien sind in ihrer Struktur und in ihrer intendierten Anwendungsweise häufig sehr komplex und zueinander wenig homogen. Für die Nutzung in einem Data Warehouse wie i2b2 können jedoch eine Reihe von Vereinfachungen angenommen werden, da es nicht um ein Werkzeug zur Unterstützung der Kodierung von medizinischen Daten handelt (welches alle Sprachkonstrukte und gegebenenfalls Koordination, Sonderfälle, Konsistenzprüfungen usw. unterstützen muss), sondern um ein Werkzeug zur Unterstützung des Information Retrieval, d.h. der Informationsgewinnung und - Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 5 / 21

veredelung. Hier liegen Daten bereits kodiert vor. Die Datenqualität muss bereits in früheren Schritten der Verwertungskette adressiert worden sein. Idealerweise geschieht dies bei der Erfassung der Daten oder in speziellen Verfahren der Datenqualitätskontrolle. Insofern kann i2b2 natürlich genutzt werden, um manuell widersprüchliche Fakten durch geeignete Abfragen aufzufinden, stellt aber selbst keine automatisierbaren Verfahren dazu zur Verfügung. Des Weiteren ist i2b2 kein Terminologieserver, welcher kontrollierte Vokabulare oder Klassifikationen dem Anwender zum Zweck der Verbesserung der semantischen Interoperabilität bereitstellt. Der Anwender muss sich eigenverantwortlich mit der Ontologie seines Data Warehouses vertraut machen. Die Verwendung von Standardterminologien gegenüber selbst entworfenen Navigationsstrukturen ist nur insofern vorteilhaft, als dass erstere für externe Personen einfacher verständlich sind, sich besser mit weiteren Datensätzen zusammenführen lassen und in den meisten Fällen von Fachexperten entworfen und in langen Zeiträumen der Benutzung vervollkommnet wurden. Standardterminologien lassen sich in i2b2 jedoch nur sinnvoll verwenden, wenn die Quelldaten bereits damit kodiert wurden. Dann stellt der in diesem Arbeitspaket entworfene Prozess eine Erleichterung dar, weil die Navigationsstruktur nicht manuell aufgebaut werden muss, sondern mit Hilfe des Importtools automatisch aus den hinterlegten Terminologiequelldateien erzeugt werden kann. Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 6 / 21

5. Methode Im Rahmen dieses Arbeitspakets soll sowohl die Benutzung verbreiteter Terminologien als auch von der Community aufgebauter Datensätze und Datensatzbeschreibungen beschrieben werden. Aufgrund der großen Zahl medizinischer Ordnungssysteme, die dem weiten und wenig präzisen Begriff der "Standardterminologie" genügen mögen (auf allein 76 Quellen verweist der NCI Metathesaurus 1 ), musste eine Vorselektion getroffen werden. Dies geschah im Rahmen der Nutzer- bzw. Expertenbefragung innerhalb der Anforderungsanalyse. Die hier gesammelten Terminologie-Nennungen wurden von der Projektgruppe dahingehend priorisiert, ob bzw. mit welcher Wahrscheinlichkeit tatsächlich auch kodierte klinische Daten zur Verfügung stehen würden und wie komplex die Umsetzung werden würde. Im Ergebnis wurde beschlossen, mindestens folgende Terminologien anzubieten: ICD-10 zur Kodierung von Krankheitsdiagnosen und OPS zur Kodierung von Operationen als die in Deutschland am häufigsten verwendeten Systeme in der Krankenversorgung DRG-Schlüssel und 21-Codelisten als Systeme zur Leistungsabrechnung, die in jedem Krankenhaus zur Verfügung stehen LOINC für die Kodierung von Laborwerten und Dokumenten TNM und ICD-O für onkologische Datensammlungen MedDRA zur Kodierung von unerwünschten Ereignissen bzw. Nebenwirkungen besonders in klinischen Studien mit Menschen 5.1. Konventionen Bei der Verwendung einer komplexen Datentransformationssoftware wie Talend Open Studio bzw. dem Data Warehouse i2b2 unterstützen Konventionen die Wartbarkeit und die Verständlichkeit des entwickelten Codes. Aus diesem Grund wurde in dem vorliegenden Job verschiedene Konventionen zur Benennung und Konfiguration von Komponenten entworfen. 5.1.1. Globale Variablen Talend Open Studio unterstützt Methoden zur projektweiten Konfiguration von Parametern (globale Variablen) über sogenannte Kontexte. Es wurde versucht, besonders solche Konfigurationsoptionen auszulagern, deren Änderung durch den Anwender wahrscheinlich ist. 1 http://ncim.nci.nih.gov/ncimbrowser/ Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 7 / 21

Es existieren aktuell zwei Kontexte: 1. Der erste Kontext enthält projektspezifische Einstellungen, die sicherheitskritisch sind (z.b. Datenbankpasswörter). Er heißt DB_{uid}1.0. es ist darauf zu achten, diesen Kontext bei Weitergabe des Jobs nicht mit zu exportieren oder Passwörter zu löschen. Die voreingestellten Parameter des Datenbankkontexts werden beim Start des Jobs in einem Dialogfenster angezeigt und können an dieser Stelle auch geändert werden. 2. Der zweite Kontext enthält projektspezifische Einstellungen, die nicht sicherheitskritisch sind. Diese beinhalten Dateipfade zu den einzelnen Terminologien. Wird in einem Kontext eine Variable aktualisiert oder eine neue Variable angelegt, muss der Jobkontext aktualisiert werden, indem man den Kontext aus dem Repository (linke Seite der Talend-Bedienoberfläche) auf den Kontext des Jobs fallen lässt. Die Auslagerung von Parametern in Kontexte ermöglicht es ferner, für unterschiedliche Systemumgebungen (Windows, Linux) jeweils eigene Kontexte zu erstellen und schnell zwischen diesen zu wechseln. 5.1.2. Benennung der Navigationspfade Die i2b2-ontologie kennt zwei wesentliche Typen von Objekten zum Aufbau einer Navigationshierarchie: Blätter, die medizinische Konzepte repräsentieren und Ordner bzw. Container, die zur Strukturierung dienen und konzeptionell Ordnern in einem Dateisystem entsprechen. Die datenbankseitige Repräsentation erfolgt denormalisiert, jede Zeile der Ontologietabelle entspricht einem Ordner oder einem Blatt, wobei die Position innerhalb der Hierarchie nicht durch Verweise auf Eltern- oder Kindelemente realisiert ist wie bei einer verkettete Liste, sondern durch die vollständige Angabe des Pfades für jedes Element. Während dieses Verfahren deutliche Nachteile bezüglich des Speicherplatzverbrauchs hat, können Teilbäume sehr einfach mittels SQL-Selects ausgelesen werden, die das Ergebnis durch Angabe des führenden Teil des Pfads einschränken. Die verwendeten Pfade sind derzeit fest in den Job einkodiert: \i2b2\st\drg\ für G-DRG \i2b2\st\p21\ für P21 \i2b2\st\icd-10-gm\ für ICD-10-GM \i2b2\st\ops\ für OPS \i2b2\st\loinc\ für LOINC \i2b2\st\icd-o\ für ICD-O-3 \i2b2\st\tnm\ für die TNM-Klassifikation Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 8 / 21

\i2b2\st\meddra\ für MedDRA 5.1.3. Benennung der Konzepte Die Konzepte enthalten soweit vorhanden die Labels der Originaldaten. Häufig wird jedoch ein Präfix vorangestellt, einerseits, um Forscher zu unterstützen, die kodierungsorientiert arbeiten und die Bezeichnung u.u. nicht kennen. Ein anderer Punkt ist, dass der i2b2-client immer alphabetisch sortiert, was die originale Sortierung zerreißt. Hier ist es leichter, sich an Code-Präfixen zu orientieren. 5.1.4. Benennung der Codes ST <OFFIZIELLES TERMINOLOGIE-KÜRZEL>:<CODE AUS TERMINOLOGIE> Beispiele: ICD: ST ICD-10-GM:J52.1 OPS: ST OPS:8-801.a DRG: ST DRG-2012:A52Z Geschlecht: ST P21 GSCHL:M Aufnahmeanlass: ST P21 AUFNAN:A Aufnahmegrund: ST P21 AUFNGR:0107 Entlassungsgrund: ST P21 ENTLGR:07 Fachabteilung: ST P21 FACHABT:2900 5.1.5. Wahl der Hierarchieebene Derzeit ist die gesamte Hierarchie fest vorgegeben. Sie beginnt auf Ebene 1 mit einem Punkt Standardterminologien. Darunter (Ebene 2) werden alle Terminologien alphabetisch aufgelistet. Abbildung 1: Darstellung der Standardterminologien im i2b2-webclient Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 9 / 21

5.2. Prozess des Imports Aktuell besteht der Prozess zum Import der Standardterminologien nur aus einem einzigen Talend-Job. Daraus folgt, dass immer alle Terminologien importiert werden. Falls dies nicht gewünscht ist, müssen Teilkomponenten temporär deaktiviert werden. Alle Ergebnisse werden mit Hilfe von Talendkomponenten vom Typ tunite zusammengefügt. Abbildung 2: "Vereinigen" der Importe 5.2.1. Vorbereitung der Datenbank Im ersten Schritt wird eine Verbindung zur Datenbank hergestellt. Danach wird die Datenbank (genauer die Tabellen I2B2 und CONCEPT_DIMENSION) geleert, wobei nur ein Wurzelobjekt für die Ontologie in der Tabelle I2B2 verbleibt. Abbildung 3: Öffnen und Leeren der Datenbank 5.2.2. Transformation aus ClaML-Format in XML Folgende Terminologien liegen normativ im ClaML-Format vor und können vom DIMDI heruntergeladen werden: ICD-10 German Modification OPS ICD-O-3 Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 10 / 21

ClaML steht für Classification Markup Language und ist in der ISO-Norm 13120 2 definiert. Es handelt sich um einen XML-Standard zu Pflege und Austausch medizinischer Klassifikationen. ClaML ist mittlerweile das bevorzugte Format der Weltgesundheitsorganisation (WHO). Da sich ClaML nicht ohne Zwischenschritte in das i2b2-tabellenformat überführen lässt, wird zuerst aus der ClaML-XML-Datei eine einfachere XML-Version erzeugt. Dies geschieht mit Hilfe eine Stylesheets und einer XSL-Transformation. Im Ergebnis entsteht ein XML der Form: <tnm> <class> <level>3</level> <path>\i2b2\st\tnm\metastasis</path> <label>fernmetastasen\</label> <code>m</code> </class> </tnm> Es beinhaltet nur jene Parameter, die für den Aufbau der i2b2-ontologie verwendet werden. Das XSLT-Skript kann generisch auf beliebige ClaML-Daten angewendet werden, allein der Präfix (im obigen Beispiel TNM) muss projektspezifisch angepasst werden. Abbildung 4: XSLT-Komponente zum Transformation von ClaML in ein einfaches XML-Format 5.2.3. Import aus XML-Format Aus dem einfachen XML-Format lässt sich das I2B2-Datenbanktabellenschema erzeugen. Dies gilt für die Terminologien: ICD-10 OPS ICD-O TNM (hier wurde das einfache XML-Format manuell erstellt) 2 ISO 13120 Health informatics -- Syntax to represent the content of healthcare classification systems -- Classification Markup Language (ClaML) [http://www.iso.org/iso/home/store/catalogue_tc/ catalogue_detail.htm?csnumber=52952] Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 11 / 21

Dabei wird das einfache XML-Format mithilfe einer tmap-komponente von Talend so transformiert, dass jedes Konzept aus einer einzelne Zeile besteht, deren Spalten mit denen der I2B2-Tabelle übereinstimmen. Zu beachten ist ferner die Erstellung des Wurzelkonzepts einer Terminologie über eine manuell geschriebene CSV-Datei. Abbildung 5: Transformation aus dem einfachen XML-Format in das i2b2-format 5.2.4. Import aus CSV-Format Einige Terminologien liegen nicht im ClaML-Format vor und wurden entweder aus Erlangen bezogen oder aus den gesetzlichen Standardwerken manuell erstellt. Dies gilt für die Terminologien: 21 (Geschlecht, Aufnahmeanlass, Entlassungsgrund, Fachabteilung, Aufnahmegrund) DRG LOINC MedDRA Auch wenn sich die CSV-Dateien im Hinblick auf Größe, Aufbau, Feldtrenner oder Zeilenabschlusszeichen unterscheiden, handelt es sich doch strukturell um tabellarische Daten. Auch hier wird das Wurzelkonzept der Terminologie über eine manuell geschriebene CSV- Datei angelegt. Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 12 / 21

Abbildung 6: Transformation aus CSV in das i2b2-format 5.2.5. Einspielen der Datensätze in die Datenbank Im letzten Schritt werden die erzeugten Statements der Datenbank übergeben, genauer der Tabelle I2B2. Die Änderungen werden mit COMMIT festgeschrieben. Danach wird die Tabelle CONCEPT_DIMENSION aus der Tabelle I2B2 erzeugt und ebenfalls commited. Zum Schluss wird die Datenbankverbindung getrennt. Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 13 / 21

Abbildung 7: Festschreiben der Änderungen in Oracle 5.3. Import über das Standalone-Importwerkzeug Der bislang beschriebene Weg des Imports mithilfe des Talendjobs ermöglicht ausschließlich den Import der Standardterminologien selbst. Der Import der klinischen Fakten kann durch andere Jobs bearbeitet werden. Für eine konkrete Nutzung müssen jedoch die Fakten mit den Codes der Standardterminologien verbunden sein. Ansonsten kann das Vorhandensein vieler Terminologie gar als nachteilig angesehen werden, denn der Anwender wird durch die scheinbare Reichhaltigkeit des Ontologiebaumes insofern getäuscht, als das Abfragen keine Patienten in der Ergebnismenge enthalten und somit unklar ist, welche Ontologie-Teilbäume mit Fakten hinterlegt sind und welche nicht. Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 14 / 21

Aus diesem Grund wurde eine zusätzliche Importmöglichkeit geschaffen und der Terminologie-Job als Option in das IDRT-Importtool (siehe AP2.3 und AP2.5) für Daten des 21-Datensatzes eingebunden. Ist das Häkchen in Abbildung 8 gesetzt, werden jene Standardterminologiekonzepte importiert, für die Fakten in der Tabelle OBSERVATION_FACT existieren. Die Codes der Fakten werden auf die Codes der Standardterminologien gemappt. Standardterminologien ohne Entsprechung in den klinischen Fakten werden überhaupt nicht importiert. Abbildung 8: Aktivieren der Jobs zum Import von Standardterminologien Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 15 / 21

6. Ergebnisse, Diskussion und Ausblick Alle Terminologien, die im Rahmen der Anforderungsanalyse erfasst und in der Projektgruppe priorisiert wurden, konnten erfolgreich mit Hilfe des erstellten Talend-Jobs (siehe 10. Anhänge) importiert werden. Insgesamt sind bei einem vollständigen Import der Standardterminologien über 125.000 Konzepte in der Ontologie vorhanden. Der Talend-Job importiert die Terminologien sequentiell, sodass eigene Adaptionen (Hinzufügen weiterer Vokabulare, Ausblenden vorhandener Vokabulare, Modifikationen) leicht möglich sind. Ferner kann der gewählte Ansatz auch Basis für eigene Importjobs sein. Ein Grund für den Erfolg besteht unzweifelhaft in dem relativ einfachen Format für i2b2- Ontologien. Im Wesentlichen wird für ein Konzept nur ein textueller Bezeichner zur Anzeige im Clientprogramm sowie ein interner Code zur Referenz auf das Konzept benötigt, ferner eine einfache Hierarchierelation für generischere bzw. spezifischere Konzepte Probleme beim Import von Standardterminologien resultieren aus verschiedenen Besonderheiten: Terminologien sind nicht in jeden Fall frei verfügbar: So ist MedDRA bspw. geschützt und kann deshalb auch nicht in modifizierter Form weitergegeben werden. Terminologien sind nicht elektronisch verfügbar oder das Format ist nicht maschinell verarbeitbar: Einige Ordnungssysteme liegen nicht normativ in elektronischen Formaten vor (TNM) und wurden daher manuell erstellt. Häufiger sind aber Office- Formate mit Überschriften, Bemerkungen und Farbkodierungen, welche eine vollautomatische Weiterverarbeitung stark einschränken. Dies ist z.b. bei der 21- Codelisten (PDF) oder bei den DRGs (XLS) der Fall. Beide müssen stark manuell vorverarbeitet werden. Terminologien liegen in vielen Datenformaten vor: Selbst wenn die Daten intern gut strukturiert sind, erschwert die Vielzahl an Datenformaten (CSV, XLS, MDB, XML, OWL, SQL) den Import, da für jedes Quellformat eigene Importer geschrieben werden müssen. Als am besten geeignet für den Import erwies sich das ClaML-Format. Die gewählte Methode über die Datenintegrationsplattform Talend Open Studio konnte die in sie gesetzten Erwartungen erfüllen. Talend-Jobs sind immer noch recht kompliziert und für Außenstehende schwer verständlich, lassen sich aber deutlich besser warten und sind fehlerfreier als selbst programmierte Importroutinen. Die grafische Modellierung und Live- Aktualisierung während des Ausführens erleichtert das Verständnis etwas. Des Weiteren ist Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 16 / 21

der Import über Talend Open Studio relativ performant, der Import der Standardterminologien benötigt auf einem aktuellen Standard-PC unter einer Minute und selbst im Falle einer Verteilung auf Client-PC mit Talend, Server mit i2b2 und eigenem Oracle-Datenbankserver im IMISE-Netz auf leistungsärmerer Hardware nur ca. 3-5 Minuten. Im Laufe des Arbeitspakets wurde eine Reihe von Herausforderungen identifiziert, die in zukünftigen Versionen des Jobs Beachtung finden sollen. Dies betrifft zum einen das mit i2b2 1.6 neu hinzugekommene Konstrukt der Modifier (Näheres im Deliverable 5.1 Best Practices zum Ontologieaufbau), welche es ermöglichen werden, zusätzliche Aussagen zu einem Konzept zu tätigen. Damit kann beispielsweise zwischen Haupt- und Nebendiagnosen unterschieden werden, ohne dass diese in zwei separaten (redundanten) Bäumen gehalten werden. Zum anderen stellen die häufigen Aktualisierungen von Terminologien eine Herausforderung dar, weniger wegen dem Aufwand des Importierens an sich, sondern wegen den Änderungen an den im Vokabular enthaltenen Konzepten (neue kommen hinzu, alte werden ungültig, die Bedeutung von Konzepten wird intensional geändert, in Einzelfällen wie beim G- DRG bekommen Konzepte z.b. durch Wegfall eines Schweregrads Codes, die in der letzten Version noch für ein anderes Konzept standen). Für das im Anschluss an das aktuelle Projekt geplante Folgeprojekt wird der konzipierte Ontologie-Editor einige Möglichkeiten zum Mapping zwischen Ontologiebäumen bieten. Ferner soll eine Anbindung an das Nationale Metadata Repository erfolgen, um i2b2- Ontologien aus dort gespeicherten Forschungsvorhaben zu erzeugen. Prinzipiell handelt es sich aber um eine generelle, nicht-triviale Problematik medizinischer Ordnungssystemen, deren Lösung nicht Ziel dieses Arbeitspakets ist. Im Laufe des Arbeitspakets wurde des Weiteren ein Bedarf für zusätzliche Terminlogien offenbar, darunter Standardized MedDRA Queries zur einfacheren Abfrage von Klassen von unerwünschten Ereignissen, CDISC SDTM für annotierte Daten klinischer Studien, speziell Arzneimittelstudien zur Einreichung an die FDA, SNOMED-CT als derzeit wohl populärstes und reichhaltigstes Terminologiesystem, der NCI Thesaurus, welcher in einigen europäischen Partnerländern zum Einsatz kommt, ATC zur Kodierung von Arzneistoffen (wie im Arbeitspaket 5.2 Use Case Data Warehouse beschrieben) und MeSH. Es wäre wünschenswert, wenn eine Auswahl hiervon in eine aktualisierte Version des Talend-Jobs aufgenommen werden könnte. Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 17 / 21

7. Literatur [1] ICD-10-GM http://www.dimdi.de/static/de/klassi/icd-10-gm/index.htm [2] OPS http://www.dimdi.de/static/de/klassi/ops/index.htm [3] 21 http://www.g-drg.de/cms/datenlieferung_gem._21_khentgg/dokumente_zur_ Datenlieferung/Datensatzbeschreibung [4] G-DRG http://www.g-drg.de/cms/g-drg-system_2013/fallpauschalen-katalog/ Fallpauschalen-Katalog_2013 [5] LOINC http://loinc.org/downloads [6] TNM Ch. Wittekind, H.-J. Meyer: TNM Klassifikation maligner Tumoren. 7. Auflage. Wiley-VCH, Weinheim 2010, ISBN 978-3-527-32759-1. [7] ICD-O http://www.dimdi.de/dynamic/de/klassi/downloadcenter/icd-o-3/ [8] Talend Nutzerhandbuch und Talend Referenz http://de.talend.com/download/dataintegration?qt-product_download_tabs=2#qt-product_download_tabs Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 18 / 21

8. Abbildungen & Tabellen Abbildung 1: Darstellung der Standardterminologien im i2b2-webclient... 9 Abbildung 2: "Vereinigen" der Importe... 10 Abbildung 3: Öffnen und Leeren der Datenbank... 10 Abbildung 4: XSLT-Komponente zum Transformation von ClaML in ein einfaches XML-Format... 11 Abbildung 5: Transformation aus dem einfachen XML-Format in das i2b2-format... 12 Abbildung 6: Transformation aus CSV in das i2b2-format... 13 Abbildung 7: Festschreiben der Änderungen in Oracle... 14 Abbildung 8: Aktivieren der Jobs zum Import von Standardterminologien... 15 Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 19 / 21

9. Glossar/Abkürzungsverzeichnis BMBF DIMDI ICD-10 LOINC OPS TMF TNM UICC ZKS Bundesministerium für Bildung und Forschung (www.bmbf.de) Deutsches Institut für Medizinische Dokumentation und Information (www.dimdi.de) International Statistical Classification of Diseases and Related Health Problems, 10. Revision Logical Observation Identifiers Names and Codes (www.loinc.org) Operationen- und Prozedurenschlüssel; vom DIMDI herausgegebener Katalog zur Verschlüsselung medizinischer Prozeduren im Krankenhaus und ambulanter Operationen TMF Technologie- und Methodenplattform für die vernetzte medizinische Forschung e.v. (www.tmf-ev.de) Klassifikationssystem der UICC für maligne Tumoren mit den Kategorien (T)umor, (N)odes (Lymphknotenbeteiligung) und (M)etastasen International Union against Cancer (www.uicc.org) Zentrum für Klinische Studien Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 20 / 21

10. Anhänge 1. Talendjob (Export als Item) in der Version vom 04.04.2013. Deliverable D2.5: Anbindung 21-Datenquellen, Integrated Data Repository Toolkit (IDRT), November 2012 21 / 21