Datenintegration am Beispiel der Bioinformatik SRS - Sequenz Retrieval System

Datenintegration am Beispiel der Bioinformatik SRS - Sequenz Retrieval System FRANK HUBER email: huber@informatik.hu-berlin.de Humboldt Universität zu Berlin WS02/03-18.12.2002 Vortrag zu SRS 1-17 huber@informatik.hu-berlin.de

Inhaltsverzeichnis 1 Allgemeines zur Datenintegration in der Bioinformatik 3 2 Was ist SRS? 4 3 Entwicklung und Komponenten von SRS 5 4 Schnittstellen zu SRS 11 5 Der EBI SRS Server 14 6 Vergleich von SRS mit RDBM Systemen 15 7 Zusammenfassung 16 Vortrag zu SRS 2-17 huber@informatik.hu-berlin.de

Allgemeines zur Datenintegration in der Bioinformatik 1 Allgemeines zur Datenintegration in der Bioinformatik In den letzten Jahren sind in der Biologie speziell in der Bioinformatik riesige Datenmengen entstanden. Dazu gehören z.b. die Sequenz Datenbanken SWISSPROT oder EMBL 1. Diese Datensammlungen sind in großen Textfiles auf den entsprechenden Servern abgespeichert. Aus diesen Datensammlungen sollen Informationen gewonnen werden. Mit Anfragen wie: Welches Gen wird in welches Protein synthetisiert und welche Aufgaben übernimmt dieses Protein, oder wie ist die Raumstruktur des Proteins? Dazu ist es notwendig, Daten aus verschiedenen Quellen miteinander zu verknüpfen. Die Datenquellen sind aber nicht homogen und somit ist die Integration schwierig. Mit SRS ist ein System entwickelt worden, das die Integration verschiedener heterogener Datenquellen vollführt. SRS bietet unter einem homogenen Interface den Zugriff, die Verarbeitung und die Analyse dieser Daten an. Damit werden SRS Server zu zentralen Quellen für molekular biologische Daten. Speziell der EBI 2 SRS Server dient aber auch als Referenzserver für neueste Entwicklungen in der Datenintegration. 1 EMBL European Molecular Biology Laboratory 2 EBI European Bioinformatics Institute Vortrag zu SRS 3-17 huber@informatik.hu-berlin.de

Was ist SRS? 2 Was ist SRS? SRS steht für Sequence Retrieval System. Es soll somit dem Namen nach ein System zum Auffinden oder zur Suche von Sequenzen sein. 1993 begannen Thure Etzold und Patrick Argos am EMBL in Heidelberg mit der Entwicklung von SRS. Später wurde die Entwicklung von SRS an das EBI abgegeben und seit 1999 hat die LION AG die Lizenzrechte an SRS, wobei die akademische Benutzung von SRS immer noch frei ist. In der Bioinformatik ist die Lingua Franca das Textfile. Die meisten großen und wichtigen Datenquellen liegen als Flatfiles vor oder sind, wie EMBL, als Flatfiles zu erhalten. Daher resultiert auch die Eigenschaft von SRS, nur mit Datenquellen im Flatfile-Format zu arbeiten. SRS stellt eine Menge von Programmen zur Verfügung, die eine homogene Schnittstelle für den Zugriff und die Navigation bereitstellen und effiziente Anfragen auf mehreren Datenquellen ermöglichen. Es sind Parser für den Zugriff auf mehr als 400 Datenquellen erhältlich. Es wurden auch diverse Analysewerkzeuge (FASTA,BLASTA,...) in SRS integriert. In der Praxis variiert die Anzahl der Datenquellen stark von unter 10 bis mehr als 200. Zur Zeit sind über 100 Installationen von SRS weltweit zu verzeichnen. Die Datenquellen werden über semantisch äquivalente Attribute, implizite oder explizite Links in den Daten selbst verknüpft. SRS ist somit ein Integrationssystem, das Datensuche und Datenanalyse zusammen in einem System vereinigt. Vortrag zu SRS 4-17 huber@informatik.hu-berlin.de

Entwicklung und Komponenten von SRS 3 Entwicklung und Komponenten von SRS SRS besteht aus einer Anzahl von Bibliotheksfunktionen für das Anfragen, das Parsen und die Extraktion von Einträgen aus den Flatfiles in ihren originalen Formaten. Den Parsern der Flatfiles kommt hierbei eine große Bedeutung zu, da sie den Zugriff ermöglichen und daher effizient arbeiten müssen. Ausserdem wurden Werkzeuge für den Indexaufbau und die Indexverwaltung entwickelt, die ihrerseits einen effizienten Zugriff auf die Daten zur Verfügung stellen. Eigene Sprachdefinitionen, wie Icarus, ODD und SRS QL, wurden ebenfalls für SRS entwickelt. Hauptmerkmal von SRS soll ein einzigartiges objektorientiertes Design sein. Leider sind über dieses Design kaum Informa tionen zu erhalten. Hierbei werden mit Hilfe der Sprache ODD (Object Design and Definition) Klassen von Objekten definiert. Jeder Datenbankeintrag kann dann als eine Extension eines Objektes interpretiert werden. Die Datenfelder entsprechen den Attributen der Klasse. Die Regeln für das Textparsing werden als Methoden modelliert. In Abb.3 Seite 10 ist ein Auszug einer PDB Datei dargestellt. Schnelle Anfragesysteme beruhen im Allgemeinen auf Indexen, die bereits vor der Anfrage erstellt wurden. Auch in SRS wird mit Hilfe von Indexen die Anfragezeit minimiert. Dafür wurde ein eigenes Indexsystem für SRS entwickelt. Dabei wird die Datenquelle als Folge von Einträgen aufgefast. Jeder Eintrag besitzt verschiedene Datenfelder oder Attribute. Für jedes Attribut kann ein eigener Index aufgebaut werden. Beim Indexaufbau wird das ausgewählte Attribut für alle Einträge auf bestimmte (häufige, wichtige,...) Muster gescannt und in den Index eingetragen. Somit entsteht pro ausgewähltem Attribut ein separater Index. Indexaufbau und Indexupdate ist komplett automatisiert, wobei das Update des Index so aussieht, dass der Index gelöscht und danach komplett neu aufgebaut wird. Laut Autoren soll sich der zusätzliche Speicherverbrauch auf etwa 10 % bis 20 % der zugrunde liegenden Datenquelle belaufen [ZLAE00]. Vortrag zu SRS 5-17 huber@informatik.hu-berlin.de

Entwicklung und Komponenten von SRS SRS QL ist die Sprache, die benutzt wird, um auf einem Index Anfragen zu formulieren. Sie vereinigt dabei Boolesche Operatoren über Mengen und Links zwischen den Datenquellen. Beispiele: [embl-organism:human] - alle EMBL Einträge, bei denen im organism -Attribut der String human vorkommt [embl-seqlength#400:500] - alle EMBL Einträge, die eine Sequenz länge zwischen 400 und 500 haben [embl-organism:human]&[embl-eqlength#400:500] - die Schnittmenge der beiden oben genannten Anfragen Viele Datenquellen enthalten Querverweise auf andere Datenquellen. Beispielsweise hat SWISSPROT Verweise auf mehr als 20 andere Datenquellen. Daher wurde in SRS ein Konzept entwickelt, das diese Verweise repräsentiert und Anfragen auf ihnen ermöglicht. Diese Verweise sind dabei oft nicht direkt, sondern indirekt, wie es folgendes Beispiel darstellt. SWISSPROT verweist nicht direkt auf EPD; allerdings sind Links zu Einträgen in EMBL vorhanden und EMBL verweist seinerseits auf Einträge in EPD SWISSPROT EMBL EPD Vortrag zu SRS 6-17 huber@informatik.hu-berlin.de

Entwicklung und Komponenten von SRS SRS definiert Verweise zwischen Datenquellen, bei denen Attribute gleiche Semantik haben, gleiche Werte repräsentieren oder direkt aufeinander verweisen. Dieses entspricht in etwa einem Equi- oder Semi-Join in RDBMSystemen. Für eine schnelle Suche über diese Verweise werden in SRS auch hier wieder Indexe verwendet. Verweise werden in SRS immer bidirektional geführt, auch wenn in den Flatfiles HTML-Links benutzt werden. Damit schafft SRS eine Umgebung, in der nicht nur einzelne Datenquellen für sich durchsucht werden können, sondern auch konzeptionell verknüpfte Datenquellen. Um auch indirekte Verbindungen schnell zu finden, werden Link-Graphen wie in Abb.1 Seite 8 verwendet. In diesen Link-Graphen stehen Knoten für die Datenquellen und Kanten für Verweise zwischen den Datenquellen. Somit sind Anfragen möglich wie: Gib mir alle eukaryonten Proteine, bei denen der Promoter näher charakterisiert ist. Diese Anfrage benutzt drei verschiedene, aber miteinander verbundene Datenquellen. Links müssen dem System bekannt sein, also in ODD definiert werden. Bekannte Links werden bereits vor den Anfragen auf gemeinsame Werte durchsucht. Und auch hier werden die Ergebnisse in einen Index eingefügt. Beispiel mit SRS QL: [swissprot-features:ca_bind] > parent > pdb - gibt alle PDB Einträge zurück, bei denen eine Ca-Brückenbindung in SWISSPROT annotiert ist pdb < SWISSPROT <[swissprot-features:ca_bind] - gibt alle Swissprot Einträge zurück, bei denen eine Ca-Brückenbindung annotiert ist und von denen die Struktur in PDB bekannt ist Vortrag zu SRS 7-17 huber@informatik.hu-berlin.de

Entwicklung und Komponenten von SRS Im Jahr 2000 wurde die Interpro Datenbank integriert. Interpro liegt unter anderem in einem XML Vokabular vor und wurde auch in diesem Format integriert. Sie ist somit die erste Datenbank im XML Format, die in SRS integriert wurde. Andere Erweiterungen, die das Arbeiten mit SRS vereinfachen sollen, sind Prisma und eine sogenannte Datenbank über Datenbanken. Diese verwaltet die Informationen über Datenbanken auf zahlreichen öffentlichen SRS Servern und ist mit SRS Version 6 entwickelt worden. Prisma ist eine Erweiterung von SRS, die den Administratoren die Arbeit erleichtern soll. Das SRS System fordert, dass alle Datenquellen mit denen gearbeitet werden soll, lokal installiert sind. Damit verbunden ist allerdings auch eine ständige Suche nach den neuesten Updates bzw. Versionen der einzelnen Datenquellen. Prisma soll diesen gesamten Update-Prozess automatisieren. Abbildung 1: [EMBL] Vortrag zu SRS 8-17 huber@informatik.hu-berlin.de

Entwicklung und Komponenten von SRS Abbildung 2: [EBI SRS] Blau unterlegt sind HTML-Links zu anderen Datenquellen Vortrag zu SRS 9-17 huber@informatik.hu-berlin.de

Entwicklung und Komponenten von SRS Abbildung 3: [EBI SRS] Auszug aus PDB 4HHB.pdb - Der hier dargestellte Auszug zeigt die Struktur der PDB Dateien. Datenfelder entsprechen aufeinanderfolgende Zeilen mit gleichem Anfangskürzel. Vortrag zu SRS 10-17 huber@informatik.hu-berlin.de

Schnittstellen zu SRS 4 Schnittstellen zu SRS Um mit SRS auf die Daten zuzugreifen, wurden mehrere Schnittstellen geschaffen. Diese sollen im weiteren nicht näher beschrieben werden, sondern nur genannt. Neben der API für C, wurde von der LION AG mit SRS 6 auch eine API für C++, Java, Perl und Python entwickelt. Somit sind ab der Version 6 auch Objekt Orientierte Konzepte bei den Schnittstellen verfügbar. Eine andere Schnittstelle ist das Command Line Interface, das den lokalen Zugriff ermöglicht. Es besteht aus einer Menge von Programmen, die das Parsen, den Indexaufbau und das Anfragen der Datenquellen ermöglichen. Der WWW Server stellt den remote Zugriff über einen HTML Browser bereit. Im Jahr 1999 wurde SRS auch mit einem CORBA Interface ausgestattet, um Anwendungen einen remote Zugriff auf strukturierte Daten zu ermöglichen. Dieser Zugriff war bis dorthin nicht möglich. Der ORB stellt dabei der Client-Anwendung den Zugriff auf die Daten zur Verfügung. Die übergebenen Loader-Objekte enthalten Informationen, die aus den Datenquellen extrahiert wurden. Das Anfrageverhalten von CORBA im Vergleich zu getz (Command Line Interface) ist in Abb.4 Seite 12 aufgetragen. Vortrag zu SRS 11-17 huber@informatik.hu-berlin.de

Schnittstellen zu SRS Abbildung 4: [Cou99] Vortrag zu SRS 12-17 huber@informatik.hu-berlin.de

Schnittstellen zu SRS SRS ermöglicht auch die Integration von Sequenzanalyse Werkzeugen, wie FASTA oder CLUSTALW, oder anderen Werkzeugen. Diese Werkzeuge werden in SRS so integriert, dass sie die Vorteile der Indexierung verwenden, um ihre Ergebnisse schneller zu berechnen. Dabei können die Ausgaben der Tools selbst wieder als Eingaben für andere benutzt werden. Die Ausgaben können somit wie jede andere Datenquelle behandelt werden. Somit ist ein Pipelining mit Werkzeugen und Datenquellen möglich. In Abb.5 Seite 13 ist der Ablauf mit BLAST dargestellt. Abbildung 5: [ZLAE00] Vortrag zu SRS 13-17 huber@informatik.hu-berlin.de

Der EBI SRS Server 5 Der EBI SRS Server Der EBI SRS Server bietet einen flexiblen und aktuellen Zugriff auf mehr als 200 Major Datenquellen und mehr als 10 integrierte Analysewerkzeuge. Beim EBI SRS Server wurden die Datenquellen in Gruppen eingeteilt (siehe Abb.6 Seite 14). Dieses bringt Übersicht in die große Menge von Datenquellen. Der EBI SRS Server ist zum Referenz Server für das SR System geworden, da alle Parser am EBI freiverfügbar sind und hier auch immer wieder neue Datenquellen und Werkzeuge integriert werden. Der EBI SRS Server hatte im Jahr 2000 über 8 Millionen Hits pro Monat mit einer Wachstumsrate von 15%. Abbildung 6: [ZLAE00] Gruppeneinteilung der Datenbanken am EBI Vortrag zu SRS 14-17 huber@informatik.hu-berlin.de

Vergleich von SRS mit RDBM Systemen 6 Vergleich von SRS mit RDBM Systemen Beim Vergleich von SRS mit einem RDBMS muss man zuerst einmal anmerken, dass SRS den Anwendern einen reinen Lesezugriff auf die Datenbanken erlaubt. Die Stärken von RDBMS, wie Concurrency Control oder Transaktionsmanagement werden deshalb während des Zugriffes nicht gebraucht, solange man nicht Updates auf den Datenquellen fährt. Bei diesen Update Operationen, die sehr häufig sind, liegen auch die Stärken von RDBMSystemen, neben dem Fakt das RDBMSysteme schon seit mehr als 20 Jahren entwickelt werden. Fehlererholung, Konsistenz- beziehungsweise Integritätsprüfung stehen beim Update der unterliegenden Datenquellen zur Verfügung. SRS kann dieses nicht. Auch ist mit SRS kein inkrementelles Update der Indexe möglich. Im SR System wird der Index immer komplett neu aufgebaut. Ebenfalls könnte die Redundanz der Daten in SRS zu Problemen führen. Die Vorteile von SRS liegen auf der Integrationsseite. SRS setzt auf den entsprechenden Flatfile Datenquellen auf. Es muss also kein gemeinsames relationales Datenbankschema entwickelt und gewartet werden. Auch Integration von Analysewerkzeugen, wie FASTA oder BLASTA, ist in SRS einfacher als in RDBMSystemen. Ein weiterer wesentlicher Punkt ist natürlich die Anfragegeschwindigkeit. Diese soll nach Aussagen der Autoren vom Paper [ZLAE00] um einen Faktor von 10 bis 100 mal besser sein als bei RDBMSystemen. Dieses wird damit begründet, dass bei SRS einfach nur Textfiles geparst werden müssen und nicht über ein hoch komplexes relationales Schema angefragt wird. Die damit entstehenden Mengen von Joins und anderen Operatoren gespart werden. Vortrag zu SRS 15-17 huber@informatik.hu-berlin.de

Zusammenfassung 7 Zusammenfassung Abschließend möchte ich noch einmal kurz zusammenfassen und eine Bewertung abgeben. Das hier vorgestellte System SRS ist ein Integrationssystem, das ein homogenes Interface auf Flatfile basierten Datenquellen in ihrem Originalformat zur Verfügung stellt. Ebenfalls werden Datenzugriff und Datenanalyse in einem System untergebracht. Die Integrationsstärke von SRS beruht auf der gemeinsamen Definition von konzeptionell äquivalenten Attributen in unterschiedlichen Datenquellen und der damit einhergehenden Möglichkeit von Multi-Datenbank-Anfragen. SRS bietet allerdings von außen nur einen lesenden Zugriff. Aus meiner Sicht sind auch andere Eigenheiten von SRS nicht zum Vorteil: 1. um die Link Fähigkeiten ausnutzen zu können, müssen alle beteiligten Datenbanken lokal installiert sein, dieses führt zum erhöhten Aufwand, um alle Datenbanken auf aktuellem Stand zu halten 2. nach einem Update muss der Index für die gesamte Datenbank komplett neu aufgebaut werden Alles in allem finde ich, dass die Vorteile von SRS gegenüber RDBMS überwiegen. Der EBI SRS Server ist mit einem sehr übersichtlich und leicht zugänglichem Webinterface ausgestattet, welches mir persönlich sehr gut gefallen hat. Vortrag zu SRS 16-17 huber@informatik.hu-berlin.de

Literatur [Cou99] [EUA96] Cou99 - T. COUPAYE. Wrapping SRS with CORBA: from textual data to distributed objects. Bioinformatics, 15 (4): 333-338, 1999. EUA96 - T. ETZOLD, A. ULYANOV and P. ARGOS. SRS: Information Retrieval System for Molecular Biology Data Banks. Methods in Enzymology, 266: 114-128, 1996 [ZLAE00] ZLAE00 - E.M. ZDOBNOV, R. LOPEZ, R. APWEILER and T. ETZOLD. The EBI SRS Server - Recent Developments. Bioinformatics, 18 (2): 368-373, 2000 [EBI SRS] EBI SRS SERVER http://srs.ebi.ac.uk [LION AG] LION AG http://www.lionbioscience.com/solutions/ products/srs [EMBL] EMBL - Heidelberg www.embl-heidelberg.de/srs Vortrag zu SRS 17-17 huber@informatik.hu-berlin.de