InterPro & SP-ML Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik Stefan Albaum 18. Dezember 2002
Inhaltsverzeichnis 1 SPTr-XML 2 1.1 SWISS-PROT........................... 2 1.2 TrEMBL.............................. 2 1.3 SP-ML............................... 3 1.4 SP-ML Evidence-Tag....................... 3 1.5 Root-Tag Sptr und folgende..................... 3 2 InterPro 5 2.1 Proteinfunktion und Struktur................... 5 2.2 Signatur Datenbanken....................... 5 2.2.1 ProSite........................... 5 2.2.2 Pfam............................ 6 2.2.3 Prints........................... 6 2.2.4 SMART.......................... 6 2.2.5 Prodom.......................... 6 2.3 InterPro XML-Format....................... 6 2.4 Sequenzanalyse mit InterPro.................... 7 2.5 Wichtige Quellen und Links.................... 8 1
Kapitel 1 SPTr-XML 1.1 SWISS-PROT Im Jahre 1986 gegründet, wird die SWISS-PROT Proteinsequenzdatenbank durch das Swiss Institute for Bioinformatics und das European Bioinformatics Institute verwaltet. Die Datenbank umfasst derzeit 119.803 Proteine einschliesslich ihrer zugehörigen Aminosäuresequenzen. Jeder Eintrag besteht aus Sequenzinformationen und Annotationen, im speziellen werden Proteinfunktionen, Domänen und markante Bereiche, wie auch Informationen über Sekundär- und Tertiärstrukturen und Homologien, aufgeführt. SWISS-PROT weist aufgrund von selektiven Auswahlkriterien und Zusammenführungen eine nur minimale Redundanz auf. 1.2 TrEMBL Die Proteindatenbank TrEMBL (Translated EMBL) liefert die in ihre equivalenten Aminosäureketten übersetzten Nukleotidsequenzen der EMBL Datenbank. Die aktuelle Version 22.5 umfasst derzeit 703.704 Einträge. Diese Datenbank ist in zwei wesentliche Teilbereiche gegliedert. SP-TrEMBL beinhaltet mögliche Kandidaten der SWISS-PROT Datenbank. REM-TrEMBL Einträge wurden aus vorwiegend qualitativen Gründen nicht in die SWISS-PROT Datenbank integriert. Einträge in TrEMBL, beziehungsweise EMBL, unterliegen im Gegensatz zu SWISS-PROT nur wenigen Aufnahmekriterien. Das Einfügen neuer Datenbankeinträge ist allgemein zugänglich. 2
KAPITEL 1. SPTR-XML 3 1.3 SP-ML SPTr-XML(Kurzform: SP-ML) ist ein gemeinsames XML-Datenformat der beiden Datenbanken SWISS-PROT und TrEMBL. Die Implementierung berücksichtigt die Standards XML und XML-Schema. Seit Herbst 2002 werden die Einträge der TrEMBL Datenbank, alternativ zum bisherigen proprietären Flat-File Format, XML formatiert offeriert. Mittels der sogenannten round-trip -Konvertierung, dem Vergleich der zunächst in XML übersetzten und anschliessend wieder zurück gewandelten Daten des Flat-File-Formates, erfolgt die Sicherstellung der Datenbankkonsistenz. 1.4 SP-ML Evidence-Tag Alle relevanten Datenbankeinträge besitzen ein oder mehrere Evidence-Tags. Diese dienen zum einem der Herkunftsbestimmung des jeweiligen Elementes, zum anderen bieten sie mit Hilfe externer Programme, die Möglichkeit eines automatischen Updates der Datenbank. So könnte etwa ein optimierter Annotationsoder Sequenzieralgorithmus zu einer veränderten Beweislage führen, und letztendlich die Deletion eines Datenbank-Eintrages auslösen. 1.5 Root-Tag Sptr und folgende... Das Basistag des SPTr-XML Formates ist ein umschliessendes <sptr>. Es folgen spezifische Releaseinformationen. Die einzelnen Einträge der Datenbank sind in <entry>-tags gefasst. Wichtige Informationen enthalten unter anderem die folgenden Elemente: <protein> - u.a. Name des Proteins <sequence> - die eigentliche Aminosäuresequenz <genelist> - u.a. Liste der Gene die diesem Protein zugrundeliegen und die entsprechende Referenz auf das jeweilige Sequenzierprojekt <organismlist> - bedeutende Organismen mit diesem Gen <referencelist> - Referenzen auf Publikationen, Veröffentlichungen und Personen <keywordlist> - Stichwortliste für Suchfunktionen etc.
KAPITEL 1. SPTR-XML 4 <evidencelist> - Ausführliche Liste der im vorherigen referenzierten Beweise Weitere Informationen und darstellende Grafiken finden sich auf den Webseiten des EBI unter www.ebi.ac.uk.
Kapitel 2 InterPro 2.1 Proteinfunktion und Struktur Sequenzierungsprojekte liefern Rohdaten. Im Allgemeinen lassen sich enthaltene Gene mittels organismenspezifischer Algorithmen vorhersagen und identifizieren. Diese sogenannten Open Reading Frames codieren möglicherweise Proteine. Bereits einige grundlegende Merkmale charakterisieren zumeist die Funktion und Bedeutung eines Proteins. Diesen Eigenschaften zugrundeliegende Sequenzmuster können untersucht und klassifiziert werden. Die Analyse der Merkmalscharakteristika, des Fingerabdruckes, einer noch unbekannten Aminosäuresequenz erlaubt so eine mögliche Zuordnung zu bereits bekannten Protein-Familien und Domänen, und somit eine qualifizierte Funktions- und Strukturvorhersage. Die Signaturdatenbank InterPro bietet eine automatisierte Funktions- und Strukturbestimmung von Aminosäuresequenzen. InterPro bildet die Schnittstelle zwischen verschiedenen Datenbanken, die zwar ähnliche, jedoch meist auch unterschiedliche Ergebnisse liefern. 2.2 Signatur Datenbanken 2.2.1 ProSite Die Datenbank ProSite sucht für Domänen und Familien charakteristische Aminosäure-Sequenzmuster. Die unzuverlässige Suche nach einfachen Mustern, wurde durch eine umfassendere Analyse von sogenannten Profilen erweitert. Diese Profile liefern die Wahrscheinlichkeiten des Auftretens bestimmter Aminosäuren an definierten Positionen innerhalb einer Sequenz. Die Profilstruktur von ProSite ist jedoch verglichen mit anderen Datenbanken vergleichweise allgemein. 5
KAPITEL 2. INTERPRO 6 2.2.2 Pfam Pfam beruht auf halb-automatischen Vergleichen homologer Proteinfamilien. Die Datenbank speichert sogenannte profile Hidden Markov Models. Sie liefern eine Ausgabe über die Wahrscheinlichkeit des Auftretens charakteristischer Sequenzmuster. Diese Modelle sind lernfähig, erweiterbar und berücksichtigen benachbarte Aminosäuren. 2.2.3 Prints Die Datenbank Prints basiert auf sogenannten fingerprints. Diese Fingerabdrücke sind Sammlungen von Motiven, wie bespielsweise eine ATP-Bindungsstelle, die innerhalb einer Familie oder Domäne mit charakteristischen Wahrscheinlichkeiten an bestimmten Positionen auftreten. Die Einträge der Datenbank sind hierarchisch gegliedert, Prints erlaubt das Erkennen von Super- bis hin zu Sub- Familien. 2.2.4 SMART Erkennt und Annotiert genetisch mobile Domänen und Domain - Architekturen. Zahlreiche Domänen sind bereits umfangreich mit Rücksicht auf Tertiärstruktur und Funktion annotiert. SMART Alignments wurden manuell optimiert und folgen angepassten Hidden Markov Models. 2.2.5 Prodom Prodom arbeitet mit automatisierten Analysen von Swiss-Prot und TrEMBL Proteinsequenzen. Der Algorithmus untersucht mittels PSI-Blast Homologien zu bereits bekannten Proteinen. Die Datenbank dient der Erkennnung von Domänen komplexer Protein-Familien. 2.3 InterPro XML-Format Die Einträge der InterPro Datenbank sind das Ergebnis systematischer Analysen der Inhalte anderer Sequenzdatenbanken. Überlappende Einträge werden dabei in einem InterPro Eintrag zusammengefasst. Einträge ohne entsprechendes Gegenstück werden ebenfalls in die Datenbank aufgenommen, und erhalten eine eigene Kennziffer. Aufgrund von Ähnlichkeiten und Verwandschaftsbeziehung ergeben sich die Definitionen von Parent-Child-Relationships und Containsfound in-relationships.
KAPITEL 2. INTERPRO 7 Das Basistag der InterPro-Datenbank ist ein umschliessendes <interpro db>. Weitere Verzweigungen beinhalten Informationen zur jeweiligen Version der XML- Datei. Die einzelnen Einträge der Datenbank sind in <interpro>-tags gefasst. Unter anderem findet sich in der Attributliste dieses Items die InterPro Identifikationsnummer. Wichtige Informationen enthalten unter anderem die folgenden Elemente: <name> - Die exakte Bezeichnung dieses InterPro-Eintrages <abstract> - Eine Beschreibung der Familie, bzw. Domäne und ihrer Charakteristika <classification> - Repräsentiert die Klassifikation dieses Eintrages in der Gene-Ontology <example> - Beispiele von Proteinen dieser Familie, bzw. Domäne in den Datenbanken SWISS-PROT und TrEMBL <pub list> - Liste von relevanten Publikationen <parent list> - Liste der durch die Parent-Child-Relationships in Beziehung stehenden InterPro-Einträge <contains> - Liste der InterPro-Einträge, die zu diesem Eintrag eine Containsfound in-relationships aufweisen <member list> - Referenzen auf die Datenbanken, die diesem InterPro- Eintrag zugrundeliegen 2.4 Sequenzanalyse mit InterPro Der InterPro-Zugriff kann über ein Web-Portal mit Eingabemasken zur text- und sequenzbasierten Suche erfolgen. Zusätzlich erlaubt ein eigenständiges Programm eine Makefile-basierte Suche in einer lokalen Kopie der InterPro-Datenbank. Dieses bietet optional eine XML-formatierte Ausgabe der Ergebnisse. Hier haben die einzelnen Tags die folgenden Bedeutungen: <interpro matches> - Einleitendes Tag <protein> - Kennung der als Protein identifizierten Sequenz, Referenz auf SWISS-PROT bzw. TrEMBL <match> - Treffer in den entsprechenden Mitgliedsdatenbanken
KAPITEL 2. INTERPRO 8 <location> - Positionsangeben des zugehörigen Matches innerhalb der Suchsequenz Zusammenfassend leistet die Sequenzanalyse mit InterPro eine Rationalisierung des Prozesses der Zuweisung von Funktion und Hierarchie. Darüberhinaus bietet die Datenbank eine umfassende Quelle zur Diagnose und Dokumentation von Proteinverwandschaften. 2.5 Wichtige Quellen und Links http://www.ebi.ac.uk/ http://pfam.wustl.edu/ http://www.bioinf.man.ac.uk/dbbrowser/prints/ http://us.expasy.org/prosite/ http://hmmer.wustl.edu The InterPro database - 2001 Oxford University Press, Nucleotid Acids Research, Vol.29, No.1, 37-40