InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.



Ähnliche Dokumente
etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Planung für Organisation und Technik

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Update einer Einzelplatzinstallation

GSD-Radionik iradionics Android-App

SEPA-Umstellungsanleitung Profi cash

Elexis-BlueEvidence-Connector

Was ist das Tekla Warehouse

Microsoft Access 2010 Navigationsformular (Musterlösung)

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Synchronisations- Assistent

1 Mathematische Grundlagen

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags

Ihr IT-Administrator oder unser Support wird Ihnen im Zweifelsfall gerne weiterhelfen.

Anleitung über den Umgang mit Schildern

Erweitertes Kalkulationsfenster

Erweiterung AE WWS Lite Win: AES Security Verschlüsselung

Internet online Update (Mozilla Firefox)

Nicht kopieren. Der neue Report von: Stefan Ploberger. 1. Ausgabe 2003

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

Lehrer: Einschreibemethoden

Bedienung der Webseite

Password Depot für ios

GS-Buchhalter/GS-Office 2015 Saldovorträge in folgenden Wirtschaftsjahren erfassen

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

Vorgaben und Erläuterungen zu den XML-Schemata im Bahnstromnetz

Dokumentenverwaltung

Fallbeispiel: Eintragen einer Behandlung

Programme im Griff Was bringt Ihnen dieses Kapitel?

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Handbuch ECDL 2003 Professional Modul 2: Tabellenkalkulation Arbeiten mit Pivot-Tabellen

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

GEZIELT MEHR SICHERHEIT MIT 4I ACCESS SERVER & 4I CONNECT CLIENT

Vorstellung Version 1.00 vom 03. März 2009 Christian Schnettelker,

ecaros2 - Accountmanager

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Dokumentenverwaltung im Internet

Neuerungen für Unternehmen

Process4.biz Release Features Übersicht. Repository. Das Schützen von Diagrammen wurde optimiert (check-in, check-out)

Datenbank LAP - Chefexperten Detailhandel

MMS - Update auf Version 4.4

euro-bis Import von Bestellungen aus Buch- und Aboauskunft Stand

Die mobiletan im Hypo Internetbanking

Hinweise zum elektronischen Meldeformular

Einrichtung einer eduroam Verbindung unter dem Betriebssystem Android

Word 2010 Schnellbausteine

Anleitung zum LPI ATP Portal

Die Promovierendenpräsentation im Netz

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Planung eines Videoüberwachungssystems

Schweizerische Kriminalprävention Prévention Suisse de la Criminalité

Pflegeberichtseintrag erfassen. Inhalt. Frage: Antwort: 1. Voraussetzungen. Wie können (Pflege-) Berichtseinträge mit Vivendi Mobil erfasst werden?

Vorgehensweise bei Lastschriftverfahren

Kurzanleitung. Toolbox. T_xls_Import

Erfahrungen mit Hartz IV- Empfängern

Wir machen neue Politik für Baden-Württemberg

Flashfragen in ILIAS Test & Assessment. Helmut Schottmüller

Thematische Abfrage mit Computerlinguistik

Gezielt über Folien hinweg springen

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Kalender freigeben und andere Kalender aufrufen

Jetzt neu: Online Reporting Schritt für Schritt durch das Online Reporting (OLR) Online Liedmeldung

AuditReport ProduktNEWS AuditReport. Mehr Informationen zu AuditSolutions und unseren anderen Produkten & Dienstleistungen

1 Schritt für Schritt zu einem neuen Beitrag

Schuljahreswechsel im Schul-Webportal

Windows-Sicherheit in 5 Schritten. Version 1.1 Weitere Texte finden Sie unter

Inhaltsverzeichnis. 1. Empfängerübersicht / Empfänger hinzufügen 2. Erstellen eines neuen Newsletters / Mailings 3. Versand eines Newsletters

Dokumentation IBIS Monitor

Automatisiertes Publizieren - Der kleine Unterschied im Crossmedia Publishing macht sich bezahlt

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Installation OMNIKEY 3121 USB

Auktionen erstellen und verwalten mit dem GV Büro System und der Justiz Auktion

VR-NetWorld Software Version 5.0 Einrichtung SEPA-Lastschrift. Erfassung Gläubiger-ID

Anleitung zur Erstellung einer Gefährdungsbeurteilung

Primzahlen und RSA-Verschlüsselung

Dokumentation: Balanced Scorecard

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten

Nutzer-Synchronisation mittels WebWeaver Desktop. Handreichung

Aussage: Das Seminar ist hilfreich für meine berufliche Entwicklung

Aktualisierung des Internet-Browsers

77 Suchen Sie noch oder Sie schon? Schnelleinstieg

Wie kann ich in der Backstage-Ansicht eigene Dokumentationen einbinden?

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

BEDIENUNGSANLEITUNG: EINREICH-TOOL

Richtlinien bezüglich des Verfahrens bei Einstellung der Geschäftstätigkeit einer anerkannten CSP

eshop BY MEFA ANWENDERINFORMATIONEN

Einstellen der Makrosicherheit in Microsoft Word

Leitfaden für Eintragskunden

B12-TOUCH VERSION 3.5

Software- und Druckerzuweisung Selbstlernmaterialien

TYPO3 Tipps und Tricks

Zwischenablage (Bilder, Texte,...)

TopKontor Handwerk. sirados - Kalkulationsdaten importieren - so einfach geht s! einfach sicher schnell

Nutzung dieser Internetseite

Grundlagen der Theoretischen Informatik, SoSe 2008

Transkript:

InterPro & SP-ML Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik Stefan Albaum 18. Dezember 2002

Inhaltsverzeichnis 1 SPTr-XML 2 1.1 SWISS-PROT........................... 2 1.2 TrEMBL.............................. 2 1.3 SP-ML............................... 3 1.4 SP-ML Evidence-Tag....................... 3 1.5 Root-Tag Sptr und folgende..................... 3 2 InterPro 5 2.1 Proteinfunktion und Struktur................... 5 2.2 Signatur Datenbanken....................... 5 2.2.1 ProSite........................... 5 2.2.2 Pfam............................ 6 2.2.3 Prints........................... 6 2.2.4 SMART.......................... 6 2.2.5 Prodom.......................... 6 2.3 InterPro XML-Format....................... 6 2.4 Sequenzanalyse mit InterPro.................... 7 2.5 Wichtige Quellen und Links.................... 8 1

Kapitel 1 SPTr-XML 1.1 SWISS-PROT Im Jahre 1986 gegründet, wird die SWISS-PROT Proteinsequenzdatenbank durch das Swiss Institute for Bioinformatics und das European Bioinformatics Institute verwaltet. Die Datenbank umfasst derzeit 119.803 Proteine einschliesslich ihrer zugehörigen Aminosäuresequenzen. Jeder Eintrag besteht aus Sequenzinformationen und Annotationen, im speziellen werden Proteinfunktionen, Domänen und markante Bereiche, wie auch Informationen über Sekundär- und Tertiärstrukturen und Homologien, aufgeführt. SWISS-PROT weist aufgrund von selektiven Auswahlkriterien und Zusammenführungen eine nur minimale Redundanz auf. 1.2 TrEMBL Die Proteindatenbank TrEMBL (Translated EMBL) liefert die in ihre equivalenten Aminosäureketten übersetzten Nukleotidsequenzen der EMBL Datenbank. Die aktuelle Version 22.5 umfasst derzeit 703.704 Einträge. Diese Datenbank ist in zwei wesentliche Teilbereiche gegliedert. SP-TrEMBL beinhaltet mögliche Kandidaten der SWISS-PROT Datenbank. REM-TrEMBL Einträge wurden aus vorwiegend qualitativen Gründen nicht in die SWISS-PROT Datenbank integriert. Einträge in TrEMBL, beziehungsweise EMBL, unterliegen im Gegensatz zu SWISS-PROT nur wenigen Aufnahmekriterien. Das Einfügen neuer Datenbankeinträge ist allgemein zugänglich. 2

KAPITEL 1. SPTR-XML 3 1.3 SP-ML SPTr-XML(Kurzform: SP-ML) ist ein gemeinsames XML-Datenformat der beiden Datenbanken SWISS-PROT und TrEMBL. Die Implementierung berücksichtigt die Standards XML und XML-Schema. Seit Herbst 2002 werden die Einträge der TrEMBL Datenbank, alternativ zum bisherigen proprietären Flat-File Format, XML formatiert offeriert. Mittels der sogenannten round-trip -Konvertierung, dem Vergleich der zunächst in XML übersetzten und anschliessend wieder zurück gewandelten Daten des Flat-File-Formates, erfolgt die Sicherstellung der Datenbankkonsistenz. 1.4 SP-ML Evidence-Tag Alle relevanten Datenbankeinträge besitzen ein oder mehrere Evidence-Tags. Diese dienen zum einem der Herkunftsbestimmung des jeweiligen Elementes, zum anderen bieten sie mit Hilfe externer Programme, die Möglichkeit eines automatischen Updates der Datenbank. So könnte etwa ein optimierter Annotationsoder Sequenzieralgorithmus zu einer veränderten Beweislage führen, und letztendlich die Deletion eines Datenbank-Eintrages auslösen. 1.5 Root-Tag Sptr und folgende... Das Basistag des SPTr-XML Formates ist ein umschliessendes <sptr>. Es folgen spezifische Releaseinformationen. Die einzelnen Einträge der Datenbank sind in <entry>-tags gefasst. Wichtige Informationen enthalten unter anderem die folgenden Elemente: <protein> - u.a. Name des Proteins <sequence> - die eigentliche Aminosäuresequenz <genelist> - u.a. Liste der Gene die diesem Protein zugrundeliegen und die entsprechende Referenz auf das jeweilige Sequenzierprojekt <organismlist> - bedeutende Organismen mit diesem Gen <referencelist> - Referenzen auf Publikationen, Veröffentlichungen und Personen <keywordlist> - Stichwortliste für Suchfunktionen etc.

KAPITEL 1. SPTR-XML 4 <evidencelist> - Ausführliche Liste der im vorherigen referenzierten Beweise Weitere Informationen und darstellende Grafiken finden sich auf den Webseiten des EBI unter www.ebi.ac.uk.

Kapitel 2 InterPro 2.1 Proteinfunktion und Struktur Sequenzierungsprojekte liefern Rohdaten. Im Allgemeinen lassen sich enthaltene Gene mittels organismenspezifischer Algorithmen vorhersagen und identifizieren. Diese sogenannten Open Reading Frames codieren möglicherweise Proteine. Bereits einige grundlegende Merkmale charakterisieren zumeist die Funktion und Bedeutung eines Proteins. Diesen Eigenschaften zugrundeliegende Sequenzmuster können untersucht und klassifiziert werden. Die Analyse der Merkmalscharakteristika, des Fingerabdruckes, einer noch unbekannten Aminosäuresequenz erlaubt so eine mögliche Zuordnung zu bereits bekannten Protein-Familien und Domänen, und somit eine qualifizierte Funktions- und Strukturvorhersage. Die Signaturdatenbank InterPro bietet eine automatisierte Funktions- und Strukturbestimmung von Aminosäuresequenzen. InterPro bildet die Schnittstelle zwischen verschiedenen Datenbanken, die zwar ähnliche, jedoch meist auch unterschiedliche Ergebnisse liefern. 2.2 Signatur Datenbanken 2.2.1 ProSite Die Datenbank ProSite sucht für Domänen und Familien charakteristische Aminosäure-Sequenzmuster. Die unzuverlässige Suche nach einfachen Mustern, wurde durch eine umfassendere Analyse von sogenannten Profilen erweitert. Diese Profile liefern die Wahrscheinlichkeiten des Auftretens bestimmter Aminosäuren an definierten Positionen innerhalb einer Sequenz. Die Profilstruktur von ProSite ist jedoch verglichen mit anderen Datenbanken vergleichweise allgemein. 5

KAPITEL 2. INTERPRO 6 2.2.2 Pfam Pfam beruht auf halb-automatischen Vergleichen homologer Proteinfamilien. Die Datenbank speichert sogenannte profile Hidden Markov Models. Sie liefern eine Ausgabe über die Wahrscheinlichkeit des Auftretens charakteristischer Sequenzmuster. Diese Modelle sind lernfähig, erweiterbar und berücksichtigen benachbarte Aminosäuren. 2.2.3 Prints Die Datenbank Prints basiert auf sogenannten fingerprints. Diese Fingerabdrücke sind Sammlungen von Motiven, wie bespielsweise eine ATP-Bindungsstelle, die innerhalb einer Familie oder Domäne mit charakteristischen Wahrscheinlichkeiten an bestimmten Positionen auftreten. Die Einträge der Datenbank sind hierarchisch gegliedert, Prints erlaubt das Erkennen von Super- bis hin zu Sub- Familien. 2.2.4 SMART Erkennt und Annotiert genetisch mobile Domänen und Domain - Architekturen. Zahlreiche Domänen sind bereits umfangreich mit Rücksicht auf Tertiärstruktur und Funktion annotiert. SMART Alignments wurden manuell optimiert und folgen angepassten Hidden Markov Models. 2.2.5 Prodom Prodom arbeitet mit automatisierten Analysen von Swiss-Prot und TrEMBL Proteinsequenzen. Der Algorithmus untersucht mittels PSI-Blast Homologien zu bereits bekannten Proteinen. Die Datenbank dient der Erkennnung von Domänen komplexer Protein-Familien. 2.3 InterPro XML-Format Die Einträge der InterPro Datenbank sind das Ergebnis systematischer Analysen der Inhalte anderer Sequenzdatenbanken. Überlappende Einträge werden dabei in einem InterPro Eintrag zusammengefasst. Einträge ohne entsprechendes Gegenstück werden ebenfalls in die Datenbank aufgenommen, und erhalten eine eigene Kennziffer. Aufgrund von Ähnlichkeiten und Verwandschaftsbeziehung ergeben sich die Definitionen von Parent-Child-Relationships und Containsfound in-relationships.

KAPITEL 2. INTERPRO 7 Das Basistag der InterPro-Datenbank ist ein umschliessendes <interpro db>. Weitere Verzweigungen beinhalten Informationen zur jeweiligen Version der XML- Datei. Die einzelnen Einträge der Datenbank sind in <interpro>-tags gefasst. Unter anderem findet sich in der Attributliste dieses Items die InterPro Identifikationsnummer. Wichtige Informationen enthalten unter anderem die folgenden Elemente: <name> - Die exakte Bezeichnung dieses InterPro-Eintrages <abstract> - Eine Beschreibung der Familie, bzw. Domäne und ihrer Charakteristika <classification> - Repräsentiert die Klassifikation dieses Eintrages in der Gene-Ontology <example> - Beispiele von Proteinen dieser Familie, bzw. Domäne in den Datenbanken SWISS-PROT und TrEMBL <pub list> - Liste von relevanten Publikationen <parent list> - Liste der durch die Parent-Child-Relationships in Beziehung stehenden InterPro-Einträge <contains> - Liste der InterPro-Einträge, die zu diesem Eintrag eine Containsfound in-relationships aufweisen <member list> - Referenzen auf die Datenbanken, die diesem InterPro- Eintrag zugrundeliegen 2.4 Sequenzanalyse mit InterPro Der InterPro-Zugriff kann über ein Web-Portal mit Eingabemasken zur text- und sequenzbasierten Suche erfolgen. Zusätzlich erlaubt ein eigenständiges Programm eine Makefile-basierte Suche in einer lokalen Kopie der InterPro-Datenbank. Dieses bietet optional eine XML-formatierte Ausgabe der Ergebnisse. Hier haben die einzelnen Tags die folgenden Bedeutungen: <interpro matches> - Einleitendes Tag <protein> - Kennung der als Protein identifizierten Sequenz, Referenz auf SWISS-PROT bzw. TrEMBL <match> - Treffer in den entsprechenden Mitgliedsdatenbanken

KAPITEL 2. INTERPRO 8 <location> - Positionsangeben des zugehörigen Matches innerhalb der Suchsequenz Zusammenfassend leistet die Sequenzanalyse mit InterPro eine Rationalisierung des Prozesses der Zuweisung von Funktion und Hierarchie. Darüberhinaus bietet die Datenbank eine umfassende Quelle zur Diagnose und Dokumentation von Proteinverwandschaften. 2.5 Wichtige Quellen und Links http://www.ebi.ac.uk/ http://pfam.wustl.edu/ http://www.bioinf.man.ac.uk/dbbrowser/prints/ http://us.expasy.org/prosite/ http://hmmer.wustl.edu The InterPro database - 2001 Oxford University Press, Nucleotid Acids Research, Vol.29, No.1, 37-40