Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 6. Sequenzdatenbanken Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Was sind Datenbanken? Sequenzdatenbanken Klassifizierung Primäre Datenbanken Sekundäre Datenbanken Formate und Schnittstellen 2 Datenbanken - Definition Datenbank (DB): eine Datensammlung, die nach bestimmten Kriterien organisiert ist. 1

Noch eine Definition Zunehmend wird der Begriff Datenbank auch für Datenbank-Managementsysteme (DBMS) gebraucht, also eigentlich die Software, die die Daten verwaltet. Gängige DBMSe sind z.b. Oracle, DB/2 (IBM), MySQL oder SQL Server www.dilbert.com Sequenzdatenbanken Sequenzinformation wurde zunächst in Büchern gespeichert Margaret Dayhoff veröffentlichte 1965 ihren Atlas, der alle damals bekannten Proteinsequenzen (65!) enthielt Der Atlas wurde 1985 in die Datenbank PIR (Protein Information Resources) umgewandelt PIR enthält heute ca. 280.000 Sequenzen http://www.dayhoff.cc http://pir.georgetown.edu/home.shtml Sequenzdatenbanken Es gibt zwei Typen von biologischen Datenbanken: Primärdatenbanken Enthalten experimentell ermittelte Daten Meist mit Herkunftsangabe (Quelle, Literaturzitat) Sekundärdatenbanken Werden aus primären Datenbanken abgeleitet (daher oft auch abgeleitete Datenbanken) Enthalten gefilterte, interpretierte oder annotierte Information, z.b. verifizierte Proteinsequenzen oder Sequenzmotive 2

Sequenzdaten Menge an bekannten Sequenzen ist in den letzten Jahrzehnten stets exponentiell angestiegen Hauptgrund: Fortschritte in der Sequenzierungstechnologie Kapillarsequenzierer erzeugen große Mengen an Sequenzdaten in sehr kurzer Zeit WGS (whole genome shotgun)-sequenzierung erlaubt Sequenzierung ganzer Genome in kürzester Zeit Beispiel: Celera Genomics erzeugte 2001 mit ca. 300 Sequenzierern 175.000 reads (à 500 bp) aus dem menschlichen Genom pro Tag Sequencing by Synthesis Sequencing by synthesis erzeugt durch massive Parallelisierung immense Datenmengen Erkauft mit geringerer Qualität (= Länge) der Sequenzstücke www.454.com NCBI Der wichtigste Betreiber von biologischen Datenbanken ist das NCBI (National Center for Biotechnology Information) am NIH (National Institute for Health) in Bethesda, MD, USA NCBI stellt eine Vielzahl von Ressourcen für die biomedizinische Forschung zur Verfügung, darunter auch viele relevante Datenbanken (PubMed, GenBank) Zu diesen Ressourcen gibt es ein einheitliches Web-Interface zur Recherche (ENTREZ) http://www.ncbi.nih.gov/entrez 3

GenBank Die wichtigste (und größte) Datenbank für Nukleinsäuresequenzen ist GenBank (http:// www.ncbi.nih.gov/genbank/) GenBank wird am NCBI gepflegt und erhält Daten von japanischen und europäischen Datenbanken (DDBJ, DNA Databank of Japan und EMBL) Ziel von GenBank ist es, jede bekannte Nukleinsäuresequenz zu archivieren GenBank wird alle 24 h aktualisiert GenBank enthält Sequenzen von über 140.000 Spezies GenBank Publikation neuer NA-Sequenzen in GenBank ist zwingend erforderlich für praktisch alle relevanten Zeitschriften der Molekularbiologie Dazu gibt es ein entsprechendes Web- Interface Neueinträge können für kurze Zeit (bis zur Veröffentlichung der Publikation) zurückgehalten werden In der Publikation muss dann die zugehörige Accession Number der Einträge benannt werden GenBank 4

GenBank Wachstum Größe von Genbank wächst immer noch exponentiell an Derzeit sind über 99 Mio. Sequenzen mit ca. 99 Mrd. bp gespeichert GenBank Wie in allen Datenbanken wird jeder einzelne Eintrag (Datensatz, record) in GenBank eindeutig gekennzeichnet Diesen Bezeichner oder ID nennt man Accession Number Beispiel: K02013 Das komplette Genom von HIV1 Kenntnis der ID erlaubt direkten Zugriff auf den Datensatz und ist eindeutig unter diesem Bezeichner werden Sie den Datensatz immer wieder finden und keinem zweiten Datensatz wird die gleiche Nummer zugeteilt werden Nimmt man auf einen Eintrag Bezug, ist es notwendig Datenbank und ID zu zitieren GenBank Beispiel GenBank-Einträge werden in einem eigenen Format abgelegt Jeder Abschnitt beginnt mit einem Schlüsselwort, dann die zugehörigen Daten (eingerückt) LOCUS HIVBRUCG 9229 bp ss-rna linear VRL 02-AUG-1993 DEFINITION Human immunodeficiency virus type 1, isolate BRU, complete genome (LAV-1). ACCESSION K02013 VERSION K02013.1 GI:326417 KEYWORDS TAR protein; TAT protein; acquired immune deficiency syndrome; complete genome; env protein; gag protein; long terminal repeat (LTR); pol protein; polyprotein; proviral gene; SOURCE Human immunodeficiency virus 1 (HIV-1) ORGANISM Human immunodeficiency virus 1 Viruses; Retroid viruses; Retroviridae; Lentivirus; Primate lentivirus group. REFERENCE 1 (bases 1 to 9229) AUTHORS Wain-Hobson,S., Sonigo,P., Danos,O., Cole,S. and Alizon,M. TITLE Nucleotide sequence of the AIDS virus, LAV JOURNAL Cell 40 (1), 9-17 (1985) MEDLINE 85099333 PUBMED 2981635 5

GenBank Beispiel FEATURES Location/Qualifiers source 1..9229 /organism="human immunodeficiency virus 1" /mol_type="genomic RNA" /db_xref="taxon:11676" prim_transcript 1..9229 /note="genomic mrna CDS 8390..9010 /note="nef protein" /codon_start=1 /protein_id="aab59752.1" /db_xref="gi:326425" /translation="mggkwskssvvgwptvrermrraepaadgvgaasrdlekhgait NTSLLHPVSLHGMDDPEREVLEWRFDSRLAFHHVARELHPEYFKNC" LTR 8679..>9229 /note="3' LTR" repeat_region 9133..9229 /note="r repeat 3' copy" ORIGIN Cap site of genomic RNA. 1 ggtctctctg gttagaccag atttgagcct gggagctctc tggctaacta gggaacccac 61 tgcttaagcc tcaataaagc ttgccttgag tgcttcaagt agtgtgtgcc cgtctgttgt [...] Primärdatenbanken für Nukleotide Weitere Primärdatenbanken für NA- Sequenzen sind: EMBL Nucleotide Sequence Database Verwendet SRS als Suchmaschine Derzeit ca. 112 Mio. Sequenzen (http://www.ebi.ac.uk/embl/) DDBJ DNA Databank of Japan Ebenfalls SRS Derzeit ca. 109 Mio. Sequenzen (http://www.ddbj.nig.ac.jp/) Primärdatenbanken Große Primärdatenbanken wie GenBank haben zwei Hauptprobleme Redundanz: viele Sequenzen sind nicht nur einmal darin enthalten, sondern in vielen, vielen Varianten oder gar Kopien Qualität: in GenBank findet sich praktisch jeder irgendwann mal sequenzierte Nukleinsäureschnipsel. Viel davon ist von minderer Qualität oder unklarer Herkunft. 6

RefSeq-Nukleotid-Datenbank Nichtredundante Datenbank von Nukleotidsequenzen Enthält Sequenzen genomischer DNA und von mrna Statistik: DNA: ca. 2 Mio Einträge RNA: ca. 2 Mio Einträge Zugänglich über NCBI (http://www.ncbi.nlm.nih.gov/refseq/) Verlinkt mit der RefSeq-Protein-Datenbank Primärdatenbanken für Proteine Neben Nukleotidsequenzen sind natürlich Proteinsequenzen interessant Die wichtigste Daten PIR Protein Information Resource (http://pir.georgetown.edu) UniProt Universal Protein Resource Bestehend aus den beiden Teildatenbanken TrEMBL Translated EMBL Swiss-Prot (http://www.ebi.ac.uk/uniprot/index.html) UniProt Universal Protein Resource Am EMBL beheimatet, auch über NCBI zugänglich Aus drei Datenbanken durch Zusammenschluss entstanden: Swiss-Prot: qualitativ hochwertige, nichtredundante und exzellent annotierte Proteinsequenzen PIR: Protein Information Ressource, aus Margaret Dayhoffs Protein-Atlas hervorgegangen TrEMBL: durch Translation der in der EMBL- Nukleotiddatenbank abgelegen NA-Sequenzen erzeugte Proteindaten 7

Swiss-Prot 1986 eingerichtet und betrieben vom Swiss Institute of Bioinformatics (SIB) and the European Bioinformatics Institute (EBI) Von Experten kurierte Informationen zu Proteinsequenzen ) hohe Qualität It strives to provide a high level of annotation, a minimal level of redundancy, a high level of integration with other biomolecular databases as well as extensive external documentation. Swiss-Prot enthält derzeit ca. 512.000 Einträge http://www.expasy.org/sprot/ Swiss-Prot und TrEMBL Annotation und Kontrolle der Proteinsequenzen für Swiss-Prot ist sehr zeitund personalintensiv Um Sequenzinformation kurzfristig verfügbar zu machen, gibt es TrEMBL TrEMBL ist komplementär zu Swiss-Prot und enthält computergenerierte Annotationen zu den Sequenzen, die durch automatisches Übersetzen den Genomsequenz aus der EMBL- Nukleotid-DB entsteht TrEMBL enthält derzeit ca. 9,7 Mio. Einträge Ein Swiss-Prot-Eintrag ID Beschreibung Literaturzitate ID 1A01_HUMAN STANDARD; PRT; 365 AA. AC P30443; DT 01-APR-1993 (REL. 25, CREATED) DT 01-APR-1993 (REL. 25, LAST SEQUENCE UPDATE) DT 01-FEB-1996 (REL. 33, LAST ANNOTATION UPDATE) DE HLA CLASS I HISTOCOMPATIBILITY ANTIGEN, A-1 GN HLAA. OS HOMO SAPIENS (HUMAN). OC EUKARYOTA; METAZOA;... OC EUTHERIA; PRIMATES. RN [1] RP SEQUENCE FROM N.A. (A*0101). RX MEDLINE; 88234547. RA PARHAM P., LOMEN C.E., LAWLOR D.A., WAYS J.P., RA SALTER R.D., WAN A.M., ENNIS P.D.; RL PROC. NATL. ACAD. SCI. U.S.A. 85:4005-4009(1988). RN [2] RP SEQUENCE FROM N.A. (A*0101). RX MEDLINE; 89235215. RA PARHAM P., LAWLOR D.A., LOMEN C.E., ENNIS P.D.; RL J. IMMUNOL. 142:3937-3950(1989). RN [4] RX MEDLINE; 95282145. RA BROWNING M.J., MADRIGAL J.A., KRAUSA P., KOWALSKI RA ALLSOPP C.E., LITTLE A.M., TURNER S., ADAMS E.J RA BODMER W.F., PARHAM P.; RL TISSUE ANTIGENS 45:177-187(1995). 8

Ein Swiss-Prot-Eintrag (Forts.) Links zu anderen Datenbanken Domänen Sequenz CC -!- FUNCTION: INVOLVED IN THE PRESENTATION OF FOREIGN ANTIGENS TO CC THE IMMUNE SYSTEM. CC -!- SUBUNIT: DIMER OF ALPHA CHAIN AND A BETA CHAIN (BETA-2- CC MICROGLOBULIN). POLYMORPHISM: THE CC -!- FOLLOWING ALLELES OF A-1 ARE KNOWN: A*0101 CC A*0102. THE SEQUENCE SHOWN IS THAT OF A*0101. EMBL; M24043; G386893; -. DR DR PIR; S14189; S14189. DR HSSP; P01891; 1HSB. DR MIM; 142800; 11TH EDITION. DR PROSITE; PS00290; IG_MHC. KW MHC I; TRANSMEMBRANE; GLYCOPROTEIN; SIGNAL; POLYMORPHISM. SIGNAL 1 24 FT FT CHAIN 25 365 HLA CLASS I HISTOCOMPATIBILITY FT ANTIGEN ALPHA CHAIN A-1. FT DOMAIN 25 114 EXTRACELLULAR ALPHA-1. FT DOMAIN 115 206 EXTRACELLULAR ALPHA-2. FT DOMAIN 207 298 EXTRACELLULAR ALPHA-3. FT DOMAIN 299 308 CONNECTING PEPTIDE. FT TRANSMEM 309 332 FT DOMAIN 333 365 CYTOPLASMIC TAIL. FT VARIANT 33 33 F -> S (IN A*0102). FT VARIANT 41 41 R -> S (IN A*0102). SQ SEQUENCE 365 AA; 40846 8E680E9E CRC32; MW; MAVMAPRTLL LLLSGALALT QTWAGSHSMR YFFTSVSRPG RGEPRFIAVG YVDDTQFVRF WQRDGEDQTQ DTELVETRPA GDGTFQKWAA VVVPSGEEQR YTCHVQHEGL PKPLTLRWEL SSQPTIPIVG IIAGLVLLGA VITGAVVAAV MWRRKSSDRK GGSYTQAASS DSAQGSDVSL TACKV // RefSeq protein database Die Sequenzen aus RefSeq sind auch als Proteinsequenzen verfügbar Ziel der RefSeq-Protein-DB ist ähnlich zur Nukleotid-DB: The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, nonredundant set of sequences, including genomic DNA, transcript (RNA), and protein products, for major research organisms. Unterhalten am NCBI, zugänglich ebenso über das NCBI-Webinterface RefSeq enthält derzeit ca. 1,1 Mio. Einträge http://www.ncbi.nlm.nih.gov/refseq/ Sekundärdatenbanken Sekundärdatenbanken generieren aus den Primärdaten neue Information Einige dieser Datenbanken werden wir später noch im Detail besprechen Beispiele: ProSite: Datenbank von Proteinfamilien und -Domänen (http://us.expasy.org/prosite/) PFam: Datenbank für multiple Alignments und Proteindomänen (http://www.sanger.ac.uk/software/pfam/) 9

Formate Praktisch jede größere Datenbank steht neben den wohlbekannten Web-Interfaces auch als so genannte Flatfiles zur Verfügung Darin ist die Information der gesamten DB oder von Teilen daraus in einer großen Datei (flat file) untergebracht Für Bioinformatikanwendungen ist es oft bequemer diese flat files herunter zu laden (Vorsicht! Oft SEHR groß!) Mit den Ihnen bekannten Werkzeugen können Sie damit sehr einfach Aufgaben lösen, die durch das Webinterface schwierig oder unmöglich sind Leider haben die unterschiedlichen Datenbanken unterschiedliche Formate Python-Erweiterung Biopython ist in der Lage die wichtigsten Formate zu lesen (Details in den Übungen) www.biopython.org ENTREZ Suchmaschine des NCBI ENTREZ ist ein mächtiges Werkzeug zur Suche nach Sequenzen, Strukturen, Taxonomie, Literatur u.v.m ENTREZ erlaubt die Suche in den meisten hier genannten Datenbanken Sie sollten sich bei Gelegenheit zwei Nachmittage Zeit nehmen und es ausgiebig erforschen die Investition wird sich nach kurzer Zeit amortisiert haben! Machen Sie sich auch mit den erweiterten Suchmöglichkeiten vertraut (Einschränkung auf Publikationsdatum, Organismus etc.) ENTREZ erlaubt auch die Suche über Accession Numbers: einfach in die Suchmaske eingeben und los geht s ENTREZ Neue Einstiegsseite http://www.ncbi.nlm.nih.gov/entrez/ 10

ENTREZ - Datenbankauswahl GenBank Suche GenBank - Datensatzanzeige 11

Graphische Anzeige des Genoms Links und Infos ENTREZ (NCBI) http://www.ncbi.nlm.nih.gov/entrez/ SWISS-PROT http://www.expasy.org/sprot/ BioPython http://www.biopython.org Weitere Infos zu Datenbanken Überblick über alle NCBI-Datenbanken http://www.ncbi.nlm.nih.gov/database/ Überblick über alle Datenbanken des EBI http://www.ebi.ac.uk/databases/ Materialien aus der Vorlesung von Per Kraulis http://www.sbc.su.se/~per/molbioinfo2001/databases.html 12