Bioinformatik Wintersemester 2006/2007 Tutorial 1: Biologische Datenbanken SRS Tutorial 1: Datenbanken 1/22
Sequenzquellen DNA- Sequenzierung Protein- Sequenzierung Translation Proteinsequenzen Tutorial 1: Datenbanken 2/22
Sequenzdaten >80 Mio. Nukleotidsequenzen (Quelle: GenBank http://www.ncbi.nlm.nih.gov/genbank/index.html) 7 Mio. Proteinsequenzen (Quelle: UniParc http://www.ebi.ac.uk/uniparc/) knapp 0,04 Mio. Proteinstrukturen (Quelle: RCSB-PDB http://www.pdb.org) Einträge sind teilweise redundant, d.h. es gibt mehrere Versionen derselben Sequenz/Struktur Tutorial 1: Datenbanken 3/22
Datenbanktypen Datenbanken primäre Datenbanken sekundäre Datenbanken Nukleotidsequenzen Proteinsequenzen Proteinsequenzen Proteinstruktur GenBank EMBL-Bank UniProtKB NCBI-PD PROSITE PRINTS Pfam InterPro SCOP CATH Entrez Entrez SRS SRS SCOP CATH - Sequenzinformationen - zugehörige Annotationen - Kreuzreferenzen zu anderen Datenbanken - Analysen auf Basis der primären Datenbanken - Klassifizierungen nach Ähnlichkeit Tutorial 1: Datenbanken 4/22
primäre Datenbanken: DNA 1. GenBank (http://www.ncbi.nlm.nih.gov/genbank/) - öffentliche Nukleotid-Sequenzdatenbank - 61 Mio. Sequenzeinträge (Oktober 2006) = >100 Gigabasen - per E-mail werden neue Sequenzen eingeschickt - jeder Eintrag bekommt eine eindeutige Accession Number - Mindestlänge der eingereichten Sequenzen: 50 bp - wird alle 24h gegen EMBL-Base und DDBJ (DNA DataBank of Japan, http://www.ddbj.nig.ac.jp) synchronisiert Tutorial 1: Datenbanken 5/22
Beispiel für einen Eintrag in GenBank (http://www.ncbi.nlm.nih.gov/sitemap/samplerecord.html) LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS. SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 PUBMED 8846915 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="saccharomyces cerevisiae" /mol_type="genomic DNA" /db_xref="taxon:4932" /chromosome="ix" /map="9"... CDS <1..206 /codon_start=3 /product="tcp1-beta" /protein_id="aaa98665.1" /db_xref="gi:1293614" /translation="ssiyngistsgldlnngtiadmrqlgivesyklkravvssasea AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="axl2" [..] gene complement(3300..4037) /gene="rev7" CDS complement(3300..4037) /gene="rev7" /codon_start=1 /product="rev7p" /protein_id="aaa98667.1" /db_xref="gi:1293616" /translation="mnrwvekwlrvylkcyinlilfyrnvyppqsfdyttyqsfnlpq FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF" ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg [..] 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc // Tutorial 1: Datenbanken 6/22
primäre Datenbanken: DNA 2. EMBL Nucleotid Sequence Database (EMBL-Bank) (http://www.ebi.ac.uk/) - von European Molecular Biology Laboratory am EBI (European Bioinformatics Institute) - öffentliche Nukleotid-Sequenzdatenbank - über ein Web-Interface werden neue Sequenzen eingeschickt - wird alle 24h gegen GenBank und DDBJ synchronisiert Tutorial 1: Datenbanken 7/22
Beispiel für einen Eintrag in EMBL-Bank ID SC49845 standard; genomic DNA; FUN; 5028 BP. AC U49845; SV U49845.1 DT 07-MAY-1996 (Rel. 47, Created) DT 29-JUN-1999 (Rel. 60, Last updated, Version 3) DE Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and DE Rev7p (REV7) genes, complete cds. KW. OS Saccharomyces cerevisiae (baker's yeast) OC Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; OC Saccharomycetales; Saccharomycetaceae; Saccharomyces. RN [1] RP 1-5028 RX MEDLINE; 95176709. RX PUBMED; 7871890. RA Torpey L.E., Gibbs P.E., Nelson J., Lawrence C.W.; RT "Cloning and sequence of REV7, a gene whose function is required for DNA RT damage-induced mutagenesis in Saccharomyces cerevisiae"; RL Yeast 10(11):1503-1509(1994). RN [2] RP 1-5028 RX MEDLINE; 96194260. RX PUBMED; 8846915. RA Roemer T., Madden K., Chang J., Snyder M.; RT "Selection of axial growth sites in yeast requires Axl2p, a novel plasma RT membrane glycoprotein"; RL Genes Dev. 10(7):777-793(1996). RN [3] RP 1-5028 RA Roemer T.; RT ; RL Submitted (22-FEB-1996) to the EMBL/GenBank/DDBJ databases. RL Terry Roemer, Biology, Yale University, New Haven, CT, USA... DR GOA; P38927. DR GOA; P38928. DR GOA; P39076. DR SGD; S0001401; YIL139C. DR SGD; S0001402; YIL140W. DR Swiss-Prot; P38927; REV7_YEAST. DR Swiss-Prot; P38928; AXL2_YEAST. DR Swiss-Prot; P39076; TCPB_YEAST. FH Key Location/Qualifiers FH FT source 1..5028 FT /chromosome="ix" FT /db_xref="taxon:4932" FT /mol_type="genomic DNA" FT /organism="saccharomyces cerevisiae" FT /map="9" FT CDS <1..206 FT /codon_start=3 FT /db_xref="goa:p39076" FT /db_xref="swiss-prot:p39076" FT /product="tcp1-beta" FT /protein_id="aaa98665.1" FT /translation="ssiyngistsgldlnngtiadmrqlgivesyklkravvssaseaa FT EVLLRVDNIIRARPRTANRQHM" FT [..] FT SGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRLVDFSNKSNVNVGQV FT KDIHGRIPEML" FT CDS complement(3300..4037) FT /codon_start=1 FT /db_xref="goa:p38927" FT /db_xref="sgd:s0001401" FT /db_xref="swiss-prot:p38927" FT /gene="rev7" FT /product="rev7p" FT /protein_id="aaa98667.1" FT /translation="mnrwvekwlrvylkcyinlilfyrnvyppqsfdyttyqsfnlpqf [..] SQ Sequence 5028 BP; 1510 A; 1074 C; 835 G; 1609 T; 0 other; gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 60 [..] tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 5028 // Tutorial 1: Datenbanken 8/22
primäre Datenbanken: Proteine 1. UniProtKB/Swiss-Prot (http://www.expasy.org/sprot/) - von EBI und SIB (Swiss Institute of Bioinformatics) - öffentliche Protein-Sequenzdatenbank - nur 234.112 Sequenzeinträge - wichtigste Sammlung von Proteinsequenzen, da: manuell überpüft; manuelle Annotationen von Experten nicht redundant reichlich annotiert Querverweise zu Funktionsbeschreibung, Domänenstruktur, posttranslationalen Modifikationen und anderen Datenbanken Tutorial 1: Datenbanken 9/22
UniProtKB - Universal Protein Resource Knowledge Base - Daten für die manuelle Untersuchung stammen aus der Datenbank TrEMBL (translated EMBL) - TrEMBL: Translationen der DNA-Einträge aus der EMBL-NSD durch CDS (coding sequences) computer-annotiert UniProtKB/TrEMBL enthält nur solche Einträge, die noch nicht in UniProtKB/Swiss-Prot aufgenommen wurden Tutorial 1: Datenbanken 10/22
primäre Datenbanken: Proteine 2. NCBI Protein Database (http://www.ncbi.nlm.nih.gov/) - öffentliche Protein-Sequenzdatenbank - Zusammenstellung aus den folgenden Protein- Sequenzdatenbanken: UniProtKB PIR (Protein Identification Resources) PDB (Protein Data Bank) Proteintranslationen der GenBank-Datenbank und weiteren - redundant Tutorial 1: Datenbanken 11/22
sekundäre Datenbanken: Proteine 1. PROSITE (http://www.expasy.org/prosite/) - öffentliche Datenbank von Proteinfamilien und Domänen - etwa 2000 unterschiedliche Muster, Regeln und Profile (in Form von Matrizen) - Klassifizierung: konservierte Motive aus verwandten Proteinen - Motive: kurze Sequenzbereiche von 10-20 Aminosäuren - Annahme: Motive bestimmen Proteinfunktion - Motive stammen aus multiplen Sequenzalignments (Tutorial 3) Tutorial 1: Datenbanken 12/22
Motive in PROSITE - formalisiertes Muster (pattern) zur Beschreibung einer Zeichenabfolge = nächste Position x = jede AS [ ] = alle AS, die an dieser Position auftreten können { } = alle AS, die an dieser Position NICHT auftreten dürfen ( ) = Anzahl der Wiederholungen PA C-{CPWHF}-{CPWR}-C-H-{CFYW} Tutorial 1: Datenbanken 13/22
sekundäre Datenbanken: Proteine 2. PRINTS (http://bioinf.man.ac.uk/dbbrowser/prints/) - 1.800 Einträge und 10.931 Motive (2003) - Fingerabdrücke (fingerprints) als Klassifizierung von Sequenzen: Gruppe von konservierten Motiven - Idee: Sequenzen weisen mehrere funktionelle Bereiche auf auch für Faltung und somit mehrere Sequenzmotive - Motive aus kurzen lokalen Alignments (ungapped) Tutorial 1: Datenbanken 14/22
sekundäre Datenbanken: Proteine 3. Pfam (http://www.sanger.ac.uk/software/pfam/) - 74% aller Proteinsequenzen haben mindestens einen Pfam- Eintrag - Proteinfamilien werden durch Profile klassifiziert, die funktionell interessante Domänen repräsentieren - Profil: Auftrittswahrscheinlichkeiten bestimmter Aminosäuren an bestimmten Positionen in Form einer Matrix (Tutorial 2) - Pfam-A: genau untersuchte Profile aus den multiplen Alignments, teilweise manuelle Alignments, >8000 Familien - Pfam-B: automatisch generierte Profile. Umfaßt mehr Sequenzen, ist aber weniger präzise Tutorial 1: Datenbanken 15/22
sekundäre Datenbanken: Proteine 4. InterPro (http://www.ebi.ac.uk/interpro/) - Integrated Resource of Protein Families, Domains and Sites - simultane Abfrage von Daten aus: UniProtKB Pfam PROSITE PRINTS und weiteren Tutorial 1: Datenbanken 16/22
sekundäre Datenbanken: Proteinstruktur 1. SCOP (http://scop.berkeley.edu/) - Structural Classification Of Proteins 2. CATH (http://www.cathdb.info/) - hierarchische Klassifizierung nach: Class Architecture Topology Homologous Superfamily Tutorial 1: Datenbanken 17/22
Webinterfaces 1. Entrez (http://www.ncbi.nlm.nih.gov/entrez) - integriert viele Datenbanken - Suche über alle oder in einzelnen Datenbanken - simple und detaillierte Suchfunktion - Suchwörter logisch verknüpfbar - Suchwörter auf Kategorien aufteilbar - Direkte Links zu PubMed (elektronische Zeitschriftenbibliothek) Tutorial 1: Datenbanken 18/22
Beispiel für Suchergebnis mit Entrez Tutorial 1: Datenbanken 19/22
Webinterfaces 2. SRS (http://srs.ebi.ac.uk/) - Sequence Retrieval System - von EBI entwickelt und inzwischen von Lion Bioscience AG lizensiert - Schnittstelle für ca. 350 Datenbanken aller Kategorien - verschiedene Typen von Suchen - Aufbereitung der Ergebnisse, auch mit Links zu verschiedenen Datenbanken - integrierte Sequenzanalyse-Werkzeuge Tutorial 1: Datenbanken 20/22
Datenbanken bei SRS Tutorial 1: Datenbanken 21/22
Optionen bei SRS Tutorial 1: Datenbanken 22/22