Softwarewerkzeuge der. Bioinformatik



Ähnliche Dokumente
MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken

Softwarewerkzeuge der Bioinformatik

Bioinformatik für Lebenswissenschaftler

Molekularbiologische Datenbanken

Die wichtigsten Bioinformatikdatenbanken. SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken

Datenbanken in der Molekularbiologie

Bioinforma1k für Lebenswissenscha;ler

Übersicht. FASTA- Format. BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler. Datenbanken

Softwarewerkzeuge der Bioinformatik

Datenbanken in der Molekularbiologie

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Ausprägungsfach Bioinformatik im Rahmen des Bachelor-Studiengangs Informatik. CIBIV Center for Integrative Bioinformatics Vienna

Applied Bioinformatics.

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Biowissenschaftlich recherchieren

Kapitel 5: Protein-Datendanken

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

Strategien der Gensuche. Datenbanken in der Molekularbiologie. Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik-

Übung 7: Die Proteindatenbank (PDB) und Vergleiche von Proteinstrukturen

BIOINFORMATIK I ÜBUNGEN.

Vorgänger für Pathway Studio und IPA. Herbsttagung der Bibliotheken der BM-Sektion / Elisabeth Schlagberger

AF. Bioinformatik im Bachelor-Studiengang Informatik. CIBIV Center for Integrative Bioinformatics Vienna. Bioinformatik eine Definition

Was ist Bioinformatik?

Gleichheit, Ähnlichkeit, Homologie

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA

Molekularbiologische Datenbanken

Strategien der Gensuche. Datenbanken in der Molekularbiologie. Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik-

From gene to 3D model

MOL.504 Analyse von DNA- und Proteinsequenzen

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science

Bioinformatik Für Biophysiker

BIOINFORMATIK UEBUNGEN MOLZEB SS2014

Perl-Praxis. BioPerl. Jörn Clausen, Jan Krüger Jens Reeder, Alex Sczyrba. AG Praktische Informatik Technische Fakultät Universität Bielefeld

Univ. Prof. Dipl. Ing. DDr. Wolfgang Dorda Dipl. Ing. Dr. Manfred Gengler Mag. Dr. Josef König

Bioinformatik an der FH Bingen

Einführung in die Bioinformatik

Einführung in die Bioinformatik

Vorlesungsskript. Softwarewerkzeuge der Bioinformatik

DATENQUALITÄT IN GENOMDATENBANKEN

Vorlesungsskript. Softwarewerkzeuge der Bioinformatik

! ! Tools für Protein-Analyse (z.b. Homologie-Modellierung) (C) Prof. R. Müller, Prof. E.

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Bivalvia - Bivalves - Muscheln. Band 3

Phylogenetische Analyse

Datenintegration am Beispiel der Bioinformatik SRS - Sequenz Retrieval System

MBI: Sequenz-Vergleich mit Alignment

Folien und Supplementals auf

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Bioinformatik Teil 1

Bioinformatik I (Einführung)

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie

Bioinformatik auch ein Thema für Informationsfachleute?

Folien und Supplementals auf.

MM Proteinmodelling. Michael Meyer. Vorlesung XVII

Informationsgehalt von DNA

Vertiefendes Seminar zur Vorlesung Biochemie

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

Transkript:

Bioinformatik Wintersemester 2006/2007 Tutorial 1: Biologische Datenbanken SRS Tutorial 1: Datenbanken 1/22

Sequenzquellen DNA- Sequenzierung Protein- Sequenzierung Translation Proteinsequenzen Tutorial 1: Datenbanken 2/22

Sequenzdaten >80 Mio. Nukleotidsequenzen (Quelle: GenBank http://www.ncbi.nlm.nih.gov/genbank/index.html) 7 Mio. Proteinsequenzen (Quelle: UniParc http://www.ebi.ac.uk/uniparc/) knapp 0,04 Mio. Proteinstrukturen (Quelle: RCSB-PDB http://www.pdb.org) Einträge sind teilweise redundant, d.h. es gibt mehrere Versionen derselben Sequenz/Struktur Tutorial 1: Datenbanken 3/22

Datenbanktypen Datenbanken primäre Datenbanken sekundäre Datenbanken Nukleotidsequenzen Proteinsequenzen Proteinsequenzen Proteinstruktur GenBank EMBL-Bank UniProtKB NCBI-PD PROSITE PRINTS Pfam InterPro SCOP CATH Entrez Entrez SRS SRS SCOP CATH - Sequenzinformationen - zugehörige Annotationen - Kreuzreferenzen zu anderen Datenbanken - Analysen auf Basis der primären Datenbanken - Klassifizierungen nach Ähnlichkeit Tutorial 1: Datenbanken 4/22

primäre Datenbanken: DNA 1. GenBank (http://www.ncbi.nlm.nih.gov/genbank/) - öffentliche Nukleotid-Sequenzdatenbank - 61 Mio. Sequenzeinträge (Oktober 2006) = >100 Gigabasen - per E-mail werden neue Sequenzen eingeschickt - jeder Eintrag bekommt eine eindeutige Accession Number - Mindestlänge der eingereichten Sequenzen: 50 bp - wird alle 24h gegen EMBL-Base und DDBJ (DNA DataBank of Japan, http://www.ddbj.nig.ac.jp) synchronisiert Tutorial 1: Datenbanken 5/22

Beispiel für einen Eintrag in GenBank (http://www.ncbi.nlm.nih.gov/sitemap/samplerecord.html) LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS. SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 PUBMED 7871890 REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 PUBMED 8846915 REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source 1..5028 /organism="saccharomyces cerevisiae" /mol_type="genomic DNA" /db_xref="taxon:4932" /chromosome="ix" /map="9"... CDS <1..206 /codon_start=3 /product="tcp1-beta" /protein_id="aaa98665.1" /db_xref="gi:1293614" /translation="ssiyngistsgldlnngtiadmrqlgivesyklkravvssasea AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="axl2" [..] gene complement(3300..4037) /gene="rev7" CDS complement(3300..4037) /gene="rev7" /codon_start=1 /product="rev7p" /protein_id="aaa98667.1" /db_xref="gi:1293616" /translation="mnrwvekwlrvylkcyinlilfyrnvyppqsfdyttyqsfnlpq FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF" ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg [..] 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc // Tutorial 1: Datenbanken 6/22

primäre Datenbanken: DNA 2. EMBL Nucleotid Sequence Database (EMBL-Bank) (http://www.ebi.ac.uk/) - von European Molecular Biology Laboratory am EBI (European Bioinformatics Institute) - öffentliche Nukleotid-Sequenzdatenbank - über ein Web-Interface werden neue Sequenzen eingeschickt - wird alle 24h gegen GenBank und DDBJ synchronisiert Tutorial 1: Datenbanken 7/22

Beispiel für einen Eintrag in EMBL-Bank ID SC49845 standard; genomic DNA; FUN; 5028 BP. AC U49845; SV U49845.1 DT 07-MAY-1996 (Rel. 47, Created) DT 29-JUN-1999 (Rel. 60, Last updated, Version 3) DE Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and DE Rev7p (REV7) genes, complete cds. KW. OS Saccharomyces cerevisiae (baker's yeast) OC Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; OC Saccharomycetales; Saccharomycetaceae; Saccharomyces. RN [1] RP 1-5028 RX MEDLINE; 95176709. RX PUBMED; 7871890. RA Torpey L.E., Gibbs P.E., Nelson J., Lawrence C.W.; RT "Cloning and sequence of REV7, a gene whose function is required for DNA RT damage-induced mutagenesis in Saccharomyces cerevisiae"; RL Yeast 10(11):1503-1509(1994). RN [2] RP 1-5028 RX MEDLINE; 96194260. RX PUBMED; 8846915. RA Roemer T., Madden K., Chang J., Snyder M.; RT "Selection of axial growth sites in yeast requires Axl2p, a novel plasma RT membrane glycoprotein"; RL Genes Dev. 10(7):777-793(1996). RN [3] RP 1-5028 RA Roemer T.; RT ; RL Submitted (22-FEB-1996) to the EMBL/GenBank/DDBJ databases. RL Terry Roemer, Biology, Yale University, New Haven, CT, USA... DR GOA; P38927. DR GOA; P38928. DR GOA; P39076. DR SGD; S0001401; YIL139C. DR SGD; S0001402; YIL140W. DR Swiss-Prot; P38927; REV7_YEAST. DR Swiss-Prot; P38928; AXL2_YEAST. DR Swiss-Prot; P39076; TCPB_YEAST. FH Key Location/Qualifiers FH FT source 1..5028 FT /chromosome="ix" FT /db_xref="taxon:4932" FT /mol_type="genomic DNA" FT /organism="saccharomyces cerevisiae" FT /map="9" FT CDS <1..206 FT /codon_start=3 FT /db_xref="goa:p39076" FT /db_xref="swiss-prot:p39076" FT /product="tcp1-beta" FT /protein_id="aaa98665.1" FT /translation="ssiyngistsgldlnngtiadmrqlgivesyklkravvssaseaa FT EVLLRVDNIIRARPRTANRQHM" FT [..] FT SGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRLVDFSNKSNVNVGQV FT KDIHGRIPEML" FT CDS complement(3300..4037) FT /codon_start=1 FT /db_xref="goa:p38927" FT /db_xref="sgd:s0001401" FT /db_xref="swiss-prot:p38927" FT /gene="rev7" FT /product="rev7p" FT /protein_id="aaa98667.1" FT /translation="mnrwvekwlrvylkcyinlilfyrnvyppqsfdyttyqsfnlpqf [..] SQ Sequence 5028 BP; 1510 A; 1074 C; 835 G; 1609 T; 0 other; gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 60 [..] tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 5028 // Tutorial 1: Datenbanken 8/22

primäre Datenbanken: Proteine 1. UniProtKB/Swiss-Prot (http://www.expasy.org/sprot/) - von EBI und SIB (Swiss Institute of Bioinformatics) - öffentliche Protein-Sequenzdatenbank - nur 234.112 Sequenzeinträge - wichtigste Sammlung von Proteinsequenzen, da: manuell überpüft; manuelle Annotationen von Experten nicht redundant reichlich annotiert Querverweise zu Funktionsbeschreibung, Domänenstruktur, posttranslationalen Modifikationen und anderen Datenbanken Tutorial 1: Datenbanken 9/22

UniProtKB - Universal Protein Resource Knowledge Base - Daten für die manuelle Untersuchung stammen aus der Datenbank TrEMBL (translated EMBL) - TrEMBL: Translationen der DNA-Einträge aus der EMBL-NSD durch CDS (coding sequences) computer-annotiert UniProtKB/TrEMBL enthält nur solche Einträge, die noch nicht in UniProtKB/Swiss-Prot aufgenommen wurden Tutorial 1: Datenbanken 10/22

primäre Datenbanken: Proteine 2. NCBI Protein Database (http://www.ncbi.nlm.nih.gov/) - öffentliche Protein-Sequenzdatenbank - Zusammenstellung aus den folgenden Protein- Sequenzdatenbanken: UniProtKB PIR (Protein Identification Resources) PDB (Protein Data Bank) Proteintranslationen der GenBank-Datenbank und weiteren - redundant Tutorial 1: Datenbanken 11/22

sekundäre Datenbanken: Proteine 1. PROSITE (http://www.expasy.org/prosite/) - öffentliche Datenbank von Proteinfamilien und Domänen - etwa 2000 unterschiedliche Muster, Regeln und Profile (in Form von Matrizen) - Klassifizierung: konservierte Motive aus verwandten Proteinen - Motive: kurze Sequenzbereiche von 10-20 Aminosäuren - Annahme: Motive bestimmen Proteinfunktion - Motive stammen aus multiplen Sequenzalignments (Tutorial 3) Tutorial 1: Datenbanken 12/22

Motive in PROSITE - formalisiertes Muster (pattern) zur Beschreibung einer Zeichenabfolge = nächste Position x = jede AS [ ] = alle AS, die an dieser Position auftreten können { } = alle AS, die an dieser Position NICHT auftreten dürfen ( ) = Anzahl der Wiederholungen PA C-{CPWHF}-{CPWR}-C-H-{CFYW} Tutorial 1: Datenbanken 13/22

sekundäre Datenbanken: Proteine 2. PRINTS (http://bioinf.man.ac.uk/dbbrowser/prints/) - 1.800 Einträge und 10.931 Motive (2003) - Fingerabdrücke (fingerprints) als Klassifizierung von Sequenzen: Gruppe von konservierten Motiven - Idee: Sequenzen weisen mehrere funktionelle Bereiche auf auch für Faltung und somit mehrere Sequenzmotive - Motive aus kurzen lokalen Alignments (ungapped) Tutorial 1: Datenbanken 14/22

sekundäre Datenbanken: Proteine 3. Pfam (http://www.sanger.ac.uk/software/pfam/) - 74% aller Proteinsequenzen haben mindestens einen Pfam- Eintrag - Proteinfamilien werden durch Profile klassifiziert, die funktionell interessante Domänen repräsentieren - Profil: Auftrittswahrscheinlichkeiten bestimmter Aminosäuren an bestimmten Positionen in Form einer Matrix (Tutorial 2) - Pfam-A: genau untersuchte Profile aus den multiplen Alignments, teilweise manuelle Alignments, >8000 Familien - Pfam-B: automatisch generierte Profile. Umfaßt mehr Sequenzen, ist aber weniger präzise Tutorial 1: Datenbanken 15/22

sekundäre Datenbanken: Proteine 4. InterPro (http://www.ebi.ac.uk/interpro/) - Integrated Resource of Protein Families, Domains and Sites - simultane Abfrage von Daten aus: UniProtKB Pfam PROSITE PRINTS und weiteren Tutorial 1: Datenbanken 16/22

sekundäre Datenbanken: Proteinstruktur 1. SCOP (http://scop.berkeley.edu/) - Structural Classification Of Proteins 2. CATH (http://www.cathdb.info/) - hierarchische Klassifizierung nach: Class Architecture Topology Homologous Superfamily Tutorial 1: Datenbanken 17/22

Webinterfaces 1. Entrez (http://www.ncbi.nlm.nih.gov/entrez) - integriert viele Datenbanken - Suche über alle oder in einzelnen Datenbanken - simple und detaillierte Suchfunktion - Suchwörter logisch verknüpfbar - Suchwörter auf Kategorien aufteilbar - Direkte Links zu PubMed (elektronische Zeitschriftenbibliothek) Tutorial 1: Datenbanken 18/22

Beispiel für Suchergebnis mit Entrez Tutorial 1: Datenbanken 19/22

Webinterfaces 2. SRS (http://srs.ebi.ac.uk/) - Sequence Retrieval System - von EBI entwickelt und inzwischen von Lion Bioscience AG lizensiert - Schnittstelle für ca. 350 Datenbanken aller Kategorien - verschiedene Typen von Suchen - Aufbereitung der Ergebnisse, auch mit Links zu verschiedenen Datenbanken - integrierte Sequenzanalyse-Werkzeuge Tutorial 1: Datenbanken 20/22

Datenbanken bei SRS Tutorial 1: Datenbanken 21/22

Optionen bei SRS Tutorial 1: Datenbanken 22/22