Bioinformatik für Biochemiker

Ähnliche Dokumente
Bioinformatik für Lebenswissenschaftler

Bioinforma1k für Lebenswissenscha;ler

Übersicht. FASTA- Format. BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler. Datenbanken

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Softwarewerkzeuge der. Bioinformatik

.htaccess HOWTO. zum Schutz von Dateien und Verzeichnissen mittels Passwortabfrage

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Wie richten Sie Ihr Web Paket bei Netpage24 ein

Adminer: Installationsanleitung

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken

Bekommen durch Ansteckung. H Human Beim Menschen. Acquired I D. Schwäche des Immunsystems. Schwäche des Immunsystems.

I. Allgemeine Zugangsdaten für den neuen Server: II. Umstellung Ihres Windows Arbeitsplatzrechners

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Office 365 Domänen bei 1und1 einrichten. Variante A: P1-Tarif die von MS empfohlene Volldelegation

PHPNuke Quick & Dirty

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Kurzanleitung OOVS. Reseller Interface. Allgemein

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Änderungsbeschreibung HWS32 SEPA Überweisungen

Hinweise zum Update des KPP Auswahltools (Netzwerkinstallation) auf Version 7.2

Installationsanleitung dateiagent Pro

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

SJ OFFICE - Update 3.0

Reporting Services und SharePoint 2010 Teil 1

Der Kalender im ipad

Universal Gleismauer Set von SB4 mit Tauschtextur u. integrierten Gleismauerabschlüssen!

Internet online Update (Internet Explorer)

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Auto-Provisionierung tiptel 30x0 mit Yeastar MyPBX

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten

Templates Umzug auf eine andere Domain -

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Möglichkeiten des Parallelbetriebs der VR-NetWorld Software Parallelbetrieb VR-NetWorld Software 4.4x und Version 5.0 ab der 2. Beta!

Beispiel Shop-Eintrag Ladenlokal & Online-Shop im Verzeichnis 1

Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

Webalizer HOWTO. Stand:

Anleitung über den Umgang mit Schildern

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Dokumentation zur Versendung der Statistik Daten

Professionelle Seminare im Bereich MS-Office

Erstellung von Reports mit Anwender-Dokumentation und System-Dokumentation in der ArtemiS SUITE (ab Version 5.0)

Datenbanken Kapitel 2

HSR git und subversion HowTo

Herzlich Willkommen bei der BITel!

Flugzeugen einen Glanz aufmalen

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

CL-Mini-ABF. Kurzbeschreibung. Installation und Vorbereitung. Stand Ihre HTK-Filiale Michelstadt

DATENQUALITÄT IN GENOMDATENBANKEN

icloud nicht neu, aber doch irgendwie anders

Universal Dashboard auf ewon Alarmübersicht auf ewon eigener HTML Seite.

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Jederzeit Ordnung halten

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Bauteilattribute als Sachdaten anzeigen

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Es sollte die MS-DOS Eingabeaufforderung starten. Geben Sie nun den Befehl javac ein.

Lokale Installation von DotNetNuke 4 ohne IIS

Beschreibung Regeln z.b. Abwesenheitsmeldung und Weiterleitung

Was meinen die Leute eigentlich mit: Grexit?

Überprüfung der digital signierten E-Rechnung

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

NODELOCKED LIZENZ generieren (ab ST4)

OSD-Branchenprogramm. OSD-Version Was ist neu? EDV-Power für Holzverarbeiter

MARCANT - File Delivery System

2 Die Terminaldienste Prüfungsanforderungen von Microsoft: Lernziele:

Installationsbeschreibung Import / ATLAS / PV Zollsystem für die EDV-Abteilung

Bilder zum Upload verkleinern

Die TYPO3-Extension Publikationen

Kurze Anleitung zum Guthaben-Aufladen bei.

Anmeldung und Zugang zum Webinar des Deutschen Bibliotheksverbandes e.v. (dbv)

Traditionelle Suchmaschinenoptimierung (SEO)

Artikel Schnittstelle über CSV

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER DATEIEN ARCHIVIEREN

Dissertation über MADOC veröffentlichen (10 Schritte)

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Updatehinweise für die Version forma 5.5.5

Einstellungen im Internet-Explorer (IE) (Stand 11/2013) für die Arbeit mit IOS2000 und DIALOG

Internet online Update (Mozilla Firefox)

GSM: Airgap Update. Inhalt. Einleitung

.procmailrc HOWTO. zur Mailfilterung und Verteilung. Stand:

COMPUTER MULTIMEDIA SERVICE

Schritte 4. Lesetexte 13. Kosten für ein Girokonto vergleichen. 1. Was passt? Ordnen Sie zu.

Installation SQL- Server 2012 Single Node

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

5 Zweisprachige Seiten

Individuelle Formulare

Einrichten eines HBCI- Zugangs mit Bank X 5.1

Wir machen neue Politik für Baden-Württemberg

Installationsanleitung. Novaline Datenarchivierung / GDPdU

Transkript:

Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 6. Sequenzdatenbanken Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Was sind Datenbanken? Sequenzdatenbanken Klassifizierung Primäre Datenbanken Sekundäre Datenbanken Formate und Schnittstellen 2 Datenbanken - Definition Datenbank (DB): eine Datensammlung, die nach bestimmten Kriterien organisiert ist. 1

Noch eine Definition Zunehmend wird der Begriff Datenbank auch für Datenbank-Managementsysteme (DBMS) gebraucht, also eigentlich die Software, die die Daten verwaltet. Gängige DBMSe sind z.b. Oracle, DB/2 (IBM), MySQL oder SQL Server www.dilbert.com Sequenzdatenbanken Sequenzinformation wurde zunächst in Büchern gespeichert Margaret Dayhoff veröffentlichte 1965 ihren Atlas, der alle damals bekannten Proteinsequenzen (65!) enthielt Der Atlas wurde 1985 in die Datenbank PIR (Protein Information Resources) umgewandelt PIR enthält heute ca. 280.000 Sequenzen http://www.dayhoff.cc http://pir.georgetown.edu/home.shtml Sequenzdatenbanken Es gibt zwei Typen von biologischen Datenbanken: Primärdatenbanken Enthalten experimentell ermittelte Daten Meist mit Herkunftsangabe (Quelle, Literaturzitat) Sekundärdatenbanken Werden aus primären Datenbanken abgeleitet (daher oft auch abgeleitete Datenbanken) Enthalten gefilterte, interpretierte oder annotierte Information, z.b. verifizierte Proteinsequenzen oder Sequenzmotive 2

Sequenzdaten Menge an bekannten Sequenzen ist in den letzten Jahrzehnten stets exponentiell angestiegen Hauptgrund: Fortschritte in der Sequenzierungstechnologie Kapillarsequenzierer erzeugen große Mengen an Sequenzdaten in sehr kurzer Zeit WGS (whole genome shotgun)-sequenzierung erlaubt Sequenzierung ganzer Genome in kürzester Zeit Beispiel: Celera Genomics erzeugte 2001 mit ca. 300 Sequenzierern 175.000 reads (à 500 bp) aus dem menschlichen Genom pro Tag Sequencing by Synthesis Sequencing by synthesis erzeugt durch massive Parallelisierung immense Datenmengen Erkauft mit geringerer Qualität (= Länge) der Sequenzstücke www.454.com NCBI Der wichtigste Betreiber von biologischen Datenbanken ist das NCBI (National Center for Biotechnology Information) am NIH (National Institute for Health) in Bethesda, MD, USA NCBI stellt eine Vielzahl von Ressourcen für die biomedizinische Forschung zur Verfügung, darunter auch viele relevante Datenbanken (PubMed, GenBank) Zu diesen Ressourcen gibt es ein einheitliches Web-Interface zur Recherche (ENTREZ) http://www.ncbi.nih.gov/entrez 3

GenBank Die wichtigste (und größte) Datenbank für Nukleinsäuresequenzen ist GenBank (http:// www.ncbi.nih.gov/genbank/) GenBank wird am NCBI gepflegt und erhält Daten von japanischen und europäischen Datenbanken (DDBJ, DNA Databank of Japan und EMBL) Ziel von GenBank ist es, jede bekannte Nukleinsäuresequenz zu archivieren GenBank wird alle 24 h aktualisiert GenBank enthält Sequenzen von über 140.000 Spezies GenBank Publikation neuer NA-Sequenzen in GenBank ist zwingend erforderlich für praktisch alle relevanten Zeitschriften der Molekularbiologie Dazu gibt es ein entsprechendes Web- Interface Neueinträge können für kurze Zeit (bis zur Veröffentlichung der Publikation) zurückgehalten werden In der Publikation muss dann die zugehörige Accession Number der Einträge benannt werden GenBank 4

GenBank Wachstum Größe von Genbank wächst immer noch exponentiell an Derzeit sind über 99 Mio. Sequenzen mit ca. 99 Mrd. bp gespeichert GenBank Wie in allen Datenbanken wird jeder einzelne Eintrag (Datensatz, record) in GenBank eindeutig gekennzeichnet Diesen Bezeichner oder ID nennt man Accession Number Beispiel: K02013 Das komplette Genom von HIV1 Kenntnis der ID erlaubt direkten Zugriff auf den Datensatz und ist eindeutig unter diesem Bezeichner werden Sie den Datensatz immer wieder finden und keinem zweiten Datensatz wird die gleiche Nummer zugeteilt werden Nimmt man auf einen Eintrag Bezug, ist es notwendig Datenbank und ID zu zitieren GenBank Beispiel GenBank-Einträge werden in einem eigenen Format abgelegt Jeder Abschnitt beginnt mit einem Schlüsselwort, dann die zugehörigen Daten (eingerückt) LOCUS HIVBRUCG 9229 bp ss-rna linear VRL 02-AUG-1993 DEFINITION Human immunodeficiency virus type 1, isolate BRU, complete genome (LAV-1). ACCESSION K02013 VERSION K02013.1 GI:326417 KEYWORDS TAR protein; TAT protein; acquired immune deficiency syndrome; complete genome; env protein; gag protein; long terminal repeat (LTR); pol protein; polyprotein; proviral gene; SOURCE Human immunodeficiency virus 1 (HIV-1) ORGANISM Human immunodeficiency virus 1 Viruses; Retroid viruses; Retroviridae; Lentivirus; Primate lentivirus group. REFERENCE 1 (bases 1 to 9229) AUTHORS Wain-Hobson,S., Sonigo,P., Danos,O., Cole,S. and Alizon,M. TITLE Nucleotide sequence of the AIDS virus, LAV JOURNAL Cell 40 (1), 9-17 (1985) MEDLINE 85099333 PUBMED 2981635 5

GenBank Beispiel FEATURES Location/Qualifiers source 1..9229 /organism="human immunodeficiency virus 1" /mol_type="genomic RNA" /db_xref="taxon:11676" prim_transcript 1..9229 /note="genomic mrna CDS 8390..9010 /note="nef protein" /codon_start=1 /protein_id="aab59752.1" /db_xref="gi:326425" /translation="mggkwskssvvgwptvrermrraepaadgvgaasrdlekhgait NTSLLHPVSLHGMDDPEREVLEWRFDSRLAFHHVARELHPEYFKNC" LTR 8679..>9229 /note="3' LTR" repeat_region 9133..9229 /note="r repeat 3' copy" ORIGIN Cap site of genomic RNA. 1 ggtctctctg gttagaccag atttgagcct gggagctctc tggctaacta gggaacccac 61 tgcttaagcc tcaataaagc ttgccttgag tgcttcaagt agtgtgtgcc cgtctgttgt [...] Primärdatenbanken für Nukleotide Weitere Primärdatenbanken für NA- Sequenzen sind: EMBL Nucleotide Sequence Database Verwendet SRS als Suchmaschine Derzeit ca. 112 Mio. Sequenzen (http://www.ebi.ac.uk/embl/) DDBJ DNA Databank of Japan Ebenfalls SRS Derzeit ca. 109 Mio. Sequenzen (http://www.ddbj.nig.ac.jp/) Primärdatenbanken Große Primärdatenbanken wie GenBank haben zwei Hauptprobleme Redundanz: viele Sequenzen sind nicht nur einmal darin enthalten, sondern in vielen, vielen Varianten oder gar Kopien Qualität: in GenBank findet sich praktisch jeder irgendwann mal sequenzierte Nukleinsäureschnipsel. Viel davon ist von minderer Qualität oder unklarer Herkunft. 6

RefSeq-Nukleotid-Datenbank Nichtredundante Datenbank von Nukleotidsequenzen Enthält Sequenzen genomischer DNA und von mrna Statistik: DNA: ca. 2 Mio Einträge RNA: ca. 2 Mio Einträge Zugänglich über NCBI (http://www.ncbi.nlm.nih.gov/refseq/) Verlinkt mit der RefSeq-Protein-Datenbank Primärdatenbanken für Proteine Neben Nukleotidsequenzen sind natürlich Proteinsequenzen interessant Die wichtigste Daten PIR Protein Information Resource (http://pir.georgetown.edu) UniProt Universal Protein Resource Bestehend aus den beiden Teildatenbanken TrEMBL Translated EMBL Swiss-Prot (http://www.ebi.ac.uk/uniprot/index.html) UniProt Universal Protein Resource Am EMBL beheimatet, auch über NCBI zugänglich Aus drei Datenbanken durch Zusammenschluss entstanden: Swiss-Prot: qualitativ hochwertige, nichtredundante und exzellent annotierte Proteinsequenzen PIR: Protein Information Ressource, aus Margaret Dayhoffs Protein-Atlas hervorgegangen TrEMBL: durch Translation der in der EMBL- Nukleotiddatenbank abgelegen NA-Sequenzen erzeugte Proteindaten 7

Swiss-Prot 1986 eingerichtet und betrieben vom Swiss Institute of Bioinformatics (SIB) and the European Bioinformatics Institute (EBI) Von Experten kurierte Informationen zu Proteinsequenzen ) hohe Qualität It strives to provide a high level of annotation, a minimal level of redundancy, a high level of integration with other biomolecular databases as well as extensive external documentation. Swiss-Prot enthält derzeit ca. 512.000 Einträge http://www.expasy.org/sprot/ Swiss-Prot und TrEMBL Annotation und Kontrolle der Proteinsequenzen für Swiss-Prot ist sehr zeitund personalintensiv Um Sequenzinformation kurzfristig verfügbar zu machen, gibt es TrEMBL TrEMBL ist komplementär zu Swiss-Prot und enthält computergenerierte Annotationen zu den Sequenzen, die durch automatisches Übersetzen den Genomsequenz aus der EMBL- Nukleotid-DB entsteht TrEMBL enthält derzeit ca. 9,7 Mio. Einträge Ein Swiss-Prot-Eintrag ID Beschreibung Literaturzitate ID 1A01_HUMAN STANDARD; PRT; 365 AA. AC P30443; DT 01-APR-1993 (REL. 25, CREATED) DT 01-APR-1993 (REL. 25, LAST SEQUENCE UPDATE) DT 01-FEB-1996 (REL. 33, LAST ANNOTATION UPDATE) DE HLA CLASS I HISTOCOMPATIBILITY ANTIGEN, A-1 GN HLAA. OS HOMO SAPIENS (HUMAN). OC EUKARYOTA; METAZOA;... OC EUTHERIA; PRIMATES. RN [1] RP SEQUENCE FROM N.A. (A*0101). RX MEDLINE; 88234547. RA PARHAM P., LOMEN C.E., LAWLOR D.A., WAYS J.P., RA SALTER R.D., WAN A.M., ENNIS P.D.; RL PROC. NATL. ACAD. SCI. U.S.A. 85:4005-4009(1988). RN [2] RP SEQUENCE FROM N.A. (A*0101). RX MEDLINE; 89235215. RA PARHAM P., LAWLOR D.A., LOMEN C.E., ENNIS P.D.; RL J. IMMUNOL. 142:3937-3950(1989). RN [4] RX MEDLINE; 95282145. RA BROWNING M.J., MADRIGAL J.A., KRAUSA P., KOWALSKI RA ALLSOPP C.E., LITTLE A.M., TURNER S., ADAMS E.J RA BODMER W.F., PARHAM P.; RL TISSUE ANTIGENS 45:177-187(1995). 8

Ein Swiss-Prot-Eintrag (Forts.) Links zu anderen Datenbanken Domänen Sequenz CC -!- FUNCTION: INVOLVED IN THE PRESENTATION OF FOREIGN ANTIGENS TO CC THE IMMUNE SYSTEM. CC -!- SUBUNIT: DIMER OF ALPHA CHAIN AND A BETA CHAIN (BETA-2- CC MICROGLOBULIN). POLYMORPHISM: THE CC -!- FOLLOWING ALLELES OF A-1 ARE KNOWN: A*0101 CC A*0102. THE SEQUENCE SHOWN IS THAT OF A*0101. EMBL; M24043; G386893; -. DR DR PIR; S14189; S14189. DR HSSP; P01891; 1HSB. DR MIM; 142800; 11TH EDITION. DR PROSITE; PS00290; IG_MHC. KW MHC I; TRANSMEMBRANE; GLYCOPROTEIN; SIGNAL; POLYMORPHISM. SIGNAL 1 24 FT FT CHAIN 25 365 HLA CLASS I HISTOCOMPATIBILITY FT ANTIGEN ALPHA CHAIN A-1. FT DOMAIN 25 114 EXTRACELLULAR ALPHA-1. FT DOMAIN 115 206 EXTRACELLULAR ALPHA-2. FT DOMAIN 207 298 EXTRACELLULAR ALPHA-3. FT DOMAIN 299 308 CONNECTING PEPTIDE. FT TRANSMEM 309 332 FT DOMAIN 333 365 CYTOPLASMIC TAIL. FT VARIANT 33 33 F -> S (IN A*0102). FT VARIANT 41 41 R -> S (IN A*0102). SQ SEQUENCE 365 AA; 40846 8E680E9E CRC32; MW; MAVMAPRTLL LLLSGALALT QTWAGSHSMR YFFTSVSRPG RGEPRFIAVG YVDDTQFVRF WQRDGEDQTQ DTELVETRPA GDGTFQKWAA VVVPSGEEQR YTCHVQHEGL PKPLTLRWEL SSQPTIPIVG IIAGLVLLGA VITGAVVAAV MWRRKSSDRK GGSYTQAASS DSAQGSDVSL TACKV // RefSeq protein database Die Sequenzen aus RefSeq sind auch als Proteinsequenzen verfügbar Ziel der RefSeq-Protein-DB ist ähnlich zur Nukleotid-DB: The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, nonredundant set of sequences, including genomic DNA, transcript (RNA), and protein products, for major research organisms. Unterhalten am NCBI, zugänglich ebenso über das NCBI-Webinterface RefSeq enthält derzeit ca. 1,1 Mio. Einträge http://www.ncbi.nlm.nih.gov/refseq/ Sekundärdatenbanken Sekundärdatenbanken generieren aus den Primärdaten neue Information Einige dieser Datenbanken werden wir später noch im Detail besprechen Beispiele: ProSite: Datenbank von Proteinfamilien und -Domänen (http://us.expasy.org/prosite/) PFam: Datenbank für multiple Alignments und Proteindomänen (http://www.sanger.ac.uk/software/pfam/) 9

Formate Praktisch jede größere Datenbank steht neben den wohlbekannten Web-Interfaces auch als so genannte Flatfiles zur Verfügung Darin ist die Information der gesamten DB oder von Teilen daraus in einer großen Datei (flat file) untergebracht Für Bioinformatikanwendungen ist es oft bequemer diese flat files herunter zu laden (Vorsicht! Oft SEHR groß!) Mit den Ihnen bekannten Werkzeugen können Sie damit sehr einfach Aufgaben lösen, die durch das Webinterface schwierig oder unmöglich sind Leider haben die unterschiedlichen Datenbanken unterschiedliche Formate Python-Erweiterung Biopython ist in der Lage die wichtigsten Formate zu lesen (Details in den Übungen) www.biopython.org ENTREZ Suchmaschine des NCBI ENTREZ ist ein mächtiges Werkzeug zur Suche nach Sequenzen, Strukturen, Taxonomie, Literatur u.v.m ENTREZ erlaubt die Suche in den meisten hier genannten Datenbanken Sie sollten sich bei Gelegenheit zwei Nachmittage Zeit nehmen und es ausgiebig erforschen die Investition wird sich nach kurzer Zeit amortisiert haben! Machen Sie sich auch mit den erweiterten Suchmöglichkeiten vertraut (Einschränkung auf Publikationsdatum, Organismus etc.) ENTREZ erlaubt auch die Suche über Accession Numbers: einfach in die Suchmaske eingeben und los geht s ENTREZ Neue Einstiegsseite http://www.ncbi.nlm.nih.gov/entrez/ 10

ENTREZ - Datenbankauswahl GenBank Suche GenBank - Datensatzanzeige 11

Graphische Anzeige des Genoms Links und Infos ENTREZ (NCBI) http://www.ncbi.nlm.nih.gov/entrez/ SWISS-PROT http://www.expasy.org/sprot/ BioPython http://www.biopython.org Weitere Infos zu Datenbanken Überblick über alle NCBI-Datenbanken http://www.ncbi.nlm.nih.gov/database/ Überblick über alle Datenbanken des EBI http://www.ebi.ac.uk/databases/ Materialien aus der Vorlesung von Per Kraulis http://www.sbc.su.se/~per/molbioinfo2001/databases.html 12