Kapitel 4: Genom-Datenbanken

Ähnliche Dokumente
Kapitel 4: Genom-Datenbanken

Molekularbiologische Datenbanken

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Applied Bioinformatics.

Molekularbiologische Datenbanken

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Softwarewerkzeuge der. Bioinformatik

Ensembl. Steffen Möller

Molekularbiologische. Datenbanken. Sequenzierung. EST und cdnas. Wissensmanagement in der. Bioinformatik. Ulf Leser

BIOINFORMATIK I ÜBUNGEN.

Molekularbiologische. Datenbanken. Kartierung von Chromsomen. Wissensmanagement in der. Bioinformatik. Ulf Leser

Molekularbiologische. Datenbanken. Einführung. Wissensmanagement in der. Bioinformatik. Ulf Leser

Bioinformatik für Biochemiker

Vorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken

Bioinformatik für Lebenswissenschaftler

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken

Biowissenschaftlich recherchieren

BCDS - Biochemische Datenbanken und Software

Datenbanken in der Molekularbiologie

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA

Web Services. Web Services in the News. Vision: Web of Services. Learning for Results. DECUS Symposium 2002, Vortrag 1K07,

Genexpressionsdatenbanken

Pharmazeutische Biologie WS2011/2012. Das neue Paradigma: Personalisierte Medizin

Molekularbiologische Datenbanken

Genkartierung durch Rekombination in Drosophila. Chapter 4 Opener

Datenbanken in der Molekularbiologie

Kapitel 5: Protein-Datendanken

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Folien und Supplementals auf.

Humane Genotyp-Phänotyp-Datenbanken: Ein Statusbericht

Strategien der Gensuche. Datenbanken in der Molekularbiologie. Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik-

Das Human-Genom und seine sich abzeichnende Dynamik

Genomics. Ernst W. Mayr Fakultät für Informatik TU München

Motivation. Web Services in der Bioinformatik. Web Services. Motivation (2) Definition

BIOINFORMATIK UEBUNGEN MOLZEB SS2014

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken

Folien und Supplementals auf

Grundlagen der Web-Entwicklung INF3172

Datenintegration am Beispiel der Bioinformatik SRS - Sequenz Retrieval System

Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks. Samira Jaeger

Perl-Praxis. BioPerl. Jörn Clausen, Jan Krüger Jens Reeder, Alex Sczyrba. AG Praktische Informatik Technische Fakultät Universität Bielefeld

Inhalt Genexpression Microarrays E-Northern

Strategien der Gensuche. Datenbanken in der Molekularbiologie. Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik-

Grundlagen der Molekulargenetik

Algorithms for analyzing signals in DNA Applications to transcription and translation

Algorithmen und Anwendungen zur Kartierung von Genomen

Die Nutzung von Webservices in der Oracle Datenbank. 11 März 2010

Vorgänger für Pathway Studio und IPA. Herbsttagung der Bibliotheken der BM-Sektion / Elisabeth Schlagberger

Web Services in der Bioinformatik

BIOINFORMATIK UEBUNGEN UMIT SS2014

Einblicke in das menschliche Erbgut (Genom) am Computer

Seminar Biomedical Informatics

Neue DNA Sequenzierungstechnologien im Überblick

Common Warehouse Metamodel und Imperfektion

Zukunft der Oracle Applikationsentwicklung: BC4J & XML

Oracle Data Integrator Ein Überblick

Vorlesung Molekulare Humangenetik

Bioinformatik Übungen SS 2010 ABI

Informationsgehalt von DNA

Oracle Data Warehouse Integrator Builder Ein Selbstversuch

Einführung Molekulare Bioinformatik

Hybride Integration von. molekularbiologischen Annotationsdaten

Protein-Datenbanken. Protein- Datenbanken. Christian Fink

Bioinformatik an der FH Bingen

Datenbanken in der Bioinformatik

Datenbanken in der Bioinformatik

Praktikum aus Softwareentwicklung 2. Web Services. Java Praktikum SS 2010

Organisation und Evolution des Genoms

Bioinformatik: The Next Generation

Hämophilie Symposium, März , Reitter Sylvia

INTEROPERABILITÄT AUF REZEPT

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

Genetische Variabilität

Personalisierte Medizin

Einführung in die Bioinformatik

Bioinforma1k für Lebenswissenscha;ler

Übersicht. FASTA- Format. BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler. Datenbanken

C SB. Genomics Herausforderungen und Chancen. Genomics. Genomic data. Prinzipien dominieren über Detail-Fluten. in 10 Minuten!

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.

Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

i2b2 Wizard Installation

Projekt. Java-Anwendung für die Sequenzanalyse (Metagenomik und Transkriptomik)

Was ist Bioinformatik?

Zentrales Dogma der Biologie

Neue Welten: Externe Daten mit APEX nutzen

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

Bivalvia - Bivalves - Muscheln. Band 3

Einführung Molekulare Bioinformatik

<Insert Picture Here> Data Migration als Kernprozess bei der Implementierung der E-Business Suite

From gene to 3D model

IUG DRESDEN ERSTELLUNG VON ROBUSTEN NATURAL SERVICES Software AG. All rights reserved. For internal use only

CITRA-Forum. Nutzen Sie das Potential all Ihrer Daten: Geodata Warehouse mit der Oracle Plattform. CITRA-Forum im Schloß 2009

Datenbankbasierte Lösungen

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Microsoft.NET. InfoPoint 8. Juni 2005 Stefan Bühler

Transkript:

Kapitel 4: Genom-Datenbanken n Nukleotidsequenz-Datenbanken Ausgangsproblematik Beispieldatenbanken n Kartierungs-Datenbanken Genomkarten Beispieldatenbanken n Genexpressions-Datenbanken Ausgangsproblematik Beispieldatenbanken Projekt GeWare, Universität Leipzig (E. Rahm et al.): Data warehouse design and implementation to support gene expression analysis (C) Prof. R. Müller, Prof. E. Rahm 4-1

Nukleotidsequenz: Rohdaten n Daten über den Sequenzierprozess Geräterohdaten (Spektren, Sequenzen) Benutzte Programme Labordaten (Maschinen, Personal, Datum,...) n NCBI Trace File Archive n Viele Sequenzier-Center Sanger University of Washington Celera... (C) Prof. R. Müller, Prof. E. Rahm 4-2

Sequenzdaten n Technische Herkunft: Wer, wann, wie, Methode,... n Biologische Herkunft: Clone, Organismus, Linie,... n Literaturreferenzen n Fehlerraten n Sequenz als Kerninformation n Informationen (Features) zu Sequenzteilen Location: Start -Ende, Genau -Ungenau Key: CDS (Coding Sequence(s)), Repeat, RNA-Strukturen, homologe Sequenzen, Marker, Exon/ Intron Boundaries, Funktion, Motiv, Polymorphismus,... Qualifier: Ergänzungen, z.b. kodiertes Protein, Regulationsmechanismen,... (C) Prof. R. Müller, Prof. E. Rahm 4-3

Nukleotidsequenz-Datenbanken: Beispiel-Datenbanken n European Molecular Biology Laboratory (EMBL) am European Bioinformatics Institute (EBI) n Los Alamos National Laboratory seit 1979; GenBank am NCBI (National Center f Biotech. Information) n DNA Data Bank of Japan: 1986; DDBJ am NIG (National Inst. of Genetics) n Zusammenschluss in der "International Nucleotide Sequence Database Collaboration" (seit 1988) Täglicher Datenaustausch Lokale Datenbank jeweils verantwortlich für eingebrachte Sequenzen (C) Prof. R. Müller, Prof. E. Rahm 4-4

EMBL-Datenbank n Erste (seit 1982) und derzeit größte europäische DNA-Sequenzdatenbank (am European Molecular Biology Laboratory in Hinxton, England) * n Datenquellen Lokale Forschergruppen Überregionale Sequezierungsprojekte n Verfügbarkeit (als vierteljährlich publizierte Releases) Flatfile SRS (Sequence Retrieval System mit proprietärem EBML- Format) XML (BSML = Bioinformatic Sequence Markup Language) Oracle Dump Files * http://www.ebi.ac.uk/embl/ (C) Prof. R. Müller, Prof. E. Rahm 4-5 EMBL Heidelberg Hamburg Grenoble Monterotondo Hinxton European Bioinformatics Institute EBI Service Programme EBI Research Programme EBI Industry Programme

n Release 76 (Sep. 2003) n Stand Nov. 2003 46,389,602,205 Basen in 32,049,770 Records Über 100 000 Spezies vertreten EMBL: Größe http://www3.ebi.ac.uk/services/dbstats/ (Gigabase = 10 9 Basen) (C) Prof. R. Müller, Prof. E. Rahm 4-6

EMBL: Spezies (Verteilung) (C) Prof. R. Müller, Prof. E. Rahm 4-7

EMBL: Spezies (Beispiele) (C) Prof. R. Müller, Prof. E. Rahm 4-8

EMBL: Beispieleintrag (Entry-Model) Global identifier Accession id Local identifier & version Description: free Keyword: free Taxonomy: ctrl! References: redundant X-Ref: free Comment: free Feature: partly ctrl Sequence ID HSIGHAF standard; RNA; HUM; 1089 BP. XX AC J00231; XX NI g185041 XX DT 17-DEC-1994 (Rel. 42, Last updated, Version 6) XX DE Human Ig gamma3 heavy chain disease OMM protein mrna. XX KW C-region; gamma heavy chain disease protein; XX OC Eukaryota; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Primates; XX RN [1] RP 1-1089 RX MEDLINE; 82247835.... DR GDB; 119339; IGHG3. DR GDB; G00-119-339.... CC The protein isolated from patient OMM is a gamma heavy chain FH FT CDS 23..964 FT /codon_start=1 FT 567112" XX SQ Sequence 1089 BP; 240 A; 358 C; 271 G; 176 T; 44 other; CCTGGACCTC CTGTGCAAGA ACATGAAACA NCTGTGGTTC TTCCTTCTCC TGGTGGCAGC 60 TCCCAGATGG GTCCTGTCCC AGGTGCACCT GCAGGAGTCG GGCCCAGGAC TGGGGAAGCC 120... (C) Prof. R. Müller, Prof. E. Rahm 4-9

EMBL: UML-Modell (Ausschnitt) (C) Prof. R. Müller, Prof. E. Rahm 4-10

EMBL: Architektur (C) Prof. R. Müller, Prof. E. Rahm 4-11

EMBL: E-Service-Architektur UDDI Broker Find SOAP Deploy WSDL Web Service Requester Bind Web Service Provider (C) Prof. R. Müller, Prof. E. Rahm 4-12

EMBL: Sequence Retrieval System Clients WWWServer Automated Analysis Data Viewers Wrappers C++ Java CORBA Python Perl Meta-Level Icarus Databanks Applications Object Loaders SRS core Viewer adapters Resources DBMS Flat File XML Blast Clustal (C) Prof. R. Müller, Prof. E. Rahm 4-13

GenBank n NCBI-Datenbank n Derzeit (Nov. 2003) über 20 * 10 9 Basen n Modell in ASN.1 n Zugriff über "Entrez" Ähnlich SRS bei EBML Keine Joins "Neighbours" "Related Documents" Click-And-Browse (C) Prof. R. Müller, Prof. E. Rahm 4-14

GenBank: Beispieleintrag (C) Prof. R. Müller, Prof. E. Rahm 4-15

Weitere Nukleotid-Datenbanken n UniGene, dbest, RZPD,... n Vielzahl von Datenbanken für spezifische Aspekte Organismen (Hefe, Fliege, Maus, HIV,...) Ribosomen, Immunsystem Motifs: Transskriptionsfaktoren, Promotoren,... n Terminologie-Datenbanken GeneOntology (> 7000 Begriffe: Funktion, Prozess, Zelllokation) NCBI TaxonomyDatabase (119000 Organismen) (C) Prof. R. Müller, Prof. E. Rahm 4-16

Kartierungs-Datenbanken n Motivation n The Genome Database (GDB) n egenome n LocusLink n dbsnp (C) Prof. R. Müller, Prof. E. Rahm 4-17

Motivation n Bestimmung der Gen-Loci: Welches Gen liegt an welcher Position (in welchen Modifikationen) auf welchem Chromosom? n Medizinische Relevanz: Numerische und strukturelle Chromosomen-Abberationen, Lokalisation von medizinisch relevanten Punktmutationen (C) Prof. R. Müller, Prof. E. Rahm 4-18

Gen-Loci n Gen-Locus: Ein "Ort" auf einem Chromosom n Enthält z.b. Gene oder Genfragmente DNA-Marker (Eindeutige Gen-identifizierende Sequenzen mit durchschnittlicher Länge von 300-500 Basenpaare) Polymorphe Strukturen (Unterschiedliche Allele vorhanden) Telomer p der kurze Arm Centromere q der lange Arm Telomer (C) Prof. R. Müller, Prof. E. Rahm 4-19

OMG Standard für Genome Maps mappedobj 1..1 crossreferences 0..* Mappable MapObject species database chromosome name type id getmaps() 1..1 Point Segment length unit Marker Map Clone 1..1 MapElement positionprecision 1..* onmap 1..1 getnrofelements() getallelements() getrangebetweenobjects() getelementsinsegment() IntervalPosition PointPosition RangePosition leftend frameworkelement leftflankingobj rightend position rightflankingobj OrderedPosition VaguePosition rank LinearMap maxcoordinate mincoordinate getscalarrange() getaround() Bin CytogeneticElement rank getsuperelement() getsubelements() getsiblings() (C) Prof. R. Müller, Prof. E. Rahm 4-20

Genome Database: GDB n Jahrelang Standarddatenbank für Kartierungs-Daten des Humane Genome Projects n Anzahl Objekte 14.000 Gene mit Position 150.000 DNA-Marker n Verfahren der Integration Submission-based Idee der "Community Curation" Chromosome Editors n Implementierung OPM, Sybase OPM-Datenschema mit ca. 75 Klassen Sybase-Implementierung mit ca. 140 Tabellen (C) Prof. R. Müller, Prof. E. Rahm 4-21

GDB: Interface (C) Prof. R. Müller, Prof. E. Rahm 4-22

GDB: MapViewer (C) Prof. R. Müller, Prof. E. Rahm 4-23

GDB: Bewertung n Sehr technisch orientiert n Modell ähnlich zu OMG-Standard (OPM) n Komplizierte Search-Forms kaum benutzt n Community Curation kaum benutzt n Relativ langsam (C) Prof. R. Müller, Prof. E. Rahm 4-24

egenome n Kartierungsdatenbank n Z.Z. mehr als 135.000 DNA-Marker (Nov. 2003) n Technische Realisierung Abpspeicherung der Daten in CompDB, einer Oracle-Datenbank Export als Flatfiles verfügbar (C) Prof. R. Müller, Prof. E. Rahm 4-25

egenome: Beispiel (C) Prof. R. Müller, Prof. E. Rahm 4-26

egenome: Beispiel (2) (C) Prof. R. Müller, Prof. E. Rahm 4-27

LocusLink [http://www.ncbi.nlm.nih.gov/locuslink] n Repository von Genen und "some non Genes" Vielfältige Informationen über Position hinaus Proteine, Funktionen, RNA, Phänotypen,... 32.000 Gene n Technische Implementierung NCBI: Entrez Search Interface Tab-delimited Files (C) Prof. R. Müller, Prof. E. Rahm 4-28

LocusLink: Integrationsworkflow n Mischung aus manueller und automatischer Bearbeitung n Objektstatus: Provisional - Reviewed n Kein Releasekonzept, keine Versionierung (C) Prof. R. Müller, Prof. E. Rahm 4-29

dbsnp n Single Nucleotide Polymorphism Database * n SNP ("snip"): Kleinste genetische Variation auf dem Level einer einzelnen Base Beispiel: Variation des DNA-Segments von AAGGTTA zu ATGGTTA Ca. 1.000.000 SNP s im menschlichen Genom Viele SNP s ohne phänotypische Auswirkung n Bestimmte SNPs führen aber zu veränderten Stoffwechselkompetenz ihrer Träger Allergische Reaktionen Langsamerer Abbau von Medikamenten Prädisposition für bestimmte Krankheiten n Zielsetzung von dbsnp: Speicherung aller bekannten "snips", ihrer Genlokalisationen und ggf. medizinischen Relevanz * http://www.ncbi.nlm.nih.gov/about/primer/snps.html (C) Prof. R. Müller, Prof. E. Rahm 4-30

dbsnp: E/R-Modell (Auszug) (C) Prof. R. Müller, Prof. E. Rahm 4-31

dbsnp: Beispiel (C) Prof. R. Müller, Prof. E. Rahm 4-32

dbsnp: Beispiel (2) (C) Prof. R. Müller, Prof. E. Rahm 4-33

dbsnp: Beispiel (3) (C) Prof. R. Müller, Prof. E. Rahm 4-34