Übung II Einführung, Teil 1 Arbeiten mit Ensembl
Ensembl Genome Browser (Bereitstellung von Vielzeller Genomen) Projekt wurde 1999 initiiert Projektpartner EMBL European Bioinformatics Institute (EBI) Wellcome Trust Sanger Institute > 40 Entwickler beschäftigt Software, Daten und Resultate frei verfügbar Vergleichende Genomik Variation und Regulation Integration von externen Daten (DAS)
Ensembl Core database Ensembl normalisiert, jeder Eintrag nur 1 mal gespeichert schnelle Updates, geringer Speicheraufwand Mart database De normalisiert, Tabellen enthalten redundante Einträge schnellere Abfragen Biomart (früher Ensmart) Abfrage Tool Erstellung personalisierter Abfragen Weitere Zugriffsmöglichkeiten Direkter Datenbankzugriff (ensemnldb.ensembl.org) MySQL client, Perl oder Java
Spezien in Ensembl v80 Stand Mai 2015 87 Spezien (hauptsächlich Vertebraten) Weitere Instanzen mit Organismen aus: EnsemblMetazoa EnsemblPlants EnsemblFungi EnsemblProtist EnsemblBacteria
Ensembl Ensembl ID: stabiler Identifier Format: ENS# ENSG#... Gen (Human) ENST#... Transkript ENSP#... Protein ENSE#... Exon ENSR#... Regulatorisches element Spezien prefixes: ENSMUSG# Gen (Maus), ENSRNOG# Gen (Ratte rattus norvegicus)...
Ensembl Human BRCA1
Ensembl
Ensembl
Ensembl
Ensembl BioMart
Exercise 2 Task 1: Working with Ensembl 2.1 Exploring features related to a gene 2.2 Examining the supporting evidence for a gene prediction 2.3 Extracting sequences related to a gene 2.4 Retrieve all coding SNPs (variations) in the germline with pathogenic clinical significance for a gene from dbsnp
Übung II Einführung, Teil 2 Vergleichend Genomik
Vergleichende Genomik Vergleich genomischer features unterschiedlicher Organismen: DNA sequence Gene Genreihenfolge Regulatorische Sequenzen Der Vergleich ganzer oder große Teile mehrerer Genome ergibt: Grundlegende biologische Ähnlichleiten oder Unterschiede Evolutionäre Beziehungen zwischen Organismen Hauptprinzip/annahme der vergleichenden Genomik gemeinsame features sind in konservierten DNA Bereichen kodiert Methode Alignment von Genom Sequenzen finden von orthologen Sequenzen in den alignten Genomen Feststellung des Ausmaßes der Konservierung Basierend darauf können Rückschlüssen auf die Evolution der Genome gemacht werden
Vergleichende Genomik Tools/DBs Orthologe/paraloge Gene HomoloGene (NCBI) Inparanoid (CGB, Karolinska Institute) OrthoMCL, Markov Clustering algorithm (University of Pennsylvania) YOGY (eukaryotic OrtholoGY) web based resource, integriert 5 independent resources (Sanger) Protein Familien (PFAM, Sammlung von Protein Familien) Chromosomen Synteny e.g. Ensembl viewer
Multiple sequence alignment (CLUSTALW, Clustal Omega) Multiple Sequence Alignment (MSA): Sequenz Alignment aus drei oder mehr biologischen Sequenzen, generell Protein, DNA, or RNA. MSA: Ableitung von Homologie, Hinweise auf evolutionäre Beziehungen Jalview
Exercise 2 Task 2: Comparative Genomics 2.5 Comparative Genomics using Ensembl 2.6 Comparing gene related sequences from different organisms 2.7 Find orthologs of a human protein and generate a MSA
Glossar Transkript UTR 5 upstream region Protein domain Chromosomenband SNP Contig Clone Homologie Synteny GeneOntology RefSeq BLASTz InterPro
Glossar Transkript Reifes mrna Molekül (bereits gespliced und verarbeitet [beinhaltet nur Exons] somit fertig für die Proteinsynthese im Zuge der Translation); Aufgrund von unterschiedlichen Splicing Varianten können unterschiedliche Transkripte entstehen. Untranslated region (UTR) Randbereiche der mrna welche nicht für Proteine codieren (5, 3, PolyA) 5 upstream region (5 flanking, cis regulatory or promoter region) Region vor Gen; Länge bis zu tausende Basenpaare; Bindungsstellen für Promotoren, regulatorische Elemente,...
Glossar Protein domain Teil/Struktur eines Proteins welches bestimmte physiochemische Eigenschaften besitzt. zb: hydrophob, polar, DNA binding domain, ATP binding domain Protein Familien Gruppe von evolutionär abhängigen Proteinen leiten sich von gemeinsamen Vorfahren ab (Homologie), ähnliche 3D Struktur Chromosomenband Durch Einfärben entstehen unterschiedliche Bandenmuster, eindeutige Identifizierung, Navigation auf Chromosom, Bandenmuster sind charakteristisch für jeweiliges Chromosom.
Glossar Single nucleotide polymorphism (SNP) Variationen einzelner Basenpaare in einem DNA Strang; ca. 90 % aller genetischen Varianten des menschlichen Genoms; treten nicht gleichverteilt auf, sondern nur ungleichmäßig stark an bestimmten Regionen; Unterscheidung von synonymous vs. Nonsynonymous; 1 3 mio SNPs pro Mensch Genomic marker Sequenz die eindeutig einen bestimmten Bereich im Genom bestimmt; wichtig für genetische Studien, Klonierung,... GeneOntology Vereinheitlichung eines Teils des Vokabulars der Biowissenscha en Ontologie Datenbank; Ziel: Zuordnung der Ontologien zu den Genen, oder vielmehr ihrer Produkte anhand einer hierarchischen Struktur mit drei grundlegender Domänen; keine Datenbank sondern ein System zur Beschreibung von Proteinen
Glossar RefSeq Nicht redundante und frei verfügbare Sammlung von annotierten, separierten und verlinkten Referenzstandards besteht aus Genome, Transkript und Proteinsequenzen BLASTz / LASTz Multiple Sequence Alignment Program für Genom Genom Alignments Clone Teil einer DNA die zb in Plasmid eingebracht wurde um diese dann zu vervielfältigen Contig Ein Set überlappender DNA Stücke. die von derselben genetischen Quelle stammen. Ein solches Contig kann dazu genutzt werden, die Original DNA Sequenz dieser genetischen Quelle abzuleiten.
Glossar InterPro: the integrative protein signature database Vorhersage von Protein Signaturen (domains, families and functional sites) Klassifizierung von Proteinen auf superfamily, family und subfamily Ebene Synteny Maß für die genetische Verwandtschaft zweier/mehrerer Arten. Synteny beschreibt die Konservierung der Genanordnung im Genom zwischen verwandten Arten, die Genanordnung im Genom ist umso konservierter, je verwandter die verglichenen Arten sind.
Homologie Glossar Gene in unterschiedlichen Spezien welche ähnliche oder identische Funktionen haben, und in ihrer Sequenz auf einen gemeinsamen Vorgänger zurückzuführen sind Orthologie Artenbildung (Speciation) funktional verwandte und von einem gemeinsamen Vorgänger abstammende Gene und deren Proteine Paralogie Genduplikation (Gene duplication) Verwandtschaft von Genen mit möglicherweise unterschiedlicher Funktion innerhalb des Genoms, auch Ausbildung neuer Funktion möglich Orthologe haben meist die selbe oder ähnliche Funktion, Paraloge nicht unbedingt.