Folien und Supplementals auf www.biokemika.de 1
Folien und Supplementals auf www.biokemika.de 2
National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ NCBI European Bioinformatic Institute http://www.ebi.ac.uk/ EBI Expert Protein Analysis System Proteomics Server http://www.expasy.org/ ExPASy 3
Allgemeines zur Suche: NCBI Boole sche Operatoren (in Großbuchstaben): AND, OR, NOT Attribute/Felder (in eckigen Klammern hinter Suchbegriff): nach Molekulargewicht: 150:250[MWT] Intervall-Anfrage nach Organismus: Homo Sapiens [Organism] Phrasensuche Protein-Bezeichnung: [Protein] Gen-Bezeichnung: [Gene] Enzym-Nummer: 1.4.*.*[EC] Wildcard-Suche Mehrere Operatoren: Klammersetzung wichtig - z.b. (a OR b) AND c. 4
Allgemeines zur Suche: NCBI Der Button Advanced Search führt zur Search History und zum Search Builder. 5
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 6
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 7
3 Generationen: Nukleotidsequenz-Datenbanken Erste Generation: Sequenz-spezifische Datenbanken (GenBank) Alle über Sequenzierung produzierten Nukleotidsequenzen. Verweise zur Literatur. Wenige Sequenzen existieren. Wichtig war nur die Sequenz bei gegebener Referenz zu finden. 8
3 Generationen: Nukleotidsequenz-Datenbanken Zweite Generation: Gen-spezifische Datenbanken (Entrez Gene) Beseitigung der Redundanz. Ausschluss von nicht-gen-sequenzen Zusammensetzen einzelner Sequenz-Einträge zum Gen-Eintrag für bessere Übersicht. Das macht Sinn: Molekularbiologen arbeiten mit Genen. Gezielte Vergleiche zwischen Genen verschiedener Organismen möglich. 9
3 Generationen: Nukleotidsequenz-Datenbanken Dritte Generation: Genom-basierende Datenbanken (Entrez Genome) hohe Anzahl an Genom-Projekten (Hochdurchsatz-Sequenzierung). Viele verschiedene Organismus-spezifische Datenbanken. Auch das macht Sinn: Gene im genomischen Kontext verstehen (Regulation). Vergleiche zwischen Genomen möglich (comparative genomics). 10
INSDC International Nucleotide Sequence Database Collaboration Kollaboration bestehend aus drei Datenbanken: GenBank der US-Regierung auf NCBI. DNA DataBank of Japan (DDBJ) am CIB (Center for Information Biology). European Molecular Biology Laboratory (EMBL) am EBI (European Bioinformatics Institute). Die Daten dieser drei Datenbanken werden alle 24h abgeglichen (selber Datenbestand). Es sind die Primärdatenbanken für Nukleotidsequenzen. 11
Welche Datenbanken werden auf NCBI durchsucht? GenBank ist die primäre Nukleotidsequenz-Datenbank der US-Regierung Hohe Redundanz Sammlung aller öffentlich verfügbaren DNA-Sequenzen. >100 Millionen Sequenzen aus 250k Arten. Gen-Fragmente, nicht codierende Sequenzen, verschiedene Sequenzierungen desselben Gens, kurze Sequenzen aus Genom-Sequenzier-Projekten. Keine Überwachung Jeder kann Sequenzen veröffentlichen (Formular im www oder per Mail). Annotierung ausschließlich durch die Autoren der Sequenz. 12
Welche Datenbanken werden auf NCBI durchsucht? RefSeq (Reference Sequence) ist eine sekundäre Datenbank auf NCBI Keine Redundanz Sammlung von DNA, RNA und Protein-Sequenzen verschiedener Taxa. Nur für das Labor relevante Arten (2011: ~12.000). Ziel: Erstellung eines Standard-Datensatzes mit Sequenz-Informationen für eine Spezies. RefSeq Eintrag = einzelnes, natürlich vorkommendes Molekül eines Organismus. Chromosom Plasmid mrna-spleißvarianten Polypeptid-Sequenz KEINE GENE Präfixes der IDs von RefSeq-Einträgen Hohe Überwachung NC_ Complete genomic molecule Durch NCBI gefilterte Daten aus den INSDC-Datenbanken. NT_ Genomic contig Viele Kreuz-Referenzen. NM_ mrna Annotierung durch Reviewer. XM_ mrna (Computed) NP_ XP_ NR_ XR_ Protein Protein (Computed) RNA RNA(Computed) 13
Welche Datenbanken werden auf NCBI durchsucht? RefSeq (Reference Sequence) ist eine sekundäre Datenbank auf NCBI RefSeqGene: Teil des RefSeq Projekts Standard für Zuweisung von Koordinaten von Gen-Variationen, Exon-Intron-Grenzen, Mutationen etc. Warum? Die Koordinaten auf Basis der Genom-Daten sind lang und ändern sich bei Aktualisierung des Genoms. Für jede Art wird nur die am häufigsten vorkommende Gen-Variante gespeichert. Anmerkung: RefSeq-Sequenzen können bei Suchen in Nukleotid- Sequenz- sowie Protein-Datenbanken auf NCBI gefunden werden 14
GenBank/RefSeq vs. TrEMBL/Swiss-Prot GenBank/RefSeq und UniProt haben eine ähnliche Bedeutung unter den biologischen Datenbanken für den gemeinen Biologen. Merke: GenBank / RefSeq enthalten sowohl Nukleotid-Sequenzen als auch Protein-Sequenzen! 15
Welche Datenbanken werden auf NCBI durchsucht? TPA (third party annotation) ist eine weitere sekundäre Datenbank auf NCBI TPA-Sequenz (gdna oder mrna) ist direkt abgeleitet oder assembliert aus Primär- Sequenz-Daten (GenBank). aus EST-Sequenzen assemblierte mrna. zuvor nicht annotierte gdna-sequenz, jetzt mit Annotierung von Introns/Exons/CDS eines neuen Gens. Problem: GenBank-Daten beinhalten nur Kommentare vom Submitter. TPA-Daten enthalten aus Literatur abgeleitete Informationen aus neuen Experimenten. Zwei Kategorien TPA:experimental Annotierung, gestützt durch experimentelle Ergebnisse. TPA:inferential Annotierung auf Basis von Rückschlüssen (Ziel-Molekül wurde nicht direkt im Experiment untersucht). 16
Gegenüberstellung Nukleotid-Sequenz-Datenbanken auf NCBI Nucleotide Alle Nukleotid-Sequenzen (gdna, cdna, mrna, ) aus INSDC, RefSeq-Einträge, Sequenzen aus der PDB. Hohe Redundanz (SNPs, verschiedene Sequenzierprojekte). Komplizierter Umgang (Segmented Sequences). Erste Generation Gene Gene aller Organismen mit RefSeq-Genom. Zweite Generation Genome Vollständige und unvollständige Genom-Sequenzen (> 1000 Arten). Dritte Generation 17
Auswahl weiterer Genomics-Datenbanken auf NCBI (nicht behandelt) BioProject: Überblick über Projekte, die Genom-Sequenzen, Genotyp/Phänotyp-Daten oder Sequenz-Variationen sammeln. Verknüpfung der Projekt-bezogenen Daten mit den Sequenz-Informationen in den Sequenz-Datenbanken. Epigenomics: Zusammenfassung von Experimenten zur Epigenetik (Histon-/DNA-Modifikationen). Vierte Generation? dbvar: Informationen über genomische Variationen (große Insertionen/Deletionen, Translokationen, Inversionen) mit Phänotyp. dbsnp: Informationen über einzelne Nukleotid-Variationen und kleine Insertionen / Deletionen (neutrale und klinische Mutationen). 18
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 19
Wie entstehen genomische Informationen? Primärdaten aus Genom-Sequenzierung Hochfragmentierte Nukleotid-Sequenzen (viele GenBank-Einträge für ein Genom). Keine Zuordnung funktionaler Einheiten (z.b. Gene) zu den Genom-Sequenz- Abschnitten. dreistufiger Prozess: Übersicht Siehe folgende Folien Sequenzierung von Genom-Abschnitten. Assemblierung der Abschnitte zum vollständigen Genom. Sequenzierung aller mrnas. Zuordnung der codierenden Bereiche zum Genom. Annotierung von Genom-Abschnitten mit weiteren Informationen (z.b. Kreuz-Referenzen zu Protein-Datenbanken für Gene). Assembly Alignment Annotation 20
Wie entstehen genomische Informationen? Assembly Whole Genome Shotgun Methode Erstmalig 1979 (Genome mit 4k-7kbp). Seit 1995 auf Basis von zufällig generierten Genom-Fragmenten. Die Fragmente werden selektiert nach Größe (2, 10, 50, 150 kbp), in einen Vektor kloniert und von beiden Enden aus sequenziert (chain termination sequencing). Die zwei resultierenden, kurzen Reads (500-1000bp) heißen mate pairs. Aufgrund von Überlappungen, kann das Genom rekonstruiert werden. Diese Art der Sequenzierung ist mit ursächlich für die Redundanz in den Nukleotidsequenz-Datenbanken 21
Assembly Wie entstehen genomische Informationen? Rekonstruktion des Genoms Überlappende Sequenzen werden zu Contigs assembliert. Diese werden zu Scaffolds verknüpft, indem Verbindungen zwischen mate pairs (Abstand ist bekannt) berücksichtigt werden. Die Scaffolds enthalten Gaps, welche durch zusätzliche Sequenzierprojekte geschlossen werden müssen. Genom-Daten werden daher stetig aktualisiert (siehe Assembly-Version). Probleme gibt es bei größeren Genomen, auch wegen repetitiver Sequenzen. Zuordnungshilfen liefern Restriktions- Fingerprints und Hybridisierung mit STS- Sequenzen. STS (sequence tagged sites) = kurze (200-500bp) einmalig im Genom vorkommende Sequenzen. Sie definieren eine spezifische Position in der physikalischen Genom-Karte. 22 Btw: STS-Sequenzen können mit der UniSTS Datenbank auf NCBI gesucht werden
Wie entstehen genomische Informationen? Alignment Identifikation codierender Sequenzen (Gene) Mapping von EST-Sequenzen zum Genom Aus mrna-gesamtheit eines Organismus entsteht cdna-bibliothek mit EST- (expressed sequence tags) Sequenzen. Diese wird über Alignments einzelnen Genom-Regionen zugeordnet. So ermittelte ORFs sind experimentell abgesichert. Finden von ORFs über Homologie-Suchen Potentieller ORF dient für BLAST-Suchen in Datenbanken. Zuordnung anhand orthologer Gen-Cluster (COG, UniGene, ). Vorhersage von ORFs Basis ist das Codon-Usage Muster, das nur in Exons konserviert ist. 23
Annotation Wie entstehen genomische Informationen? Zuordnung von Funktionen zu Genom-Abschnitten Sequenz-Annotierung mit Funktionen und Eigenschaften, die stetig in verschiedenen Laboren neu beschrieben werden. Annotierung wird mit Protein-/mRNA-Metadaten anderer Datenbanken abgeglichen. Annotierung bezüglich Genomik: funktionelle Regionen wie Promotoren, Operatoren, Enhancer-Elemente müssen gefunden und annotiert werden. 24
Wie entstehen genomische Informationen? Zusammenfassung des AAA-Prozesses: Assembly Alignment Annotation Zusammensetzen der Nukleinsäure-Sequenzen zum Genom. Zuordnung von Genen zur Genom-Sequenz. Kommentierung einzelner Genom-Abschnitte (Funktionsbeschreibung). 25
Genome Reference Consortium (GRC) Wer bewerkstelligt den AAA-Prozess? Alle Wissenschaftler der gesamten Welt! Offizielle, aktuelle Version: Das Referenzgenom. GRC ist für die Veröffentlichung des RG für Mensch und Maus verantwortlich. Auf der Homepage wird dargestellt, woran gerade gearbeitet wird. Es werden falsch repräsentierte Gen-Loki korrigiert und Lücken im Genom geschlossen. 26
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 27
Entrez Nucleotide Sequenz-Daten stammen aus GenBank, RefSeq, TPA und PDB. Betrachtung von flat-file Formaten, hauptsächlich Sequenz-Rohdaten (GenBank,FASTA). Wähle Nucleotide im drop down Menü. 28
Entrez Nucleotide Du suchst Nukleotid-Sequenzen, die mit dem Hexokinase-1 Mäuse-Gen zutun haben? Suchanfrage: Hk-1 AND Homo Sapiens"[Organism] Was wird in Entrez Nucleotide gefunden? mrna-sequenzen (Transkriptvarianten; partiell oder vollständig) Teile von Genom-Sequenzen (Contigs, Assemblies, whole genome shotgun sequence) Merke: Gene und vollständige Genome sind meist Resultate von komplexen Assemblierungs-Prozessen der Primärdaten! Suche mit Hk-1[Gene] oder Hexokinase[Protein] bringt nur mrna-sequenzen. Warum? Bei Genom-Daten fehlt scheinbar entsprechende Annotierung. 29
Entrez Nucleotide Anzeige-Format der Ergebnis-Übersicht. Hier: Summary-Format. Viele Einstellungen lassen sich ändern. Verfeinern der Suche durch Filter (bleibt für nachfolgende Suchen erhalten!) Wähle das Anzeigeformat des Eintrags oder zeige verwandte Sequenzen an. Zeigt verknüpfte Daten aus anderen NCBI-Datenbanken (z.b. passende Protein-Sequenzen). Für alle im Suchergebnis gelisteten oder alle markierten Einträge. 30
Entrez Nucleotide GenBank-Format Verschiedene Anzeige-Formate wählbar Direkt speichern Zu den verschiedenen sections im flat file springen Die Datei gliedert sich in 4 sections. locus section reference section 31
Entrez Nucleotide GenBank-Format Locus Record = Erste Zeile locus section Records definieren die Informationen innerhalb der entsprechenden Zeile. Sie ermöglichen spezifische Suchanfragen über Felder. LOCUS Record = eindeutig für jeden GenBank-Eintrag; nicht unveränderbar. Enthält: Die Anzahl der Basenpaare. Den Molekültyp (hier: mrna) und Struktur (zirkulär oder linear). Das Datum der letzten Modifizierung des Eintrags. 32
Entrez Nucleotide GenBank-Format reference section Verweise zur Literatur, die für die Sequenz-Bestimmung relevant ist: Author Titel Journal PubMed ID 33
Features section Entrez Nucleotide GenBank-Format Die Links markieren den entsprechenden Sequenz-Abschnitt in der sequence section (z.b. die codierende Sequenz (188-3025), bei Klick auf CDS). In der auftauchenden Leiste kann dann der Sequenz- Ausschnitt separat angezeigt werden (z.b. FASTA- Format) Merke: Dieser Bereich annotiert einzelne Sequenz-Abschnitte des Eintrags! Ähnlich: UniProt sequence annotation table Die Links führen zu Entrez Protein bzw. zur ENZYME Datenbank auf ExPASy; => Kreuz-Referenzen zu externen DBs 34
Entrez Nucleotide GenBank-Format Sequence section Jede Zeile enthält 60 Basen, beginnend mit der laufenden Nummerierung. Ungeeignet für Sequenz-Tools. Konvertierung in FASTA notwendig! Bei Klick auf Feature in features section wird Sequenz-Abschnitt hier hervorgehoben. CDS: 188-3025 35
Features section Entrez Nucleotide Features für ein prokaryotisches Gen in einem GenBank-Eintrag (1) source: Ursprung des Sequenz-Abschnitts (z.b. Klonierungsvektor und Host-Sequenz). (2) promotor: Koordinaten der Promotor-Elemente (z.b. -35 Region und -10 Region). (3) misc feature: Putativer Bereich des Transkriptionsstarts. (4) RBS: Position der ribosomalen Bindestelle. (5) CDS: Bereich der codierenden Sequenz (offener Leserahmen). (1) Erste Zeile: Koordinaten des ORF (von ATG bis zum Stopp-Codon). (2) Folgende Zeilen: Namen des Protein-Produkts, Gen-Sequenz, IDs für die Protein-Sequenz. (3) Letzter Bereich: AS-Sequenz des codierenden Segments. (6) misc feature: putative Stamm-Loop-Strukturen und Repeats als regulatorische Elemente. Achtung: GenBank Einträge beinhalten oft mehr als ein Gen! Das erkennt man durch mehrere RBS- und CDS-Features. Einzelne Gene lassen sich aber über die Verlinkung anzeigen. Tipp: Suche in Entrez Nucleotide nach Sequenzen mit bestimmten Feature-Key möglich, z.b. promoter[feature key] 36
Features section Entrez Nucleotide Features für eine eukaryotische mrna in einem GenBank-Eintrag Reife mrna, Beispiel: U90223 (1) sig peptide: Bereich einer Targeting-Sequenz (sig=signal) (2) mat peptide: Bereich des reifen Peptids (mat=mature) 37
locus section Entrez Nucleotide GenBank-Eintrag für ein eukaryotisches Gen Gen, wie es im Genom vorliegt; Beispiel: AF018430 Der Record SEGMENT bezieht sich auf die Intron/Exon-Struktur eukaryotischer Gene. 2 of 4 = Der Eintrag entspricht dem zweiten Segment von vier. Es werden alle Segmente zur Rekonstruktion der mrna benötigt! Ein Segment kann mehrere Exons enthalten! Tipp: Klicke auf 4 um alle Segmente in einer Ansicht anzuzeigen! Warum gibt es segmented sequences? Introns sind oft sehr lang, weshalb ein eukaryotisches Gen selten vollständig sequenziert wird. 38
Features section Entrez Nucleotide GenBank-Eintrag für ein eukaryotisches Gen (1) source/map: Lokalisation des Gens im Chromosomen. (2) gene: Rezept für Rekonstruktion der mrna (Exon-Spleiß-Rezept). GenBank-Eintrag ID von Nukleotid bis Nukleotid Nukleotid-Intervall aus aktuellem GenBank-Eintrag (3) mrna: Verschiedene alternative Spleißvarianten (Rekonstruktion wie bei gene-record). (4) exon: Position der Exons mit laufender Nummer. 39
Entrez Nucleotide GenBank-Eintrag für ein eukaryotisches Gen GenBank-Eintrag ID von Nukleotid bis Nukleotid Nukleotid-Intervall aus aktuellem GenBank-Eintrag Mitochondrial-lokalisierte Variante Exon 2 beginnt an einer späteren Position (alternative Akzeptor-Stelle) Kern-lokalisierte Variante Exon 1 wurde übersprungen (Exon Skipping) 40
Andere Sequenz-Formate: FASTA und RAW FASTA-Format Erste Zeile (definition line) = Kommentarzeile, beginnt mit >. Es folgt die Sequenz in Großbuchstaben. mfasta-format Mehrere Sequenzen werden über die definition lines getrennt. Standard Input-Format für Sequenz-Analyse-Tools. RAW-Format FASTA-Sequenz ohne erste Zeile. Von einigen Tools gefordert, die mit nur einer Sequenz arbeiten. Graphics-Format Öffnet den Sequence-Viewer auf NCBI. (siehe später) 41
Entrez Nucleotide Kreuz-Referenzen Hier kann ein bestimmter Abschnitt der Sequenz angezeigt werden (oder Klick auf die Links). Artikel in PubMed zur ausgewählten Sequenz. RefSeq-Einträge für Transkriptionsvarianten in Entrez Nucleotide und Eintrag Proteine in in Entrez Gene. Protein Eintrag in HomoloGene. Querverlinkungen zu NCBI-externen Ressourcen (z.b. sirnas, Antikörper etc.)! Querverlinkungen zu allen NCBI-internen Ressourcen (z.b. Proteinsequenz)! 42
Annotierung und der Erfolg einer Datenbank-Suche Unvollständige Annotierung ist sehr häufig! Konsequenz: Auf Keywords basierende DB-Suchen ergeben nicht alle relevanten Ergebnisse. Auch Kreuz-Referenzen fehlen dann, sodass man auch über andere Datenbanken nicht über Quer-Verlinkungen zum Ziel kommt. Merke: Jede Suche kann nur dann erfolgreich sein, wenn die gesuchten Daten annotiert sind. Tipp: Versuche verschiedene Suchanfragen und verwende verschiedene Felder. Man kann sich jedoch nie sicher sein, dass die gesuchten Daten wirklich nicht existieren. 43
Entrez Nucleotide Tipps zur Suche Suchen in verschiedenen Feldern liefern unterschiedliche Ergebnisse. Problem: unterschiedliche Annotierung der Einträge. human [organism] AND dutpase [protein name] 5 Ergebnisse human [organism] AND dutp pyrophosphatase [protein name] 13 Ergebnisse (0 der 5 von oben) human [organism] AND dutp pyrophosphatase [Title] 11 Ergebnisse Tipp: Für Proteine und org. Verbindungen gibt es immer mehrere Bezeichnungen! Vergleiche die Anzahl der Ergebnisse! 44
Entrez Nucleotide Tipps zur Suche Accession-Numbers meist in Publikation aufgeführt. Verwandte Sequenzen anzeigen: all links from this record/related Sequences. Ergebnisse auf einen Organismus einschränken: Top Organism Tree. 45
Entrez Nucleotide Tipps zur Suche Über Limits Suche einschränken. Hilfreich bei vielen segmented sequences: show only master of set Molekültyp (gdna, mrna ) Soruce Database: RefSeq. Tipp: Die hohe Redundanz in Entrez Protein oder Entrez Nucleotide lässt sich durch Filter RefSeq beheben! 46
NCBI-Datenbanken: dbest, dbgss Entrez Nucleotide findet auch EST- und GSS-Sequenzen. Sie werden standardmäßig ausgeblendet. EST/GSS können separat in den Datenbanken dbest/dbgss abgefragt werden. GSS (Genome Survey Sequences) ähneln den EST-Sequenzen. Sie haben jedoch genomischen Ursprung (keine mrna). 47
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 48
Entrez Gene Gene-Einträge basieren hauptsächlich auf vollständigen, annotierten RefSeq-Genomen. Minimale Voraussetzung für einen Eintrag: Sequenz-Information, Position im Genom oder Nomenklatur. Wähle Gene im drop down Menü. 49
Entrez Gene Jeder Eintrag repräsentiert ein einzelnes Gen eines gegebenen Organismus. Jedes Gen hat eine eindeutige GeneID. Verschiedene Quell-Datenbanken liefern weitere Informationen zu den Genen. Informationen über homologe Gene. Informationen über Expression, Struktur und Funktion von Transkripten. Literaturverweise. GeneRif, Gene Reference Into Functions = jeder kann eine GeneID annotieren. Aktualisierung täglich: Wenn Genom-Daten der RefSeq-Einträge aktualisiert werden. Wenn Informationen aus Quell-Datenbanken geändert werden. Zielsetzung: Ansicht von Genom-Daten auf Gen-Ebene Gen-bezogene Daten machen mehr Sinn als eine lange Liste von GenBank-Einträgen, die erst im Geiste zusammengesetzt oder auseinandergenommen werden müssen. 50
Entrez Gene Ergebnisse filtern Current Only zeigt nur aktuelle Gene. In einigen Fällen werden Einträge nicht weitergeführt, ersetzt oder zurückgezogen. Die alten Versionen bleiben aber erhalten. Genes Genomes zeigt nur Gene mit bekanntem genomischen Kontext. SNP Gene View zeigt nur Gene, für die SNPs beschrieben sind. Veraltete Einträge Aktueller Eintrag Suchanfrage: Hexokinase[Protein] AND "Mus musculus"[organism] 51
Entrez Gene Format: Summary Offizielle Gen-Abkürzung Quell-Organismus Voller Name des Gens Alternative Gen- Bezeichnungen Eindeutige Referenznummer in Entrez Gene Exakte Lokalisation des Gens im Genom (Annotierung) 52
Protein-Bezeichnung Entrez Gene Format: Full Report Gene-ID Gen-Symbol, definiert durch HGNC Human Genome Organisation (HUGO) Gene Nomenclature Committee 53
Entrez Gene Kreuz-Referenzen Format: Full Report SNP: Liste aller Punktmutationen des Gens. Protein: Liste aller Protein-Sequenzen, die mit diesem Gen assoziiert sind (Entrez Protein). Nucleotide: Liste aller Nukleotid-Sequenzen, die mit diesem Gen assoziiert sind (Entrez Nucleotide). HomoloGene: fasst homologe Gene-Einträge in einen HomoloGene-Eintrag zusammen. KEGG: Eintrag in KEGG Enzyme mit Verlinkung zu Stoffwechsel-Karten. Verlinkungen innerhalb des Gene-Eintrags. Kreuz-Referenzen innerhalb von NCBI für diesen Gene-Eintrag. Kreuz-Referenzen zu NCBIexternen Ressourcen. 54
Entrez Gene Format: Full Report Link zur Quell-Datenbank Link zum Taxonomie-Browser Link zum entsprechenden Eintrag in der Ensembl-Datenbank 55
Entrez Gene Format: Full Report Genomischer Kontext: Verlinkungen zu benachbarten Genen Link zum Epigenomics-Viewer Link zum Map-Viewer Grenze des gezeigten Genom-Abschnitts Gen des ausgewählten Gene-Eintrags (rot) benachbarte Gene (grau, verlinkt zum Gene-Eintrag) 56
Entrez Gene Sequence Viewer Implementierung in der Ansicht Full Report des Gene-Eintrags Auswahl verschiedener Genom-Sequenzen Springt zur Liste der RefSeq-Einträge für die Gen-Sequenz (mrnas, Proteine, Genome) Startet Sequence Viewer in separatem Fenster. (siehe später) Zeigt Gen-Sequenz in Entrez Nucleotide an Genomischer Kontext: Verlinkungen zu benachbarten Genen, Transkripten und Proteinen. grün: DNA blau: alternative Spleißvarianten (mrna) rot: Isoformen (Protein) über Rechtsklick lassen sich alle Sequenzen direkt anzeigen! 57
Entrez Gene Related Sequences Alle assoziierten GenBank/GenPept-Einträge. Genomische DNA mrna Protein Merke: Entrez Gene verbindet Entrez Nucleotide, Entrez Genome, Entrez Protein und PubMed (GeneRif). Gen bekannt? Entrez Gene ist ein guter Startpunkt einer Suche nach DNA/mRNA/Protein-Sequenzen Alternativ: Entrez Nucleotide bzw. Entrez Protein mit Filter RefSeq 58
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 59
HomoloGene System zur automatischen Detektion homologer Gene. Protein-Sequenzen werden mittels BlastP verglichen. Entsprechend der Ähnlichkeit der Proteine werden zugeordnete Gene geclustert. Grundlage sind annotierte Gene vollständig sequenzierter eukaryotischer Genome. Suche über Limits: Look only for/human disease genes. Gen-Cluster sind Organismus-übergreifend und einfach zu durchsuchen: Suche nach cdk7 liefert nur 4 Ergebnisse. 60
HomoloGene Jeder Eintrag enthält einen Satz homologer Gene verschiedener Organismen sowie ihrer Genprodukte mit Links zu den konservierten Domänen (CDD). Verlinkung zur CD Database Verlinkung zu Entrez Gene Verlinkung zu Entrez Protein 61
HomoloGene Informationen zum Phänotyp werden aus Organismus-spezifischen Datenbanken (MODs) entnommen. Verlinkung zu OMIM (Online Mendelian Inheritance in Man). OMIM enthält Artikel über humane Gene, die mit Erkrankungen assoziiert sind. 62
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 63
UniGene Eine Datenbank für das Transkriptom von Organismen. Ein Eintrag enthält alle Transkript-Sequenzen desselben Transkriptionslokus (Gen/Pseudogen) eines Organismus. mrna-sequenzen EST-Sequenzen cdna-klone Außerdem enthalten UniGene-Einträge: Berechnete Protein-Ähnlichkeiten (PROTSIM). Informationen zur Gen-Expression (EST-Profile, GEO-Profile) Genomische Lokalisation (Mapping-Position: UniSTS-Einträge). 64
EST-Profile Gen-Expressionsmuster, abhängig von Zelltyp, Krankheit, Entwicklungszustand. EST-Profile werden nur grob berechnet. Grundlage sind EST-Zählungen und cdna-quellen (Berichte von Submitter). Indiz für Genaktivität, kein Beweis! Nur zur Abschätzung! 65
GEO-Profile GEO (Gene Expression Omnibus) Profile enthalten Genexpressionsmuster auf Basis experimenteller Daten. Wesentlich aussagekräftiger als EST-Profile. GeoDataset: kuratierte Sammlung von Expressionsmustern mehrerer Gene. GeoProfile: besteht aus Expressions-Messungen für ein Gen innerhalb eines Datasets. GEO-Profil: Expressionsmuster eines Gens in Abhängigkeit des Zelltyps und Krankheitsstatus GEO-Dataset: mechanical strain effect on fetal lung type II epithelial cells, rattus norvegicus Zugeordnet sind etwa 16k GEO-Profile. 66
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 67
Entrez Genome Genome-Einträge repräsentieren einen Organismus, keine Individuen. >6200 Einträge. Entrez-Genome findet alle bekannten Genome (RefSeq-Genome und INSDC-Genome). Chromosomen Organellen Plasmide Scaffolds Contigs Wähle Genome im drop down Menü. 68
Entrez Genome Browse by organism Liste aller Genome, sortiert nach den Kategorien Eukaryot, Prokaryot und Virus. Übersicht: Anzahl Chromosomen/Organellen/Plasmide/Gene/Proteine. Status: Verlinkung zum BioProject-Eintrag. Verlinkung zu RefSeq- und INSDC-Genom-Sequenzen (Entrez Nucleotide). Liste filtern nach Taxonomie 69
Registerkarte: Overview Entrez Genome Beispiel-Eintrag: Escherichia Coli Liste der Genome (Chromosomen und Plasmide) aller Substrains. Übersicht über den Status der Assemblierung aller Einträge. Phylogenetischer Baum der Substrains. Übersicht aller BioProject-Einträge. 70
Registerkarte: Genomes Entrez Genome Beispiel-Eintrag: Escherichia Coli Ansicht: Genome Summary Kreuz-Referenzen zum BioProject-Eintrag Tipp: Um das Genom im Sequence-Vier anzuzeigen, folge dem RefSeq oder INSDC-Link und wechsle vom GenBank- Format zum Graphics-Format Ansicht: Sequence Information Genom-Größe, GC-Gehalt, Anzahl Gene/rRNA/tRNA/Pseudogene/Proteine Kreuz-Referenzen zum GenBank-Eintrag 71
Registerkarte: Overview Entrez Genome Beispiel-Eintrag: Homo Sapiens Liste der Genome (Chromosomen und Organellen). Ansicht der Chromosomen, Verlinkung zum MAP-Viewer Übersicht: Aktuelles Assembly (Referenz-Genom von GRC) Übersicht: Mitochondriales Genom 72
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 73
Map Viewer Was sind Maps? Map-Viewer ermöglicht Gegenüberstellung verschiedener Maps für dieselben Chromosomen oder Chromosomen verschiedener Organismen. Maps = physikalische und genetische Karten. Für jeden Datenbankeintrag gibt es unterschiedliche Maps, basierend auf den Gen- und Genom-Daten. 74
Map Viewer Maps: Beispiele Contig Map Contig = Satz überlappender DNA-Stücke einer genetischen Quelle. Zwischen Contigs liegen gaps (unbekannte Sequenz-Abschnitte). Die Contig Map zeigt wo sich noch Lücken im Genom befinden. 75
Map Viewer Maps: Beispiele Gene Sequence Map Alignment von mrnas zu den Contigs + Gen-Prognosen. putative Gene / Genloki. Qualität des Alignments durch Farbe angedeutet (hellblau: optimal). Gene aus RefSeq- und GenBank-Daten im genomischen Kontext. Gene auf der rechten Seite werden in (+)-Richtung, Gene auf der linken Seite in ( )-Richtung transkribiert. 76
Wie komme ich zum Map Viewer? Map Viewer Verlinkung aus Genome-Startseite Kreuz-Referenzen aus Entrez Gene und Genome 77
Map Viewer NCBI Map Viewer Startseite Wähle hier den Organismus Eingabe des Suchbegriffs Suchbegriffe können sein: Gen-Bezeichnung GenBank AN Proteine, Transkripte Chromosomale bp-abschnitte Tipp: willst du eine Region des Genoms zwischen zwei Loci anzeigen, benutze als Operator OR. 78
Suchausgabe über Map-Viewer Homepage Loki der gefundenen Elemente Filterung der Ergebnisse nach Chromosom Filterung der Ergebnisse nach Element-Typ (z.b. nur Gene) Assembly = Genom- Version Zur Map-Viewer Ansicht Element-Typ (Gen, Transkript ) Art der hinterlegten Map 79
Der Map-Viewer Schneller Wechsel zu anderem Chromosom Gen am Anfang und am Ende des markierten Genom-Abschnitts Map schließen oder als Master-Map wählen Hilfe-Seite über diese Map 4 verschiedene Maps Rechts: Master-Map Transkriptions-Richtung des vorangehenden Gens Kreuz-Referenzen zum entsprechenden Gen 80
Der Map-Viewer Links-Klick Menü auf Gen-Lokus Verlinkung zum Sequence Viewer 64x Vergrößerung => Gen-Loki werden sichtbar 81
Map Viewer Maps & Options Map Viewer Einstellungen Maps können über Maps & Options beliebig angeordnet, hinzugefügt oder entfernt werden. Es lassen sich für Vergleiche Maps anderer Organismen anzeigen. Zur Verfügung stehende Maps für das Genom von Homo Sapiens 82
Map Viewer Master Maps Master-Map befindet sich immer rechts (Map-Titel rot markiert). Rechts neben der Master-Map werden Mapspezifische Funktionen eingeblendet. Zur Master-Map machen Gene-Map als Master-Map: Gene werden angezeigt viele Kreuz-Referenzen zu den Genen OMIM: Online Mendelian Inheritance in Man sv: Sequence Viewer pr: Entrez Protein hm: HomoloGene Aktuelle Master-Map 83
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 84
Wie komme ich zum Sequence Viewer? Sequence Viewer Verlinkung aus dem Map-Viewer Kreuz-Referenzen aus Entrez Nucleotide und Gene 85
Sequence Viewer Benutzeroberfläche Der gewählte Ausschnitt des Chromosoms wird unten angezeigt. Übersichts -Element Grün: Gene (Introns schmal, Exons breit) Graphisches Element 86
Sequence Viewer Navigation Ansicht rechts/links verschieben und zoomen Zu bestimmter Position springen oder Element (Gen/Protein) suchen 87
Sequence Viewer Optionen zur Ansicht Registerkarte Options zeigt mehrere Einstellungen zur Ansicht Show All zeigt Transkripte, Proteine und konservierte Domänen 88
Sequence Viewer Optionen zur Ansicht Gene (grün) Transkripte (blau) Proteine (rot) Konservierte Domänen (schwarz) 89
Sequence Viewer Zur Sequenz Vollständige FASTA- oder GenBank-Sequenz anzeigen (Achtung: Dateigröße!) Zeigt gewählten Sequenz-Ausschnitt an. 90
Sequence Viewer Optionen zur Anzeige Rechts-Klick-Menü Vergrößert Ausschnitt, bis zur Größe des Gens. Zeigt FASTA-Sequenz des ausgewählten Gens Mouse-over-Menü 91
Sequence Viewer Optionen zur Anzeige Es können zwei graphische Elemente separat betrachtet werden 92
Beispiel einer Sequenz aus Homo Sapiens Anzeige weiterer Spuren: SNPs, klinische Mutationen, Rekombinationsraten 93
Gliederung Überblick: Nukleotid-Sequenz Datenbanken Hintergrund: Wie entstehen Genom-Daten? Entrez Nucleotide Entrez Gene Homologe Gene: HomoloGene Transkriptome: UniGene Entrez Genome Map-Viewer Sequence Viewer Gene Ontology 94
GO Gene Ontology Hierarchisch aufgebautes Vokabular auf drei Ontologie-Ebenen: Ontologie-Ebene assoziierte Begriffe Beispiel: Cytochrom c Molekülfunktion biologischer Prozess zelluläre Komponente oxidoreductase activity oxidative phosphorylation, induction of cell death mitochondrial matrix, mitochondrial inner membrane GO-Terms ermöglichen eine bessere Suche zwischen Genprodukten derselben Ontologie. 95
GO Gene Ontology Suchanfrage auf der GO- Homepage mittels Gen- Kürze, Protein-Bezeichnung oder GO-Terms. Suche nach GO-Terms, um in anderen Datenbanken, alle mit diesem Term assoziierten Gene anzuzeigen! 96