Folien und Supplementals auf

Ähnliche Dokumente
Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Softwarewerkzeuge der. Bioinformatik

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Protein-Datenbanken. Protein- Datenbanken. Christian Fink

Molekularbiologische Datenbanken

Biowissenschaftlich recherchieren

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.

Gleichheit, Ähnlichkeit, Homologie

Die wichtigsten Bioinformatikdatenbanken. SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

BCDS Seminar. Protein Tools

Comperative Protein Structure Modelling of Genes and Genomes

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Kleiner Führerschein für Datenbanken und ein Programm zur 3D-Visualisierung

Primärstruktur. Wintersemester 2011/12. Peter Güntert

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

Vertiefendes Seminar zur Vorlesung Biochemie

Klausur Bioinformatik für Biotechnologen

Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie

Bioinformatik II: Phylogenetik

Vertiefendes Seminar zur Vorlesung Biochemie I Bearbeitung Übungsblatt 4

Threading - Algorithmen

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Datenbanken in der Molekularbiologie

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

Datenbanken in der Molekularbiologie

Modell Bahn Verwaltung. Tutorial. Links. Min. Programm Version 0.65, März w w w. r f n e t. c h 1 / 11

Eine Detailsuche in der Cochrane Library

Übungen zur Vorlesung Molekularbiologische Datenbanken. Lösungsblatt 1: Datenbanksuche

RIS-ABFRAGEHANDBUCH AMTLICHE VETERINÄRNACHRICHTEN DES BM FÜR GESUNDHEIT UND FRAUEN

DATENQUALITÄT IN GENOMDATENBANKEN

Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger


BIOINFORMATIK I ÜBUNGEN.

Einführung in die Bioinformatik

Seiten und Navigationspunkte

GPilotS Dokumentation Version 5

Bioinformatik I (Einführung)

Tiscover CMS 7. Neuerungen im Vergleich zu Tiscover CMS 6

Erste Schritte in etab

Algorithmische Anwendungen WS 2005/2006

Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks. Samira Jaeger

Kontakte. Inhaltsverzeichnis

SVG Maut Exact. SVG Wir bewegen Logistik

RIS-ABFRAGEHANDBUCH REGIERUNGSVORLAGEN

Microsoft Access Arbeiten mit Tabellen. Anja Aue

Folien und Supplementals auf

XML-Translation Engine

Kapitel 5: Protein-Datendanken

Einführung in die Bioinformatik

T:\Dokumentationen\Asseco_BERIT\Schulung\BERIT_LIDS7_Basiskurs\Impo rt_export\beritde_lt_do_ _lids7.basisschulung_import_export.

Bioinformatik für Lebenswissenschaftler

Inhalt. Seite 2 von 10

Optimalcodierung. Thema: Optimalcodierung. Ziele

Excel Grundlagen. Sabine Spieß, Peter Wies. 1. Ausgabe, 7. Aktualisierung, Juli Trainermedienpaket EX2010_TMP

Inhalt. Seite 2 von 11

Microsoft Access Abfragen: Informationen anzeigen und sortieren

Excel 2016 Pivot Tabellen und Filter Daten professionell auswerten

Einführung in die Bioinformatik: Lernen mit Kernen

[wird Ihnen von Administrator/in oder Moderator/in zugewiesen]

BreakerVisu External Profiles Assistant

Excel Grundlagen. Sabine Spieß, Peter Wies. 1. Ausgabe, September Trainermedienpaket EX2013_TMP

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA

Datenbanken für Online Untersuchungen

ER-Modell, Normalisierung

Anleitung online Findsystem des Staatsarchivs Graubünden

Handy-Synchronisation Inhalt

Einführung in die Bioinformatik

Inhaltsverzeichnis WORTKOMBINATIONEN... 1

JLR EPC. Kurzanleitung. Inhalt. German Version 2.0. Schritt-für-Schritt-Anleitung Erläuterung der Menüfunktionen

Folien und Supplementals auf.

Handhabung der tabellarischen Übersichten in MAXQDA

Online Suchsystem Guide

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science

Vorhersage von Protein-Funktionen. Patrick Pfeffer

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

Wie nutzt man die Jobsuche am effektivsten?

RIS-ABFRAGEHANDBUCH ERLÄSSE DER BUNDESMINISTERIEN

Access für Windows. Andrea Weikert 1. Ausgabe, 4. Aktualisierung, Juni Grundlagen für Anwender

RIS-ABFRAGEHANDBUCH LANDESGESETZBLATT NICHT AUTHENTISCH (OHNE NÖ UND WIEN)

Protein Data Bank Tutorial

JIRA für CoDeSys - Erste Schritte

Bioinformatik I (Einführung)

C SB. Genomics Herausforderungen und Chancen. Genomics. Genomic data. Prinzipien dominieren über Detail-Fluten. in 10 Minuten!

Im Programm navigieren Daten bearbeiten Daten erfassen Fließtext erfassen Daten ändern Daten ansehen...

Hornetsecurity Outlook-Add-In

Bioinformatik Für Biophysiker

Advertizor Version 1.1 Formatbeschreibung der Import-Schnittstellen

Tags filtern im Eigenschaften-Panel

Applied Bioinformatics.

Im Original veränderbare Word-Dateien

B enutzergruppenverwaltung (K unden des Automobil-P ortals )

Schnellstartanleitung

- Nachrichten organisieren

Bezeichnung bestimmen, mit der Domänen in Google erscheinen

KURZANLEITUNG FÜR DAS BIOMASSELOGISTIK-WIKI BIO:LOGIC

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

Transkript:

Folien und Supplementals auf www.biokemika.de

Folien und Supplementals auf www.biokemika.de

Motivation Die Link-Liste auf ExPASy bietet eine gute Übersicht man verliert sich aber leicht. Es gibt viele spezifische Datenbanken, aber mit einer geringen Auswahl an Datenbanken von allgemeiner Bedeutung kommt man schon sehr weit. Diese sollen hier besprochen werden. Zielsetzung Für verschiedene Datenbanken von allgemeiner Bedeutung soll angerissen werden: Übersicht über Datenbestand: Ursprung, Relevanz, Vollständigkeit? Wie stelle ich eine korrekte Suchanfrage? Welche zusätzlichen Funktionen bietet die Datenbank? Allgemeine Konzepte und Probleme der angewandten Bioinformatik in Zusammenhang mit Datenbanken: Einblick in die Sortierung und Klassifizierung von Daten. Einblick in das Daten-Sharing zwischen Datenbanken. Weitere Probleme der Bioinformatik: Redundanz, Kontrolle/Überprüfung der Daten

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

UniProt Universal Protein Resource UniProt enthält Protein-Sequenzen und erläuternde funktionelle Informationen. Es handelt sich um die größte und bekannteste bioinformatische Datenbank für Proteine. Das UniProt Consortium besteht aus der Kollaboration zwischen EBI, SIB (Entwickler von ExPASy) und PIR (Protein Information Resource; Erbe der ältesten Protein-Sequenz-DB). Der relevante Teil von UniProt ist die UniProt Knowledgebase (UniProtKB). Sie gliedert sich in UniProtKB/SwissProt und UniProtKB/TrEMBL. UniRef (UniProt Reference Clusters) verbindet automatisch Sequenzen innerhalb einer Spezies und basiert auf den UniProtKB-Einträgen. UniRef100 verbindet alle Einträge mit Sequenz- Identität (UniRef90 verbindet Einträge mit über 90% Sequenz-Identität). Folgende Folien Keine redundanten Verknüpfungen von Sequenzen. Kombinierung zu einem Dateneintrag (erleichterte Suche).

UniProt Universal Protein Resource UniProtKB/Swiss-Prot Enthält Daten mit sehr hoher Qualität: keine Redundanz, manuelle Kommentierung. UniProt-Kuratoren beziehen ihre Informationen aus der Literatur. Ziel ist es alle bekannten Informationen zu einem Protein zentral zugänglich zu machen. Ein Eintrag beinhaltet u.a. alle Protein- Produkte desselben Gens (alternatives Spleißen, Polymorphismen, post-translationale Modifikationen) sowie alle Gene, die zum selben Genprodukt führen; jeweils von einem spezifischen Organismus. Die Klassifizierung in Proteinfamilien wird regelmäßig überprüft (Aktualität).

UniProt Universal Protein Resource UniProtKB/TrEMBL Enthält automatisch kommentierte und klassifizierte Daten. Die Einträge werden nach und nach in die UniProtKB/Swiss-Prot integriert und für die manuelle Kommentierung ausgewählt. Die Rohdaten Die Sequenz-Informationen erhält UniProtKB letztlich u.a. aus Übersetzungen von codierenden Nukleotid-Sequenzen aus DDBJ/EMBL- Bank/GenBank. Sequenzen aus den PDB-Strukturen. FlyBase & WormBase. Direkt aus der Literatur.

UniProt Universal Protein Resource UniParc Die Rohdaten landen zuerst in UniParc. Einige Sequenzen (kleine Fragmente, synthetische Sequenzen etc.) gelangen nicht in die UniProtKB. UniParc beinhaltet alle öffentlich verfügbaren Protein-Sequenz-Daten! Jeder Eintrag hat eine UniParc ID. Es wird regelmäßig überprüft, sodass wichtige Daten in UniProtKB aufgenommen werden.

UniProt Universal Protein Resource Swiss-Prot These days, Swiss-Prot has troubles coping with the present rate of new (nucleotide) sequence determination and is falling behind in terms of Completeness Bioinformatics for Dummies, p. 106 TrEMBL Datenflut ist nicht aufzuhalten! Manuelle Annotierung nahezu unmöglich

UniProt Universal Protein Resource Wie weit sind wir von einem vollständigen Datensatz entfernt?

UniProt Universal Protein Resource Start-Seite von UniProt Suche über Felder möglich. Suche lässt sich stetig erweitern. Es folgt eine Beispiel-Suchanfrage: Hexokinase

UniProt Universal Protein Resource Ergebnis-Übersicht: Tabelle Sortierung nach einzelnen Spalten-Infos möglich (klicke auf Pfeile in oberster Zeile) Goldener Stern = Swiss-Prot Eintrag Silberner Stern = TrEMBL Eintrag

UniProt Universal Protein Resource Tabellen-Ansicht anpassen: Infos, die in Spalten angezeigt werden, lassen sich ändern:

UniProt Universal Protein Resource Ansicht anpassen: Statt Tabelle Kategorien-Baum. Ergebnisse lassen sich kategorisieren nach Taxonomie Keyword Gene Ontology (GO) Pathway EC-Nummer

UniProt Universal Protein Resource Ansicht anpassen: Zusammenfassen der Ergebnisse mittels UniRef. UniRef kann alle Ergebnisse mit 50%, 90% oder 100% Homologie in Cluster zusammenfassen.

UniProt Universal Protein Resource Speichern: direkt aus der Tabellenansicht Einzelne Einträge aus UniRef oder UniProtKB speichern: Häkchen setzen Direktes Alignment möglich: unten Align klicken. Speichern in verschiedenen Formaten (z.b. FASTA): unten Retrieve klicken. Alle Einträge der Tabelle speichern: klicke rechts oben auf Download.

UniProt Universal Protein Resource Wie sieht nun ein UniProt-Eintrag aus?

UniProt Universal Protein Resource Ergebnis-Seite: am Beispiel der Hexokinase-1 Ausführliche Querverweise zu zahlreichen Datenbanken (Cross References). Minimale Redundanz der Einträge: Ein Eintrag je Protein. Verschiedene Produkte (Isoformen) werden auf der Ergebnis-Seite verlinkt. Jeder Eintrag hat eine eindeutige UniProtKB ID. häufige Aktualisierung der Einträge bei Proteinen, an denen geforscht wird. Immer AN, nicht Entry Name notieren! Veraltete accession numbers bleiben mit dem Eintrag assoziiert!

ATTRIBUTES UniProt Universal Protein Resource Hier ist notiert, ob es sich um das reife Protein oder um ein Proprotein handelt COMMENTS Alle Informationen wurden aus der Literatur entnommen und dem Eintrag zugeordnet.

ONTOLOGIES UniProt Universal Protein Resource ALTERNATIVE PRODUCTS UniProtKB-Einträge, die mit diesem Protein wechselwirken. BINARY INTERACTIONS Separat werden die vollständigen Sequenzen der Isoformen angezeigt. SEQUENCES

FEATURES UniProt Universal Protein Resource

FEATURES UniProt Universal Protein Resource Molecule Processing: Signal peptide, chain Regions: topological domain, domain, transmembrane, repeat, nucleotide binding, region Sites: active site, binding site, site Aminoacid Modification: modified residue, glycosylation, disulfide bond, cross-link natural variation: alternative sequence, natural variant experimental info: mutagenesis, sequence conflict secondary structure: helix, strand, turn Die entsprechenden Feature-Keys der einzelnen Features werden in der Spalte Description in Bezug auf den vorliegenden Fall genauer definiert. Für jedes Feature kann die Sequenz analysiert werden: Setze Haken und wähle retrieve oder blast; wähle zwei Sequenzen und wähle retrieve oder align. Domain hat hier eine breitere Definition nicht vergleichbar mit den Definitionen sekundärer Datenbanken (hier existieren verschiedene Domänen!)

CROSS-REFERENCES UniProt Universal Protein Resource PubMed-Verweise sind separat angezeigt REFERENCES

UniProt Universal Protein Resource ID-Mapping bekannte ID s können über UniProt beliebig übersetzt werden. Bekannte ID wird unter Identifiers eingegeben. Eingabefeld From enthält die Art der bekannten ID. Eingabefeld To enthält die Art der gesuchten ID. Links führen zu den entsprechenden Datenbanken Cross-Referencing zwischen Datenbank-Einträgen. wichtig: IDs am Besten immer irgendwie mit speichern

UniProt Universal Protein Resource Das Flat-File Format hinter den hübsch präsentierten Informations-Seiten Orange hinterlegter Link TEXT Verwandt mit dem EMBL-Format: identischer 2-Buchstaben Code Gliederung in 5 Hauptbereiche: general information bibliographic information functional information feature table sequence part Alles Andere: graphische Aufbereitung der Daten! Hier ist auch direkt die FASTA-Sequenz erreichbar

UniProt Universal Protein Resource Viele sekundäre Datenbanken nutzen die UniProtKB Daten und katalogisieren sie nach eigenen Kriterien. Im Vordergrund stehen dabei unterschiedliche Repräsentationen (das Protein wird in einem spezifischen Kontext dargestellt). Beispiel-Datenbanken, welche die UniProtKB-Einträge nutzen: UniPathway (Kontext: Stoffwechselwege) InterPro (Kontext: Protein-Signaturen, d.h. Domänen, Familien und konservierte Stellen) ViralZone (Kontext: virale Proteine)

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

Sekundäre Datenbanken Die primäre Datenbank ist Urheber des Datenbestandes (z.b. UniProtKB). Mehrere sekundäre Datenbanken interpretieren und kategorisieren den Datenbestand aus einer primären Datenbank auf unterschiedliche Weise. Die hier gelisteten DBs verwenden die Datenbestände aus UniProtKB. Prinzipiell zwei Möglichkeiten der Klassifizierung: nach struktureller Verwandtschaft. nach Sequenz-Homologien. Suche über Schlüsselwörter oder über Sequenz möglich. Zuordnung neuer Sequenzen ist erleichtert!

PROSITE protein functional sites beheimatet auf ExPASy. Abfrage über ExPASy Prosite-WWW-Server. Klassifizierung der Proteine über Bestimmung einzelner konservierter Motive (Patterns). Motiv = kurzer Sequenzabschnitt (10-20 AS), die in verwandten Proteinen konserviert sind und meist eine Schlüsselfunktion in der Proteinfunktion einnehmen. Suche nach solchen Motiven kann in unbekannten Proteinen ein Hinweis auf die Zugehörigkeit zu einer Proteinfamilie bzw. die Funktion des Proteins liefern. Motiv wird aus multiplen Alignments abgeleitet und als regulärer Ausdruck (formalisiertes Muster zur Beschreibung einer Zeichenfolge) in der DB gespeichert. In PROSITE entspricht der reguläre Ausdruck folgendem Muster: Einzelne Aminosäure-Positionen im Ein-Buchstaben-Code, getrennt durch Bindestriche Position durch verschiedene AS besetzt: mögliche AS in eckigen Klammern angegeben. Positionen durch beliebige AS besetzt: mit x gekennzeichnet. Positionen durch beliebige AS mit Ausnahme definierter AS besetzt: nicht-mögliche AS in geschweiften Klammern angegeben. aufeinanderfolgende Wiederholungen mit der Zahl der Wiederholungen in runden Klammern angegeben: z.b. x(2) = x-x oder x(2,4) = x-x oder x-x-x oder x-x-x-x

PROSITE protein functional sites Standardmäßig sorgt ein Häkchen bei exclude patterns with a high probability of occurence dafür, dass häufige Motive nicht angezeigt werden. Suche über ID oder Sequenz möglich. Scan Prosite ermöglicht mehrere Optionen bei der Durchführung des Prosite- Scans. Eingabe der UniProtKB ID oder Sequenz

PROSITE protein functional sites Beispiel der functional site N-myristoylation site Ergebnisseite enthält zu jedem gefundenem Motiv einen Accession-Number-Link zur Beschreibungsseite (ID beginnt mit PDOC) Beschreibungsseite enthält Infos zur biologischen Bedeutung und Funktion der functional site sowie das genaue Muster! Beachte: Warnung, das es sich um ein häufiges Muster handelt! Prosite enthält auch Profil-Einträge (Matrix) ID beginnt mit PS Außerdem: Rule-Einträge (Annotierung) ID beginnt mit PRU Eingabe der UniProt ID oder Sequenz Motiv der functional site

PRINTS fingerprints Verwendet Fingerprints zur Klassifizierung von Sequenzen. Fingerprints bestehen aus mehreren Sequenzmotiven, die in der PRINTS DB durch kurze, lokale ungapped Alignments repräsentiert werden. Mehrere funktionelle Bereiche im Protein = Proteinsequenz hat mehrere Sequenzmotive. Dadurch steigt die Sensitivität der Analyse an, weil die Zugehörigkeit eines Proteins zu einer Proteinfamilie auch bewertet werden kann, wenn eines der Motive nicht vorliegt. Die Verwandtschaft der Proteine anhand der verschiedenen Fingerprints wird über E-Values bestimmt. E-Value ist Maß dafür, mit einer zufälligen Aminosäure-Sequenz einen Treffer der gleichen Güte zu produzieren. Je kleiner dieser Wert, desto besser!

PRINTS fingerprints Sequenz im RAW-Format eingeben.

PRINTS fingerprints Ergebnis: zuerst werden die Highest Scoring Fingerprints angezeigt Beschreibung der Signatur auf PRINTS Zeigt verwandte Fingerprints auf PRINTS Es folgen die Top 10 Scoring Fingerprints und eine Übersicht über alle Fingerprints der einzelnen gefundenen Proteine.

Pfam Protein families Klassifizierung von Proteinfamilien über Profile. Profil = Schema, das für jede Position in der Sequenz die Wahrscheinlichkeit für das Auftreten einer bestimmten AS bzw. einer bestimmten Insertion oder Deletion bewertet. konservierte Positionen werden im Bewertungsschema stärker berücksichtigt als nichtkonservierte (gewichtetes Bewertungsschema) Basis der Profile sind multiple Sequenz-Alignments und Hidden Markov Modelle (HMMs). Anschließend werden weitere Sequenzen aus Swiss-Prot automatisch zu den einzelnen Alignments hinzugefügt. Die resultierenden Alignments repräsentieren funktionelle Einheiten und beinhalten evolutiv verwandte Sequenzen. Aufgrund automatisierter Alignments ist es möglich, dass die Sequenzen keine evolutiv determinierte Beziehung besitzen. Daher müssen Ergebnisse weiter abgesichert werden.

Pfam Protein families Jedes Pfam-Profil repräsentiert eine Protein-Familie oder Domäne. Pfam-Familien werden in Clans gruppiert, wenn sie denselben evolutiven Ursprung haben. Indizien hierfür sind Sequenz-Homologien, Struktur-Homologien und Ähnlichkeiten im HMM-Profil. Pfam-A Einträge haben die höchste Qualität (manuell annotierte Familien) Pfam-B Einträge werden über die ADDA-DB automatisch generiert. Verwendung, um funktionell konservierte Regionen zu identifizieren, wenn kein Pfam-A Eintrag existiert. Pfam ermöglicht auch die Analyse von Proteomen und Proteinen mit komplexer Domänen-Architektur. Zahlreiche Eingabe-Möglichkeiten: Input kann z.b. auch eine PDB-Datei sein

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

SCOP Structural Classification of Proteins Evolutiv verwandte Proteine mit ähnlicher biologischer Funktion müssen einen ähnlichen strukturellen Aufbau haben. Daher: Funktion eines unbekannten Proteins über Vergleich des strukturellen Aufbaus mit dem Aufbau bekannter Proteine vorhersagbar! (Grundgedanke von SCOP und CATH). SCOP klassifiziert Proteine mit bekannter Struktur hierarchisch in drei Hauptklassen. Familien Beschreiben Proteine mit eindeutiger evolutiver Beziehung zueinander. Proteine einer Familie haben mindesten 30% Sequenzidentität über die Gesamtlänge des Proteins. Ausnahme: aufgrund ähnlicher Struktur und Funktion ist Verwandtschaft nachgewiesen. Superfamilien Proteine mit geringer Sequenzidentität. strukturelle und funktionale Eigenschaften legen aber verwandtschaftliche Beziehung nahe. Faltungen Proteine mit gleicher Abfolge von Sekundärstrukturelementen in gleicher Topologie verwandtschaftliche Beziehung ist nicht notwendig.

CATH Class, Architecture, Topology, Homologous Superfamily CATH klassifiziert Proteine mit bekannter Struktur hierarchisch in vier Hauptklassen. Class-Kategorie Automatische Klassifizierung, bei Bedarf manuelle Ergänzung. Berücksichtigung der Sekundärstruktur-Element-Anteile ohne Rücksicht auf ihre Anordnung und Verbindung untereinander. Kategorisierung in: mainly-α, mainly-β, α-β, wenige Sekundärstrukturelemente. Architecture-Kategorie Manuelle Bearbeitung. Anordnung der Sekundärstruktur-Elemente zueinander. Kategorisierung über Beschreibungen wie barrel, sandwich, β-propeller. Topology-Kategorie Form der Proteine und Verbindungen der Sekundärstruktur-Elemente untereinander. Kategorisierung basiert auf Algorithmus, der empirisch abgeleitete Parameter zur Domänen-Klassifizierung einsetzt. Homologues Superfamily Homologe Proteindomänen (Domänen mit gemeinsamer Abstammung). Ähnlichkeit der Sequenzen wird durch Sequenzvergleich mit anschließendem Strukturvergleich bestimmt, entsprechend der Kategorisierung in der Topology-Kategorie.

CATH Class, Architecture, Topology, Homologous Superfamily Domänen innerhalb einer H-Kategorie werden nochmals zusammengefasst. Hierzu ist eine fünfte Kategorie definiert: Die Sequenz-Familie (4 Level: S.O.L.I.) Protein-Domänen, die eine hohe Sequenz-Identität aufweisen (mindestens xx% über 80% der Länge der größeren Domäne). Ähnliche Funktionen sind dadurch wahrscheinlich. Das fünfte Level (D) wird genutzt, um verschiedene Proteine mit 100% Sequenz-Identität voneinander unterscheiden zu können (neue Einträge im selben L-Level bekommen fortlaufende Nummer) Letztlich hat jede Domäne in CATH eine einzigartige CATHSOLID-Klassifikation. Beispiel bei einem Vergleich der Klassen zwischen drei Einträgen:

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

Keine sekundäre Datenbank hat aber hier irgendwie ganz gut hingepasst :) Initiative von Bioinformatikern mit dem Ziel die Repräsentation von Gen- und Genprodukt- Attributen zu standardisieren, Datenbank- und Organismus-übergreifend. 1998, zunächst entwickelt in Zusammenarbeit zwischen drei MODs (Model organism databases). GO Consortium heute umfasst wesentlich mehr Datenbanken, darunter EBI. GO enthält ein definiertes, hierarchisch aufgebautes Vokabular, um Charakteristiken von Genprodukten zu beschreiben. Es gibt drei Ontologie-Ebenen (Cytochrom c): Molekülfunktion biologischer Prozess zelluläre Komponente GO Gene Ontology (oxidoreductase activity) (oxidative phosphorylation, induction of cell death) (mitochondrial matrix, mitochondrial inner membrane) GO-Terms ermöglichen eine bessere Suche zwischen Genprodukten derselben Ontologie. GO-Terms ermöglichen standartisierte Sortierung von Proteinen Wozu das Ganze? MeSH-Terms (siehe Literatur-Seminar) machen dasselbe für Literatur! Datenbank A: Protein X ist in Protein-Synthese invovliert. Datenbank B: Protein X ist in Translation invovliert. Metasuche nach allen Proteinen, die an Translation beteiligt sind. Ergebnis?? Computer kann die Phrasen nicht übersetzen!

GO Gene Ontology Mapping GO ist nicht das einzige Vokabular-System zur Beschreibung von Genprodukt- Charakteristika. Es gibt unzählige Vokabular-Versionen einzelner Datenbanken: Keywords von UniProt EC-Nummern Domänen-Bezeichnung aus Pfam, PRINTS, ProSite COG (Clusters of Orthologous Groups) Die assoziierten Vokabeln in anderen Datenbanken können jedoch in das GO-Vokabular übersetzt werden (Mapping). Diese Vorgehensweise ist jedoch nur ein Anhaltspunkt oft ist die Übersetzung nicht eindeutig und korrekte Ergebnisse könnten dadurch ausgeschlossen werden.

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

InterPro Integrated Resources of Proteins Domains and Functional Sites InterPro kombiniert die Ergebnisse mehrerer sekundärer Datenbanken, die verschiedene Methoden verwenden, um Protein-Signaturen zu definieren. Die Modelle sind aus den AS-Sequenzen bekannter Protein-Familien abgeleitet. Sie werden dazu verwendet Sequenzen unbekannter Funktion nach Signaturen zu durchsuchen, damit sie schneller klassifiziert werden können. Dies ist im Zeitalter der Hochdurchsatz-Genom-Sequenzierung extrem wichtig. Problem dabei: unterschiedliche Datenbank = unterschiedliches Modell = unterschiedliche Klassifizierung Member Databases von InterPro Das Ziel von InterPro ist die Erstellung einer Internet-Präsenz, die Informationen über alle Typen von Protein-Klassifikationen für ein gegebenes Protein listet.

InterPro Integrated Resources of Proteins Domains and Functional Sites Woher kommen die Protein-Signaturen? Was sind Protein-Signaturen? Signatur-Arten in InterPro Die Signaturen sind mit GO-Klassifizierungen verknüpft (funktionelle Klassifizierung)

InterPro Integrated Resources of Proteins Domains and Functional Sites InterPro besteht aus drei Haupt-Datensätzen: Proteine, Signaturen und Einträge. Proteine Die Protein-Datensätze in InterPro stammen aus der UniProtKB sowie UniParc und UniMES. Signaturen Die Protein-Daten gelangen zu den Member-DBs und dienen der Berechnung der Signaturen anhand der verschiedenen Modelle. Alle produzierte Signaturen, welche dieselben Protein-Familien oder Domänen beschreiben, erhalten dieselbe InterPro ID und werden als ein Ergebnis zusammengefasst. Verwandte Signaturen sind jeweils miteinander verlinkt. Einträge InterPro hält für die einzelnen Ergebnisse weitere Informationen bereit, die im InterPro- Eintrag zusammengefasst werden, darunter: Beschreibendes Abstract über die Funktionen der Proteine und Signaturen, die mit dem Ergebnis assoziiert sind. Links zu den sekundären Datenbanken (Quell-Datenbanken für die Signaturen). Links zu PubMed (Literatur), PDB und weiteren Datenbanken.

InterPro Integrated Resources of Proteins Domains and Functional Sites Was bringt mir diese Datenbank eigentlich? Tool für die Erkennung von Protein- Verwandtschaften unbekannter Sequenzen. Eingabe einer beliebigen FASTA-Sequenz in InterProScan => Suche nach ähnlichen Signaturen anhand der Methoden der Unter-Datenbanken => Klassifizierung des Proteins => Phylogenetische Analyse. BLAST in sekundären Datenbanken mit den entsprechenden Modellen Besonders wichtig für die Menge an Daten in Genom-Sequenzierungs-Projekten. Erster Ansatz, wenn neues Protein oder Gen entdeckt wurde, um es einzuordnen.

InterPro Integrated Resources of Proteins Domains and Functional Sites InterProScan ist jedoch nicht ausreichend! The only way to make complete analyses of the domains contained in your sequence is to use the three major domain servers: 1) InterProScan 2) CD-Search 3) Motif-Scan - Bioinformatics for Dummies, S. 182

InterPro Integrated Resources of Proteins Domains and Functional Sites Proteine im InterPro-Eintrag InterPro-ID des Eintrags Art des Eintrags (Family, Domain, Site) Die Ergebnisse enthalten unter anderem folgende Daten: Hier geht s zu den 5 verschiedenen Listen-Ansichten der zu diesem InterPro-Eintrag gehörenden Proteine. Signaturen im InterPro Eintrag Verwandte InterPro Einträge Funktion der Proteine/Signaturen Hier geht s zu den Signatur-Einträgen in den sekundären Datenbanken. Hier geht s zu den GO-Einträgen (Funktions-Hierarchien). Suchanfragen können auch über PDB ID, PubMed ID, InterPro ID oder FASTA-Sequenz (Eindeutigkeit) bekannter Proteine gestellt werden. Alternativ über Phrasen wie Hexokinase oder SH3 (Problem: viele Suchergebnisse, schlechte Übersicht).

InterPro Integrated Resources of Proteins Domains and Functional Sites Die Ergebnisse enthalten unter anderem folgende Daten: Abstract, geschrieben von Kuratoren Taxonomischer Überblick Schlüssel für die Sequenz- Annotierung. Beispiel-Proteine mit ihren Signaturen (mit Links)

InterPro Integrated Resources of Proteins Domains and Functional Sites Die Ergebnisse enthalten Balken unter stehen anderem für folgende Daten: A) InterPro-Einträge. 1) rot: gewählter Eintrag, hier: Hexokinase. 2) andere Farben: Einträge, deren Sequenzen sich mit dem aktuellen Eintrag überschneiden. Z.B. konservierte Stellen in Hexokinase-Domäne. B) Bereiche mit Infos zur Struktur. Die Struktur-Informationen werden aus sekundären Datenbanken geholt. 1) Wenn Struktur aufgeklärt: Link zur PDB-Datei + Links zur Klassifizierung von Signaturen innerhalb der Struktur nach SCOP und CATH. 2) Wenn Struktur nicht aufgeklärt: automatisiertes Homologie- Modelling über sekundäre Datenbanken (MODBASE und Swiss- Model) liefern theoretisch Beispiel-Proteine mit ihren Signaturen (mit Links) berechnete Strukturen!

InterPro Integrated Resources of Proteins Domains and Functional Sites

InterPro Integrated Resources of Proteins Domains and Functional Sites Rot = Signatur (hier: Hexokinase-Domäne) des InterPro-Eintrags. Jede Farbe repräsentiert einen anderen InterPro-Eintrag. Liste aller zum InterPro-Eintrag gehörenden Proteine = alle Proteine mit Hexokinase- Domäne. Anzeige der Domänen- Architektur der Proteine.

InterPro Integrated Resources of Proteins Domains and Functional Sites InterPro Relationships ermöglicht Querverlinkung zwischen InterPro-Einträgen. CHILD/PARENT: >75% der Proteine im Protein-Set des CHILD-Eintrags müssen auch im PARENT Protein-Set vorkommen. Die Signaturen der CHILD/PARENT Einträge müssen mindestens 50% überlappen. Der Child-Eintrag ist immer spezifischer als der PARENT-Eintrag. Passt eine Sequenz zum CHILD-Eintrag, passt sie immer auch zum PARENT-Eintrag. CONATINS/FOUND IN Es werden strukturelle und funktionelle Features definiert, die nicht über CHILD/PARENT Beziehungen definiert sind. Darunter: Regions, Domains, Repeats, Sites. >40% der Proteine im InterPro-Eintrag müssen dieses Feature enthalten. Verlinkung von InterPro-Einträgen, die in ihrer Zusammensetzung ähnlich sind, aber keine evolutionäre Verwandtschaft aufweisen müssen.

So which database is better? As with everything, it depends on your problem: we would certainly suggest using more than one method. Pfam DB, FAQ

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone Mehr dazu im BCDS-Seminar: PDB & PyMol

Die PDB (Protein-Databank) Die PDB ist ein Archiv mit experimentell bestimmten Strukturen von Proteinen, Nukleinsäuren und höheren Assemblierungen. 4 Datenbanken bilden zusammen die wwpdb (world wide). Sie können eigenständig Daten anlegen, prozessieren und zur Verfügung stellen, während wwpdb die Aktionen überwacht und die Daten verteilt. Der Upload erfolgt direkt durch die Wissenschaftler, welche die Struktur experimentell bestimmt haben. RCSB PDB wird durch die Research Collaboratory for Structural Bioinformatics, USA verwaltet. PDBe (auch: MSD, macromolecular structure database) auf EBI, UK. PDBj, Japan. BMRB (Biological Magnetic Resonance Databank) enthält NMR Daten biologischer Makromoleküle, Universität Wisconsin-Madison, USA. Die Suche in diesen Datenbanken und die Such-Ausgabe erfolgt sehr komfortabel unter: RCSB PDB PDBsum auf EBI Mehr dazu im BCDS-Seminar: PDB & PyMol

http://www.rcsb.org/pdb/home/home.do

http://www.ebi.ac.uk/pdbsum/

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

NCBI Structure Group Die NCBI Structure Group bietet mehrere Ressourcen, um Strukturen zu finden: BioSystems Database Pathways Molecular Modeling Database (MMDB) 3D-Strukturen Conserved Domain Database (CDD) Domänen PubChem Databases (PC) Liganden Vergleichbar mit den 3 Ebenen der KEGG-Datenbanken. Sie sind untereinander und mit den anderen NCBI Datenbanken querverlinkt. Die Daten stammen meist aus anderen, primären Datenbanken. Der Vorteil an diesen Datenbanken sind die teilweise sehr interessanten Tools, die in NCBI integriert sind: VAST Struktur-Homologie-Suche Cn3D Struktur-Vergleiche IBIS Protein/Protein-Interaktionen CDTree Phylogenetische Bäume

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

NCBI Structure Group Suche in der MMDB text term search: Suche über Felder in den PDB-flat-file Daten. protein BLAST: Eingabe-Sequenz wird mit Sequenzen aus der PDB-Datenbank verglichen. Wenn die Eingabe-Sequenz bereits existiert, sind über den Entrez-Protein-Eintrag unter Links/Related Structures bereits die berechneten BLAST-Ergebnisse gespeichert. VAST search: Nach Upload von 3D-Koordinaten im PDB-Format werden diese mit den 3D- Koordinaten von Strukturen in der PDB-Datenbank verglichen. Mithilfe des Programms Cn3D kann die Struktur-Homologie visualisiert werden. siehe Protein-Tools, nachmittags

NCBI Structure Group text term search Kuriosität: Aufgrund unterschiedlicher Definitionen in Quelldatenbanken kann ein und das selbe Protein mehrere MGs haben! Je nach Suchmaschine existieren unterschiedliche Suchfelder! Sie sind auf den Hilfe-Seiten einsehbar. Intervall-Anfragen: FromValue:ToValue[Field] [PDBACC] = PDB ID (wird auch ohne Feld erkannt). [EC] = EC-Nummer (Wildcards verwenden). [RES] = Auflösung der PDB-Struktur (in Angstrom). [EXP] = experimentelle Methode (X-Ray, NMR). [PDDAT] = Datum der Veröffentlichung der Struktur in der PDB. [ORGN] = Organismus, in dem die Struktur vorkommt. [CHN] = 1-Letter Code der Kette in der PDB-Struktur (ASCII Format). Format von Daten: [LIGD] = Bezeichnung des Liganden in der PDB Struktur. YYYY/MM/DD, [MWT] = Molekulargewicht (in Dalten). YYYY/MM, YYYY [PCC] = Anzahl an Polypeptidketten in der Struktur (oligomerer Zustand). [MPRC] = Anzahl modifizierter AS in der Struktur. Die Literatur betreffend, welche die Struktur publizierte: [TITLE], [AUTH], [JOURNAL]

NCBI Structure Group Die MMDB beinhaltet ausschließlich Strukturen aus der wwpdb. Die Ergebnis-Seiten verknüpfen die PDB-Daten mit weiteren Informationen aus NCBI: Literatur-Verweise (PubMed), Taxonomie-Informationen (NCBI Taxonomy), ähnliche Protein-Sequenzen (Entrez Protein), verwandte 3D-Strukturen (CCD, 3D Domains), Informationen zu gebundenen Liganden (PubChem). Display: Summary Format (MMDB Suche) Zeigt alle bekannten Liganden an. Zeigt alle enthaltenen Domänen an.

NCBI Structure Group Die Suche nach 3D-Domänen kann auch direkt über Search 3D Domains erfolgen. Datenquelle: MMDB (Sortierung der Strukturen in einzelne Domänen). Basis für Struktur-Verwandtschafts-Analysen von Domänen über das NCBI-Tool VAST. Display: Summary Format (3D Domains Suche) Der erste Eintrag entspricht der Kombination beider Domänen. Bei Klick auf ID oder Abbildung der drei Ergebnisse gelangt man immer zum selben MMDB-Eintrag. Link zu VAST-Eintrag für ausgewählte Domäne.

NCBI Structure Group Wie sieht nun ein MMDB-Eintrag aus? sehr übersichtlich (vergleiche Registerkarten in PDBsum oder RCSB) Link VAST führt zu einer Tabelle, welche die Domänen des Proteins listet. Auswahl einer Domäne führt ebenso zum VAST-Eintrag. Link zum CDD-Eintrag des gesamten Proteins Link zum VAST-Eintrag des gesamten Proteins Link zum VAST-Eintrag der 3D-Domäne 1. Beachte: 3D-Domäne ist nicht durch Sequenz begrenzt! Link zum CDD-Eintrag der konservierten Sequenz 2. Beachte: hier geht es um Sequenz-Vergleiche!

NCBI Structure Group Wie sieht nun ein VAST-Eintrag aus? Vector Alignment Search Tool VAST ist ein Vektor-basierender Algorithmus, mit dem 3D Strukturen verglichen werden. Diese Seite listet verwandte Proteine in Bezug auf ihre strukturelle Verwandtschaft. Von hier aus lassen sich gezielt Struktur-Überlagerungen in Zusammenhang mit Sequenz- Alignments anzeigen. Die zu vergleichenden Strukturen einfach markieren und View 3D Alignment anklicken

NCBI Structure Group Visualisierung erfolgt über Cn3D! 2 Fenster: Sequenz-Alignment + Struktur Überlagerung. Rot = identisch Blau = konserviert Grau = nicht konserviert Mehr dazu später bei Protein- Analyse-Tools

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

NCBI Structure Group Konservierte Domäne = in der Evolution mehrmals auftauchende, strukturell und/oder funktional vom Gesamt-Protein entkoppelte Einheit. Die CDD nutzt u.a. den Input verschiedener Datenbanken, welche Domänen klassifizieren (vergleichbar mit InterPro). Der Unterschied zwischen CDD und 3D Domains Die 3D Domains Database speichert Strukturen (x,y,z-koordinaten der einzelnen Atome). Die CDD speichert lediglich die Sequenz einer konservierten Region im Protein. CD-Modelle basieren auf multiplen Sequenz-Alignments verwandter Proteine aus zahlreichen Organismen. So werden Sequenz-Regionen mit ähnlichen AS-Muster identifiziert. CDD-Eintrag = Summe aller Sequenzen, die zur selben konservierten Domäne gehören.

NCBI Structure Group Erst in Verbindung mit der MMDB kann die Domänen-Struktur in Zusammenhang mit den konservierten Sequenzen betrachtet und analysiert werden. Ziel der CDD: stimmen die Daten aus den multiplen Sequenz-Alignments mit den Informationen aus der Überlagerung der 3D-Strukturen überein? Logisch: gleiche Sequenz = gleiche Struktur! Frage: ähnliche Sequenz = ähnliche Struktur? Ziel: Rückschlüsse auf Ursache der Funktion (Sequenz/Struktur/Funktion Beziehung) Hierzu gibt es das Programm Cn3D auf NCBI Es zeigt gleichzeitig Sequenz-Alignment und Struktur-Überlagerung an.

NCBI Structure Group Das CD-Search Tool Suche von konservierten Domänen anhand der FASTA-Sequenz möglich Alternativ normale Suche über Entrez

NCBI Structure Group Selbes Beispiel: Hexokinase (PDBID: 3H1V) Link zum CDD-Eintrag des gesamten Proteins Link zum CDD-Eintrag der konservierten Sequenz 2. Beachte: hier geht es um Sequenz-Vergleiche!

NCBI Structure Group Wie sieht nun ein CDD-Eintrag aus? Sequenzen derselben Domäne aus Proteinen verschiedener Organismen (nur eine Auswahl wird dargestellt). Bedeutung von dieselbe Domäne wird von den Quell-Datenbanken (verschiedene Modelle) definiert. Hier ist die Quell-Datenbank Pfam. Zum Superfamilien- Eintrag Info-Text über die CD Das Alignment kann im mfasta Format gespeichert werden. Farben stehen für den Grad der Konservativität. Die Sensitivität kann über Color Bit eingestellt werden: rot: am besten konserviert blau: mittelmäßig konserviert grau: am schlechtesten konserviert

NCBI Structure Group Die Häufigkeit, mit der eine bestimmte Aminosäure in einer bestimmten Position der Sequenz vorliegt, lässt sich über die PSSM (position-specific scoring matrix) visualisieren. Struktur-Überlagerung in Cn3D betrachten Representatives: Link zu den einzelnen Protein-Sequenzen des Alignments. Related Protein: alle Protein- Sequenzen mit dieser Domäne (RPS- BLAST). Related Structure: Alle Protein- Sequenzen mit bekannter 3D-Struktur, die eine ähnliche PSSM aufweisen (auch RPS-BLAST).

NCBI Structure Group Position-specific Scoring Matrix Konsensus-Sequenz = wahrscheinlichste Sequenz Daten-Tabelle für eine Aminosäure-Position

NCBI Structure Group Wo kamen nochmal die Daten her? (1) Verschiedene NCBI-externe Datenbanken (unterschiedliche Modelle zur Klassifizierung der Domänen). (2) Von NCBI-Kuratoren aus 3D-Struktur-Informationen abgeleitete Domänen. Problem: Redundanz Lösung von InterPro: Ein Eintrag für eine Sequenz und Gegenüberstellung der Modelle. Lösung von NCBI: Einzelne Einträge für die Modelle. Die CDD fasst ähnliche Domänen- Modelle verschiedener Quellen in Superfamilien zusammen. Wie gelange ich zum Superfamilien-Eintrag? (1) Der Link zur Superfamilie ist auf der CDD-Ergebnis-Seite (2) Direkte Suche in CDD nach einer Domänen-Bezeichnung (Beispiel: SH3)

NCBI Structure Group So sieht ein Superfamilien-Eintrag aus ID beginnt mit ci Links zu den Einzel-Einträgen : ID beginnt mit DB- Name der Quell- Datenbank (hier: pfam bzw. smart) NCBI-interner Eintrag für SH3 ID beginnt mit cd NCBI-externe Einträge: SH3 aus Pfam, SH3 Variante aus Pfam SH3 aus Smart

NCBI Structure Group Vorteile von NCBI-internen Superfamilien-Einträgen Erstellung mit dem Ziel der Aufklärung von Sequenz/Struktur/Funktions-Beziehungen Kuratoren haben die Alignments aus anderen Datenbanken überprüft und mit der Struktur-Überlagerung verglichen. In den Sequenz-Alignments wurden auf Basis dieser Analyse strukturell konservierte Abschnitte hervorgehoben. Es wurden konservierte Stellen (z.b. Bindestellen, katalytische Reste etc.) markiert (mit Verlinkung zur Literatur). Phylogenetischer Baum wird angezeigt (Nutze NCBI-Tool CDTree)

NCBI Structure Group Wie sieht ein NCBI-interner Eintrag aus? Obere Box enthält Kommentare zu einzelnen konservierten Bereichen. Beispiel zeigt Superfamilien- Eintrag mit Unterfamilien, für die eigene Superfamilien- Einträge existieren. Einzelne Zweige des phylogenetischen Baums können über die Unterfamilien-Einträge betrachtet werden. bekannt aus pfam-eintrag: Boxen mit Verlinkungen und Sequenz-Alignment (nicht gezeigt).

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

NCBI Structure Group PubChem Databases PubChem enthält Informationen über biologische Aktivität kleiner Moleküle. Es besteht aus drei Datenbanken: PCSubstances und PCBioAssay enthalten Informationen aus der wissenschaftlichen Community. PCCompound enthält aus diesen Datenbanken abgeleitete, nicht-redundante Informationen. Was bringt mir das in Zusammenhang mit 3D-Strukturen? 3D Strukturen mit Ligand findet man einfacher über Ligand-Suche bei PubChem. Querverlinkungen führen zur 3D Struktur des Ligand-gebundenen Makromoleküls.

NCBI Structure Group Protein-Strukturen mit allen Ergebnis- Verbindungen als Ligand. Protein-Strukturen mit dieser Verbindung als Ligand

NCBI Structure Group BioSystems Database Suche in verschiedenen Pathway- und Interaktions-Datenbanken: KEGG wird später noch eingeführt. Reactome biologische Pathways. BIOCYC Sammlung von >500 Organismus-spezifischen Pathway/Genom- Datenbanken. PID, Pathway Interaction Database human molecular signaling, regulatory events, cellular processes). Sie ermöglicht den Zugang zu Signalwegen von verschiedenen Quell-Datenbanken und verknüpft diese mit Informationen zu Literatur, molekularen und chemischen Daten über Entrez. Suche nach Glycolysis liefert über 3000 Ergebnisse Für Pathways besser direkt KEGG ansteuern!

NCBI Structure Group Inferred Biomolecular Interactions Server (IBIS) Suche nach Interaktionspartnern. oben: Sequenz mit Interaktionsstellen markiert. unten: Liste der Interaktionspartner mit Interaktionsstellen Ähnliche Funktion auf EBI: IntAct.

Cn3D & CDTree Eigenständige Programme, Installation notwendig! Verwurzelt mit der CD-Database der Entrez-Structure Group (Verlinkung startet das Programm automatisch, wenn installiert).

Cn3D Gleichzeitige Darstellung von Sequenz- und Struktur-Alignment Manuell Annotierte Signaturen zugänglich. Beschreibung der Domänen-Funktion Einzelne konservierte Stellen lassen sich hervorheben

CDTree Darstellung von evolutionären Verwandtschaften, Hilfestellung bei der Klassifizierung von Proteinen, verschiedene grafische Darstellungen lassen sich exportieren.

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

Entrez Protein Entkoppelt von der NCBI Structure Group - Hier geht es um Protein-Sequenzen! keine einzelne DB, sondern Zusammenstellung von Einträgen unterschiedlicher Protein- Sequenz-Datenbanken. DB-Format ist äquivalent zum GenBank-Format. Datenquellen: übersetzte codierende Sequenzen (CDS) aus DNA-Sequenzen in GenBank/EMBL/DDBJ Protein-Sequenzen aus PIR, UniProtKB/Swiss-Prot und PRF Protein-Sequenzen aus gelösten Strukturen in der PDB Isoformen, unvollständige Sequenzen, Proproteine haben unterschiedliche Einträge. => Hohe Redundanz der Daten => sehr spezifische Suchanfragen notwendig! Protein-Sequenz über andere Datenbanken: Wenn Gen bekannt, ist eine genauere Suche über Entrez Gene möglich. Wenn Protein-Struktur aufgeklärt ist, Verlinkung über die PDB-Einträge. Besser: UniProtKB-Suche, da hier die Redundanz minimiert ist (UniRef). Suche direkt in Entrez Protein daher eher selten bis gar nicht notwendig.

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

IntEnz Integrated relational Enzyme database Enzymdatenbank auf EBI mit dem Fokus auf Enzym-Nomenklatur. Entwickelt in Zusammenarbeit mit SIB (ExPASy) Hier befindet sich die äquivalente ENZYME-Database. Enthält die offizielle Version des Enzym-Nomenklatur Systems (EC-System), das durch die NC-UIBMB (International Union of Biochemistry and Molecular Biology) festgelegt wird. Zusätzlich ist die offizielle Klassifizierung erweitert (Hinweis: preliminary EC Number). Suche oder EC-Browsing möglich.

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

UniPathway Die metabolische Tür zu UniProtKB/Swiss-Prot Nutzt die UniProtKB Einträge und kategorisiert sie nach den Stoffwechselwegen, an denen sie beteiligt sind. Die Datenbank ist in 5 Ebenen aufgebaut. Ebene 0: Super-Pathway Klassifizierung der Stoffwechselwege in größere Kategorien, Super-Pathways: Glykolyse Kohlenhydratstoffwechsel Ebene 1: UPA (Pathway) Die Stoffwechselwege sind unabhängig vom Organismus definiert (z.b. Glykolyse). Hier können jedoch unterschiedliche Zwischenprodukte vorkommen (Verzweigungen im Pathway). definiert als Satz von linearen Sub-Pathways, verbunden durch die terminalen Produkte und Edukte. Ebene 2: ULS (Linear Sub-Pathway) ULS können Teil von mehreren Pathways sein. keine Verzweigungen; definierte Folge enzymatischer Reaktionen. Nummerierung der enzymatischen Reaktionen in step 1 bis step n.

UniPathway Die metabolische Tür zu UniProtKB/Swiss-Prot Ebene 3: UER (Enzymreaktion) UERs gehören zu einem definierten Sub-Pathway. besteht aus zwei Datensätzen: biochemische Reaktion und Enzym. eine enzymatische Reaktion kann auf unterschiedliche Arten erfolgen, sodass verschiedene Sequenz-Reaktionen stattfinden können (z.b. NADH oder NADPH als Co-Substrat). Ebene 4: USR (Sequenz-Reaktion) USRs gehören zu einer definierten Enzymreaktion. Folge elementarer chemischer Reaktionen. Eine Sequenz-Reaktion kann in mehrere elementare chemische Reaktionen aufgeteilt werden (A B C wird zu A B und B C). definiert durch eine EC-Nummer sowie Edukte und Produkte. Ebene 5: UCR (Chemische Reaktion) UCRs können zu verschiedenen Enzymreaktionen gehören. Ein-Schritt-Reaktion Ebene 6 : UPC (chemische Verbindung) UPCs können zu verschiedenen chemischen Reaktionen gehören. Datenquelle: KEGG LIGAND Database

Beispiel: Glykolyse UniPathway Die metabolische Tür zu UniProtKB/Swiss-Prot Es lassen sich Organismus-spezifische Pathways tabellarisch anzeigen. Pathways sind direkt mit UniProtKB verlinkt. Browse Pathway zeigt eine Tabelle aller Stoffwechselwege an (über 700).

UniPathway: Glykolyse Links zum Sub-Pathway-Eintrag Ontology View: Einordnung des Prozesses in den Gesamt- Zusammenhang; Links zu Sub-Pathways, Enzymreaktion und Enzyme Beteiligte Proteine auf Pathwayund Enzymreaktions-Ebene Chemical View Protein View: Tabellarische Übersicht beteiligter Proteine, Links zur ENZYM-Datenbank und UniProtKB-Liste für bestimmtes Reich (Archaea, Bacteria, Eukaryota)

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

KEGG Kyoto Encyclopedia of Genes and Genomes A grand challenge in the post-genomic era is a complete computer representation of the cell, the organism, and the biosphere, which will enable computational prediction of higher-level complexity of cellular processes and organism behaviors from genomic and molecular information. KEGG ist eine Repräsentation biologischer Systeme am Computer. KEGG besteht aus 16 Datenbanken. Sie repräsentieren zusammen drei Informations-Ebenen. Startpunkt: KEGG PATHWAY Informationen anderer Datenbanken durch Verlinkung: KEGG ENZYME KEGG REACTION KEGG COMPOUND

KEGG Kyoto Encyclopedia of Genes and Genomes PATHWAY vs. BRITE KEGG Pathway enthält Stoffwechsel- und Signalweg-Karten, basierend auf molekulare Interaktionen und Reaktionen. KEGG Brite ermöglicht eine hierarchische Klassifikationen, die das Wissen über biologische Systeme repräsentiert. Klassifikation von KEGG PATHWAY ist auf molekulare Interaktionen und Reaktionen beschränkt. KEGG BRITE nutzt viele weitere funktionale Beziehungen zur Definition verschiedener Hierarchien! Mapping aller Datensätze (Genomics, Transcriptomics, Proteomics, Metabolomics) zu den BRITE-Hierarchien.

KEGG-PATHWAY Sammlung manuell gezeichneter Pathway-Karten, basierend auf dem Wissen über molekulare Interaktions- und Reaktions-Netzwerke. Metabolism (Kohlenhydrate, Energie, Lipid, Nukleotid, Aminosäure, Cofaktor/Vitamin) Genetic Information Processing (Transkription, Translation, Faltung, Sortierung, Degradation, Replikation, DNA-Reparatur) Environmental Information Processing (Membran-Transport, Signal-Transduktionswege, Signalmolekül-Interaktion) Cellular Processes (Autophagie, Endozytose, Zellzyklus, Zelltot, Immunsystem, Nervensystem) Human Diseases Drug Developement

KEGG PATHWAY globale Metabolismus-Karte

KEGG PATHWAY Punkte repräsentieren Stoffwechsel-Intermediate (pop-up Info). Link zu KEGG Compound. Schriftzüge repräsentieren einzelne Pathways. Link zu den Pathway-Karten.

KEGG COMPOUND Über die Datentabelle des Stoffwechsel-Intermediats gelangt man zu allen Pathways, bei denen es beteiligt ist!

KEGG PATHWAY Sammlung manuell gezeichneter Pathway- Karten, basierend auf das Wissen über molekulare Interaktionsund Reaktions- Netzwerke. Links zu angrenzenden Stoffwechselwegen EC-Nummern führen zu einer großen Daten- Tabelle mit Infos aus: KEGG Enzyme KEGG Orthology KEGG Reaction

KEGG ENZYME Daten-Tabelle enthält viele Informationen: Alternative Bezeichnungen des Enzyms. Substrate, Produkte, Cofaktoren, Enzymklasse. katalysierte Reaktionen (Verweis zu KEGG Reactions). Manuell geschriebene Kommentare. Pathways, in die das Enzym involviert ist. Links zu PubMed und weiteren Enzym-DBs.

KEGG ORTHOLOGY KEGG REACTION Sehr übersichtliche Navigation Schlichtes und einheitliches Layouts der Daten-Tabellen aller Unter-Datenbanken. Gut sichtbare Querverlinkungen zwischen allen Einträgen.

KEGG PATHWAY Such-Feld: Eingabe von z.b. Stoffwechsel-Intermediaten Klicke auf Suchergebnis und Karte vergrößert entsprechenden Ausschnitt Navigation durch KEGG-PATHWAY über KEGG Atlas Browser (optional). Funktionen: Zoomen, Konfigurierbare Verlinkung, Übersicht über alle Maps, History-Funktion

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

HPRD Human Protein Reference Database Eigenständige Datenbank, keine Verwendung anderer Datenbestände wie UniProtKB. Die Daten werden 100% manuell über Kuratoren auf der Basis von Literatur in die Datenbank eingegeben. Manuelle und eindeutige Klassifizierung. Jedes Protein bekommt eine spezifische Kategorie, welche die häufigste/wichtigste Funktion beschreibt (demokratische Abstimmung). Besondere Features oder Kollaborationen Human Proteinpedia: Community-Portal, in dem Arbeitskreise Informationen über Proteine austauschen. Ist neben der publizierten Literatur einer der Quellen für HPRD. Pathways: Datenbank NetPath (Entwicklung durch HPRD) hat bisher 20 Signalwege. PhosphoMotif Finder: Sucht anhand der FASTA-Sequenz Phosphorylierungsstellen.

HPRD Human Protein Reference Database Browser: Molekülklasse, Domäne, Motive, posttranslationale Modifikation, subzelluläre Lokalisation. Suchanfrage: u.a. über verschiedene IDs oder Protein-Bezeichnung.

HPRD Human Protein Reference Database Protein-Liste nach Suchanfrage oder Browsen. Domänen-Architektur wird graphisch hübsch dargestellt

HPRD Human Protein Reference Database Links zu Hierarchie auf GO-Datenbank Sehr gute Informationen: assoziierte Erkrankungen (Link zu OMIM). Protein-Protein Interaktionen mit experimenteller Methode. DNA- und Protein- Sequenz (ORF bzw. Domänen sind markiert). Kotakt zum ersten Kommentator Kommentar anhängen

Überblick behalten INFORMATIONEN UND ERLÄUTERUNGEN UniProtKB: Swiss-Prot/TrEMBL und UniParc, UniRef SEKUNDÄRE DATENBANKEN: PROTEIN-DOMÄNEN UND -FAMILIEN Sequenz-basiert: PROSITE, PRINTS, Pfam Struktur-basiert: SCOP, CATH Gene Ontology (GO) InterPro auf EBI PROTEIN-SEQUENZEN UND STRUKTUREN RCSB & PDBe Entrez Structure Group auf NCBI Molecular Modeling Database (MMDB) Conserved Domain Database (CDD) BioSystems, PubChem, IBIS, Cn3D, CDTree Entrez Protein STOFFWECHSELWEGE UND ENZYME IntEnz auf EBI UniPathway KEGG SPEZIFISCHE DATENBANKEN HPRD ViralZone

ViralZone ViralZone ist auf ExPASy lokalisisert und verwendet die UniProtKB-Einträge. Es müssen zunächst einzelne Viren ausgewählt werden. Ein Sammel-Eintrag zeigt dann alle codierten Proteine sowie Infos über Capsid-Struktur und Lebenszyklus. Suche oder Browsing über Baltimore-Klassifizierung Host Virion-Struktur

ViralZone Sehr gute Übersicht: zu sehen sind Baltimore-Klassifizierung, Virion-Struktur und Host-Klassifizierung.

ViralZone Informationen sind auf 3 Ebenen vorhanden. Viele Viren wurden Betreff Genom, Genexpression und Replikation manuell annotiert.

ViralZone Protein-Einträge in Swiss-Prot, sortiert nach den einzelnen Virus-Stämmen z.b. HIV-1 Gruppe M, Subtyp H.

Fragen? Kontakt@BioKemika.de Folien und Supplementals auf www.biokemika.de