Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken

Ähnliche Dokumente
Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Biowissenschaftlich recherchieren

Molekularbiologische Datenbanken

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.

BCDS Seminar. Protein Tools

Softwarewerkzeuge der. Bioinformatik

Klausur Bioinformatik für Biotechnologen

Einführung in die Angewandte Bioinformatik: Multiples Alignment und Phylogenetik

Protein-Bioinformatik

Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

Folien und Supplementals auf

Datenbanken in der Molekularbiologie

Datenbanken in der Molekularbiologie

Die wichtigsten Bioinformatikdatenbanken. SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

Gleichheit, Ähnlichkeit, Homologie

Statistische Methoden in der Bioinformatik

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Vorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken

Einführung in die Angewandte Bioinformatik: Struktur von Proteinen und RNA und

Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie

Bioinformatik für Lebenswissenschaftler

Softwarewerkzeuge der Bioinformatik

Übung 6: Structure Comparison 1

Kapitel 5: Protein-Datendanken

Bioinformatik für Lebenswissenschaftler

Bioinformatik für Lebenswissenschaftler

Ausprägungsfach Bioinformatik im Rahmen des Bachelor-Studiengangs Informatik. CIBIV Center for Integrative Bioinformatics Vienna

Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment und

Applied Bioinformatics.

Pairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Übung 1 Bioinformatik. Ihre Namen:

Protokoll Versuch D2 Bioinformatik

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken

Bioinformatik für Biochemiker

Protein-Datenbanken. Protein- Datenbanken. Christian Fink

AF. Bioinformatik im Bachelor-Studiengang Informatik. CIBIV Center for Integrative Bioinformatics Vienna. Bioinformatik eine Definition

Einführung Molekulare Bioinformatik

Vorgänger für Pathway Studio und IPA. Herbsttagung der Bibliotheken der BM-Sektion / Elisabeth Schlagberger

Einführung in die Bioinformatik

Algorithmen und Datenstrukturen in der Bioinformatik

Softwarewerkzeuge der Bioinformatik

Softwarewerkzeuge der Bioinformatik

Einführung Molekulare Bioinformatik

Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks. Samira Jaeger

Hidden Markov Model (HMM)

Einführung in die Bioinformatik

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA

Übung 7: Die Proteindatenbank (PDB) und Vergleiche von Proteinstrukturen

Comperative Protein Structure Modelling of Genes and Genomes

Bioinforma1k für Lebenswissenscha;ler

Übersicht. FASTA- Format. BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler. Datenbanken

FOR MUW SSM3 (2008) STUDENTS EDUCATIONAL PURPOSE ONLY

DATENQUALITÄT IN GENOMDATENBANKEN

MM Proteinmodelling. Michael Meyer. Vorlesung XVII

Einführung und Übersicht

Strategien der Gensuche. Datenbanken in der Molekularbiologie. Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik-

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science

Kleiner Führerschein für Datenbanken und ein Programm zur 3D-Visualisierung

Was ist Bioinformatik?

Einführung in die Angewandte Bioinformatik: BLAST E-Werte, Algorithmen, Multiple Alignments, R

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Hidden-Markov-Modelle

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Einführung in die Angewandte Bioinformatik: Netzwerke

MOL.504 Analyse von DNA- und Proteinsequenzen

Bioinformatik I (Einführung)

Strategien der Gensuche. Datenbanken in der Molekularbiologie. Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik-

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Einführung in die Bioinformatik

Algorithmische Bioinformatik

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

Bioinformatik Für Biophysiker

Bioinformatik Teil 1

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

BIOINFORMATIK I ÜBUNGEN.

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

Softwarewerkzeuge der Bioinformatik

Luke Alphey. DNA-Sequenzierung. Aus dem Englischen übersetzt von Kurt Beginnen. Spektrum Akademischer Verlag

Vorlesungsskript. Softwarewerkzeuge der Bioinformatik

Projekt-INF Folie 1

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken

Vorlesungsskript. Softwarewerkzeuge der Bioinformatik

Bioinformatik I (Einführung)

Proteine II: Funktion

Einführung in die Bioinformatik

Bioinformatik auch ein Thema für Informationsfachleute? Bioinformatics also a topic for experts in information science, research and management?

Die Substratspezifität der Enzyme Trypsin und Chymotrypsin

Transkript:

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken 14.05.2009 Prof. Dr. Sven Rahmann 1

3 Proteinsequenz-Datenbanksysteme NCBI Entrez Proteins EBI SRS Proteins UniProt (empfohlen) 2

NCBI Entrez Proteins Entrez -Sicht auf verschiedene Datenbanken, auch Nicht-NCBI-Datenbanken. Vorteil: in gewohnter Weise mit Entrez durchsuchbar Sequenz-Inhalt (wie bei UniProt): Swiss-Prot PIR Übersetzungen der kodierenden Nukleotidsequenzen in GenBank und RefSeq. Weiterer Inhalt aus: Literatur: PRF (Protein Research Foundation, Japan) Proteinstruktur: wwpdb (world-wide Protein Data Bank, Proteinstrukturen) 3

Suche in NCBI Entrez Proteins Anzeige weiterer Treffer in der Gene-Datenbank Anzeige der Organismen mit vielen Treffern 4

Suchergebnisse in NCBI Entrez Proteins Anzeige im GenPept-Format (wie GenBank-Format), andere möglich. Viele Tools und Links auf der rechten Seite (BLAST, CD Struktur, Literatur...). 5

Wichtige Suchfelder für NCBI Proteins [accession] [gene name] [protein name] [EC/RN number] [organism] [molecular weight] (Bereichssuche, z.b. 1000:1500) [sequence length] (Bereichssuche)... 6

Universal Protein Resource (UniProt) http://www.uniprot.org UniProt besteht aus vier Datenbanken Protein Knowledgebase (UniProtKB) bestehend aus - TrEMBL Translated EMBL (übersetzte EMBL-Nukleotideinträge) - Swiss-Prot (von Hand annotierte Protein-Datenbank) Sequenz-Cluster (UniRef) repräsentative Sequenzen für Proteinfamilien Sequenz-Archiv (UniParc) Historie der Proteinsequenzen Proteinsequenzen aus Metagenomprojekten (UniMES) (neu) 7

Universal Protein Resource (UniProt) http://www.uniprot.org UniProt besteht aus vier Datenbanken 8

Universal Protein Resource (UniProt) http://www.uniprot.org Beteiligte Institute und verfügbare Dienste European Bioinformatics Institute (EBI) mit - TrEMBL (Teildatenbank von UniProtKB) Swiss Institute of Bioinformatics (SIB) mit - Swiss-Prot (Teildatenbank von UniProtKB) - ExPASy Server (Expert Protein Analysis System) Georgetown University mit - PIR (Protein Information Resource) 9

UniProtKB- Suche Achtung: Die Syntax für die Suche ist anders als bei Entrez: feldname: Suchbegriff Die Feldnamen rechts funktionieren nicht! Wichtig sind: gene: Gen-Name name: Protein-Name organism: Organismus 10

UniProtKB-Suche: Beispiel 11

UniProtKB-Suche: Beispiel Datenbankeintrag Q4JV96 http://www.uniprot.org/uniprot/q4jv96 Names and Origin (Protein-, Gen-Name, Organismus) Protein attributes (Länge, Zustand der Sequenz, Existenz des Proteins) General annotation (Funktion, Ort, Ähnlichkeiten) Ontologies (kontrollierte Stichwörter, GO-Terme) Sequence annotation / Features (bekannte Proteinketten, Domänen) Sequences (Proteinsequenz, Zugriff auf Tools) References (Literaturangaben) Cross-references (Verweise auf andere Datenbanken) Entry information (Geschichte dieses Datenbank-Eintrags) 12

UniProtKB-Suche: Beispiel Q4JV96 - Cross References Beispiele für in UniProt verlinkte Datenbanken: RefSeq PDB 3D-Proteinstrukturen PDBSum graphische Übersicht über in PDB enthaltene Strukturen SWISS-2DPAGE Lage des Proteins in 2D-Gelen KEGG Reaktionswege (Pathways) mit Beteiligung des Proteins [Kyoto Encyclopedia of Genes and Genomes] Pfam Proteindomänen-Familien 13

UniProtKB-Suche: Beispiel Q4JV96 - Tools führen zum BLAST-Server des NCBI bzw. zum ExPASy-Server des SIB 14

ExPASy (Expert Protein Analysis System) - ProtParam Zahlreiche Protein-Parameter (Auswahl der gesamten Proteinkette (chain) ) Länge Molekulargewicht (Masse) Theoretischer pi (isoelektrischer Punkt) Aminosäureverteilung (mit Ladungsverteilung) Atomare Zusammensetzung, chemische Summenformel Extinktionskoeffizient Halbwertzeit (Proteindegradationsrate) Instabilitätsindex... 15

ExPASy Hauptseite (http://www.expasy.org/) - Tools Einzelne Tools in der Übung! 16

Proteindomänen und Proteinfamilien Domänen sind wiederkehrende modulare Bausteine von Proteinen. Durch verschiedene Kombinationen von Domänen entstehen Proteine mit unterschiedlichen Eigenschaften. Ziel: alle existierenden Domänen katalogisieren, analysieren Proteinfamilien Eine Domäne oder eine bestimmte Kombination von Domänen kann eine bestimmte Familie von Proteinen charakterisieren. Datenbanken zu Domänen Pfam: http://pfam.sanger.ac.uk/ protein families SMART: http://smart.embl-heidelberg.de/ simple modular architecture research tool 17

Modellierung von Proteindomänen Wie kann man eine Domäne beschreiben? Aminosäuresequenz (Konsensus + Variationsmöglichkeiten) Sequenz angeben, evtl. mehrere Symbole pro Position (nicht sehr nützlich wg. Variationen) multiples Alignment aus bekannten Beispiel-Sequenzen Beispiel folgt statistisches Modell (Hidden-Markov Model, HMM) Beispiel folgt 18

Beschreibung durch Multiples Alignment Beispiel: Serpin-Domäne (Serin Protease Inhibitor) 19

Beschreibung durch HMM Hidden Markov Model (HMM) Stochastisches generatives Modell: wird aus gegebenen Beispiel-Sequenzen (Alignment) erstellt kann weitere ähnliche Sequenzen generieren kann benutzt werden, um zu prüfen, ob eine neue Sequenz zum Modell passt (Berechne Wahrscheinlichkeit, dass HMM diese Sequenz generiert) Modellparameter Für jede Position wird angegeben: Wahrscheinlichkeit, Position auszulassen Aminosäure-Verteilung (Wahrscheinlichkeiten) Wahrscheinlichkeit, dahinter zusätzliche AS einzufügen Aminosäure-Verteilung der eingefügten AS 20

HMM (Profil-HMM) Visuelle Vorstellung nach Durbin, Eddy, Krogh, Mitchison: Biological Sequence Analysis Cambridge University Press Modellparameter Für jede Position wird angegeben: Wahrscheinlichkeit, Position auszulassen ( deletion - D) Aminosäure-Verteilung (Wahrscheinlichkeiten in M0, M1,...) Wahrscheinlichkeit, dahinter zusätzliche AS einzufügen ( insertion - I) Aminosäure-Verteilung der eingefügten AS (Wahrscheinlichkeiten in I0,...) 21

Visualisierung durch HMM-Logos Höhe der Türme: Grad der Konserviertheit Breite der Türme: Wahrscheinlichkeit, nicht ausgelassen zu werden Breite der roten Balken: Insertionswahrscheinlichkeit zwischen zwei Positionen 22

Spezielle Protein-Datenbanken jeweils auf eine Proteinfamilie zugeschnittene Datenbanken, enthalten viel Expertenwissen, meist von Hand gepflegt: wenige Einträge, aber qualitativ hochwertig http://www.gpcrdb.org 23

Zusammenfassung Protein-Sequenzdatenbanken UniProt (http://www.uniprot.org) Zugriff auf Analyse-Werkzeuge Links zu anderen Datenbaken (z.b. Gene, Strukturen) Protein-Sequenzanalyse ExPASy (Expert Protein Analysis System), via UniProt Vielzahl von nützlichen Werkzeugen Modellierung von Proteinen / Domänen Hidden Markov Modelle (HMMs) 24

Ausblick Ähnlichkeit, Alignments, Homologie Sequenzähnlichkeit Alignment von homologen Sequenzen Homologiesuche: BLAST; Statistik dazu BLAST-Statistik Multiple Alignments (Clustal) Alignment Algorithmen und Komplexität Proteinstruktur Sekundärstruktur Tertiärstruktur (3D) Quartärstruktur 25