Bioinformatik für Biochemiker

Ähnliche Dokumente
Die wichtigsten Bioinformatikdatenbanken. SwissProt, PDB, Scop, CATH, FSSP, PROSITE, Pfam

Bioinformatik für Biochemiker

MOL.504 Analyse von DNA- und Proteinsequenzen

Wichtige Themen aus der Vorlesung Bioinformatik II SS 2014

Proteinstrukturklassen α-helikale Proteine

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Proteinstrukturen: Faltung, Vergleich und Vorhersage

Übersicht. Aminosäuren I. BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

Luke Alphey. DNA-Sequenzierung. Aus dem Englischen übersetzt von Kurt Beginnen. Spektrum Akademischer Verlag

Bioinformatik I (Einführung)

From gene to 3D model

3 METHODEN. 3.1 Modellierung von Proteinstrukturen Sequenzanalyse

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

Statistische Verfahren:

Alignment von DNA- und Proteinsequenzen

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Informationsveranstaltung zum Übergang vom Grund- ins Hauptstudium für die gemeinsamen Bioinformatik-Studiengänge

Approximationsalgorithmen

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.

Von der Sequenz zur Funktion

Maschinelles Lernen und Data Mining: Methoden und Anwendungen

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Bioinformatik an der FH Bingen

Antimikrobielle Peptide als funktionale Moleküle für die Oberflächenbeschichtung

Vorlesung Einführung in die Bioinformatik

Gliederung. Tutorium zur Vorlesung. Gliederung. Gliederung. 1. Gliederung der Informatik. 1. Gliederung der Informatik. 1. Gliederung der Informatik

NP-Vollständigkeit. Krautgartner Martin ( ) Markgraf Waldomir ( ) Rattensberger Martin ( ) Rieder Caroline ( )

Das Briefträgerproblem

Empfohlene Literatur: Branden, C., Tooze, J.: Introduction to Protein Structure. Garland Publishing Inc. 1999

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Molekulare Mechanismen der Signaltransduktion

Bestimmung der Primärstruktur kleiner Moleküle mittels 1D-NMR-Spektroskopie

Komplexitätstheorie Einführung und Überblick (Wiederholung)

Versuch: Denaturierung von Eiweiß

1 Struktur von Biomolekülen

Approximation in Batch and Multiprocessor Scheduling

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

Kostenmaße. F3 03/04 p.188/395

Mathematik des Hybriden Monte-Carlo. Marcus Weber. Zuse Institute Berlin

Proteinsequenzen. Raumstruktur GPCR. G-Protein gekoppelte Rezeptoren

Einführung. Kapitel 1. Peter Becker (H-BRS) Operations Research I Sommersemester / 298

Vergleich von Methoden zur Rekonstruktion von genregulatorischen Netzwerken (GRN)

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É.

Genexpressionsregulation

Maschinelles Lernen in der Bioinformatik

Grenzwertanalyse. Domain-Testing. Ronny Schwierzinski, Bernd Rabe, Anna Bartwicki

Theoretische Grundlagen der Informatik

Softwarewerkzeuge der Bioinformatik

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Das Lastverteilungsproblem

Requirements Dokumentation Seminar- Requirements Engineering. Manoj Samtani Oliver Frank

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Skalierbare Webanwendungen mit Python und Google App Engine

Algorithmische Bioinformatik

3 Bioinformatik I, Einführung, Grundlagen

Zielgerichtete Therapie mit Olaparib bei BRCA1/2- Mutationsträgerinnen

Molekularfeldtheorie (MFT)

Die Sprache der Proteine Evolution konservierter Proteinstrukturen

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz

Informationsgehalt von Messungen von IR-Bildsensor und FTIR Spektrometer für die Bestimmung von CO2 und CO Säulengehalten über Vegetationsfeuern

Was ist Bioinformatik?

Bioinformatik für Biochemiker

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

13.5 Der zentrale Grenzwertsatz

Lazar (Lazy-Structure-Activity Relationships)

Alles zu seiner Zeit Projektplanung heute

Objektorientierte Programmierung

Applied Bioinformatics.

PCR basierte- Detektionstechniken

Inhaltsverzeichnis... I. Ein Vorwort... VII. Synopse der Arbeit... IX. Synopsis of the thesis... XIII

3. Ontologien und Wissensbasen

3. Quartärstruktur und Symmetrie. Lernziel:

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Archivierung von NGS-Daten Artefaktsammlung oder Datenschatz? Michael Nothnagel

Babeș-Bolyai Universität Cluj Napoca Fakultät für Mathematik und Informatik Grundlagen der Programmierung MLG5005. Paradigmen im Algorithmenentwurf

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words

Laufzeit und Komplexität

Vorlesung Anorganische Chemie

RNA Sekundärstruktur

Mathematik I Prüfung für den Übertritt aus der 9. Klasse

Faktorisierung ganzer Zahlen mittels Pollards ρ-methode (1975)

PR Statistische Genetik und Bioinformatik

Datenanalyse und abstrakte Visualisierung

Datenstrukturen und Algorithmen SS07

Beschreibungslogiken. Daniel Schradick

Transcriptomics: Analysis of Microarrays

Bioinformatische Suche nach pre-mirnas

VORANGEGANGENE MODELLE

Wasserstoffspeicherung

Semantic Web Technologies I

Biowissenschaftlich recherchieren

Molecular Modelling. Molekulare Mechanik-Simulationen am Beispiel von DNA-Ligand-Komplexen

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Proteine: Das Faltungsproblem

Transkript:

Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 12. Threading Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard-Karls-Universität Tübingen Gliederung Begriffe und Definitionen Faltungsklassen Datenbanken: SCOP, CATH Threading Threading Threading als Alignment-Problem Potentiale zum Threading Komplexität des Threading-Problems Algorithmen Qualität der Resultate Exkurs: Faltungsklassen α nur Helices β nur Faltblätter PDB: 1AEW PDB: 1VCA 1

Exkurs: Faltungsklassen α β: Helices und Faltblätter in der Sequenz getrennt, Faltblätter meist durch Turns verbunden Ubichinon-konjugierendes Enzym (1UB9) Staphylokokken-Nuklease (2SNS) Exkurs: Faltungsklassen α β: Faltblatt mit verbindenden Helices (basierend auf dem β-α-β-motiv) TIM barrel (TIM = Triosephosphatisomerase) β-α-β-motiv PDB: 1TIM Exkurs: Faltungsklassen Es gibt eine ganze Hierarchie von typischen Faltungsmustern Ein sehr bekanntes Fold ist z.b. das TIM-Barrel (Triosephosphatisomerase) Eine Reihe von Proteinen nimmt dieses Fold an, das aus β-α-β- Motiven zusammengesetzt ist PDB: 1TIM 2

Datenbanken Die Datenbanken SCOP und CATH enthalten eine hierarchische Klassifikation von Proteindomänen nach ihren Strukturen ¼ 110.000 Domänen von ca. 38.000 PDB-Strukturen ¼ Faltungsklassen Anzahl Faltungsklassen in SCOP (02/2009) 284 α 174 β 147 α β 376 α + β 66 Multidomänen-Proteine 58 Membranproteine/Zelloberflächenproteine 90 Kleine Proteine 1195 Datenbanken CATH Datenbanken SCOP 3

Zwei Proteine, eine Faltungsklasse Mögliche Gründe Divergente Evolution Proteine sind evolutionär verwandt Häufig sehr geringe Sequenzähnlichkeit Konvergente Evolution Funktionelle Gemeinsamkeiten führen zu ähnlichen strukturellen Lösungen Sehr wenige Beispiele, häufig nur Ähnlichkeiten in kleinen Fragmenten (aktives Zentrum o.ä.) Fold Recognition Methods, In: Structural Bioinformatics (Hrsg.: P. E. Bourne, H. Weissig), Wiley, 2003 Zwei Proteine, eine Faltungsklasse Mögliche Gründe Begrenzte Anzahl Folds Anzahl der möglichen Faltungsklassen ist beschränkt (1000?) Proteine landen zufällig in der selben Klasse Fehlklassifizierung Scheinbare strukturelle Ähnlichkeit basiert auf falscher Klassifizierung SCOP, CATH und FSSP weisen z.b. nur in 60% der Fälle Identität in der Klassifizierung auf! Fold Recognition Methods, In: Structural Bioinformatics (Hrsg.: P. E. Bourne, H. Weissig), Wiley, 2003 Strukturvorhersage - Nomenklatur Fold Recognition: Threading: Gegeben Sequenz, finde Faltungsklasse Gegeben Sequenz, erzeuge grobes 3D-Modell Homologiemodellierung: Gegeben Sequenz + Template, konstruiere vollständiges Modell 4

Threading Schema Sek.-Strukt.- Vorhersage Sequenz- Suche Sequenz- DB Sekundär- Struktur Sequenz Homologe Mult. Alignment + Profile Alignment/ Profilkonstr. Struktur- DB Threading Modell Threading...LGFCYWS......ILVGCIL... Gegeben Eine (oder mehrere) Struktur(en) (Schablonen) Eine Zielsequenz Threading...LGFCYWS......ILVGCIL... Gesucht Zuordnung der Zielsequenz zu Positionen in der Schablonenstruktur ) Sequenz-Struktur-Alignment 5

Threading Probleme Proteine der selben Faltungsklasse differieren häufig in den Schleifenregionen (abgesehen von funktional wichtigen Loops, z.b. im aktiven Zentrum!) Konserviert sind meist nur Kernelemente der Struktur Länge und Beginn der Strukturelemente können auch differieren ) Alignment mit Gaps! Threading als Alignment Gegeben Zielsequenz x Schablone y Energiefunktion E Gesucht Global optimales Sequenz-Struktur-Alignment von x auf y Optimierungsproblem Suche nach dem Alignment minimaler Energie Welche Art von Energiefunktion? Potentialfunktionen Probleme Struktur auf atomarer Auflösung unbekannt (z.b. Seitenkettenpositionen unklar) Strukturen unvollständig (Lücken im Alignment) ) Energiefunktion mit reduzierter Auflösung (AS-Ebene) Wissensbasierte Energiefunktionen Knowledge-based potentials Abgeleitet aus Analyse von Strukturdatenbanken Inverse Boltzmannstatistik Häufigkeit des Auftretens in DB nähert Ensemblehäufigkeit Boltzmann-Verteilung liefert aus Häufigkeiten Energien ) Pseudo-Energien! ) Keine physikalischen Modelle notwendig! 6

Kontakte in Proteinen Definition Paarkontakt Reduktion des Proteins auf C α - oder C β -Positionen AS i, j in Kontakt, falls Abstand d(c βi, C βj ) d 0 (z.b. d 0 = 7 Å) Hilfskonstruktion für Gly (kein C β!) Sippl-Potential I WW-Energie E i,j zwischen zwei AS i, j als Funktion des C β - C β -Abstands d(i, j), der AS-Typen und des Sequenzabstands k Analyse einer Datenbank mit ~100 Proteinstrukturen Ableitung von Energien aus Häufigkeiten Boltzmann-Verteilung mit der Wahrscheinlichkeitsdichte ρ Annahme: In einem Ensemble von Strukturen sind die Interaktionsenergien Boltzmann-verteilt M. Sippl, J. Mol. Biol. (1990), 213, 859, M. Hendlich et al., J. Mol. Biol. (1990), 216, 167 Sippl-Potential II Inverser Boltzmann-Ansatz Approximation der Wahrscheinlichkeitsdichten aus beobachteten Häufigkeiten g Bestimmung von E a,bk (s) für alle AS-Kombinationen (a, b), Sequenzabstände k und (diskretisierte) Abstände s s k = 2 7

Sippl-Potential III Zustandssummen Q sind nicht aus der Datenbank zugänglich Annahme: Q k ¼ Q k ab ) ln (Q k ab /Q k ) = 0 Δ s [Å] s [Å] M. Sippl, J. Mol. Biol. (1990), 213, 859, M. Hendlich et al., J. Mol. Biol. (1990), 216, 167 Paar-Interaktions-Potentiale Vorteile Kein physikalisches Modell notwendig Rechnerisch sehr einfach (Nachsehen eines Tabelleneintrags) Keine Modellierung der Seitenketten notwendig Nachteile Sehr grobe Näherungen, da Aminosäure als Einheit betrachtet wird ) viele spezifische, seltener auftretende Effekte nicht erfassbar Abhängig von guten Strukturdatenbanken zur Parametrisierung Komplexität I Threading mit paarweisen Potentialen beliebigen Gaps ist NP-hart. Analog zu Faltungsproblem (Threading = inverses Faltungsproblem) Verursacht durch exponentielle Zahl möglicher Alignments und die Nichtlokalität der Potentialfunktion ( Wechselwirkung in der Sequenz beliebig angeordneter AA miteinander) ) paarweise Potentiale für Threading ungünstig! Lathrop, Protein Engin. (1994), 7, 1059 8

Komplexität II Threading mit Profilen (CCP) löst Nichtlokalität auf ) Gewöhnliches Alignment-Problem Mit DP in polynomieller Zeit lösbar (O(N 3 ) mit Needleman-Wunsch-Algorithmus) Sekundärstruktur-Präferenzen Gewöhnliche Sekundärstruktur- Vorhersagen Vorhersage der Sekundärstruktur- Elemente für Zielsequenz Bewertungsfunktion beschreibt wie groß die Präferenz der AS x i für die...ilvgcil......hhhhccs... Sekundärstruktur an der Zielposition ist Bewerte korrekte Sekundärstrukturen im Alignment günstig, unpassende ungünstig Gewichte Alignment mit den Präferenzen der jeweiligen AS für die Sekundärstruktur in Schablone Kontaktkapazitäts-Potentiale CCP (Contact Capacity Potential) Idee Zielstruktur und Schablone haben identisches Fold, damit auch ähnliche Chemie (z.b. Hydrophobizität) Hydrophobe Bereiche in der Schablone sollten von hydrophoben AS in der Zielsequenz ausgefüllt werden Hydrophobe Reste haben mehr Kontakte ( im Inneren ) Herleitung ähnlich wie Kontaktpotentiale Zählen der Reste in der Nähe einer Position der Schablone Unabhängig vom Typ des Rests an dieser Position in der Schablone Prinzipiell ein aus der Schablone abgeleitetes Profil für die AS- Präferenz an einer bestimmten Position Profil nicht abhängig von der zu threadenden Sequenz! 9

CCP vs. CP Lengauer, Zimmer, In: Bioinformatics: From Genomes to Drugs, T. Lengauer (Hrsg.), Wiley, 2002 Algorithmen (Auswahl) 123D (Alexandrov et al., 1996) Alignment (DP) mit CCP, Sekundärstrukturpräferenz SAM-T02 (Karplus et al., 2003) HMM/ANN-basierter Ansatz 3D-PSSM (Kelley et al., 2000) Sekundärstrukturpräferenzen, Solvationspotentiale, DP... 123D DP zur Berechnung eines optimalen Alignments mit Score match basierend auf Sekundärstrukturpräferenz l(i, j) Kontaktkapazitätspotential cc(i, j) Dabei sind i, j Indizes in der Zielsequenz bzw. der Schablone P cc, P ss CCP bzw. Sekundärstrukturpräferenz (s.o.) nc(j) Anzahl Kontakte an Schablonenposition j s(j) Sekundärstruktur an Schablonenposition j Alexandrov, Nussinov, Zimmer, Pac. Symp. Bioinf. (1996) 10

Sekundärstruktur-Präferenz Analog zu Chou & Fasman (Sekundärstruktur-Vorhersage) Größere Strukturdatenbank: N = 67.000 AS N(i, s) # AS vom Typ i (A, C...) in Klasse s (H, C, E) N(i) # AS vom Typ i in Datenbank N(s) # AS in Sekundärstruktur s in der Datenbank N # AS in Datenbank <N(i, s)> Erwartungswert für i in s Kontaktkapazitätspotentiale CCP in 123D Pcc(i, k) beschreibt den Beitrag zur hydrophoben freien Enthalpie von AS des Typs i, die k Kontakte in der Struktur ausbilden Dabei sind N(i) die Anzahl der AS von Typ i im Datensatz NC(k) die Anzahl der AS mit k Kontakten N die Gesamtzahl der AS Den Beitrag zur hydrophoben Energie eines Threadings erhält man dann leicht durch Summation über die Anzahl der Kontakte an der jeweiligen Schablonenposition. Abhängigkeit von der Potentialfkt. Optimalen Threadings von 1TIE und 8I1B auf die jeweils andere Struktur Vergleich der Potentiale von (1) Bryant & Lawrence (1993), (2) Maiorov & Crippen (1992), (3) Miyazawa & Jernigan (1985), (4) Sippl (1990, 1993), (5) White et al. (1994) 11

Beispiel Lysozyme sind eine Klasse zuckerspaltender Enzyme, die alle sehr ähnliche Strukturen haben Lysozym bildet die definierende Struktur für eine große Superfamilie von Proteinstrukturen Triviales Beispiel für Threading 1LZY Lysozym (Truthahn) 1IVM Lysoyzm (Maus) 57% Sequenzidentität ) sehr einfaches Problem! SCOP: Protein: Lysozyme from Turkey (Meleagris gallopavo) Lineage: Class: Alpha and beta proteins (a+b) Mainly antiparallel beta sheets (segregated alpha and beta regions) Fold: Lysozyme-like common alpha+beta motif for the active site region Superfamily: Lysozyme-like Family: C-type lysozyme Protein: Lysozyme ubiquitous in a variety of tissues and secretions Species: Turkey (Meleagris gallopavo) Beispiel Grau: 1IVM Gelb: 1IVM gethreaded auf 1LZY Blau: 1LZY Gelb: 1IVM gethreaded auf 1LZY Beispiel Einige Sekundärstrukturelemente zu sehr aus der Schablone übernommen Genauer Anfang/Ende von Helices/ Faltblättern generell schwierig (wie bei Sekundärstrukturvorhersage) Einige sehr gut erhaltene Loops Loops in Lysozym im aktiven Zentrum beteiligt Diese Loops sind hochkonserviert 12

Literatur + Links Literatur Ralf Zimmer, Thomas Lengauer: Structure Prediction, Chapter 5 in T. Lengauer (Hrsg.): Bioinformatics: From Genomes to Drugs, Wiley, 2002 Links CATH http://www.cathdb.info/ SCOP http://scop.berkeley.edu/ 3DPSSM http://www.sbg.bio.ic.ac.uk/~3dpssm/ WURST http://www.zbh.uni-hamburg.de/wurst/index.php 13