Comperative Protein Structure Modelling of Genes and Genomes

Größe: px

Ab Seite anzeigen:

Download "Comperative Protein Structure Modelling of Genes and Genomes"

Linus Schneider
vor 6 Jahren
Abrufe

1 Comperative Protein Structure Modelling of Genes and Genomes Satisfaction of Spatial Restraints / Loop Modelling Nikolas Gross und Maximilian Miller Ludwig-Maximilians-Universität von 31

2 Table of Contents Idee und Grundlagen Berechnung Datenbank Protein Eigenschaften Satisfaction of Spatial Restraints 2 von 31

3 Idee Optimieren des 3D Modells durch aus dem Alignment gewonnenen Informationen über räumlichen Beschränkungen/Einschränkungen probability density functions (pdfs) für verschiedene Eigenschaften C α - C α Distanzen, Hauptkette N-O Distanzen, Seitenketten Winkel,... molecular pdf Kombination aus verschiednenen pdfs Optimierungsvorgang 3 von 31

4 Grundsätzlicher Ansatz 1. Alignment der unbekannten Sequenz mit verwandten Protein Strukturen/Segmenten 2. Benutzen des Alignments um räumlichen Einschränkungen zuzuweisen 3. Satisfaction of restraints um zum 3D Modell zu kommen 4 von 31

5 5 von 31

6 Grundlage von pdfs und räumliche Eigenschaften statistische Analyse der Beziehungen zwischen verschiedenen Eigenschaften der Proteinstruktur Datenbank aus Alignments zwischen Proteinfamilien um Beziehung zu quantifizieren Beziehungen werden als pdfs für die zu vorhersagende Eigenschaft bezeichnet WS für verschiedene Werte der Hauptkettenwinkel Typ des Rests Hauptkettenkonformation eines entsprechenden Restes Sequenzähnlichkeut der zwei Proteine 6 von 31

7 Derivation of Spatial Restraints I restraint definiert als probability density function p(x), wobei x die Eigenschaft ist die eingeschränkt wird Kann von jeder Art sein, einzige Einschränkungen: nicht-negativ Integral = 1 für alle möglichen x p(x 1 x < x 2 ) = x 2 x 1 p(x) dx mehr Informationsgehalt durch Darstellung eines restraints in Form einer pdf 7 von 31

8 pdf Darstellung 8 von 31

9 Derivation of Spatial Restraints II Berechnung von pdfs: Analytisch durch Statistische und klassische Verfahren Empirisch mit Datenbank bekannter Proteine pdf für bestimmte Eigenschaft x: p(x a, b,..., c) pdf für Vorhersage des Seitenkettenwinkels χ 1 für einen Rest mit Hauptkettenwinkeln Φ und Ψ p(χ 1 residuetype, Φ, Ψ) 9 von 31

10 Derivation of Spatial Restraints III Real nur Näherungsweise Bestimmung von p(x a, b,..., c) möglich: = p(x a, b,..., c) W x,a,b,...,c f (x, a, b,..., c, q) W : beobachtete relative Häufigkeiten von x gegeben a,b,...,c f : analytische Funktion angepasst an beobachtetes W params q : Methode der kleinsten Quadrate W berechnet aus den absoluten Häufigkeiten W 10 von 31

11 Datenbank - Aufbau Familien verwandter Proteine (früher Brookhaven Protein Datenbank PDB) Überarbeitung (deletion of records of non-protein atoms, duplications,...) Multiple Alignments mit COMPARER Erstellung von pdfs durch MDT Fitting der pdfs f durch LSQ 11 von 31

12 Datenbank - Zusammensetzung Alle 4 Strukturklassen: α, β, α + β, α/β 12 von 31

13 13 von 31

14 Protein Eigenschaften Auszüge aus Protein Eigenschaften r : Aminosäure t : Sekundärstruktur Klasse M : Hauptkettenkonformation r : Löslichkeit/Zugänglichkeit d : C α - C α Distanzen R : X-Ray Auflösung 14 von 31

15 Details zu Proteineigenschaften Stückweise Sequenzidentität zwischen Proteinen Anzahl der Paare identischer Reste im Alignment Länge der kürzeren Proteinsequenz Löslichkeit/Zugänglichkeit Contact-Areas für Haupt- oder Seitenkette oder ganzen Rest können verwendet werden Berechnung durch PSA Fractional Contact Area durch Standardisieren mit entsprechender Gly-X-Gly Contact Area 15 von 31

16 Problem bei kleinem Datenset Berechnung der Wahrscheinlichkeiten W aus Häufigkeiten W setzen hohe Häufigkeiten vorraus Problem: Datenbankgröße limitiert sparse Matrix W Heute: Datenbanken enthalten genug Informationen nicht mehr relevant! 16 von 31

17 Signifikanz / Assoziation zweier Eigenschaften Signifikant basierend auf vielen Daten Stärke gemessen an Entropie der bedingten pdf Weiterhin unterscheidung zwischen Präzision und Genauigkeit von Vorhersagen Präzise Unterschiede zwischen Realisationen einer Vorhersage gering falls im Mittel weit weg von realer Struktur trotzdem ungenau 17 von 31

18 Was ist die beste pdf? beste pdf beste Vorhersage für unbekannte Eigenschaft Gegeben ein großes, repräsentatives Datenset: präzisestes pdf allgemein auch genauestes pdf Suche nach denjenigen Eigenschaften, die die Entropie S einer dazugehörigen bedingten pdf minimieren 18 von 31

19 Details: Distanz zwischen zwei C α Atomen Berechnung der Verteilung der Differenz der Abstände aus Datenbank (MDT): d (bekannt) - d (unbekannt) 4 Variablen: d C α - C α Distanz der bekannten Struktur i Sequenzidendität der alignierten Sequenzen a average solvent accessibility der umgebenden Reste g durchschnittliche Distanz umgebender Reste einer Lücke p d ( ( d/g, i, a, d ) 1 = (d/g,i,a,d ) x exp[ 1 2π 2 d d σ(g,i,a,d ) ) 2 ] 19 von 31

20 Details: Distanz zwischen zwei C α Atomen 20 von 31

21 Details: Hauptkettenkonformation eines Rests Jede der 6 Konformationsklassen A, B, P, G, L, E kann Verteilung der Hauptkettenwinkel durch Gauss Verteilung approximiert werden w i = WS, das der einzuschränkende Rest zur Konformationsklasse i gehört pdfs für Φ und Ψ als gewichtete Summe der 6 Gauss Verteilungen mit Gewichtung w i Bestimmung von w i durch Datenbank und MDT 21 von 31

22 Details: Hauptkettenkonformation eines Rests 22 von 31

23 Satisfaction of Spatial Restraints Bisher: Erstellung von pdfs durch stereochemische Überlegungen Jetzt: Kombination der einzelnen pdfs zur Vorhersage eines 3D-Modells Optimierung der molecular pdf Verstöße gegen gegebene Einschränkungen werden minimiert 23 von 31

24 Satisfaction of Spatial Restraints - feature pdf feature: beliebiges Maß in Zusammenhang mit einem bestimmten set aus Atomen Distanz zwischen Atomen i,j Winkel zwischen i,j,k feature pdf : kombiniert Informationen über alle möglichen Werte von f ein feature durch mehrere pdfs eingeschränkt sein molecular pdf wird aus feature pdfs aufgebaut 24 von 31

25 Satisfaction of Spatial Restraints - Beispiel Beispiel: feature pdf für bestimmte C α - C α Distanz in einer gegebenen Sequenz zwei bekannte Sequenzen zwei zusammenhängende pdfs weiter engeschränkt durch v.d.w.-kriterium somit Kombinierung dreier basis pdfs in ein feature pdf 25 von 31

26 Satisfaction of Spatial Restraints - Beispiel In der Praxis Kombination zusammenhängender pdfs durch gewichtete Summierung Gewichtung durch Average residue neighbourhood difference weitere Information (z.b. v.d.w.-kriterium) wird hineinmultipliziert Unterschied bei Haupt- und Nebenkettenkonformation: residue neighbourhood difference 26 von 31

27 Satisfaction of Spatial Restraints - Beispiel molecular pdf: Produkt der feature PDFs P = i=1 pf (f i ) also: bestes 3D-Modell durch Maximierung von P (mit Standardverfahren) 27 von 31

28 Modelling von Trypsin Modelling von Trypsin durch zwei Serinproteasen Elastase Tonin 39 Modelle durch 39 verschiendene Anfangskonformationen Auswahl von 11 Modellen mit niedrigen Werten einer objective function Modell mit niedrigstem Wert repräsentatives Modell 28 von 31

29 Modelling von Trypsin Bestes Modell verglichen mit realer Struktur von Trypsin 29 von 31

30 Spatial Restraints in MODELLER restraints.make() features.distance(*atom ids) features.angle(*atom ids) features.minimal distance(*atom ids) features.solvent access(*atom ids) 30 von 31

31 Quellen Comparative Protein Modelling by Satisfaction of Spatial Restraints (Andrej Sali and Tom L. Blundell) J. Mol. Biol. (1993) 234, MODELLER: 31 von 31

Ähnliche Dokumente

Threading - Algorithmen

Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität