Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004

Größe: px

Ab Seite anzeigen:

Download "Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004"

Ralf Weiss
vor 7 Jahren
Abrufe

1 Theoretical Analysis of Protein-Protein Interactions Proseminar

2 Virtual Screening: Predicting Pairs from Sequence

3 Übersicht Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Zusammenfassung 3/29

Residue Neighbor Listen durch neuronale Netzwerke 2.

4 Einleitung Protein-Protein Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Ziel: Verständnis der physiologischen Funktion eines Proteins 4 Identifikation von Interfaces 4/29

Prozessen Ziel: Verständnis der physiologischen

5 Einleitung Spezifisches Problem: Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Sage die Residuen des ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen. 5/29

6 Merkmale von Interfaces unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen Unterschiedliche Interface-Arten haben unterschiedliche Merkmale große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche Protein-Interfaces sind segmentiert 6/29

Interface-Arten haben unterschiedliche Merkmale große Anzahl von hydrophoben

7 Merkmale von Interface-Residuen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen andere Aminosäure-Zusammensetzung als der Rest des Proteins nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) mutieren weniger häufig als andere Stellen der Protein- Oberfläche 7/29

als der Rest des Proteins nicht-polare Residuen häufiger in Interfaces als geladene und polare

8 Definitionen Oberflächen-Residue Residue: relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche Interface-Residue Residue: 1. Basierend auf der Reduktion der ASA: ASA Monomer - ASA Komplex <1 Å 2 ASA Monomer ASA Komplex 2. Abstands-basiert basiert: Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue 8/29

Basierend auf der Reduktion der ASA: ASA Monomer - ASA Komplex <1 Å 2 ASA Monomer ASA

9 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke Ziel: Entwicklung eines genauen Predictors für Interface- Residuen Input: Sequenzprofil und ASA einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden 9/29

einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Sammlung

10 Architektur der neuronalen Netzwerke 2 aufeinanderfolgende neuronale Netzwerke 4 2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führenf zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führenf Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist (0,1) sonst 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten Die Werte der 2. Output-Knoten sind entscheidend 10/29

Netzwerk: 420 Input-Knoten führenf zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führenf

Neural Network Predictor Input-Layer Hidden Layer Output-Layer Quelle: Zhou,, H.X. and Shan,, Y.B., (2001) Proteins, 44, 336-343. 343.

11 Neural Network Predictor Input-Layer Hidden Layer Output-Layer Quelle: Zhou,, H.X. and Shan,, Y.B., (2001) Proteins, 44, Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Vorherzusagende Residue: : L79 2 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue I x 1 >x 2 11/29

12 Performance der Methode Training Set: 615 Paare von nicht-homologen homologen komplex- bildenden Proteinen Oberflächen- Residuen ( IR, NIR) Test Set: 129 Paare Residuen, davon an der Oberfläche ( mit wenigstens einem Interface-Kontakt) Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit 65% der Residuen die die 129 Interfaces bilden 12/29

890 Residuen, davon 40.914 an der Oberfläche (11.805 mit wenigstens einem Interface-Kontakt) 11.

13 Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen 4 NN fürf r gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: Suche nach ungebundenen Formen fürf r die 129 Paare von Proteinketten 4 35 solcher Proteine als Test Set : Genauigkeit von 69% 13/29

gleiche Genauigkeit: Suche nach ungebundenen Formen fürf r die 129

14 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine 4 Vorhersage, ob Oberflächen-Residue = Interface- Residue,, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target- Proteins Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt 14/29

Identität der Ziel-Residue und ihrer 10 Sequenznachbarn einzige Strukturinformation: ASA der Residuen zur Identifizierung von

15 Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben 411-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite) Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde -11 sonst 15/29

Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite) Output: +1 wenn

16 Support Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) 4 Jede Target-Residue assoziiert mit 220-elementigen Vektor Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Learning Algorithmus generiert Klasse mit 220- elementigen Vektor als Input und gibt Klassenlabel aus 16/29

Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt

17 SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert Quelle: lectures.molgen.mpg.de/statistik/docs docs/kapitel_16.pdf 17/29

maximiert Quelle: http://lectures.molgen.mpg.

18 Maßstäbe für die Beurteilung der Methode TP (true( positives) = # vorhergesagte IR, die wirklich welche sind TN (true( negatives) = # vorhergesagte NIR, die wirklich keine sind FP (false( postitives) ) = # vorhergesagte IR, die aber NIR sind FN (false( negatives) = # vorhergesagte NIR, die aber IR sind N = TP + TN + FP + FN = # aller Vorhersagen 4 IR = TP + FN NIR = TN + FP 18/29

(false( postitives) ) = # vorhergesagte IR, die aber NIR sind FN (false( negatives) = #

19 Maßstäbe für die Beurteilung der Methode TP Sensitivität + = = 1- False Alarm Rate - TP + FN TN Sensitivität - = = 1- False Alarm Rate + TN + FP TP Spezifität + = TP + FP TN Spezifität - = TN + FN FN False Alarm Rate + = FP + TN FN False Alarm Rate - = FN + TP 19/29

Rate + TN + FP TP Spezifität + = TP + FP TN Spezifität - = TN + FN

20 Erklärungen Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Spezifität: : wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt 20/29

vorhergesagten IR wurden richtig vorhergesagt False positive

21 Genauigkeit TP + TN N = Gesamtwahrscheinlichkeit, dass eine Vorhersage korrekt ist r = (TP TP * TN - FP * FN + FN)(TP + FP)(TN + FP)(TN + FN) Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen 11 bei positiver Korrelation -11 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.) 21/29

22 Performance der Methode 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) Oberflächen-Residuen (3727 IR, 8949 NIR) 115 jack-knife knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: Spezifität 71% Sensitivität von 67% False Alarm Rate von 35,9% Korrelationskoeffizient von /29

23 23/29

24 24/29

25 25/29

26 26/29

27 27/29

28 Zusammenfassung Direkter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente untersützen Ergebnisse und einzigartige Kompositionen der interagierenden Residuen 4 Interfaces allein aus der Sequenz bestimmbar 28/29

29 Quellen Ofran,, Y. and Rost, B., (2003) FEBS Let,, 544, Predicted Protein-Protein Interaction Sites from Local Sequence Information. Zhou,, H.X. and Shan,, Y.B., (2001) Proteins, 44, Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Yan,, C., Honavar,, V., and Dobbs,, D., (2002). Predicting Protein-Protein Interaction Sites from Amino Acid Sequence. 29/29

Ähnliche Dokumente

Protein-Protein Bindungsstellen. Lennart Heinzerling

Protein-Protein Bindungsstellen Lennart Heinzerling 1 Worum geht es in den nächsten 45 Minuten? Auffinden von Protein- Protein Komplexen aus einer großen Menge potentieller Komplexe z.b. für -Interaction