Theoretical Analysis of Protein-Protein Interactions Proseminar
Virtual Screening: Predicting Pairs from Sequence
Übersicht Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Zusammenfassung 3/29
Einleitung Protein-Protein Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Ziel: Verständnis der physiologischen Funktion eines Proteins 4 Identifikation von Interfaces 4/29
Einleitung Spezifisches Problem: Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Sage die Residuen des ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen. 5/29
Merkmale von Interfaces unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen Unterschiedliche Interface-Arten haben unterschiedliche Merkmale große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche Protein-Interfaces sind segmentiert 6/29
Merkmale von Interface-Residuen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen andere Aminosäure-Zusammensetzung als der Rest des Proteins nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) mutieren weniger häufig als andere Stellen der Protein- Oberfläche 7/29
Definitionen Oberflächen-Residue Residue: relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche Interface-Residue Residue: 1. Basierend auf der Reduktion der ASA: ASA Monomer - ASA Komplex <1 Å 2 ASA Monomer ASA Komplex 2. Abstands-basiert basiert: Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue 8/29
1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke Ziel: Entwicklung eines genauen Predictors für Interface- Residuen Input: Sequenzprofil und ASA einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden 9/29
Architektur der neuronalen Netzwerke 2 aufeinanderfolgende neuronale Netzwerke 4 2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führenf zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führenf Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist (0,1) sonst 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten Die Werte der 2. Output-Knoten sind entscheidend 10/29
Neural Network Predictor Input-Layer Hidden Layer Output-Layer Quelle: Zhou,, H.X. and Shan,, Y.B., (2001) Proteins, 44, 336-343. 343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Vorherzusagende Residue: : L79 2 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue I x 1 >x 2 11/29
Performance der Methode Training Set: 615 Paare von nicht-homologen homologen komplex- bildenden Proteinen 225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR) Test Set: 129 Paare 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit wenigstens einem Interface-Kontakt) 11.004 Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit 65% der 11.805 Residuen die die 129 Interfaces bilden 12/29
Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen 4 NN fürf r gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: Suche nach ungebundenen Formen fürf r die 129 Paare von Proteinketten 4 35 solcher Proteine als Test Set : Genauigkeit von 69% 13/29
2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine 4 Vorhersage, ob Oberflächen-Residue = Interface- Residue,, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target- Proteins Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt 14/29
Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben 411-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite) Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde -11 sonst 15/29
Support Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) 4 Jede Target-Residue assoziiert mit 220-elementigen Vektor Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Learning Algorithmus generiert Klasse mit 220- elementigen Vektor als Input und gibt Klassenlabel aus 16/29
SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert Quelle: http://lectures.molgen.mpg.de lectures.molgen.mpg.de/statistik/docs docs/kapitel_16.pdf 17/29
Maßstäbe für die Beurteilung der Methode TP (true( positives) = # vorhergesagte IR, die wirklich welche sind TN (true( negatives) = # vorhergesagte NIR, die wirklich keine sind FP (false( postitives) ) = # vorhergesagte IR, die aber NIR sind FN (false( negatives) = # vorhergesagte NIR, die aber IR sind N = TP + TN + FP + FN = # aller Vorhersagen 4 IR = TP + FN NIR = TN + FP 18/29
Maßstäbe für die Beurteilung der Methode TP Sensitivität + = = 1- False Alarm Rate - TP + FN TN Sensitivität - = = 1- False Alarm Rate + TN + FP TP Spezifität + = TP + FP TN Spezifität - = TN + FN FN False Alarm Rate + = FP + TN FN False Alarm Rate - = FN + TP 19/29
Erklärungen Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Spezifität: : wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt 20/29
Genauigkeit TP + TN N = Gesamtwahrscheinlichkeit, dass eine Vorhersage korrekt ist r = (TP TP * TN - FP * FN + FN)(TP + FP)(TN + FP)(TN + FN) Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen 11 bei positiver Korrelation -11 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.) 21/29
Performance der Methode 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR) 115 jack-knife knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: Spezifität 71% Sensitivität von 67% False Alarm Rate von 35,9% Korrelationskoeffizient von 0.29 22/29
23/29
24/29
25/29
26/29
27/29
Zusammenfassung Direkter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente untersützen Ergebnisse und einzigartige Kompositionen der interagierenden Residuen 4 Interfaces allein aus der Sequenz bestimmbar 28/29
Quellen Ofran,, Y. and Rost, B., (2003) FEBS Let,, 544, 236-239. 239. Predicted Protein-Protein Interaction Sites from Local Sequence Information. Zhou,, H.X. and Shan,, Y.B., (2001) Proteins, 44, 336-343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Yan,, C., Honavar,, V., and Dobbs,, D., (2002). Predicting Protein-Protein Interaction Sites from Amino Acid Sequence. 29/29