Theoretical Analysis of Protein-Protein Interactions. Proseminar SS 2004



Ähnliche Dokumente
Protein-Protein Bindungsstellen. Lennart Heinzerling

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo

Pareto optimale lineare Klassifikation

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Neuronale Netze. Christian Böhm.

, Data Mining, 2 VO Sommersemester 2008

Bioinformatik I (Einführung)

Bioinformatik I (Einführung)

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Bioinformatik I (Einführung)

Decision Tree Learning

Motiv und Domänensuche

Thema 8 Ein Schätzverfahren für das Wachstum von Gefäßnetzwerken auf der Grundlage von Zufallsgraphen. 2.Definitionen aus Graphentheorie

Data Mining und Maschinelles Lernen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

Docking von starren und flexiblen Proteinen

KURSTAG 25 QUALITÄT VON VORHERSAGEN

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Thumbs up? Sentiment Classification using Machine Learning Techniques

Kann SAS Ihre Handschrift lesen? Machine Learning am Beispiel von Stacked Denoising Autoencoders

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Neural Networks: Architectures and Applications for NLP

Vorlesung Methodische Grundlagen des Software-Engineering im Sommersemester 2013

INTELLIGENTE DATENANALYSE IN MATLAB

Threading - Algorithmen

Der Sprung in die Zukunft! Einführung in neuronale Netzwerke

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Einführung in die Bioinformatik: Lernen mit Kernen

Primärstruktur. Wintersemester 2011/12. Peter Güntert

6.2 Feed-Forward Netze

Diskriminatives syntaktisches Reranking für SMT

insara: Hierarchische Netzwerke zur Analyse, Visualisierung und Vorhersage von Struktur-Aktivitäts-Beziehungen

Multivariate Pattern Analysis. Jan Mehnert, Christoph Korn

Named Entity Recognition auf Basis von Wortlisten

A linear-regression analysis resulted in the following coefficients for the available training data

Gütemaße. T... true F... false P... positive N... negative CP... Computerdiagnose GS... Gold-Standard-Diagnose D GS D GS D CP TP FP _ D CP FN TN

Maschinelles Lernen: Symbolische Ansätze

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Rekurrente Neuronale Netze

INTEGER Visuelle Entscheidungsunterstützung bei der Auswertung von Daten aus sozialen Netzwerken

Projekt Maschinelles Lernen WS 06/07

Maschinelles Lernen: Symbolische Ansätze

Artificial Intelligence. Was ist das? Was kann das?

Maschinelles Lernen: Symbolische Ansätze

Chapter 6: Classification

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Machine Learning in Azure Hätte ich auf der Titanic überlebt? Olivia Klose Technical Evangelist, oliviaklose.

1 Einleitung. 2 Clustering

comparative structure prediction of ncrna molecules

5 Zusammenfassung ZUSAMMENFASSUNG

Wahrscheinlichkeitsrechnung und Statistik

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Maschinelles Lernen: Symbolische Ansätze


Simulation von Brownscher Dynamik und Assoziationsraten von PP-Komplexen. Alexander Baldauf Montag

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Personenerkennung. Harald Hauptseminarpräsentation. Harald Kirschenmann. Department Informatik. Department Informatik.

Algorithmische Methoden zur Netzwerkanalyse

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Klassifikation und Ähnlichkeitssuche

Bewegungsplanung für den vierbeinigen Roboter AMEE. Björn Bettzüche

Institut für Künstliche Intelligenz

Automatische Erkennung und Klassifikation von Körperhaltungen und Aktivitäten

Modellierung mit künstlicher Intelligenz

MRSA Typisierungen

Maschinelles Lernen: Symbolische Ansätze

Die Prognose regionaler Beschäftigung mit Neuronalen Netzen und Genetischen Algorithmen

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Übung 6: Structure Comparison 1

Kapitel 5: Ensemble Techniken

GP-Music: An Interactive Genetic Programming System for Music Generation with Automated Fitness

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel

Selbstständiges Lernen

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

MACHINE VISION KLASSIFIKATOREN VORTEILE UND HERAUSFORDERUNGEN AUSGEWÄHLTER METHODEN

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

BCDS Seminar. Protein Tools

Maschinelle Sprachverarbeitung

Phage-Display. Übersicht. Allgemeine Einführung Phage M13 Vektoren Bibliotheken Selektionsablauf Anwendungsmöglichkeiten.

Neural Networks: Architectures and Applications for NLP

V7 Modellierung von biomolekularen Komplexen

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 8, Henning Meyerhenke

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Vorlesung Biophysik I - Molekulare Biophysik Kalbitzer/Kremer/Ziegler

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

"Korrelation" bei Nominaldaten: Kontingenz

Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie

Binärbäume: Beispiel

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Oberflächennahe und ferne Gestenerkennung mittels 3D-Sensorik

Konvexe Hülle im R 3 + WSPD

Natural language processing

Transkript:

Theoretical Analysis of Protein-Protein Interactions Proseminar

Virtual Screening: Predicting Pairs from Sequence

Übersicht Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Zusammenfassung 3/29

Einleitung Protein-Protein Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Ziel: Verständnis der physiologischen Funktion eines Proteins 4 Identifikation von Interfaces 4/29

Einleitung Spezifisches Problem: Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Sage die Residuen des ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen. 5/29

Merkmale von Interfaces unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen Unterschiedliche Interface-Arten haben unterschiedliche Merkmale große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche Protein-Interfaces sind segmentiert 6/29

Merkmale von Interface-Residuen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen andere Aminosäure-Zusammensetzung als der Rest des Proteins nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) mutieren weniger häufig als andere Stellen der Protein- Oberfläche 7/29

Definitionen Oberflächen-Residue Residue: relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche Interface-Residue Residue: 1. Basierend auf der Reduktion der ASA: ASA Monomer - ASA Komplex <1 Å 2 ASA Monomer ASA Komplex 2. Abstands-basiert basiert: Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue 8/29

1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke Ziel: Entwicklung eines genauen Predictors für Interface- Residuen Input: Sequenzprofil und ASA einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden 9/29

Architektur der neuronalen Netzwerke 2 aufeinanderfolgende neuronale Netzwerke 4 2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führenf zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führenf Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist (0,1) sonst 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten Die Werte der 2. Output-Knoten sind entscheidend 10/29

Neural Network Predictor Input-Layer Hidden Layer Output-Layer Quelle: Zhou,, H.X. and Shan,, Y.B., (2001) Proteins, 44, 336-343. 343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Vorherzusagende Residue: : L79 2 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue I x 1 >x 2 11/29

Performance der Methode Training Set: 615 Paare von nicht-homologen homologen komplex- bildenden Proteinen 225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR) Test Set: 129 Paare 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit wenigstens einem Interface-Kontakt) 11.004 Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit 65% der 11.805 Residuen die die 129 Interfaces bilden 12/29

Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen 4 NN fürf r gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: Suche nach ungebundenen Formen fürf r die 129 Paare von Proteinketten 4 35 solcher Proteine als Test Set : Genauigkeit von 69% 13/29

2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine 4 Vorhersage, ob Oberflächen-Residue = Interface- Residue,, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target- Proteins Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt 14/29

Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben 411-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite) Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde -11 sonst 15/29

Support Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) 4 Jede Target-Residue assoziiert mit 220-elementigen Vektor Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Learning Algorithmus generiert Klasse mit 220- elementigen Vektor als Input und gibt Klassenlabel aus 16/29

SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert Quelle: http://lectures.molgen.mpg.de lectures.molgen.mpg.de/statistik/docs docs/kapitel_16.pdf 17/29

Maßstäbe für die Beurteilung der Methode TP (true( positives) = # vorhergesagte IR, die wirklich welche sind TN (true( negatives) = # vorhergesagte NIR, die wirklich keine sind FP (false( postitives) ) = # vorhergesagte IR, die aber NIR sind FN (false( negatives) = # vorhergesagte NIR, die aber IR sind N = TP + TN + FP + FN = # aller Vorhersagen 4 IR = TP + FN NIR = TN + FP 18/29

Maßstäbe für die Beurteilung der Methode TP Sensitivität + = = 1- False Alarm Rate - TP + FN TN Sensitivität - = = 1- False Alarm Rate + TN + FP TP Spezifität + = TP + FP TN Spezifität - = TN + FN FN False Alarm Rate + = FP + TN FN False Alarm Rate - = FN + TP 19/29

Erklärungen Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Spezifität: : wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt 20/29

Genauigkeit TP + TN N = Gesamtwahrscheinlichkeit, dass eine Vorhersage korrekt ist r = (TP TP * TN - FP * FN + FN)(TP + FP)(TN + FP)(TN + FN) Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen 11 bei positiver Korrelation -11 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.) 21/29

Performance der Methode 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR) 115 jack-knife knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: Spezifität 71% Sensitivität von 67% False Alarm Rate von 35,9% Korrelationskoeffizient von 0.29 22/29

23/29

24/29

25/29

26/29

27/29

Zusammenfassung Direkter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente untersützen Ergebnisse und einzigartige Kompositionen der interagierenden Residuen 4 Interfaces allein aus der Sequenz bestimmbar 28/29

Quellen Ofran,, Y. and Rost, B., (2003) FEBS Let,, 544, 236-239. 239. Predicted Protein-Protein Interaction Sites from Local Sequence Information. Zhou,, H.X. and Shan,, Y.B., (2001) Proteins, 44, 336-343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Yan,, C., Honavar,, V., and Dobbs,, D., (2002). Predicting Protein-Protein Interaction Sites from Amino Acid Sequence. 29/29