Statistische Verfahren: Hidden-Markov-Modelle für Multiples Alignment Stochastic Context-Free Grammars (SCFGs) für RNA-Multiples Alignment
Übersicht 1 1. Hidden-Markov-Models (HMM) für Multiples Alignment 1.1 Markov Chains 1.2 Hidden Markov Models: Parameter estimation HMM model structure 1.3 Pair HMMs 1.4 Profile HMMs 1.5 Multiples Alignment 1.6 Beispiel: HMM for local sequence-structure correlations in proteins
Übersicht 2 2. Stochastic Context-Free Grammars für RNA-Multiples Alignment 2.1 Transformational Grammars Regular Grammars Context-Free Grammars 2.2 Covariance models: Ungapped RNA SCFG Covariance Model (CM) 2.3 Beispiel: SCFGs für trna Modeling
Fragestellung Gehört eine Sequenz zu einer bestimmten Familie? Angenommen die Sequenz gehört zu einer bestimmten Familie, was kann über ihre innere Struktur gesagt werden?
1.1 Markov Chains Transition Probabilities: a st = P(x i =t x i-1 =s) Wahrscheinlichkeit der Sequenz x mit der Länge L: P(x) = P(x L,x L-1,...,x 1 ) = P(x L x L-1,...,x 1 ) P(x L-1 x L-2,...,x 1 ) P(x 1 ) = P(x L x L-1 ) P(x L-1 x L-2 ) P(x 2 x 1 ) P(x 1 ) = P(x 1 ) P a xi-1 x i i=2 L
Anwendung von Markov Chains Maximum likelihood estimators for the transition state probabilities: c + st a + st = S t c + st Log-odds ratio: P(x model +) S(x) = log P(x model -) L a + x i-1 x i L = S log = S b xi-1 x i i=1 a - x i-1 x i i=1
1.2 Hidden Markov Models Es gibt verschiedene Zustände (states). Die State Sequenz wird Path p genannt. a kl = P(p i = l p i-1 = k) Jeder State kann verschiedene Symbole (b) produzieren. Emission probability: e k (b) = P(x i =b p i = k) L P(x,p) = a 0p1 Pe pi (x i ) a pi-1 p i i=1
Wichtigste Algorithmen Viterbi Algorithmus - Berechnung des wahrscheinlichsten State Path Forward Algorithmus - Wahrscheinlichkeit einer Sequenz x innerhalb eines Models summiert für alle möglichen Paths Backward Algorithmus - Wahrscheinlichkeit, dass Symbol x i aus State k resultiert = Posterior Probability of state k at time i
Parameter Estimation 1 a) Mehrere Beispielsequenzen mit bekanntem Path (training data A kl a kl = S l A kl E k (b) e k (b) = S b E k (b ) A kl = number of transitions k to l in training data + r kl E k (b) = number of emissions of b from k in training data + r k (b) Pseudocounts!
Baum-Welch Training b) Training Sequenzen mit unbekanntem Path: Algorithmus: Baum-Welch Nutzt die Matrizenwerte aus dem Forward und dem Backward Algorithmus Optimiert iterativ die Parameter des Models (Transition und Emission Probabilities) Problem: Lokale Maxima!
HMM Model Structure Die Struktur muss dem jeweiligen Problem angepasst werden! Verhindern von bestimmten State Transitions => Problem der lokalen Maxima reduziert Die Länge einer Sequenz kann durch verschiedene Modelle beschrieben werden, in denen States mit Transitions zu sich selbst verknüpft sind. (Duration modelling) Einführung von Silent States, die kein Symbol emitieren => Reduktion der Anzahl an State transitions
1.3 Pair HMMs Jeder State besteht aus zwei Dimensionen i und j für die beiden Sequenzen. Es gibt 3 States: Match States M für ein Alignment von x i und y j States X für eine Insertion von x i (= Gap in Sequenz j) States Y für eine Insertion von y j Der Viterbi Algorithmus berechnet das optimale Alignment.
Anwendung von pair HMMs Local Alignment: Global Model flankiert durch zwei Kopien eines Random Models Forward Algorithmus: Wahrscheinlichkeit von zwei Sequenzen summiert über alle möglichen Alignments (Paths) => Wichtig bei geringer Ähnlichkeit Backward Algorithmus: Posterior Probability that x i is aligned to y i Identifikation suboptimaler Alignments
1.4 Profile HMMs Modell basiert auf bekanntem multiplen Alignment Ziel: Suche und Alignment neuer Sequenzen zu dieser Familie Position specific score matrix (PSSM): e i (a): Wahrscheinlichkeit das Symbol a in Position i zu beobachten (Emission Probability) Modell-Bildung: Match States Mj mit Emission Probability e Mi (a) Insert States Ij mit Emission Probability e Ii (a) (=q a ) Silent States Dj für Deletionen
1.5 Multiples Alignment Bekanntes Profile HMM: Viterbi Algorithmus findet den wahrscheinlichsten Path für jede Sequenz Insert States (oft mit geringer Homologie) werden vom Alignment ausgeschlossen!
Algorithmus Ziel: Modell UND multiples Alignment für zunächst unabhängige Sequenzen Initialisation: Choose the length of the profile HMM and initialise parameters. Training: Estimate the model using the Baum-Welch algorithm. It is usually necessary to use a heuristic method for avoiding local optima. Multiple Alignment: Align all sequences to the final model using the Viterbi algorithm and build a multiple alignment from the match states
Vermeidung lokaler Maxima Simulated Annealing: Die Wahrscheinlichkeit der verwendeten Sequenzen in Bezug auf die im Baum-Welch Verfahren geschätzten Parameter wird schrittweise maximiert, d. h. es werden zunächst auch Parametersätze mit geringer Wahrscheinlichkeit P(data q) zugelassen. Noise Injection: Zu den im Baum-Welch Verfahren iterativ geschätzten Parametern wird Rauschen addiert. Die Größe des Rauschens wird langsam verringert. Kombinationen beider Methoden
Local Sequence-Structure Correlations in Proteins I-sites: short sequence motifs correlating wit a local structural motif in proteins Model Building: I-sites motifs described as linear chain of Markov chains: each state is characterized by 4 categories of emission probabilities: 1. Amino acid 2. Secondary Structure (Helix, Turn, b-strand) 3. Backbone Angle 4. Structural Context (hairpin vs. diverging turn, middle vs. end-strand) Hierarchical Merging of motifs based on sequence and structure similari Training on sequences with known structure using different parameters Bystroff et al., 2000, JMB 301, 173-190
Applications Gene finding Secondary Structure prediction Local and super-secondary structure prediction Sequence design Sequence alignment Bystroff et al., 2000, JMB 301, 173-190
Topology of the model Bystroff et al., 2000, JMB 301, 173-190
2.1 Transformational Grammars Symbole Rewriting Rules (Productions) Terminal Symbols (a,b...) Blank terminal symbol e = end Abstract Nonterminals (S,W...) S fi as S fi bs S fi e S as abs abbs abb A) Regular Grammars Nur Rewriting Rules der Form W fi aw oder W fi a sind erlaubt. Stochastic grammars Jeder Rewriting Rule wird eine Wahrscheinlichkeit zugeordnet. Stochastic Regular Grammar = Hidden Markov Model!
B) Context-Free Grammars Jede Rewriting Rule der Form W fi b ist erlaubt. (b = any string of nonterminals and/or terminals) Die linke Seite darf nur aus einem Nonterminal bestehen, aber die rechte Seite kann irgendein String sein. Beschreibung von RNA Stem loops möglich: S fi SS S fi aw 1 u cw 1 g gw 1 c uw 1 a, W 1 fi... W x fi gaaa gcaa Parse Tree: Alignment einer CFG zu einer Sequenz
Vergleich HMM - SCFG Ziel HMM Algorithmus SCFG Algorithmus Optimal Alignment Viterbi CYK P(x q) forward inside Parameter Estimation forward-backward inside-outside Memory Complexity O(LM) O(L 2 M) Time Complexity O(LM 2 ) O(L 3 M 3 )
2.2 Covariance Models (CM) Entsprechen profile HMMs Ziel: modelling consensus RNA secondary structures SCFG models of ungapped RNA alignments: P fi awb pairwise (16 pair emission probabilities) L fi aw R fi Wa leftwise (4 singlet emission probabilities) rightwise (4 singlet emission probabilities) B fi SS bifurcation (probability 1) S fi W start (probability 1) E fi e end (probability 1) S L ab ass aps agpcs agulacs aguglacs agugalacs agugaalacs agugaaaeacs agugaaaacs...
Design eines CM Jeder Nonterminal eines ungapped SCFG wird zu einem Knoten (Node) mit verschiedenen States entsprechend der möglichen Matches, Insertionen oder Deletionen. Iterativer Prozess: - Bilde optimale CM Struktur - Bilde optimales Multiples Alignment
SCFGs for trna Modeling Training: Parameter Estimation with different sets of trna sequences Applications: Multiple Aligments of trnas Secondary Structure Prediction of trnas Discrimination of trnas and non-trnas Sakakibara et al., Technical Report 14, 1994