Statistische Verfahren:

Ähnliche Dokumente

Maschinelles Lernen in der Bioinformatik

Aufabe 7: Baum-Welch Algorithmus

Anwendungen von HMM. Kapitel 1 Spezialvorlesung Modul (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

1 Part-of-Speech Tagging

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Das Dilemma des Einbrechers Wer die Wahl hat, hat die Qual!

Biochemisches Grundpraktikum. Elektrophoretische Trennung von Proteinen

Predictive Modeling Markup Language. Thomas Morandell

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Wir unterscheiden folgende drei Schritte im Design paralleler Algorithmen:

Konfigurationsanleitung Access Control Lists (ACL) Funkwerk. Copyright Stefan Dahler Oktober 2008 Version 1.0.

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

W-Rechnung und Statistik für Ingenieure Übung 11

Zufallsgrößen und Wahrscheinlichkeitsverteilungen

Virtuelles Coaching (VC) ist eine Mischung aus telefonischem Coaching begleitet durch die Eingabe in ein Online-Formular.

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

Grundlagen der Künstlichen Intelligenz

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Support-Tipp Mai Release Management in Altium Designer

Ermittlung von Tantiemen mittels Excel-Zielwertsuche für Bemessungsgrundlagen nach Gewerbesteuer und nach der Tantieme selbst

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Elementare Bildverarbeitungsoperationen

Steganographie mit Rastergrafiken

MATHEMATIK 3 STUNDEN. DATUM: 8. Juni 2009

Apparo Fast Edit Version im Vergleich zu Was ist neu?

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Was ist LDAP. Aufbau einer LDAP-Injection. Sicherheitsmaßnahmen. Agenda. LDAP-Injection. ITSB2006 WS 09/10 Netzwerkkonfiguration und Security

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Leistungen der Pflegeversicherung ab

Alignment-Verfahren zum Vergleich biologischer Sequenzen

SAP NetWeaver Gateway. 2013

Benutzerhandbuch - Elterliche Kontrolle

Christoph Fischer. DFKI Intelligente Netze. Optimierte Kanalauswahl in lokalen Funknetzen mittels SINR-basierter Algorithmen

Grammatiken. Einführung

PARK Berechnung der Energieproduktion

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Usability ohne Maus und ohne Bildschirm

Statistische Thermodynamik I Lösungen zur Serie 1

Satz 2.8.3: Sei Q eine Intensitätsmatrix. Dann hat die

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

Michelson-Interferometer. Jannik Ehlert, Marko Nonho

Algorithmische Bioinformatik

Zeichen bei Zahlen entschlüsseln

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Die Online-Bestandserhebung im LSB Niedersachsen

Fachhochschule Düsseldorf Wintersemester 2008/09

Netzwerkversion PVG.view

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version Optional einen DHCP Server.

Lineare Gleichungssysteme

Tutorial: Homogenitätstest

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Additional Cycle Index (ACIX) Thomas Theuerzeit

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungen zur Softwaretechnik

Korrelation (II) Korrelation und Kausalität

Technische Universität München SS 2006 Fakultät für Informatik 12. Oktober 2006 Prof. Dr. A. Knoll. Aufgabe 1 Transferfragen (Lösungsvorschlag)

Repetitionsaufgaben: Lineare Gleichungen

Leit-Bild der Sonnenhofschule

Anwendungspraktikum aus JAVA Programmierung im SS 2006 Leitung: Albert Weichselbraun. Java Projekt. Schiffe Versenken mit GUI

SS 2005 FAU Erlangen Eine Wegeplanungs-Strategie. Jeremy Constantin, Michael Horn, Björn Gmeiner

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Mathematische Grundlagen der Informatik 2

Informatik II, SS 2018

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Informatik-Sommercamp Mastermind mit dem Android SDK

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein:

Methodenfehler im Morbi-RSA: Für alte und schwerkranke Menschen wird den Kassen zu wenig Geld zugewiesen

ERP-Evaluation systematisch und sicher zum optimalen ERP-System

Information Systems Engineering Seminar

Vorlesung. Informationsökonomik und die Theorie der Firma

Formale Sprachen und Grammatiken

OUTSOURCING ADVISOR. Analyse von SW-Anwendungen und IT-Dienstleistungen auf ihre Global Sourcing Eignung. Bewertung von Dienstleistern und Standorten

Studienplatzbeschaffung

Multicast Security Group Key Management Architecture (MSEC GKMArch)

Inhaltsverzeichnis. - Beschreibung - Rendite - Kaufpreis - Stückzinsen - Verzinsung - Rendite - Berechnung. - Fazit. Beschreibung

PowerPoint 2010 Mit Folienmastern arbeiten

KUNDEN- UND MITARBEITERGESCHENKE

How to do? Projekte - Zeiterfassung

HelpMatics Survey. Survey. Das Tool für Ihre Mitarbeiterbefragung

Einführung in QtiPlot

ecall sms & fax-portal

Fragen und Antworten

Seminar Werkzeuggestütze. tze Softwareprüfung. fung. Slicing. Sebastian Meyer

» Export von Stud.IP-Daten auf eigene Web-Seiten» Workshop Donnerstag,

Kapitel 3: Etwas Informationstheorie

Grundlagen der Theoretischen Informatik, SoSe 2008

Transkript:

Statistische Verfahren: Hidden-Markov-Modelle für Multiples Alignment Stochastic Context-Free Grammars (SCFGs) für RNA-Multiples Alignment

Übersicht 1 1. Hidden-Markov-Models (HMM) für Multiples Alignment 1.1 Markov Chains 1.2 Hidden Markov Models: Parameter estimation HMM model structure 1.3 Pair HMMs 1.4 Profile HMMs 1.5 Multiples Alignment 1.6 Beispiel: HMM for local sequence-structure correlations in proteins

Übersicht 2 2. Stochastic Context-Free Grammars für RNA-Multiples Alignment 2.1 Transformational Grammars Regular Grammars Context-Free Grammars 2.2 Covariance models: Ungapped RNA SCFG Covariance Model (CM) 2.3 Beispiel: SCFGs für trna Modeling

Fragestellung Gehört eine Sequenz zu einer bestimmten Familie? Angenommen die Sequenz gehört zu einer bestimmten Familie, was kann über ihre innere Struktur gesagt werden?

1.1 Markov Chains Transition Probabilities: a st = P(x i =t x i-1 =s) Wahrscheinlichkeit der Sequenz x mit der Länge L: P(x) = P(x L,x L-1,...,x 1 ) = P(x L x L-1,...,x 1 ) P(x L-1 x L-2,...,x 1 ) P(x 1 ) = P(x L x L-1 ) P(x L-1 x L-2 ) P(x 2 x 1 ) P(x 1 ) = P(x 1 ) P a xi-1 x i i=2 L

Anwendung von Markov Chains Maximum likelihood estimators for the transition state probabilities: c + st a + st = S t c + st Log-odds ratio: P(x model +) S(x) = log P(x model -) L a + x i-1 x i L = S log = S b xi-1 x i i=1 a - x i-1 x i i=1

1.2 Hidden Markov Models Es gibt verschiedene Zustände (states). Die State Sequenz wird Path p genannt. a kl = P(p i = l p i-1 = k) Jeder State kann verschiedene Symbole (b) produzieren. Emission probability: e k (b) = P(x i =b p i = k) L P(x,p) = a 0p1 Pe pi (x i ) a pi-1 p i i=1

Wichtigste Algorithmen Viterbi Algorithmus - Berechnung des wahrscheinlichsten State Path Forward Algorithmus - Wahrscheinlichkeit einer Sequenz x innerhalb eines Models summiert für alle möglichen Paths Backward Algorithmus - Wahrscheinlichkeit, dass Symbol x i aus State k resultiert = Posterior Probability of state k at time i

Parameter Estimation 1 a) Mehrere Beispielsequenzen mit bekanntem Path (training data A kl a kl = S l A kl E k (b) e k (b) = S b E k (b ) A kl = number of transitions k to l in training data + r kl E k (b) = number of emissions of b from k in training data + r k (b) Pseudocounts!

Baum-Welch Training b) Training Sequenzen mit unbekanntem Path: Algorithmus: Baum-Welch Nutzt die Matrizenwerte aus dem Forward und dem Backward Algorithmus Optimiert iterativ die Parameter des Models (Transition und Emission Probabilities) Problem: Lokale Maxima!

HMM Model Structure Die Struktur muss dem jeweiligen Problem angepasst werden! Verhindern von bestimmten State Transitions => Problem der lokalen Maxima reduziert Die Länge einer Sequenz kann durch verschiedene Modelle beschrieben werden, in denen States mit Transitions zu sich selbst verknüpft sind. (Duration modelling) Einführung von Silent States, die kein Symbol emitieren => Reduktion der Anzahl an State transitions

1.3 Pair HMMs Jeder State besteht aus zwei Dimensionen i und j für die beiden Sequenzen. Es gibt 3 States: Match States M für ein Alignment von x i und y j States X für eine Insertion von x i (= Gap in Sequenz j) States Y für eine Insertion von y j Der Viterbi Algorithmus berechnet das optimale Alignment.

Anwendung von pair HMMs Local Alignment: Global Model flankiert durch zwei Kopien eines Random Models Forward Algorithmus: Wahrscheinlichkeit von zwei Sequenzen summiert über alle möglichen Alignments (Paths) => Wichtig bei geringer Ähnlichkeit Backward Algorithmus: Posterior Probability that x i is aligned to y i Identifikation suboptimaler Alignments

1.4 Profile HMMs Modell basiert auf bekanntem multiplen Alignment Ziel: Suche und Alignment neuer Sequenzen zu dieser Familie Position specific score matrix (PSSM): e i (a): Wahrscheinlichkeit das Symbol a in Position i zu beobachten (Emission Probability) Modell-Bildung: Match States Mj mit Emission Probability e Mi (a) Insert States Ij mit Emission Probability e Ii (a) (=q a ) Silent States Dj für Deletionen

1.5 Multiples Alignment Bekanntes Profile HMM: Viterbi Algorithmus findet den wahrscheinlichsten Path für jede Sequenz Insert States (oft mit geringer Homologie) werden vom Alignment ausgeschlossen!

Algorithmus Ziel: Modell UND multiples Alignment für zunächst unabhängige Sequenzen Initialisation: Choose the length of the profile HMM and initialise parameters. Training: Estimate the model using the Baum-Welch algorithm. It is usually necessary to use a heuristic method for avoiding local optima. Multiple Alignment: Align all sequences to the final model using the Viterbi algorithm and build a multiple alignment from the match states

Vermeidung lokaler Maxima Simulated Annealing: Die Wahrscheinlichkeit der verwendeten Sequenzen in Bezug auf die im Baum-Welch Verfahren geschätzten Parameter wird schrittweise maximiert, d. h. es werden zunächst auch Parametersätze mit geringer Wahrscheinlichkeit P(data q) zugelassen. Noise Injection: Zu den im Baum-Welch Verfahren iterativ geschätzten Parametern wird Rauschen addiert. Die Größe des Rauschens wird langsam verringert. Kombinationen beider Methoden

Local Sequence-Structure Correlations in Proteins I-sites: short sequence motifs correlating wit a local structural motif in proteins Model Building: I-sites motifs described as linear chain of Markov chains: each state is characterized by 4 categories of emission probabilities: 1. Amino acid 2. Secondary Structure (Helix, Turn, b-strand) 3. Backbone Angle 4. Structural Context (hairpin vs. diverging turn, middle vs. end-strand) Hierarchical Merging of motifs based on sequence and structure similari Training on sequences with known structure using different parameters Bystroff et al., 2000, JMB 301, 173-190

Applications Gene finding Secondary Structure prediction Local and super-secondary structure prediction Sequence design Sequence alignment Bystroff et al., 2000, JMB 301, 173-190

Topology of the model Bystroff et al., 2000, JMB 301, 173-190

2.1 Transformational Grammars Symbole Rewriting Rules (Productions) Terminal Symbols (a,b...) Blank terminal symbol e = end Abstract Nonterminals (S,W...) S fi as S fi bs S fi e S as abs abbs abb A) Regular Grammars Nur Rewriting Rules der Form W fi aw oder W fi a sind erlaubt. Stochastic grammars Jeder Rewriting Rule wird eine Wahrscheinlichkeit zugeordnet. Stochastic Regular Grammar = Hidden Markov Model!

B) Context-Free Grammars Jede Rewriting Rule der Form W fi b ist erlaubt. (b = any string of nonterminals and/or terminals) Die linke Seite darf nur aus einem Nonterminal bestehen, aber die rechte Seite kann irgendein String sein. Beschreibung von RNA Stem loops möglich: S fi SS S fi aw 1 u cw 1 g gw 1 c uw 1 a, W 1 fi... W x fi gaaa gcaa Parse Tree: Alignment einer CFG zu einer Sequenz

Vergleich HMM - SCFG Ziel HMM Algorithmus SCFG Algorithmus Optimal Alignment Viterbi CYK P(x q) forward inside Parameter Estimation forward-backward inside-outside Memory Complexity O(LM) O(L 2 M) Time Complexity O(LM 2 ) O(L 3 M 3 )

2.2 Covariance Models (CM) Entsprechen profile HMMs Ziel: modelling consensus RNA secondary structures SCFG models of ungapped RNA alignments: P fi awb pairwise (16 pair emission probabilities) L fi aw R fi Wa leftwise (4 singlet emission probabilities) rightwise (4 singlet emission probabilities) B fi SS bifurcation (probability 1) S fi W start (probability 1) E fi e end (probability 1) S L ab ass aps agpcs agulacs aguglacs agugalacs agugaalacs agugaaaeacs agugaaaacs...

Design eines CM Jeder Nonterminal eines ungapped SCFG wird zu einem Knoten (Node) mit verschiedenen States entsprechend der möglichen Matches, Insertionen oder Deletionen. Iterativer Prozess: - Bilde optimale CM Struktur - Bilde optimales Multiples Alignment

SCFGs for trna Modeling Training: Parameter Estimation with different sets of trna sequences Applications: Multiple Aligments of trnas Secondary Structure Prediction of trnas Discrimination of trnas and non-trnas Sakakibara et al., Technical Report 14, 1994