Bioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik

Transkript

1 Bioinformatik Multiple String Alignment I Ulf Leser Wissensmanagement in der Bioinformatik

2 BLAST2: Zwei-Hit-Strategie Original: Alle Hits mit Score > t werden zu MSPs verlängert Extensionen fressen >90% der gesamten Laufzeit Interessante Alignments sind immer wesentlich länger als die initialen Wörter Sprich: Man sollte mehr verlangen als nur ein Wort, bevor man die Extension beginnt Aber lange Seeds verringern die Sensitivität Neue Strategie Extension erfolgt nur, wenn zwei nicht-überlappende Hits auf einer Diagonale mit Abstand höchstens a gefunden wurden Dadurch werden weniger Extensions ausgeführt großer Performancegewinn Andererseits sinkt Sensitivität deswegen mit kleineren t arbeiten Performance verdoppelt bei gleichbleibender Sensitivität Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 2

3 Berechnung der Diagonalen Diagonale eines Hits: Subtraktion der Startkoordinaten in P und in S d(h 1 ) = xs 1 ys 1 d(h 2 ) = xs 2 ys 2 d(h 3 ) = xs 3 ys 3 = = (xs 1 +k) (ys 1 +k) = d(h 1 ) xs 3 xs 1 xs 2 P k h 3 h 1 h k 2 ys 1 ys 2 =ys 3 S Datenbank sequentiell nach Hits durchsuchen Pro Hit merkt man sich die Diagonale Pro Diagonale merken wir uns das Ende des letzten Hits Wenn ein neuer Hit folgt, testen wir auf Abstand a Paarbildung dadurch während (linearer) Hitsuche möglich Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 3

4 Lokale Smith-Waterman Erweiterung SW wird ausgehend von Seed-Point in beide Richtungen berechnet Abbruch bei Unterschreiten bestimmter Schranken (abhängig von bisherigen besten Treffern) Leere Zellen werden bei der Tabellenberechnung ignoriert Erweiterung des Banded Smith-Waterman Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 4

5 PSI-BLAST Erst einige Vorarbeiten Nur Skizzierung, keine genauen Algorithmen Kommt später genauer (PSM, MSA) Positionsspezifische Scoringmatrizen (PSM) Matches zählen unterschiedlich, je nach dem an welcher Position sie auftreten Wir ignorieren Gaps Es gibt keine Mismatches mehr, nur unterschiedlich gute Matches PSMs werden aus vielen Sequenzen abgeleitet zur Bestimmung der charakteristischen Positionen Beispiel Promoterregion aus SGDB (Bäckerhefe) Basen haben unterschiedliches Gewicht je nach der Position Alphabet Σ, Pattern P: erfordert Matrix M= Σ x P Position A C G T Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 5

6 Idee von PSI-BLAST Grundsätzliche Idee von PSI-BLAST 1. Benutze Start-PSM M berechnet aus Suchsequenz P 2. Durchsuche DB mit positionsspezifischer Bewertung nach M 3. Bilde ein multiples Alignment von allen Hits 4. Berechne daraus eine neue PSM M 5. M=M ; Gehe zu 2, wenn Stoppkriterien nicht erfüllt Erhöhung der Sensitivität PSI-BLAST findet auch weiter entfernte Homologien Zwitter zwischen Patternmatching / Homologiesuche Diese Suchen sind typisch zum Finden von Pattern in entfernt homologen Sequenzen Typischerweise manuell ausgeführt Viel Hexerei (=Heuristik) und Erfahrung notwendig PSI-BLAST versucht, diese Aufgabe zu automatisieren Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 6

7 BLAT Szenario Gesucht: Zu einer Maus-cDNA homologe cdnas bei Human Hintergrundwissen über Menschen und Mäuse Wenn es eine homologe Sequenz gibt, wird diese im Schnitt zu m% identisch sein und eine durchschnittliche Länge von h haben Frameshifts (Insertions/Deletions) sehr unwahrscheinlich Frage: Wie lang müssen Seeds aus P sein, damit wir mit sehr hoher Wahrscheinlichkeit mindestens einen Treffer in einer homologen Region finden, wenn es diese gibt? h S: AGGTAGACCAGTACTACTTACAGCA GACTACTTACGAACTAC TTACGAACTACTTACGACGTCAG m% Identität P: GGTCCTAA GATACTAACGATCCTAC GC Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 7

8 Trefferwahrscheinlichkeiten q=100, m und k variabel, a und g nicht notwendig Werte sind Wahrscheinlichkeit, dass mindestens ein perfekter Match in der Region vorkommt Voraussetzung: q > h Ein Match reicht Alignmentphase wird die ganze Region finden Ergebnis Bei erwarteter Sequenzähnlichkeit von M=97% findet man in einer homologen Region S von 100 Basen praktisch immer einen perfekten Match der Länge 13 mit dem entsprechenden Substring von P Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 8

9 Suchvariante 2 mehrere Hits Suche mit mehreren Hits Deutlich kompliziertere Statistik Falsch-Positiv Rate wird erheblich reduziert Aber Aufwand zum Finden der Paare / Mengen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/2004 9

10 Inhalt dieser Vorlesung Definition Motivation Domänen und Motive Proteinfamilien Multiples Sequenzalignment mit Sum-Of-Pair Zielfunktion Suchen mit MSAs MSA-Profile und deren Bewertung Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

11 Definition Bisher Immer Vergleich zweier Strings Alignment findet optimale Anordnung Jetzt Multipler Stringvergleich: Vergleich von k>2 Strings Definition Ein multiples Sequenzalignment (MSA) von k Strings S i, 1 i k, ist eine Tabelle mit k Zeilen und l Spalten, so dass In Zeile i steht String S i, mit beliebig eingefügten Leerzeichen Jedes Zeichen jedes S i steht in exakt einer Spalte In keiner Spalte stehen nur Leerzeichen Bemerkungen Das ist eine direkte Generalisierung des Alignment zweier Strings Es folgt, dass l Σ( S i ) (Warum?) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

12 Beispiel S 1 : M---AIDE----NKQKALAAALGQIEKQFGKGSIMRLGEDR-SMDVETISTGSLSLDI S 2 : MSDN KKQQALELALKQIEKQFGKGSIMKLGDG-ADHSIEAIPSGSIALDI S 3 : M----AINTDTSGKQKALTMVLNQIERSFGKGAIMRLGDA-TRMRVETISTGALTLDL S 4 : M DRQKALEAAVSQIERAFGKGSIMKLGGKDQVVETEVVSTRILGLDV S 5 : M------DE---NKKRALAAALGQIEKQFGKGAVMRMGDHE-RQAIPAISTGSLGLDI S 6 : MD KIEKSFGKGSIMKMGEE-VVEQVEVIPTGSIALNA S 7 : M AL------IE--FGKG--M--G L-- Uns interessieren natürlich möglichst gute MSAs Intuition Möglichst wenig Spalten wenig Leerzeichen Möglichst homogene Spalten hohe Übereinstimmung Exakte Definition später MSAs erfassen das Gemeinsame verschiedener Sequenzen Schwieriger zu fassen als paarweise Alignments Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

13 Motivation Alignment sucht ähnliche Sequenzen Da: ähnliche Sequenz ähnliche Struktur ähnliche Funktion MSA sucht das Ähnliche in vielen Sequenzen Argumentationsrichtung ist umgekehrt Start mit Sequenzen, deren ähnliche Funktion/Struktur bekannt ist MSA stellt fest, was das Gemeinsame dieser Sequenzen ist Domänen, Motive, Signaturen, Profile,... These: dieses Gemeinsame ist biologisch relevant Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

14 Motivation II Domänen sind oft nur schwach ausgeprägt Schon geringe Ähnlichkeiten können zu gleicher Funktion führen das definiert eine Domäne Alignment zweier Sequenzen wird keine auffällige Ähnlichkeit finden Wenn aber mehr Sequenzen vorhanden sind Findet ein MSA die (wenigen) Gemeinsamkeiten Sind diese auch statistisch signifikant Trennung des eventuell zufällig Gemeinsamen (Alignment) vom bedeutungsvoll Gemeinsamen (MSA) AAC GTG_AT_T_GAC TCGAGTGC_TTTACA_GT AAC GTG_AT_T_GAC TCGAGTGC_TTTACA_GT GCCG TGC_TA GTCG_ TTC_AGTGGACGTG GTA G GTGCA TGACC Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

15 Konservierte Domänen Gedankengang Gegeben: Proteine S 1,...,S k mit ähnlicher Funktion Z.B.: Können durch die Zellmembrane tunneln Annahme: identischer evolutionärer Ursprung Es gab einmal das Mutterprotein S S unterliegt Evolution Mutation, Rekombination und Selektion Abschnitte in S i, die trotz Evolution gleich blieben (konserviert sind), müssen wichtig sein Jede Veränderung hat offensichtlich zum Funktionsverlust geführt Andere Abschnitte dagegen sind nicht oder weniger wichtig Einige Annahmen... Gemeinsamer Ursprung Man kennt nicht alle Nachfahren des Mutterproteins, sondern nur ein paar Gewinner Sequenzen weiterer Organismen wichtig Modellorganismen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

16 Protein und DNA Proteindomänen Funktionaler Bindungsabschnitt Wichtiges strukturelles Element Signal zum Transport des Proteins Modifizierter Bereich... DNA Domänen Bindungsstellen für Proteine Genregulation Promotoren und Inhibitoren Signal für differenzielles Splicen... Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

17 Proteinfamilien Man unterteilt Proteine oft in Familien, Superfamilien, Klassen,... Diverse Klassifikationen vorhanden (CATH, SCOP,...) Idee X Proteine zerfallen in X.000 Klassen ähnlicher Funktion Untersuchung von Vertretern von Familien statt aller Proteine Verwendung Starte mit Proteinen gleicher/ähnlicher Funktion Finde das Gemeinsame durch MSA Suche damit nach weiteren Vertretern Modifiziere Familie entsprechend Iteriere, bis Zufriedenheit eintritt Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

18 Beispiel: SCOP Structural Classification of Proteins Hierarchische Anordnung Fold: Major structural similarity All Alpha, All Beta, Membrane proteins,... Superfamiliy: Probable common evolutionary origin Nucleotide-binding domain, Neurotransmitter-gated ion-channel pransmembrane pore,... Family: Clear evolutionarily relationship Globins, Death Domain, 4 families of Immunoglobulin... Protein Spezies Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

19 MSA Zielfunktion Zielfunktion beim einfachen Alignment war klar Möglichst wenig I,R,D Eventuell mit Substitutionsmatrix und differenzierten Kosten Eventuell mit spezieller Behandlung von Gaps Zielfunktion für MSA ist nicht so klar Score einer Spalte mit 2 T, zwei G und einem Leerzeichen? Angabe einer Substitutionsmatrix für k Sequenzen über Alphabet Σ würde O( Σ k+1 ) Werte erfordern Nicht machbar und biologisch nicht begründbar????????? AG_GG TCA _GAGGGCT GGAAT_A _TAGGTTTCA ATA TGTC_ Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

20 MSA Überblick Weg über Substitutionsmatrizen nicht gangbar Verschiedene alternative Vorschläge für Zielfunktionen existieren Maximiere die Summe aller paarweisen Alignments Maximiere die Summe der Alignments jeder Sequenz zu einer Consensussequenz Maximiere die Summe der Alignments folgend dem phylogenetischen Baum der Sequenzen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

21 Definitionen Definition Gegeben ein MSA M für Sequenzen S 1,...,S k. Aus M leitet man Alignments für alle Paare S i, S j, i j, wie folgt ab: Entferne aus M alle Zeilen außer i und j Entferne alle Spalten, die in i und j ein Leerzeichen enthalten Das Ergebnis ist das durch M induziertes Alignment für S i und S j Gegeben ein MSA M für Sequenzen S 1,...,S k. Der Sum-Of-Pairs Score für M (SP-Score) ist die Summe aller Scores von durch M induzierten paarweisen Alignments Das SP-Alignment Problem für Sequenzen S 1,...,S k sucht das MSA M, dessen SP-Score minimal ist Bemerkung Vergleich aller Sequenzen mit allen anderen Sequenzen Für die paarweisen Alignments kann man beliebige Substitutionsmatrizen benutzen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

22 Beispiel d/i = 1 r = 1 m = 0 AAGAA_A AT_AATG CTG_G_G AAGAA_A _ATAATG C_TGG_G } 14 } 16 Die Berechnung des SP-Scores für ein gegebenes M über k Sequenzen ist einfach Komplexität O(k 2 *max( S i )) Aber wie findet man M mit minimalem SP-Score? Ideen? Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

23 Dynamische Programmierung in k Dimensionen k = 2 2-dimensionale Matrix k = 3 3-dimensionale Matrix Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

24 Erinnerung Wir betrachten im Folgenden nur den Fall k=3 Alles andere wird sehr unübersichtlich... Grundidee der dynamischen Programmierung für zwei Sequenzen S 1, S 2 Berechnung des Alignment d(i,j) von S 1 [1..i] und S 2 [1..j] für steigende Werte (i, j) bis i= S 1 und j= S 2 Berechnung von d(i,j) aus d(i-1,j-1), d(i,j-1), d(i-1,j) Man verlängert d(i-1,j-1) um Match oder Mismatch... oder man verlängert d(i,j-1) um ein Insert... oder man verlängert d(i-1,j) um eine Deletion Statische Initialisierung der Werte d(i,0) und d(0,j) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

25 Dyn Prog. für SP-MSA Übertragung auf MSA Berechnung von d(i,j,k) aus d(i-1,j-1,k-1) d(i,j-1,k-1) d(i,j,k-1) d(i,j-1,k) d(i-1,j,k) d(i-1,j-1,k) d(i-1,j,k-1) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

26 Dyn Prog. für SP-MSA d(i-1,j-1,k-1) d(i,j-1,k-1) d(i,j,k-1) d(i,j-1,k) d(i-1,j,k) d(i-1,j-1,k) d(i-1,j,k-1) 1 G 2 A 3 C 1-2 C 3-1 G 2-3 C 1-2 A 3 C 1 G C 1 G 2 A 3 - Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

27 Analogie d(i,j-1,k) 1-2 C 3 - d(i-1,j,k-1) 1 G 2-3 C SP-Alignment von d(i,j-1,k) ist bekannt Wir erweitern dieses zu d(i,j,k) Dazu alignieren wir S 2 [j] zweimal mit Leerzeichen (Inserts) SP-Alignment von d(i- 1,j,k-1) ist bekannt Wir erweitern dieses zu d(i,j,k) Dazu alignieren wir ein Leerzeichen mit S 1 [i-1] und mit S 3 [k-1] Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

28 Formaler Theorem Gegeben Sequenzen S 1, S 2, S 3. Sei d a,b (i,j) der Score des optimalen Alignments von S a [1..i] mit S b [1..j] Sei d(i,j,k) der Score des SP-optimalen Alignments der Strings S 1 [1..i], S 2 [1..j], S 3 [1..k] Sei smatch, smis, sspace der Score für Match, Mismatch, Space Sei c ij = smatch, wenn S 1 (i) = S 2 (j), smis sonst Sei c ik = smatch, wenn S 1 (i) = S 3 (k), smis sonst Sei c jk = smatch, wenn S 2 (j) = S 3 (k), smis sonst Dann berechnet sich d(i,j,k) als d(i, j, k) = min d(i - 1, j - 1, k - 1) + c ij + c ik + c jk d(i - 1, j - 1, k) + c ij + 2*sspace d(i - 1, j, k - 1) + c ik + 2*sspace d(i, j - 1, k - 1) + c jk + 2*sspace d(i - 1, j, k) + 2*sspace d(i, j - 1, k) + 2*sspace d(i, j, k - 1) + 2*sspace Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

29 Formaler 2 Theorem Fortsetzung... mit Initialisierung D(0, 0, 0) = 0 D(i, j, 0) = D 1,2 (i, j) + (i+j) * sspace D(i, 0, k) = D 1,3 (i, k) + (i+k) * sspace D(0, j, k) = D 2,3 (j, k) + (j+k) * sspace Bemerkung Beweis analog zum paarweisen Alignment Alignment eines Space mit einem Space ist umsonst Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

30 Algorithmus initialize d; for i := 1 to S 1 for j := 1 to S 2 for k := 1 to S 3 if (S 1 (i) = S 2 (j)) then c ij := smatch; else c ij := smis; if (S 1 (i) = S 3 (k)) then c ik := smatch; else c ik := smis; if (S 2 (j) = S 3 (k)) then c jk := smatch; else c jk := smis; d 1 := d[i 1,j 1,k - 1] + c ij + c ik + c jk ; d 2 := d[i 1,j 1,k] + c ij + 2 * sspace; d 3 := d[i 1,j,k - 1] + c ik + 2 * sspace; d 4 := d[i,j 1,k - 1] + c jk + 2 * sspace; d 5 := d[i 1,j,k) + 2 * sspace; d 6 := d[i,j 1,k) + 2 * sspace; := d[i,j,k - 1) + 2 * sspace; d 7 d[i,j,k] := min(d 1, d 2, d 3, d 4, d 5, d 6, d 7 ) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

31 Komplexität Für drei Sequenzen der Länge n Würfel hat n 3 Zellen Für jede Zelle sind 7 Berechnungen notwendig Zusammen O(7*n 3 ) Allgemeiner Fall: k Sequenzen der Länge n Hyperwürfel hat n k Zellen Für jede Zelle sind 2 k -1 Berechnungen notwendig Alle Ecken eines k-dimensionalen Würfels minus eins (Das ist die Ecke die gerade berechnet wird) Zusammen O(2 k * n k ) Das ist schlecht Tatsächlich gilt Das SP-Alignment Problem ist NP vollständig Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

32 MSA also praktisch unlösbar? SP-Score für mehr als eine Handvoll Sequenzen i.d.r. nicht berechenbar Aber: SP ist nur eine mögliche Zielfunktion Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

33 MSA mit Consensussequenzen SP minimiert Summe aller paarweisen Alignments Alternativ: Minimierung der Summe der Alignments aller Sequenzen S 1,...,S k mit einer Consensussequenz S c S c kann eine der S i sein, muss aber nicht Konstruktion von S c z.b. durch Untereinanderschreiben und Wahl des häufigsten Buchstaben Bei geeigneter Konstruktion von S c kann man zeigen, dass dieses Verfahren ein MSA erzeugt, dass einen höchstens doppelt so hohen Score hat wie das SP-optimale MSA S S 2 3 Aber man braucht nur linear viele S 1 quadratische Alignments S k S c S k-1 S k-2 Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

34 MSA mit phylogenetischen Bäumen Grundidee Annahme: Sequenzen durch Evolution aus Ursequenz entstanden Wir ordnen Sequenzen Knoten im Baum zu Sequenzen haben sich damit entlang der Pfade entwickelt Den echten phylogenetischen Baum kennen wir aber nicht Zielfunktion Suche den Baum T so, dass die Summe aller Alignmentscores von benachbarten Sequenzen in T minimiert wird Aus T kann man ein MSA ableiten Leider Das phylogenetische Alignmentproblem ist NP vollständig Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

35 Progressive und iterative Verfahren Iterative Verfahren Berechne das MSA ausgehend von 2 Sequenzen und füge iterativ weitere Sequenzen dazu Parameter Welches ist das Startpaar? Wahl der jeweils nächsten Sequenzen? Reihenfolge verändert das Ergebnis Progressive Verfahren Berechne alle paarweisen Alignmentscores Konstruiere einen Baum durch hierarchisches Clustern Berechne iterativ das jeweils nächst-ähnlichen Paar und berechne das kombinierte MSA Dabei werden u.u. mehrere MSA miteinander verschmolzen Prominenter Vertreter: ClustalW Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

36 ClustalW - Grobüberblick A 1 - B C D E Berechne alle paarweisen Alignments A B C 1 Konstruktion des Baums durch Clustern D E 1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Berechnung von MSAs entsprechend der Baumstruktur Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/

37 Zusammenfassung Multiples Sequenzalignment Irgendwie eine natürliche Erweiterung des paarweisen Alignments Aber Optimalität lässt sich auf viele Wege definieren Sum-Of-Pair MSA hat exponentielle Komplexität Keine Verwendung in der Praxis möglich Aber es gibt andere Zielfunktionen, die in polynomialer Laufzeit gelöst werden können Praktisch werden nur heuristische Verfahren verwendet ClustalW, Dalign, hmmt, T-Coffee,... Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2003/