Bioinformatik für Lebenswissenschaftler

Transkript

1 Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS Multiples Alignment I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen

2 Übersicht Multiples Alignment Problemstellung Anwendungen Strukturelle Gemeinsamkeiten Evolutionäre Beziehungen Komplexität CLUSTAL W Algorithmus Anwendung 2

3 Problemdefinition Multiples Sequenzalignment (MSA, multiple sequence alignment, Profil) Gegeben: k Sequenzen Gesucht: Alignment aller k Sequenzen Möglichst optimal bezüglich einer Distanz- oder Scoringfunktion WIN1_SOLTU AQQCGRQKGGALCSGNLCCSQFGWCGSTPEFCSPSQGCQSRC HEVE_HEVBR AEQCGRQAGGKLCPNNLCCSQWGWCGSTDEYCSPDHNCQSNC CHIX_PEA AEQCGSQAGGAVCPNGLCCSKFGFCGSTDPYCGD..GCQSQC CHI2_ORYSA AEQCGSQAGGAVCPNCLCCSQFGWCGSTSDYCGA..GCQSQC CHI1_ORYSA GEQCGSQAGGALCPNCLCCSQYGWCGSTSDYCGA..GCQSQC AGI_URTDI AQRCGSQGGGGTCPALWCCSIWGWCGDSEPYCGR..TCENKC

4 Anwendung Strukturkonservierung WIN1_SOLTU AQQCGRQKGGALCSG.NLCCSQFGWCGSTPEFCSPSQGCQ.SRC HEVE_HEVBR AEQCGRQAGGKLCPN.NLCCSQWGWCGSTDEYCSPDHNCQ.SNC CHIX_PEA AEQCGSQAGGAVCPN.GLCCSKFGFCGSTDPYCGD..GCQ.SQC CHI2_ORYSA AEQCGSQAGGAVCPN.CLCCSQFGWCGSTSDYCGA..GCQ.SQC CHI1_TOBAC AEQCGSQAGGARCPS.GLCCSKFGWCGNTNDYCGPG.NCQ.SQC HEVL_ARATH GQQCGRQGGGRTCPG.NICCSQYGYCGTTADYCSPTNNCQ.SNC CHIT_DIOJA.QNCQ...CDTTIYCCSQHGYCGNSYDYCGP..GCQAGPC CHIP_BETVU AQNCG...CAP.NLCCSNFGFCGTGTPYCGVG.NCQSGPC CHIA_MAIZE AQNCG...CQP.NFCCSKFGYCGTTDAYCGD..GCQSGPC AGI1_WHEAT AQRCGEQGSNMECPN.NLCCSQYGYCGMGGDYCGK..GCQNGAC AGI_ORYSA AQTCGKQNDGMICPH.NLCCSQFGYCGLGRDYCGT..GCQSGAC AGI_URTDI AQRCGSQGGGGTCPA.LWCCSIWGWCGDSEPYCGR..TCE.NKC MSAs sind gut geeignet konservierte strukturelle Elemente aufzufinden Im Falle der Hevein-Domäne fallen acht zu 100% konservierte Cys-Reste auf Es liegt nahe, dass diese Reste die Struktur stabilisieren

5 Anwendung Strukturkonservierung WIN1_SOLTU AQQCGRQKGGALCSG.NLCCSQFGWCGSTPEFCSPSQGCQ.SRC HEVE_HEVBR AEQCGRQAGGKLCPN.NLCCSQWGWCGSTDEYCSPDHNCQ.SNC CHIX_PEA AEQCGSQAGGAVCPN.GLCCSKFGFCGSTDPYCGD..GCQ.SQC CHI2_ORYSA AEQCGSQAGGAVCPN.CLCCSQFGWCGSTSDYCGA..GCQ.SQC CHI1_TOBAC AEQCGSQAGGARCPS.GLCCSKFGWCGNTNDYCGPG.NCQ.SQC HEVL_ARATH GQQCGRQGGGRTCPG.NICCSQYGYCGTTADYCSPTNNCQ.SNC CHIT_DIOJA.QNCQ...CDTTIYCCSQHGYCGNSYDYCGP..GCQAGPC CHIP_BETVU AQNCG...CAP.NLCCSNFGFCGTGTPYCGVG.NCQSGPC CHIA_MAIZE AQNCG...CQP.NFCCSKFGYCGTTDAYCGD..GCQSGPC AGI1_WHEAT AQRCGEQGSNMECPN.NLCCSQYGYCGMGGDYCGK..GCQNGAC AGI_ORYSA AQTCGKQNDGMICPH.NLCCSQFGYCGLGRDYCGT..GCQSGAC AGI_URTDI AQRCGSQGGGGTCPA.LWCCSIWGWCGDSEPYCGR..TCE.NKC One or two homologous sequences whisper a full multiple sequence alignment shouts out loud. (Arthur Lesk, 1996)

6 Phylogenien Ähnlichkeit = Maß für evolutionäre Verwandtschaft MSAs bilden die Grundlage für die Konstruktion von Phylogenien ( Stammbäumen ) Beispiel: Myoglobine Orang Utan PVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALELFR Mensch PVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFR Pferd PIKYLEFISDAIIHVLHSKHPGDFGADAQGAMTKALELFR Huhn PVKYLEFISEVIIKVIAEKHAADFGADSQAAMKKALELFR Orang Utan Mensch Pferd Huhn

7 MSA mit Dynam. Programmierung Ansätze zum paarweisen Alignment lassen sich recht einfach auf mehr als zwei Sequenzen verallgemeinern Auch diese Ansätze lassen sich mit dynamischer Programmierung lösen Für k = 3 hat man keine zweidimensionale Matrix, sondern eine dreidimensionale: Daniel Huson, Skript zur Alg. Bioinformatik I, WS 02/03

8 Komplexität MSA ist leider ein schwieriges Problem Komplexität für dynamische Programmierung für k Sequenzen der Länge n ist O(n k )! Damit ist eine Lösung mit DP praktisch ausgeschlossen: Beispiel: n = 500, Zeit für k = 2: 1 s Dann braucht man für k = 3: 500 s k = 4: ca. 3 Tage k = 5: ca. 4 Jahre ) Wir brauchen eine schnelle Heuristik!

9 Heuristiken zum MSA MSA zählt zur Klasse der NP-vollständigen Probleme Man kann (unter bestimmten Annahmen) beweisen, dass es keinen Algorithmus geben kann, der das Problem in vertretbarer (d.h. besser als exponentieller) Zeit löst NP-vollständige Probleme treten in der Bioinformatik häufig auf, sind zwar unangenehm, aber kein Grund zur Verzweiflung Häufig sind suboptimale Lösungen, die von Heuristiken in vertretbarer Zeit gefunden werden, genauso nützlich wie optimale Lösungen Für MSA existieren eine Reihe von Heuristiken, wobei CLUSTALW wohl der am häufigsten verwendete Code ist

10 Formale Problemdefinition MSA Gegeben: k Sequenzen S 1 S k über einem Alphabet Σ und eine Ähnlichkeitsfunktion s : Σ k R (mit Σ = Σ ) Gesucht: Ein bezüglich s optimales Alignment A = {S 1 S k }, wobei die S i aus S i durch Einfügen von Gapzeichen ε entstehen und Si = S j i, j CCSQILRAK CCSQILRAK CCTQRAK CCSQ--RAK CCSQVRAR CCSQV-RAR

11 Ähnlichkeitsfunktionen Wie definiert man Ähnlichkeiten bei mehr als zwei Sequenzen? Zwei Sequenzen: Berechne Ähnlichkeit der beiden Zeichen Addiere Ähnlichkeiten der Spalten auf Bei k > 2 Sequenzen: Spaltenweises Addieren kein Problem Was ist die Ähnlichkeit von drei oder mehr Zeichen? Eine Möglichkeit ist die Summe aller Paare (sum-ofpairs score): Summiere alle paarweisen Scores s SP (s 1,s 2,...s k )= k 1 i=1 k j=i+1 s(s i,s j )

12 Ähnlichkeitsfunktionen Wendet man SP-Scores auf ein multiples Alignment an, so summiert man über alle Spalten und berechnet pro Spalte jeweils die Summe aller Paare Beispiel: Identität als Ähnlichkeitsfunktion 1 a = b s(a, b) = 0 andernfalls Alignment: ACGTCG CTGTCG AT-TCC 1. Spalte: s(s 1,1, S 2,1 ) + s(s 1,1, S 3,1 ) + s(s 2,1, S 3,1 ) = s( A, C ) + s( A, A ) + s( A, C ) = = 1

13 Ähnlichkeitsfunktionen Wendet man SP-Scores auf ein multiples Alignment an, so summiert man über alle Spalten und berechnet pro Spalte jeweils die Summe aller Paare Beispiel: Identität als Ähnlichkeitsfunktion Alignment: ACGTCG CTGTCG AT-TCC 2. Spalte: s(s 1,2, S 2,2 ) + s(s 1,2, S 3,2 ) + s(s 2,2, S 3,2 ) = s( C, T ) + s( C, T ) + s( T, T ) = = 1

14 Ähnlichkeitsfunktionen Wendet man SP-Scores auf ein multiples Alignment an, so summiert man über alle Spalten und berechnet pro Spalte jeweils die Summe aller Paare Beispiel: Identität als Ähnlichkeitsfunktion Alignment: ACGTCG CTGTCG AT-TCC Analog: 3. Spalte: 1 4. Spalte: 3 5. Spalte: 3 6. Spalte: 1

15 Profilalignments Ein weiterer Begriff, den wir benötigen, ist der des Profilalignments Ein Profilalignment ist das Alignment eines multiplen Alignments (eines Profils) mit einem weiteren multiplen Alignment oder einer einzelnen Sequenz Profilalignments entstehen dadurch, dass wie bei gewöhnlichen Alignments in die beiden Profile Gaps eingefügt werden Gaps können jedoch nur als ganze Spalten in einem der beiden Profile eingefügt werden Beispiel: ILSFKDR IL-SFKDR IVTWK-K IV-TWK-K LVSFR-K LV-SFR-K ILTTWK-K ILTTWKK IVSSYK-R IVSSYKR

16 CLUSTALW CLUSTALW ist ein oft gebrauchter heuristischer Algorithmus zum MSA Idee Sequenzen der Anfrage werden paarweise global optimal aliniert Scores der paarweisen Alignments werden in evolutionäre Distanzen umgerechnet Berechne auf einfache Weise einen Stammbaum der Sequenzen Aliniere Sequenzen bzw. Profile progressiv entlang diese Baums

17 CLUSTALW S S S S S S S S 1 S 2 S 3 S 4 S 5 S 6 S 7 CLUSTALW berechnet alle paarweisen Ähnlichkeiten Diese (symmetrische) Matrix dient als Grundlage für die Berechnung des Leitbaums (guide tree) Dabei fängt man mit den beiden ähnlichsten Sequenzen an, die in einem paarweisen Alignment vereinigt werden

18 CLUSTALW Wurzel Blatt S 3 S 4 S S S S S S S S 1 S 2 S 3 S 4 S 5 S 6 S 7 Damit konstruiert man einen Baum, in dem die Länge der Äste ein Maß für die Nachbarschaft ist An jedes Blatt (Ende eines Astes ) schreibt man dabei eine der Sequenzen, am anderen Ende hat der Baum eine Wurzel

19 CLUSTALW S 3 S 4 S 1 S 2 Man geht nun schrittweise ( progressiv ) vor und betrachtet als nächstes die Sequenzen mit der zweitgeringsten Distanz: S 1 /S 2 Diese werden wieder zu einem Teilbaum zusammengefasst, der einem paarweisen Alignment entspricht

20 CLUSTALW S 3 S 4 S 1 S 2 Ähnlichkeiten zwischen einzelnen Ästen werden von CLUSTALW dabei nach einem Gewichtungsschema angepasst (Details hier irrelevant) Man fügt jeweils entweder Profilalignments zusammen, ein Profilalignment mit einer bisher ungenutzten Sequenz, oder (im ersten Schritt) zwei Sequenzen

21 CLUSTALW S 3 S 4 S 1 S 2 S 5 S 6 Schritt für Schritt wird so der Baum aufgebaut Dieser Baum bestimmt gleichzeitig, wie im endgültigen MSA die Sequenzen miteinander aliniert werden: S 1 mit S 2 S 3 mit S 4 S 1 /S 2 mit S 3 /S 4 S 7

22 Beispiel: Globine Hämoglobin hat eine sehr lange Geschichte, die sich auch an den Sequenzen ablesen lässt Im Laufe der Evolution gab es dabei eine Reihe von Ereignissen, die man heute recht gut datieren kann: Vor 1,5 Ga: Spaltung Pfanzen/ Tiere Vor 650 Ma: Abspaltung der Vertebraten Vor 450 Ma: Genduplikation (αund β-kette) Hardison, Proc Natl. Acad. Sci. USA (1996), 93, 5675

23 Beispiel: Globine Wir wollen diese Ereignisse nun anhand bekannter Globinsequenzen nachvollziehen: Leghämoglobin aus der Lupine Hämocyanin aus der Krabbe Hämoglobine (α und β) von Pferd und Mensch Diese Sequenzen werden wir nun Von NCBI herunterladen Alinieren Das Alignment analysieren

24

25

26

27

28

29 Konsensus Die Konsensus-Sequenz eines MSA enthält für jede Position des Alignments das Symbol, das am häufigsten vorkommt Es gibt unterschiedliche Arten der Darstellung, so wird z.b. oft 100%-ige Konserviertheit durch Großbuchstaben ausgedrückt, geringere Konserviertheit durch Kleinbuchstaben AEQCGRQAGGKLCPNNLCCSQWGWCGSTDEYC AEQCGSQAGGAVCPNGLCCSKFGFCGSTDPYC GQQCGRQGGGRTCPGNICCSQYGYCGTTADYC AQTCGKQNDGMICPHNLCCSQFGYCGLGRDYC AQRCGSQGGGGTCPALWCCSIWGWCGDSEPYC aqqcg.q.gg.tcpnnlccsqfg.cgstd.yc

30 Sequenzlogos Profile lassen sich auf einfache Weise mit Hilfe so genannter Sequenzlogos visualisieren Dabei zeichnet man an jeder Position des Alignments die möglichen Buchstaben, wobei die Buchstabenhöhe proportional zum Informationsgehalt ist Dadurch lassen sich die motivrelevanten Teile des Profils direkt ablesen Beispiel: TATA-Box- Sequenzen aus Hefe

31 Sequenzlogos Konserviertheit eines MSAs an jeder Position lässt sich als Informationsgehalt an jeder Position messen (mit Einheit bit) Dieser Informationsgehalt R ist die Differenz der maximal möglichen Entropie S max und der beobachteten Entropie S obs an dieser Stelle: R = S max S obs Für die beobachtete Entropie S obs einer Position gilt: Wobei p i die Wahrscheinlichkeit (aus der Häufigkeit) des Symbols i in der gerade betrachteten Spalte des MSAs ist Maximale Konserviertheit entspricht gerade einem einzigen Symbol k mit p k = 1 und p i = 0 für alle i k Für Nukleinsäuresequenzen und Proteinsequenzen erhält man damit für S max :

32 Sequenzlogos Beispiel: ACTAA ATTCA AGTGC ACCTC Maximum: 2 bit (DNA) 1. Spalte: 100% konserviert 2 bit 4. Spalte: 0% konserviert 0 bit Für sehr kleine Datensätze werden oft auch weitere statistische Korrekturen angesetzt, sodass die Werte auch etwas niedriger liegen können

33 Literatur + Links Online-ClustalW-Server: Von dort können Sie auch ClustalW zur Installation auf Ihrem eigenen Rechner herunterladen. Sequenzlogo-Server in Berkeley: Details zur Evolution von Globinen finden Sie z.b. in Hardison: A brief history of hemoglobins: Plant, animal, protist, and bacteria. Proc Natl Acad Sci USA (1996), 93, 5675