Multiples Sequenzalignment

Transkript

1 WS2013/2014 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln HsaHBA GAEALERMFLSFPTTKTYF HsaHBZ GTETLERLFLSHPQTKTYF HsaHBE GGEALGRLLVVYPWTQRFF HsaHBG GGETLGRLLVVYPWTQRFF HsaHBB GGEALGRLLVVYPWTQRFF HsaHBD GGEALGRLLVVYPWTQRFF HsaMB GQEVLIRLFKGHPETLEKF Multiples Sequenzalignment 1

2 Alignment von 2 Sequenzen Gegeben: Gesucht: SeqA A F L S SeqB A F S SeqA A F L S SeqB A F - S 2

3 Multiples Sequenz-Alignment Gegeben: SeqA A F L S SeqB A F S SeqC A K Y L S SeqD A Y L S Gesucht: SeqA A - F L S SeqB A - F - S SeqC A K Y L S SeqD A - Y L S 3

4 Definitionen Multiple Sequence Alignment (Abkürzung = MSA) Deutsch: Multiple Sequenzalignierung Vergleich von > 2 DA- oder As-Sequenzen Sequenzen sollen so aneinandergelegt werden, dass die Positionen evolutiv homolog sind! => Mutationen = historische Ereignisse 4

5 MSA & Evolution AYLS AKYLS AFS AFLS SeqA A F L S SeqB A F - S SeqC A K Y L S SeqD A Y L S +K -L Y -> F Multiples Sequenz-Alignment = Evolutionshypothese! 5

6 DA-Alignment DA: nicht-kodierende oder proteinkodierende Sequenzen 1. nicht-kodierend (auch rra- oder tra-gene!): Seq1: ATCCTAGT-TCATGCATGCCTTAGCTC TCTGAT Seq2: ATTCTAGTTTCAT--ATGCTTCAGCTTATCTGAC Seq3: AT-CTAGT-CCATGCATG-TTCAGCTTATGCGAC 2. protein-kodierend (=> Codons!): Seq1: ATC CTA GTT TCA TGC ATG CCT AAG CTC --- TGG Seq2: ATT CTA GTT TCA --- ATG CTT CAG CTT ATC TGG Seq3: ATC CTA GTT CCA TGC ATG TTT CAG CTT ATG CGG => Triplettstruktur liefert zusätzliche Information 6

7 Aminosäurealignment Indel * 20 * 40 YPQTKIYFPHF-DLSHGSAQIRAHGKKVFAALHEAVHID YPQTKIYFPHF-DMSHSAQIRAHGKKVFSALHEAVHID FPQTKTYFSHF-DVHHGSTQIRSHGKKVMLALGDAVHID FPSTKTYFSHF-DLGHSTQVKGHGKKVADALTKAVGHLD FPTTKTYFPHF-DLSHGSAQVKGHGKKVADALTAVAHVD MPTTRIYFPAK-DLSERSSYLHSHGKKVVGALTAVAHID YPQTKTYFSHWADLSPGSGPVKKHGKTIMGAVGEAISKID YPQTKTYFSHWADLSPGSAPVKKHGGVIMGAIGAVGLMD Sequenzidentität = % identische AS Sequenzähnlichkeit = % identische + % isofunktionelle AS Insertion/Deletion = "Indel" 7

8 DA- oder Aminosäurealignment? Mögliche Austausche: 1. DA 4 x 4 = 16; mit Lücken (als 5. Base): 5 x 5 = 25 Möglichkeiten 2. Protein 20 x 20 = 400; mit Lücken (als 21. AS): 21 x 21 = 441 Möglichk. mehr Informationsgehalt in Protein kurze Evolutionszeit: DA, lange Distanzen: Protein 8

9 MSA: Anwendungsbeispiele Sequenz- Gruppen definieren: Konservierte Domänen & Sequenzmotive Strukturvorhersagen bei Proteinen Sequenzierprojekte (Spezialfall) Evolutive Aussagen (molekulare Phylogenie) 9

10 MSA Anwendung Erkennung von Sequenz- Gruppen" => Proteinfamilien und superfamilien 1. Proteinfamilie: hohe Identität (z.b. Hämoglobine) 2. Proteinsuperfamilie: geringe Identität (z.b. Globine) => häufig ähnliche Funktion! Erkennen von entfernten Verwandtschaften => häufig nicht mit einfachen Alignments zu erkennen -> Protein"profile" 10

11 MSA Anwendung Entfernte Verwandte, nur zwei Sequenzen... * 20 * 40 * 60 * 80 CelHb MHCRVYPIPKRSKSKKIFRCEPEDEATSMTAAAAAGGAKSKCKHFLTRRERILLEQSWRKTRKTGADHIGSKIFFM 80 HsaHBA MVLSPADKTVKAAWGKVG-AHAGEYGAEALER 32 * 100 * 120 * 140 * 160 CelHb VLTAQPDIKAIFGLEKIPTGRLKYDPRFRQHALVYTKTLDFVIRLDYPGKLEVYFELGKRHVAMQGRGFEPGYWETFA 160 HsaHBA MFLSFPTTKTYFPHFDLSHG----SAQVKGHGKKVADALTAVAHVDDMPALSALSDLHAHKLRVDPVFKLLSHCLLV 108 * 180 * 200 * 220 * CelHb ECMTQAAVEWEARQRPTLGAWRLISCIISFMRRGFDEEGKKKQYSYVQGFSSRARRSISPYAPGVH 231 HsaHBA TLAAHLPAEFTP-AVHASLDKFLASVSTVLTSKYR Mensch-Hämoglobin verglichen mit C. elegans Hämoglobin => nur 12% identische Aminosäuren => Verwandtschaft nicht abgesichert 11

12 MSA Anwendung Entfernte Verwandte * 2 0 * 4 0 * 6 0 * 8 0 L l u L e g H b L T E S Q A A L V K S S W E E F - A I P K H T H R F F I L 3 0 O s a H b M A L V E G G V S G G A V S F S E E Q E A L V L K S W A I M - K K D S A I G L R F F L K 4 6 C e l H b M H C R V Y P I P K R S K S K K I F R C E P E D E A T S M T A A A A A G G A K S K C K H F L T R R E R I L L E Q S W R K T R K T G A D H I G S K I F F M 8 0 H s a G B M E R P E P E L I R Q S W R A V - S R S P L E H G T V L F A R 3 0 D r e g b M E K L S E K D K G L I R D S W E S L - G K K V P H G I V L F T R 3 3 P c a M b V L S E G E W Q L V L H V W A K V - E A D V A G H G Q D I L I R 3 1 H s a H B A M V L S P A D K T V K A A W G K V - G A H A G E Y G A E A L E R 3 2 H s a H B B M V H L T P E E K S A V T A L W G K V - V D - - E V G G E A L G R 3 1 B l i H b B M S F E E A A L E V T G S E K I K E D L R L T W G I L - S E L E D T G V T L M L T 4 1 B v i H b M S K P A E A I A A V T Q P D V K A A L K S S W G L L - A P K K K Y G V E L M C K 4 1 CD1 E7 F8 * * * * L l u L e g H b V L E I A P A A K D L F S F L K G - T S E V P - - Q - P E L Q A H A G K V F K L V Y E A A I Q L Q V T G - V V V T D A T L K L G S V H V S K G V A D O s a H b 2 I F E V A P S A S Q M F S F L R - - S D V P - - L E K P K L K T H A M S V F V M T C E A A A Q L R K A G K V T V R D T T L K R L G A T H F K Y G V G D C e l H b V L T A Q P D I K A I F G L E K I - P T G R L K Y D P R F R Q H A L V Y T K T L D F V I R L D Y P G K L E V Y F E L G K R H V A M Q G R G F E P H s a G B L F A L E P D L L P L F Q Y C R Q F S S P E D C L S - S P E F L D H I R K V M L V I D A A V T V E D L S S L E E Y L A S L G R K H R A V G V K L D r e g b L F E L D P A L L T L F S Y S T C G D A P E - C L S - S P E F L E H V T K V M L V I D A A V S H L D D L H T L E D F L L L G R K H Q A V G V T P c a M b L F K S H P E T L E K F D R F K H L - K T - E A E M K A S E D L K K H G V T V L T A L G A I L K K K G H H E A E L K P L A Q S H A T K H - - K I P I H s a H B A M F L S F P T T K T Y F P H F - D L - S H G S A Q V K G H G K K V A D A L T A V A H V D D M P A L S A L S D L H A H K L - - R V D P 9 6 H s a H B B L L V V Y P W T Q R F F E S F G D L - S T - P D A V M G P K V K A H G K K V L G A F S D G L A H L D L K G T F A T L S E L H C D K L - - H V D P B l i H b B L F K M E P G S K A R F G R F G I - D S G M G R D K L R G H S I T L M Y A L Q F M D S L D T E K L R C V V D K F A V H R I R K I S A B v i H b L F S L H K D T A R Y F E R M G K L - D A - - A G S R E L I G H A I Y L M Y A I E S F V D Q L D D P S I V E D I G R F A Y R H L K R G I G S * * * * MSA zeigt streng konservierte As-Positionen 12

13 MSA Anwendung Konservierte Domänen & Sequenzmotive => Proteine mit gemeinsamer Funktion erkennen Bsp: Cu-Bindungsstelle in Hämocyaninen und Phenoloxidase: PlePPO YWREDFGISHHWHWHLVYPIEM-----VRDRKGELFYYMHQQMVARYDWERLSVLRVEKLE 61 PmoPPO BmoPPO1 YWREDYGIVHHWHWHLIYPPAM-----GFDRDRKGELFYYMHQQVIARYDIERLCLGLPKVEKLD 61 YFREDIGILHHWHWHLVYPFDAADRA-IVKDRRGELFYYMHQQIIARYVERMCLSRVRRY 65 DmePPOA1 YFREDIGVSHHWHWHLVYPTTGPTE--VVKDRRGELFYYMHHQILARYVERFCLKKVQPL 64 DmePPO2 YFREDLGILHHWHWHLVYPFEASDRS-IVAKDRRGELFYYMHQQVIARYAERFSLARVLPF 65 DmePPO3 YFREDLGVLHHWHWHLVYPIEAPDRS-IVDKDRRGELFYYMHQQIIARYAERLSHMARVQPF 65 EcaHcA YFREDIGVAHHWHWHVVYPSTYDPAFFGKVKDRKGELFYYMHQQMCARYDCERLSGLRMIPFH 66 EcaHcD YFREDIGISHHWHWHLVYPAFYDADIFGKIKDRKGELFYYMHQQMCARYDCERLSVGLQRMIPFQ 66 EcaHcF LpoHc2 YFREDIGAAHHWHWHIVYPPTWDASVMSKVKDRKGELFYYMHQQMCARYDCDRLSTGLRRMIPFH 66 YYREDVGIAHHWHWHLVYPSTWPKYFGKKKDRKGELFYYMHQQMCARYDCERLSGMHRMLPF 66 PvaHc YFGEDIGLTHHVTWHMEFPFWWDAYG-HHLDRKGEFFWIHHQLTVRFDAERLSYLDPVGELQ 65 PirHcC YFGEDVGMTHHVLWHMEFPFWWEDSSG-RHLDRKGESFFWVHHQLTVRYDAERLSHLDPVEELS 65 PirHcA YFGEDIGMIHHVTWHMDFPFWWEDSYG-YHLDRKGELFFWVHHQLTARFDFERLSWLDPVDELH 65 Cu - Bindungsstellen 13

14 MSA Anwendung Vorhersage der Struktur von Proteinen mit divergenter Sequenz, aber sehr ähnlicher 3D-Faltung Myoglobin euroglobin Trennung vor ~ 800 Mio Jahren! HsaGB -MERPEPELIRQSWRAVSRSPLEHGTVLFARLFALEPDLLPLFQYCRQFSSPEDCLSSPEFLDHIRKVMLVIDAAVT 78 PcaMb VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHL-KTEAEMKASEDLKKHGVTVLTALGAILKK 78 HsaGB VEDLSSLEEYLASLGRKHRAVG-VKLSSFSTVGESLLYMLEKCLGPAFTPATRAAWSQLYGAVVQAMSRGWDGE PcaMb KGHH---EAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMKALELFRKDIAAKYKELGYQG

15 MSA Anwendung Sequenzierprojekte Sequenzierung Zusammensetzen der Sequenzen 15

16 MSA Anwendung Evolutive Aussagen => Phylogenetische Rekonstruktion (Stammbäume) A GAEALERMFLSFPTTKTYFPHF-DLS Z D GTETLERLFLSHPQTKTYFPHF-DLH E C GGEALGRLLVVYPWTQRFFDSFGLS G B GGETLGRLLVVYPWTQRFFDSFGLS B GGEALGRLLVVYPWTQRFFESFGDLS A D B C Garbage I Garbage OUT 16

17 Wie kommt man zum MSA? Alignment per Hand/Auge: gut bei relativ ähnlichen Sequenzen Mit dem Computer: Exakte Algorithmen Heuristische Verfahren Alle Verfahren brauchen Bewertungsschemata Kennen wir! => z.b. PAM & BLOSUM-Matrizen, gap penalty 17

18 Wer hat ein Auge...? Ancistr. TTGACATAA AAGCTTCCAGTTT Brach. TTGACATAA AAGCTTCGAGTTTTTT Meteorium TTGACATAAA AAACTGGAAGTTT Papillaria TTGACATAAA AAACTTCTAGTTTTTT CTTCCAG CTGGAAG 18 reales Beispiel von Dr. D. Quandt, Dresden

19 Bewertung eines MSA Optimales Alignment ist ein Alignment mit minimalen Kosten (oder maximaler Belohnung für Ähnlichkeit). Algorithmen sollen ein Alignment erstellen, welches die Kosten minimiert bzw. die Ähnlichkeit optimiert. 19

20 MSA und Gaps * Wie wahrscheinlich ist es, dass zwischen Sequenzpaaren und Sequenzgruppen Lücken (gaps) auftreten? Gaps stellen Insertionen und Deletionen (Indels) dar, die in der Evolution aufgetreten sind Ihre Wahrscheinlichkeit kann definiert werden. * Das Problem kennen wir bereits von den dualen Alignments 20

21 Was kostet ein Gap? Hämoglobin- und Myoglobinsequenzen von Mensch CLUSTALX: Gap creation weight 20, gap length weight 0.1* HsaHBA GAEALERMFLSFPTTKTYFPHF------DLSHGSAQVKGHGKKVADALTAVAHVDDMP 54 HsaHBZ GTETLERLFLSHPQTKTYFPHF------DLHPGSAQLRAHGSKVVAAVGDAVKSIDDIGG 54 HsaHBE GGEALGRLLVVYPWTQRFFDSFGLSSPSAILGPKVKAHGKKVLTSFGDAIKMDLKP 60 HsaHBG GGETLGRLLVVYPWTQRFFDSFGLSSASAIMGPKVKAHGKKVLTSLGDAIKHLDDLKG 60 HsaHBB GGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGPKVKAHGKKVLGAFSDGLAHLDLKG 60 HsaHBD GGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGPKVKAHGKKVLGAFSDGLAHLDLKG 60 HsaMB GQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEA 60 * synonym: gap opening penalty, gap extension penalty 21

22 Was kostet ein Gap? Hämoglobin- und Myoglobinsequenzen von Mensch CLUSTALX: Cap creation weight 10, gap length weight 0.1 HsaHBA GAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHGKKVADALTAVAHVDDMP 54 HsaHBZ GTETLERLFLSHPQTKTYFPHF-DLHP-----GSAQLRAHGSKVVAAVGDAVKSIDDIGG 54 HsaHBE GGEALGRLLVVYPWTQRFFDSFGLSSPSAILGPKVKAHGKKVLTSFGDAIKMDLKP 60 HsaHBG GGETLGRLLVVYPWTQRFFDSFGLSSASAIMGPKVKAHGKKVLTSLGDAIKHLDDLKG 60 HsaHBB GGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGPKVKAHGKKVLGAFSDGLAHLDLKG 60 HsaHBD GGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGPKVKAHGKKVLGAFSDGLAHLDLKG 60 HsaMB GQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEA 60 Welches Alignment ist aber nun besser? 22

23 Was kostet ein Gap? Erst Hinzunahme einer Hai-Hb-alpha-Sequenz bringt die Lösung: S a c H b A H s a H B A G A E S L A R M F A T T P S T K T Y F S K F T D F S A G K R V K A H G G K V L A V A D A T D H L D V A G G A E A L E R M F L S F P T T K T Y F P H F - D L S H G S A Q V K G H G K K V A D A L T A V A H V D D M P H s a H B Z G T E T L E R L F L S H P Q T K T Y F P H F - D L H P G S A Q L R A H G S K V V A A V G D A V K S I D D I G G 5 4 H s a H B B G G E A L G R L L V V Y P W T Q R F F E S F G D L S T P D A V M G P K V K A H G K K V L G A F S D G L A H L D L K G 6 0 H s a H B D G G E A L G R L L V V Y P W T Q R F F E S F G D L S S P D A V M G P K V K A H G K K V L G A F S D G L A H L D L K G 6 0 H s a H B E G G E A L G R L L V V Y P W T Q R F F D S F G L S S P S A I L G P K V K A H G K K V L T S F G D A I K M D L K P 6 0 H s a H B G G G E T L G R L L V V Y P W T Q R F F D S F G L S S A S A I M G P K V K A H G K K V L T S L G D A I K H L D D L K G 6 0 H s a M B G Q E V L I R L F K G H P E T L E K F D K F K H L K S E D E M K A S E D L K K H G A T V L T A L G G I L K K K G H H E A 6 0 => Alignment # 2 (10 gap creation weight) ist plausibel! 23

24 Bewertung eines MSA I: sum of pairs-score Beispiel (DA) für die Berechnung der Kosten (c) mit: match c = 0; mismatch c = 2; gap c = 1 S1 = - G C T G A T A T A A C T S2 = G G G T G A T - T A G C T S3 = A G C G G A - A C A C C T sum of pairs: = 26 Vorgehensweise: Summieren der Kosten der Paare ("sum of pairs") der 1. Spalte: c(-,g) + c(g,a) + c(-,a) = 4, usw. Summieren der Spaltenwerte = 26 (Gesamtkosten!) 24

25 Bewertung eines MSA I: sum of pairs-score S1 = - G C T G A T A T A A C T S2 = G G G T G A T - T A G C T S3 = A G C G G A - A C A C C T sum of pairs: = 26 S1 = G - C T G A T A T A A C T S2 = G G G T G A - T T A G C T S3 = A G C G G A - A C A C C T sum of pairs: = 30 25

26 Bewertung eines MSA I: sum of pairs Beispiel: Protein Bewertung mit "sum of pairs und BLOSUM-Matrix Seq 1... Seq 2... Seq 3... Seq 4...C... Seq 5...C...C... C C Spalte 1 Spalte 2 Spalte 3 C 26

27 Bewertung eines MSA I: sum of pairs C C Spalte 1 Spalte 2 Spalte 3 C BLOSUM 62 scores : +6 C: -3 C C: +9 Spalte 1: 10 x - = + 60 Spalte 2: 6 x x -C = + 24 Spalte 3: 3 x x -C + 1 x C-C =

28 Bewertung eines MSA II Bewertung mithilfe eines Stammbaums (z.b. CLUSTAL): Spalte 3 C C C Score = 4 x x -C + 2 x C-C =

29 Lösungsansätze Exakte Algorithmen Progressive Verfahren Iterative Verfahren Divide-and-Conquer-Verfahren Profile, Hidden Markov Modelle Heuristische Verfahren => liefern nicht unbedingt das beste Alignment 29

30 Exakte Algorithmen Wir erinnern uns: eedleman & Wunsch für paarweises globalesalignment R R L G Y E Kosten c als: c(a,b) = c (a,-) = 1 G c(a,a) = 0 Y A Lösung: R L G Y E R G Y A 30

31 & W mit k Sequenzen eedleman-wunsch: in 3 Dimensionen! Sequenz 2 Sequenz 1 Sequenz 3 Verwendung von k- dimensionalen Gittergraphen produziert das bestmögliche globale MSA sehr rechenintensiv, wenn k groß (Aufwand: n M ) praktikabel bis 10 x 1000 As (Programm MSA auf Supercomputern) 31

32 Daher Heuristische Verfahren Progressive Verfahren Iterative Verfahren Divide-and-Conquer-Verfahren Hidden Markov Modelle u. v. m. gibt s global und lokal 32

33 Progressives Alignment 1. paarweiser Vergleich aller Sequenzen miteinander => Berechnung der Distanzen zweier Sequenzen 2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung) 3. Erstellung paarweiser Alignments 4. sukzessives Alignment nach Ähnlichkeit, dabei die ähnlichsten Sequenzpaare zuerst Feng & Doolittle (1987): PileUp (GCG package) Higgins and Sharp (1988), Thompson et al. (1994): CLUSTALW otredame et al. (2000): T-COFFEE 33

34 Progressives Alignment 1) Sequenzvergleich A B C D Alle Sequenzen werden miteinander verglichen (Option A: schnelles "quick and dirty" Alignment Option B: exaktes, langsames eedleman-wunsch) => Berechnen der Distanzen 34

35 Progressives Alignment 2) Ähnliche Sequenzen werden gruppiert => Cluster-Analyse = Erstellung eines hierarchischen Stammbaums ("guide tree"). A B C D A - B C D "guide tree" A D B C PileUp = UPGMA Clustal = eighbor Joining 35

36 Progressives Alignment 3) Alignment von nahe verwandten Sequenzen; die ähnlichsten zuerst. A D B C A D B C 36

37 Progressives Alignment 4) Sukzessives globales Alignment A D A D B C alte gaps erhalten, neue hinzugefügt B C A D B C 37

38 Progressive Alignment - Probleme - Welche Matrizen? Welche gap penalty? Erfolg hängt von den ersten paarweisen Alignments ab: problematisch, wenn selbst die nächsten Verwandten bereits unähnlich sind Fehler propagieren sich in das MSA Insertionen werden beim paarweisen Vergleich und beim MSA penalisiert: Über-Alignment mit kompakten`ungapped blocks` und anderen Regionen mit gehäuften gaps Lösung: Löytynoja & Goldman 2005, PAS 38

39 Praktische Hinweise für globale MSAs Keine sehr unterschiedlich langen Sequenzen global alignen: Sequenzen trimmen oder lokales MSA machen (z. B. PSI-BLAST) Protein-MSA: in Visualisierungsprogrammen (z.b. GeneDoc) unsichere Abschnitte auf chemisch ähnliche As hin absuchen. Falls nicht vorhanden, Abschnitte aus Alignment entfernen. Per Expertenwissen und 3D-Strukturinformation Schlüsselpositionen im MSA identifizieren und diese konstant halten 39

40 Praktische Hinweise für globale MSAs Beispiel: * 2 0 * 4 0 * 6 0 * 8 0 L l u L e g H b L T E S Q A A L V K S S W E E F - A I P K H T H R F F I L 3 0 O s a H b M A L V E G G V S G G A V S F S E E Q E A L V L K S W A I M - K K D S A I G L R F F L K 4 6 C e l H b M H C R V Y P I P K R S K S K K I F R C E P E D E A T S M T A A A A A G G A K S K C K H F L T R R E R I L L E Q S W R K T R K T G A D H I G S K I F F M 8 0 H s a G B M E R P E P E L I R Q S W R A V - S R S P L E H G T V L F A R 3 0 D r e g b M E K L S E K D K G L I R D S W E S L - G K K V P H G I V L F T R 3 3 P c a M b V L S E G E W Q L V L H V W A K V - E A D V A G H G Q D I L I R 3 1 H s a H B A M V L S P A D K T V K A A W G K V - G A H A G E Y G A E A L E R 3 2 H s a H B B M V H L T P E E K S A V T A L W G K V - V D - - E V G G E A L G R 3 1 B l i H b B M S F E E A A L E V T G S E K I K E D L R L T W G I L - S E L E D T G V T L M L T 4 1 B v i H b M S K P A E A I A A V T Q P D V K A A L K S S W G L L - A P K K K Y G V E L M C K 4 1 CD1 E7 F8 * * * * L l u L e g H b V L E I A P A A K D L F S F L K G - T S E V P - - Q - P E L Q A H A G K V F K L V Y E A A I Q L Q V T G - V V V T D A T L K L G S V H V S K G V A D O s a H b 2 I F E V A P S A S Q M F S F L R - - S D V P - - L E K P K L K T H A M S V F V M T C E A A A Q L R K A G K V T V R D T T L K R L G A T H F K Y G V G D C e l H b V L T A Q P D I K A I F G L E K I - P T G R L K Y D P R F R Q H A L V Y T K T L D F V I R L D Y P G K L E V Y F E L G K R H V A M Q G R G F E P H s a G B L F A L E P D L L P L F Q Y C R Q F S S P E D C L S - S P E F L D H I R K V M L V I D A A V T V E D L S S L E E Y L A S L G R K H R A V G V K L D r e g b L F E L D P A L L T L F S Y S T C G D A P E - C L S - S P E F L E H V T K V M L V I D A A V S H L D D L H T L E D F L L L G R K H Q A V G V T P c a M b L F K S H P E T L E K F D R F K H L - K T - E A E M K A S E D L K K H G V T V L T A L G A I L K K K G H H E A E L K P L A Q S H A T K H - - K I P I H s a H B A M F L S F P T T K T Y F P H F - D L - S H G S A Q V K G H G K K V A D A L T A V A H V D D M P A L S A L S D L H A H K L - - R V D P 9 6 H s a H B B L L V V Y P W T Q R F F E S F G D L - S T - P D A V M G P K V K A H G K K V L G A F S D G L A H L D L K G T F A T L S E L H C D K L - - H V D P B l i H b B L F K M E P G S K A R F G R F G I - D S G M G R D K L R G H S I T L M Y A L Q F M D S L D T E K L R C V V D K F A V H R I R K I S A B v i H b L F S L H K D T A R Y F E R M G K L - D A - - A G S R E L I G H A I Y L M Y A I E S F V D Q L D D P S I V E D I G R F A Y R H L K R G I G S * * * *

41 Praktische Hinweise für globale MSAs Edgar & Batzoglou (2006) Curr Opin Struct Biol 16:

42 Heuristische Verfahren Progressive Verfahren Iterative Verfahren Divide-and-Conquer-Verfahren Profile, Hidden Markov Modelle besonders gebräuchlich zur Erstellung von lokalen MSAs, mit denen z. B. Protein- Domänen definiert werden (werden später in der VL besprochen) 42

43 Websites MSA tools, Übersicht: Clustal: MAFFT: Editor für PC: Editor für Mac/PC/Linux: 43