Welche Alignmentmethoden haben Sie bisher kennengelernt?

Transkript

1

2

3 Welche Alignmentmethoden haben Sie bisher kennengelernt?

4 Was heißt optimal? Optimal = die wenigsten Mutationen. Sequenzen bestehen aus Elementen (z.b. Aminosäuren oder Nukleotide).

5 Edit Distanzen sind in Substitutionsmatrizen abgelegt. Hier ist der einfachste Fall abgebildet. Ähnlichkeitsmatrix = je ähnlicher, desto höher der Score, Distanzmatrix = je ähnlicher, desto niedriger der Score. Bsp. Einheitsmatrix Der Algorithmus versucht die Summe der einzelnen Scores aus einer Ähnlichkeitsmatrix zu maximieren. Für Aminosäuren gibt es die PAM (abgeleitet von einem globalen Alignment) und BLOSUM (abgeleitet von einem lokalen Alignment) Matrizen, welche Ähnlichkeitsmatrizen sind. PAMn vs BLOSUMn: PAM-Matrizen mit kleinesrem n sollten bei weniger divergenten Sequenzen genutzt werden. Bei den BLOSUM-Matrizen ist es andersherum.

6 Hamming Distanz kann nur gleichlange Sequenzen vergleichen. Natürlich können aber auch Insertionen und Deletionen auftreten. Insertionen in der einen Sequenz entsprechen Deletionen in der anderen Sequenz. Daher nennt man sie auch übergeordnet Indels.

7 Was ist in unserem Fall die Substitutionsmatrix? Eine Distanzmatrix. Insertion / Deletion in Bezug zur Sequenz auf der horizontalen Achse.

8 Abstand der beiden Sequenzen ist 2.

9 Gehe von rechts nach links entlang der Pfeile und halte die Summe der D i,j minimal. Dann folge der Spur von links oben nach rechts unten. Wenn zwei Einträge horizontal verbunden sind, so muss in der vertikalen Sequenz ein Gap stehen (Insertion in Bezug auf die horizontale Achse). Wenn zwei Einträge vertikal verbunden sind, so muss in der horizontalen Sequenz ein Gap stehen (Deletion in Bezug auf die horizontale Achse).

10 Substitutionsmatrizen können auch beispielsweise Transitionen anders gewichten als Transversionen. Transitionen gibt es theoretisch weniger, treten aber wegen der chemischen Eigenschaften der Nukleinsäuren häufiger auf. Score-basierte Algorithmen maximieren die Punktezahl, was equivalent zum Minimieren der Edit Distance ist. Was ist in unserem Fall die Substitutionsmatrix? Eine Ähnlichkeitsmatrix.

11 Globales Alignment kann zu großen Gaps führen. Globale Alignments werden hauptsächlich verwendet, wenn die zu untersuchenden Sequenzen ähnlich lang sind und starke Sequenzhomologien erwartet werden. Lokalen Alignments werden beispielsweise genutzt, wenn man nach gleichen Sequenzmotiven oder Domänen bei Proteinen sucht. Beide Algorithmen finden immer das optimale Alignment ( Dynamic Programming ). Multiple Alignments finden nicht immer das optimale Alignment und es Bedarf der Kontrolle. Sie erzeugen so genannte Guide Trees, welche die ähnlichsten Sequenzen zusammengruppieren. Häufig wird eine Neighbour-Joining Methode angewendet, um den Baum zu erstellen.

12

13

14 Score des Alignments = -8.

15 Beachte die unterschiedliche Initialisierung. Negative Scores sind nicht möglich. Traceback funktioniert anders (beginne bei der höchsten Zahl und ende, sobald die Null erreicht ist).

16

17

18 Die Konsensussequenz fasst das multiple Alignment so zusammen, dass nur die an jeder Position häufigste Base dargestellt wird. Starke Reduktion der Information. Das Sequenzlogo ist eine graphische Darstellung des Grades der Konserviertheit eines Nukleotids. Die relative Größe der Buchstaben entspricht den Frequenzen der Nukleotide an einer bestimmten Position des Alignments und die absolute Größe der Buchstaben entspricht dem Informationsgehalt an dieser Position (in Bits). Das heißt, je größer die Buchstaben, desto stärker ist diese Position konserviert.

19 Das gleiche Prinzip wird auch bei der Visualisierung von Proteindomänen genutzt.

20

21

22 Die phylogenetische Systematik ist eine Systematik, welche die tatsächliche evolutionäre Beziehung der Organismen zueinander widerspiegelt. Plesiomorphe Merkmale sind ursprüngliche Merkmale, apomorphe Merkmale sind abgeleitete Merkmale. Symplesiomorphe Merkmale sind plesiomorphe Merkmale, welche zwischen Taxa geteilt sind. Autapomorphe Merkmale sind apomorphe Merkmale, welche spezifisch für ein Taxon sind. Synapomorphe Merkmale sind apomorphe Merkmale, welche Taxa gemeinsam haben. Homoplasien sind Merkmale, welche unabhängig in unterschiedlichen Taxa entstanden sind und daher nicht auf eine gemeinsame Abstammung zurückgehen (Konvergenz). In der molekularen Phylogenetik eher Homoplasie genannt. Dies kann durch Rückmutationen oder analoge Mutationen entstehen. Durch unerkannte Homoplasien kann es zur Bildung von polyphyletischen Gruppen kommen. Welche Arten von Merkmalen sind besonders wichtig für die Bildung monophyletischer Gruppen? Synapomorphe Merkmale. Symplesiomorphe Merkmale helfen nicht paraphyletische Gruppen in monophyletische Gruppen aufzuspalten, sie sind aber hilfreich für die evolutionäre Eingruppierung. Was sind paraphyletische Gruppen? Taxa, die zwar auf einen gemeinsamen Vorfahren zurückgehen, aber aus denen auch andere Lebensformen hervorgegangen sind.

23 Ectothermie der Krokodile und Schildkröten: Beide sind ectotherm; dies hilft uns aber nicht dabei, ihre Verwandtschaft aufzuklären. Feder der Vögel. Diapsider Schädel der Vögel (Aves), Brückenechsen (Sphenodontia), Echsen und Schlangen (Squamata), Krokodile (Crocodylia). Homoplasie = Konvergenz des Vertebraten-Flügels.

24 Im besten Fall sind Bäume dichotom, manchmal treten aber auch Polytomien auf. Externer Knoten mit nur einem Nachbar, interner Knoten mit zwei Nachbarn. Externer Knoten = OTUs (Operational taxonomic unit) Unbewurzelte Bäume haben keine richtige Leserichtung. Erst durch die Wurzel lassen sich ältere von jüngeren Verzweigungen unterscheiden. Mittelpunktbewurzelung (Midpoint rooting): Die Wurzel wird in der Mitte der am weitesten entfernten Taxa gesetzt.

25 Besser: Wurzelung geschieht durch eine Außengruppe (Outgroup). Diese ist ein Taxon, das mit Sicherheit stammesgeschichtlich weiter von der Innengruppe entfernt steht, als alle Taxa der Innengruppe zueinander.

26 Kladogramm: Die Länge der terminalen und internen Zweige hat keine Bedeutung, nur die Topologie ist entscheidend. Dies läßt sich auch als Netzwerk darstellen (mit sieben Möglichkeiten zur Bewurzelung, Pfeile). Phylogramm: Der Grad der Verwandtschaft wird quantitativ wiedergegeben durch die unterschiedlichen Längen der horizontalen Äste. Quantitativ = Anzahl der beobachteten Merkmalsaustausche. Dendrogramm: Ultrametrischer Stammbaum, in dem alle Taxa den gleichen Abstand zur Wurzel haben. D.h. man nimmt eine konstante Veränderungsrate an (molekulare Uhr).

27 Das Newick-Format ist ein Computer-lesbares Format, Bäume darzustellen. Schwestergruppen werden dabei in sukzessive verschachtelte, runde Klammern gesetzt und durch Kommata getrennt. Die Baumbeschreibung wird durch ein Semikolon abgeschlossen. Stammbäume lassen sich um die Knoten beliebig drehen (die Topologie bleibt erhalten).

28 In Phylogrammen wird die Länge der Äste durch einen Doppelpunkt abgetrennt nach jedem internen und externen Knoten angegeben.

29 Mindestens 4 Taxa werden benötigt, um unterschiedliche Bäume zu erhalten.

30 Mindestens 3 Taxa werden benötigt, um unterschiedliche Bäume zu erhalten. Jeder der drei ungewurzelten Bäume kann an seinen 5 Ästen gewurzelt werden 3 * 5 Bäume.

31 Die Anzahl möglicher Bäume wächst extrem schnell.

32

33

34 Warum beschreibt die DNA nicht alles? Ortholog: Gemeinsamer Ursprung durch Artbildung Paralog: Gemeinsamer Ursprung durch Genduplikation Falsche Verwandschaft auf Grund einer Vermischung von Paralogen und Orthologen.

35

36 Nur die Synapomorphien enthalten Informationen zu dem zugrundeliegenden Baum.

37 1. Berechne die paarweisen Distanzen in einer Distanzmatrix

38 Wie kommen wir vom Kladogramm zum Phylogramm/Dendrogramm?

39 UPGMA nimmt eine molekulare Uhr an und berechnet so eine ultrametrische Distanz. Dies kann, muss aber natürlich nicht erfüllt sein. Daher ist UPGMA sehr schnell und effizient, gilt aber heute eher als veraltet. Eine weit verbreitete Distanzmethode ist Neighbour-Joining, welches den Baum mit der kürzesten Summe der Astlängen sucht. Substitutionsmodelle berücksichtigen beispielsweise unterschiedliche Änderungsraten von Transitionen und Transversionen oder von synonymen und nicht-synonymen Substitutionen. Für Aminosäuren sind diese Substitutionsmodelle in den PAM und BLOSUM Matrizen zusammengefasst. Nachteile: Durch die Übertragung in Distanzen können unterschiedliche Sequenzen zur gleichen Distanz führen (im Beispiel Distanz in beiden Fällen = 10). Daher lassen sich Distanzen auch nicht wieder in Sequenzen zurückübertragen. Distanzmethoden betrachten nur Ähnlichkeit, nicht die evolutionäre Geschichte. Außerdem lassen sich morphologische und molekulare Merkmale nicht kombinieren. Die phylogenetische Distanz wird unterschätzt, wenn man einfach die Anzahl der Unterschiede zählt (unkorrigierte p-distanz), da es mehrfache Substitutionen einer Base (multiple Hits) geben kann.

40 Um die Astlängen zu erhalten, kann man den UPGMA-Algorithmus anwenden: 1. Berechne alle paarweisen Distanzen 2. Trage alle Werte in eine symmetrische Distanzmatrix D = d ij ein 3. Suche die beiden Sequenzen/Taxa i und j mit der geringsten Distanz d ij und erstelle ein neues Cluster aus c aus beiden 4. Entferne die Taxa i und j aus dem Set aller Taxa 5. Füge das neue Cluster c in die Distanzmatrix ein 6. Berechne die Distanz zwischen dem neuen Cluster c und allen anderen Gruppen als d ck = ( i * d ik + j * d jk ) / ( i + j ) 7. Gehe zu 3. i und j bezeichnen die Kardinalität der Cluster i und j (also die Anzahl der Elemente im jeweiligen Cluster)

41

42

43

44

45 UPGMA liefert ein Dendrogramm.

46 Diskrete Merkmale = DNA- oder Aminosäuren-Sequenzen.

47 Vorteile: - Einfaches, intuitives Prinzip - Für morphologische Daten ist keine andere Methode etabliert Nachteile: - Multiple Hits werden nicht berücksichtigt (Homoplasien bei stark divergenten Sequenzen) - Nicht alle Bäume können analysiert werden bei großen Datensätzen, sehr zeitaufwändig

48

49

50 Diese Position ist nicht parsimonie-informativ.

51 Diese Position ist nicht parsimonie-informativ, da sie fixiert ist.

52

53 Dies wird erreicht durch die Benutzung von Substitutionsmatrizen (zb PAM oder BLOSUM bei Aminosäuren). Ähnliche zur Parsimonie, aber nutzt komplexere Substitutionsmodelle. Vorteile: - Realistischer als Parsimonie - Parsimonie-uniformative Positionen können unter ML informativ sein, da ML berücksichtigt, dass eine Substitution entlang eines langen Zweiges wahrscheinlicher ist als entlang eines kurzen. Autapomorphien treten eher auf langen Zweigen auf. Nachteile: - Sehr rechenintensiv

54

55

56

57 Ohne Gaps gibt es für jede Zeile und für jede Spalte 17 weitere Bäume, d.h. 20 * 20 = 400 Rekonstruktionen. Das gleiche gilt für die zwei anderen Topologien, also 3 * 400 = 1200 Rekonstruktionen für das erste Merkmal. Es gibt 11 Merkmale, also insgesamt 1200 * 11 = Rekonstruktionen.

58 In diesem Beispiel nutzen wir die Scores aus der PAM250-Matrix. Diese Likelihood-Scores werden für jedes Merkmal, jede Rekonstruktion und jede Topologie gerechnet. Natürlich müssen die Scores zuerst in Wahrscheinlichkeiten umgerechnet werden.

59 Diese parsimonie-uniformative Position kann informativ bei der ML-Methode werden.

60 Am Ende ist die Topologie der drei möglichen Topologien optimal, welche die größte Likelihood aufweist.

61 Die Prior Probabilities sind die Wahrscheinlichkeiten der Hypothese, bevor man die Daten angeschaut hat. Markov-Kette: Wandert durch den Raum aller Topologien und nutzt die Information des vorherigen Baums, um entweder in einen neuen Zustand (Baum) zu wechseln oder beim alte zu bleiben. Die Entscheidung über Wechsel oder Verbleiben geschieht über die Likelihood. Nachteil: Abhängig vom Prior

62 Eigentlich sind biologische Replikate ein probates Mittel. Dies kann allerdings in der Phylogenetik schwierig sein. Dann kann man den Bootstrap nutzen. Je mehr Replikate man macht (also je größer das k), desto kleiner wird der Fehler (k=10000 ist eine recht verläßliche Zahl).

63 Manche Merkmale werden genau einmal gezogen.

64 Manche Merkmale gar nicht.

65 Manche Merkmale werden mehr als einmal gezogen.

66

67 Anhand der Bootstrap Sequenzen wird ein Baum konstruiert.

68

69 Bootstrap-Wert = 6 (oder 60%).

70 Bootstrap-Wert = 7 (oder 70%). Erfahrungsgemäß sind Bootstrap-Werte von über 70% akzeptabel. Man erzeuge einen Bootstrap-Baum, indem man den Majority Rule Konsensusbaum errechnet. Wenn in einem Replikat mehrere Bäume gleichwahrscheinlich sind, kann man entweder erst einen Strict Consensus Baum innerhalb des Replikats errechnen oder die Bäume im Bootstrap-Baum niedriger gewichten (Frequency-Within-Replicates Ansatz, FWR).