Welche Alignmentmethoden haben Sie bisher kennengelernt?

Ähnliche Dokumente
Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

TreeTOPS. Ein Phylogenetik-Icebreaker Spiel. Lehrer- Handbuch. ELLS Europäisches Lernlabor für die Lebenswissenschaften

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Alignment von DNA- und Proteinsequenzen

Fernstudium "Molekulare Phylogenie" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Fernstudium "Molekulare Evolution" Bernhard Lieb Michael Schaffeld. Institut für Zoologie Universität Mainz

Rekonstruktion der Phylogenese

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Molekulare Phylogenie

Übungen zur Vorlesung Algorithmische Bioinformatik

Phylogenetische Analyse

Standardbasierter, kompetenzorientierter Unterricht ZPG Biologie 2011 Bildungsplan 2004 Baden-Württemberg Sekundarstufe II - Evolution

Lage- und Streuungsparameter

Algorithmische Bioinformatik

Clustering Seminar für Statistik

Systematik der Metazoa Eine phylogenetische Übersicht. Version 2.0. Vorwort

2. Repräsentationen von Graphen in Computern

Einführung in die evolutionäre Bioinformatik Alignmentalgorithmen, Profile, Phylogenetische Analysen

Informationstheorie als quantitative Methode in der Dialektometrie

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Bioinformatik für Lebenswissenschaftler

Kodierungsalgorithmen

3 Quellencodierung. 3.1 Einleitung

Einführung in die Bioinformatik Algorithmen zur Sequenzanalyse

Routing Algorithmen. Begriffe, Definitionen

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

5 Zwei spieltheoretische Aspekte

Wo waren wir stehen geblieben? Evolutions modelle

Approximation in Batch and Multiprocessor Scheduling

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Verwandtschaftsbestimmung mit molekularen Daten

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistische Verfahren:

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011

Mathematik 1, Teil B. Inhalt:

Matrizen, Determinanten, lineare Gleichungssysteme

Anmerkungen zur Übergangsprüfung

Morphologische Bildverarbeitung II

Die Harmonische Reihe

9.2 Invertierbare Matrizen

Berechnungen in Access Teil I

Algorithmische Methoden zur Netzwerkanalyse

Randomisierte Algorithmen

16. All Pairs Shortest Path (ASPS)

Box. Biologie. Das Nervensystem Zellbiologische Grundlagen, Erregungsbildung und Erregungsweiterleitung

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

Graphentheorie 1. Diskrete Strukturen. Sommersemester Uta Priss ZeLL, Ostfalia. Hausaufgaben Graph-Äquivalenz SetlX

Maschinelles Lernen in der Bioinformatik

Berechnung phylogenetischer Bäume mit Distanzmaßen

Optimieren unter Nebenbedingungen

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr?

Zusammenhangsanalyse in Kontingenztabellen

Algebra und Diskrete Mathematik, PS3. Sommersemester Prüfungsfragen

Biowissenschaftlich recherchieren

Mathematische und statistische Methoden I

4.4. Rang und Inversion einer Matrix

Kapiteltests zum Leitprogramm Binäre Suchbäume

Handbuch ECDL 2003 Professional Modul 2: Tabellenkalkulation Kopieren, Einfügen und Verknüpfen von Daten

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Maximizing the Spread of Influence through a Social Network

Bio Data Management. Kapitel 5a Sequenzierung und Alignments

6. Faktorenanalyse (FA) von Tests

Algorithmen und Datenstrukturen 2

Lineare Gleichungssysteme (Teschl/Teschl 11.1)

Satz 16 (Multiplikationssatz)

Einführung in die Kodierungstheorie

A.12 Nullstellen / Gleichungen lösen

Lösungen zu den Übungsaufgaben aus Kapitel 3

Uninformierte Suche in Java Informierte Suchverfahren

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Bio Data Management. Kapitel 5a Sequenzierung und Alignments

Datenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Venndiagramm, Grundmenge und leere Menge

Lineare Gleichungssysteme

3. Einführung in die Theorie der Methoden

Ein Algorithmus für die

Einführung in Quantencomputer

Korrelation und Regression

7 Lineare Gleichungssysteme

Kapitel 2: Matrizen. 2.1 Matrizen 2.2 Determinanten 2.3 Inverse 2.4 Lineare Gleichungssysteme 2.5 Eigenwerte 2.6 Diagonalisierung

Lineare Gleichungssysteme

Bioinformatik I (Einführung)

Phishingerkennung mittels visuellem Ähnlichkeitsvergleich. Felix Hill Ruhr-Universität Bochum

MC-Serie 11: Eigenwerte

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

5.1 Determinanten der Ordnung 2 und 3. a 11 a 12 a 21 a 22. det(a) =a 11 a 22 a 12 a 21. a 11 a 21

Transkript:

Welche Alignmentmethoden haben Sie bisher kennengelernt?

Was heißt optimal? Optimal = die wenigsten Mutationen. Sequenzen bestehen aus Elementen (z.b. Aminosäuren oder Nukleotide).

Edit Distanzen sind in Substitutionsmatrizen abgelegt. Hier ist der einfachste Fall abgebildet. Ähnlichkeitsmatrix = je ähnlicher, desto höher der Score, Distanzmatrix = je ähnlicher, desto niedriger der Score. Bsp. Einheitsmatrix Der Algorithmus versucht die Summe der einzelnen Scores aus einer Ähnlichkeitsmatrix zu maximieren. Für Aminosäuren gibt es die PAM (abgeleitet von einem globalen Alignment) und BLOSUM (abgeleitet von einem lokalen Alignment) Matrizen, welche Ähnlichkeitsmatrizen sind. PAMn vs BLOSUMn: PAM-Matrizen mit kleinesrem n sollten bei weniger divergenten Sequenzen genutzt werden. Bei den BLOSUM-Matrizen ist es andersherum.

Hamming Distanz kann nur gleichlange Sequenzen vergleichen. Natürlich können aber auch Insertionen und Deletionen auftreten. Insertionen in der einen Sequenz entsprechen Deletionen in der anderen Sequenz. Daher nennt man sie auch übergeordnet Indels.

Was ist in unserem Fall die Substitutionsmatrix? Eine Distanzmatrix. Insertion / Deletion in Bezug zur Sequenz auf der horizontalen Achse.

Abstand der beiden Sequenzen ist 2.

Gehe von rechts nach links entlang der Pfeile und halte die Summe der D i,j minimal. Dann folge der Spur von links oben nach rechts unten. Wenn zwei Einträge horizontal verbunden sind, so muss in der vertikalen Sequenz ein Gap stehen (Insertion in Bezug auf die horizontale Achse). Wenn zwei Einträge vertikal verbunden sind, so muss in der horizontalen Sequenz ein Gap stehen (Deletion in Bezug auf die horizontale Achse).

Substitutionsmatrizen können auch beispielsweise Transitionen anders gewichten als Transversionen. Transitionen gibt es theoretisch weniger, treten aber wegen der chemischen Eigenschaften der Nukleinsäuren häufiger auf. Score-basierte Algorithmen maximieren die Punktezahl, was equivalent zum Minimieren der Edit Distance ist. Was ist in unserem Fall die Substitutionsmatrix? Eine Ähnlichkeitsmatrix.

Globales Alignment kann zu großen Gaps führen. Globale Alignments werden hauptsächlich verwendet, wenn die zu untersuchenden Sequenzen ähnlich lang sind und starke Sequenzhomologien erwartet werden. Lokalen Alignments werden beispielsweise genutzt, wenn man nach gleichen Sequenzmotiven oder Domänen bei Proteinen sucht. Beide Algorithmen finden immer das optimale Alignment ( Dynamic Programming ). Multiple Alignments finden nicht immer das optimale Alignment und es Bedarf der Kontrolle. Sie erzeugen so genannte Guide Trees, welche die ähnlichsten Sequenzen zusammengruppieren. Häufig wird eine Neighbour-Joining Methode angewendet, um den Baum zu erstellen.

Score des Alignments = -8.

Beachte die unterschiedliche Initialisierung. Negative Scores sind nicht möglich. Traceback funktioniert anders (beginne bei der höchsten Zahl und ende, sobald die Null erreicht ist).

Die Konsensussequenz fasst das multiple Alignment so zusammen, dass nur die an jeder Position häufigste Base dargestellt wird. Starke Reduktion der Information. Das Sequenzlogo ist eine graphische Darstellung des Grades der Konserviertheit eines Nukleotids. Die relative Größe der Buchstaben entspricht den Frequenzen der Nukleotide an einer bestimmten Position des Alignments und die absolute Größe der Buchstaben entspricht dem Informationsgehalt an dieser Position (in Bits). Das heißt, je größer die Buchstaben, desto stärker ist diese Position konserviert.

Das gleiche Prinzip wird auch bei der Visualisierung von Proteindomänen genutzt.

Die phylogenetische Systematik ist eine Systematik, welche die tatsächliche evolutionäre Beziehung der Organismen zueinander widerspiegelt. Plesiomorphe Merkmale sind ursprüngliche Merkmale, apomorphe Merkmale sind abgeleitete Merkmale. Symplesiomorphe Merkmale sind plesiomorphe Merkmale, welche zwischen Taxa geteilt sind. Autapomorphe Merkmale sind apomorphe Merkmale, welche spezifisch für ein Taxon sind. Synapomorphe Merkmale sind apomorphe Merkmale, welche Taxa gemeinsam haben. Homoplasien sind Merkmale, welche unabhängig in unterschiedlichen Taxa entstanden sind und daher nicht auf eine gemeinsame Abstammung zurückgehen (Konvergenz). In der molekularen Phylogenetik eher Homoplasie genannt. Dies kann durch Rückmutationen oder analoge Mutationen entstehen. Durch unerkannte Homoplasien kann es zur Bildung von polyphyletischen Gruppen kommen. Welche Arten von Merkmalen sind besonders wichtig für die Bildung monophyletischer Gruppen? Synapomorphe Merkmale. Symplesiomorphe Merkmale helfen nicht paraphyletische Gruppen in monophyletische Gruppen aufzuspalten, sie sind aber hilfreich für die evolutionäre Eingruppierung. Was sind paraphyletische Gruppen? Taxa, die zwar auf einen gemeinsamen Vorfahren zurückgehen, aber aus denen auch andere Lebensformen hervorgegangen sind.

Ectothermie der Krokodile und Schildkröten: Beide sind ectotherm; dies hilft uns aber nicht dabei, ihre Verwandtschaft aufzuklären. Feder der Vögel. Diapsider Schädel der Vögel (Aves), Brückenechsen (Sphenodontia), Echsen und Schlangen (Squamata), Krokodile (Crocodylia). Homoplasie = Konvergenz des Vertebraten-Flügels.

Im besten Fall sind Bäume dichotom, manchmal treten aber auch Polytomien auf. Externer Knoten mit nur einem Nachbar, interner Knoten mit zwei Nachbarn. Externer Knoten = OTUs (Operational taxonomic unit) Unbewurzelte Bäume haben keine richtige Leserichtung. Erst durch die Wurzel lassen sich ältere von jüngeren Verzweigungen unterscheiden. Mittelpunktbewurzelung (Midpoint rooting): Die Wurzel wird in der Mitte der am weitesten entfernten Taxa gesetzt.

Besser: Wurzelung geschieht durch eine Außengruppe (Outgroup). Diese ist ein Taxon, das mit Sicherheit stammesgeschichtlich weiter von der Innengruppe entfernt steht, als alle Taxa der Innengruppe zueinander.

Kladogramm: Die Länge der terminalen und internen Zweige hat keine Bedeutung, nur die Topologie ist entscheidend. Dies läßt sich auch als Netzwerk darstellen (mit sieben Möglichkeiten zur Bewurzelung, Pfeile). Phylogramm: Der Grad der Verwandtschaft wird quantitativ wiedergegeben durch die unterschiedlichen Längen der horizontalen Äste. Quantitativ = Anzahl der beobachteten Merkmalsaustausche. Dendrogramm: Ultrametrischer Stammbaum, in dem alle Taxa den gleichen Abstand zur Wurzel haben. D.h. man nimmt eine konstante Veränderungsrate an (molekulare Uhr).

Das Newick-Format ist ein Computer-lesbares Format, Bäume darzustellen. Schwestergruppen werden dabei in sukzessive verschachtelte, runde Klammern gesetzt und durch Kommata getrennt. Die Baumbeschreibung wird durch ein Semikolon abgeschlossen. Stammbäume lassen sich um die Knoten beliebig drehen (die Topologie bleibt erhalten).

In Phylogrammen wird die Länge der Äste durch einen Doppelpunkt abgetrennt nach jedem internen und externen Knoten angegeben.

Mindestens 4 Taxa werden benötigt, um unterschiedliche Bäume zu erhalten.

Mindestens 3 Taxa werden benötigt, um unterschiedliche Bäume zu erhalten. Jeder der drei ungewurzelten Bäume kann an seinen 5 Ästen gewurzelt werden 3 * 5 Bäume.

Die Anzahl möglicher Bäume wächst extrem schnell.

Warum beschreibt die DNA nicht alles? Ortholog: Gemeinsamer Ursprung durch Artbildung Paralog: Gemeinsamer Ursprung durch Genduplikation Falsche Verwandschaft auf Grund einer Vermischung von Paralogen und Orthologen.

Nur die Synapomorphien enthalten Informationen zu dem zugrundeliegenden Baum.

1. Berechne die paarweisen Distanzen in einer Distanzmatrix

Wie kommen wir vom Kladogramm zum Phylogramm/Dendrogramm?

UPGMA nimmt eine molekulare Uhr an und berechnet so eine ultrametrische Distanz. Dies kann, muss aber natürlich nicht erfüllt sein. Daher ist UPGMA sehr schnell und effizient, gilt aber heute eher als veraltet. Eine weit verbreitete Distanzmethode ist Neighbour-Joining, welches den Baum mit der kürzesten Summe der Astlängen sucht. Substitutionsmodelle berücksichtigen beispielsweise unterschiedliche Änderungsraten von Transitionen und Transversionen oder von synonymen und nicht-synonymen Substitutionen. Für Aminosäuren sind diese Substitutionsmodelle in den PAM und BLOSUM Matrizen zusammengefasst. Nachteile: Durch die Übertragung in Distanzen können unterschiedliche Sequenzen zur gleichen Distanz führen (im Beispiel Distanz in beiden Fällen = 10). Daher lassen sich Distanzen auch nicht wieder in Sequenzen zurückübertragen. Distanzmethoden betrachten nur Ähnlichkeit, nicht die evolutionäre Geschichte. Außerdem lassen sich morphologische und molekulare Merkmale nicht kombinieren. Die phylogenetische Distanz wird unterschätzt, wenn man einfach die Anzahl der Unterschiede zählt (unkorrigierte p-distanz), da es mehrfache Substitutionen einer Base (multiple Hits) geben kann.

Um die Astlängen zu erhalten, kann man den UPGMA-Algorithmus anwenden: 1. Berechne alle paarweisen Distanzen 2. Trage alle Werte in eine symmetrische Distanzmatrix D = d ij ein 3. Suche die beiden Sequenzen/Taxa i und j mit der geringsten Distanz d ij und erstelle ein neues Cluster aus c aus beiden 4. Entferne die Taxa i und j aus dem Set aller Taxa 5. Füge das neue Cluster c in die Distanzmatrix ein 6. Berechne die Distanz zwischen dem neuen Cluster c und allen anderen Gruppen als d ck = ( i * d ik + j * d jk ) / ( i + j ) 7. Gehe zu 3. i und j bezeichnen die Kardinalität der Cluster i und j (also die Anzahl der Elemente im jeweiligen Cluster)

UPGMA liefert ein Dendrogramm.

Diskrete Merkmale = DNA- oder Aminosäuren-Sequenzen.

Vorteile: - Einfaches, intuitives Prinzip - Für morphologische Daten ist keine andere Methode etabliert Nachteile: - Multiple Hits werden nicht berücksichtigt (Homoplasien bei stark divergenten Sequenzen) - Nicht alle Bäume können analysiert werden bei großen Datensätzen, sehr zeitaufwändig

Diese Position ist nicht parsimonie-informativ.

Diese Position ist nicht parsimonie-informativ, da sie fixiert ist.

Dies wird erreicht durch die Benutzung von Substitutionsmatrizen (zb PAM oder BLOSUM bei Aminosäuren). Ähnliche zur Parsimonie, aber nutzt komplexere Substitutionsmodelle. Vorteile: - Realistischer als Parsimonie - Parsimonie-uniformative Positionen können unter ML informativ sein, da ML berücksichtigt, dass eine Substitution entlang eines langen Zweiges wahrscheinlicher ist als entlang eines kurzen. Autapomorphien treten eher auf langen Zweigen auf. Nachteile: - Sehr rechenintensiv

Ohne Gaps gibt es für jede Zeile und für jede Spalte 17 weitere Bäume, d.h. 20 * 20 = 400 Rekonstruktionen. Das gleiche gilt für die zwei anderen Topologien, also 3 * 400 = 1200 Rekonstruktionen für das erste Merkmal. Es gibt 11 Merkmale, also insgesamt 1200 * 11 = 13200 Rekonstruktionen.

In diesem Beispiel nutzen wir die Scores aus der PAM250-Matrix. Diese Likelihood-Scores werden für jedes Merkmal, jede Rekonstruktion und jede Topologie gerechnet. Natürlich müssen die Scores zuerst in Wahrscheinlichkeiten umgerechnet werden.

Diese parsimonie-uniformative Position kann informativ bei der ML-Methode werden.

Am Ende ist die Topologie der drei möglichen Topologien optimal, welche die größte Likelihood aufweist.

Die Prior Probabilities sind die Wahrscheinlichkeiten der Hypothese, bevor man die Daten angeschaut hat. Markov-Kette: Wandert durch den Raum aller Topologien und nutzt die Information des vorherigen Baums, um entweder in einen neuen Zustand (Baum) zu wechseln oder beim alte zu bleiben. Die Entscheidung über Wechsel oder Verbleiben geschieht über die Likelihood. Nachteil: Abhängig vom Prior

Eigentlich sind biologische Replikate ein probates Mittel. Dies kann allerdings in der Phylogenetik schwierig sein. Dann kann man den Bootstrap nutzen. Je mehr Replikate man macht (also je größer das k), desto kleiner wird der Fehler (k=10000 ist eine recht verläßliche Zahl).

Manche Merkmale werden genau einmal gezogen.

Manche Merkmale gar nicht.

Manche Merkmale werden mehr als einmal gezogen.

Anhand der Bootstrap Sequenzen wird ein Baum konstruiert.

Bootstrap-Wert = 6 (oder 60%).

Bootstrap-Wert = 7 (oder 70%). Erfahrungsgemäß sind Bootstrap-Werte von über 70% akzeptabel. Man erzeuge einen Bootstrap-Baum, indem man den Majority Rule Konsensusbaum errechnet. Wenn in einem Replikat mehrere Bäume gleichwahrscheinlich sind, kann man entweder erst einen Strict Consensus Baum innerhalb des Replikats errechnen oder die Bäume im Bootstrap-Baum niedriger gewichten (Frequency-Within-Replicates Ansatz, FWR).