Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Größe: px

Ab Seite anzeigen:

Download "Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung"

Kathrin Müller
vor 6 Jahren
Abrufe

1 Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung Sprechstunde Mo in OH14, R214 Sven.Rahmann -at- tu-dortmund.de 1 Bioinformatik für Hochdurchsatztechnologien

2 Multiple Alignments Bisher: Betrachtung von paarweisen Alignments, Vergleich von 2 Sequenzen Definition Ein multiples Alignment ist ein Alignment von mindestens 2, in der Regel aber mindestens 3 Sequenzen. Jede Zeile eines multiplen Alignments entspricht (durch Weglassen der Gaps) einer der Sequenzen. In einem Alignment aus k Sequenzen kann jede Spalte 0 bis k-1 Gap-Zeichen enthalten. Motivation Möchte alle Mitglieder einer Proteinfamilie auf einmal betrachten, ihre Gemeinsamkeiten und Unterschiede auf einen Blick sehen Homologe Positionen (evolutionär aus derselben Position hervorgegangene) werden in einem multiplen Alignment besser sichtbar. Drei paarweise Alignments von drei Sequenzen können inkonsistent sein: a mit b aligniert, b mit c, aber a nicht mit c. In einem multiplen Alignment kann das nicht passieren. 2 Bioinformatik für Hochdurchsatztechnologien

3 Beispiel: Proteindomänen Proteine bestehen häufig aus mehreren funktionalen Abschnitten, sog. Domänen. Domänen sind wiederkehrende modulare Bausteine von Proteinen. Durch verschiedene Kombinationen von Domänen entstehen Proteine mit unterschiedlichen Eigenschaften. Ein Ziel der Bioinformatik ist es, in der Natur auftretende Domänen zu charakterisieren. Beschreibung von Domänen Eine Domäne kann durch ihre Aminosäuresequenz-Zusammensetzung beschrieben werden (Konsensus + Variationsmöglichkeiten), oder durch ein multiples Alignment aus bekannten Beispiel-Sequenzen, oder durch ein statistisches Modell (Hidden-Markov Model, HMM). Datenbanken zu Domänen Die pfam Datenbank: Die SMART Datenbank: (pfam = protein families, SMART = simple modular architecture research tool) Proteinfamilien Eine Domäne oder eine bestimmte Kombination von Domänen kann eine bestimmte Familie von Proteinen charakterisieren. 3 Bioinformatik für Hochdurchsatztechnologien

4 Serpine in pfam Beispiel: Serpin (Serin-Protease Inhibitor) Domäne wird durch das folgende multiple Alignment charakterisiert (pfam PF00079) 4 Bioinformatik für Hochdurchsatztechnologien

5 Visualisierung als HMM-Logo Die folgende Darstellung arbeitet die stark konservierten Positionen besser heraus. Höhe der Türme: Grad der Konserviertheit Breite der Türme: Wahrscheinlichkeit, nicht ausgelassen zu werden Breite der roten Balken: Insertionswahrscheinlichkeit zwischen zwei Positionen 5 Bioinformatik für Hochdurchsatztechnologien

6 Evolutionäre Verwandtschaft zwischen Sequenzen Ein multiples Alignment ist nur zwischen Sequenzen sinnvoll, die global ähnlich sind, d.h. zwischen denen eine evolutionäre Verwandtschaft besteht. Diese wird durch einen phylogenetischen Baum ausgedrückt. Beispiel: Serpine in pfam Später mehr zum Thema Phylogenetische Bäume. 6 Bioinformatik für Hochdurchsatztechnologien

7 Berechnung multipler Alignments aus Sequenzen Ziel: Berechnung des biologisch / evolutionär korrekten multiplen Alignments (d.h. evolutionär voneinander Abstammende Aminosäuren oder solche mit gemeinsamem Vorfahren stehen untereinander) aus k gegebenen Sequenzen Formulierung als Optimierungsproblem: Definiere (wie schon auf paarweisen Alignments) eine Scorefunktion Finde das multiple Alignment, das den Score maximiert Problematisch! Es gibt vermutlich kein Scoring-Verfahren, das stets das biologisch korrekte Alignment zu dem mit der höchsten Score macht. 7 Bioinformatik für Hochdurchsatztechnologien

8 Bewertung (Scoring) multipler Alignments Problematisch! Es gibt vermutlich kein Scoring-Verfahren, das stets das biologisch korrekte Alignment zu dem mit der höchsten Score macht. Die zwei gängigsten Verfahren: Sum-of-pairs score: Ein multiples Alignment aus k Sequenzen enthält ~ k 2 /2 paarweise Alignments. Die Summe aller paarweisen Scores ergibt den Score des multiplen Alignments. Tree score: Man geht davon aus, dass zwischen den Sequenzen evolutionäre Verwandtschaften bestehen, die durch einen phylogenetischen Baum gegeben sind. (Dazu später mehr!) Man summiert nur die paarweisen Scores von im Baum benachbarten Sequenzen. Eine Zwischenlösung ist ein gewichteter Sum-of-pairs score, der verschiedenen Sequenzpaaren verschiedene Gewichte bei der Summierung der paarweisen Scores zuweist. - Sum-of-pairs: Alle Gewichte sind 1. - Tree score: Gewichte von im Baum benachbarten Sequenzen sind 1, sonst 0. 8 Bioinformatik für Hochdurchsatztechnologien

9 Optimierungsprobleme Variante 1: Sum-of-pairs Problem Gegeben k Sequenzen, Scorematrix, Gapkosten, finde das multiple Alignment, das den (gewichteten) sum-of-pairs Score maximiert Variante 2: Tree Alignment Problem Gegeben zusätzlich ein Baum mit den k Sequenzen an den Blättern, finde eine Belegung der inneren Knoten mit Sequenzen (gemeinsame Vorfahren) und das multiple Alignment, das den Tree-Score maximiert Variante 3: Verallgemeinertes Tree Alignment Problem: Gegeben k Sequenzen, Scorematrix, Gapkosten (kein Baum!), finde eine Baumtopologie, eine Belegung der inneren Knoten mit Sequenzen und das multiple Alignment, das den Tree-Score über alle Möglichkeiten maximiert Alle drei Varianten des multiplen Alignments sind NP-schwere Probleme! Es gibt exakte Algorithmen, aber deren Zeitbedarf ist exponentiell in der Anzahl der Sequenzen k. Diese sind nur praktikabel für 3 4 Sequenzen. 9 Bioinformatik für Hochdurchsatztechnologien

10 Heuristiken für multiples Alignment Da multiples Alignment NP-schwer ist, verwendet man Heuristiken. Seit den 70er Jahren wurden viele Ideen für Heuristiken entwickelt, und es gibt eine Vielzahl an Programmen für multiples Alignment. Beispiele Center-star-Methode: Man wählt eine Sequenz aus (die mit der geringsten evolutionären Abstandssumme zu den anderen) und aligniert jede andere Sequenz paarweise daran. Die k-1 paarweisen Alignments setzt man zu einem multiplen Alignment zusammen. Nachteil: Es werden nur k-1 der möglichen paarweisen Alignments betrachtet. Divide-and-conquer Alignment: Man sucht etwa in der Mitte jeder Sequenz eine Stelle, an der man relativ sicher ist, dass alle diese Stellen eine Alignmentspalte bilden. Man teilt das Problem dann in ein linkes und ein rechtes Problem auf, und verfährt dort genauso. Nachteil: funktioniert nicht gut, wenn es keine solchen Stellen gibt Progressives Alignment: Man beginnt mit 2 Sequenzen und aligniert in jedem Schritt eine weitere Sequenz optimal an das schon bestehende multiple Alignment. Die Reihenfolge wird durch die evolutionären Distanzen der Sequenzen bestimmt. Wichtigstes Beispiel hierzu: Clustal 10 Bioinformatik für Hochdurchsatztechnologien

11 Clustal Clustal ist eine schnelle Heuristik (und ein Software-Paket) zum Berechnen von multiplen Alignments. Idee - Berechne eine Folge von paarweisen Alignments - Nimm dazu einen Baum zur Hilfe ( guide tree ) (eine Art phylogenetischer Baum, aber eher einfach ein Hilfsmittel zur Berechnung): 1. Berechne Distanzen zwischen allen Sequenzpaaren 2. Berechne aus den Distanzwerten einen Baum (mehr dazu später) 3. Aligniere Sequenzen und existierende Alignments zueinander in der Reihenfolge, die der Baum vorgibt. - Bereits existierende Teil-Alignments werden dabei nicht mehr verändert. Clustal im WWW Informationen auf Webserver zum Berechnen von Alignments: - am EBI: - am Swiss Institute of Bioinformatics: 11 Bioinformatik für Hochdurchsatztechnologien

12 Abhängigkeit zwischen Baum und Alignment Ein Baum, der die Verwandtschaftsverhältnisse der Sequenzen abbildet, ist ein wichtiges Hilfsmittel beim Berechnen eines multiplen Alignments. Wie bekommt man aber einen solchen Baum? Man schätzt die evolutionären Distanzen (z.b. in PAM-Einheiten) zwischen den Sequenzen. Dazu braucht man aber das Alignment. Dies ist ein klassischer Fall des Henne-Ei-Problems. Lösung: Man startet mit groben Schätzungen für die Distanzen, z.b. aus paarweisen Alignments; diese unterschätzen die wahren Distanzen. Man erstellt ein erstes multiples Alignment. Daraus schätzt man neue Distanzen und ein neues Alignment. Dies iteriert man so lange, bis sich nichts mehr ändert, oder eine vorgegebene Maximalzahl an Iterations-Schritten gemacht wurde. 12 Bioinformatik für Hochdurchsatztechnologien

Ähnliche Dokumente

Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment und

Einführung in die Angewandte Bioinformatik: Algorithmen und Komplexität; Multiples Alignment 04.06.2009 und 18.06.2009 Prof. Dr. Sven Rahmann 1 Zwischenspiel: Algorithmik Bisher nebenbei : Vorstellung