MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013
Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus, Keyword Tree Text: Suffix Baum, Suffix Array, Borrows-Wheeler Transformation
Nachlese zur Übung Unix-Kenntnisse: http://www.tcs.uni-luebeck.de/de/lehre/ 2012-ws/info-a/wiki/Vorlesung, Kapitel Shells Aufgaben 2.8 und 2.9
Übersicht: Sequenzvergleich ohne Alignment Nochmal: Was ist ein Alignment? Vor- & Nachteile von Alignments Sequenzverlgeich ohne Alignment Wörter zählen Matchlängen bestimmen
Wozu Alignment? Häufige Anwendungen: Annotation (änhliche Sequenzen haben ähnliche Funktion) Rekonstruktion von Stammbäumen
Vom Alignment zu Distanzen Alignment S1 CGCAATGTGTCACTCGGCACTGGGTGGGATTTGGGGCAAGCTTGGAGACTGGCCGCAACG 60 S2...g..t...a..aa.c...a...c...c...c.t... 60 S3...gt...a..a..cc...c...c...g...c.t... 60 S4...g...a..a..cc...c...c...g...c.t... 60 S1 TGCTTCCTTTGAAAAGATAGCTCCAGCCCTAGCACAGTAT 100 S2...a...cc...t...g... 100 S3...a...cc...a... 100 S4...a...cc... 100 Distanzen S1 S2 S3 S4 S1 0.00 0.18 0.17 0.14 S2 0.18 0.00 0.10 0.07 S3 0.17 0.10 0.00 0.02 S4 0.14 0.07 0.02 0.00
Bäume Bauen Distanzen S1 S2 S3 S4 S1 0.00 0.18 0.17 0.14 S2 0.18 0.00 0.10 0.07 S3 0.17 0.10 0.00 0.02 S4 0.14 0.07 0.02 0.00 Parsimonie S4 0.01 Distanzen S4 0.01 Likelihbood S3 S2 S1 S4 0.01 S3 S3 S2 S2 S1 S1
Phylogenie-Berechnung Phylogenie Mit Alignment Ohne Alignment Distance MP ML Partitionieren Distanzen Gene Residuen Worfrequenzen Matchlängen Exact Inexact LZ-factoren Gemeinsame Substrings dktup dffp dcv dco dgram dacs dkr
Noch einmal: Was ist ein Alignment? Betrachte AACGT und AAGGT Ziel beim Alignment: Schreibe homologe Merkmale übereinander. AACGT AAGGT Fasst zwei Stammbäume zusammen: AACGT AAGGT C G G C AACGT AAGGT AACGT AAGGT
Ohne Alignment Arbeite ohne evolutionäre Hypothese für einzelne Nukleotide. Alternativen Zusammensetzung der Sequenzen: ähnliche Zusammensetzung = ähnliche Sequenzen Matchlängen: Lange Matches = ähnliche Sequenzen
Zusammensetzung Beispiel: Zusammensetzung von da_adh.fasta dm_adh.fasta mggenome.fasta
Zusammensetzungs-Distanz cchar../data/dm_adh.fasta # Total number of input characters: 2365 # Char Count Fraction A 705 0.298097 C 566 0.239323 G 514 0.217336 T 580 0.245243 cchar../data/da_adh.fasta # Total number of input characters: 912 # Char Count Fraction A 245 0.268640 C 207 0.226974 G 211 0.231360 T 249 0.273026 cchar../data/mggenome.fasta # Total number of input characters: 580074 # Char Count Fraction a 200543 0.345720 c 91524 0.157780 g 92312 0.159138 t 195695 0.337362 bc (0.298097-0.268640)^2+(0.239323-0.226974)^2+(0.217336-0.231360)^2+(0.245243-0.273026)^2.001986 (0.298097-0.345720)^2+(0.239323-0.157780)^2+(0.217336-0.159138)^2+(0.245243-0.337362)^2.020788 (0.268640-0.345720)^2+(0.226974-0.157780)^2+(0.231360-0.159138)^2+(0.273026-0.337362)^2.020083
Distanz-Baum Mycoplasma genitalium Drosophila adiastola Drosophila melanogaster
Verallgemeinerte Zusammensetzung: Wortfrequenzen q i : Frequenz des i-ten Worts in Sequenz Q q s : Frequenz des i-ten Worts in Sequenz S k: Wortlänge 4 k : Anzahl möglicher Wörter der Länge k d ktup (Q, S) = (q i s i ) 2, 4 k i=1
Beispiel Wortdistanz Mitochondriale Genome, k = 5 Alignment 0.01 P. Chimp C. Chimp Human Gorilla d ktup P. Chimp C. Chimp Human Gorilla 10 5 Orangutan Gibbon Baboon Orangutan Gibbon Baboon
Vor- und Nachteile von Wortdistanzen Vorteile Leicht zu verstehen Einfach zu berechnen Nachteile Welche Wortlänge? Verhältnis zu Mutationsdistanzen unklar
Genetischer Abstand mit Alignment AACGACGATCGC TACGATGATCGG π = 3/12
π Interpretieren π: Wahrscheinlichkeit einer Mutation/Nukleotid 1/π: Abstand zur nächsten Mutation π 1/avg(abstandZurNaechstenMutation) 543216543211 AACGACGATCGC TACGATGATCGG
Alignment notwendig? Mit Alignment: Abstand zur nächsten Mutation 543216543211 AACGACGATCGC TACGATGATCGG Ohne Alignment: SHortest Unique SubSTRINGs shustrings Query 254365654322 AACGACGATCGC Subject TACGATGATCGG
EINLEITUNG STAMMBÄUME WÖRTER ZÄHLEN MATCHLÄNGEN ÜBUNG Shustrings finden: Suffixbäume 1 2 3 4 G A A C 1 ACCG 1 ACCG CCG 2 1 ACCG CG C G 1 ACCG CG C G G 4 Tatsächliche Implementation: Enhanced Suffix Array 2 3 2 3
Enhanced Suffix Array 1 2 3 4 G A A C Rank SA Suffix LCP Length(LCP) 1 2 AAC - 0 2 3 AC A 1 3 4 C - 0 4 1 GAAC - 0 SA: suffix array; LCP: longest common prefix
Suffix Array Suffix Baum 1 2 3 4 G A A C Rank SA Suffix LCP Length(LCP) 1 2 AAC - 0 2 3 AC A 1 3 4 C - 0 4 1 GAAC - 0 AAC A A C A C GAAC 2 AC C AC C 4 AC C 4 1 2 3 2 3 2 3
Alignment-freier Mutationsabstand Query 254365654322 AACGACGATCGC Subject TACGATGATCGG π m = π m = Q xi 12 2+5+...+2
Mehr Details X i : Shustring Länge an Position i Für Zufallssequenzen gilt: P(X i x) = (1 14 ) S x Für verwandte Sequenzen, die sich an d Positionen unterscheiden, gilt: Folglich P(X i > x) = ( 1 d ) x e xd/ S := e xπ. S P(X i x) = (1 e xπ ) (1 14 ) S x
Für multiple Treffer korrigieren Zahl der Mismatches Zahl der Mutationsereignisse Jukes-Cantor Korrektur: Software Demo d kr = 3 4 ln ( 1 4 3 π ).
Jukes-Cantor Modell A C G T Mutationsrate zwischen allen Paaren von Nukleotiden ist µ/3 pro Zeiteinheit.
Jukes-Cantor Argument 1 Mutationsrate zwischen allen Paaren von Nukleotiden ist µ/3 pro Zeiteinheit. Wahrscheinlichkeit, dass an einer bestimmten Position eine Mutation stattgefunden hat: 4µ/3 Wahrscheinlichkeit in t Zeitabschnitten keine Mutation zu beobachten ( P 0 = 1 4 ) t 3 µ e 4/3µt Wahrscheinlichkeit, dass mindestens eine Mutation stattgefunden hat P = 1 e 4/3µt Wahrscheinlichkeit ein A zu beobachten, wo vorher ein C war P(A C) = 1 4 (1 e 4/3µt )
Jukes-Cantor Argument 2 Wahrscheinlichkeit ein A zu beobachten, wo vorher ein C war P(A C) = 1 4 (1 e 4/3µt ) Wahrscheinlichkeit, eine Mutation zu beobachten π = 3 4 (1 e 4/3µt ) Zahl der Mutationsereignisse (nicht beobachtbar) Jukes-Cantor Formel K := µt K = 3 4 ln ( 1 4 3 π )
Beispiel K r Mitochondriale Genome Alignment d kr 0.01 P. Chimp C. Chimp Human Gorilla Orangutan Gibbon Baboon 0.01 P. Chimp C. Chimp Human Gorilla Gibbon Orangutan Baboon
Vorteil: Mutationsabstand Leicht zu berechnen Vor- und Nachteile d kr Query 254365654322 AACGACGATCGC Subject TACGATGATCGG Nachteil: Abhängige Daten Probleme bei lokalen Schwankungen in Mutationsrate Konservierung funktionaler Bereiche Rekombination Probleme bei kurzen Sequenzen bzw. wenigen Mutationen
Verbesserung von d kr Verwende nur Shustrings, die nicht überlappen: Supershustrings
Beispiel susi Mitochondriale Genome Alignment d kr 0.01 P. Chimp C. Chimp Human Gorilla Orangutan Gibbon Baboon 0.01 P. Chimp C. Chimp Human Gorilla Orangutan Gibbon Baboon
Heutige Übung Die Befehlszeile: TAB für Vervollständigung von Befehlen Pfaden CTR-a: Springe an Zeilenanfang CTR-e: Springe an Zeilenende ALT-f: Springe ein Wort vorwärts ALT-b: Springe ein Wort rückwärts Zusatzpaket Pfade
Literatur Haubold, B. (2014). Alignment-free phylogenetics and population genetics. Briefings in Bioinformatics, in press. Felsenstein, J. (2004). Inferring Phylogenies. Sinauer.
Zusammenfassung Nochmal: Was ist ein Alignment? Vor- & Nachteile von Alignments Sequenzverlgeich ohne Alignment Wörter zählen Matchlängen bestimmen