MBI: Sequenzvergleich ohne Alignment

Ähnliche Dokumente
MOL.504 Analyse von DNA- und Proteinsequenzen

4. Kopplung. Konzepte: Gekoppelte Vererbung. Genkarten. Doppel-Crossover. Interferenz. Statistik

Übungen zur Vorlesung Algorithmische Bioinformatik






Informationsvisualisierung

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Vorlesung Einführung in die Bioinformatik

Sequenz Alignment Teil 2

Darwins Erben - Phylogenie und Bäume

Optimale Produktliniengestaltung mit Genetischen Algorithmen

2. Strahlensätze Die Strahlensatzfiguren

Mathematik in der Evolutionsbiologie

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Evolution II. Molekulare Variabilität. Bachelorkurs Evolutionsbiolgie II WS 2013/14

Algorithmische Bioinformatik

Biowissenschaftlich recherchieren

PR Statistische Genetik und Bioinformatik

Datenstrukturen & Algorithmen

Unabhängigkeit KAPITEL 4

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

Wo waren wir stehen geblieben? Evolutions modelle

Horizontaler Gentransfer. Referentin: Michaela Baune Seminar: Gentechnik in der Landwirtschaft

27 Funktionelle Genomanalysen Sachverzeichnis

Algorithmische Bioinformatik

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

Vorlesung 4 BETWEENNESS CENTRALITY

Bioinformatik. Suffixbäume auf Sekundärspeicher. Ulf Leser Wissensmanagement in der. Bioinformatik

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA

Einführung in die Bioinformatik Algorithmen zur Sequenzanalyse

Bio Data Management. Kapitel 5a Sequenzierung und Alignments

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

Algorithmen für Routenplanung 11. Vorlesung, Sommersemester 2012 Daniel Delling 6. Juni 2012

Die Kopplung von Markovketten und die Irrfahrt auf dem Torus

Prüfungsvorbereitungskurs Höhere Mathematik 3

Blatt 10. Hamilton-Formalismus- Lösungsvorschlag

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Wahrscheinlichkeitstheorie und Statistik vom

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Was ist Bioinformatik?

1 Schulinterner Kernlehrplan Biologie Q2 Evolution

4. Kombinatorik *) In der Kombinatorik werden drei wichtige Symbole benötigt: o n! o (n) k o

Höhere Mathematik für Naturwissenschaftler Studienjahr 2016/17

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Einführung in die Induktive Statistik: Testen von Hypothesen

Bio Data Management. Kapitel 5a Sequenzierung und Alignments

Künstliche Intelligenz Maschinelles Lernen

1 Mengen. 1.1 Definition

Pollards Rho-Methode zur Faktorisierung

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

(x a) 3 + f (a) 4! x 4 4! Wir werden im Folgenden vor allem Maclaurin-Reihen betrachten, dies alles funktioniert aber auch. f (x) = sin x f (0) = 0

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Algorithmische Bioinformatik 1

Kapitel 13. Evolutionäre Spieltheorie. Einleitung. Evolutionäre Biologie. Übersicht 2. Alternative: Biologische Evolutionstheorie

Problemreduktion durch Transformation am Beispiel des. Erweiterten Euklidschen Algorithmus

Alignment von DNA- und Proteinsequenzen

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

TreeTOPS. Ein Phylogenetik-Icebreaker Spiel. Lehrer- Handbuch. ELLS Europäisches Lernlabor für die Lebenswissenschaften

2. Lernen von Entscheidungsbäumen

Abiturprüfung Biologie, Grundkurs

1. Genetische Vielfalt innerhalb einer Population

Diskrete Mathematik Kongruenzen

Algorithmen und Datenstrukturen Kapitel 10

3 Evaluation als Beschreibung von Zuständen

Demo für

Übungsblatt Molekularbiologie und Genetik für Studierende der Bioinformatik II 1. Übung

31 Polynomringe Motivation Definition: Polynomringe

Berechnung von Pi und verwandte Probleme

In situ Hybridisierung

K4 Bedingte Wahrscheinlichkeiten. 4.1 Definition Die bedingte Wahrscheinlichkeit von A bei gegebenem B:

Survival of the Fittest Optimierung mittels Genetischer Algorithmen

Textkompression: Burrows-Wheeler-Transformation

Quadratische Funktionen und Gleichungen Mathematik Jahrgangsstufe 9 (G8) Bergstadt-Gymnasium Lüdenscheid. Friedrich Hattendorf

Vorlesungsthemen Mikrobiologie

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Anzahl der Möglichkeiten in der Werkstatthalle, 3 ohne eingebaute Alarmanlage: N N 2

Testen von Hypothesen

Algorithmische Bioinformatik

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

AFu-Kurs nach DJ4UF. Technik Klasse E 05: Der Kondensator und seine Schaltungsarten. Amateurfunkgruppe der TU Berlin.

Varianz und Kovarianz

Bioinformatik an der FH Bingen

Transkript:

MBI: Sequenzvergleich ohne Alignment Bernhard Haubold 12. November 2013

Wiederholung Exaktes & inexaktes Matching Das exakte Matching Problem Naive Lösung Präprozessierung Muster(Pattern): Z-Algorithmus, Keyword Tree Text: Suffix Baum, Suffix Array, Borrows-Wheeler Transformation

Nachlese zur Übung Unix-Kenntnisse: http://www.tcs.uni-luebeck.de/de/lehre/ 2012-ws/info-a/wiki/Vorlesung, Kapitel Shells Aufgaben 2.8 und 2.9

Übersicht: Sequenzvergleich ohne Alignment Nochmal: Was ist ein Alignment? Vor- & Nachteile von Alignments Sequenzverlgeich ohne Alignment Wörter zählen Matchlängen bestimmen

Wozu Alignment? Häufige Anwendungen: Annotation (änhliche Sequenzen haben ähnliche Funktion) Rekonstruktion von Stammbäumen

Vom Alignment zu Distanzen Alignment S1 CGCAATGTGTCACTCGGCACTGGGTGGGATTTGGGGCAAGCTTGGAGACTGGCCGCAACG 60 S2...g..t...a..aa.c...a...c...c...c.t... 60 S3...gt...a..a..cc...c...c...g...c.t... 60 S4...g...a..a..cc...c...c...g...c.t... 60 S1 TGCTTCCTTTGAAAAGATAGCTCCAGCCCTAGCACAGTAT 100 S2...a...cc...t...g... 100 S3...a...cc...a... 100 S4...a...cc... 100 Distanzen S1 S2 S3 S4 S1 0.00 0.18 0.17 0.14 S2 0.18 0.00 0.10 0.07 S3 0.17 0.10 0.00 0.02 S4 0.14 0.07 0.02 0.00

Bäume Bauen Distanzen S1 S2 S3 S4 S1 0.00 0.18 0.17 0.14 S2 0.18 0.00 0.10 0.07 S3 0.17 0.10 0.00 0.02 S4 0.14 0.07 0.02 0.00 Parsimonie S4 0.01 Distanzen S4 0.01 Likelihbood S3 S2 S1 S4 0.01 S3 S3 S2 S2 S1 S1

Phylogenie-Berechnung Phylogenie Mit Alignment Ohne Alignment Distance MP ML Partitionieren Distanzen Gene Residuen Worfrequenzen Matchlängen Exact Inexact LZ-factoren Gemeinsame Substrings dktup dffp dcv dco dgram dacs dkr

Noch einmal: Was ist ein Alignment? Betrachte AACGT und AAGGT Ziel beim Alignment: Schreibe homologe Merkmale übereinander. AACGT AAGGT Fasst zwei Stammbäume zusammen: AACGT AAGGT C G G C AACGT AAGGT AACGT AAGGT

Ohne Alignment Arbeite ohne evolutionäre Hypothese für einzelne Nukleotide. Alternativen Zusammensetzung der Sequenzen: ähnliche Zusammensetzung = ähnliche Sequenzen Matchlängen: Lange Matches = ähnliche Sequenzen

Zusammensetzung Beispiel: Zusammensetzung von da_adh.fasta dm_adh.fasta mggenome.fasta

Zusammensetzungs-Distanz cchar../data/dm_adh.fasta # Total number of input characters: 2365 # Char Count Fraction A 705 0.298097 C 566 0.239323 G 514 0.217336 T 580 0.245243 cchar../data/da_adh.fasta # Total number of input characters: 912 # Char Count Fraction A 245 0.268640 C 207 0.226974 G 211 0.231360 T 249 0.273026 cchar../data/mggenome.fasta # Total number of input characters: 580074 # Char Count Fraction a 200543 0.345720 c 91524 0.157780 g 92312 0.159138 t 195695 0.337362 bc (0.298097-0.268640)^2+(0.239323-0.226974)^2+(0.217336-0.231360)^2+(0.245243-0.273026)^2.001986 (0.298097-0.345720)^2+(0.239323-0.157780)^2+(0.217336-0.159138)^2+(0.245243-0.337362)^2.020788 (0.268640-0.345720)^2+(0.226974-0.157780)^2+(0.231360-0.159138)^2+(0.273026-0.337362)^2.020083

Distanz-Baum Mycoplasma genitalium Drosophila adiastola Drosophila melanogaster

Verallgemeinerte Zusammensetzung: Wortfrequenzen q i : Frequenz des i-ten Worts in Sequenz Q q s : Frequenz des i-ten Worts in Sequenz S k: Wortlänge 4 k : Anzahl möglicher Wörter der Länge k d ktup (Q, S) = (q i s i ) 2, 4 k i=1

Beispiel Wortdistanz Mitochondriale Genome, k = 5 Alignment 0.01 P. Chimp C. Chimp Human Gorilla d ktup P. Chimp C. Chimp Human Gorilla 10 5 Orangutan Gibbon Baboon Orangutan Gibbon Baboon

Vor- und Nachteile von Wortdistanzen Vorteile Leicht zu verstehen Einfach zu berechnen Nachteile Welche Wortlänge? Verhältnis zu Mutationsdistanzen unklar

Genetischer Abstand mit Alignment AACGACGATCGC TACGATGATCGG π = 3/12

π Interpretieren π: Wahrscheinlichkeit einer Mutation/Nukleotid 1/π: Abstand zur nächsten Mutation π 1/avg(abstandZurNaechstenMutation) 543216543211 AACGACGATCGC TACGATGATCGG

Alignment notwendig? Mit Alignment: Abstand zur nächsten Mutation 543216543211 AACGACGATCGC TACGATGATCGG Ohne Alignment: SHortest Unique SubSTRINGs shustrings Query 254365654322 AACGACGATCGC Subject TACGATGATCGG

EINLEITUNG STAMMBÄUME WÖRTER ZÄHLEN MATCHLÄNGEN ÜBUNG Shustrings finden: Suffixbäume 1 2 3 4 G A A C 1 ACCG 1 ACCG CCG 2 1 ACCG CG C G 1 ACCG CG C G G 4 Tatsächliche Implementation: Enhanced Suffix Array 2 3 2 3

Enhanced Suffix Array 1 2 3 4 G A A C Rank SA Suffix LCP Length(LCP) 1 2 AAC - 0 2 3 AC A 1 3 4 C - 0 4 1 GAAC - 0 SA: suffix array; LCP: longest common prefix

Suffix Array Suffix Baum 1 2 3 4 G A A C Rank SA Suffix LCP Length(LCP) 1 2 AAC - 0 2 3 AC A 1 3 4 C - 0 4 1 GAAC - 0 AAC A A C A C GAAC 2 AC C AC C 4 AC C 4 1 2 3 2 3 2 3

Alignment-freier Mutationsabstand Query 254365654322 AACGACGATCGC Subject TACGATGATCGG π m = π m = Q xi 12 2+5+...+2

Mehr Details X i : Shustring Länge an Position i Für Zufallssequenzen gilt: P(X i x) = (1 14 ) S x Für verwandte Sequenzen, die sich an d Positionen unterscheiden, gilt: Folglich P(X i > x) = ( 1 d ) x e xd/ S := e xπ. S P(X i x) = (1 e xπ ) (1 14 ) S x

Für multiple Treffer korrigieren Zahl der Mismatches Zahl der Mutationsereignisse Jukes-Cantor Korrektur: Software Demo d kr = 3 4 ln ( 1 4 3 π ).

Jukes-Cantor Modell A C G T Mutationsrate zwischen allen Paaren von Nukleotiden ist µ/3 pro Zeiteinheit.

Jukes-Cantor Argument 1 Mutationsrate zwischen allen Paaren von Nukleotiden ist µ/3 pro Zeiteinheit. Wahrscheinlichkeit, dass an einer bestimmten Position eine Mutation stattgefunden hat: 4µ/3 Wahrscheinlichkeit in t Zeitabschnitten keine Mutation zu beobachten ( P 0 = 1 4 ) t 3 µ e 4/3µt Wahrscheinlichkeit, dass mindestens eine Mutation stattgefunden hat P = 1 e 4/3µt Wahrscheinlichkeit ein A zu beobachten, wo vorher ein C war P(A C) = 1 4 (1 e 4/3µt )

Jukes-Cantor Argument 2 Wahrscheinlichkeit ein A zu beobachten, wo vorher ein C war P(A C) = 1 4 (1 e 4/3µt ) Wahrscheinlichkeit, eine Mutation zu beobachten π = 3 4 (1 e 4/3µt ) Zahl der Mutationsereignisse (nicht beobachtbar) Jukes-Cantor Formel K := µt K = 3 4 ln ( 1 4 3 π )

Beispiel K r Mitochondriale Genome Alignment d kr 0.01 P. Chimp C. Chimp Human Gorilla Orangutan Gibbon Baboon 0.01 P. Chimp C. Chimp Human Gorilla Gibbon Orangutan Baboon

Vorteil: Mutationsabstand Leicht zu berechnen Vor- und Nachteile d kr Query 254365654322 AACGACGATCGC Subject TACGATGATCGG Nachteil: Abhängige Daten Probleme bei lokalen Schwankungen in Mutationsrate Konservierung funktionaler Bereiche Rekombination Probleme bei kurzen Sequenzen bzw. wenigen Mutationen

Verbesserung von d kr Verwende nur Shustrings, die nicht überlappen: Supershustrings

Beispiel susi Mitochondriale Genome Alignment d kr 0.01 P. Chimp C. Chimp Human Gorilla Orangutan Gibbon Baboon 0.01 P. Chimp C. Chimp Human Gorilla Orangutan Gibbon Baboon

Heutige Übung Die Befehlszeile: TAB für Vervollständigung von Befehlen Pfaden CTR-a: Springe an Zeilenanfang CTR-e: Springe an Zeilenende ALT-f: Springe ein Wort vorwärts ALT-b: Springe ein Wort rückwärts Zusatzpaket Pfade

Literatur Haubold, B. (2014). Alignment-free phylogenetics and population genetics. Briefings in Bioinformatics, in press. Felsenstein, J. (2004). Inferring Phylogenies. Sinauer.

Zusammenfassung Nochmal: Was ist ein Alignment? Vor- & Nachteile von Alignments Sequenzverlgeich ohne Alignment Wörter zählen Matchlängen bestimmen