Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Transkript

1 Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik

2 Inhalt dieser Vorlesung Motivation Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 2

3 Biomoleküle DNA, RNA und Proteine lassen sich als Zeichenkette über festem Alphabet darstellen DNA A C G T RNA A C G U Protein A C D E F G H I K L M N P Q R S T V W Y Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 3

4 Drei Anwendungen von Stringalgorithmen in der Bioinformatik Sequenzierung Prinzip der Shotgun Sequenzierung Assembly von Teilsequenzen cdna Clustering All-against-all Vergleiche Hohe Fehlerraten Funktionale Annotation Finden homologer Sequenzen Schnelle Suche in Sequenzdatenbanken Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 4

5 1 Stringvergleiche beim Sequenzieren Shotgun Sequenzierung Wie sequenziert man ein Chromosom? Man zerbricht es in lauter kleine Stücke (Clone) und bringt sie in Bakterien ein Clone können mit den Wirtsbakterien beliebig vervielfältigt werden Verschiedene Clonetypen haben verschiedene Längen (2MB 1500 Basen) Sequenzieren kann man nur Stücke bis ca. 800 Basen Länge Aber welche? Mapping Probelm Shotgun Wahlloses Zerbrechen von Cosmids (30 KB) in Teilstücke von Bp Sequenzieren jedes Teilstückes ( Read ) Assembly: Berechnung der Clonesequenz aus den Reads Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 5

6 Sequenzierung Gegeben: Clone unbekannter Sequenz Gesucht: Sequenz Unmöglich: Ansehen, Messen, Mikroskop, etc. Verfahren von Sanger, 1972: Radioactive Dideoxy Sequencing Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 6

7 Heute Fluoreszente Markierung Hochdurchsatz Billig Quelle: Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 7

8 Sequenzierung nach Sanger Voraussetzungen Sequenz hat einen definierten Anfang Teil des Clonierungsvektors Dient als Bindungsstelle für Primer und damit als Sequenzierungsanfang Polymerase Bindet an doppelsträngigen Abschnitt Verlängert einsträngige DNA entlang der Vorlage des zweiten Stranges Deoxy versus Dideoxy Nucleotide DNA besteht aus Deoxy Nucleotiden (dntp) Einbau von Dideoxy Nucleotiden (ddntp) möglich ddntp stoppt Polymerase Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 8

9 Struktur von dntp und ddntp dntp ddntp Dideoxy-Base: keine freie OH Gruppe Dideoxy-Base wird eingebaut Danach können keine weiteren Basen mehr angehängt werden Polymerase fällt ab Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/2005 9

10 Schritt 1 und 2 dntp: ACGT Primer + Polymerase Fluoreszierend markierte ddntp: ACGT Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

11 Schritt 3 Primer Template ACGAACGCGAGTTAGTTAGACCAGTAGCCA... Polymerase ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACG C A G T G C T ACT A C A C G GT A T AC TG A G C CT G ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTA ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAG ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTTAGT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGA Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

12 Schritt 4 Laser & Detektoren ACGAACGCGAGTTA ACGAACGCGAG ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGT ACGAACGCGA Gel / Kapillar Elektrophorese ACGAACGC ACGAACGCG ACGAACGCGA ACGAACGCGAG ACGAACGCGAGT ACGAACGCGAGTT ACGAACGCGAGTTA ACGAACGCGAGGTTAG Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

13 Ergebnis (roh) Heutige Geräte >36 Läufe parallel Kapillarelektrophorese (statt Gelen) Direktes Laden von 96 Well Plates Sanger Radioaktive Markierung 4 Mischungen (A,G,T,P) 4 Gel - Lanes Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

14 Ergebnis (Zwischenprodukt) Signalverarbeitung (Rauschen,...) Übersetzung in Traces 4 Arrays, jedes für eine Farbe Intensitätswerte in regelmäßigen Zeitabschnitten Theoretisch Peaks entdecken Immer nur eine Farbe Sequenz zuordnen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

15 Vom Tracefile zur Sequenz Tracefiles sind Rohdaten der Sequenzierung Verschiedene Verfahren / Tools, um aus Trace- Files Sequenzen zu berechnen Komplexe Probleme Base Calling Assembly Finishing Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

16 Assembly Finden von Überlappungen von Sequenzen Redundanz ist Notwendig: Verbindung von Teilstücken nur durch Überlappungen Konfliktträchtig: Widersprüche, Mehrdeutigkeit Beachtung von Sequenzierfehlern Auswahl der plausibelsten Anordnungen Greedy? accgttaaagcaaagatta aagattattgaaccgtt aaagcaaagattattg attattgccagta accgttaaagcaaagatta aagattattgaaccgtt aaagcaaagattattg attattgccagta Fehler? tggacaagcaaagatta acattgttgaac gcaaagattgttg tggacaagcaaagatta acattgttgaac gcaaagattgttg Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

17 Assembly Abstrakte Formulierung SUPERSTRING Geg.: Menge S von Strings Ges.: String T so, dass (a) s S: s T (s Substring von T) (b) T, für die (a) gilt, gilt: T T ( T ist minimal) NP-vollständig Assembly: Verschärfungen von SUPERSTRING Fehler in Sequenzen (s ungefähr Substring von T) Beachte: Zwei Orientierungen von s möglich Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

18 Resultat Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

19 Problemdimension: Whole Genome Shotgun Zerbrechen von kompletten Genomen in Stücke 1KB-100KB Alle Stücke (an-) sequenzieren Celera: Homo sap.: Genom: 3 GB, Reads Drosophila: Genom: 120 MB, Reads Schnelle Algorithmen notwendig Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

20 Aktuelle Meldung, Weniger Gene: Menschliches Genom «komplettiert» London/Jena (dpa) - Der Mensch besitzt bis Gene und damit deutlich weniger als die bisher angenommen bis Erbanlagen. Dies geht aus der nun weitgehend kompletten Version des menschlichen Erbguts hervor, die das internationale Humangenomprojekt (IHGSC) an diesem Donnerstag im britischen Fachjournal «Nature» (Bd. 431, S. 931) vorstellt. Die Zahl der chemischen Bausteine des Erbmoleküls DNA beziffert das Konsortium nun auf 3,08 Milliarden. Davon seien inzwischen 2,88 Milliarden (rund 93,5 Prozent) mit bislang unerreichter Genauigkeit in den frei zugänglichen Datenbanken des öffentlich finanzierten Genomprojektes gespeichert Prozent der vor drei Jahren vorgestellten Gene hätten Fehler enthalten... Im Jahr 2001 habe es zudem noch rund Lücken im Genom gegeben. Diese Zahl ist nach den neuen Angaben auf 341 geschrumpft. «33 von ihnen lassen sich mit den vorhandenen Methoden nicht lesen», sagte Platzer. Die übrigen 308 würden vermutlich zum Gegenstand gesonderter Forschungsprojekte. Ob es je eine eine «endgültige» Version der menschlichen Erbgutsequenz geben wird, ist fraglich, zumal sich auch die Genome von zwei Menschen um bis zu 0,1 Prozent voneinander unterscheiden. Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

21 2 Stringvergleiche beim EST Clustering Wie kann man Gene finden? Eine Möglichkeit: mrna einer Zelle untersuchen Genexpression -> mrna mrna kann aus Zellen extrahiert werden mrna wird in DNA rückübersetzt (cdna) cdnas sequenzieren Gene ausrechnen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

22 DNA Protein Zentrales Dogma DNA RNA Protein RNA editing 5 CAP 3 PolyATail Splicing messenger RNA (mrna) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

23 mrna cdna Trick: Rück-Übersetzung von mrna in cdna cdna = complementary DNA Herstellung benötigt Enzym Reverse Transcriptase (RT) Wo setzt man den Primer an? Am PolyA Tale Zufällige Oligomere klappt oder klappt nicht Clonierung der cdna in Libraries Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

24 cdna/est Bibliotheken cdnas: Gene / kodierende Regionen Viel interessanter als genomische DNA Differential Splicing verschiedene cdnas eines Gens cdna enthält (meist) PolyA und 3 Ende cdna enthält (oft) nicht 5 Ende Weil Reverse Transcriptase vorher abfällt Inhalt einer cdna Bibliothek abhängig von Gewebe Entwicklungsstadium (Embryo - Erwachsen) Organismusstatus (Krank Gesund) EST = Expressed Sequence Tags Ansequenzierte cdnas Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

25 Stringvergleiche beim EST Clustering Problem EST Sequenzen in EMBL Wie viele Gene werden durch diese repräsentiert? Nicht , denn Viele Laboren erzeugen EST Sequenzen Gene werden in vielen Kopien exprimiert gleiche cdna mehrmals vorhanden Differentielles Splicing von Genen ESTs unterschiedlicher Länge, von beiden Enden der cdna oder auch mittendrin startend Sehr gering/selten exprimierte Gene Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

26 EST Clustering Berechnung der Anzahl Gene durch Clustering Verschiedene Cluster Verfahren anwendbar Typisches Verfahren Schritt 1: Berechnung der Überlappung / Ähnlichkeit aller Sequenzpaare Schritt 2: Berechnung von Sequenzclustern durch Bildung der transitiven Hülle Schritt 3: Zuordnung isolierter Sequenzen zu Clustern mit geringerer Ähnlichkeitsanforderung Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

27 Problemdimension: UniGene Heuristisches Verfahren Clustern aller cdna und EST in Genbank Größenordnung > Sequenzen Länge Basenpaare Vergleich: O(n 2 ) (All-against-all) Wöchentliche Aktualisierung Ergebnis 4/ Cluster Sequenzen pro Cluster: Von 1 (40.000) bis (wenige) Schnelle Stringvergleichalgorithmen notwendig Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

28 3 Stringvergleiche zur funktionalen Annotation Sequenzen bestimmen Funktionen Gleiche Gensequenzen ~ gleiche Proteinsequenzen (Dif. Spl.!) Gleiche Proteinsequenzen ~ gleich Eigenschaften (Struktur, Form, Ladung,...) (Modifikationen!) Grundannahme der Bioinformatik Gleiche Sequenzen gleiche Funktion Sehr ähnliche Sequenzen sehr ähnliche/gleiche Funktion Etwas ähnliche Sequenzen verwandte Funktion? Stimmt oft... aber nicht immer Viele Gegenbeispiele bekannt Naive Übertragung führt zu vielen Fehlern (siehe EMBL) Besonders schwierig (und lohnend!) zwischen verschiedenen Spezies Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

29 Standardvorgehen Gegeben: Eine neue Sequenz (Genom) Annotationspipeline basierend auf bereits annotiertem Genom Suche nach ähnlichen Gensequenzen Suche nach ähnlichen Promotersequenzen Suche nach ähnlichen Proteinen (Übersetzung- Rückübersetzung) Suche nach neuen Genen durch Programme (trainiert auf bekannten Gensequenzen) Suche nach ähnlichen Proteindomänen durch Programme (trainiert auf bekannten Proteindomänen)... Alternative: Experimentelle Überprüfung Teuer, auch nicht fehlerfrei Ethische / technische Machbarkeit (Knock-Out, Yeast2Hybrid) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

30 BLAST gegen EMBL Problemdimension Quelle: EMBL, Genome Monitoring Tables, Stand Schnelle Stringvergleichalgorithmen notwendig Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

31 Teil 2. Problemklassen Exaktes Matching Gegeben:Strings P, T Gesucht: Alle Auftreten von P in T Approximatives Matchen Gegeben: Strings S, T Gesucht: Wie ähnlich sind S und T? Suche in Datenbanken Gegeben: Datenbank D von Sequenzen, String P Gesucht: Die Top-k zu P ähnlichsten Sequenzen in D Variationen Ist P in T mit höchstens k Fehlern enthalten? Gegeben P 1,...,P n, T: Vorkommen aller P i in T? Gegeben T 1,...,T n, P: Vorkommen von P in allen T i? Vorkommen von P in T mit Wildcards?... Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

32 Exaktes Matching Gegeben: P (Pattern) und T (Text) Trivialerweise verlangen wir P T In der Regel nehmen wir an P << T Gesucht: Sämtliche Vorkommen von P in T Beispiel Auffinden der Erkennungssequenzen von Restriktionsenzymen Eco RV - GATATC tcagcttactaattaaaaattctttctagtaagtgctaagatcaagaaaataaattaaaaataatggaacatggcacattttcctaaactcttcacagattgctaatga ttattaattaaagaataaatgttataattttttatggtaacggaatttcctaaaatattaattcaagcaccatggaatgcaaataagaaggactctgttaattggtact attcaactcaatgcaagtggaactaagttggtattaatactcttttttacatatatatgtagttattttaggaagcgaaggacaatttcatctgctaataaagggattac atatttatttttgtgaatataaaaaatagaaagtatgttatcagattaaacttttgagaaaggtaagtatgaagtaaagctgtatactccagcaataagttcaaataggc gaaaaactttttaataacaaagttaaataatcattttgggaattgaaatgtcaaagataattacttcacgataagtagttgaagatagtttaaatttttctttttgtatt acttcaatgaaggtaacgcaacaagattagagtatatatggccaataaggtttgctgtaggaaaattattctaaggagatacgcgagagggcttctcaaatttattcaga gatggatgtttttagatggtggtttaagaaaagcagtattaaatccagcaaaactagaccttaggtttattaaagcgaggcaataagttaattggaattgtaaaagatat ctaattcttcttcatttgttggaggaaaactagttaacttcttaccccatgcagggccatagggtcgaatacgatctgtcactaagcaaaggaaaatgtgagtgtagact ttaaaccatttttattaatgactttagagaatcatgcatttgatgttactttcttaacaatgtgaacatatttatgcgattaagatgagttatgaaaaaggcgaatatat tattcagttacatagagattatagctggtctattcttagttataggacttttgacaagatagcttagaaaataagattatagagcttaataaaagagaacttcttggaat tagctgcctttggtgcagctgtaatggctattggtatggctccagcttactggttaggttttaatagaaaaattccccatgattgctaattatatctatcctattgagaa caacgtgcgaagatgagtggcaaattggttcattattaactgctggtgctatagtagttatccttagaaagatatataaatctgataaagcaaaatcctggggaaaatat tgctaactggtgctggtagggtttggggattggattatttcctctacaagaaatttggtgtttactgatatccttataaataatagagaaaaaattaataaagatgatat Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

33 Approximatives Matchen Gegeben: S und T Gesucht: Ähnlichkeit zwischen S und T Ähnlichkeit: Editabstand E: Menge von Operationen aus {REPLACE, INSERT, DELETE, MATCH} auf Zeichenebene Gesucht E: E(S)=T Editabstand: Das kleinste E mit E(S)=T (M zählt 0) RMMMMMRMRRRII gaagcagatca aaagcaaagatta RMMMMMIIMMMRM gaagca gatca aaagcaaagatta E = 7 E = 4 Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

34 Zeichenketten Definition Ein String S ist eine von links nach rechts angeordnete Liste von Zeichen eines Alphabets Σ S ist die Länge des Strings Positionen in S sind 1,..., S Wir zählen ab 1 S(i) beschreibt das Zeichen an der Position i im String S S[i..j] ist der Substring, welcher an Position i beginnt und an Position j endet S[i..j] ist ein leerer String, falls i > j S[1..i] heißt Präfix von S bis zur Position i S[i..] ist das Suffix von S, welches an Position i beginnt Echte Präfixe und echte Suffixe umfassen nicht den gesamten String S und sind nicht leer Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

35 Für die nächsten Wochen Exaktes Matching Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

36 Notation Wir suchen im Folgenden immer P in T T = m 0 P = n 0 m >> n Alphabet Σ endlich P, T sind Strings über Σ Kosten für Vergleich zweier Zeichen aus Σ : 1 Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

37 Übersicht Algorithmen für exaktes Matchen Naiver Algorithmus O(n*m) Z Algorithmus O(m+n) Boyer-Moore Worst Case O(n*m), aber Average Case sublinear Knuth-Morris-Pratt (viele P) O(m+n) (n: Gesamtlänge aller P) Suffixbäume (viele T) O(m+n+k) (O(m) Preprocessing, dann O(n+k) Suche) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

38 Naiver Ansatz 1. P und T an Position 1 ausrichten 2. Vergleiche P mit T von links nach rechts Zwei ungleiche Zeichen Gehe zu 3 Zwei gleiche Zeichen P noch nicht durchlaufen Verschiebe Pointer nach rechts, gehe zu 2 P vollständig durchlaufen Merke Vorkommen von P in T 3. Verschiebe P um ein Zeichen nach rechts 4. Wenn P noch nicht über T - P hinaus, gehe zu 2 T P ctgagatcgcgta gagatc gagatc gagatc gagatc gagatc gatatc gatatc gatatc Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

39 Naiver Ansatz (cont.) for i = 1 to T - P + 1 match := true; j := 1; while ((match) and (j <= P )) if (T(i + j - 1) <> P(j)) then match := false; else j := j + 1; end while; if (match) then -> OUTPUT i end for; Worst-case T P aaaaaaaaaaaaaa aaaaat aaaaat aaaaat aaaaat... Vergleiche : (n-1) * (m-n+1) => O(m*n) Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

40 Optimierungsideen Anzahl der Vergleiche reduzieren P um mehr als ein Zeichen verschieben Aber nie soweit verschieben, dass ein Vorkommen von P in T nicht erkannt wird 1. Beobachtung: Zeichen T P xabxyabxyabxz abxyabxz abxyabxz abxyabxz Nächstes a in T an Position 6 Substring in T muss mit a beginnen; nächstes a kommt erst an Position 6 springe 4 Positionen Vorkommen von Buchstaben in T kann während des Vergleichs ab Position 2 gelernt werden Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

41 Optimierungsideen 2 2. Beobachtung: Substrings T P xabxyabxyabxz abxyabxz abxyabxz abxyabxz Nächstes abx in T an Position 6 abx doppelt in P Algorithmus kann sich interne Struktur von P merken P[1..3] = P[6..8] P[1..3] kommt nicht vor Position 6 wieder in P vor Vergleich findet: P[1..8] = T[2..9] Daher muss P[1..3] = T[7..9], und zwischen 2 und 7 kann in T kein Treffer für P liegen 3 Zeichen weit schieben, erst ab Position 4 in P weitervergleichen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/

42 Fazit Stringalgorithmen sind an sehr vielen Stellen der Bioinformatik essentiell Sequenzierung Aufklärung von Funktion Sowohl exakte als auch approximative Suche notwendig Ähnlichkeit ist ein fundamentales Konzept der Bioinformatik Wegen großen Datenmengen ist hohe Performance sehr wichtig Naiver Algorithmus für exaktes Matching braucht quadratische Laufzeit Das ist zu langsam Aber es scheint schneller zu gehen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2004/