Bioinformatik. Approximatives Stringmatching Editabstand. Ulf Leser Wissensmanagement in der. Bioinformatik

Transkript

1 Bioinformatik pproximatives Stringmatching Editabstand Ulf Leser Wissensmanagement in der Bioinformatik

2 Naiver nsatz 1. P und an Position 1 ausrichten 2. Vergleiche P mit von links nach rechts Zwei ungleiche Zeichen ehe zu 3 Zwei gleiche Zeichen P noch nicht durchlaufen Verschiebe Pointer nach rechts, gehe zu 2 P vollständig durchlaufen Merke Vorkommen von P in 3. Verschiebe P um ein Zeichen nach rechts 4. Wenn P noch nicht über - P hinaus, gehe zu 2 P ctgagatcgcgta gagatc gagatc gagatc gagatc gagatc gatatc gatatc gatatc Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

3 Z-lgorithmus: Preprocessing Im Folgenden: S (wird gleich aus P und zusammengesetzt) Definition Sei i>1. Dann ist Z i (S) die Länge des längsten Substrings x von S mit x=s[i..i+ x -1] (x startet an Position i in S) S[i..i+ x -1] = S[1.. x -1] (x ist auch Präfix von S) x ist die Z-Box von S an Position i mit Länge Z i (S) Z i S x x Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

4 Linearer Stringmatching lgorithmus nnahme: Z-Boxen lassen sich in O( S ) berechnen Wie zeigen wir später Verwendung der Z-Boxen für String Matching S := P $ ; // ($ Σ) compute Z-Boxes for S; for i = P +2 to S if (Z i (S)= P ) then print i- P -1; // P in at position i end if; end if; Komplexität Schleife wird S -Mal durchlaufen => O(m) Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

5 Lineare Berechnung der Z i Werte rick Verwenden von bereits bekannten Z i zur Berechnung von Z k (k > i) Lineares Durchlaufen des Strings Kontinuierliches Vorhalten der aktuellen Werte l=l i und r=r i röße der Z-Box an Position i ergibt sich mit konstantem ufwand Induktive Erklärung Induktionsanfang: Position k=2 Berechne Z 2. Wenn Z 2 > 0, setze r=r 2 (=2+Z 2-1) und l=l 2 (=2), sonst r=l=0 Induktionsschritt: Position k>2 Vorhanden sind die Werte r, l und j<k: Z j Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

6 Z-lgorithmus, Fall 1 Möglichkeit 1: k > r D.h., dass es keine Z-Box gibt, die k enthält Wir wissen damit nichts über den Bereich in S ab k Dann gehen wir primitiv vor Berechne Z k durch Zeichen-für-Zeichen Matching Wenn Z k >0, setze r=r k und l=l k Beispiel k CCC 0 1 0? egenbeispiel lk r CCCC 0 0 5? Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

7 Z-lgorithmus, Fall 2 Möglichkeit 2: k <= r Die Situation: Z k lso Z-Box Z l ist Präfix von S Substring β=s[k..r] kommt auch an Position k =k-l+1 von S vor Was wissen wir über diesen Substring? Natürlich: Z k D.h., dass S[k.. ] ist Präfix von S mit mindestens Länge min(z k, β ) Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

8 Z-lgorithmus, Fall 2.1 Fallunterscheidung Z k < β : Dann ist das Zeichen an k +Z k ein Mismatch bei der Präfixverlängerung. Dann ist das Zeichen S(k+Z k ) der gleiche Mismatch. lso: Z k =Z k ; r und l unverändert Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

9 Z-lgorithmus, Fall 2.2 Z k β : Dann ist β ein Präfix von S... dass sich vielleicht noch verlängern lässt Wenn Z k > β, dann wissen wir: S( β +1)=S(k + β ) Wir wissen aber nichts über S(r+1) dieses Zeichen wurde noch nie betrachtet Matche Zeichen-für-Zeichen S[r+1..?] mit S[ β +1..?] Sei der erste Mismatch an Position q Dann: Z k =q-k; l=k; r=q-1 q Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

10 lgorithmus match Z 2 ; set l,r; for k = 3 to S if k>r then match Z k ; set r,l; else k := k-l+1; b := r-k+1; // his is β if Z k <b then Z k := Z k ; else match S[r+1.. ] with S[b+1.. ] until q; end if; end if; end for; Z k := q-k; l := k; r := q-1; Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

11 Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots lignment, Pfade, Editskipte Dynamische Programmierung Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

12 Wie ähnlich sind sich zwei Sequenzen? und zu wenig Identisch = überaus ähnlich zu viel C durch ersetzen und C löschen Sehr viel löschen Welche Sequenzen sind sich also besonders ähnlich? Ähnlichkeit muss quantifiziert werden Idee: Wie sehr muss man eine Sequenz verändern, um die andere zu erzeugen Man konnte auch Buchstaben zählen, Länge vergleichen, nzahl C nehmen, Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

13 Suche mit Sequenzen Ähnlichkeit ist definiert zwischen zwei Sequenzen ndere ufgabenstellung: Suche in Sequenzdatenbanken egeben Sequenz (Exon), welche anderen ESs in der Datenbank sind ihr sehr ähnlich? egeben Sequenz (Exon), welche Datenbanksequenzen (Clone, enome, Chromosomen) enthalten einen ähnlichen bschnitt? egeben Sequenz (en), welche Datenbanksequenzen (Clone, enome, Chromosomen) enthalten einen bschnitt, der einem bschnitt meiner Suchsequenz ähnlich ist? Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

14 Motivation Relevant ist die biologische Funktion, nicht die Sequenz leiche Sequenzen gleiche Funktion Sehr ähnliche Sequenzen sehr ähnliche Funktion Etwas ähnliche Sequenzen verwandte Funktion? Idee: Funktionsähnlichkeit durch Sequenzähnlichkeit approximieren Comparative enomics Bestimmung von Funktionen ist extrem aufwändig (wenn überhaupt möglich) Bestimmung von Sequenzen ist vergleichsweise billig ußerdem: Hohe Ähnlichkeit kann meistens kein Zufall sein Konservierung von Sequenzen trotz Evolution Hoch ähnliche Sequenzen in evolutionär entfernten Spezies ist starkes Signal für hohen evolutionären Druck auf der Sequenz Billige Methode, um wichtige (funktionstragende) Sequenzabschnitte zu finden Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

15 Nicht alle Änderungen sind gleich wichtig Wildtyp Fatale Mutationen Leseraster Mutationen neutrale Mutationen Funktionale Mutationen C C C Leu Ser sp yr ly Lys C C Leu Ser sp Stop-Codon C C C Leu Ser His sp Leu hr C C C C Leu Ser sp yr ly Lys C C Leu Ser lu yr ly Lys DN Protein DN Protein DN Protein DN Protein DN Protein Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

16 pproximatives Matchen außerhalb der Bioinformatik nwendungen außerhalb der Bioinformatik Unscharfe Volltextsuche Suche mit Xylofon und finde auch Xhylophon Fehler oder deutsche Rechtschreibreform? Personenabgleich Ist Herr Müller, 27, Stargarder Str 54 identisch zu Hr. Mueller, 27, Stagarder Str. 54? Phonetische Suche Finde alle Meyer, Meier, Maier, Mair,... Vorschlagen ähnlicher Suchbegriffe Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

17 Dotplot Definition: Ein Dotplot zweier Strings, B ist eine Matrix M: Die Spalten entsprechen den Zeichen von Die Zeilen entsprechen den Zeichen von B M[a,b]=1 (blau) gdw. [a] = B[b] Beispiel? C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

18 Dotplot Definition: Ein Dotplot zweier Strings, B ist eine Matrix M: Die Spalten entsprechen den Zeichen von Die Zeilen entsprechen den Zeichen von B M[a,b]=1 (blau) gdw. [a] = B[b] Beispiel C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

19 Dotplot und gleiche eilstrings Wie erkennt man gleiche eilstrings im Dotplot? C C C C C C Diagonalen von links-oben nach rechts-unten rößter gemeinsamer eilstring längste Diagonale Visuell bei kurzen Strings leicht möglich Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

20 Repetitive Sequenzen C C C C C C C C Dotplot mit =B Zitat (enbank, P24014): [SIMILRIY] CONINS 7 EF-LIKE DOMINS. [SIMILRIY] Contains 24 leucine-rich (LRR) repeats. Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

21 bstandsmaße Wir suchen ein Maß für die Ähnlichkeit zweier Sequenzen Voraussetzung dafür sind Definitionen von: Was heißt ähnlich? Was heißt am ähnlichsten? Biologischen Hintergrund beachten Situation: Wir haben humane ensequenz und suchen ähnliche Sequenzen (B) in anderen Organismen nnahme: und B haben gemeinsamen Vorfahren X und sind aus diesem jeweils durch evolutionäre Prozesse entstanden Einfaches Modell evolutionärer Prozesse: Basenaustausch, Baseneinfügung, Basenlöschen Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

22 Editskripte Definition Ein Editskript e für zwei Strings, B aus Σ *= Σ _ ist eine Sequenz von Editieroperationen I (Einfügen eines Zeichen c Σ in ) Dargestellt als Lücke in ; das neue Zeichen erscheint in B D (Löschen eines Zeichen c in ) Dargestellt als Lücke in B; das alte Zeichen erscheint in R (Ersetzen eines Zeichen in mit einem anderen Zeichen in B) M (Match, d.h., gleiche Zeichen in und B an dieser Stelle) so, dass e()=b Beispiel: =, B= C MIMMMR IRMMMDI C _C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

23 Editabstand Offensichtlich gibt es für,b ziemlich viele Editskripte Definition Die Länge eines Editskript ist die nzahl von Operationen o im Skript mit o {I, R, D} Der Editabstand zweier Strings, B ist die Länge des kürzesten Editskript für, B Bemerkung Für den bstand zählen nur die Änderungen nderer Name: Levenshtein-bstand Es gibt oft verschiedene kürzeste Editskripte IMMMMMD? Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

24 Editabstand Offensichtlich gibt es für,b ziemlich viele Editskripte Definition Die Länge eines Editskript ist die nzahl von Operationen o im Skript mit o {I, R, D} Der Editabstand zweier Strings, B ist die Länge des kürzesten Editskript für, B Bemerkung Für den bstand zählen nur die Änderungen nderer Name: Levenshtein-bstand Es gibt oft verschiedene kürzeste Editskripte IMMMMMD DMMMMMI Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

25 Beobachtungen Ziel: Wir benutzen den (leicht berechenbaren) Editabstand als objektives Maß für Sequenzähnlichkeit Fußt auf der nnahme, dass homologe Sequenzen durch Evolutionsereignisse entstehen Beinhaltet eine Minimalismusannahme wir suchen eine Evolutionsgeschichte mit möglichst wenig Ereignissen Sind wäre das Problem undefiniert Wir können daraus nicht mit Sicherheit ableiten, was wirklich passiert ist Handlicher (und gebräuchlicher) als Editskripte sind lignments Next steps Definition von lignments lignments und Pfade durch Dotplots Berechnung des Editabstandes (=lignmentscore) Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

26 lignment Definition Ein (globales) lignment zweier Strings,B ist eine Untereinanderanordnung von und B, jeweils mit beliebigen zusätzlichen Leerzeichen (_), ohne das zwei Leerzeichen untereinander stehen chtung: Untereinanderstehende Zeichen müssen nicht matchen Der lignmentscore eines lignment ist die nzahl von Leerzeichen und Mismatches Der lignmentabstand zweier Strings, B ist der minimale lignmentscore aller lignments der beiden Strings Beispiele C C Score: Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

27 lignments und Dotplots 2 Sei =m, B =n Betrachte Pfade im Dotplot von (1,1) nach (m,n) lignment: Sei über B angeordnet Jeder Pfad startet in der linken oberen Ecke Schritt nach rechts: Nächstes Zeichen von ; _ in B Schritt nach unten: Nächstes Zeichen von B; _ in Schritt nach rechts-unten: Nächstes Zeichen von und B C C C CC CC C C C C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

28 Beispiele CC C_ CC C C C C C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

29 Pfadgüte ute lignments haben viele Matches lignmentabstand: nzahl von _ plus nzahl von Mismatches Matches im Dotplot sind die 1 er Felder Definition Die üte eines Pfades P durch einen Dotplot M für Strings, B ist die nzahl an durchquerten 1 er Feldern Bzw. blauen Feldern Bemerkung Schritte nach rechts oder unten können nicht zählen Der beste Pfad kann also höchstens üte min(m,n) haben Berechnung der üte eines Pfades ist (offensichtlich) fast das gleiche Problem wie das Finden des optimalen lignments Einziger (oberflächlicher) Unterschied: Pfadgüten sollen gross sein, lignmentscores klein Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

30 C C C Beispiele Pfadgüte: 0 C C C Pfadgüte: 2 C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester Pfadgüte: 8 Maximale üte?

31 lgorithmus Naives Verfahren um den besten Pfad zu finden lle Pfade aufzählen Das sind exponentiell viele Nur Pfade um die Hauptdiagonale: >3 min(m,n) Inakzeptable Laufzeit atsächliche Komplexität des Problems: O(m 2 ) Das erfordert noch einige rbeit Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

32 Berechnung von Editabständen Definition. egeben zwei Strings, B mit =n, B =m Sei dist(,b) der Editabstand von und B Sei d(i,j), 0 i n und 0 j m, der Editabstand zwischen [1..i] und B[1..j] Bemerkungen Offensichtlich gilt: d(n, m)=dist(,b) Definition von d(i,j) dient zur rekursiven Berechnung von dist(,b) Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

33 Rekursive Definition von lignments C C C C _ C _ C C C C C C _ C_ C C_ Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

34 Ulf Leser: Bioinformatik für Biophysiker, Sommersemester Rekursionsgleichung Wir leiten das nächste Symbol im Editskript aus schon bekannten Editabständen ab Wir suchen das kürzeste Skript, also = ), ( 1) 1, ( 1 ) 1, ( 1 1), ( min ), ( j i t j i d j i d j i d j i d = sonst j B i wenn j i t 0 : ] [ ] [ 1: ), (

35 Randbedingungen Randbedingungen nicht vergessen d(i,0) = i Um [1..i] zu zu transformieren braucht man i Deletions d(0,j) = j Um [1..0] zu B[1..j] zu transformieren braucht man j Insertions Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

36 Zusammen heorem Der Editabstand zweier Strings,B mit =n, B =m berechnet sich mit Startbedingung als d(n,m) mit folgender Rekursionsgleichung d( i, Beweis Per Konstruktion d ( i,0) = i d(0, j) = d( i, j 1) + 1 j) = min d( i 1, j) + 1 d( i 1, j 1) + t( i, j j) Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

37 Rekursiver lgorithmus function d(i,j) { if (i = 0) return j; else if (j = 0) return i; else return min ( d(i-1,j) + 1, d(i,j-1) + 1, d(i-1,j-1) + t([i],b[j])); } function t(c 1, c 2 ) { if (c 1 = c 2 ) return 0; else return 1; } Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

38 Sicher nicht optimal ufrufbaum mit Parametern D(2,2) D(2,1) D(1,2) D(1,1) D(2,0) D(1,0) D(1,1) D(0,1) D(1,0) D(0,0) D(1,1) D(0,2) D(0,1) Optimierungspotential? Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

39 Sicher nicht optimal Durch die Rekursionsgleichung werden viele eillösungen mehrfach berechnet D(2,2) D(2,1) D(1,2) D(1,1) D(2,0) D(1,0) D(1,1) D(0,1) D(1,0) D(0,0) D(1,1) D(0,2) D(0,1) Es gibt nur (n+1)*(m+1) verschiedene ufrufe Wie kann man die redundanten Berechnungen sparen? Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

40 abellarische Berechnung rundidee Speichern der eillösungen in abelle (2-dimensionales rray) ufbau der abelle: Bottom-Up (statt rekursiv op-down) Initialisierung mit festen Randwerten d(i,0) und d(0,j) Sukzessive Berechnung von d(i,j) für steigende i,j Zur Berechnung eines d(i,j) brauchen wir d(i,j-1), d(i-1,j) und d(i-1,j-1) Verschiedene Reihenfolgen möglich C C C C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

41 Beispiel d( i, j) = d( i, j 1) + 1 min d( i 1, j) + 1 d( i 1, j 1) + t( i, j) C C C C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

42 Was ist gewonnen? C Editabstand von, C ist 3 Wir suchen auch das lignment, nicht nur den bstand Extraktion aus der abelle durch raceback Bei Berechnung von d(i,j) behalte Pointer auf minimale Vorgängerzelle(n) Die muss nicht eindeutig sein C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

43 Vom Pfad zum lignment C Jeder Pfad von (n,m) nach (1,1) ist ein optimales lignment Starte von (1,1) Nach rechts: Deletion in Nach unten: Insertion in Diagonal: Match/Replace C C C C Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

44 Beispiel 2 WRI_ERS VINNER_ WRI ERS V_INNER_ WRI ERS _VINNER_ Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

45 Komplexität ufbau der abelle Zur Berechnung einer Zelle muss man genau drei andere Zellen betrachten Konstante Zeit pro Betrachtung m*n Zellen Insgesamt: O(m*n) raceback Man kann einen beliebigen Pfad wählen Es muss einen Pfad von (n,m) nach (1,1) geben Jede Zelle hat mindestens einen Pointer Keine Zelle zeigt aus der abelle hinaus Worst-Case Pfadlänge ist O(m+n) Für ein lignment Zusammen O(m*n) (für m*n > m+n) Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

46 Prinzip des dynamischen Programmierens Ziel: Optimierung einer Zielfunktion Hier: Editabstand Prinzip Berechnung von Lösungen für große Problemen aus Lösungen für kleinere Probleme Weiteres Beispiel: Kürzeste Wege in raphen Drei Bestandteile Berechnung aus optimalen eillösungen Hier: Rekursionsgleichung Zwischenspeichern der eillösungen Hier: abelle mit Werten d(i,j) Rückverfolgung der Lösung aus abelle Hier: raceback des lignments Ulf Leser: Bioinformatik für Biophysiker, Sommersemester

47 Zusammenfassung Editabstand und lignierung ineinander überführbar Berechnung eines optimalen lignments hat quadratische Komplexität (wenn m=n) Mittels dynamischer Programmierung abelle aufbauen, Pfad zurückverfolgen Platzbedarf ist auch quadratisch Das ist kritisch Es gibt Erweiterungen mit linearem Platzbedarf Wichtige Erweiterungen: Substitutionsmatrizen Berücksichtigen die Biologie der ufgabe Mutationswahr-scheinlichkeiten, minosäureähnlichkeiten, Evolutionsmodell,... Substitutionsmatrizen machen approximatives Stringmatching erst anwendbar in der Bioinformatik Ulf Leser: Bioinformatik für Biophysiker, Sommersemester