Algorithmische Bioinformatik

Transkript

1 lgorithmische Bioinformatik pproximatives Stringmatching Edit-bstand Ulf Leser Wissensmanagement in der Bioinformatik

2 Ziele dieser Vorlesung Einstieg in exaktes approximatives Stringmatching Bedeutung für die Bioinformatik Verständnis Editabstand, Ähnlichkeit, lignment Ulf Leser: lgorithmische Bioinformatik 2

3 Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf Leser: lgorithmische Bioinformatik 3

4 Spielarten Exakter approximativer Stringvergleich: Vergleiche Strings mit einer definierten bstandsfunktion und finde Vorkommen, die diese minimieren Varianten egeben P, pproximative Vorkommen von P in mit Höchstabstand k op-k zu P ähnlichsten Substrings in egeben S und Datenbank D Strings in D mit bstand höchstens k zu S op-k zu S ähnlichsten Strings in D Basis: egeben, B: Wie ähnlich sind und B? Ulf Leser: lgorithmische Bioinformatik 4

5 Wie ähnlich sind sich zwei Sequenzen? verglichen mit zu wenig zu viel C durch ersetzen und C löschen Sehr viel löschen Welche Matches sind besser? leitender Übergang zwischen exakter / guter / schlechter Match Ähnlichkeit muss durch Funktion quantifiziert werden Herangehensweisen bstand minimieren Ähnlichkeit maximieren Ulf Leser: lgorithmische Bioinformatik 5

6 Mögliche Maße Hamming-bstand Voraussetzung: = B Vergleiche und B Zeichen für Zeichen Hamming-bstand = nzahl der Mismatches Verwendung: Korrektur bei digitaler Signalübertragung Beispiel: ha(cccc, CCC)= 9 Jaccard-bstand (auf q-rammen) Berechne alle q-ramme von und B bstandsfunktion (über Mengen oder Multimengen) d(, B) = qgram( ) qgram( ) qgram( B) qgram( B) Ulf Leser: lgorithmische Bioinformatik 6

7 Biologie Funktion von Proteinen wird bestimmt durch Sequenz Sequenz 3D-Faltung Domänen Interaktion/Reaktion Proteinsequenz wird bestimmt durch Sequenz des ens Sind sich zwei Proteinsequenzen sehr ähnlich, dann haben sie sehr wahrscheinlich die gleiche Funktion Sind sich zwei (hinreichend lange) Sequenzen sehr ähnlich, dann kann das kein Zufall sein nnahme: Sie hängen evolutionär zusammen Ulf Leser: lgorithmische Bioinformatik 7

8 Evolution X CC B CC CCCC Ähnlichkeit kommt vom gemeinsamen Ursprung Evolution erfolgt in kleinen Schritten Einfügung einer Base (INS), Löschen (DEL), Ersetzen (REP) Wie viel Evolution ist bei X und X B passiert? Wir kennen nur und B Wenn Evolution zufällig (im Sequenzraum) erfolgt, gilt d(x,) + d(x,b) ~ d(,b) Ulf Leser: lgorithmische Bioinformatik 8

9 Evolution CC CC CCCC Definition von d Wir zählen primitive evolutionäre Ereignisse (INS/DEL/REP) Wir zählen die kleinste nzahl Ereignisse, die X in verwandelt haben kann (Edit-bstand) Für die biologische nwendung geeignetes bstandsmaß Ulf Leser: lgorithmische Bioinformatik 9

10 Sequenz und Funktion Sequenz und Funktion hängen eng zusammen, sind aber nicht direkt ableitbar Proteine: b 20-30% Ähnlichkeit geht man von verwandter Funktion aus ber: Schon einzelne Mutation kann Funktion verändern Bestimmung von Funktion ist extrem aufwändig (wenn überhaupt möglich) Bestimmung von Sequenzen dagegen sehr billig Idee: nnäherung der Funktion über Sequenzähnlichkeiten eburtsüberlegung der Bioinformatik Basiert auf approximativem Stringmatching Ulf Leser: lgorithmische Bioinformatik 10

11 Realität ist viel komplizierter Sequenzen heißen Homolog, wenn sie einen gemeinsamen Ursprung haben und von diesem durch Evolution divergiert sind Ortholog, wenn sie in verschiedenen Spezies vorkommen, aber vom gleichen Vorfahren abstammen Paralog, wenn sie durch Duplikation innerhalb einer Spezies entstanden sind Wir bestimmen Homologie durch hohe Sequenzähnlichkeit Wir unterscheiden nicht zwischen Paralogen und Orthologen Offen: Sind orthologe Proteine funktional ähnlicher als paraloge? Ulf Leser: lgorithmische Bioinformatik 11

12 Positionen sind nicht egal Wildtyp Fatale Mutation Leserastermutation Neutrale Mutation Funktionale Mutation C C C Leu Ser sp yr ly Lys C C Leu Ser sp Stop-Codon C C C Leu Ser His sp Leu hr C C C C Leu Ser sp yr ly Lys C C Leu Ser lu yr ly Lys DN Protein DN Protein DN Protein DN Protein DN Protein Ulf Leser: lgorithmische Bioinformatik 12

13 Was wir behandeln lobales lignment: Wie ähnlich sind sich zwei komplette Strings? Needleman-Wunsch Lokales lignment: Wie ähnlich sind sich die zwei ähnlichsten Substrings zweier Strings? Smith-Waterman Datenbankformulierung. egeben Sequenz S und Sequenzdatenbank D Finde die Sequenz aus D, die S am global ähnlichsten ist Finde die Sequenz aus D, die S am lokal ähnlichsten ist BLS Ulf Leser: lgorithmische Bioinformatik 13

14 nwendungsbeispiel: Proteindomänen Pattern, Domäne, Motiv, Site: eile einer Proteinsequenz mit funktionaler Bedeutung Bindungsstellen, enzymatische ktivität, Signal, etc. Beschrieben durch reguläre usdrücke, Fingerprints, Profile,... Datenbanken von Domänen PROSIE, Pfam, InterPro, BLOCKS, PRINS,... Beispiel PROSIE Beginn: Finden einer interessanten eilsequenz in der Literatur Identifikation ähnlicher Sequenzen in anderen Proteinen pproximatives Stringmatching Identifikation der konservierten minosäuren Multiple Sequence lignment Ulf Leser: lgorithmische Bioinformatik 14

15 Entstehung von Prosite Pattern lignment of set of interesting proteins Functionally important residues Found only correct entries: leave Find 4-5 conserved residues Core pattern Search database Found many false positives: extend pattern and do more research Pattern given as kind-of regular expression: [C]-x-V-x(4)-{ED} ala/cys-any-val-any-any-any-any-(any except glu or asp) Quelle: PROEIN PERN DBSES, EBI Ulf Leser: lgorithmische Bioinformatik 15

16 ußerhalb der Bioinformatik Unscharfe Suche in exten Suche mit Xylofon und finde auch Xhylophon Personenabgleich / Entity Matching / Deduplication Ist Herr Müller, 27, Stargarder Str 54 identisch zu Hr. Mueller, 27, Stagarder Str. 54? Phonetische Suche (soundex) Finde alle Meyer, Meier, Maier, Mair,... Ulf Leser: lgorithmische Bioinformatik 16

18 Dotplot Definition Ein Dotplot zweier Strings, B ist eine Matrix M mit Die Spalten entsprechen den Zeichen von Die Zeilen entsprechen den Zeichen von B M[a,b]=1 gdw. [a] = B[b]; sonst 0 C C C Ulf Leser: lgorithmische Bioinformatik 18

19 Dotplot und gleiche eilstrings Wie erkennt man gleiche eilstrings im Dotplot? C C C C C C Diagonalen von links-oben nach rechts-unten rößter gemeinsamer eilstring längste Diagonale Visuell bei kurzen Strings möglich Ulf Leser: lgorithmische Bioinformatik 19

20 Visuelle Untersuchung Helligkeit: Ähnlichkeit im Umfeld eines Pixels Quelle: Dotlet, Ulf Leser: lgorithmische Bioinformatik 20

21 Repetitive Sequenzen C C C C C C C C Dotplot mit =B Zitat (enbank, P24014): [SIMILRIY] CONINS 7 EF-LIKE DOMINS. [SIMILRIY] Contains 24 leucine-rich (LRR) repeats. Ulf Leser: lgorithmische Bioinformatik 21

22 Finden längster gemeinsamer eilstrings egeben Dotplot M zweier Strings, B esucht: Längster gemeinsamer eilstring Naives Verfahren ( = B =m) Prüfe jede der 2*m Diagonalen: O(m) Suche zusammenhänge Sequenzen von 1 ern: O(m) Merke das längste zusammenhängende Stück Komplexität: O(m 2 ) (Zusätzlich: Konstruktion von M - wie komplex?) Wir kennen schon lineare lgorithmen ußerdem wollen wir approximativ matchen Ulf Leser: lgorithmische Bioinformatik 22

24 Editskripte Definition Ein Editskript e für zwei Strings, B aus Σ *= Σ _ ist eine Sequenz von Editieroperationen I (Einfügen eines Zeichen c Σ in ) Dargestellt als Lücke in ; das neue Zeichen erscheint in B D (Löschen eines Zeichen c in ) Dargestellt als Lücke in B; das alte Zeichen erscheint in R (Ersetzen eines Zeichen in mit einem anderen Zeichen in B) M (Match, d.h., gleiche Zeichen in und B an dieser Stelle) so, dass e()=b Beispiel: =, B= C MIMMMR IRMMMDI C _C Ulf Leser: lgorithmische Bioinformatik 24

25 Editabstand Offensichtlich gibt es immer unendlich viele Editskripte Definition Die Länge eines Editskript ist die nzahl von Operationen o im Skript mit o {I, R, D} Der Editabstand (oder Levenshtein-bstand) zweier Strings, B ist die Länge des kürzesten Editskript für, B Bemerkung Matches zählen nicht interessant sind nur die Änderungen Es gibt oft verschiedene kürzeste Editskripte IMMMMMD DMMMMMI Ulf Leser: lgorithmische Bioinformatik 25

26 lignment Definition Ein (globales) lignment zweier Strings,B ist eine Untereinanderanordnung von und B mit beliebigen zusätzlichen Leerzeichen, ohne dass zwei Leerzeichen untereinander stehen chtung: Untereinanderstehende Zeichen müssen nicht matchen Der lignmentscore eines lignment ist die nzahl von Leerzeichen und Mismatches Der lignmentabstand zweier Strings, B ist der minimale lignmentscore aller lignments der beiden Strings Beispiele C C Score: Ulf Leser: lgorithmische Bioinformatik 26

27 lignments und Dotplots Übersetzung von Pfaden im Dotplot in lignments Dotplot: Sei horizontal und B vertikal aufgetragen lignment: Sei über B angeordnet Schritt nach rechts: Nächstes Zeichen von ; _ in B Schritt nach unten: Nächstes Zeichen von B; _ in Schritt nach rechts-unten: Nächstes Zeichen von und B C C C CC CC C C C C C C Ulf Leser: lgorithmische Bioinformatik 27

28 Pfadgüte ute Pfade haben viele Matches (1 er Felder) Definition Die üte eines Pfades P durch einen Dotplot M ist die nzahl an diagonal durchquerten 1 er Feldern Die Länge eines Pfades P durch einen Dotplot M ist die nzahl an Schritten, die nicht diagonal durch 1 er Felder laufen Bemerkung Der beste Pfad kann also höchstens üte min(m,n) haben Ulf Leser: lgorithmische Bioinformatik 28

29 C C Beispiele C Pfadgüte: 0 C C C Pfadgüte: 4 C C C Pfadgüte: 9 Maximale üte? Ulf Leser: lgorithmische Bioinformatik 29

30 Äquivalenzen egeben zwei Strings,B und deren Dotplot M Die folgenden Probleme sind äquivalent Finde das optimale lignment von und B (= lignmentabstand) Finde die minimale Menge an Editoroperationen von nach B (= Editabstand) Finde in M den Pfad mit minimaler Länge (= Pfadlänge) Beweis: Einfach Wir verwenden im Folgenden meistens lignments Einfacher zu lesen, weniger redundant, platzsparend Ulf Leser: lgorithmische Bioinformatik 30

31 lgorithmus Naives Verfahren um den besten Pfad zu finden lle Pfade aufzählen Das sind exponentiell viele Nur Pfade um die Hauptdiagonale: > 3 min(m,n) enaue nzahl Pfade: Übungsaufgabe Inakzeptable Laufzeit atsächliche Komplexität des Problems: O(m*n) Ulf Leser: lgorithmische Bioinformatik 31

32 Selbsttest Wie ist der Editabstand zweiter Strings definiert? Welche äquivalenten Formulierungen dieser bstandsfunktion gibt es? Warum interessiert uns in der Bioinformatik gerade der Editabstand zweier Sequenzen? Betrachten Sie den phylogenetischen Baum (Folie 8): ilt denn d(x,) + d(x,b) = d(,b)? Ist Editabstand eine Metrik? Ulf Leser: lgorithmische Bioinformatik 32