Proseminar Bioinformatik

Proseminar Bioinformatik Thema Algorithmic Concepsts for Searching in Biological Databases von Uwe Altermann 30.05.2009 1 Einführung Im Folgenden soll ein Überblick über die verschiedenen algorithmischen Konzepte zur Suche in biologischen Datenbanken gegeben werden. Die Neuentwicklungen und Verbesserungen der Methoden zur DNA-Sequenzierung, wie zum Beispiel die Sanger-Methode, führte ab den 80er Jahren unweigerlich zu einem enormen Wachstum der Daten in DNA- und Proteindatenbanken. Hierdurch wurden die genauen Methoden des lokalen Alignments, wie beispielweise der Smith-Waterman-Algorithmus, und des globalen Alignments, wie der Needleman-Wunsch-Algorithmus, trotz ihrer optimierten Berechnung mit Hilfe des dynamischen Programmierens (Dynamic Programming), unbrauchbar. Der Grund hierfür war die Rechenintensität beim Erstellen der Alignments, wodurch diese Methoden ungeeignet für das Durchsuchen der immer größer werdenden Datenbanken wurden. Somit wurden heuristische Methoden entwickelt, um zulässige Lösungen für ein bestimmtes Problem in kurzer Zeit und ohne großen Aufwand zu erhalten. Hierbei ist zu beachten, dass diese Methoden nur Annäherungen an eine genaue Berechnung sind, bei denen eine reduzierte Sensitivität aufgrund der wesentlich gesteigerten Effizienz in Kauf genommen wird. Mit diesen heuristische Methoden können nun die großen Datenbanken in einer angemessenen Zeit nach ähnlichen Sequenzen durchsucht werden. Zwei der heutzutage am häufigsten eingesetzten Algorithmen zur Sequenzsuche sind FASTA und BLAST. Beide sind hochgradig heuristische Methoden, die sowohl bei der Suche in Protein- als auch DNA-Datenbanken ihren Einsatz finden. Dabei werden erst mittels schneller Indexsuche ähnliche Abschnitte identifiziert, bevor im weiteren Verlauf mittels Substitutionsmatrizen eine sensitive Berechnung von lokalen Alignments erfolgt. 2 Biologische Datenbanken Bevor wir zu den Konzepten der Suchalgorithmen kommen, soll hier ein kurzer Überblick über die Verschiedenen Datenbanken gegeben werden. Biologische Datenbanken können anhand der Art der Daten die sie beinhalten unterschieden werden. Vor allem DNA-Sequenz-Datenbanken und Protein-Sequenz-Datenbanken spielen im Hinblick auf Suchalgorithmen eine wichtige Rolle. 2.1 DNA-Sequenz-Datenbanken Die bekanntesten DNA-Datenbanken sind GenBank, EMBL-NSD (European Molecular Biology Laboratory - Nucleotide Sequence Database) und DDBJ (DNA Databank of Japan). GenBank, die wohl älteste Datenbank, wird verwaltet und gepflegt vom National Center of 1

Biotechnology Information (NCBI) in Bethesda, USA. EMBL-NSD, das europäische Äquivalent zu GenBank, wird gewartet vom European Bioinformatics Institute in Hinxton, Großbritannien, während sich DDBJ, wie der Name schon vermuten lässt, in Japan befindet. Es gibt noch weitaus mehr DNA-Datenbaken weltweit, doch das Besondere der hier genannten ist, dass diese drei miteinander verknüpft sind und permanent Daten austauschen. Wird also in eine der Datenbanken eine neue Sequenz eingefügt, ist diese auch in den andern Datenbanken zu finden. Beachtlich ist auch die Größe und das Wachstum der Datenbanken. GenBank, zum Beispiel, beinhaltet mit dem Release 171.0 vom 15 April 2009 momentan 102.980.268.709 Basenpaare und 103.335.421 Sequenzen. Das ist ein Wachstum von 1.512.998.401 Basenpaaren und 1.519.743 Sequenzen innerhalb von 56 Tagen, der Zeitspanne seit Erscheinen von Release 170.0. 2.2 Protein-Sequenz-Datenbanken Viele Protein-Sequenz-Datenbanken enthalten nicht nur Protein-Sequenzen, sondern zusätzlich Unmengen an sehr gut aufbereiteten Informationen, wie Funktion, Klassifikation und Verknüpfungen zu anderen Datenbanken bzw. Informationen. Die wohl bekanntesten sind Swiss-Prot und TrEMBL. Swiss-Prot wird manuell gepflegt, kommentiert und enhält momentan 468.851 Einträge (26.05.2009). Das ist im Vergleich zu TrEMBL mit 7.695.149 Einträgen (26.05.2009) wenig aber nicht verwunderlich, da diese Datenbank anhand der kodierenden Regionen aus der DNA-Datenbank EMBL-NSD automatisch erweitert wird. 3 Suchalgorithmen in Biologischen Datenbanken Nachdem wir uns einen Überblick über die Arten, Größe und das Wachstum von biologischen Datenbanken verschafft haben, betrachten wir nun die heuristischen Suchalgorithmen FASTA und BLAST. 3.1 Der FASTA - Algorithmus Der FASTA - Algorithmus ( fast-all ) wurde im Jahre 1985 durch D. Lipman und W. Pearson entwickelt und im Jahre 1988 auf Nukleotide erweitert FASTA besteht aus folgenden vier Schritten: 1. Ermitteln von diagonalen Regionen mit hoher Übereinstimmung im Dotplot ausgehend von k-tuples 2. Bewerten der 10 besten Regionen mit einer Scoring-Matrix 3. Zusammenfügen von Regionen in benachbarten Diagonalen durch Gaps (hierbei werden unrelevante Regionen entfernt) 4. Alignment in einem begrenzten Band Als Parameter können angegeben werden: 1. Die zu durchsuchende Datenbank 2. Die zu verwendende Substitutionsmatrix 3. Der Länge der zu suchenden hot-spots in Form des Parameters ktup (Voreinstellung: 2 für die Suche in Protein-Datenbanken, 6 für die Suche in DNA-Datenbanken) 2

Zum besseren Verständnis wird der Algorithmus im Folgenden anhand eines Dotplot erklärt. Bei einem Dotplot handelt es sich um die graphische Darstellung einer Gegenüberstellung zweier Sequenzen die Regionen mit gleichen Zeichen hervorhebt. Hierzu wird aus zwei Sequenzen eine Matrix erstellt, indem eine Sequenz über die Zeilen und die andere über die Spalten aufgetragen wird. Anschließend werden alle Zellen markiert, bei denen das Zeichen der Zeile mit dem Zeichen der Spalte übereinstimmt. Wurde dies für alle Zellen der Matrix gemacht, zeichnen sich genau da Diagonalen ab, wo mehrere Zeichen der einen Sequenz mit der anderen übereinstimmen. Im ersten Schritt werden zunächst alle hot-spots im Dotplot ermittelt. Hierbei handelt es sich um exakt übereinstimmende k-tuple der Länge ktup aus der Abfragesequenz und der momentan zu vergleichenden Sequenz der Datenbank. Um diesen Vorgang enorm zu beschleunigen, können bereits bei jeder Bereitstellung der Datenbank alle k-tuple der Datenbanksequenzen in einer Hashtable gesammelt werden, wobei in diesem Fall zur Suche der hot-spots die Hashtable verwendet wird. Sind die hot-spots gefunden, zeichnen sich diese als kurze oder längere Diagonalen im Dotplot ab, je nachdem, ob sie zusammenhängen oder eben nicht. Aus diesen hot-spots werden Regionen gebildet. Dies geschieht durch Verbinden der hot-spots auf jeder Diagonalen. Hierbei werden positive Scores für die hotspots (matches) und negative für die inter-spots (mismatches) zwischen diesen vergeben, wobei der Score für ein inter-spot um so negativer wird, je größer dieser ist. Das so entstehende Alignment enthält keine Lücken (gaps) und das Verbinden wird nicht zwangsweise bis zum Ende jeder Diagonalen fortgeführt. FASTA ermittelt nun alle Regionen und deren Score. Anschließend werden aus diesen Regionen die Zehn mit dem besten Score ermittelt. Eine Region muss nicht alle hot-spots einer Diagonalen beinhalten und auf einer Diagonale können sich mehr als eine der zehn besten Regionen befinden. Stehen nun die zehn besten Regionen fest, wird im zweiten Schritt eine separate Bewertung dieser, anhand einer Substitutionsmatrix vorgenommen. Bei diesem Schritt wurden früher eher PAM-Matritzen verwendet, während heutzutage für die Bewertung eher BLOSUM- Matritzen herangezogen werden. Die Bewertung der Region, die aus allen Bewertungen als Beste hervorgeht, wird init1 genannt. Regionen deren Bewertung unter eine bestimmte Grenze fällt, werden in den nächsten Schritten nicht mehr beachtet. Der dritte Schritt nimmt nun die übrigen Regionen, sowie deren Bewertung aus Schritt zwei, und bildet daraus Graphen unter folgender Annahme. 1. Region A beginnt im Dotplot an Position (x,y) und endet an Position (x+z, y+z) 2. Region B beginnt an Positon(x, y ) Graphen werden durch verbinden zweier Regionen gebildet, aber nur, wenn x >x+z und y >y+z, d.h. also, dass die Region B hinter dem Ende der Region A liegen muss. Eine weitere Bedingung ist, dass die Regionen nicht zu weit auseinander liegen dürfen. Dies wird durch Vergabe einer Strafe pro erwägter Verbindungslinie verhindert, woraufhin FASTA aus der Bewertung von Schritt zwei sowie der jeweiligen fiktiven Strafe pro Verbindungslinie einen maximal bewerteten Pfad ermittelt. Die für diesen Pfad ermittelte Bewertung wird initn genannt. Hierauf folgt der vierte und letzte Schritt, das Erstellen eines lokalen Alignments mit Hilfe eines Dynamic-Programming-Algorithmus, wie zum Beispiel Smith-Waterman. Dieses Alignment wird aber nicht über die gesamte Matrix erstellt, sondern nur innerhalb eines 3

begrenzten Bandes dessen Mitte die Diagonale der Region mit der Bewertung init1 bildet. Hiervon ausgehend wird im Fall, dass für ktup z.b. eine Länge von eins gewählt wurde ein Band mit der breite von 32 Diagonalen gebildet. Das entspricht einer Breite von 16 Diagonalen von init1 ausgehend auf einer und 16 Diagonalen inklusive init1 auf der anderen Seite. Das Ergebnis dieses Alignment wird opt genannt und als Ergebnismenge mit init1 und initn zusätzlich zur gefundenen Sequenz ausgegeben. Diese drei Werte können dann zu einer Bewertung der statistischen Signifikanz der gefundenen Sequenzen aus der Datenbank verwendet werden. Variationen der FASTA-Familie Programm FASTA-Protein FASTA-Nukleotid Funktion Unterstützt Vergleiche gegen eine Protein-Datenbank Unterstützt Vergleiche gegen eine Nukleotid-Datenbank 3.2 Der BLAST - Algorithmus Der BLAST - Algorithmus ( basic local alignment search tool ) wurde im Jahre 1990 durch S. Altschul, W. Gish, W. Miller, E. Myers und D. Lipman, der auch schon an der Entwicklung des FASTA - Algorithmus beteiligt war, ins Leben gerufen und beruht im Wesentlichen auf drei Verbesserungen des FASTA - Algorithmus. Die Erste ist D. Lipman und anderen am NCBI (National Center for Biotechnology Information) zuzuschreiben, die durch das Einführen strengerer Regeln zum Auffinden von hot-spots die Geschwindigkeit wesentlich verbessern konnten. Bei der zweiten Verbesserung handelt es sich um die Erweiterung der Suchwortliste um ähnliche Wörter zu den darin bereits enthaltenen Suchwörtern, so genannte Nachbarwörter durch E. Myers. Die dritte Verbesserung, das Hinzufügen eines statistisch aussagekräftigen Wertes, dem E-Value, wurde schließlich von Karlin, Altschul und Dembo eingeführt. Der Algorithmus besteht im Wesentlichen aus drei Teilen: 1. Dem Erstellen einer Suchwortliste mit Wörtern der Länge W 2. Dem Suchen von Treffern seeds anhand der Suchwortliste 3. Dem Ausdehnen der relevanten Treffer Um nun den Algorithmus detaillierter zu betrachten, ist es zunächst nötig einige Parameter und Definitionen genauer zu kennen. Als Aufrufparameter können angegeben werden: 1. Die zu durchsuchende Datenbank 2. Die zu verwendende Substitutionsmatrix 3. Der Grenzwert T für den Score bei der Erstellung der Suchwortliste bzw. dem Auffinden der seeds (Voreinstellung: 3-5 für die Suche in Protein-Datenbanken, 12 für die Suche in DNA-Datenbanken) 4. Der Grenzwert C für den Score zum Auffinden von MSPs (maximal segment pairs) und/oder ein Grenzwert E für den E-Value der ermittelten Alignments 4

Ein MSP (maximal segment pair) ist definiert wie folgt. Ein lokales MSP ist ein Paar zweier gleichlanger, lückenloser Subsequenzen S1.x und S2.x aus zwei Sequenzen S1 und S2, dessen Alignment-Score sich durch Verlängern oder Verkürzen der Subsequenzlänge um eine Aminosäure bzw. ein Nukleotid nur verschlechtern würde (im nachstehenden Bsp. grau markiert). Ein MSP ist das lokale MSP, dessen Alignment-Score im Vergleich zu allen anderen lokalen MSPs am höchsten ist (im nachstehenden Bsp. das Alignment mit Alignment-Score S=34). Beispiel mit der Substitutionsmatrix Blosum62: lokales MSP S=34 lokales MSP S=30 S1: L N K T C P Q G W F A Q R P W I K G P Q G W F A Q R N I S2: C K Q G C P S G W W A V N K G S Q S P S G W W A V L L K -2 9 7 0 6 11 1 4 2-2 1 0 7 0 6 11 1 4 2 MSP Betrachten wir nun den ersten Schritt, das Erstellen der Suchwortliste genauer. Zunächst stellt sich natürlich die Frage, was nun die beste Länge für W ist. Anbetracht der Tatsache, dass ein unüberlegtes Auswählen der Parameter erheblichen Einfluss auf den Nutz- und Wirkungsgrad von BLAST hat, sollte W nicht zu kurz aber auch nicht zu lang sein. Daher wird für eine Suche in einer Protein-Datenbank für W ein Wert von 3-5 Aminosäuren und im Falle einer DNA-Datenbanksuche von ungefähr 12 Nukleotiden empfohlen. Doch nun zum eigentlichen Erstellen der Suchwortliste. Zu diesem Zweck werden zunächst alle Suchwörter anhand eines Fensters der Länge W (Wortlänge) ermittelt. Dies geschieht durch gezieltes Weiterrücken des Fensters um jeweils eine Aminosäure bzw. eine Base beginnend am Anfang der Abfragesequenz bis zum Ende der selbigen. Beispiel mit Wortlänge W= 3: Abfragesequenz: Suchwortliste: GSQSLAALLNKCKTPQGQRLVNQWIK GSQ SQS QSL...... PQG...... QWI WIK Handelt es sich um eine Suche in einer DNA-Datenbank, wird an dieser Stelle mit dem zweiten Schritt fortgefahren. Bei Suchen in Proteindatenbanken allerdings, werden zusätzlich zu allen ermittelten Suchwörtern auch alle ähnlichen Wörter ermittelt, deren Score, bei einem Alignment zwischen Suchwort und einem ähnlichen Wort, über den angegebenen Grenzwert T liegt. Beispiel mit einem Grenzwert T=13 und der Substitutionsmatrix Blosum62: GSQSLAALLNKCKTPQGQRLVNQWIK Suchwort PQG 18 Benachbarte PEG 15 Wörter PRG 14. PKG 14. PNG 13. PDG 13. PHG 13. PMG 13. PSG 13 Score Grenzwert (T=13) PQA 12 PQN 12 etc.... 5

(Der Grund für diese verschiedenen Strategien beim Erstellen der Suchwortliste ist in der unterschiedlichen Größe der Alphabete zu finden.) Der zweite Schritt ist weitaus einfacher. Anhand der zuvor erstellten Suchwortliste wird in den Sequenzen der ausgewählten Datenbank nach diesen Wörtern gesucht. Die Treffer ( hits ) werden in BLAST seeds genannt und sind im anschließenden Schritt von enormer Bedeutung. In Schritt drei werden die seeds in beide Richtungen erweitert und geprüft ob es sich hierbei um MSPs (maximal segment pairs) handelt, deren Score über dem Schwellenwert C. Ist das der Fall, wird die somit gefunden Sequenz in die Resultliste aufgenommen und nach der Verarbeitung zurückgegeben. Um den Vorgang zu beschleunigen, wird bereits während der Erweiterung der seeds geprüft, wie sich der Score im Verhältnis zu dem Besten einer zuvor durchgeführten, kürzeren Erweiterung verhält. Fällt dieser unter den verglichenen Wert, wird der Vorgang abgebrochen. Aus diesem Grund, kann BLAST auch nicht garantieren, dass jedes MSP gefunden wird, welches über bzw. unter den angegebenen Grenzwerten von C und E liegt. Der enorme Vorteil des BLAST-Algorithmus gegenüber von FASTA ist seine Geschwindigkeit und das zu jeder gefundenen Sequenz auch noch statistisch aussagekräftigere Daten wie der E-Value und der Bit-Score angegeben werden. Diese Daten sind enorm nützlich zur Interpretation der Ergebnismenge. Der Bit-Score ist die quantitative Bewertung der Ähnlichkeit einer gefundenen Suchsequenz mit einer bekannten Sequenz. Er setzt sich aus der Summe der Einzelscores zusammen, die nach bestimmten Parametern normalisiert wurden. Je höher der Score, desto höher ist auch die Identität der beiden Sequenzen. Der E-Value (Expactation-Value) ist die statistische Signifikanz für den gefundenen Treffer bei einer Datenbanksuche. Er zeigt an, wie viele Treffer gleicher Qualität zufällig auftreten könnten. Je kleiner der Wert, desto höher die Signifikanz, dass es sich nicht um einen zufälligen Treffer handelt. Die BLAST-Familie beinhaltet u.a. folgende Variationen Programm BLASTp BLASTn BLASTx TBLASTn TBLASTx Funktion Vergleicht eine Aminosäure-Sequenz gegen eine Protein-Datenbank Vergleicht eine Nukleotid-Sequenz gegen eine Nukleotid-Datenbank Zerlegt eine Nukleotid-Sequenz in alle sechs Leserahmen und vergleicht jede Übersetzung gegen eine Protein-Datenbank Vergleicht eine Protein-Sequence gegen eine Nukleotid-Datenbank nachdem jede Sequence in alle sechs Leserahmen übersetzt wurde Zerlegt eine Nukleotid-Sequenz in alle sechs Leserahmen und vergleicht die Übersetzung jedes Leserahmen mit der ebenfalls in alle sechs Leserahmen zerlegten und übersetzten Sequenz einer Nukleotid- Datenbank (Vergleich auf Proteinebene) 6

4 Definitionen 4.1 Alignment-Score Der Alignment Score oder nur Score ist Maß für die Qualität eines Alignments. Der Score wird berechnet als die Summe der einzelnen Scores für jeden Match im Alignment minus der Strafpunkte für die Anzahl und die Länge der Gaps. 4.2 Substitutionsmatrix (Scoring Matrix) Eine Substitutionsmatrix ist eine Matrix, die jedem möglichen Aminosäure- oder Nukleotidpaar einen Wert zuteilt, der Auskunft über die relative Rate der Mutation von einer Aminosäure bzw. einem Nukleotid in eine ander Aminosäure bzw. ein anderes Nukleotid gibt. Die Matrix wird verwendet, um einen Alignmentscore zu berechnen. 4.3 Heuristik, Heuristische Methoden Heuristische Methoden kommen zum Einsatz, um zulässige Lösungen für ein bestimmtes Problem zu erhalten, welche in kurzer Zeit und ohne großen Aufwand erzeugt werden können. Hierbei wird in Kauf genommen, dass heuristische Methoden nur Annäherungen an eine genaue Berechnung sind, die eine reduzierte Genauigkeit der Ergebnisse aufgrund der wesentlich gesteigerten Effizienz zur Folge haben. 4.4 Dynamic programming Das Verfahren des dynamic programming besteht darin, ein großes, zunächst scheinbar unlösbares Problem solange in gleichartige kleinere Teilprobleme zu zerlegen, bis es eine Lösung für eines der Teilprobleme gibt. Auf die jeweilige Teillösung aufbauend können nun alle nächst größeren Teilprobleme gelöst werden, bis das gesamte Problem gelöst ist. Hierbei werden einmal berechnete Teilergebnisse zwischengespeichert und für die Berechnung gleichartiger Teilprobleme herangezogen anstatt diese immer wieder neu zu berechnen. 4.5 MSP (Maximal Segment Pair) Ein lokales MSP ist ein Paar zweier gleichlanger, lückenloser Subsequenzen S1.x und S2.x aus zwei Sequenzen S1 und S2, dessen Alignment-Score sich durch Verlängern oder Verkürzen der Subsequenzlänge um eine Aminosäure bzw. ein Nukleotid nur verschlechtern würde. Ein MSP ist das lokale MSP, dessen Alignment-Score im Vergleich zu allen anderen lokalen MSPs am höchsten ist. 4.6 Bit-Score Der Bit-Score ist die quantitative Bewertung der Ähnlichkeit einer gefundenen Suchsequenz mit einer bekannten Sequenz. Er setzt sich aus der Summe der Einzelscores zusammen, die nach bestimmten Parametern normalisiert wurden. Je höher der Score, desto höher ist auch die Identität der beiden Sequenzen. 4.7 E-Value Der E-Value (Expactation-Value) ist die statistische Signifikanz für den gefundenen Treffer bei einer Datenbanksuche. Er zeigt an, wie viele Treffer gleicher Qualität zufällig auftreten könnten. Je kleiner der Wert, desto höher die Signifikanz, dass es sich nicht um einen zufälligen Treffer handelt. 7

5 Quellen J. Setubal, J. Meidanis: Introduction to Computational Molecular Biology, PWS, 1997; Abschnitte 3.1, 3.5. D. Gus?eld: Algorithms on Strings, Trees, and Sequences Computer Science and Computational Biology, Cambridge University Press, 1997; Kapitel 15. D.W. Mount: Bioinformatics Sequence and Genome Analysis, Cold Spring Harbor Laboratory Press, 2001, Kapitel 7. 6 Programme GenBank Release 171.0: http://www.bio.net/hypermail/genbank-bb/2009-april/000305.html UniProtKB/Swiss-Prot Release 57.3: http://www.expasy.org/sprot/relnotes/relstat.html UniProtKB/TrEMBL Release 40.3: http://www.ebi.ac.uk/uniprot/tremblstats/ FASTA: http://www.ebi.ac.uk/tools/fasta/index.html BLAST: http://blast.ncbi.nlm.nih.gov/blast.cgi 8