Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Oliver Kohlbacher W 2009/2010 7. Datenbanksuche Abt. imulation biologischer ysteme WI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Datenbanksuche statt Alignment Heuristiken: schnell statt optimal BLAT Algorithmus & Komplexität ignifikanz von Alignments Anwendung & Ausgaben des Programms Beispiel 2 Datenbanksuche Problem Gegeben: eine equenz und eine equenzdatenbank Gesucht: ähnlichste Vorkommen der equenz in der Datenbank Beispiele uche nach dem nächsten Homologen in einem Genom Identifizierung einer unbekannten equenz Anfragesequenz Datenbanksequenz D 1

GenBank Wachstum Größe von Genbank wächst immer noch exponentiell an Derzeit sind über 99 Mio. equenzen mit ca. 99 Mrd. bp gespeichert http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html Komplexität von Datenbanksuche ucht man in großen Datensätzen nach einer equenz, ist dies naiv durch Berechnung des optimalen lokalen Alignments möglich Problem: Hauptspeicher! Zum Aufbau der DP-Matrix benötigt man O( D ) peicher ucht man eine DNA-equenz von 1.000 bp im menschlichen Genom (3 Gbp), so benötigt man 12.000 GB Hauptspeicher für die Matrix! uche mit mith-waterman ist auch recht langsam auf Datenbanken dieser Länge Heuristiken zur Datenbanksuche mith-waterman ist ein optimaler Algorithmus, d.h. er findet ein optimales Alignment In der Informatik verwendet man neben optimalen Algorithmen häufig auch Heuristiken Heuristiken sind Algorithmen, die oft suboptimale (aber meist hinreichend gute) Lösungen liefern, dafür aber weniger rechenaufwändig als optimale Algorithmen sind In der Datenbanksuche setzt man aus Geschwindigkeitsgründen ausschließlich Heuristiken ein Eines der wichtigsten Werkzeuge zur heuristischen uche ist BLAT 2

BLAT BLAT (Basic Local Alignment earch Tool) wurde 1990 von Altschul et al. vorgestellt Wir werden zunächst den Algorithmus anreißen, dann die Verwendung von BLAT sowie die Interpretation der Ergebnisse BLAT ist ein mehrstufiger Algorithmus: Zunächst werden Regionen der Datenbank identifiziert, die Treffer enthalten können Diese werden dann mit Hilfe eines lokalen Alignments näher untersucht Auffinden der interessanten Regionen ist sehr schnell möglich Anschließend müssen Alignments nur auf einem geringen Bruchteil der Datenbank berechnet werden ) deutlicher Geschwindigkeitsgewinn! Altschul F, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. (1990), 215(3):403-10. BLAT Grundidee: Eine zur Anfrage ähnliche equenz in der Datenbank besitzt auch kurze Teilsequenzen (ohne Gaps), die zu Teilsequenzen der Datenbank ähnlich sind Finde kurze ubstrings in der Datenbank, die zu ubstrings der Anfrage sehr ähnlich sind Treten diese an einer telle gehäuft auf, haben wir vermutlich die Anfrage gefunden Anfragesequenz Datenbanksequenz D BLAT w-mere BLAT basiert auf so genannten w-meren, Worten der Länge w BLAT versucht in D alle Vorkommen kurzer Worte zu identifizieren, die ausreichend ähnlich zu gleich langen Worten aus sind Beispiel: w = 2 = RQCAGW Alle 2-mere in : RQ, QC, C, A, AG, GW Mit BLOUM62 erzielen folgende 2-mere einen core > 8, wenn sie mit den 2-meren aus verglichen werden: RQ: QC: C: RQ QC, RC, EC, NC, DC, HC, KC, MC, C C, CA, CN, CD, CQ, CE, CG, CK, CT 3

BLAT w-mere Für jede Anfrage konstruiert BLAT zunächst eine Liste aller in vorkommenden w-mere, dann eine Liste aller dazu ähnlichen w-mere (gemäß coringmatrix) Nach diesen w-meren wird dann in D gesucht Da keine Gaps zugelassen werden und nur direkte Identität mit sehr kurzen equenzen getestet werden muss, geht dies sehr schnell w-mere aus Ähnliche k-mere Treffer in D Treffer in D Datenbanksequenz D BLAT Hits Treffer (hits) in der Datenbank deuten auf Regionen hin, in denen evtl. Ähnlichkeit zur Anfragesequenz besteht tarke Ähnlichkeit = viele Treffer nah beieinander Ähnlichkeit bedingt aber auch richtige Reihenfolge der Treffer Diagonalen! D BLAT HPs Im zweiten chritt wird nun nach Paaren von Treffern gesucht, die auf der selben Diagonalen liegen und einen gewissen Höchstabstand in D nicht überschreiten Diese Paare werden als HPs (high-scoring pairs) bezeichnet D 4

BLAT Alignment HPs werden durch lokale Alignments erweitert soweit möglich (Abbruch, wenn core unter Grenzwert fällt) Alignment wird dabei nur auf den Regionen um HPs herum berechnet (seeds) Alignment kann lokal recht effizient (ähnlich mith- Waterman) berechnet werden D BLAT Auswertung Nicht signifikante Alignments werden verworfen Alignments die ausreichend gute cores liefern, werden beibehalten Diese entsprechenden lokalen Alignments werden dann von BLAT als Ergebnis ausgegeben Alle möglichen Alignments werden dabei nach ihrer statistischen ignifikanz bewertet und sortiert D tatistik Wann ist eine equenzsuche erfolgreich? Wie unterscheidet man sinnvolle Alignments von solchen die durch Zufall entstanden sind? Wann ist ein Alignment statistisch signifikant? Es gibt eine Reihe von Größen, die zur Entscheidung dieser Fragen herangezogen werden equenzidentität Ähnlichkeit (raw score) Bit-core (normalisierter core) E-Wert (E-value) Oft geht man davon aus, dass equenzidentität über 25-30% funktionelle und strukturelle Ähnlichkeit der Proteine impliziert 5

Bit-core Da der unbereinigte core (raw score) eines Alignments von der Länge der equenzen, der verwendeten coringmatrix und Gapkostenfunktion abhängt, ist der Vergleich der Raw-cores nicht aussagekräftig Karlin und Altschul haben eine Normalisierung vorgeschlagen, der die Ergebnisse untereinander besser vergleichbar macht, den so genannten Bit-core s, der sich wie folgt aus dem Raw-core s berechnet: Karlin-Altschul-Parameter λ und K ergeben sich dabei jeweils aus der verwendeten coringfunktion E-Werte Der E-Wert ist die wichtigste statistische Größe bei der Bewertung eines BLAT-Ergebnisses Er trifft eine Aussage über die statistische ignifikanz des Alignments, d.h. wie wahrscheinlich es ist, dass die Ähnlichkeit der beiden equenzen ein zufälliges Ergebnis ist Berechnung des E-Werts basiert auf den Bit-cores: Genauer betrachtet ist der E-Wert E(s) der Erwartungswert für die Anzahl der Alignments mit core s die sich zufällig ergeben E-Werte Für die Wahrscheinlichkeit P(s ), dass ein Alignment mit einem core von s oder besser zufällig zu finden ergibt sich dann: E-Wert kann Werte zwischen Null und unendlich annehmen ehr kleine E-Werte bedeuten natürlich ein statistisch signifikanteres Alignment Gute Alignments haben sehr kleine E-Werte (z.b. 0.001) Alignments mit größeren E-Werten sind nicht als relevant anzusehen 6

Vorbereitung BLAT erfordert eine Vorbereitung der equenzdatenbank bevor die uche gestartet werden kann Dabei werden die equenzen aus einem beliebigen Format (z.b. FATA) in ein spezielles BLAT-Format umgewandelt und zusätzliche Index-trukturen angelegt Dies erledigt das Programm formatdb Die Vorbereitung einer Datenbank muss nur einmal durchgeführt werden, danach können beliebig viele uchen damit durchgeführt werden Ändert sich die Datenbank, muss formatdb natürlich wieder neu ausgeführt werden Details zur Verwendung in der Übung Aufruf von BLAT Von BLAT existieren eine Reihe von Varianten, je nachdem was und worin gesucht werden soll: blastp Proteinsequenz in Protein-DB blastn NA-equenz in NA-DB blastx alle Translationen einer NA-equenz in Protein-DB tblastn eine Proteinsequenz gegen alle sechs übersetzten Leserahmen einer NA-DB tblastx alle sechs Translationen einer NA-equenz gegen alle entsprechenden Translationen einer NA-DB (sehr rechenaufwändig!) Aktuelle Versionen von BLAT vereinen dies in einem einzigen Programm (blastall), dem man den Namen der BLAT- Variante als Kommandozeilenparameter mitgibt: Beispiel: blastall p blastp sucht eine Proteinsequenz in einer Proteindatenbank Parameter BLAT hat natürlich jede Menge an Parametern, die das Verhalten des Algorithmus bestimmen Relevant sind in erster Linie Wortlänge w (Default: 3 für Proteine, 11 für NA) E-Wert bis zu dem Alignments als relevant angesehen werden sollen (Default: 10.0) Verwendete coring-matrix und Gapkosten (Default: BLOUM62, σ = 0, ρ = 0) Diese Parameter müssen BLAT sofern sie von den tandardeinstellungen abweichen an der Kommandozeile mitgegeben werden blastall verrät mögliche Parameter, wenn es ohne Kommandozeilenparameter aufgerufen wird, Details in der Übung 7

Interpretation der Ergebnisse BLAT erzeugt eine Menge Output, der erstmal interpretiert werden muss Ausgabe besteht aus einer oft recht langen Textdatei In der Ausgabe erscheinen Versionsnummer Eingabedaten Eine Liste aller Treffer Alle Treffer im Detail (inkl. Alignment) Wir werden uns dieses Format nun oberflächlich ansehen (Details: Übung) BLAT-Ausgabe BLATP 2.2.8 [Jan-05-2004] Reference: Altschul, tephen F., Thomas L. Madden, Alejandro A. chaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAT and PI-BLAT: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= 1HO:B CLA I ALCOHOL DEHYDROGENAE 1, ALPHA UBUNIT (374 letters) Database: Arabidopsis_chr1.fasta 7493 sequences; 3,192,001 total letters earching...done BLAT-Ausgabe core E equences producing significant alignments: (bits) Value ref NP_177837.1 alcohol dehydrogenase (ADH) 382 e-107 ref NP_564409.1 alcohol dehydrogenase,... 335 5e-93 ref NP_176652.2 alcohol dehydrogenase,... 320 3e-88 ref NP_173659.1 alcohol dehydrogenase,... 289 6e-79 ref NP_173660.1 alcohol dehydrogenase,... 286 5e-78 Der zweite Teil der Ausgabe enthält die Trefferliste Am Anfang jeder Zeile dieser Liste steht jeweils die ID (aus der FATA-Beschreibung) der equenz aus der Datenbank Die beiden letzten palten enthalten den Bit-core und den E- Wert für das zugehörige Alignment 8

BLAT-Ausgabe >ref NP_177837.1 alcohol dehydrogenase (ADH) [Arabidopsis thaliana] Length = 379 core = 382 bits (980), Expect = e-107 Identities = 190/374 (50%), Positives = 249/374 (66%), Gaps = 2/374 (0%) Query: 1 TAGKVIKCKAAVLWELKKPFIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVGTMVTP 60 T G++I+CKAAV WE KP IEEVEVAPP+ HEVRIK++ +C TD + TP bjct: 2 TTGQIIRCKAAVAWEAGKPLVIEEVEVAPPQKHEVRIKILFTLCHTDVYFWEAKGQTP 61 Query: 61 L-PVILGHEAAGIVEVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPENYCLKNDVNP 119 L P I GHEA GIVEVGEGVT ++PGD V+P+ +CG+CR C + EN C ++ bjct: 62 LFPRIFGHEAGGIVEVGEGVTDLQPGDHVLPIFTGECGECRHCHEENMCDLLRINTE 121 Query: 120 QG-TLQDGTRFTCRRKPIHHFLGITFQYTVVDENAVAKIDAAPLEKVCLIGCGFT 178 +G + DG RF+ KPI+HFLG TF+YTVV VAKI+ +PL+KVC++ CG T bjct: 122 RGGMIHDGERFINGKPIYHFLGTTFEYTVVHGQVAKINPDAPLDKVCIVCGLT 181 Query: 179 GYGAVNVAKVTPGTCAVFGLGGVGLAIMGCKAAGAARIIAVDINKDKFAKAKELGAT 238 G G+ +NVAK G + A+FGLG VGL A G + AGA+RII VD N +F +AKE G T bjct: 182 GLGATLNVAKPKKGQVAIFGLGAVGLGAAEGARIAGARIIGVDFNKRFDQAKEFGVT 241 Query: 239 ECINPQDYKKPIQEVLKEMTDGGVDFFEVIGRLDTMMALLCCHEACGTVIVGVPPD 298 EC+NP+D+ KPIQ+V+ EMTDGGVD E G + M+ + C H+ G +V+VGVP bjct: 242 ECVNPKDHDKPIQQVIAEMTDGGVDRVECTGVQAMIQAFECVHDGWGVAVLVGVPKD 301 BLAT und BioPython BioPython bietet viele Möglichkeiten BLAT direkt aus einem Python-Programm heraus aufzurufen und die Ergebnisse komfortabel auszulesen Dazu bietet BioPython einen BLAT-Output-Parser an (Parser = Code der bestimmte Dateiformate lesen und interpretieren kann) Damit kann man recht schnell Alignments berechnen, sortieren, miteinander vergleichen usw. Details zur Verwendung: Übung www.biopython.org Literatur + Links Merkl/Waak,. 128ff: etwas ausführlichere Grundlagen Korf, Yandell, Bedell: BLAT, O Reilly, 2003: alles was ie zu BLAT wissen müssen BLAT zum Herunterladen für praktisch alle Rechner (inkl. Windows: ia32-win32): ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.22/ 9