Bioinformatik für Biochemiker

Ähnliche Dokumente
BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler Oliver Kohlbacher Datenbanksuche Problem Beispiele

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Alignments & Datenbanksuchen

Alignments & Datenbanksuchen

7. Anhang. 7. Anhang. Abbildung 7.1: Aminosäuresequenz AtMYC2 im Wildtyp und in jin1. Unterschiede zwischen den Sequenzen sind rot unterlegt.

Proseminar Bioinformatik

Softwarewerkzeuge der Bioinformatik

Was ist Bioinformatik?

MBI: Sequenz-Vergleich mit Alignment

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Gleichheit, Ähnlichkeit, Homologie

Algorithmische Anwendungen WS 2005/2006

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Bioinformatik Für Biophysiker

Bioinformatik für Lebenswissenschaftler

Vorlesung Einführung in die Bioinformatik

Alignments & Datenbanksuchen

Bioinformatik Für Biophysiker

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak

BLAST Basic Local Alignment Search Tool

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

Threading - Algorithmen

Bioinformatik für Lebenswissenschaftler

Das Problem des Handlungsreisenden

Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks. Samira Jaeger

Mathematik in den Life Siences

Bayesianische Netzwerke - Lernen und Inferenz

Algorithmische Bioinformatik

Kapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11

5 Sortieren in eindimensionalen Zellularautomaten

Bioinformatik BLAT QUASAR. Ulf Leser Wissensmanagement in der. Bioinformatik

Klausur Bioinformatik für Biotechnologen

Softwareprojektpraktikum Maschinelle Übersetzung

Einführung in die Bioinformatik

2.7 Der Shannon-Fano-Elias Code

Algorithmische Bioinformatik 1

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

19. Dynamic Programming I

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Sequenzvergleich und Datenbanksuche

Bioinformatik Für Biophysiker

Vorbesprechung Seminar Biomedical Informatics

Bioinformatik für Lebenswissenschaftler

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

IR Seminar SoSe 2012 Martin Leinberger

Bioinformatische Suche nach pre-mirnas

Zustandsraumsuche: Blinde und Heuristische Suche. Blinde und Heuristische Suche

3.3 Laufzeit von Programmen

Übersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax

2. Hausübung Algorithmen und Datenstrukturen

Protein-Protein Bindungsstellen. Lennart Heinzerling

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Binomialverteilung Vertrauensbereich für den Anteil

Lineare Kongruenzgeneratoren und Quicksort

Anleitung: Standardabweichung

Signifikanz von Alignment Scores und BLAST

1. Was ist eine Wahrscheinlichkeit P(A)?

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Parallele und funktionale Programmierung Wintersemester 2016/ Übung Abgabe bis , 16:00 Uhr

Anleitung: Verbindung mit der Datenbank

Algorithmische Bioinformatik 1

Theoretische Grundlagen der Informatik

Wichtige Definitionen und Aussagen

37 Gauß-Algorithmus und lineare Gleichungssysteme

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

Synthese Eingebetteter Systeme. Übung 6

Statistik-Klausur vom

Dot-Matrix Methode. (Java) (Javascript) 80

Algorithmen und Datenstrukturen 2

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

R. Brinkmann Seite

BCDS Seminar. Protein Tools

Lösungsvorschlag Serie 2 Rekursion

9 Minimum Spanning Trees

Paarweises Sequenzalignment

2 Teil 2: Nassi-Schneiderman

Softwareprojektpraktikum Maschinelle Übersetzung

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag

Bachelorarbeit. Paarweise und multiple Alignments mit TBLASTX und DIALIGN

Hashfunktionen und Kollisionen

P, NP und NP -Vollständigkeit

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

Pollards Rho-Methode zur Faktorisierung

Bitte an das Labor weiterleiten Wichtige Produktinformation. WICHTIGER PRODUKT-SICHERHEITS- UND KORREKTURHINWEIS VITEK MS System: Einschränkungen

Praktische Übung. Die Lernplattformen ILIAS ist mit Stud.IP verbunden, sodass Sie Lernmodule dieser Plattform

Grundlagen der Bioinformatik Übung 6: Microarray Analysis. Yvonne Lichtblau

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker

Phylogenetische Analyse

Transkript:

Bioinformatik für Biochemiker Oliver Kohlbacher W 2009/2010 7. Datenbanksuche Abt. imulation biologischer ysteme WI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Datenbanksuche statt Alignment Heuristiken: schnell statt optimal BLAT Algorithmus & Komplexität ignifikanz von Alignments Anwendung & Ausgaben des Programms Beispiel 2 Datenbanksuche Problem Gegeben: eine equenz und eine equenzdatenbank Gesucht: ähnlichste Vorkommen der equenz in der Datenbank Beispiele uche nach dem nächsten Homologen in einem Genom Identifizierung einer unbekannten equenz Anfragesequenz Datenbanksequenz D 1

GenBank Wachstum Größe von Genbank wächst immer noch exponentiell an Derzeit sind über 99 Mio. equenzen mit ca. 99 Mrd. bp gespeichert http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html Komplexität von Datenbanksuche ucht man in großen Datensätzen nach einer equenz, ist dies naiv durch Berechnung des optimalen lokalen Alignments möglich Problem: Hauptspeicher! Zum Aufbau der DP-Matrix benötigt man O( D ) peicher ucht man eine DNA-equenz von 1.000 bp im menschlichen Genom (3 Gbp), so benötigt man 12.000 GB Hauptspeicher für die Matrix! uche mit mith-waterman ist auch recht langsam auf Datenbanken dieser Länge Heuristiken zur Datenbanksuche mith-waterman ist ein optimaler Algorithmus, d.h. er findet ein optimales Alignment In der Informatik verwendet man neben optimalen Algorithmen häufig auch Heuristiken Heuristiken sind Algorithmen, die oft suboptimale (aber meist hinreichend gute) Lösungen liefern, dafür aber weniger rechenaufwändig als optimale Algorithmen sind In der Datenbanksuche setzt man aus Geschwindigkeitsgründen ausschließlich Heuristiken ein Eines der wichtigsten Werkzeuge zur heuristischen uche ist BLAT 2

BLAT BLAT (Basic Local Alignment earch Tool) wurde 1990 von Altschul et al. vorgestellt Wir werden zunächst den Algorithmus anreißen, dann die Verwendung von BLAT sowie die Interpretation der Ergebnisse BLAT ist ein mehrstufiger Algorithmus: Zunächst werden Regionen der Datenbank identifiziert, die Treffer enthalten können Diese werden dann mit Hilfe eines lokalen Alignments näher untersucht Auffinden der interessanten Regionen ist sehr schnell möglich Anschließend müssen Alignments nur auf einem geringen Bruchteil der Datenbank berechnet werden ) deutlicher Geschwindigkeitsgewinn! Altschul F, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. (1990), 215(3):403-10. BLAT Grundidee: Eine zur Anfrage ähnliche equenz in der Datenbank besitzt auch kurze Teilsequenzen (ohne Gaps), die zu Teilsequenzen der Datenbank ähnlich sind Finde kurze ubstrings in der Datenbank, die zu ubstrings der Anfrage sehr ähnlich sind Treten diese an einer telle gehäuft auf, haben wir vermutlich die Anfrage gefunden Anfragesequenz Datenbanksequenz D BLAT w-mere BLAT basiert auf so genannten w-meren, Worten der Länge w BLAT versucht in D alle Vorkommen kurzer Worte zu identifizieren, die ausreichend ähnlich zu gleich langen Worten aus sind Beispiel: w = 2 = RQCAGW Alle 2-mere in : RQ, QC, C, A, AG, GW Mit BLOUM62 erzielen folgende 2-mere einen core > 8, wenn sie mit den 2-meren aus verglichen werden: RQ: QC: C: RQ QC, RC, EC, NC, DC, HC, KC, MC, C C, CA, CN, CD, CQ, CE, CG, CK, CT 3

BLAT w-mere Für jede Anfrage konstruiert BLAT zunächst eine Liste aller in vorkommenden w-mere, dann eine Liste aller dazu ähnlichen w-mere (gemäß coringmatrix) Nach diesen w-meren wird dann in D gesucht Da keine Gaps zugelassen werden und nur direkte Identität mit sehr kurzen equenzen getestet werden muss, geht dies sehr schnell w-mere aus Ähnliche k-mere Treffer in D Treffer in D Datenbanksequenz D BLAT Hits Treffer (hits) in der Datenbank deuten auf Regionen hin, in denen evtl. Ähnlichkeit zur Anfragesequenz besteht tarke Ähnlichkeit = viele Treffer nah beieinander Ähnlichkeit bedingt aber auch richtige Reihenfolge der Treffer Diagonalen! D BLAT HPs Im zweiten chritt wird nun nach Paaren von Treffern gesucht, die auf der selben Diagonalen liegen und einen gewissen Höchstabstand in D nicht überschreiten Diese Paare werden als HPs (high-scoring pairs) bezeichnet D 4

BLAT Alignment HPs werden durch lokale Alignments erweitert soweit möglich (Abbruch, wenn core unter Grenzwert fällt) Alignment wird dabei nur auf den Regionen um HPs herum berechnet (seeds) Alignment kann lokal recht effizient (ähnlich mith- Waterman) berechnet werden D BLAT Auswertung Nicht signifikante Alignments werden verworfen Alignments die ausreichend gute cores liefern, werden beibehalten Diese entsprechenden lokalen Alignments werden dann von BLAT als Ergebnis ausgegeben Alle möglichen Alignments werden dabei nach ihrer statistischen ignifikanz bewertet und sortiert D tatistik Wann ist eine equenzsuche erfolgreich? Wie unterscheidet man sinnvolle Alignments von solchen die durch Zufall entstanden sind? Wann ist ein Alignment statistisch signifikant? Es gibt eine Reihe von Größen, die zur Entscheidung dieser Fragen herangezogen werden equenzidentität Ähnlichkeit (raw score) Bit-core (normalisierter core) E-Wert (E-value) Oft geht man davon aus, dass equenzidentität über 25-30% funktionelle und strukturelle Ähnlichkeit der Proteine impliziert 5

Bit-core Da der unbereinigte core (raw score) eines Alignments von der Länge der equenzen, der verwendeten coringmatrix und Gapkostenfunktion abhängt, ist der Vergleich der Raw-cores nicht aussagekräftig Karlin und Altschul haben eine Normalisierung vorgeschlagen, der die Ergebnisse untereinander besser vergleichbar macht, den so genannten Bit-core s, der sich wie folgt aus dem Raw-core s berechnet: Karlin-Altschul-Parameter λ und K ergeben sich dabei jeweils aus der verwendeten coringfunktion E-Werte Der E-Wert ist die wichtigste statistische Größe bei der Bewertung eines BLAT-Ergebnisses Er trifft eine Aussage über die statistische ignifikanz des Alignments, d.h. wie wahrscheinlich es ist, dass die Ähnlichkeit der beiden equenzen ein zufälliges Ergebnis ist Berechnung des E-Werts basiert auf den Bit-cores: Genauer betrachtet ist der E-Wert E(s) der Erwartungswert für die Anzahl der Alignments mit core s die sich zufällig ergeben E-Werte Für die Wahrscheinlichkeit P(s ), dass ein Alignment mit einem core von s oder besser zufällig zu finden ergibt sich dann: E-Wert kann Werte zwischen Null und unendlich annehmen ehr kleine E-Werte bedeuten natürlich ein statistisch signifikanteres Alignment Gute Alignments haben sehr kleine E-Werte (z.b. 0.001) Alignments mit größeren E-Werten sind nicht als relevant anzusehen 6

Vorbereitung BLAT erfordert eine Vorbereitung der equenzdatenbank bevor die uche gestartet werden kann Dabei werden die equenzen aus einem beliebigen Format (z.b. FATA) in ein spezielles BLAT-Format umgewandelt und zusätzliche Index-trukturen angelegt Dies erledigt das Programm formatdb Die Vorbereitung einer Datenbank muss nur einmal durchgeführt werden, danach können beliebig viele uchen damit durchgeführt werden Ändert sich die Datenbank, muss formatdb natürlich wieder neu ausgeführt werden Details zur Verwendung in der Übung Aufruf von BLAT Von BLAT existieren eine Reihe von Varianten, je nachdem was und worin gesucht werden soll: blastp Proteinsequenz in Protein-DB blastn NA-equenz in NA-DB blastx alle Translationen einer NA-equenz in Protein-DB tblastn eine Proteinsequenz gegen alle sechs übersetzten Leserahmen einer NA-DB tblastx alle sechs Translationen einer NA-equenz gegen alle entsprechenden Translationen einer NA-DB (sehr rechenaufwändig!) Aktuelle Versionen von BLAT vereinen dies in einem einzigen Programm (blastall), dem man den Namen der BLAT- Variante als Kommandozeilenparameter mitgibt: Beispiel: blastall p blastp sucht eine Proteinsequenz in einer Proteindatenbank Parameter BLAT hat natürlich jede Menge an Parametern, die das Verhalten des Algorithmus bestimmen Relevant sind in erster Linie Wortlänge w (Default: 3 für Proteine, 11 für NA) E-Wert bis zu dem Alignments als relevant angesehen werden sollen (Default: 10.0) Verwendete coring-matrix und Gapkosten (Default: BLOUM62, σ = 0, ρ = 0) Diese Parameter müssen BLAT sofern sie von den tandardeinstellungen abweichen an der Kommandozeile mitgegeben werden blastall verrät mögliche Parameter, wenn es ohne Kommandozeilenparameter aufgerufen wird, Details in der Übung 7

Interpretation der Ergebnisse BLAT erzeugt eine Menge Output, der erstmal interpretiert werden muss Ausgabe besteht aus einer oft recht langen Textdatei In der Ausgabe erscheinen Versionsnummer Eingabedaten Eine Liste aller Treffer Alle Treffer im Detail (inkl. Alignment) Wir werden uns dieses Format nun oberflächlich ansehen (Details: Übung) BLAT-Ausgabe BLATP 2.2.8 [Jan-05-2004] Reference: Altschul, tephen F., Thomas L. Madden, Alejandro A. chaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAT and PI-BLAT: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= 1HO:B CLA I ALCOHOL DEHYDROGENAE 1, ALPHA UBUNIT (374 letters) Database: Arabidopsis_chr1.fasta 7493 sequences; 3,192,001 total letters earching...done BLAT-Ausgabe core E equences producing significant alignments: (bits) Value ref NP_177837.1 alcohol dehydrogenase (ADH) 382 e-107 ref NP_564409.1 alcohol dehydrogenase,... 335 5e-93 ref NP_176652.2 alcohol dehydrogenase,... 320 3e-88 ref NP_173659.1 alcohol dehydrogenase,... 289 6e-79 ref NP_173660.1 alcohol dehydrogenase,... 286 5e-78 Der zweite Teil der Ausgabe enthält die Trefferliste Am Anfang jeder Zeile dieser Liste steht jeweils die ID (aus der FATA-Beschreibung) der equenz aus der Datenbank Die beiden letzten palten enthalten den Bit-core und den E- Wert für das zugehörige Alignment 8

BLAT-Ausgabe >ref NP_177837.1 alcohol dehydrogenase (ADH) [Arabidopsis thaliana] Length = 379 core = 382 bits (980), Expect = e-107 Identities = 190/374 (50%), Positives = 249/374 (66%), Gaps = 2/374 (0%) Query: 1 TAGKVIKCKAAVLWELKKPFIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVGTMVTP 60 T G++I+CKAAV WE KP IEEVEVAPP+ HEVRIK++ +C TD + TP bjct: 2 TTGQIIRCKAAVAWEAGKPLVIEEVEVAPPQKHEVRIKILFTLCHTDVYFWEAKGQTP 61 Query: 61 L-PVILGHEAAGIVEVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPENYCLKNDVNP 119 L P I GHEA GIVEVGEGVT ++PGD V+P+ +CG+CR C + EN C ++ bjct: 62 LFPRIFGHEAGGIVEVGEGVTDLQPGDHVLPIFTGECGECRHCHEENMCDLLRINTE 121 Query: 120 QG-TLQDGTRFTCRRKPIHHFLGITFQYTVVDENAVAKIDAAPLEKVCLIGCGFT 178 +G + DG RF+ KPI+HFLG TF+YTVV VAKI+ +PL+KVC++ CG T bjct: 122 RGGMIHDGERFINGKPIYHFLGTTFEYTVVHGQVAKINPDAPLDKVCIVCGLT 181 Query: 179 GYGAVNVAKVTPGTCAVFGLGGVGLAIMGCKAAGAARIIAVDINKDKFAKAKELGAT 238 G G+ +NVAK G + A+FGLG VGL A G + AGA+RII VD N +F +AKE G T bjct: 182 GLGATLNVAKPKKGQVAIFGLGAVGLGAAEGARIAGARIIGVDFNKRFDQAKEFGVT 241 Query: 239 ECINPQDYKKPIQEVLKEMTDGGVDFFEVIGRLDTMMALLCCHEACGTVIVGVPPD 298 EC+NP+D+ KPIQ+V+ EMTDGGVD E G + M+ + C H+ G +V+VGVP bjct: 242 ECVNPKDHDKPIQQVIAEMTDGGVDRVECTGVQAMIQAFECVHDGWGVAVLVGVPKD 301 BLAT und BioPython BioPython bietet viele Möglichkeiten BLAT direkt aus einem Python-Programm heraus aufzurufen und die Ergebnisse komfortabel auszulesen Dazu bietet BioPython einen BLAT-Output-Parser an (Parser = Code der bestimmte Dateiformate lesen und interpretieren kann) Damit kann man recht schnell Alignments berechnen, sortieren, miteinander vergleichen usw. Details zur Verwendung: Übung www.biopython.org Literatur + Links Merkl/Waak,. 128ff: etwas ausführlichere Grundlagen Korf, Yandell, Bedell: BLAT, O Reilly, 2003: alles was ie zu BLAT wissen müssen BLAT zum Herunterladen für praktisch alle Rechner (inkl. Windows: ia32-win32): ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.22/ 9