Bioinformatik für Biochemiker
|
|
- Erika Kuntz
- vor 7 Jahren
- Abrufe
Transkript
1 Bioinformatik für Biochemiker Oliver Kohlbacher W 2009/ Datenbanksuche Abt. imulation biologischer ysteme WI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Datenbanksuche statt Alignment Heuristiken: schnell statt optimal BLAT Algorithmus & Komplexität ignifikanz von Alignments Anwendung & Ausgaben des Programms Beispiel 2 Datenbanksuche Problem Gegeben: eine equenz und eine equenzdatenbank Gesucht: ähnlichste Vorkommen der equenz in der Datenbank Beispiele uche nach dem nächsten Homologen in einem Genom Identifizierung einer unbekannten equenz Anfragesequenz Datenbanksequenz D 1
2 GenBank Wachstum Größe von Genbank wächst immer noch exponentiell an Derzeit sind über 99 Mio. equenzen mit ca. 99 Mrd. bp gespeichert Komplexität von Datenbanksuche ucht man in großen Datensätzen nach einer equenz, ist dies naiv durch Berechnung des optimalen lokalen Alignments möglich Problem: Hauptspeicher! Zum Aufbau der DP-Matrix benötigt man O( D ) peicher ucht man eine DNA-equenz von bp im menschlichen Genom (3 Gbp), so benötigt man GB Hauptspeicher für die Matrix! uche mit mith-waterman ist auch recht langsam auf Datenbanken dieser Länge Heuristiken zur Datenbanksuche mith-waterman ist ein optimaler Algorithmus, d.h. er findet ein optimales Alignment In der Informatik verwendet man neben optimalen Algorithmen häufig auch Heuristiken Heuristiken sind Algorithmen, die oft suboptimale (aber meist hinreichend gute) Lösungen liefern, dafür aber weniger rechenaufwändig als optimale Algorithmen sind In der Datenbanksuche setzt man aus Geschwindigkeitsgründen ausschließlich Heuristiken ein Eines der wichtigsten Werkzeuge zur heuristischen uche ist BLAT 2
3 BLAT BLAT (Basic Local Alignment earch Tool) wurde 1990 von Altschul et al. vorgestellt Wir werden zunächst den Algorithmus anreißen, dann die Verwendung von BLAT sowie die Interpretation der Ergebnisse BLAT ist ein mehrstufiger Algorithmus: Zunächst werden Regionen der Datenbank identifiziert, die Treffer enthalten können Diese werden dann mit Hilfe eines lokalen Alignments näher untersucht Auffinden der interessanten Regionen ist sehr schnell möglich Anschließend müssen Alignments nur auf einem geringen Bruchteil der Datenbank berechnet werden ) deutlicher Geschwindigkeitsgewinn! Altschul F, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. (1990), 215(3): BLAT Grundidee: Eine zur Anfrage ähnliche equenz in der Datenbank besitzt auch kurze Teilsequenzen (ohne Gaps), die zu Teilsequenzen der Datenbank ähnlich sind Finde kurze ubstrings in der Datenbank, die zu ubstrings der Anfrage sehr ähnlich sind Treten diese an einer telle gehäuft auf, haben wir vermutlich die Anfrage gefunden Anfragesequenz Datenbanksequenz D BLAT w-mere BLAT basiert auf so genannten w-meren, Worten der Länge w BLAT versucht in D alle Vorkommen kurzer Worte zu identifizieren, die ausreichend ähnlich zu gleich langen Worten aus sind Beispiel: w = 2 = RQCAGW Alle 2-mere in : RQ, QC, C, A, AG, GW Mit BLOUM62 erzielen folgende 2-mere einen core > 8, wenn sie mit den 2-meren aus verglichen werden: RQ: QC: C: RQ QC, RC, EC, NC, DC, HC, KC, MC, C C, CA, CN, CD, CQ, CE, CG, CK, CT 3
4 BLAT w-mere Für jede Anfrage konstruiert BLAT zunächst eine Liste aller in vorkommenden w-mere, dann eine Liste aller dazu ähnlichen w-mere (gemäß coringmatrix) Nach diesen w-meren wird dann in D gesucht Da keine Gaps zugelassen werden und nur direkte Identität mit sehr kurzen equenzen getestet werden muss, geht dies sehr schnell w-mere aus Ähnliche k-mere Treffer in D Treffer in D Datenbanksequenz D BLAT Hits Treffer (hits) in der Datenbank deuten auf Regionen hin, in denen evtl. Ähnlichkeit zur Anfragesequenz besteht tarke Ähnlichkeit = viele Treffer nah beieinander Ähnlichkeit bedingt aber auch richtige Reihenfolge der Treffer Diagonalen! D BLAT HPs Im zweiten chritt wird nun nach Paaren von Treffern gesucht, die auf der selben Diagonalen liegen und einen gewissen Höchstabstand in D nicht überschreiten Diese Paare werden als HPs (high-scoring pairs) bezeichnet D 4
5 BLAT Alignment HPs werden durch lokale Alignments erweitert soweit möglich (Abbruch, wenn core unter Grenzwert fällt) Alignment wird dabei nur auf den Regionen um HPs herum berechnet (seeds) Alignment kann lokal recht effizient (ähnlich mith- Waterman) berechnet werden D BLAT Auswertung Nicht signifikante Alignments werden verworfen Alignments die ausreichend gute cores liefern, werden beibehalten Diese entsprechenden lokalen Alignments werden dann von BLAT als Ergebnis ausgegeben Alle möglichen Alignments werden dabei nach ihrer statistischen ignifikanz bewertet und sortiert D tatistik Wann ist eine equenzsuche erfolgreich? Wie unterscheidet man sinnvolle Alignments von solchen die durch Zufall entstanden sind? Wann ist ein Alignment statistisch signifikant? Es gibt eine Reihe von Größen, die zur Entscheidung dieser Fragen herangezogen werden equenzidentität Ähnlichkeit (raw score) Bit-core (normalisierter core) E-Wert (E-value) Oft geht man davon aus, dass equenzidentität über 25-30% funktionelle und strukturelle Ähnlichkeit der Proteine impliziert 5
6 Bit-core Da der unbereinigte core (raw score) eines Alignments von der Länge der equenzen, der verwendeten coringmatrix und Gapkostenfunktion abhängt, ist der Vergleich der Raw-cores nicht aussagekräftig Karlin und Altschul haben eine Normalisierung vorgeschlagen, der die Ergebnisse untereinander besser vergleichbar macht, den so genannten Bit-core s, der sich wie folgt aus dem Raw-core s berechnet: Karlin-Altschul-Parameter λ und K ergeben sich dabei jeweils aus der verwendeten coringfunktion E-Werte Der E-Wert ist die wichtigste statistische Größe bei der Bewertung eines BLAT-Ergebnisses Er trifft eine Aussage über die statistische ignifikanz des Alignments, d.h. wie wahrscheinlich es ist, dass die Ähnlichkeit der beiden equenzen ein zufälliges Ergebnis ist Berechnung des E-Werts basiert auf den Bit-cores: Genauer betrachtet ist der E-Wert E(s) der Erwartungswert für die Anzahl der Alignments mit core s die sich zufällig ergeben E-Werte Für die Wahrscheinlichkeit P(s ), dass ein Alignment mit einem core von s oder besser zufällig zu finden ergibt sich dann: E-Wert kann Werte zwischen Null und unendlich annehmen ehr kleine E-Werte bedeuten natürlich ein statistisch signifikanteres Alignment Gute Alignments haben sehr kleine E-Werte (z.b ) Alignments mit größeren E-Werten sind nicht als relevant anzusehen 6
7 Vorbereitung BLAT erfordert eine Vorbereitung der equenzdatenbank bevor die uche gestartet werden kann Dabei werden die equenzen aus einem beliebigen Format (z.b. FATA) in ein spezielles BLAT-Format umgewandelt und zusätzliche Index-trukturen angelegt Dies erledigt das Programm formatdb Die Vorbereitung einer Datenbank muss nur einmal durchgeführt werden, danach können beliebig viele uchen damit durchgeführt werden Ändert sich die Datenbank, muss formatdb natürlich wieder neu ausgeführt werden Details zur Verwendung in der Übung Aufruf von BLAT Von BLAT existieren eine Reihe von Varianten, je nachdem was und worin gesucht werden soll: blastp Proteinsequenz in Protein-DB blastn NA-equenz in NA-DB blastx alle Translationen einer NA-equenz in Protein-DB tblastn eine Proteinsequenz gegen alle sechs übersetzten Leserahmen einer NA-DB tblastx alle sechs Translationen einer NA-equenz gegen alle entsprechenden Translationen einer NA-DB (sehr rechenaufwändig!) Aktuelle Versionen von BLAT vereinen dies in einem einzigen Programm (blastall), dem man den Namen der BLAT- Variante als Kommandozeilenparameter mitgibt: Beispiel: blastall p blastp sucht eine Proteinsequenz in einer Proteindatenbank Parameter BLAT hat natürlich jede Menge an Parametern, die das Verhalten des Algorithmus bestimmen Relevant sind in erster Linie Wortlänge w (Default: 3 für Proteine, 11 für NA) E-Wert bis zu dem Alignments als relevant angesehen werden sollen (Default: 10.0) Verwendete coring-matrix und Gapkosten (Default: BLOUM62, σ = 0, ρ = 0) Diese Parameter müssen BLAT sofern sie von den tandardeinstellungen abweichen an der Kommandozeile mitgegeben werden blastall verrät mögliche Parameter, wenn es ohne Kommandozeilenparameter aufgerufen wird, Details in der Übung 7
8 Interpretation der Ergebnisse BLAT erzeugt eine Menge Output, der erstmal interpretiert werden muss Ausgabe besteht aus einer oft recht langen Textdatei In der Ausgabe erscheinen Versionsnummer Eingabedaten Eine Liste aller Treffer Alle Treffer im Detail (inkl. Alignment) Wir werden uns dieses Format nun oberflächlich ansehen (Details: Übung) BLAT-Ausgabe BLATP [Jan ] Reference: Altschul, tephen F., Thomas L. Madden, Alejandro A. chaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAT and PI-BLAT: a new generation of protein database search programs", Nucleic Acids Res. 25: Query= 1HO:B CLA I ALCOHOL DEHYDROGENAE 1, ALPHA UBUNIT (374 letters) Database: Arabidopsis_chr1.fasta 7493 sequences; 3,192,001 total letters earching...done BLAT-Ausgabe core E equences producing significant alignments: (bits) Value ref NP_ alcohol dehydrogenase (ADH) 382 e-107 ref NP_ alcohol dehydrogenase, e-93 ref NP_ alcohol dehydrogenase, e-88 ref NP_ alcohol dehydrogenase, e-79 ref NP_ alcohol dehydrogenase, e-78 Der zweite Teil der Ausgabe enthält die Trefferliste Am Anfang jeder Zeile dieser Liste steht jeweils die ID (aus der FATA-Beschreibung) der equenz aus der Datenbank Die beiden letzten palten enthalten den Bit-core und den E- Wert für das zugehörige Alignment 8
9 BLAT-Ausgabe >ref NP_ alcohol dehydrogenase (ADH) [Arabidopsis thaliana] Length = 379 core = 382 bits (980), Expect = e-107 Identities = 190/374 (50%), Positives = 249/374 (66%), Gaps = 2/374 (0%) Query: 1 TAGKVIKCKAAVLWELKKPFIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVGTMVTP 60 T G++I+CKAAV WE KP IEEVEVAPP+ HEVRIK++ +C TD + TP bjct: 2 TTGQIIRCKAAVAWEAGKPLVIEEVEVAPPQKHEVRIKILFTLCHTDVYFWEAKGQTP 61 Query: 61 L-PVILGHEAAGIVEVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPENYCLKNDVNP 119 L P I GHEA GIVEVGEGVT ++PGD V+P+ +CG+CR C + EN C ++ bjct: 62 LFPRIFGHEAGGIVEVGEGVTDLQPGDHVLPIFTGECGECRHCHEENMCDLLRINTE 121 Query: 120 QG-TLQDGTRFTCRRKPIHHFLGITFQYTVVDENAVAKIDAAPLEKVCLIGCGFT 178 +G + DG RF+ KPI+HFLG TF+YTVV VAKI+ +PL+KVC++ CG T bjct: 122 RGGMIHDGERFINGKPIYHFLGTTFEYTVVHGQVAKINPDAPLDKVCIVCGLT 181 Query: 179 GYGAVNVAKVTPGTCAVFGLGGVGLAIMGCKAAGAARIIAVDINKDKFAKAKELGAT 238 G G+ +NVAK G + A+FGLG VGL A G + AGA+RII VD N +F +AKE G T bjct: 182 GLGATLNVAKPKKGQVAIFGLGAVGLGAAEGARIAGARIIGVDFNKRFDQAKEFGVT 241 Query: 239 ECINPQDYKKPIQEVLKEMTDGGVDFFEVIGRLDTMMALLCCHEACGTVIVGVPPD 298 EC+NP+D+ KPIQ+V+ EMTDGGVD E G + M+ + C H+ G +V+VGVP bjct: 242 ECVNPKDHDKPIQQVIAEMTDGGVDRVECTGVQAMIQAFECVHDGWGVAVLVGVPKD 301 BLAT und BioPython BioPython bietet viele Möglichkeiten BLAT direkt aus einem Python-Programm heraus aufzurufen und die Ergebnisse komfortabel auszulesen Dazu bietet BioPython einen BLAT-Output-Parser an (Parser = Code der bestimmte Dateiformate lesen und interpretieren kann) Damit kann man recht schnell Alignments berechnen, sortieren, miteinander vergleichen usw. Details zur Verwendung: Übung Literatur + Links Merkl/Waak,. 128ff: etwas ausführlichere Grundlagen Korf, Yandell, Bedell: BLAT, O Reilly, 2003: alles was ie zu BLAT wissen müssen BLAT zum Herunterladen für praktisch alle Rechner (inkl. Windows: ia32-win32): ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.22/ 9
BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler Oliver Kohlbacher Datenbanksuche Problem Beispiele
BIOINF 1910 Bioinforma1k für Lebenswissenscha;ler Oliver Kohlbacher SS 2011 08. Datenbanksuche: BLAST und PSI- BLAST Datenbanksuche Problem Gegeben: eine Sequenz und eine Sequenzdatenbank Gesucht: ähnlichste
MehrBioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in
MehrAlignments & Datenbanksuchen
WS2015/2016 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...
MehrAlignments & Datenbanksuchen
WS2017/2018 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignments & Datenbanksuchen 1 break-thru Doolittle et al. 1983, Waterfield et al. 1983 > DB-Suche...
Mehr7. Anhang. 7. Anhang. Abbildung 7.1: Aminosäuresequenz AtMYC2 im Wildtyp und in jin1. Unterschiede zwischen den Sequenzen sind rot unterlegt.
7. Anhang 10 20 30 40 50 60 70 80 90 100 jin1 MTDYRLQPTMNLWTTDDNASMMEAFMSSSDISTLWPPASTTTTTATTETTPTPAMEIPAQAGFNQETLQQRLQALIEGTHEGWTYAIFWQPSYDFSGASV AtMYC2 MTDYRLQPTMNLWTTDDNASMMEAFMSSSDISTLWPPASTTTTTATTETTPTPAMEIPAQAGFNQETLQQRLQALIEGTHEGWTYAIFWQPSYDFSGASV
MehrProseminar Bioinformatik
Proseminar Bioinformatik Thema Algorithmic Concepsts for Searching in Biological Databases von Uwe Altermann 30.05.2009 1 Einführung Im Folgenden soll ein Überblick über die verschiedenen algorithmischen
MehrSoftwarewerkzeuge der Bioinformatik
Bioinformatik Wintersemester 2006/2007 Tutorial 2: paarweise Sequenzaligments BLAST Tutorial 2: BLAST 1/22 Alignment Ausrichten zweier oder mehrerer Sequenzen, um: ihre Ähnlichkeit quantitativ zu erfassen
MehrWas ist Bioinformatik?
9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die
MehrMBI: Sequenz-Vergleich mit Alignment
MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik
MehrBioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:
MehrGleichheit, Ähnlichkeit, Homologie
Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren
MehrAlgorithmische Anwendungen WS 2005/2006
Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................
MehrMultiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-
MehrÜbungsaufgaben zur Einführung in die Bioinformatik - Lösungen
18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was
MehrBLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02
BLAST Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST (Basic Local Alignment Search Tool) hat seit seiner Veröffentlichung, von Altschul et al. im Jahre 1990, an großer Relevanz
MehrZentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)
Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 06. Paarweises Alignment Teil II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
MehrVorlesung Einführung in die Bioinformatik
Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen
MehrAlignments & Datenbanksuchen
WS2016/2017 F1-Praktikum Genomforschung und Sequenzanalyse: Einführung in Methoden der Bioinformatik Thomas Hankeln Alignments & Datenbanksuchen 1 Wiederholung Alignments Dynamic Programming Needleman-Wunsch:
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik
MehrStudiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel
Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?
MehrAlgorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments
Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung Bisher: Berechnung
MehrPrimärstruktur. Wintersemester 2011/12. Peter Güntert
Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie
MehrAlgorithmen für paarweise Sequenz-Alignments. Katharina Hembach
Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.
MehrMOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche
MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank
MehrAufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik
Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution
MehrMOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche
MOL.504 Analyse von DNA- und Proteinsequenzen Übungsaufgaben BLAST-Sequenzsuche und -vergleiche Ü6a blastn und blastx Verwenden Sie die in Übung 3 (Datenbanken) gefundene yqjm-sequenz aus Bacillus subtilis
MehrFOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak
FOLDALIGN und sein Algorithmus Nadine Boley Silke Szymczak Gliederung 2 Einleitung Motivation des Ansatzes zu FOLDALIGN Sankoff-Algorithmus Globales Alignment Zuker-Algorithmus Kombination FOLDALIGN Algorithmus,
MehrBLAST Basic Local Alignment Search Tool
BLAST Basic Local Alignment Search Tool Martin Winkels 21.12.2012 wissen leben WWU Münster Institut für Medizinische Informatik Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis 1 Einleitung 2 2
MehrBLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel
Datenbanksuche mit BLAST BLAST Genomische Datenanalyse 10. Kapitel http://www.ncbi.nlm.nih.gov/blast/ Statistische Fragen Datenbanksuche Query Kann die globale Sequenzähnlichkeit eine Zufallsfluktuation
MehrThreading - Algorithmen
Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 10. Multiples Alignment II & PSI-BLAST Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen
MehrDas Problem des Handlungsreisenden
Seite 1 Das Problem des Handlungsreisenden Abbildung 1: Alle möglichen Rundreisen für 4 Städte Das TSP-Problem tritt in der Praxis in vielen Anwendungen als Teilproblem auf. Hierzu gehören z.b. Optimierungsprobleme
MehrExercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks. Samira Jaeger
Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks Samira Jaeger Aufgabe 1 Netzwerkzentralität (6P) In der Vorlesung haben Degree Centrality besprochen. Finde drei weitere
MehrMathematik in den Life Siences
Gerhard Keller Mathematik in den Life Siences Grundlagen der Modellbildung und Statistik mit einer Einführung in die Statistik-Software R 49 Abbildungen Verlag Eugen Ulmer Stuttgart Inhaltsverzeichnis
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands
MehrKapitel 1. Exakte Suche nach einem Wort. R. Stiebe: Textalgorithmen, WS 2003/04 11
Kapitel 1 Exakte Suche nach einem Wort R. Stiebe: Textalgorithmen, WS 2003/04 11 Überblick Aufgabenstellung Gegeben: Text T Σ, Suchwort Σ mit T = n, = m, Σ = σ Gesucht: alle Vorkommen von in T Es gibt
Mehr5 Sortieren in eindimensionalen Zellularautomaten
5 Sortieren in eindimensionalen Zellularautomaten 5.1 Für alle x A und w A bezeichne im folgenden N x (w) die Anzahl der Vorkommen des Symboles x in dem Wort w. 5.2 Problem. (Eindimensionales Sortieren
MehrBioinformatik BLAT QUASAR. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAT QUASAR Ulf Leser Wissensmanagement in der Bioinformatik Exklusionsmethode BYP Alignment zweier Strings A,B dauert O(n*m) K-Band Algorithmus benötigt O(sn 2 -vn) für A = B Gutes Verfahren,
MehrKlausur Bioinformatik für Biotechnologen
Name, Vorname: 1 Klausur Bioinformatik für Biotechnologen Studiengang Molekulare Biotechnologie TU Dresden WS 2011/2012 Prof. Michael Schroeder 15.02.2012 Die Dauer der Klausur beträgt 90 Minuten. Bitte
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik SS 2013 1. Was ist Bioinformatik? Kay Nieselt Integrative Transkriptomik Zentrum für Bioinformatik Tübingen Kay.Nieselt@uni-tuebingen.de Ablauf und Formales Ringvorlesung
Mehr2.7 Der Shannon-Fano-Elias Code
2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises
MehrAdaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff
Adaptive Systeme Evolutionäre Algorithmen: Überlebenskampf und Evolutionäre Strategien Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff Überblick Einleitung Adaptive Filter Künstliche
Mehr19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
MehrSPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN
SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie
MehrSequenzvergleich und Datenbanksuche
Sequenzvergleich und Datenbanksuche Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Wintersemester 2006 / 2007 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik
MehrVorbesprechung Seminar Biomedical Informatics
Vorbesprechung Martin Dugas und Xiaoyi Jiang Institut für Informatik Sommersemester 2016 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Blockseminar Anfang/Mitte
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 5. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
MehrAlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico
AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren
MehrIhre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.
Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2016/2017: Bioinformatik - Übung 1 Erstellen Sie vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern kö nnen (z.b.
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrBioinformatische Suche nach pre-mirnas
Bioinformatische Suche nach pre-mirnas Vorbereitung: Lesen Sie die Publikationen Meyers et al., 2008, Criteria for Annotation of Plant MicroRNAs und Thieme et al., 2011, SplamiR prediction of spliced mirnas
MehrZustandsraumsuche: Blinde und Heuristische Suche. Blinde und Heuristische Suche
Zustandsraumsuche: Blinde und Heuristische Suche Einführung in die KI Übungsstunde am 01.11.04 Benmin Altmeyer 1 Heute im Angebot Was ist Suche? Suche als Probemlösung Zustandsraumsuche Vollständigkeit
Mehr3.3 Laufzeit von Programmen
3.3 Laufzeit von Programmen Die Laufzeit eines Programmes T(n) messen wir als die Zahl der Befehle, die für die Eingabe n abgearbeitet werden Betrachten wir unser Programm zur Berechnung von Zweierpotenzen,
MehrÜbersicht. Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax
Indizierung Lucene Übersicht Grundidee des Indexing Lucene Wichtige Methoden und Klassen Lucene Indizierungsbeispiele Lucene Suchbeispiele Lucene QueryParser Syntax Grundideen und Ziel des Indexing Effizientes
Mehr2. Hausübung Algorithmen und Datenstrukturen
Prof. Dr. Gerd Stumme, Folke Eisterlehner, Dominik Benz Fachgebiet Wissensverarbeitung 7.4.009. Hausübung Algorithmen und Datenstrukturen Sommersemester 009 Abgabetermin: Montag, 04.05.009, 10:00 Uhr 1
MehrProtein-Protein Bindungsstellen. Lennart Heinzerling
Protein-Protein Bindungsstellen Lennart Heinzerling 1 Worum geht es in den nächsten 45 Minuten? Auffinden von Protein- Protein Komplexen aus einer großen Menge potentieller Komplexe z.b. für -Interaction
MehrAlignment-Verfahren zum Vergleich biologischer Sequenzen
zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen
MehrBinomialverteilung Vertrauensbereich für den Anteil
Übungen mit dem Applet Binomialverteilung Vertrauensbereich für den Anteil Binomialverteilung Vertrauensbereich für den Anteil 1. Statistischer Hintergrund und Darstellung.... Wie entsteht der Vertrauensbereich?...
MehrLineare Kongruenzgeneratoren und Quicksort
Seminar Perlen der theoretischen Informatik Dozenten: Prof. Johannes Köbler und Olaf Beyersdorff Lineare Kongruenzgeneratoren und Quicksort Ausarbeitung zum Vortrag Mia Viktoria Meyer 12. November 2002
MehrAnleitung: Standardabweichung
Anleitung: Standardabweichung So kann man mit dem V200 Erwartungswert und Varianz bzw. Standardabweichung bei Binomialverteilungen für bestimmte Werte von n, aber für allgemeines p nach der allgemeinen
MehrSignifikanz von Alignment Scores und BLAST
Westfälische Wilhelms Universität Münster Fachbereich 10 - Mathematik und Informatik Signifikanz von Alignment Scores und BLAST Seminarvortrag von Leonie Zeune 10. Mai 2012 Veranstaltung: Seminar zur mathematischen
Mehr1. Was ist eine Wahrscheinlichkeit P(A)?
1. Was ist eine Wahrscheinlichkeit P(A)? Als Wahrscheinlichkeit verwenden wir ein Maß, welches die gleichen Eigenschaften wie die relative Häufigkeit h n () besitzt, aber nicht zufallsbehaftet ist. Jan
MehrStatistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe
Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,
MehrParallele und funktionale Programmierung Wintersemester 2016/ Übung Abgabe bis , 16:00 Uhr
4. Übung Abgabe bis 25.11.2016, 16:00 Uhr Aufgabe 4.1: Verklemmungsbedingungen a) Welche drei Bedingungen müssen gelten, damit es zu einer Verklemmung in einem parallelen System kommen kann? b) Nach welcher
MehrAnleitung: Verbindung mit der Datenbank
Anleitung: Verbindung mit der Datenbank Der Zugriff auf die MySQL-Datenbank selbst kann mit sämtlichen dafür erhältlichen Tools (Beispielsweise SquirrelSQL, Toad für MySQL, EMS SQL Manager, TOra oder ähnliches)
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen
MehrTheoretische Grundlagen der Informatik
Theoretische Grundlagen der Informatik Vorlesung am 20. November 2014 INSTITUT FÜR THEORETISCHE 0 KIT 20.11.2014 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Mehr37 Gauß-Algorithmus und lineare Gleichungssysteme
37 Gauß-Algorithmus und lineare Gleichungssysteme 37 Motivation Lineare Gleichungssysteme treten in einer Vielzahl von Anwendungen auf und müssen gelöst werden In Abschnitt 355 haben wir gesehen, dass
Mehr1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1
Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1 Erstellen Sie bitte vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern können
MehrSynthese Eingebetteter Systeme. Übung 6
12 Synthese Eingebetteter Systeme Sommersemester 2011 Übung 6 Michael Engel Informatik 12 TU Dortmund 2011/07/15 Übung 6 Evolutionäre Algorithmen Simulated Annealing - 2 - Erklären Sie folgende Begriffe
MehrStatistik-Klausur vom
Statistik-Klausur vom 27.09.2010 Bearbeitungszeit: 60 Minuten Aufgabe 1 Ein international tätiges Unternehmen mit mehreren Niederlassungen in Deutschland und dem übrigen Europa hat seine überfälligen Forderungen
MehrDot-Matrix Methode. (Java) (Javascript) 80
Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2006 9. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Invertierte Listen Nutzung vor allem zur Textsuche
MehrMOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme
MOL.504 Analyse von DNA- und Proteinsequenzen Übungsaufgaben Datenbanken und Informationssysteme Ü1 Tutorial für NCBI NCBI Nucleotide: Suche nach cellobiose dehydrogenase fungi Ü1 Tutorial für NCBI NCBI
MehrR. Brinkmann Seite
R. Brinkmann http://brinkmann-du.de Seite 1 24.2.214 Grundlagen zum Hypothesentest Einführung: Wer Entscheidungen zu treffen hat, weiß oft erst im nachhinein ob seine Entscheidung richtig war. Die Unsicherheit
MehrBCDS Seminar. Protein Tools
BCDS Seminar Protein Tools Gliederung Nützliche Tools Three-/one-letter Amino Acids' Сodes RandSeq Random Protein Sequence Generator Protein Colourer ProtParam PeptideCutter ProtScale TMHMM Server 2.0
MehrLösungsvorschlag Serie 2 Rekursion
(/) Lösungsvorschlag Serie Rekursion. Algorithmen-Paradigmen Es gibt verschiedene Algorithmen-Paradigmen, also grundsätzliche Arten, wie man einen Algorithmus formulieren kann. Im funktionalen Paradigma
Mehr9 Minimum Spanning Trees
Im Folgenden wollen wir uns genauer mit dem Minimum Spanning Tree -Problem auseinandersetzen. 9.1 MST-Problem Gegeben ein ungerichteter Graph G = (V,E) und eine Gewichtsfunktion w w : E R Man berechne
MehrPaarweises Sequenzalignment
Methoden des Sequenzalignments Paarweises Sequenzalignment Austauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus Parameter Ausgabe http://www.ncbi.nih.gov Diese Vorlesung lehnt sich eng an
Mehr2 Teil 2: Nassi-Schneiderman
2 Teil 2: Nassi-Schneiderman Wie kann man Nassi-Schneiderman in einer objektorientierten Sprache verwenden? Jedes Objekt besitzt Methoden, welche die Attribute des Objektes verändern. Das Verhalten der
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrVL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag
VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag Tim Conrad AG Medical Bioinformatics Institut für Mathematik & Informatik, Freie Universität Berlin Vorlesungsthemen Part 1: Background
MehrBachelorarbeit. Paarweise und multiple Alignments mit TBLASTX und DIALIGN
Georg-August-Universität Göttingen Zentrum für Informatik ISSN Nummer 1612-6793 ZFI-BM-2005-28 Bachelorarbeit im Studiengang Angewandte Informatik Paarweise und multiple Alignments mit TBLASTX und DIALIGN
MehrHashfunktionen und Kollisionen
Hashfunktionen und Kollisionen Definition Hashfunktion Eine Hashfunktion ist ein Paar (Gen, H) von pt Algorithmen mit 1 Gen: s Gen(1 n ). Gen ist probabilistisch. 2 H: H s berechnet Funktion {0, 1} {0,
MehrP, NP und NP -Vollständigkeit
P, NP und NP -Vollständigkeit Mit der Turing-Maschine haben wir einen Formalismus kennengelernt, um über das Berechenbare nachdenken und argumentieren zu können. Wie unsere bisherigen Automatenmodelle
MehrTU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.
TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 10 Übung zur Vorlesung Grundlagen: Datenbanken im WS15/16 Harald Lang, Linnea Passing (gdb@in.tum.de)
MehrPollards Rho-Methode zur Faktorisierung
C A R L V O N O S S I E T Z K Y Pollards Rho-Methode zur Faktorisierung Abschlusspräsentation Bachelorarbeit Janosch Döcker Carl von Ossietzky Universität Oldenburg Department für Informatik Abteilung
MehrBitte an das Labor weiterleiten Wichtige Produktinformation. WICHTIGER PRODUKT-SICHERHEITS- UND KORREKTURHINWEIS VITEK MS System: Einschränkungen
Customer Service Wichtige Information Genf, 10. Februar 2017 FSCA 1016267 - VTK MS Bitte an das Labor weiterleiten Wichtige Produktinformation WICHTIGER PRODUKT-SICHERHEITS- UND KORREKTURHINWEIS VITEK
MehrPraktische Übung. Die Lernplattformen ILIAS ist mit Stud.IP verbunden, sodass Sie Lernmodule dieser Plattform
Informatik I Wintersemester 2016/2017 Prof. Dr. Carsten Damm Georg-August-Universität Göttingen Dr. Henrik Brosenne Institut für Informatik Übung 1 Praktische Übung Testate von Di., 01.11., 8-10 Uhr bis
MehrGrundlagen der Bioinformatik Übung 6: Microarray Analysis. Yvonne Lichtblau
Grundlagen der Bioinformatik Übung 6: Microarray Analysis Yvonne Lichtblau Vorstellung Lösungen Übung 4/Übung 5 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2016 2 Lösungen vorstellen
MehrBioinformatik für Biochemiker
Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 13. Ab-initio-Vorhersage Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Gliederung Ab-Initio-Vorhersage
MehrBioinformatik für Biochemiker
Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 4. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Paarweises Alignment
MehrPhylogenetische Analyse
Bioinformatik I - Uebung Phylogenetische Analyse Wenn nicht anders angegeben verwende die Standard-Einstellungen der Programme Hintergrund: Die Schwämme (Phylum Porifera) gehören zu den den ältesten lebenden
Mehr