Algorithmische Bioinformatik
|
|
- Greta Stieber
- vor 7 Jahren
- Abrufe
Transkript
1 lgorithmische Bioinformatik pproximatives Stringmatching Edit-bstand Ulf Leser Wissensmanagement in der Bioinformatik
2 Ziele dieser Vorlesung Einstieg in exaktes approximatives Stringmatching Bedeutung für die Bioinformatik Verständnis Editabstand, Ähnlichkeit, lignment Ulf Leser: lgorithmische Bioinformatik 2
3 Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf Leser: lgorithmische Bioinformatik 3
4 Spielarten Exakter approximativer Stringvergleich: Vergleiche Strings mit einer definierten bstandsfunktion und finde Vorkommen, die diese minimieren Varianten egeben P, pproximative Vorkommen von P in mit Höchstabstand k op-k zu P ähnlichsten Substrings in egeben S und Datenbank D Strings in D mit bstand höchstens k zu S op-k zu S ähnlichsten Strings in D Basis: egeben, B: Wie ähnlich sind und B? Ulf Leser: lgorithmische Bioinformatik 4
5 Wie ähnlich sind sich zwei Sequenzen? verglichen mit zu wenig zu viel C durch ersetzen und C löschen Sehr viel löschen Welche Matches sind besser? leitender Übergang zwischen exakter / guter / schlechter Match Ähnlichkeit muss durch Funktion quantifiziert werden Herangehensweisen bstand minimieren Ähnlichkeit maximieren Ulf Leser: lgorithmische Bioinformatik 5
6 Mögliche Maße Hamming-bstand Voraussetzung: = B Vergleiche und B Zeichen für Zeichen Hamming-bstand = nzahl der Mismatches Verwendung: Korrektur bei digitaler Signalübertragung Beispiel: ha(cccc, CCC)= 9 Jaccard-bstand (auf q-rammen) Berechne alle q-ramme von und B bstandsfunktion (über Mengen oder Multimengen) d(, B) = qgram( ) qgram( ) qgram( B) qgram( B) Ulf Leser: lgorithmische Bioinformatik 6
7 Biologie Funktion von Proteinen wird bestimmt durch Sequenz Sequenz 3D-Faltung Domänen Interaktion/Reaktion Proteinsequenz wird bestimmt durch Sequenz des ens Sind sich zwei Proteinsequenzen sehr ähnlich, dann haben sie sehr wahrscheinlich die gleiche Funktion Sind sich zwei (hinreichend lange) Sequenzen sehr ähnlich, dann kann das kein Zufall sein nnahme: Sie hängen evolutionär zusammen Ulf Leser: lgorithmische Bioinformatik 7
8 Evolution X CC B CC CCCC Ähnlichkeit kommt vom gemeinsamen Ursprung Evolution erfolgt in kleinen Schritten Einfügung einer Base (INS), Löschen (DEL), Ersetzen (REP) Wie viel Evolution ist bei X und X B passiert? Wir kennen nur und B Wenn Evolution zufällig (im Sequenzraum) erfolgt, gilt d(x,) + d(x,b) ~ d(,b) Ulf Leser: lgorithmische Bioinformatik 8
9 Evolution CC CC CCCC Definition von d Wir zählen primitive evolutionäre Ereignisse (INS/DEL/REP) Wir zählen die kleinste nzahl Ereignisse, die X in verwandelt haben kann (Edit-bstand) Für die biologische nwendung geeignetes bstandsmaß Ulf Leser: lgorithmische Bioinformatik 9
10 Sequenz und Funktion Sequenz und Funktion hängen eng zusammen, sind aber nicht direkt ableitbar Proteine: b 20-30% Ähnlichkeit geht man von verwandter Funktion aus ber: Schon einzelne Mutation kann Funktion verändern Bestimmung von Funktion ist extrem aufwändig (wenn überhaupt möglich) Bestimmung von Sequenzen dagegen sehr billig Idee: nnäherung der Funktion über Sequenzähnlichkeiten eburtsüberlegung der Bioinformatik Basiert auf approximativem Stringmatching Ulf Leser: lgorithmische Bioinformatik 10
11 Realität ist viel komplizierter Sequenzen heißen Homolog, wenn sie einen gemeinsamen Ursprung haben und von diesem durch Evolution divergiert sind Ortholog, wenn sie in verschiedenen Spezies vorkommen, aber vom gleichen Vorfahren abstammen Paralog, wenn sie durch Duplikation innerhalb einer Spezies entstanden sind Wir bestimmen Homologie durch hohe Sequenzähnlichkeit Wir unterscheiden nicht zwischen Paralogen und Orthologen Offen: Sind orthologe Proteine funktional ähnlicher als paraloge? Ulf Leser: lgorithmische Bioinformatik 11
12 Positionen sind nicht egal Wildtyp Fatale Mutation Leserastermutation Neutrale Mutation Funktionale Mutation C C C Leu Ser sp yr ly Lys C C Leu Ser sp Stop-Codon C C C Leu Ser His sp Leu hr C C C C Leu Ser sp yr ly Lys C C Leu Ser lu yr ly Lys DN Protein DN Protein DN Protein DN Protein DN Protein Ulf Leser: lgorithmische Bioinformatik 12
13 Was wir behandeln lobales lignment: Wie ähnlich sind sich zwei komplette Strings? Needleman-Wunsch Lokales lignment: Wie ähnlich sind sich die zwei ähnlichsten Substrings zweier Strings? Smith-Waterman Datenbankformulierung. egeben Sequenz S und Sequenzdatenbank D Finde die Sequenz aus D, die S am global ähnlichsten ist Finde die Sequenz aus D, die S am lokal ähnlichsten ist BLS Ulf Leser: lgorithmische Bioinformatik 13
14 nwendungsbeispiel: Proteindomänen Pattern, Domäne, Motiv, Site: eile einer Proteinsequenz mit funktionaler Bedeutung Bindungsstellen, enzymatische ktivität, Signal, etc. Beschrieben durch reguläre usdrücke, Fingerprints, Profile,... Datenbanken von Domänen PROSIE, Pfam, InterPro, BLOCKS, PRINS,... Beispiel PROSIE Beginn: Finden einer interessanten eilsequenz in der Literatur Identifikation ähnlicher Sequenzen in anderen Proteinen pproximatives Stringmatching Identifikation der konservierten minosäuren Multiple Sequence lignment Ulf Leser: lgorithmische Bioinformatik 14
15 Entstehung von Prosite Pattern lignment of set of interesting proteins Functionally important residues Found only correct entries: leave Find 4-5 conserved residues Core pattern Search database Found many false positives: extend pattern and do more research Pattern given as kind-of regular expression: [C]-x-V-x(4)-{ED} ala/cys-any-val-any-any-any-any-(any except glu or asp) Quelle: PROEIN PERN DBSES, EBI Ulf Leser: lgorithmische Bioinformatik 15
16 ußerhalb der Bioinformatik Unscharfe Suche in exten Suche mit Xylofon und finde auch Xhylophon Personenabgleich / Entity Matching / Deduplication Ist Herr Müller, 27, Stargarder Str 54 identisch zu Hr. Mueller, 27, Stagarder Str. 54? Phonetische Suche (soundex) Finde alle Meyer, Meier, Maier, Mair,... Ulf Leser: lgorithmische Bioinformatik 16
17 Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf Leser: lgorithmische Bioinformatik 17
18 Dotplot Definition Ein Dotplot zweier Strings, B ist eine Matrix M mit Die Spalten entsprechen den Zeichen von Die Zeilen entsprechen den Zeichen von B M[a,b]=1 gdw. [a] = B[b]; sonst 0 C C C Ulf Leser: lgorithmische Bioinformatik 18
19 Dotplot und gleiche eilstrings Wie erkennt man gleiche eilstrings im Dotplot? C C C C C C Diagonalen von links-oben nach rechts-unten rößter gemeinsamer eilstring längste Diagonale Visuell bei kurzen Strings möglich Ulf Leser: lgorithmische Bioinformatik 19
20 Visuelle Untersuchung Helligkeit: Ähnlichkeit im Umfeld eines Pixels Quelle: Dotlet, Ulf Leser: lgorithmische Bioinformatik 20
21 Repetitive Sequenzen C C C C C C C C Dotplot mit =B Zitat (enbank, P24014): [SIMILRIY] CONINS 7 EF-LIKE DOMINS. [SIMILRIY] Contains 24 leucine-rich (LRR) repeats. Ulf Leser: lgorithmische Bioinformatik 21
22 Finden längster gemeinsamer eilstrings egeben Dotplot M zweier Strings, B esucht: Längster gemeinsamer eilstring Naives Verfahren ( = B =m) Prüfe jede der 2*m Diagonalen: O(m) Suche zusammenhänge Sequenzen von 1 ern: O(m) Merke das längste zusammenhängende Stück Komplexität: O(m 2 ) (Zusätzlich: Konstruktion von M - wie komplex?) Wir kennen schon lineare lgorithmen ußerdem wollen wir approximativ matchen Ulf Leser: lgorithmische Bioinformatik 22
23 Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf Leser: lgorithmische Bioinformatik 23
24 Editskripte Definition Ein Editskript e für zwei Strings, B aus Σ *= Σ _ ist eine Sequenz von Editieroperationen I (Einfügen eines Zeichen c Σ in ) Dargestellt als Lücke in ; das neue Zeichen erscheint in B D (Löschen eines Zeichen c in ) Dargestellt als Lücke in B; das alte Zeichen erscheint in R (Ersetzen eines Zeichen in mit einem anderen Zeichen in B) M (Match, d.h., gleiche Zeichen in und B an dieser Stelle) so, dass e()=b Beispiel: =, B= C MIMMMR IRMMMDI C _C Ulf Leser: lgorithmische Bioinformatik 24
25 Editabstand Offensichtlich gibt es immer unendlich viele Editskripte Definition Die Länge eines Editskript ist die nzahl von Operationen o im Skript mit o {I, R, D} Der Editabstand (oder Levenshtein-bstand) zweier Strings, B ist die Länge des kürzesten Editskript für, B Bemerkung Matches zählen nicht interessant sind nur die Änderungen Es gibt oft verschiedene kürzeste Editskripte IMMMMMD DMMMMMI Ulf Leser: lgorithmische Bioinformatik 25
26 lignment Definition Ein (globales) lignment zweier Strings,B ist eine Untereinanderanordnung von und B mit beliebigen zusätzlichen Leerzeichen, ohne dass zwei Leerzeichen untereinander stehen chtung: Untereinanderstehende Zeichen müssen nicht matchen Der lignmentscore eines lignment ist die nzahl von Leerzeichen und Mismatches Der lignmentabstand zweier Strings, B ist der minimale lignmentscore aller lignments der beiden Strings Beispiele C C Score: Ulf Leser: lgorithmische Bioinformatik 26
27 lignments und Dotplots Übersetzung von Pfaden im Dotplot in lignments Dotplot: Sei horizontal und B vertikal aufgetragen lignment: Sei über B angeordnet Schritt nach rechts: Nächstes Zeichen von ; _ in B Schritt nach unten: Nächstes Zeichen von B; _ in Schritt nach rechts-unten: Nächstes Zeichen von und B C C C CC CC C C C C C C Ulf Leser: lgorithmische Bioinformatik 27
28 Pfadgüte ute Pfade haben viele Matches (1 er Felder) Definition Die üte eines Pfades P durch einen Dotplot M ist die nzahl an diagonal durchquerten 1 er Feldern Die Länge eines Pfades P durch einen Dotplot M ist die nzahl an Schritten, die nicht diagonal durch 1 er Felder laufen Bemerkung Der beste Pfad kann also höchstens üte min(m,n) haben Ulf Leser: lgorithmische Bioinformatik 28
29 C C Beispiele C Pfadgüte: 0 C C C Pfadgüte: 4 C C C Pfadgüte: 9 Maximale üte? Ulf Leser: lgorithmische Bioinformatik 29
30 Äquivalenzen egeben zwei Strings,B und deren Dotplot M Die folgenden Probleme sind äquivalent Finde das optimale lignment von und B (= lignmentabstand) Finde die minimale Menge an Editoroperationen von nach B (= Editabstand) Finde in M den Pfad mit minimaler Länge (= Pfadlänge) Beweis: Einfach Wir verwenden im Folgenden meistens lignments Einfacher zu lesen, weniger redundant, platzsparend Ulf Leser: lgorithmische Bioinformatik 30
31 lgorithmus Naives Verfahren um den besten Pfad zu finden lle Pfade aufzählen Das sind exponentiell viele Nur Pfade um die Hauptdiagonale: > 3 min(m,n) enaue nzahl Pfade: Übungsaufgabe Inakzeptable Laufzeit atsächliche Komplexität des Problems: O(m*n) Ulf Leser: lgorithmische Bioinformatik 31
32 Selbsttest Wie ist der Editabstand zweiter Strings definiert? Welche äquivalenten Formulierungen dieser bstandsfunktion gibt es? Warum interessiert uns in der Bioinformatik gerade der Editabstand zweier Sequenzen? Betrachten Sie den phylogenetischen Baum (Folie 8): ilt denn d(x,) + d(x,b) = d(,b)? Ist Editabstand eine Metrik? Ulf Leser: lgorithmische Bioinformatik 32
Algorithmische Bioinformatik
lgorithmische Bioinformatik Stringalignment Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung pproximative Stringvergleiche Dotplots Edit-bstand und lignment Naiver lgorithmus Ulf
MehrGrundlagen der Bioinformatik
rundlagen der Bioinformatik Vergleich von DN - Sequenzen Ulf Leser Wissensmanagement in der Bioinformatik Ulf Leser: Proseminar Bioinformatik, SoSe 2008 3 Was ist ein en? C C C C Chromosom DN C C C RN
MehrBioinformatik. Approximatives Stringmatching Editabstand. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik pproximatives Stringmatching Editabstand Ulf Leser Wissensmanagement in der Bioinformatik Naiver nsatz 1. P und an Position 1 ausrichten 2. Vergleiche P mit von links nach rechts Zwei ungleiche
MehrBioinformatik. Approximative Stringvergleiche. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik pproximative Stringvergleiche Ulf Leser Wissensmanagement in der Bioinformatik Problemstellung Bisherige lgorithmen egeben ein emplate (m) und ein Pattern P (n) Suche alle Vorkommen von P
MehrAufgabenblatt 4. Silke Trißl Wissensmanagement in der Bioinformatik
Aufgabenblatt 4 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 Global alignment using dynamic programming Write a program to
MehrBioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Suffixbäume Ulf Leser Wissensmanagement in der Bioinformatik Ziele Perspektivenwechsel: Von Online zu Offline-Stringmatching Verständnis von Suffix-Bäumen als Datenstruktur
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik
MehrÜbungsaufgaben zur Einführung in die Bioinformatik - Lösungen
18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Wintersemester 2006 / 2007 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik
MehrMultiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-
MehrPrimärstruktur. Wintersemester 2011/12. Peter Güntert
Primärstruktur Wintersemester 2011/12 Peter Güntert Primärstruktur Beziehung Sequenz Struktur Proteinsequenzen, Sequenzdatenbanken Sequenzvergleich (sequence alignment) Sequenzidentität, Sequenzhomologie
MehrPairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik
Pairwise Alignment Steffen Forkmann Proseminar: BioInformatik Wintersemester 2004/2005 Inhaltsverzeichnis 1 Problemstellungen 3 1.1 Rechtschreibkorrektur............................... 3 1.2 DNA- und Aminosäure-Sequenzen........................
MehrAlgorithmische Anwendungen WS 2005/2006
Algorithmische Anwendungen WS 2005/2006 Sequenzalignment Gruppe F_lila_Ala0506 Allal Kharaz Yassine ELassad Inhaltsverzeichnis 1 Problemstellungen...................................... 3 1.1 Rechtschreibkorrektur...............................
MehrBioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Motivation BLAST / FASTA und Verwandte sind *die* Bioinformatik Anwendung Teilweise synonym für Bioinformatik rundlegende
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung
Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites
MehrVorlesung Einführung in die Bioinformatik
Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:
MehrZentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)
Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul
MehrAlgorithmen auf Sequenzen
Algorithmen auf Sequenzen Fehlertolerante Mustersuche: Distanz- und Ähnlichkeitsmaße Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Center-Star Score Ulf Leser Wissensmanagement in der Bioinformatik Ziel dieser Vorlesung Aufgabenstellung Multiples Sequenzalignment
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Knuth-Morris-Pratt Algorithmus Natürliche Erweiterung des naiven Matching Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Knuth-Morris-Pratt Algorithmus
MehrBioinformatik. Z-Box Algorithmus Preprocessing eines Strings. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Z-Box Algorithmus Preprocessing eines Strings Ulf Leser Wissensmanagement in der Bioinformatik Drei Anwendungen Sequenzierung Assembly von Teilsequenzen cdna Clustering All-against-all Sequenzvergleiche
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Center-Star Score Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Multiples Sequenzalignment Sum-Of-Pair
MehrBioinformatik. Alignment mit linearem Platzbedarf K-Band Alignment. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Alignment mit linearem Platzbedarf K-Band Alignment Ulf Leser Wissensmanagement in der Bioinformatik Ankündigungen Gastvortrag: Morgen Dr. Klein, Metanomics GmbH Bioinformatik in der Pflanzengenomik
MehrAlgorithmen auf Sequenzen
Algorithmen auf Sequenzen Vorlesung von Prof. Dr. Sven Rahmann im Sommersemester 2008 Kapitel 6 Alignments Webseite zur Vorlesung http://ls11-www.cs.tu-dortmund.de/people/rahmann/teaching/ss2008/algorithmenaufsequenzen
MehrAufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik
Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution
MehrString - Matching. Kapitel Definition
Kapitel 1 String - Matching 1.1 Definition String - Matching ( übersetzt in etwa Zeichenkettenanpassung ) ist die Suche eines Musters ( Pattern ) in einem Text. Es findet beispielsweise Anwendung bei der
MehrBioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search
MehrInformatik II, SS 2018
Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 19 (27.6.2018) Dynamische Programmierung III Algorithmen und Komplexität Dynamische Programmierung DP Rekursion + Memoization Memoize:
MehrHomologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de
Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer
MehrAlgorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments
Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments Sven Rahmann Genominformatik Universitätsklinikum Essen Universität Duisburg-Essen Universitätsallianz Ruhr Einführung Bisher: Berechnung
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 06. Paarweises Alignment Teil II Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2006 9. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Invertierte Listen Nutzung vor allem zur Textsuche
MehrBioinformatik. Profilalignment und PSI Blast Center-Star Verfahren Progressives MSA CLUSTAL W. Ulf Leser Wissensmanagement in der.
Bioinformatik Profilalignment und PSI Blast Center-Star Verfahren Progressives MS CLUSTL W Ulf Leser Wissensmanagement in der Bioinformatik Definition Bisher Immer Vergleich zweier Strings Jetzt Multipler
MehrZusammenfassung des 2. Abends
lgorithmen in der iologie r. Hans-Joachim öckenhauer r. ennis Komm Zusammenfassung des. bends Zürich, 0. pril 0 lignment-verfahren Für einen Überblick über die lignment-lgorithmen zur estimmung der Ähnlichkeit
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Substitutionsmatrizen Ulf Leser Wissensmanagement in der Bioinformatik Ziele Ein sehr kleiner Einblick in Evolutionsgenetik Kenntnis einer typischen realen bioinformatischen
MehrBioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in
MehrApproximatives (2D-)Pattern-Matching
Approximatives (2D-)Pattern-Matching Hauptseminar AFS Florian Schüttler Fakultät für Informatik und Automatisierung TU Ilmenau 09.07.2010 Inhalt 1 2 3 4 Florian Schüttler Approximatives (2D-)Pattern-Matching
MehrAlgorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8
ETH Zürich Institut für Theoretische Informatik Prof. Dr. Angelika Steger Florian Meier, Ralph Keusch HS 2017 Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 Lösungsvorschlag zu Aufgabe 1
MehrReguläre Ausdrücke. Silke Trißl, Prof. Ulf Leser Wissensmanagement in der Bioinformatik
Reguläre Ausdrücke Silke Trißl, Prof. Ulf Leser Wissensmanagement in der Bioinformatik Sinn und Ziel Reguläre Ausdrücke sind eine Möglichkeit eine Menge von Strings aufgrund von gemeinsamen Merkmalen zu
MehrSequenzen-Alignierung in der Bioinformatik. VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11
Sequenzen-Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11 23. VO 24.01.2006 1 1 Literatur für diese VO Volker Heun: Skriptum
MehrHS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth
HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln Edit distance Referentinnen: Alena Geduldig, Kim Opgenoorth inexact matching Problem Erkenne, finde und toleriere
MehrAlignment-Verfahren zum Vergleich biologischer Sequenzen
zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen
MehrPraktikum Algorithmischen Anwendungen WS 2006/07 Bioinformatik Sequence-Aligment Team C rot Ala0607
Praktikum Algorithmischen Anwendungen WS 2006/07 Bioinformatik Sequence-Aligment Team C rot Ala0607 Blöink, Frank 11038619 ai600@gm.fh-koeln.de Wolters, Benjamin 11037092 ai651@gm.fh-koeln.de 26. Januar
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 5. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen
MehrBioinformatik für Lebenswissenschaftler
Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 11. Hiden Markov Models & Phylogenien Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen
MehrGleichheit, Ähnlichkeit, Homologie
Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren
MehrAufgabe 3: Erste Versuche im Indexieren des Templates. Ulf Leser Wissensmanagement in der Bioinformatik
Aufgabe 3: Erste Versuche im Indexieren des Templates Ulf Leser Wissensmanagement in der Bioinformatik q-gram Index Ein q-gram Index für einen String T ist ein invertiertes File über allen q-grammen von
MehrReguläre Ausdrücke. Silke Trißl Wissensmanagement in der Bioinformatik
Reguläre Ausdrücke Silke Trißl Wissensmanagement in der Bioinformatik Sinn und Ziel Reguläre Ausdrücke sind eine Möglichkeit eine Menge von Strings aufgrund von gemeinsamen Merkmalen zu beschreiben. Suche
MehrBioinformatik. Multiple String Alignment I. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Multiple String Alignment I Ulf Leser Wissensmanagement in der Bioinformatik BLAST2: Zwei-Hit-Strategie Original: Alle Hits mit Score > t werden zu MSPs verlängert Extensionen fressen >90%
MehrMBI: Sequenz-Vergleich mit Alignment
MBI: Sequenz-Vergleich mit Alignment Bernhard Haubold 28. Oktober 2014 Wiederholung: Was ist Bioinformatik? Historische Übersicht; CABIOS Bioinformatics Gemeinsames Thema: Information in vivo DNA Epigenetik
MehrInformatik II, SS 2018
Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 20 (9.7.2018) String Matching (Textsuche) Algorithmen und Komplexität Textsuche / String Matching Gegeben: Zwei Zeichenketten (Strings)
Mehr5 Sequenz-/Strukturalignments
5 Sequenz-/Strukturalignments Modul 10-202-2208 Bioinformatik von RN- und Proteinstrukturen Jana Hertel Lehrstuhl Bioinformatik 29. pril 2013 Jana Hertel (Lehrstuhl Bioinformatik) 5 Sequenz-/Strukturalignments
MehrInformatik II, SS 2016
Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 21 (15.7.2016) String Matching (Textsuche) Approximate String Matching Algorithmen und Komplexität Textsuche / String Matching Gegeben:
MehrInformatik II, SS 2016
Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 20 (13.7.2016) String Matching (Textsuche) Algorithmen und Komplexität Textsuche / String Matching Gegeben: Zwei Zeichenketten (Strings)
MehrDank. 1 Ableitungsbäume. 2 Umformung von Grammatiken. 3 Normalformen. 4 Pumping-Lemma für kontextfreie Sprachen. 5 Pushdown-Automaten (PDAs)
ank Vorlesung Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Bernhard Beckert iese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen
MehrKapitel 7: Sequenzen- Alignierung in der Bioinformatik
Kapitel 7: Sequenzen- Alignierung in der Bioinformatik 7.3: Paarweise Sequenzen-Alignierung 7.4: Multiple Sequenzen Alignierung VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm
MehrÜbersicht. 1 Einführung. 2 Suchen und Sortieren. 3 Graphalgorithmen. 4 Algorithmische Geometrie. 5 Textalgorithmen. 6 Paradigmen
Übersicht 1 Einführung 2 Suchen und Sortieren 3 Graphalgorithmen 4 Algorithmische Geometrie 5 6 Paradigmen Übersicht 5 Editdistanz (Folie 446, Seite 83 im Skript) Eingabe: Zwei Strings v und w Frage: Kommt
MehrBioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Bioinformatik
MehrÜbung 1 Bioinformatik. Ihre Namen:
Evolutionsbiologie 2 Übung 1 Bioinformatik WS2018/2019 Ihre Namen: llgemeine Hinweise: Für die Zulassung zur Klausur muss dieses Übungsblatt bearbeitet und als bestanden bewertet sein. Sie können das Übungsblatt
MehrRange-Search. Operationen: Welche Datenstrukturen sind geeignet? Arrays? Listen? AVL-Bäume? Splay-Bäume?
Algorithmische Geometrie Die Technik der Sweepline Range-Search (Folie 431, Seite 79 im Skript) Operationen: 1 Einfügen einer Zahl x 2 Löschen einer Zahl x 3 Ausgabe aller gespeicherter Zahlen in [a, b]
MehrBioinformatik. Einleitung Überblick. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Einleitung Überblick Ulf Leser Wissensmanagement in der Bioinformatik H5N1 Foto: Centers for Disease Control Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2005/2006 2 Migration
MehrKlausur Bioinformatik für Biotechnologen
Name, Vorname: 1 Klausur Bioinformatik für Biotechnologen Studiengang Molekulare Biotechnologie TU Dresden WS 2011/2012 Prof. Michael Schroeder 15.02.2012 Die Dauer der Klausur beträgt 90 Minuten. Bitte
MehrDank. Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I. Reguläre Ausdrücke als Suchmuster für grep
Dank Vorlesung Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Bernhard Beckert Diese Vorlesungsmaterialien basieren ganz wesentlich auf den Folien zu den Vorlesungen
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen
MehrMOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche
MOL.504 Analyse von DNA- und Proteinsequenzen Übungsaufgaben BLAST-Sequenzsuche und -vergleiche Ü6a blastn und blastx Verwenden Sie die in Übung 3 (Datenbanken) gefundene yqjm-sequenz aus Bacillus subtilis
MehrAlignment von DNA- und Proteinsequenzen
WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1
MehrEffiziente Algorithmen 2
Effiziente Algorithmen 2 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen
MehrGrundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I
Vorlesung Grundlagen der Theoretischen Informatik / Einführung in die Theoretische Informatik I Bernhard Beckert Institut für Informatik Sommersemester 2007 B. Beckert Grundlagen d. Theoretischen Informatik:
MehrLemma Für jede monotone Grammatik G gibt es eine kontextsensitive
Lemma Für jede monotone Grammatik G gibt es eine kontextsensitive Grammatik G mit L(G) = L(G ). Beweis im Beispiel (2.): G = (V,Σ, P, S) : P = {S asbc, S abc, CB BC, ab ab, bb bb, bc bc, cc cc}. (i) G
MehrPrüfung Molekulare Genetik
Prüfung Molekulare enetik SBH06 Name: Maximale Punktzahl: 40 Erreichte Punktzahl: Note: Seite 1 von 7 ufgabe 1 Wie bezeichnet man den Vorgang der Übersetzung von RN in Proteine? Translation Transformation
MehrAnwendungen dynamischer Programmierung in der Biologie
Anwendungen dynamischer Programmierung in der Biologie Überblick Algorithmus zum Finden der wahrscheinlichsten Sekundärstruktur eines RNS Moleküls Sequence Alignment Verbesserung von Sequence Alignment
Mehr6. Texterkennung in Videos Videoanalyse
6. Texterkennung in Videos Videoanalyse Dr. Stephan Kopf 1 Übersicht Motivation Texterkennung in Videos 1. Erkennung von Textregionen/Textzeilen 2. Segmentierung einzelner Buchstaben 3. Auswahl der Buchstabenpixel
MehrDot-Matrix Methode. (Java) (Javascript) 80
Dot-Matrix Methode Vergleich zweier Sequenzen (DNA oder Aminosäuren) Idee: gleiche Basen (Aminosäuren) in x-y Diagramm markieren Sequenz 1: ADRWLVKQN Sequenz 2: ADKFIVRDE http://myhits.vital-it.ch/cgi-bin/dotlet
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Biologische Daten als Strings Ulf Leser Wissensmanagement in der Bioinformatik Ziele für heute Wert von Reduktionismus: Genome als Strings Reinschmecken in Stringmatching Erster
MehrAlgorithmen auf Zeichenketten
Algorithmen auf Zeichenketten Rabin-Karp Algorithmus Christoph Hermes hermes@hausmilbe.de Zeichenketten: Rabin-Karp Algorithmus p. 1/19 Ausblick auf den Vortrag theoretische Grundlagen... Zeichenketten:
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Drittes Übungsblatt WS 05/06 Musterlösung
Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Drittes
MehrAlgorithmische Bioinformatik
FREIE UNIVERSITÄT BERLIN Fachbereich Mathematik und Informatik Institut für Informatik (WE 3) FU BERLIN Freie Universität Berlin FB Mathematik und Informatik, Institut für Informatik, Takustr. 9, D-14195
MehrText Analytics. Referat: Improving Suffix Array Locality for Fast Pattern Matching on Disk
Text Analytics Referat: Improving Suffix Array Locality for Fast Pattern Matching on Disk Nils Alberti & Jürgen Eicher, 12. Juni 2008 Einführung Stringmatching bisher: Analyse des Patterns zum schnellen
Mehr8.4 Suffixbäume. Anwendungen: Information Retrieval, Bioinformatik (Suche in Sequenzen) Veranschaulichung: DNA-Sequenzen
8.4 Suffixbäume Ziel: Datenstruktur, die effiziente Operationen auf (langen) Zeichenketten unterstützt: - Suche Teilzeichenkette (Substring) - Präfix - längste sich wiederholende Zeichenkette -... Anwendungen:
MehrBioinformatik für Biochemiker
Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 4. Paarweises Alignment Teil I Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Paarweises Alignment
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung
Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Erstes
MehrStruktur in der Bioinformatik
Struktur in der Bioinformatik Rolf Backofen Lehrstuhl für Bioinformatik Institut für Informatik FS Jena Überblick Einführung nwendungsbeispiel: Selenoproteine Proteinfaltung Protein Docking c R. Backofen
MehrUser Defined Functions
User Defined Functions Hierbei handelt es sich um Funktionen, die vom Benutzer erzeugt und unter Verwendung einer speziellen Anweisung (CREATE FUNCTION) in eine Datenbank integriert werden. Für die Programmierung
MehrBio Data Management. Kapitel 5a Sequenzierung und Alignments
Bio Data Management Kapitel 5a Sequenzierung und Alignments Sommersemester 2013 Anika Groß Universität Leipzig, Institut für Informatik, Abteilung Datenbanken http://dbs.uni-leipzig.de Vorläufiges Inhaltsverzeichnis
MehrSuchen in Texten. Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz
Suchen in Texten Naives Suchen Verfahren von Knuth-Morris-Pratt Verfahren von Boyer-Moore Ähnlichkeitssuchen Editierdistanz Textsuche Gegeben ist ein Zeichensatz (Alphabet) Σ. Für einen Text T Σ n und
Mehr19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
MehrGraphalgorithmen Minimale Spannbäume. Kruskal: Minimaler Spannbaum
Kruskal: Minimaler Spannbaum (Folie 414, Seite 78 im Skript) 4 6 2 3 1 2 5 3 7 1 4 Kruskals Algorithmus Implementierung (Folie 415, Seite 78 im Skript) Algorithmus function Kruskal(G, w) : A := ; for each
Mehr19. Dynamic Programming I
495 19. Dynamic Programming I Fibonacci, Längste aufsteigende Teilfolge, längste gemeinsame Teilfolge, Editierdistanz, Matrixkettenmultiplikation, Matrixmultiplikation nach Strassen [Ottman/Widmayer, Kap.
MehrMOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche
MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank
MehrAlgorithmen für paarweise Sequenz-Alignments. Katharina Hembach
Proseminar Bioinformatik WS 2010/11 Algorithmen für paarweise Sequenz-Alignments Katharina Hembach 06.12.2010 1 Einleitung Paarweise Sequenz-Alignments spielen in der Bioinformatik eine wichtige Rolle.
Mehr4. Tries und kd-bäume
4. Tries und kd-bäume Digitale Suchbäume (Tries) kd-bäume Prof. Dr. O. Bittel, HTWG Konstanz Algorithmen und Datenstrukuren Tries und kd-bäume SS 2019 4-1 Tries (1) Problem mit den bisherigen Suchbäumen
Mehr