Proseminar Bioinformatik

Größe: px
Ab Seite anzeigen:

Download "Proseminar Bioinformatik"

Transkript

1 Proseminar Bioinformatik Thema Algorithmic Concepsts for Searching in Biological Databases von Uwe Altermann Einführung Im Folgenden soll ein Überblick über die verschiedenen algorithmischen Konzepte zur Suche in biologischen Datenbanken gegeben werden. Die Neuentwicklungen und Verbesserungen der Methoden zur DNA-Sequenzierung, wie zum Beispiel die Sanger-Methode, führte ab den 80er Jahren unweigerlich zu einem enormen Wachstum der Daten in DNA- und Proteindatenbanken. Hierdurch wurden die genauen Methoden des lokalen Alignments, wie beispielweise der Smith-Waterman-Algorithmus, und des globalen Alignments, wie der Needleman-Wunsch-Algorithmus, trotz ihrer optimierten Berechnung mit Hilfe des dynamischen Programmierens (Dynamic Programming), unbrauchbar. Der Grund hierfür war die Rechenintensität beim Erstellen der Alignments, wodurch diese Methoden ungeeignet für das Durchsuchen der immer größer werdenden Datenbanken wurden. Somit wurden heuristische Methoden entwickelt, um zulässige Lösungen für ein bestimmtes Problem in kurzer Zeit und ohne großen Aufwand zu erhalten. Hierbei ist zu beachten, dass diese Methoden nur Annäherungen an eine genaue Berechnung sind, bei denen eine reduzierte Sensitivität aufgrund der wesentlich gesteigerten Effizienz in Kauf genommen wird. Mit diesen heuristische Methoden können nun die großen Datenbanken in einer angemessenen Zeit nach ähnlichen Sequenzen durchsucht werden. Zwei der heutzutage am häufigsten eingesetzten Algorithmen zur Sequenzsuche sind FASTA und BLAST. Beide sind hochgradig heuristische Methoden, die sowohl bei der Suche in Protein- als auch DNA-Datenbanken ihren Einsatz finden. Dabei werden erst mittels schneller Indexsuche ähnliche Abschnitte identifiziert, bevor im weiteren Verlauf mittels Substitutionsmatrizen eine sensitive Berechnung von lokalen Alignments erfolgt. 2 Biologische Datenbanken Bevor wir zu den Konzepten der Suchalgorithmen kommen, soll hier ein kurzer Überblick über die Verschiedenen Datenbanken gegeben werden. Biologische Datenbanken können anhand der Art der Daten die sie beinhalten unterschieden werden. Vor allem DNA-Sequenz-Datenbanken und Protein-Sequenz-Datenbanken spielen im Hinblick auf Suchalgorithmen eine wichtige Rolle. 2.1 DNA-Sequenz-Datenbanken Die bekanntesten DNA-Datenbanken sind GenBank, EMBL-NSD (European Molecular Biology Laboratory - Nucleotide Sequence Database) und DDBJ (DNA Databank of Japan). GenBank, die wohl älteste Datenbank, wird verwaltet und gepflegt vom National Center of 1

2 Biotechnology Information (NCBI) in Bethesda, USA. EMBL-NSD, das europäische Äquivalent zu GenBank, wird gewartet vom European Bioinformatics Institute in Hinxton, Großbritannien, während sich DDBJ, wie der Name schon vermuten lässt, in Japan befindet. Es gibt noch weitaus mehr DNA-Datenbaken weltweit, doch das Besondere der hier genannten ist, dass diese drei miteinander verknüpft sind und permanent Daten austauschen. Wird also in eine der Datenbanken eine neue Sequenz eingefügt, ist diese auch in den andern Datenbanken zu finden. Beachtlich ist auch die Größe und das Wachstum der Datenbanken. GenBank, zum Beispiel, beinhaltet mit dem Release vom 15 April 2009 momentan Basenpaare und Sequenzen. Das ist ein Wachstum von Basenpaaren und Sequenzen innerhalb von 56 Tagen, der Zeitspanne seit Erscheinen von Release Protein-Sequenz-Datenbanken Viele Protein-Sequenz-Datenbanken enthalten nicht nur Protein-Sequenzen, sondern zusätzlich Unmengen an sehr gut aufbereiteten Informationen, wie Funktion, Klassifikation und Verknüpfungen zu anderen Datenbanken bzw. Informationen. Die wohl bekanntesten sind Swiss-Prot und TrEMBL. Swiss-Prot wird manuell gepflegt, kommentiert und enhält momentan Einträge ( ). Das ist im Vergleich zu TrEMBL mit Einträgen ( ) wenig aber nicht verwunderlich, da diese Datenbank anhand der kodierenden Regionen aus der DNA-Datenbank EMBL-NSD automatisch erweitert wird. 3 Suchalgorithmen in Biologischen Datenbanken Nachdem wir uns einen Überblick über die Arten, Größe und das Wachstum von biologischen Datenbanken verschafft haben, betrachten wir nun die heuristischen Suchalgorithmen FASTA und BLAST. 3.1 Der FASTA - Algorithmus Der FASTA - Algorithmus ( fast-all ) wurde im Jahre 1985 durch D. Lipman und W. Pearson entwickelt und im Jahre 1988 auf Nukleotide erweitert FASTA besteht aus folgenden vier Schritten: 1. Ermitteln von diagonalen Regionen mit hoher Übereinstimmung im Dotplot ausgehend von k-tuples 2. Bewerten der 10 besten Regionen mit einer Scoring-Matrix 3. Zusammenfügen von Regionen in benachbarten Diagonalen durch Gaps (hierbei werden unrelevante Regionen entfernt) 4. Alignment in einem begrenzten Band Als Parameter können angegeben werden: 1. Die zu durchsuchende Datenbank 2. Die zu verwendende Substitutionsmatrix 3. Der Länge der zu suchenden hot-spots in Form des Parameters ktup (Voreinstellung: 2 für die Suche in Protein-Datenbanken, 6 für die Suche in DNA-Datenbanken) 2

3 Zum besseren Verständnis wird der Algorithmus im Folgenden anhand eines Dotplot erklärt. Bei einem Dotplot handelt es sich um die graphische Darstellung einer Gegenüberstellung zweier Sequenzen die Regionen mit gleichen Zeichen hervorhebt. Hierzu wird aus zwei Sequenzen eine Matrix erstellt, indem eine Sequenz über die Zeilen und die andere über die Spalten aufgetragen wird. Anschließend werden alle Zellen markiert, bei denen das Zeichen der Zeile mit dem Zeichen der Spalte übereinstimmt. Wurde dies für alle Zellen der Matrix gemacht, zeichnen sich genau da Diagonalen ab, wo mehrere Zeichen der einen Sequenz mit der anderen übereinstimmen. Im ersten Schritt werden zunächst alle hot-spots im Dotplot ermittelt. Hierbei handelt es sich um exakt übereinstimmende k-tuple der Länge ktup aus der Abfragesequenz und der momentan zu vergleichenden Sequenz der Datenbank. Um diesen Vorgang enorm zu beschleunigen, können bereits bei jeder Bereitstellung der Datenbank alle k-tuple der Datenbanksequenzen in einer Hashtable gesammelt werden, wobei in diesem Fall zur Suche der hot-spots die Hashtable verwendet wird. Sind die hot-spots gefunden, zeichnen sich diese als kurze oder längere Diagonalen im Dotplot ab, je nachdem, ob sie zusammenhängen oder eben nicht. Aus diesen hot-spots werden Regionen gebildet. Dies geschieht durch Verbinden der hot-spots auf jeder Diagonalen. Hierbei werden positive Scores für die hotspots (matches) und negative für die inter-spots (mismatches) zwischen diesen vergeben, wobei der Score für ein inter-spot um so negativer wird, je größer dieser ist. Das so entstehende Alignment enthält keine Lücken (gaps) und das Verbinden wird nicht zwangsweise bis zum Ende jeder Diagonalen fortgeführt. FASTA ermittelt nun alle Regionen und deren Score. Anschließend werden aus diesen Regionen die Zehn mit dem besten Score ermittelt. Eine Region muss nicht alle hot-spots einer Diagonalen beinhalten und auf einer Diagonale können sich mehr als eine der zehn besten Regionen befinden. Stehen nun die zehn besten Regionen fest, wird im zweiten Schritt eine separate Bewertung dieser, anhand einer Substitutionsmatrix vorgenommen. Bei diesem Schritt wurden früher eher PAM-Matritzen verwendet, während heutzutage für die Bewertung eher BLOSUM- Matritzen herangezogen werden. Die Bewertung der Region, die aus allen Bewertungen als Beste hervorgeht, wird init1 genannt. Regionen deren Bewertung unter eine bestimmte Grenze fällt, werden in den nächsten Schritten nicht mehr beachtet. Der dritte Schritt nimmt nun die übrigen Regionen, sowie deren Bewertung aus Schritt zwei, und bildet daraus Graphen unter folgender Annahme. 1. Region A beginnt im Dotplot an Position (x,y) und endet an Position (x+z, y+z) 2. Region B beginnt an Positon(x, y ) Graphen werden durch verbinden zweier Regionen gebildet, aber nur, wenn x >x+z und y >y+z, d.h. also, dass die Region B hinter dem Ende der Region A liegen muss. Eine weitere Bedingung ist, dass die Regionen nicht zu weit auseinander liegen dürfen. Dies wird durch Vergabe einer Strafe pro erwägter Verbindungslinie verhindert, woraufhin FASTA aus der Bewertung von Schritt zwei sowie der jeweiligen fiktiven Strafe pro Verbindungslinie einen maximal bewerteten Pfad ermittelt. Die für diesen Pfad ermittelte Bewertung wird initn genannt. Hierauf folgt der vierte und letzte Schritt, das Erstellen eines lokalen Alignments mit Hilfe eines Dynamic-Programming-Algorithmus, wie zum Beispiel Smith-Waterman. Dieses Alignment wird aber nicht über die gesamte Matrix erstellt, sondern nur innerhalb eines 3

4 begrenzten Bandes dessen Mitte die Diagonale der Region mit der Bewertung init1 bildet. Hiervon ausgehend wird im Fall, dass für ktup z.b. eine Länge von eins gewählt wurde ein Band mit der breite von 32 Diagonalen gebildet. Das entspricht einer Breite von 16 Diagonalen von init1 ausgehend auf einer und 16 Diagonalen inklusive init1 auf der anderen Seite. Das Ergebnis dieses Alignment wird opt genannt und als Ergebnismenge mit init1 und initn zusätzlich zur gefundenen Sequenz ausgegeben. Diese drei Werte können dann zu einer Bewertung der statistischen Signifikanz der gefundenen Sequenzen aus der Datenbank verwendet werden. Variationen der FASTA-Familie Programm FASTA-Protein FASTA-Nukleotid Funktion Unterstützt Vergleiche gegen eine Protein-Datenbank Unterstützt Vergleiche gegen eine Nukleotid-Datenbank 3.2 Der BLAST - Algorithmus Der BLAST - Algorithmus ( basic local alignment search tool ) wurde im Jahre 1990 durch S. Altschul, W. Gish, W. Miller, E. Myers und D. Lipman, der auch schon an der Entwicklung des FASTA - Algorithmus beteiligt war, ins Leben gerufen und beruht im Wesentlichen auf drei Verbesserungen des FASTA - Algorithmus. Die Erste ist D. Lipman und anderen am NCBI (National Center for Biotechnology Information) zuzuschreiben, die durch das Einführen strengerer Regeln zum Auffinden von hot-spots die Geschwindigkeit wesentlich verbessern konnten. Bei der zweiten Verbesserung handelt es sich um die Erweiterung der Suchwortliste um ähnliche Wörter zu den darin bereits enthaltenen Suchwörtern, so genannte Nachbarwörter durch E. Myers. Die dritte Verbesserung, das Hinzufügen eines statistisch aussagekräftigen Wertes, dem E-Value, wurde schließlich von Karlin, Altschul und Dembo eingeführt. Der Algorithmus besteht im Wesentlichen aus drei Teilen: 1. Dem Erstellen einer Suchwortliste mit Wörtern der Länge W 2. Dem Suchen von Treffern seeds anhand der Suchwortliste 3. Dem Ausdehnen der relevanten Treffer Um nun den Algorithmus detaillierter zu betrachten, ist es zunächst nötig einige Parameter und Definitionen genauer zu kennen. Als Aufrufparameter können angegeben werden: 1. Die zu durchsuchende Datenbank 2. Die zu verwendende Substitutionsmatrix 3. Der Grenzwert T für den Score bei der Erstellung der Suchwortliste bzw. dem Auffinden der seeds (Voreinstellung: 3-5 für die Suche in Protein-Datenbanken, 12 für die Suche in DNA-Datenbanken) 4. Der Grenzwert C für den Score zum Auffinden von MSPs (maximal segment pairs) und/oder ein Grenzwert E für den E-Value der ermittelten Alignments 4

5 Ein MSP (maximal segment pair) ist definiert wie folgt. Ein lokales MSP ist ein Paar zweier gleichlanger, lückenloser Subsequenzen S1.x und S2.x aus zwei Sequenzen S1 und S2, dessen Alignment-Score sich durch Verlängern oder Verkürzen der Subsequenzlänge um eine Aminosäure bzw. ein Nukleotid nur verschlechtern würde (im nachstehenden Bsp. grau markiert). Ein MSP ist das lokale MSP, dessen Alignment-Score im Vergleich zu allen anderen lokalen MSPs am höchsten ist (im nachstehenden Bsp. das Alignment mit Alignment-Score S=34). Beispiel mit der Substitutionsmatrix Blosum62: lokales MSP S=34 lokales MSP S=30 S1: L N K T C P Q G W F A Q R P W I K G P Q G W F A Q R N I S2: C K Q G C P S G W W A V N K G S Q S P S G W W A V L L K MSP Betrachten wir nun den ersten Schritt, das Erstellen der Suchwortliste genauer. Zunächst stellt sich natürlich die Frage, was nun die beste Länge für W ist. Anbetracht der Tatsache, dass ein unüberlegtes Auswählen der Parameter erheblichen Einfluss auf den Nutz- und Wirkungsgrad von BLAST hat, sollte W nicht zu kurz aber auch nicht zu lang sein. Daher wird für eine Suche in einer Protein-Datenbank für W ein Wert von 3-5 Aminosäuren und im Falle einer DNA-Datenbanksuche von ungefähr 12 Nukleotiden empfohlen. Doch nun zum eigentlichen Erstellen der Suchwortliste. Zu diesem Zweck werden zunächst alle Suchwörter anhand eines Fensters der Länge W (Wortlänge) ermittelt. Dies geschieht durch gezieltes Weiterrücken des Fensters um jeweils eine Aminosäure bzw. eine Base beginnend am Anfang der Abfragesequenz bis zum Ende der selbigen. Beispiel mit Wortlänge W= 3: Abfragesequenz: Suchwortliste: GSQSLAALLNKCKTPQGQRLVNQWIK GSQ SQS QSL PQG QWI WIK Handelt es sich um eine Suche in einer DNA-Datenbank, wird an dieser Stelle mit dem zweiten Schritt fortgefahren. Bei Suchen in Proteindatenbanken allerdings, werden zusätzlich zu allen ermittelten Suchwörtern auch alle ähnlichen Wörter ermittelt, deren Score, bei einem Alignment zwischen Suchwort und einem ähnlichen Wort, über den angegebenen Grenzwert T liegt. Beispiel mit einem Grenzwert T=13 und der Substitutionsmatrix Blosum62: GSQSLAALLNKCKTPQGQRLVNQWIK Suchwort PQG 18 Benachbarte PEG 15 Wörter PRG 14. PKG 14. PNG 13. PDG 13. PHG 13. PMG 13. PSG 13 Score Grenzwert (T=13) PQA 12 PQN 12 etc.... 5

6 (Der Grund für diese verschiedenen Strategien beim Erstellen der Suchwortliste ist in der unterschiedlichen Größe der Alphabete zu finden.) Der zweite Schritt ist weitaus einfacher. Anhand der zuvor erstellten Suchwortliste wird in den Sequenzen der ausgewählten Datenbank nach diesen Wörtern gesucht. Die Treffer ( hits ) werden in BLAST seeds genannt und sind im anschließenden Schritt von enormer Bedeutung. In Schritt drei werden die seeds in beide Richtungen erweitert und geprüft ob es sich hierbei um MSPs (maximal segment pairs) handelt, deren Score über dem Schwellenwert C. Ist das der Fall, wird die somit gefunden Sequenz in die Resultliste aufgenommen und nach der Verarbeitung zurückgegeben. Um den Vorgang zu beschleunigen, wird bereits während der Erweiterung der seeds geprüft, wie sich der Score im Verhältnis zu dem Besten einer zuvor durchgeführten, kürzeren Erweiterung verhält. Fällt dieser unter den verglichenen Wert, wird der Vorgang abgebrochen. Aus diesem Grund, kann BLAST auch nicht garantieren, dass jedes MSP gefunden wird, welches über bzw. unter den angegebenen Grenzwerten von C und E liegt. Der enorme Vorteil des BLAST-Algorithmus gegenüber von FASTA ist seine Geschwindigkeit und das zu jeder gefundenen Sequenz auch noch statistisch aussagekräftigere Daten wie der E-Value und der Bit-Score angegeben werden. Diese Daten sind enorm nützlich zur Interpretation der Ergebnismenge. Der Bit-Score ist die quantitative Bewertung der Ähnlichkeit einer gefundenen Suchsequenz mit einer bekannten Sequenz. Er setzt sich aus der Summe der Einzelscores zusammen, die nach bestimmten Parametern normalisiert wurden. Je höher der Score, desto höher ist auch die Identität der beiden Sequenzen. Der E-Value (Expactation-Value) ist die statistische Signifikanz für den gefundenen Treffer bei einer Datenbanksuche. Er zeigt an, wie viele Treffer gleicher Qualität zufällig auftreten könnten. Je kleiner der Wert, desto höher die Signifikanz, dass es sich nicht um einen zufälligen Treffer handelt. Die BLAST-Familie beinhaltet u.a. folgende Variationen Programm BLASTp BLASTn BLASTx TBLASTn TBLASTx Funktion Vergleicht eine Aminosäure-Sequenz gegen eine Protein-Datenbank Vergleicht eine Nukleotid-Sequenz gegen eine Nukleotid-Datenbank Zerlegt eine Nukleotid-Sequenz in alle sechs Leserahmen und vergleicht jede Übersetzung gegen eine Protein-Datenbank Vergleicht eine Protein-Sequence gegen eine Nukleotid-Datenbank nachdem jede Sequence in alle sechs Leserahmen übersetzt wurde Zerlegt eine Nukleotid-Sequenz in alle sechs Leserahmen und vergleicht die Übersetzung jedes Leserahmen mit der ebenfalls in alle sechs Leserahmen zerlegten und übersetzten Sequenz einer Nukleotid- Datenbank (Vergleich auf Proteinebene) 6

7 4 Definitionen 4.1 Alignment-Score Der Alignment Score oder nur Score ist Maß für die Qualität eines Alignments. Der Score wird berechnet als die Summe der einzelnen Scores für jeden Match im Alignment minus der Strafpunkte für die Anzahl und die Länge der Gaps. 4.2 Substitutionsmatrix (Scoring Matrix) Eine Substitutionsmatrix ist eine Matrix, die jedem möglichen Aminosäure- oder Nukleotidpaar einen Wert zuteilt, der Auskunft über die relative Rate der Mutation von einer Aminosäure bzw. einem Nukleotid in eine ander Aminosäure bzw. ein anderes Nukleotid gibt. Die Matrix wird verwendet, um einen Alignmentscore zu berechnen. 4.3 Heuristik, Heuristische Methoden Heuristische Methoden kommen zum Einsatz, um zulässige Lösungen für ein bestimmtes Problem zu erhalten, welche in kurzer Zeit und ohne großen Aufwand erzeugt werden können. Hierbei wird in Kauf genommen, dass heuristische Methoden nur Annäherungen an eine genaue Berechnung sind, die eine reduzierte Genauigkeit der Ergebnisse aufgrund der wesentlich gesteigerten Effizienz zur Folge haben. 4.4 Dynamic programming Das Verfahren des dynamic programming besteht darin, ein großes, zunächst scheinbar unlösbares Problem solange in gleichartige kleinere Teilprobleme zu zerlegen, bis es eine Lösung für eines der Teilprobleme gibt. Auf die jeweilige Teillösung aufbauend können nun alle nächst größeren Teilprobleme gelöst werden, bis das gesamte Problem gelöst ist. Hierbei werden einmal berechnete Teilergebnisse zwischengespeichert und für die Berechnung gleichartiger Teilprobleme herangezogen anstatt diese immer wieder neu zu berechnen. 4.5 MSP (Maximal Segment Pair) Ein lokales MSP ist ein Paar zweier gleichlanger, lückenloser Subsequenzen S1.x und S2.x aus zwei Sequenzen S1 und S2, dessen Alignment-Score sich durch Verlängern oder Verkürzen der Subsequenzlänge um eine Aminosäure bzw. ein Nukleotid nur verschlechtern würde. Ein MSP ist das lokale MSP, dessen Alignment-Score im Vergleich zu allen anderen lokalen MSPs am höchsten ist. 4.6 Bit-Score Der Bit-Score ist die quantitative Bewertung der Ähnlichkeit einer gefundenen Suchsequenz mit einer bekannten Sequenz. Er setzt sich aus der Summe der Einzelscores zusammen, die nach bestimmten Parametern normalisiert wurden. Je höher der Score, desto höher ist auch die Identität der beiden Sequenzen. 4.7 E-Value Der E-Value (Expactation-Value) ist die statistische Signifikanz für den gefundenen Treffer bei einer Datenbanksuche. Er zeigt an, wie viele Treffer gleicher Qualität zufällig auftreten könnten. Je kleiner der Wert, desto höher die Signifikanz, dass es sich nicht um einen zufälligen Treffer handelt. 7

8 5 Quellen J. Setubal, J. Meidanis: Introduction to Computational Molecular Biology, PWS, 1997; Abschnitte 3.1, 3.5. D. Gus?eld: Algorithms on Strings, Trees, and Sequences Computer Science and Computational Biology, Cambridge University Press, 1997; Kapitel 15. D.W. Mount: Bioinformatics Sequence and Genome Analysis, Cold Spring Harbor Laboratory Press, 2001, Kapitel 7. 6 Programme GenBank Release 171.0: UniProtKB/Swiss-Prot Release 57.3: UniProtKB/TrEMBL Release 40.3: FASTA: BLAST: 8

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Studiengang Informatik der FH Gießen-Friedberg Sequenz-Alignment Jan Schäfer WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel Überblick Einführung Grundlagen Wann ist das Merkmal der Ähnlichkeit erfüllt?

Mehr

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02

BLAST. Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST Ausarbeitung zum Proseminar Vortag von Nicolás Fusseder am 24.10.02 BLAST (Basic Local Alignment Search Tool) hat seit seiner Veröffentlichung, von Altschul et al. im Jahre 1990, an großer Relevanz

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Was ist Bioinformatik?

Was ist Bioinformatik? 9. Kurstag: Bioinformatik Der Begriff "Bioinformatik" wurde 1989 erstmals von D.R. Masys im JOURNAL OF RESEARCH OF THE NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY erwähnt. Was ist Bioinformatik? Die

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche MOL.504 Analyse von DNA- und Proteinsequenzen Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche Summary Modul 1 - Datenbanken Wo finde ich die DNA Sequenz meines Zielgens? Wie erhalte ich Info aus der DNA-Datenbank

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands

Mehr

Vorlesung Einführung in die Bioinformatik

Vorlesung Einführung in die Bioinformatik Vorlesung Einführung in die Bioinformatik Dr. Stephan Weise 04.04.2016 Einführung Gegeben: zwei Sequenzen Gesucht: Ähnlichkeit quantitativ erfassen Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme MOL.504 Analyse von DNA- und Proteinsequenzen Datenbanken & Informationssysteme Inhaltsübersicht Informationsysteme National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute

Mehr

BLAST Basic Local Alignment Search Tool

BLAST Basic Local Alignment Search Tool BLAST Basic Local Alignment Search Tool Martin Winkels 21.12.2012 wissen leben WWU Münster Institut für Medizinische Informatik Inhaltsverzeichnis Inhaltsverzeichnis Inhaltsverzeichnis 1 Einleitung 2 2

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken Übungen Sommersemester 2004 Silke Trißl Prof. Ulf Leser Wissensmanagement in der Bioinformatik Organisatorisches Mittwoch 11 13 Uhr, RUD26 0'313 Mi, 05. Mai 2004 entfällt

Mehr

Sequenz Alignment Teil 2

Sequenz Alignment Teil 2 Sequenz Alignment Teil 2 14.11.03 Vorlesung Bioinformatik 1 Molekulare Biotechnologie Dr. Rainer König Besonderen Dank an Mark van der Linden, Mechthilde Falkenhahn und der Husar Biocomputing Service Gruppe

Mehr

Threading - Algorithmen

Threading - Algorithmen Threading - Algorithmen Florian Lindemann 22.11.2007 Florian Lindemann () Threading - Algorithmen 22.11.2007 1 / 25 Gliederung 1 Prospect Scoring Function Algorithmus Weitere Eigenschaften Komplexität

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Substitutionsmatrizen BLAST Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Substitutionsmatrizen: PAM und BLOSSUM Suche in Datenbanken: Basic Local Alignment Search

Mehr

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2016/2017: Bioinformatik - Übung 1 Erstellen Sie vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern kö nnen (z.b.

Mehr

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 3 - Montag Tim Conrad AG Medical Bioinformatics Institut für Mathematik & Informatik, Freie Universität Berlin Vorlesungsthemen Part 1: Background

Mehr

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Alignment-Verfahren zum Vergleich biologischer Sequenzen zum Vergleich biologischer Sequenzen Hans-Joachim Böckenhauer Dennis Komm Volkshochschule Zürich. April Ein biologisches Problem Fragestellung Finde eine Methode zum Vergleich von DNA-Molekülen oder Proteinen

Mehr

Bioinformatik an der FH Bingen

Bioinformatik an der FH Bingen Bioinformatik an der FH Bingen Prof. Dr. Antje Krause 05.11.2010 Wie alles begann... 1955 erste Proteinsequenz (nach 12 Jahren Arbeit) veröffentlicht (Insulin vom Rind) Frederick Sanger MALWTRLRPLLALLALWPPPPA

Mehr

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Motivation BLAST / FASTA und Verwandte sind *die* Bioinformatik Anwendung Teilweise synonym für Bioinformatik rundlegende

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik SS 2012 1. Was ist Bioinformatik? Kay Nieselt Integrative Transkriptomik Zentrum für Bioinformatik Tübingen Kay.Nieselt@uni-tuebingen.de Ablauf und Formales Ringvorlesung

Mehr

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik Kapitel 7: Sequenzen- Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS11 19. VO 14. Juni 2007 1 Literatur für diese VO Volker

Mehr

Biowissenschaftlich recherchieren

Biowissenschaftlich recherchieren Biowissenschaftlich recherchieren Uber den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik Nicola Gaedeke Birkhauser Basel Boston Berlin Inhaltsverzeichnis Vorwort xi 1 Die Informationssucheim

Mehr

Gliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz

Gliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz Gliederung Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung II D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg

Mehr

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik.

InterPro & SP-ML. Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik. InterPro & SP-ML Syntax und Verwendung der Beschreibungssprache XML Ausarbeitung im Seminar XML in der Bioinformatik Stefan Albaum 18. Dezember 2002 Inhaltsverzeichnis 1 SPTr-XML 2 1.1 SWISS-PROT...........................

Mehr

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie und Sequenzähnlichkeit Prof. Dr. Antje Krause FH Bingen 06721 / 409 253 akrause@fh-bingen.de Homologie Verwandtschaft aufgrund gleicher Abstammung basiert auf Speziation (Artbildung): aus einer

Mehr

Applied Bioinformatics. maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex

Applied Bioinformatics. maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex Applied Bioinformatics SS 2013 maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex Organisatorisches Termine Mo 18.03.2013 RR19 9:00 Di 19.03.2013 RR19 9:00 Mi 20.03.2013 RR19 9:00 Übungsziele

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche MOL.504 Analyse von DNA- und Proteinsequenzen Übungsaufgaben BLAST-Sequenzsuche und -vergleiche Ü6a blastn und blastx Verwenden Sie die in Übung 3 (Datenbanken) gefundene yqjm-sequenz aus Bacillus subtilis

Mehr

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT

SQL. SQL SELECT Anweisung SQL-SELECT SQL-SELECT SQL SQL SELECT Anweisung Mit der SQL SELECT-Anweisung werden Datenwerte aus einer oder mehreren Tabellen einer Datenbank ausgewählt. Das Ergebnis der Auswahl ist erneut eine Tabelle, die sich dynamisch

Mehr

Einführung in die Bioinformatik Algorithmen zur Sequenzanalyse

Einführung in die Bioinformatik Algorithmen zur Sequenzanalyse Einführung in die Bioinformatik Algorithmen zur Sequenzanalyse!! Vorläufige Fassung, nur einzelne Abschnitte!!!! Enthält wahrscheinlich noch viele Fehler!!!! Wird regelmäßig erweitert und verbessert!!

Mehr

Bioinformatik I (Einführung)

Bioinformatik I (Einführung) Kay Diederichs, Sommersemester 2015 Bioinformatik I (Einführung) Algorithmen Sequenzen Strukturen PDFs unter http://strucbio.biologie.unikonstanz.de/~dikay/bioinformatik/ Klausur: Fr 17.7. 10:00-11:00

Mehr

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme

Ausarbeitung zum Modulabschluss. Graphentheorie. spannende Bäume, bewertete Graphen, optimale Bäume, Verbindungsprobleme Universität Hamburg Fachbereich Mathematik Seminar: Proseminar Graphentheorie Dozentin: Haibo Ruan Sommersemester 2011 Ausarbeitung zum Modulabschluss Graphentheorie spannende Bäume, bewertete Graphen,

Mehr

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten 1 Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten (inkl. Anleitungen zur Recherche von Sequenzen mit GenBank und zur Analyse mit GeneDoc) In der Computer-basierten Version

Mehr

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Dynamische Programmierung. Problemlösungsstrategie der Informatik als Problemlösungsstrategie der Informatik und ihre Anwedung in der Diskreten Mathematik und Graphentheorie Fabian Cordt Enisa Metovic Wissenschaftliche Arbeiten und Präsentationen, WS 2010/2011 Gliederung

Mehr

Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST

Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST Einführung in die Angewandte Bioinformatik: Sequenzähnlichkeit, Sequenzalignment, BLAST 10.06.2010 Prof. Dr. Sven Rahmann 1 Sequenzvergleich: Motivation Hat man die DNA-Sequenz eines Gens, die Aminosäuresequenz

Mehr

Alignment von DNA- und Proteinsequenzen

Alignment von DNA- und Proteinsequenzen WS2012/2013 Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Thomas Hankeln Alignment von DNA- und Proteinsequenzen das vielleicht wichtigste Werkzeug der Bioinformatik! 1

Mehr

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1 Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1 Erstellen Sie bitte vor Beginn der Übung einen Ordner auf dem Desktop, in dem Sie alle benötigten Dateien speichern können

Mehr

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Daniel Reinhold Shenja Leiser 6. Februar 2006 2/28 Gliederung Einführung Transitive Hülle Definition Iterative Algorithmen 1. Naive

Mehr

Genomsequenzierung für Anfänger

Genomsequenzierung für Anfänger Genomsequenzierung für Anfänger Philipp Pagel 8. November 2005 1 DNA Sequenzierung Heute wird DNA üblicherweise mit der sogenannten Sanger (oder chain-terminationoder Didesoxy-) Methode sequenziert dessen

Mehr

Statistische Methoden in der Bioinformatik

Statistische Methoden in der Bioinformatik Statistische Methoden in der Bioinformatik Prof. Dr. Jörg Rahnenführer Raum 720 Email: rahnenfuehrer@statistik. tu-.de Voraussetzungen: Vordiplom in Statistik, Mathematik, Datenanalyse, Informatik Zeiten

Mehr

9. Heuristische Suche

9. Heuristische Suche 9. Heuristische Suche Prof. Dr. Rudolf Kruse University of Magdeburg Faculty of Computer Science Magdeburg, Germany rudolf.kruse@cs.uni-magdeburg.de S Heuristische Suche Idee: Wir nutzen eine (heuristische)

Mehr

Sequenzen-Alignierung in der Bioinformatik

Sequenzen-Alignierung in der Bioinformatik Sequenzen-Alignierung in der Bioinformatik VO Algorithm Engineering Professor Dr. Petra Mutzel Lehrstuhl für Algorithm Engineering, LS 22. VO 23..26 Literatur für diese VO Volker Heun: Skriptum zur Vorlesung

Mehr

1. Beispiel 1, die Tabelle Daten 1

1. Beispiel 1, die Tabelle Daten 1 Nachdem ich im letzten Newsletter einige Funktionen vorgestellt habe, biete ich im Newsletter vom März praktische Anwendungsbeispiele dazu an. Im ersten Beispiel in der Tabelle Daten1 geht es darum, gezielt

Mehr

Signifikanz von Alignment Scores und BLAST

Signifikanz von Alignment Scores und BLAST Westfälische Wilhelms Universität Münster Fachbereich 10 - Mathematik und Informatik Signifikanz von Alignment Scores und BLAST Seminarvortrag von Leonie Zeune 10. Mai 2012 Veranstaltung: Seminar zur mathematischen

Mehr

Mathematik in den Life Siences

Mathematik in den Life Siences Gerhard Keller Mathematik in den Life Siences Grundlagen der Modellbildung und Statistik mit einer Einführung in die Statistik-Software R 49 Abbildungen Verlag Eugen Ulmer Stuttgart Inhaltsverzeichnis

Mehr

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science

Bioinformatik: Schnittstelle zwischen Informatik und Life-Science Bioinformatik: Schnittstelle zwischen Informatik und Life-Science Andreas Zendler (PD Dr.rer.nat.Dr.phil.) GI / GChACM 12. ovember 2001 Inhaltsübersicht I. Einführung II. Bioinformatik III. Industrial

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Enno Abteilung Theoretische Informatik Universität Ulm October 18, 2016 Überblick 1 Datenbanken Sequenzformate 2 Multiple 3 FASTA BLAST 4 Datenbanken Überblick Datenbanken Sequenzformate exponentielles

Mehr

Informationsvisualisierung

Informationsvisualisierung Informationsvisualisierung Thema: 7. Visualisierung Biologischer Daten Dozent: Dr. Dirk Zeckzer zeckzer@informatik.uni-leipzig.de Sprechstunde: nach Vereinbarung Umfang: 2 Prüfungsfach: Modul Fortgeschrittene

Mehr

A2.3 Lineare Gleichungssysteme

A2.3 Lineare Gleichungssysteme A2.3 Lineare Gleichungssysteme Schnittpunkte von Graphen Bereits weiter oben wurden die Schnittpunkte von Funktionsgraphen mit den Koordinatenachsen besprochen. Wenn sich zwei Geraden schneiden, dann müssen

Mehr

Bivalvia - Bivalves - Muscheln. Band 3

Bivalvia - Bivalves - Muscheln. Band 3 Bivalvia - Bivalves - Muscheln Band 3 Uwe Kraeft & Michael Kraeft 2016 Berichte aus der Geowissenschaft Uwe Kraeft & Michael Kraeft Bivalvia - Bivalves - Muscheln Band 3 Shaker Verlag Aachen 2016 Bibliografische

Mehr

16. All Pairs Shortest Path (ASPS)

16. All Pairs Shortest Path (ASPS) . All Pairs Shortest Path (ASPS) All Pairs Shortest Path (APSP): Eingabe: Gewichteter Graph G=(V,E) Ausgabe: Für jedes Paar von Knoten u,v V die Distanz von u nach v sowie einen kürzesten Weg a b c d e

Mehr

From gene to 3D model

From gene to 3D model From gene to 3D model Ein neues Gen, was nun? 1. Database search 2. Mitglied einer Proteinfamilie spezifische Domänen 3. Gibt es Hinweise auf die Funktion, Lokalisierung 4. Expression des Gens 5. Modeling

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Algorithmen auf Sequenzen 12.04.2010

Algorithmen auf Sequenzen 12.04.2010 Algorithmen auf Sequenzen 12.04.2010 Prof. Dr. Sven Rahmann 1 Team Prof. Dr. Sven Rahmann Dipl.-Inform Tobias Marschall (Skript) Zeit Mo 8:30-10; Übungen Mi 8:30-10 ca. alle 2 Wochen (Plan!) Ort OH14,

Mehr

DATENQUALITÄT IN GENOMDATENBANKEN

DATENQUALITÄT IN GENOMDATENBANKEN DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten

Mehr

Verbesserungsheuristiken

Verbesserungsheuristiken Verbesserungsheuristiken Bestandteile der Lokalen Suche Für schwierige Optimierungsaufgaben haben Verbesserungsheuristiken eine große praktische Bedeutung. Sie starten mit Ausgangslösungen, die von z.b.

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 5. Übungsblatt Aufgabe 1: Covering-Algorithmus und Coverage-Space Visualisieren Sie den Ablauf des Covering-Algorithmus

Mehr

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck Informationstechnologie in der Pflanzenzüchtung Biocomputing in einem Züchtungsunternehmen Andreas Menze KWS SAAT AG, Einbeck Biocomputing in einem Züchtungsunternehmen Biocomputing Was ist das? Wozu wird

Mehr

6 DATENBANKEN Datenbank. mit Spaltenüberschriften,

6 DATENBANKEN Datenbank. mit Spaltenüberschriften, 6 DATENBANKEN 6.1. Datenbank Eine Datentabelle mit Spaltenüberschriften, bei der in einer Spalte jeweils gleichartige Daten, stehen nennt man Datenbank. In Excel können kleine Datenbanken komfortabel verwaltet

Mehr

BLAST. Datenbanksuche mit BLAST. Genomische Datenanalyse 10. Kapitel

BLAST. Datenbanksuche mit BLAST.  Genomische Datenanalyse 10. Kapitel Datenbanksuche mit BLAST BLAST Genomische Datenanalyse 10. Kapitel http://www.ncbi.nlm.nih.gov/blast/ Statistische Fragen Datenbanksuche Query Kann die globale Sequenzähnlichkeit eine Zufallsfluktuation

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Gene Finding mit Markov-Modellen Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc).

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc). Skriptname: ROC_pAUC7.jsl JMP-Version: JMP 7 Datum: 10.09.2007 Download: ROC.zip Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under

Mehr

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop 22.-23. März 2011. Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop 22.-23. März 2011. Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund Die Suche nach Genen in Bakteriengenomen BWInf-Workshop 22.-23. März 2011 Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund 1 Bioinformatik was ist das? Aufgabe: Analyse (molekular)biologischer

Mehr

Sortieralgorithmen. Inhalt: InsertionSort BubbleSort QuickSort. Marco Block

Sortieralgorithmen. Inhalt: InsertionSort BubbleSort QuickSort. Marco Block Inhalt: InsertionSort BubbleSort QuickSort Block M.: "Java-Intensivkurs - In 14 Tagen lernen Projekte erfolgreich zu realisieren", Springer-Verlag 2007 InsertionSort I Das Problem unsortierte Daten in

Mehr

Seminar über aktuelle Forschungsthemen in der Algorithmik, Dozent Prof. Dr. Alt;

Seminar über aktuelle Forschungsthemen in der Algorithmik, Dozent Prof. Dr. Alt; Seminar über aktuelle Forschungsthemen in der Algorithmik, Dozent Prof. Dr. Alt Referent Matthias Rost 1 Einleitung Definitionen Maximaler Dynamischer Fluss Algorithmus von Ford-Fulkerson Techniken zur

Mehr

Phylogenetische Analyse

Phylogenetische Analyse Bioinformatik I - Uebung Phylogenetische Analyse Wenn nicht anders angegeben verwende die Standard-Einstellungen der Programme Hintergrund: Die Schwämme (Phylum Porifera) gehören zu den den ältesten lebenden

Mehr

Westfählische Wilhelms-Universität. Eulersche Graphen. Autor: Jan-Hendrik Hoffeld

Westfählische Wilhelms-Universität. Eulersche Graphen. Autor: Jan-Hendrik Hoffeld Westfählische Wilhelms-Universität Eulersche Graphen Autor: 21. Mai 2015 Inhaltsverzeichnis 1 Das Königsberger Brückenproblem 1 2 Eulertouren und Eulersche Graphen 2 3 Auffinden eines eulerschen Zyklus

Mehr

Softwarewerkzeuge der. Bioinformatik

Softwarewerkzeuge der. Bioinformatik Bioinformatik Wintersemester 2006/2007 Tutorial 1: Biologische Datenbanken SRS Tutorial 1: Datenbanken 1/22 Sequenzquellen DNA- Sequenzierung Protein- Sequenzierung Translation Proteinsequenzen Tutorial

Mehr

Euklidische Distanzmatrizen. Andrei Grecu

Euklidische Distanzmatrizen. Andrei Grecu Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer

Mehr

Einführung in die linearen Funktionen. Autor: Benedikt Menne

Einführung in die linearen Funktionen. Autor: Benedikt Menne Einführung in die linearen Funktionen Autor: Benedikt Menne Inhaltsverzeichnis Vorwort... 3 Allgemeine Definition... 3 3 Bestimmung der Steigung einer linearen Funktion... 4 3. Bestimmung der Steigung

Mehr

Kodieren Von Graphen

Kodieren Von Graphen Kodieren Von Graphen Allgemeine Anwendungen: Routenplaner Netzpläne Elektrische Schaltungen Gebäudeerkennung aus Luftaufnahmen Definitionen:? Graph Ein Graph G besteht aus einem geordneten Paar G = (V,E)

Mehr

4. Relationen. Beschreibung einer binären Relation

4. Relationen. Beschreibung einer binären Relation 4. Relationen Relationen spielen bei Datenbanken eine wichtige Rolle. Die meisten Datenbanksysteme sind relational. 4.1 Binäre Relationen Eine binäre Relation (Beziehung) R zwischen zwei Mengen A und B

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Viertes Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Viertes Übungsblatt WS 05/06 Musterlösung Konstantin Clemens Johanna Ploog Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Viertes

Mehr

Methoden des Algorithmenentwurfs Kapitel 2.2: Randomisierte Online Algorithmen

Methoden des Algorithmenentwurfs Kapitel 2.2: Randomisierte Online Algorithmen Methoden des Algorithmenentwurfs Kapitel 2.2: Randomisierte Online Algorithmen Christian Scheideler SS 2009 16.07.2009 Kapitel 2 1 Übersicht Notation Paging Selbstorganisierende Suchstrukturen Finanzielle

Mehr

Lokale Sequenzähnlichkeit. Genomische Datenanalyse 9. Kapitel

Lokale Sequenzähnlichkeit. Genomische Datenanalyse 9. Kapitel Lokale Sequenzähnlichkeit Genomische Datenanalyse 9. Kapitel Globale Sequenzähnlichkeit: Zwei Cytochrome C Sequenzen: Eine vom Menschen und eine aus der Maus. Die Sequenzen sind gleich lang, man kann sie

Mehr

Modellierung biologischer. Christian Maidorfer Thomas Zwifl (Seminar aus Informatik)

Modellierung biologischer. Christian Maidorfer Thomas Zwifl (Seminar aus Informatik) Modellierung biologischer Prozesse Christian Maidorfer Thomas Zwifl (Seminar aus Informatik) Überblick Einführung Arten von Modellen Die stochastische Pi-Maschine Warum Modelle Die Biologie konzentriert

Mehr

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio

Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Modul 8: Bioinformatik A. Von der DNA zum Protein Proteinsynthese in silicio Ein Wissenschaftler erhält nach einer Sequenzierung folgenden Ausschnitt aus einer DNA-Sequenz: 5 ctaccatcaa tccggtaggt tttccggctg

Mehr

Algorithmen und Datenstrukturen CS1017

Algorithmen und Datenstrukturen CS1017 Algorithmen und Datenstrukturen CS1017 Th. Letschert TH Mittelhessen Gießen University of Applied Sciences Organisatorisches und Einführung Lehrpersonal Dozent Dr. Letschert Tutoren Alissia Sauer Jonas

Mehr

Problemreduktion durch Transformation am Beispiel des. Erweiterten Euklidschen Algorithmus

Problemreduktion durch Transformation am Beispiel des. Erweiterten Euklidschen Algorithmus Problemreduktion durch Transformation am Beispiel des Erweiterten Euklidschen Algorithmus Wolfgang Windsteiger JKU Linz, A 4040 Linz, Austria Kurzfassung Transformation beschreibt im Wesentlichen die algorithmische

Mehr

FOR MUW SSM3 (2008) STUDENTS EDUCATIONAL PURPOSE ONLY

FOR MUW SSM3 (2008) STUDENTS EDUCATIONAL PURPOSE ONLY Angewandte Bioinformatik Grundlagen der Annotation von eukaryotischen Genomen Online Datenbanken und Bioinformatik Tools Sequenzen Sequenzalignment: Fasta und Blast Motive und Hidden Markov Models Genom-Browser

Mehr

SCHULSPEZIFISCHEN ROLLENRECHTE

SCHULSPEZIFISCHEN ROLLENRECHTE Bei BASISDATEN > ADMINISTRATION organisieren Sie, wer SOKRATES an Ihrer Schule mit welchen Rechten nutzen kann. Außerdem können unter ADMINISTRATION mit SOKRATES intern Texte an andere Schulen geschickt

Mehr

Computational Intelligence

Computational Intelligence Vorlesung Computational Intelligence Stefan Berlik Raum H-C 80 Tel: 027/70-267 email: berlik@informatik.uni-siegen.de Inhalt Überblick Rückblick Optimierungsprobleme Optimierungsalgorithmen Vorlesung Computational

Mehr

Klausur Informatik B April Teil I: Informatik 3

Klausur Informatik B April Teil I: Informatik 3 Informatik 3 Seite 1 von 8 Klausur Informatik B April 1998 Teil I: Informatik 3 Informatik 3 Seite 2 von 8 Aufgabe 1: Fragekatalog (gesamt 5 ) Beantworten Sie folgende Fragen kurz in ein oder zwei Sätzen.

Mehr

1 Zahlentheorie. 1.1 Kongruenzen

1 Zahlentheorie. 1.1 Kongruenzen 3 Zahlentheorie. Kongruenzen Der letzte Abschnitt zeigte, daß es sinnvoll ist, mit großen Zahlen möglichst einfach rechnen zu können. Oft kommt es nicht darauf, an eine Zahl im Detail zu kennen, sondern

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Bioinformatische Suche nach pre-mirnas

Bioinformatische Suche nach pre-mirnas Bioinformatische Suche nach pre-mirnas Vorbereitung: Lesen Sie die Publikationen Meyers et al., 2008, Criteria for Annotation of Plant MicroRNAs und Thieme et al., 2011, SplamiR prediction of spliced mirnas

Mehr

INVENTUR ab Classic Line 2010

INVENTUR ab Classic Line 2010 Computer & Software Dr. Pietzarka Tel. 0351-8890131 INVENTUR ab Classic Line 2010 Vorarbeiten - Alle verlassen die CL Datensicherung (z.b. Mandant kopieren), Sage CL 2010 Database Dienst auf dem Server

Mehr

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014 Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014 Fragen für die Übungsstunde 8 (14.07-18.07.) 1) Von der DNA-Sequenz zum Protein Sie können

Mehr

Vorlesung Bioinformatik Protein Threading

Vorlesung Bioinformatik Protein Threading Vorlesung Bioinformatik Protein Threading Dr. Axel Mosig 18. Mai 2004 Vorhersage der Tertiärstruktur von Proteinen Ab Initio-Methoden (z.b. via Molecular Dynamics) sind rechenintensiv; nur in Einzelfällen

Mehr

Dynamische Geometrie

Dynamische Geometrie Dynamische Geometrie 1) Die Mittelsenkrechten, die Seitenhalbierenden, die Höhen und die Winkelhalbierenden eines beliebigen Dreiecks schneiden sich jeweils in einem Punkt. a) Untersuchen Sie die Lage

Mehr

Bioinformatik für Biochemiker

Bioinformatik für Biochemiker Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 1. Einleitung Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht Was ist Bioinformatik? Inhalte der

Mehr

Programmieren, Algorithmen und Datenstrukturen II 8. Allgemeine Lösungsverfahren

Programmieren, Algorithmen und Datenstrukturen II 8. Allgemeine Lösungsverfahren Programmieren, Algorithmen und Datenstrukturen II 8. Allgemeine Lösungsverfahren 1 Übersicht 1. Ziele des Kapitels 2. Bereits behandelte Lösungsstrategien 3. Backtracking 4. Branch-and-Bound 5. Weiterführende

Mehr

Unterrichtsbeispiele

Unterrichtsbeispiele Dotplots als Werkzeuge der Bioinformatik Unterrichtsbeispiele Genkartierung des Human Immunodeficiency Virus (HIV) aus der Handreichung H-05-73 Bioinformatik in der Jahrgangstufe 1 Müller NE, Holtorf H,

Mehr

Verwendung eines KV-Diagramms

Verwendung eines KV-Diagramms Verwendung eines KV-Diagramms Ermittlung einer disjunktiven Normalform einer Schaltfunktion Eine Disjunktion von Konjunktionen derart, dass jeder Konjunktion ein Block in dem KV-Diagramm entspricht, der

Mehr

Problemstellungen der Bioinformatik Proseminar im Grundstudium, Sommersemester 2003

Problemstellungen der Bioinformatik Proseminar im Grundstudium, Sommersemester 2003 Problemstellungen der Bioinformatik Proseminar im Grundstudium, Sommersemester 2003 Themen 1 Genetischer Fingerabdruck 2 2 Sequence Alignment 2 3 FASTA und BLAST 2 4 Sequenzierung 2 5 Proteomics 2 6 Fragmentassemblierung:

Mehr

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Textdokument-Suche auf dem Rechner Implementierungsprojekt Textdokument-Suche auf dem Rechner Implementierungsprojekt Referent: Oliver Petra Seminar: Information Retrieval Institut für Computerlinguistik Ruprecht-Karls-Universität Heidelberg 19.01.2015 Überblick

Mehr

Produktentwicklung damit sollten Sie rechnen

Produktentwicklung damit sollten Sie rechnen Produktentwicklung damit sollten Sie rechnen 0. Zusammenfassung Wer Produktentwicklung betreiben will, muss in erster Linie sehr viel lesen: Dokumente aus unterschiedlichsten Quellen und in vielen Formaten.

Mehr

Bioinformatik Statistik und Analyse mit R 22.05.2009-1 -

Bioinformatik Statistik und Analyse mit R 22.05.2009-1 - Bioinformatik Statistik und Analyse mit R 22.05.2009-1 - Definition: Bioinformatik Die Bioinformatik http://de.wikipedia.org/wiki/bioinformatik (englisch bioinformatics, auch computational biology) ist

Mehr

KV Logik als Arbeitssprache. Christoph Hörtenhuemer LVA-Nummer: LVA-Leiterin: Wolfgang Windsteiger. Agnes Schoßleitner

KV Logik als Arbeitssprache. Christoph Hörtenhuemer LVA-Nummer: LVA-Leiterin: Wolfgang Windsteiger. Agnes Schoßleitner KV Logik als Arbeitssprache LVA-Nummer: 326.014 LVA-Leiterin: Wolfgang Windsteiger Abgabedatum: 02. 06. 2004 Christoph Hörtenhuemer 0355958 Agnes Schoßleitner 0355468 Inhaltsverzeichnis Kurzbeschreibung...

Mehr

3. rekursive Definition einer Folge

3. rekursive Definition einer Folge 3. rekursive Definition einer Folge In vielen Fällen ist eine explizite Formel für das n-te Glied nicht bekannt, es ist hingegen möglich, aus den gegebenen Gliedern das nächste Glied zu berechnen, d.h.

Mehr