Algorithmen und Datenstrukturen in der Bioinformatik Vorlesung von Dr. Gunnar Klau Wintersemester 2005/2006, FU Berlin gunnar@math.fu-berlin.de http://www.math.fu-berlin.de/~gunnar 1
Aus dem Vorlesungsverzeichnis: Ziel der Vorlesung Die Vorlesung gibt eine Einführung in grundlegende algorithmische Techniken und Datenstrukturen für Strings und Graphen. Dabei stehen bioinformatische Fragestellungen im Vordergrund. Es geht im Wesentlichen darum, Paradigmen (z. B. Dynamisches Programmieren, Divide and Conquer) und Konzepte (z. B. NP Vollständigkeit, Approximation) kennenzulernen, die in der algorithmischen Bioinformatik eine zentrale Rolle spielen. Diese Paradigmen und Konzepte werden zunächst allgemein vorgestellt und dann anhand von wichtigen bioinformatischen Themen vertieft (z. B. Dynamisches Programmieren Sequenzalignment). 2
Sprache Folien Skript Tafel Literatur Die Vorlesung wird auf Deutsch gehalten, es sei denn, Englisch ist von allen erwünscht. Die Folien sind auf Englisch (bis auf diesen Teil). Die Folien werden zeitnah online verfügbar gemacht. Eine Mitschrift des Folieninhaltes ist nicht nötig. sind KEIN Skript. Hinzu kommen Erklärungen, Tafelanschrieb, Beispiele, Hinweise, Anekdoten, Overheadfolien,... Gehen Sie in die Vorlesung und machen Sie sich Notizen. Lesen Sie ergänzende Literatur (Liste jeweils am Anfang der Kapitel, vollständige Liste auf der Webseite) Folien autoren : Clemens Gröpl (FU Berlin), Prof. Daniel Huson (Uni Tübingen), Gunnar Klau (FUB), Prof. Knut Reinert (FUB),... ( Lecture Pool ) 3
Übungen Die Übungen werden von Johanna Ploog und Konstantin Clemens gehalten. Bitte tragen Sie sich (mit ihrem FU-Email-Account) in die Mailingliste zur Vorlesung und Übung ein: http://lists.spline.inf.fu-berlin.de/mailman/listinfo/aldabi05/ Aktuelle Nachrichten werden bevorzugt über die Mailingliste verbreitet, Downloads gibt es auf der Veranstaltungswebseite http://www.inf.fu-berlin.de/lehre/ws05/aldabi Elektronische Anmeldung und Einteilung in die Übungsgruppen über das Vorlesungsverzeichnis des Fachbereichs (http://www.mi.fu-berlin.de/kvv/) 4
Übungen Ablauf und Regeln Es wird voraussichtlich zwölf Übungsblätter geben und zwar neun Blätter mit jeweils fünf Aufgaben und drei Programmieraufgaben Die regulären Übungsblätter werden in der Vorlesung ausgeteilt. Sie haben dann eine Woche Zeit zur Bearbeitung und geben Sie eine Woche später am Ende der Vorlesung ab. Die Blätter werden nicht korrigiert, aber mindestens die Hälfte der Aufgaben der neun regulären Blätter, also 23, müssen angekreuzt werden. Ankreuzen heißt, dass Sie diese Aufgabe gelöst haben und vorrechnen können. Die Übung wird also von Ihnen gestaltet, die Tutoren leiten die Übungen und ergänzen gegebenenfalls die Lösungen. 5
Benotung Vorlesung (2cr) Klausur am Semesterende: 16. Februar 2006 Nachklausur in der ersten Woche des Sommersemesters: 13. April 2006 Beide Klausuren sind unabhängige Prüfungsversuche im Sinne der Studienordnung. 6
Benotung (2) Übungen (4cr) Sie bearbeiten die wöchentlichen Übungsaufgaben schriftlich und präsentieren Ihre Lösungen in den Übungsstunden. Um eine positive Note zu erhalten, müssen Sie mehr als die Hälfte der 45 Übungsaufgaben angekreuzt haben. Es werden zwei Reviews geschrieben (am 13.12.2005 und am 7.2.2006). In diesen werden die Inhalte der Übungen abgeprüft. Die Reviews werden benotet und gehen zu 2 3 in die Übungsnote ein. Es werden drei Programmieraufgaben gestellt. Wir empfehlen die Verwendung der Programmiersprachen C++ oder Java. Die Programmieraufgaben werden in Code Reviews, die im Bioinf Pool stattfinden, benotet und gehen zu 1 3 in die Übungsnote ein. Sie dürfen Gruppen mit max. drei Teilnehmern bilden. Verwenden Sie, was sie wollen, der Code muss aber bei der Abgabe auf den Rechnern im Bioinf- Pool laufen, und Sie müssen erklären können, warum. 7
Termine Kontakt Vorlesung: Donnerstag, 14-16, Takustraße 9, Raum 005 Übungstermine: A Di. 10-12 Arnimallee 2-6, Raum 114 Konstantin Clemens B Di. 10-12 Arnimallee 2-6, Raum 111 Johanna Ploog C Di. 14-16 Arnimallee 2-6, Raum 126 Johanna Ploog D Di. 16-18 Arnimallee 2-6, Raum 111 Konstantin Clemens Kontakt: gunnar@math.fu-berlin.de Gunnar Klau (Tel. (838)-75865) offizielle Sprechstunde Do. 16:30 17:30 - E-mail schreiben - Raum 133 (über der Mathebibliothek ) jploog@inf.fu-berlin.de Johanna Ploog zacharov@inf.fu-berlin.de Konstantin Clemens geiger@math.fu-berlin.de Katja Geiger, Sekretariat (Tel. (838)-75866) Achtung: schwer zu finden 8
Themen der Vorlesung Pairwise sequence alignment. dynamic programming, divide and conquer, (greedy) graph algorithms FastA and the chaining problem heuristics, graph algorithms Multiple sequence alignment computational complexity,. approximation, heuristics Clustering and phylogenetic trees heuristics, graphs, trees, DP Hidden Markov models finite automata, hidden Markov models (Protein Threading) branch-and-bound 9
Ergänzende Literatur Am Anfang der Kapitel stehen die Quellen. Gute Bücher sind Neil C. Jones, Pavel A. Pevzner: An Introduction to Bioinformatics Algorithms. MIT Press, Cambridge, MA, 2004. ISBN 0-262-10106-8 R. Durbin, S. Eddy, A. Krogh, G. Mitchison: Biological sequence analysis. Cambridge University Press, 1998. ISBN 0-521-62971-3 David B. Mount: Bioinformatics. Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press, New York, 2001. ISBN 0-87969-608-7 10
Dates Okt 2005 Mo Di Mi Do Fr Sa So 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Nov 31 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Di: Code review P1 21 22 23 24 25 26 27 Dez 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Di: REVIEW 1 (60 Min.) 19 20 21 22 23 24 25 Ferien Jan 2006 26 27 28 29 30 31 1 Ferien 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Di: Code review P2 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Feb 30 31 1 2 3 4 5 6 7 8 9 10 11 12 Di: REVIEW 2 (60 Min.) 13 14 15 16 17 18 19 Di: Code review P3 Do: KLAUSUR (90 Min.) 20................... 11
Questions? 12