Algorithmische Bioinformatik

Ähnliche Dokumente
Algorithmische Bioinformatik

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

Karlsruher Institut für Technologie. Klausur Algorithmen I

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Bioinformatik Für Biophysiker

Klausur Bioinformatik für Biotechnologen

DAP2-Klausur

Anwendungen dynamischer Programmierung in der Biologie

RNA folding. W1-High-throughput Genomics, FU Berlin OWL RNA Bioinformatics, MPI Molgen Berlin

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Kapitel 7: Sequenzen- Alignierung in der Bioinformatik

Klausur Lineare Algebra I

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2018

Algorithmische Bioinformatik 1

Algorithmen und Datenstrukturen in der Bioinformatik Erstes Übungsblatt WS 05/06 Musterlösung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 4 Maschinelles Lernen und Spracherkennung

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Algorithmen und Datenstrukturen in der Bioinformatik Drittes Übungsblatt WS 05/06 Musterlösung

Bioinformatik Für Biophysiker

Probeklausur Optimierung

Klausur. Diskrete Mathematik I. Donnerstag, den um 14 Uhr

Klausur zum Fach Höhere Mathematik 2 für Informatik Teil 1

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Quantitative Methoden (CC 303)

Hauptklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2011/2012

Pairwise Alignment. Steffen Forkmann. Proseminar: BioInformatik

Klausur Informatik 2: Algorithmen und Datenstrukturen. Blättern Sie nicht um bevor Sie dazu aufgefordert werden!

Informatik II: Algorithmen & Datenstrukturen. Blättern Sie nicht um bevor Sie dazu aufgefordert werden!

Methoden für den Entwurf von Algorithmen

Hidden-Markov-Modelle

Technische Universität München Fakultät für Mathematik Algorithmische Diskrete Mathematik WS 2012/2013 Prof. Dr. P. Gritzmann 22.

Klausur Algorithmen und Datenstrukturen II 10. August 2015

Sequenz Alignment Teil 2

Theoretische Informatik: Berechenbarkeit und Formale Sprachen

Algorithmen und Datenstrukturen in der Bioinformatik

Theoretische Informatik: Berechenbarkeit und Formale Sprachen

Klausur Algorithmen und Datenstrukturen II

Name:... Matr.-Nr... Bearbeitungszeit: 120 Minuten. Lesen Sie die Aufgaben jeweils bis zum Ende durch; oft gibt es hilfreiche Hinweise!

Name:... Vorname:... Matr.-Nr.:... Studiengang:...

Algorithmen I - Tutorium 28 Nr. 12

Hauptdiplomklausur Informatik März 2001: Internet Protokolle

RNA Faltung - II. W1-High-throughput Genomics, FU Berlin OWL RNA Bioinformatics, MPI Molgen Berlin

Klausur. 18. Juli 2008, 10:15-12:15 Uhr. Name:... Matrikelnummer:... Anzahl beschriebener Blätter (ohne Aufgabenblatt):... D(p) : Y = p x X + p y

Musterklausur zur MSc-Vorlesung Entscheidungsverhalten

Klausur zu Lineare Algebra I für Informatiker, SS 07

Klausur zum Fach Höhere Mathematik 2 für Informatik Teil 1

Einführung in die Bioinformatik

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Prüfungs-/Übungsschein-Klausur (Rechenteil) Lineare Algebra für Ingenieure/E-Techniker

Klausur Algorithmen und Datenstrukturen

Klausur zur Linearen Algebra I

Klausur zur Vorlesung Informatik III Wintersemester 2007/2008

Aufgabe Mögliche Punkte Erreichte Punkte a b c d Σ a b c d Σ x1 13

Musterlösung zur Hauptklausur Theoretische Grundlagen der Informatik Wintersemester 2013/14

Klausur. Betriebssysteme SS 2007

Algorithmen auf Sequenzen

Datenstrukturen und Algorithmen D-INFK

Viel Erfolg! Prof. Große, Dr. Jüngel BA WS 15/16 Mathe+Statistik Klausur Jena, den Matrikelnummer. Name (lesbar!

FOLDALIGN und sein Algorithmus. Nadine Boley Silke Szymczak

Algorithmische Bioinformatik

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Vorlesung im Sommersemester Informatik IV. Probeklausurtermin: 21. Juni 2016

High Performance Computing Blatt 7

Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13)

Nachklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2013/14

Fachprüfung. Nachrichtencodierung

Klausur zum Fach Mathematik 1 Teil 1

Klausur Algorithmentheorie

2. Klausur Datenstrukturen und Algorithmen SS 2014

Klausur zur Vorlesung Einführung in das Operations Research im Wintersemester 2005/2006

Kapitel 1 Parallele Modelle Wie rechnet man parallel?

Klausur Algorithmen und Datenstrukturen II 29. Juli 2013

Aufgabe Mögliche Punkte Erreichte Punkte a b c d Σ a b c d Σ x1 12

Kursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL Sommmersemester Aufgabe Punkte

Algorithmische Bioinformatik

Klausur Algorithmentheorie

Klausur zur Vorlesung Logistik im WS 04/05

Klausur Algorithmentheorie

Transkript:

FREIE UNIVERSITÄT BERLIN Fachbereich Mathematik und Informatik Institut für Informatik (WE 3) FU BERLIN Freie Universität Berlin FB Mathematik und Informatik, Institut für Informatik, Takustr. 9, D-14195 Berlin Prof. Dr. Knut Reinert, Andreas Döring, Moritz Blöcker Algorithmische Bioinformatik WS 2003/04 Klausur Name, Vorname Matr.-Nr. Zur Bearbeitung der Klausur stehen Ihnen 120 Minuten zur Verfügung. Die hier gestellten Aufgaben sind jedoch für eine deutlich längere Bearbeitungszeit konzipiert. Sie werden somit vermutlich nicht sämtliche Aufgaben bearbeiten können, und dies wird auch nicht von Ihnen verlangt. Abgesehen von einem nicht-programmierbaren Taschenrechner sind keinerlei Hilfsmittel gestattet. Geben Sie auf dem Titelblatt ihren Namen und ihre Immatrikulationsnummer an. Schreiben Sie ihre Lösungen direkt auf die entsprechenden Aufgabenbögen. Sollte dort der Platz nicht ausreichen und Sie weitere Blätter benötigen, vermerken Sie dies bitte, damit wir auch den Rest ihrer Antwort finden und bei der Bewertung berücksichtigen können. Am Ende der Klausur sind sämtliche Aufgabenblätter wieder abzugeben. 15. Februar 2004 Ergebniss: Punkte max. 1 8 2 4 3 6 4 6 5 9 6 9 7 8 8 6 9 8 10 6 11 6 12 6 13 8 14 6 15 6 16 3 17 3 18 5 19 4 20 3 Σ 120

1. [8 Punkte] Beschreiben Sie einen Algorithmus, der ein Sequenzalignment (score und [15] traceback) mit linearen Gapkosten in linearem Platz berechnet. 2. [4 Punkte] Gegeben seien zwei Sequenzen der Längen 1000 und 40000. Bei einem Se- [5] quenzvergleich wird ein Alignment mit einem Score von 20 bit gefunden. Entscheiden Sie durch eine grobe Abschätzung, ob dieser Wert signifikant ist. 3. [6 Punkte] Blat hat eine seed phase und eine extend phase. [10] (a) Welche drei Strategien bietet Blat in der seed phase dafür an, mögliche seeds zu finden? [2 Punkte] (b) Geben Sie für eine dieser Strategien Formeln zur Abschätzung der Sensitivität und der Spezifizität an. [4 Punkte] 4. [6 Punkte] Schätzen Sie Zeit- und Platzbedarf (in O-Notation) für die Berechnung eines [10] multiplen Stringalignments von k Strings der Länge n mit einfachem dynamischen Programmieren und WSOP-Kostenfunktion ( weighted sum of pairs ) ab. Begründen Sie Ihre Antwort. 5. [9 Punkte] [15] (a) Beschreiben Sie die Idee des in der Vorlesung beschriebenen Algorithmus für ein exaktes MSA ( multiple sequence alignment ) nach dem Prinzip des divide and conquer. [3 Punkte] (b) Beschreiben Sie eine Methode, wie man im divide and conquer-alignment effizient gute Schnittpositionen finden kann. [3 Punkte] (c) Wie kann man es beim exakten MSA vermeiden, die gesamte dynamic programming- Matrix aufbauen zu müssen. [3 Punkte] 6. [9 Punkte] Gegeben sei das folgende HMM mit Startzustand, Endzustand und zwei [15] ausgebenden Zuständen 1 und 2. Die Werte in den Zuständen 1 und 2 entsprechen den Ausgabewahrscheinlichkeiten für die Zeichen A und B. Die Werte an den Kanten sind die Übergangswahrscheinlichkeiten. Bestimmen Sie mit dem Viterbi Algorithmus einen der wahrscheinlichsten Pfade durch das HMM vom Start bis zum Endzustand, wenn bekannt ist, dass dabei genau die Zeichenkette ABA ausgegeben wird, und geben Sie die Wahrscheinlichkeit dafür an, dass das HMM durch diesen Pfad läuft und ABA ausgibt. 7. [5 Punkte] Gegeben die folgende Distanzmatrix. Ist dies eine additive Metrik? Ist dies [8] eine Ultrametrik? Begründen Sie Ihre Antworten. A B C D A 0 5 2 4 B 5 0 1 3 C 2 1 0 4 D 4 3 4 0

8. [6 Punkte] Gegeben sei folgende Distanzmatrix: [10] A B C D E A 0 10 4 5 9 B 0 12 9 7 C 0 7 11 D 0 8 W 0 Welche Baumtopologie berechnet UPGMA für diese Distanzmatrix? Begründen Sie Ihre Antwort. 9. [8 Punkte] Gegeben sei die folgende Liste der Sequenzstücklängen eines PDP: [15] E = {3, 10, 15, 7, 18, 8} Beschreiben Sie kurz, wie der Skiena Algorithmus nach Eingabe von E eine Menge X von Restriktionsstellen berechnet, indem Sie die bei jedem Schritt berechneten Mengen von Restiktionsstellen und Stücklängen angeben. 10. [6 Punkte] Gegeben sei folgende Matrix: [10] a b c d 0 1 0 1 1 0 0 1 1 0 1 1

(a) Ordnen Sie die Spalten der Matrix auf eine Weise an, dass die consecutive ones property erfüllt ist. [2 Punkte] (b) Bei größeren Matrizen lässt sich nicht mehr auf den ersten Blick sagen, ob sich die consecutive ones property überhaupt durch eine Spaltenpermutation erfüllen lässt. Man möchte dann allgemeiner die Gesamtzahl der separaten Einserblöcke minimieren. Dieses Problem lässt sich als ein Travelling-Salesman-Problem formulieren. Stellen Sie die Distanzmatrix des TSPs für die oben stehende Matrix auf. [4 Punkte] 11. [6 Punkte] Geben Sie eine möglichst kurze RNA-Sequenz an, die sich zu einer Struk- [10] tur falten könnte, welche mindestens eine Wölbung (bulge) und zwei Haarnadelschleifen (hairpin loops) enthält. Zeichnen Sie diese Struktur in 2 gängigen Darstellungsweisen auf. 12. [6 Punkte] Geben Sie die fill stage (Initialisierung und Rekursionsformel) des Nussinov [10] Algorithmus an. 13. [8 Punkte] Gegeben folgendes Alignment von 4 RNAs: [15] seq 1: A C A A A seq 2: A C C U A seq 3: A U G A C seq 4: A U U A G Berechnen Sie dazu ein RNA Sequenzlogo, d.h. geben Sie zu jeder Spalte die Höhe der einzelnen Buchstaben und die Gesamthöhe aller Buchstaben der Spalte an. 14. [6 Punkte] Geben Sie die Rekursionsgleichung eines Algorithmus zur Berechnung des opti- [10] malen strukturellen Alignments von zwei Sequenzen S 1 und S 2 an, die mit Sekundärstrukturen P 1 bzw. P 2 ohne pseudo knots annotiert sind. 15. [6 Punkte] Gegeben sei ein Protein aus 100 Aminosäuren. Die Konformation des Proteins [10] sei modellhaft allein durch die Φ- und Ψ-Winkel des Rückgrates beschrieben. (a) Wie viele Freiheitsgrade bestimmen die Konformation dieses Proteinmodells? [2 Punkte] (b) Angenommen, für jeden der Φ- und Ψ-Winkel werden nur 10 diskrete Werte zugelassen. Wie viele Konformationen gibt es dann? [2 Punkte] (c) Schätzen Sie ab, wie viele Jahre ein Cluster mit 1000 Prozessoren brauchen würde, um alle möglichen Konformationen energetisch zu bewerten, wenn jede CPU 4 GF lops/s durchführen kann und pro Freiheitsgrad 200 Gleitkommaoperationen benötigt werden würde, das System aber im Schnitt nur 10% seiner theoretischen Spitzenleistung erbringt. [2 Punkte] 16. [3 Punkte] Was braucht man für die Durchführung eines Moleküldynamikexperiments? [5]

17. [3 Punkte] Was versteht man unter virtual screening? [5] 18. [5 Punkte] Angenommen, es werden n 1 Replikate einer Hybridisierung von wildtyp Hefe [8] und n 2 Replikate einer Hybridisierung einer Hefemutante gemacht. Wie testet man, ob sich ein Gen signifikant verändert hat? Nennen Sie mögliche Tests und geben Sie eine Teststatistik an. 19. [4 Punkte] Welche 4 Schritte werden in der Massenspektrometrie bei der Umwandlung [5] von rohen MS-Daten in Stickdaten durchgeführt, und wozu dienen diese Schritte? 20. [3 Punkte] Was sind die beiden Hauptschritte bei SCOPE? [5]