Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining. Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik

Ähnliche Dokumente
Grundlagen der Bioinformatik Assignment 3: Hierarchical Clustering SS Yvonne Lichtblau/Johannes Starlinger

Aufgabe 3: Erste Versuche im Indexieren des Templates. Ulf Leser Wissensmanagement in der Bioinformatik

Einführung in die Bioinformatik

Übungen zur Vorlesung Molekularbiologische Datenbanken. Lösungsblatt 1: Datenbanksuche

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Phylogenetische Analyse

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Bioinformatik. Distanzbasierte phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Grundlagen der Bioinformatik Allgemeines/Übung 1 SS Yvonne Lichtblau

Bioinformatik Für Biophysiker

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Bioinformatik. Phylogenetische Algorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Klausur Bioinformatik für Biotechnologen

Evolutionäre Bäume. Madox Sesen. 30. Juni 2014

Algorithmische Bioinformatik

Einführung in die Angewandte Bioinformatik: Phylogenetik und Taxonomie

7.3 Unterrichtsmaterialien

Gleichheit, Ähnlichkeit, Homologie

Genomics. Ernst W. Mayr Fakultät für Informatik TU München

Ihre Namen: Gruppe: Öffnen Sie die Fasta-Dateien nur mit einem Texteditor, z.b. Wordpad oder Notepad, nicht mit Microsoft Word oder Libre Office.

Übung 9: Molekulare Evolution II

BIOINFORMATIK I ÜBUNGEN.

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Primärstruktur. Wintersemester 2011/12. Peter Güntert

Algorithmen für paarweise Sequenz-Alignments. Katharina Hembach

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Algorithmische Bioinformatik

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung

Schreibe ein Programm, das den AT Gehalt diese DNA Sequenz berechnet. Hinweis: A-Gehalt plus T-Gehalt bezogen auf die gesamte Sequenz.

Algorithmische Bioinformatik

Phylogenetik. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung


Alignments & Datenbanksuchen

3 2 1 meins! Das dritte Brustkrebsgen Oder: Ein folgenreicher Paradigmenwechsel

Bioinformatik Für Biophysiker

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben BLAST-Sequenzsuche und -vergleiche

Molekularbiologische Datenbanken

Algorithmische Anwendungen WS 2005/2006

Alignments & Datenbanksuchen

Allgemeine Aufgabenstellung. Ziele

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Bioinformatik Für Biophysiker

Welche Alignmentmethoden haben Sie bisher kennengelernt?

Was ist Bioinformatik?

Informationstechnologie in der Pflanzenzüchtung. Biocomputing in einem Züchtungsunternehmen. Andreas Menze KWS SAAT AG, Einbeck

In unseren Beispielen bilden Valeria und Arnold ein theoretisches Paar - und geben wir zu, ein Paar das viel Pech im Leben hat das selber und auch

MBI: Sequenz-Vergleich mit Alignment

Web Mining Übung. Aufgaben. Umfang

Institut fu r Informatik

Algorithmen auf Sequenzen Paarweiser Sequenzvergleich: Alignments

Exercises to Introduction to Bioinformatics Assignment 5: Protein interaction networks. Samira Jaeger

Einführung in die Bioinformatik

Bioinformatik an der FH Bingen

MOL.504 Analyse von DNA- und Proteinsequenzen

MOL.504 Analyse von DNA- und Proteinsequenzen. Modul 2 BLAST-Sequenzsuche und Sequenzvergleiche

Grundlagen der Bioinformatik Assignment 2: Substring Search SS Yvonne Lichtblau

Übungsaufgaben Sequezvergleich ohne Alignment Studenten-Version mit Lösungen

Informationsmaterial Resistenz gegen HIV Recherche und Analyse molekularer Daten

Algorithmen und Datenstrukturen

Bioinformatik. Substitutionsmatrizen BLAST. Ulf Leser Wissensmanagement in der. Bioinformatik

Python im Bioinformatiker-Alltag

Informationsintegration Allgemeines/Übung 1 SS Yvonne Lichtblau

Bild Nummer 1: Bild Nummer 2: Seite B 1

Praktikum zu Einführung in die Informatik für LogWiIngs und WiMas Wintersemester 2017/18. Vorbereitende Aufgaben

Molekularbiologie 6c Proteinbiosynthese. Bei der Proteinbiosynthese geht es darum, wie die Information der DNA konkret in ein Protein umgesetzt wird

Proseminar Bioinformatik

In unseren Beispielen bilden Valeria und Arnold ein theoretisches Paar - und geben wir zu, ein Paar das viel Pech im Leben hat das selber und auch

Bioinformatik für Lebenswissenschaftler

Recommender Systeme mit Collaborative Filtering

ABITURPRÜFUNG 2006 LEISTUNGSFACH INFORMATIK (HAUPTTERMIN)

V3 - Multiples Sequenz Alignment und Phylogenie


WiMa-Praktikum 1. Woche 8

Bioinformatik für Lebenswissenschaftler

Darwins Erben - Phylogenie und Bäume

Grundlagen der Bioinformatik Assignment 1: Substring Search SS Yvonne Lichtblau

Einführung in die Bioinformatik

Phylogenetische Bäume Kieu Trinh Do SS 2009

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

Bioinformatik. Alignment mit linearem Platzbedarf K-Band Alignment. Ulf Leser Wissensmanagement in der. Bioinformatik

Einführung in die Bioinformatik

Algorithmische Bioinformatik 1

Übungen zur Vorlesung EidP (WS 2015/16) Blatt 6

Dot-Matrix Methode. (Java) (Javascript) 80

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Algorithmen und Datenstrukturen Tafelübung 14. Jens Wetzl 8. Februar 2012

Bioinformatik II: Phylogenetik

MOL.504 Analyse von DNA- und Proteinsequenzen. Übungsaufgaben Datenbanken und Informationssysteme

HS Verwandtschaft und

Evolutionary Trees: Distance Based

Einführung in die Programmierung (EPR) (Übung, Wintersemester 2014/2015)

A Arbeits - und Informationsblätter

Übungsaufgaben Blatt 3

1/10. Ihre Namen: Gruppe: Evolutionsbiologie 2, WS2015/2016: Bioinformatik - Übung 1

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

EiP Übung Sichern Sie im Verzeichnis aufg3 den Inhalt des Artikels im Wochenmagazin "der Freitag" über google in der Datei artikel.

Info 1 Aufgabensammlung 2003 by Andreas Scholz

Entwicklung und Geschichte des

Transkript:

Aufgabe 7: Distanzbasierte Phylogenie: Neighbor Joining Stefan Kröger, Philippe Thomas Wissensmanagement in der Bioinformatik

Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen des Enzyms Phenylalanine Hydroxylase Mutationen im dafür kodierenden Gen führen zu Phenylketonurie Häufigste angeborene erbliche Stoffwechselstörung (ca. 1:6000) Verminderter Abbau von Phenylalanin führt zu schweren geistigen Entwicklungsstörungen Einfache Diagnose (Neugeborenen-Screening), gute Behandelbarkeit (Diät) Hauptursache (98%) sind verschiedene Mutationen im kodierenden Gen (Chromosom 12) Ulf Leser: Algorithmische Bioinformatik, Übung 3

Aufgabe 1: Daten finden (4 Punkte) Suchen Sie die Sequenz des Genes beim Menschen (Homo sapiens) in Genbank (1 Punkt) http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide GI-Nummer 4557818, 2680 bp Suchen Sie mit Nucleotide BLAST die dazu ähnlichsten ReferenzmRNA Sequenzen für die folgenden Spezies (3 Punkte) Geben Sie in den FASTA Dateien die Acc-Nummer der Sequenz an 1 Mus musculus 2 Bos taurus 3 Rattus norvegicus 4 Macaca mulatta 5 Xenopus tropicalis 6 Equus caballus 7 Canis familiaris 8 Monodelphis domestica 9 Ornithorhynchus anatinus 0 Mit der humanen Sequenz haben wir also 10 Sequenzen Ulf Leser: Algorithmische Bioinformatik, Übung 4

Datei Kopieren Sie alle Sequenzen in eine FASTA Datei Behalten sie die angegebenen Nummern bei! Beispiel >1 CCACGTGTTGTTTGCGCTGTT... >2 GGTCCATGTTGTCTGCCCCATAATT... >3 Die Inhalt der > Zeilen sollen später als Sequenz-ID ausgegeben werden Ulf Leser: Algorithmische Bioinformatik, Übung 5

Aufgabe 2: Distanzbasierte Phylogenie (8 Punkte) Implementieren Sie den Neighbor-Joining Algorithmus Distanztabelle mit globalem Alignment Substitutionsmatrix wie in Aufg. 4 und 5 NJ umdenken: Große Werte sind besser Berechnen Sie den Stammbaum der zehn Sequenzen Sequenzen durchnummeriert wie auf der vorherigen Folie Programm muss prinzipiell den Baum für alle Sequenzen einer FASTA Datei berechnen Ausgabe des Programms Die Distanzmatrix (Spalten / Zeilen in der geg. Reihenfolge) Den Baum als Reihenfolge der Cluster-Merge-Schritte Beispiel: Wenn als erstes die Sequenzen 1 und 4 zu 14 gemergt werden, dann 5 und 7 zu 57, dann 14 und 3 zu 143, dann soll die Ausgabe so aussehen: (1,4), (5,7), (14,3) Ulf Leser: Algorithmische Bioinformatik, Übung 6

Aufgabe 3: Ultrametrische Matrizen (4 Punkte) Gegeben eine Distanzmatrix D der Größe n*n Geben Sie einen Algorithmus an, der in O(n 2 ) bestimmt, ob D ultrametrisch ist Ulf Leser: Algorithmische Bioinformatik, Übung 7

Aufgabe 4: Ähnlichkeit von Bäumen (4 Punkte) Berechnen Sie den Abstammungsbaum auch mit ClustalW (im Web) Extrahieren Sie den tatsächlichen Abstammungsbaum vom NCBI Taxonomy Projekt http://www.ncbi.nlm.nih.gov/taxonomy/ Überlegen Sie sich einen Algorithmus zum Messen der Ähnlichkeit von Bäumen Alle Vorschläge sind willkommen Gehen Sie davon aus, dass die Bäume die gleiche Menge von Blättern/Taxa hat es kommt nur auf die Topologie an Welche Eigenschaften hat Ihr Vorschlag? Was würde er für die drei obigen Vergleiche ausrechnen? Welche Komplexität hat ihr Abstandsmaß? Ulf Leser: Algorithmische Bioinformatik, Übung 9

Aufgabe 5: Wettbewerb (0 Punkte) Schreiben Sie ein Programm, dass in möglichst kurzer Zeit mittels Neighbor Joining den phylogenetischen Baum für eine beliebige Menge von Sequenzen berechnet und ausgibt Also: Aufgabe 2 möglichst schnell löst Wir werden mit mehr Sequenzen ungefähr der gleichen Länge testen Ulf Leser: Algorithmische Bioinformatik, Übung 10

Programmaufruf Das Programm (Aufgabe 2) muss wie folgt aufrufbar sein java jar Aufg7GrX.jar sequenzfile subfile Sequenzfile: FASTA Datei mit allen Sequenzen Subfile: Name der Datei mit der Substitutionsmatrix Ausgabe auf STDOUT Distanzmatrix und Merge-Schritte Ulf Leser: Algorithmische Bioinformatik, Übung 12

Abgabe Bis Sonntag, 12.02.2012, 23.59 Uhr Nur per Mail als TXT Datei 1. FASTA Datei mit zehn Sequenzen 2. Die Ausgabe des Programms aus Aufgabe 2 3. Lösung von Aufgabe 3 4. Lösung von Aufgabe 4 Der Code muss im Quelltext und als ausführbare JAR Datei eingeschickt werden Ulf Leser: Algorithmische Bioinformatik, Übung 13