Bioinformatik Für Biophysiker

Ähnliche Dokumente
Algorithmische Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Kapitel 6. Komplexität von Algorithmen. Xiaoyi Jiang Informatik I Grundlagen der Programmierung

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:

Algorithmische Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Algorithmische Bioinformatik

Komplexität von Algorithmen

Wichtige Themen aus der Vorlesung Bioinformatik I WS 2013/2014

Sequenzen-Alignierung in der Bioinformatik

Vorlesung 4 BETWEENNESS CENTRALITY

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48

Algorithmen auf Sequenzen

Dynamische Programmierung. Problemlösungsstrategie der Informatik

Numerische Verfahren und Grundlagen der Analysis

Algorithmische Bioinformatik

Die Komplexitätsklassen P und NP

Algorithmische Bioinformatik

abgeschlossen unter,,,, R,

Einführung in die Informatik

Algorithmische Bioinformatik

Vom 30. März Wahlbereich beträgt 90 (68-76 Semesterwochenstunden), verteilt auf drei Semester.

Uebersicht. Webpage & Ilias. Administratives. Lehrbuch. Vorkenntnisse. Datenstrukturen & Algorithmen

Optimierungsprobleme. B. Langfeld, M. Ritter, B. Wilhelm Diskrete Optimierung: Fallstudien aus der Praxis

Übungsblatt 1. f(n) = f(n) = O(g(n)) g(n) = O(f(n)) Zeigen oder widerlegen Sie: 3 n = Θ(2 n ) Aufgabe 1.2 Gegeben sei die folgende Funktion:

Sequenzen-Alignierung in der Bioinformatik

Laufzeit und Komplexität

Algorithmische Methoden zur Netzwerkanalyse

Bioinformatik. Dynamische Programmierung. Ulf Leser Wissensmanagement in der. Bioinformatik

Vorlesung Berechenbarkeit und Komplexität. Motivation, Übersicht und Organisatorisches

Sortierverfahren für Felder (Listen)

Prof. Dr. Margarita Esponda

Algorithmen und Datenstrukturen CS1017

Reguläre Ausdrücke. Silke Trißl, Prof. Ulf Leser Wissensmanagement in der Bioinformatik

Kapitel 4: Minimal spannende Bäume Gliederung der Vorlesung

Komplexität. G. Zachmann Clausthal University, Germany Leistungsverhalten von Algorithmen

Motivation. Formale Grundlagen der Informatik 1 Kapitel 10. Motivation. Motivation. Bisher haben wir mit TMs. Probleme gelöst/entschieden/berechnet.

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

2. Algorithmen und Algorithmisierung Algorithmen und Algorithmisierung von Aufgaben

Projekt Systementwicklung

Grundlagen der Programmierung

Routing Algorithmen. Begriffe, Definitionen

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 5. Asymptotische Laufzeitkomplexität Definition Regeln Beispiele

Algorithmische Bioinformatik

Algorithmen und Datenstrukturen (für ET/IT)

Informatik I Komplexität von Algorithmen

Programmieren ++ Begleitende Übungen zu Veranstaltungen + Umsetzen des Algorithmus in ein lauffähiges Programm

Kombinatorische Optimierung Vorlesung für den Bereich Diplom/Master Informatik

Algorithmen und Berechnungskomplexität I

Teil III: Routing - Inhalt I. Literatur. Geometric Routing. Voraussetzungen. Unit Disk Graph (UDG) Geometric Routing 29

Übersicht Datenstrukturen und Algorithmen. Literatur. Algorithmus: Wikipedia Definition. Vorlesung 1: Einführung. Prof. Dr.

Stefan Schmid TU Berlin & T-Labs, Berlin, Germany. Reduktionen in der Berechenbarkeitstheorie

Algorithmische Geometrie 1. Einführung

Einstieg in die Informatik mit Java

Gliederung. Algorithmen und Datenstrukturen II. Problem: Längste gemeinsame Teilsequenz. Problem: Längste gemeinsame Teilsequenz

Das Studium im Fach Informatik

Einführung. Rechnerarchitekturen Entwicklung und Ausführung von Programmen Betriebssysteme

Programmiertechnik II

Automaten, Spiele, und Logik

Problemstellungen der Bioinformatik Proseminar im Grundstudium, Sommersemester 2003

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

geändert durch Satzung vom 31. März 2010

Curriculum des Wahlfaches Informatik für das Gymnasium Dialog

1. Grundlagen Sortieren Vertauschen Selektion Einfügen Quicksort Suchen...

Differenzengleichungen. und Polynome

Approximationsalgorithmen

Modulübersichtstabelle des Studienganges Bachelor of Science Informatik

Einführung in Datenbanksysteme ++ Datenbanken für Bioinformatiker

Klausur Informatik-Propädeutikum (Niedermeier/Hartung/Nichterlein, Wintersemester 2012/13)

Programmiertechnik II

Neufassung der Studienordnung, Stand 9. März 2000

4 Effizienz und Komplexität 3.1 1

Sortierverfahren. Lernziele

Formale Sprachen und Automaten

Informatik II Datenstrukturen und Algorithmen

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Übung zur Vorlesung Berechenbarkeit und Komplexität

Übersicht über die Einzelveranstaltungen im. B.Ed. Informatik 2+1. oder 2-stündige Klausur Rechnerstrukturen (V+Ü)

Theoretische Grundlagen der Informatik

Algorithmen mit konstantem Platzbedarf: Die Klasse REG

Abschnitt: Algorithmendesign und Laufzeitanalyse

Programmierung. Prof. Dr. Michael Hanus Tel , R. 706 / CAP-4

Zeichnen von Graphen. graph drawing

Grundlagen der Informatik 2 (GdI2) - Algorithmen und Datenstrukturen -

Einführung in die Informatik 1

Algebra und Diskrete Mathematik, PS3. Sommersemester Prüfungsfragen

I. Allgemeiner Teil. 1 Ziel des Studiums

Algorithmus zum Graphen-Matching. und. Anwendung zur inhaltsbasierten Bildersuche

Grundlagenmodul Naturwissenschaften

Effiziente Algorithmen I

Datenstrukturen und Algorithmen

Bioinformatik. Suche nach mehreren Mustern Teil II Zwei Varianten der Stringsuche. Ulf Leser Wissensmanagement in der.

Algorithmen II Vorlesung am

16. All Pairs Shortest Path (ASPS)

Nichtdeterministische Platzklassen

Übersicht. Datenstrukturen und Algorithmen Vorlesung 5: Rekursionsgleichungen (K4) Übersicht. Binäre Suche. Joost-Pieter Katoen. 20.

Was bisher geschah ADT Menge mit Operationen: Suche nach einem Element Einfügen eines Elementes Löschen eines Elementes Realisierung durch

Berechenbarkeit und Komplexität

Transkript:

Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik

Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik Management molekularbiologischer Daten Datenintegration Text Mining Wann Sie mich noch sehen werden Im Nebenfach Bioinformatik In einer Diplomarbeit? Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 2

Mein Teil Algorithmen der Bioinformatik 6 Termine Letzter Termin: 2.1.2006 Praktikum: 20.2.2005 24.2.2006 Mit Silke Trissl Programmierung Dotplots & Smith-Waterman Klausur Entweder am Montag, 27.2.2006 Alternative: Am Freitag, 24.2.2006, nachmittags? Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 3

Informationen Zu Vorlesung und Praktikum http://www.informatik.hu-berlin.de/wbi/teaching/ws0506/bioinfo_bpi/index.html Bei Fragen leser(at)informatik.hu-berlin.de, Tel. 2093 3902 trissl(at)informatik.hu-berlin.de, Tel. 2093 5487 Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 4

Literatur Primär Dan Gusfield: Algorithms on Strings, Trees, and Sequences, Cambridge University Press, 1997 (ca. 60 Euro) Weitere Joachim Böckenhauer, Dirk Bongartz: Algorithmische Grundlagen der Bioinformatik, Teubner, 2003 (ca. 30 Euro) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 5

Wichtiger Begriff: Komplexität Ziel: Angabe der Effizienz eines Algorithmus unabhängig von Rechner, Programmiersprache, Hauptspeicher,... Erfassen der Essenz eines Algorithmus Komplexität hat viele Facetten Speicherplatzverbrauch, Laufzeit Average-Case, Worst-Case Komplexität wird gemessen in der Länge der Eingabe n Anzahl Zahlen, die es zu sortieren gilt Anzahl Knoten eines Graphen, den es zu durchsuchen gilt Länge der Sequenzen, die es zu vergleichen gilt... [Nicht immer einfach zu bestimmen] Bei uns meistens Anzahl und Länge von Zeichenketten Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 6

Beispiel Kürzeste Wege in einem Graphen 8 5 6 Naives Verfahren b d Alle Wege ausprobieren Ausgehend von a Alle Wege a-x beschreiten 9 Rekursiv weitermachen und Wegsumme dabei addieren Kleinstes Ergebnis merken Worst-Case Komplexität: Exponentiell in der Anzahl Kanten Dijkstra Wege abbrechen, wenn Kosten höher als bisher bestes Ergebnis Erreichter Knoten schon auf kürzerem Weg erreicht wurde Komplexität: O( (n+m) * log(n)) a 10 c 12 e 5 f 2 Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 7

O-Notation Komplexität wird angegeben als O(g(n)) Das hat folgende Bedeutung Algorithmus A ist O(g(n)) gdw. es eine Funktion f(n) gibt, die die Laufzeit von A berechnet, und es gilt: Es gibt positive Konstanten K und n 0 mit: f(n) K* g(n) für alle n n 0 Beispiel 8n 3 + n 2 + 76 ist O(n 3 ) Da 8n 3 + n 2 + 76 85n 3 für alle n 1 Für g wählt man i.d.r. nur den Grad des Polynoms bzw. den höchsten Exponenten O(1), O(n), O(n 2 ), o(n 3 ), O(2 n ), O(log(n)),... Ein Großteil der Informatik widmet sich der Suche nach Algorithmen mit geringerer Komplexität Der Suche nach besten Algorithmen für Klassen von Problemen Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 8

Unterschiede K x g(n) f(n) 1 n 0 3500 3000 2500 2000 1500 1000 500 0 125 250 500 1000 2000 f1(n) f2(n) f(n) = an 2 + bn + c Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 9

Take Home Message Informatiker lieben O-Notation Wichtig für alle Anwendungen am Computer, die mit nicht-trivialen Problemen oder Mit nicht-trivialen Datenmengen zu tun haben Kleine O sind gut; n im Exponenten ist schlecht Schon O(n 2 ) ist für grosse (?) Datenmengen zu viel Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 10

1. Stringalgorithmen Gegeben ein Template T und ein Pattern P. Finde alle Vorkommen von P in T in möglichst kurzer Zeit Exaktes Matching Z-Box Fundamentaler linearer Algorithmus Boyer-Moore Schnellster Algorithmus in der Praxis Varianten Suche nach mehreren P Suche mit regulären Ausdrücken (= endlichen Automaten) Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 11

2. Approximatives Stringmatching Approximatives Matching Gegeben ein Template T und ein Pattern P. Finde alle Substrings in T die ähnlich zu P sind in möglichst kurzer Zeit Variante Gegeben ein Template T und ein Pattern P. Finde alle Substrings in T die ähnlich zu einem Substring in P sind Beides sind fundamentale Fragestellung der Bioinformatik Ähnlich Sequenz ähnliche Struktur ähnliche Funktion Was heißt überhaupt ähnlich? Edit-Abstand, Alignierung Naiver Algorithmus benötigt exponentielle Laufzeit Verbesserung durch tabellarische Berechnung Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 12

3. Heuristiken zur approx. Suche Quadratische Laufzeit ist zu teuer Genomanalyse benötigt Suche auf allen bekannten Sequenzen Celera Sequenzierung: All-against-all Vergleich von 28.000.000 Teilsequenzen Grundidee von BLAST In jedem guten approximativen Match steckt ein exakter Match Mischung von exaktem und approximativen Match Findet nicht alle Hits, aber die meisten Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 13

4. Multiples Alignment Gegeben eine Menge von Strings. Ein Multiple Sequence Alignment (MSA) ist eine Anordnung der Strings mit Spaces untereinander Quelle: Pfam, Zinc finger domain Ziel: Finde das Gemeinsame der Sequenzen Funktionen werden oft von sehr kurzen Sequenzstücken bestimmt Welcher Teil eines Proteins bestimmt die Funktion? Wie kann man Proteine in Familien anordnen? Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 14

5. Phylogenetische Algorithmen Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen Ergebnis: Mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr Quelle: Ingman, M., Kaessmann, H., Pääbo, S. & Gyllensten, U. (2000) Nature 408: 708-713 Quelle: http://www.genpat.uu.se/mtdb/sequences.html Methode: UPGMA Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 15

Bioinformatik@Informatik Seminare Seminar, z.b. SoSe2004 Seminare Seminare Molekularbiologische Datenbanken VL, 2+2 SWS, SoSe Halbkurs in Kombination Projektvorlesung Bioinformatik Projekt, 4 SWS, SoSe Halbkurs Spezielle Algorithmen der Bioinformatik VL, 4 SWS, SoSe Halbkurs Datenbanksysteme I VL 4 SWS, WS Halbkurs mit Praktikum Algorithmische Bioinformatik VL 4+2 SWS, WS Halbkurs Graphen & Algorithmen I VL 4 SWS, WS Halbkurs Voraussetzung Günstige, aber nicht notwendige Voraussetzung Bioinformatik Voraussetzung Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 16

Feedback vom letzten Mal Behandelte Stoffmenge angemessen (1-5) 2,9+-0,08 Stoff zu leicht/zu schwer (1-5): 3+-0.05 Vorbereitung und Kenntnisse des Dozenten (1-5): 1+-0 Geschwindigkeit des Vortrags (1-5): 2,4+-0.6 Anregung zum Mitdenken: 2,2+-1.1 Langsamer Reden; Stoff entrümpeln; Mehr Tafelbild Fragen Sie nach Weiteres Plus/Minus Wiederholung am Anfang Vorlesungsbegleitende Übung Mehr Beispiele Ulf Leser: Bioinformatik, Vorlesung, Wintersemester 2005/2006 17