Algorithmen auf Sequenzen 12.04.2010

Ähnliche Dokumente
Rekonstruktion biologischer Netzwerke (mit probabilistischen Methoden) Einführung

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop März Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Algorithmen und Berechnungskomplexität I

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

1 Mathematische Grundlagen

Übungsaufgaben Tilgungsrechnung

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Objektorientierte Programmierung. Kapitel 0: Begrüssung

Erfahrungen mit Hartz IV- Empfängern

Primzahlen und RSA-Verschlüsselung

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Grundlagen der Theoretischen Informatik, SoSe 2008

Zeichen bei Zahlen entschlüsseln

Toolbeschreibung: EVERNOTE

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Anleitung über den Umgang mit Schildern

Mathematische Grundlagen

Zählen von Objekten einer bestimmten Klasse

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

1 topologisches Sortieren

Fotogalerie mit PWGallery in Joomla (3.4.0) erstellen

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Zwischenablage (Bilder, Texte,...)

Einrichtung eines -konto mit Thunderbird

Anleitung für die Teilnahme an den Platzvergaben "Studio II, Studio IV und Studio VI" im Studiengang Bachelor Architektur SS15

Elexis-BlueEvidence-Connector

Übung Theoretische Grundlagen

teamsync Kurzanleitung

Beweisbar sichere Verschlüsselung

Geld Verdienen im Internet leicht gemacht

3. Die tägliche -Flut effizient verwalten

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Konzepte der Informatik

Produktionsplanung und steuerung (SS 2011)

Das DAAD-PORTAL. Prozess der Antragstellung in dem SAPbasierten Bewerbungsportal des DAAD.

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

AutoCAD Dienstprogramm zur Lizenzübertragung

Erstellen von x-y-diagrammen in OpenOffice.calc

Informationsblatt Induktionsbeweis

FH-SY Chapter Version 3 - FH-SY.NET - FAQ -

Anleitung Homepage TAfIE

Österreichische Trachtenjugend

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Anbindung des eibport an das Internet

Buchhaltung mit WISO EÜR & Kasse 2011

Kurzanleitung für Verkäufer

Grundbegriffe der Informatik

Repetitionsaufgaben Wurzelgleichungen

Melde- und Veröffentlichungsplattform Portal (MVP Portal) Hochladen einer XML-Datei

QTrade GmbH Landshuter Allee München Seite 1

Lokales Netzwerk Wie kann ich lokal installierte Drucker im Netzwerk für andere Nutzer freigeben? Frage:

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

Übung - Konfigurieren einer Windows 7-Firewall

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Pfötchenhoffung e.v. Tier Manager

Anzeige von eingescannten Rechnungen

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Wie kann ich mein Profil pflegen und/oder ihm ein PDF hinzufügen? Sie vermissen die Antwort auf IHRE Frage? Bitte lassen Sie uns Ihnen weiterhelfen:

CodeSaver. Vorwort. Seite 1 von 6

Outlook Web App Kurzanleitung. Zürich, 09. Februar Eine Dienstabteilung des Finanzdepartements

D a s P r i n z i p V o r s p r u n g. Anleitung. - & SMS-Versand mit SSL (ab CHARLY 8.11 Windows)

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Tipps und Tricks zu den Updates

Kopfzeile. Inhaltsverzeichnis

Grundlagen der Informatik

Was ist Sozial-Raum-Orientierung?

8. Quadratische Reste. Reziprozitätsgesetz

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Word. Serienbrief erstellen

Das Urheberrecht der Bundesrepublik Deutschland ist der Teil der Rechtsordnung, der das Recht des Urhebers an seinen Werken schützt.

Lichtbrechung an Linsen

A. Ersetzung einer veralteten Govello-ID ( Absenderadresse )

Arbeitsblätter. Sinnvolle Finanzberichte. Seite 19

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Scala kann auch faul sein

Evident VDDS-Anbindung von MIZ

Alltag mit dem Android Smartphone

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

KSN-WEBMAIL-BASICS. November Grundlagen zum Thema Webmail TEIL A. Benutzen von Webmail

Erwin Grüner

Lies zuerst den unten stehenden Zeitungsartikel und erfülle dann die einzelnen Aufgaben:

Anlage eines neuen Geschäftsjahres in der Office Line

I Serverkalender in Thunderbird einrichten

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1

Grundlagen der Künstlichen Intelligenz

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Der Jazz Veranstaltungskalender für Deutschland, Österreich und die Schweiz

4.1 Wie bediene ich das Webportal?

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Die wichtigsten ESET Smart Security Einstellungen bei Selbstinstallation durch den Kunden

Transkript:

Algorithmen auf Sequenzen 12.04.2010 Prof. Dr. Sven Rahmann 1

Team Prof. Dr. Sven Rahmann Dipl.-Inform Tobias Marschall (Skript) Zeit Mo 8:30-10; Übungen Mi 8:30-10 ca. alle 2 Wochen (Plan!) Ort OH14, R104 Alle Informationen Webseite zur Vorlesung: http://www.rahmannlab.de/lehre/v-algo-seq Bitte regelmässig dort nachlesen! Sprechstunde Mo 16-17 in OH14, R214 Bitte möglichst per e-mail anmelden, sonst evtl. sehr lange Wartezeiten! Sven.Rahmann /at/ tu-dortmund.de 2

Prüfungsleistungen Dies ist Bachelor-Wahlmodul INF-BSc-315 (2V+1Ü, 4 LP). (Für die DPO 2001 kann ein LNW erworben werden (4,5 LP). Es ist aber keine Fachprüfung in einem Spezialgebiet möglich.) Prüfung: Klausur oder mündlich (je nach Teilnehmerzahl) Festlegung nächste Woche in der Übung Übungen: Nicht Voraussetzung zur Klausuranmeldung, aber zum Bestehen! Die Übungen werden nicht korrigiert, aber besprochen. Sie sollen Ihre Lösungen vorstellen. 3

Literatur (Auswahl) Gonzalo Navarro, Mathieu Raffinot (2002) Flexible Pattern Matching in Strings Cambridge University Press Richard Durbin et al. (1998) Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids Cambridge University Press Dan Gusfield (1997) Algorithms on Strings, Trees and Sequences Cambridge University Press Nello Christianini and Matthew W. Hahn (2007) Introduction to Computational Genomics a Case Studies Approach Cambridge University Press 4

Sequenzen sind überall Anwendungen der Sequenzanalyse Biosequenzen (DNA, RNA, Proteine) (aber: Genome sind komplexer als nur eine DNA-Sequenz) Texte (Literatur, wissenschaftliche Texte) Die Kunst hinter guter Literatur und hinter guten wissenschaftlichen Arbeiten besteht darin, schwierige, komplex zusammenhängende Sachverhalte in eine logische Abfolge von einzelnen Sätzen zu bringen. Programme Dateien, Datenströme Komplexe Datenstrukturen werden serialisiert. Zeitreihen, Spektren Audiosignale, Massenspektren,... 5

Probleme auf Sequenzen (Auswahl) Suche nach Mustern in Sequenzen (z.b. Textverarbeitung: find-replace) Approximative Mustersuche (Meier vs. Mayer) Suche nach einem ähnlichem Wort in einem Wörterbuch Sequenzvergleich: Quantifikation von Ähnlichkeit / Unterschieden Anwendung: Revisionskontrolle, Verfolgen von Änderungen (z.b. subversion) Entdecken von auffälligen Mustern, z.b. wiederholten Teilstrings wichtig für Genomanalyse, Kompression Quantifikation von Sequenzkomplexität, Datenkompression 6

Grundlegende Definitionen Alphabet Indexmenge Sequenz = String = Wort = Tupel = gram A n, A +, A * die leere Sequenz Teilstring Teilsequenz Präfix, Suffix 7

Beispiele für Sequenztypen In dieser Vorlesung (und in konkreten Anwendungen fast immer) Endliches Alphabet A Indexmenge I = {0,1,...,N-1} für ein endliches N Beispiele DNA-Sequenz A = {A,C,G,T} Protein-Sequenz A = 20 Standard-Aminosäuren C-Programme A = ASCII-Zeichen (7-bit) Java-Programme A = Unicode-Zeichen Audiosignal A = {0,...2 16-1} Massenspektrum A = [0,1] (unendlich) oder Double Darstellung im Computer (Java) String (wenn A aus Unicode) oder A[] oder ArrayList<A> oder Map<I,A> 8

Ein Beispiel zur DNA-Sequenzanalyse März 2009: Neuer Subtyp des Influenza-A H1N1-Virus ( Schweinegrippe ) tritt auf Isolierung und Sequenzierung des Erregers in verschiedenen Patienten Anlegung einer zentralen Datenbank am NCBI http://www.ncbi.nlm.nih.gov/genomes/flu/aboutdatabase.html Vergleich mit älteren Varianten des H1N1 möglich Was kann man (mit einfachen Mitteln!) lernen? 9

Das zentrale Dogma der Molekularbiologie DNA enthält Erbinformation (bei Viren oft RNA) Diese wird abgelesen (Transkription) in mrna Anhand der mrna-sequenz wird ein Proteinmolekül erstellt (Translation) Proteine führen Funktionen in der Zelle aus. Der Informationsfluss ist also DNA -> RNA -> Protein. (Diese Sichtweise ist nicht immer korrekt.) Die folgenden Abbildungen sind selbst erstellt oder von Mariana Ruiz Villarreal, die diese in Wikipedia freigegeben hat. 10

DNA-Struktur - Übersicht 11

DNA-Replikation 12

Transkription von DNA in messenger RNA (mrna) 13

Translation von mrna in Protein am Ribosom 14

Aminosäuren und Proteine 15

21 Aminosäuren Illustration: Dan Cojocari, Toronto 16

Genetischer Code (Standard) AAs = FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG Starts = ---M---------------M---------------M---------------------------- Base1 = TTTTTTTTTTTTTTTTCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG Base2 = TTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGG Base3 = TCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAG 17

Virus Influenza-A H1N1 Hämagglutinin (HA oder H), Neuraminidase (NA oder N), Nukleoprotein (NP), Matrixproteine (M1) und (M2), Polymerase Proteine (PB1), (PB2) und (PA), Nichtstrukturproteine (NS1) und (NS2). 18

Vergleich des NS1-Proteins zweier H1N1-Viren Idee: Wähle zwei möglichst unterschiedliche Viren aus Puerto Rico, 1934 und Taiwan, 2002 Datenbank: http://www.ncbi.nlm.nih.gov/genomes/flu/database/select.cgi Sequenzen im FASTA-Format, Länge 693 nt = 231 aa >gb J02150:27-719 /Human/NS1/H1N1/8/Puerto Rico/1934/// nonstructural protein ns1 ATGGATCCAAACACTGTGTCAAGCTTTCAGGTAGATTGCTTTCTTTGGCATGTCCGCAAACGAGTTGCAG ACCAAGAACTAGGTGATGCCCCATTCCTTGATCGGCTTCGCCGAGATCAGAAATCCCTAAGAGGAAGGGG CAGCACTCTTGGTCTGGACATCGAGACAGCCACACGTGCTGGAAAGCAGATAGTGGAGCGGATTCTGAAA GAAGAATCCGATGAGGCACTTAAAATGACCATGGCCTCTGTACCTGCGTCGCGTTACCTAACCGACATGA CTCTTGAGGAAATGTCAAGGGAATGGTCCATGCTCATACCCAAGCAGAAAGTGGCAGGCCCTCTTTGTAT CAGAATGGACCAGGCGATCATGGATAAAAACATCATACTGAAAGCGAACTTCAGTGTGATTTTTGACCGG CTGGAGACTCTAATATTGCTAAGGGCTTTCACCGAAGAGGGAGCAATTGTTGGCGAAATTTCACCATTGC CTTCTCTTCCAGGACATACTGCTGAGGATGTCAAAAATGCAGTTGGAGTCCTCATCGGAGGACTTGAATG GAATGATAACACAGTTCGAGTCTCTGAAACTCTACAGAGATTCGCTTGGAGAAGCAGTAATGAGAATGGG AGACCTCCACTCACTCCAAAACAGAAACGAGAAATGGCGGGAACAATTAGGTCAGAAGTTTGA >gb DQ249269:27-719 /Human/NS1/H1N1/8/Taiwan/2002/// NS1 protein ATGGATTCCCACACTGTGTCAAGCTTTCAGGTAAACTGCTTCCTTTGGCATGTCCGCAAACAAGTTGCAA ACCAAGGTCTAGGCGATGCCCCCTTTCTTGATCGGCTTCGCCGAGATCAAAAGTCTCTAAAGGGAAAAGG CAGCACTCTCGGTCTGAACATCAAAACAGCCACTTGTGTTGGAAAGCAAATAGTAAAGAGGGTTCTGAAA AAAAAATCCGATGAGGCATTTAAAATGACAATGGCCTCCGCACTTGCTTCGCGGTACCTAACTGACATGA CTATTGAAAAAATGTCAAGGGACTGGTTCATGCTCATGCCCAAGCAGAAAGTGGCTGGCCCTCTTTGTGT CAAAATGGACCAGGCGATAATGGATAAGAACATCATACTGAAAGCGAATTTCAGTGTGATCTTTGATCGG TTGGAGAATCTGACATTACTAAGGGCTTTCACCGAAGAGGGAGCAATTGTTGGCGAAATTTCACCATTGC CTTCTCTTCCAGGACATACTAATGAGGATGTCAAAAATGCAATTGGGGTCCTCATCGGGGGACTTGAATG GAATGATAACACAGTTCGAGTCTCTGAAACTCTACAGAGATTCGCTTGGAGAAGCAGTAATGAGACTGGG GGACCTCCATTCACTCCAACACAGAAACGGAAAATGGCGGGAACAATTAGGTCAGAAGTTTGA 19

Untersuche die Mutationsrate fensterweise Wähle (beliebig) Fensterlänge 99 = 48+1+48 bp (Basenpaare), also 33 = 16+1+16 aa (Aminosäuren) Für jeden Fenstermittelpunkt: Wie viele nt / aa sind im Fenster unterschiedlich? Zeigt, welche Bereiche des Gens sich stärker verändert haben, sowohl auf DNA- als auch auf Proteinebene 20

Mutationsrate auf DNA- und Proteinebene 21

Synonyme und nichtsynonyme Substitutionsrate DNA-Codon-Mutation, die die Aminosäure nicht ändert, heisst synonym. Betrachte ein Codon (mit seiner Aminosäure) Welche Tendenz zu synoymer/nichtsynonymer Mutation? Betrachte die 9 Codons, die durch eine Substitution an einer der drei Stellen entstehen können. Berechne die Anzahl synonymer Codons dieser 9. Dividiere durch 3, um die Anzahl synonymer Stellen zu erhalten. Beispiel: TTA (Leucin): 2 von 9, d.h. 2/3 syonyme Stellen, 7/3 nichtsynonyme Stellen Für ein Fenster: Zähle insgesamt synonyme und nichtsynonyme Stellen durch Summation. Zähle insgesamt synonyme und nichtsynonyme Mutationen. Verhältnisse heissen K A (nichtsynonym) und K S (synonym). K S = synonyme Mutationen pro synonymer Stelle 22

Ks- und Ka-Rate 23

KA/KS - Analyse Betrachte die Verhältnisse K A (nichtsynonym) / K S (synonym). Verhältnis > 1: mehr nichtsynonyme Mutationen pro nichtsynonymer Stelle als synonyme Mutationen pro synonymer Stelle Verhältnis < 1: entsprechend Was bedeutet das? (hier nur sehr grob) Verhältnis < 1 legt den Schluss nahe, dass das Protein unter negativer Selektion steht. Veränderungen der aa-sequenz wirken sich vermutlich direkt negativ auf die Fitness des Proteins aus. 24

Ka/Ks-Analyse 25