Vorlesung Einführung in die Bioinforma4k SoSe 2012 Von der DN zur Datenbank: Sequenzierung & ssemblierung Prof. Daniel Huson ZBI enter for Bioinformatics Entdeckung der DN Friedrich Miescher (1844-1895) 1869 Miescher entdeckte DN in der Küche des Schlosses Hohentübingen 2 Biomolekulare rundlage des Lebens Wiki.org...... 1953 Watson und rick - Struktur der DN ist eine Doppelhelix - Die Reihenfolge der Basen enthält InformaNonen, die in der Zelle verarbeitet werden 3 1
DN und Proteine 4 Protein Sequenzierung 1955 Biochemiker Frederick Sanger besnmmt die erste vollständige minosäurensequenz eines Proteins, Insulin. 1 malwmrllpl lallalwgpd paaafvnqhl cgshlvealy lvcgergffy tpktrreaed 61 lqvgqvelgg gpgagslqpl alegslqkrg iveqcctsic slyqlenycn 5 DN Sequenzierung 1975 Frederick Sanger entwickelt die Kettenabbruchmethode zur Sequenzierung von DN Wikipedia.org 6 2
enomics " enomics ist das Studium der enomsequenzen einzelner Organismen " Sequenzierung und ssemblierung " nnotation und nalyse " enomvergleich 7 enomics " enomgrößen: " Virus 5-10 Kilobasen (kb) " Bakterien: 1-10 Millionen Basen (Mb) " rabidopsis thaliana: 120 Mb " Fruchtfliege: 140 Mb " Mensch: 3 Millarden Basen (b) enetics is a way of thinking. enomics is a set of tools. Mary-laire King (Science, Feb 2011) 8 Sequenzierung 10 000 Basen DN (x150000) Probe elesene DN Sequenz DN Molekül Datenbank heißt Read 9 3
Sanger Sequenzierung DN Polymerase XXXXXX Deoxynukleotide 10 Sanger Sequenzierung DN Polymerase XXXXXX Deoxynukleotide efärbte di-deoxynukleotide 11 Kapillar- echnologie 12 4
Sequenzfabriken 13 enomik 2001 Die Sequenzierung des enoms des Menschen Mondlandung 14 Sequenzierung & ssemblierung Schrotschuss Zerteilung der DN Klonierung und Sequenzierung ssemblierung und nnotation 15 5
ssemblierung 16 Sequenzierungsprojekte OLD: enomes online database www.genomesonline.org 17 Second- enera4on Sequenzierungstechnologien " Seit 2005 neue Hochdurchsatzmethoden 18 6
Second- enera4on Sequenzierung www.454.com Source: Stephan. Schuster, Penn State Nature, 2005 19 Emulsion mplifika4on a) Wasser-in-Öl Mikroreaktoren c) uflösung der Mikroreaktoren b) Klonierung des Fragments und Befestigung an der Kugel Source: 454 20 Kugeln verteilen auf einer PicoiterPlateM Enzyme hinzugefügt Kugeln werden in Mikrowells verteilt Zentrifugation 44 μm Source: 454 21 7
Pyrosequenzierung " Parallele Sequenzierung der Fragmente: Fluss Fluss 22 Pyrosequenzierung " Parallele Sequenzierung der Fragmente: Fluss Fluss Fluss usw... 23 Pyrosequenzierung " BasenbesNmmung durch nalyse einer Serie von Bildern Source: 454 24 8
egenüberstellung Sanger Next en " Erste eneration (Sanger Sequenzierung): " 100kb/Lauf, mittlere Read Länge 1000bp, Preis: 500$/Mb " Zweite eneration: " Roche(454): 600 Mb/Lauf, 600bp, 20$/Mb " Illumina: 400 b/lauf, 100bp, 0.50$/Mb " SOLiD: 500 b/lauf, 50bp, 0.50$/Mb " Dritte eneration: " PacBio SMR: 25b/Lauf, >1000bp,?$/Mb " anz neu: " Ion orrent: 100bp/Lauf, 10x billiger als Roche(454) 25 ssemblierung enom Shotgun Sequenzierung ssemblierung Mapping auf das enom 26 ssemblierung " Sequenzierung produziert Millionen von kurzen DN Reads " BioinformaNk: Suche überlappende Sequenzen und füge sie zusammen 27 9
NBI Datenbank " Die Hauptresource für Sequenzdaten ist NBI: 28 NBI Datenbank 29 NBI Datenbank Hund-enom? 30 10
NBI Datenbank Hund-enom 31 Zusammenfassung " DN enthält Bauanleitungen für die Zelle " Sequenzierungsmethoden produzieren kurze Reads von DN Sequenz " Längere Sequenzabschni]e werden aus Reads assembliert " Es gibt > 5000 Sequenzierungsprojekte " Sequenzdaten (DN, Proteine, RN) werden in der NBI Datenbank abgelegt und sind dort frei zugänglich 32 11