Mikrobielle Genomik
Genomik Genom = genetische Ausstattung eines Lebewesens Genomik = Kartierung, Sequenzierung, Analyse, Vergleich von Genomen Genomsequenzierung erlaubt auch globales Studium der Genexpression 1. Genom: RNA-Virus, 3569 bp, 1976 1. DNA-Genom: Einzelstrang DNA Virus, 5386 bp, 1977 durch Fred Sanger, Dideoxysequenzierung 1. Zellgenom: Haemophilus influenzae, 1995 Institute for Genomic Research Rockville, MD, 1830137 bp
Genomik heute: automatische DNA-Sequenzierung & Bioinformatik menschliches Genom (HUGO): ca 25,000 Gene Reis Wein (verschiedene Rebsorten ) viele Pathogene (Borrelia burgdorferi, Plasmodium sp., EHEC)
GOLD: Genomes OnLine Database www.genomesonline.org Genomes (7/2013) Bacterial Archaeal Eukaryal Metagenomes* Complete 6330 227 311 392 Ongoing 15038 393 4920 3028 *230 environmental: Acid mine drainage, Biofilms of drinking water, Alaskan soil, Nevada hot springs, Rice endophyte community, 128 host-associated: Human intestinal microorganisms, human skin, human oral mucosa, etc.
Vektoren für genomische Klonierung Phagen BACs YACs braucht man NUR für konventionelles = Sanger-Sequenzieren
Genkarte eines künstlichen Bakterienchromosoms (BAC) ~300 kb
Genkarte eines künstlichen Hefechromosoms (YAC) CEN centromer 200-800 Kb ARS (autonom replizierende Sequenz = ori) Wirt hat Genotyp ura (auxotroph für Uracil, Ura - )
Sequenzierung: Bestimmung der Reihenfolge der Nukleotide in DNA oder RNA DNA Sequenzierung Sanger Dideoxymethode Erfunden von Fred Sanger am LMB in Cambridge (geboren 1918; Nobel Prizes Chemistry 1958 &1980) didexoyntps und deoxyntps werden gemeinsam eingesetzt in bestimmtem Verhältnis Analoga bewirken Abbruch der DNA-Kette Basen sind radioaktiv markiert Gelelektrophorese zur Auftrennung der DNA- Fragmente
DNA Sequenzierung: Sanger Dideoxymethode
DNA Sequenzierung: Sanger Dideoxymethode
DNA Sequenzierung: Sanger Dideoxymethode Basen können auch durch Fluoreszenz markiert werden
DNA Sequenzierung: 454 Pyrosequenzierung - 100x schneller als Sanger-Methode - Kurze DNA-Stücke (100-400bp) an beads gebunden, auf fibre optic Platte; > 10 6 beads pro Platte - Zur Komplementärstrangsynthese werden 4 dntps in Sequenz über die Platte gespült - Bei Einbau wird Pyrophosphat freigesetzt, das von Luciferase in Licht verwandelt wird - Lichtpulse werden registriert - Kann das menschliche Genom in wenigen Tagen sequenzieren
DNA Sequenzierung: 454 Pyrosequenzierung
DNA Sequenzierung: 454 Pyrosequenzierung
DNA Sequenzierung: Next generation sequencing - 100x schneller als Sanger-Methode - Kurze DNA-Stücke (100bp) an beads gebunden, auf fibre optic Platte; > 10 6 beads pro Platte - Zur Komplementärstrangsynthese werden 4 dntps in Sequenz über die Platte gespült - Bei Einbau wird Pyrophosphat freigesetzt, das von Luciferase in Licht verwandelt wird - Lichtpulse werden registriert - Kann das menschliche Genom in wenigen Tagen sequenzieren
Assembly und Annotierung von DNA-Sequenzen - Zusammensetzen der Fragmente in der richtigen Reihenfolge - Annotation: Identifizierung der Gene (= ORFs, Open Reading Frames), und funktioneller Regionen
Assembly von DNA-Sequenzen - Sequenzieren heute ausschliesslich mit der shot gun Methode: Erfordert anschliessend Zusammensetzen der Fragmente in der richtigen Reihenfolge Assembly...ATGCCAGCTTGAACGG......TACGGTCGAACTTGCC... Annotation
Annotation von DNA-Sequenzen: wie findet der Computer einen ORF? AUG UAA mrna Sequenz Shine/Dalgarno-Sequenz (AGGA), die 8 Basen vom einem Startcodon (AUG) entfernt liegt.
Annotation von DNA-Sequenzen: wie findet der Computer ein funktionelles Gen? - Bei Prokaryoten: Ribosomenbindestelle (SD) upstream von Start-AUG, gefolgt von ORF vernünftiger Grösse (>100 aa), dann STOP-Codon - exprimierte Gene haben Homologe in anderen Organismen BLAST (Basic Local Alignment Search Tool)-Suche in Daten- Banken helfen entscheiden, ob ORF ein echtes Gen darstellt - trna, rrna Gene haben kein AUG - Bis zu 10% aller Gene sind falsch annotiert
Grösse von Genomen Bei Bakterien & Archaea starke Korrelation zwischen Genom- Grösse und ORF-Anzahl Daten basieren auf 115 vollständigen Genomen von Bacteria und Archaea. PNAS 101: 3160 (2004).
Grösse von Prokaryoten-Genomen Bei Bakterien & Archaea starke Korrelation zwischen Genom- Grösse und ORF-Anzahl: 1Mb = 1000 ORFs Für freilebende Organismen, kleinstes Genom ca. 1400 ORFs Autotrophe haben kaum grössere Genome als Heterotrophe Kleinste Genome bei prokaryotischen Parasiten und Endosymbionten (490 kb, ca 500 gene) Grösstes bekanntes Bakteriengenom 9.1 Mb, 8300 ORFs; Bodenbakterien Genominhalt definiert die Lebensumstände & umgekehrt: Bsp. Thermotoga maritima, hyperthermophil, marine Sedimente
Genfunktionen in bakteriellen Genomen
Genfunktionen in bakteriellen Genomen: %-Anteil einzelner Kategorien abhängig von Genomgrösse
Organellengenome Mitochondrien & Chloroplasten stammen von Endosymbionten ab Chloroplastengenom: Photosynthese, Autotrophie Chloroplasten rrna, trna, viel Introns Transfer einiger Gene zum Nukleus zirkular Mitochondriengenom: oxidative Phosphorylierung, rrnas, trna, Proteinbiosynthesegene; weniger als Chloroplasten benutzen einen vereinfachten genetischen Code linear oder zirkular können auch Plasmide enthalten viele Mito-Proteine sind kern-codiert
Chloroplastengenom 120-160 kb, several sequenced, similar; viele Gene homolog zu Cyanobakterien: bestätigt Endosymbiontenhypothese Large single copy (RNA polymerase, RubisCO) Inverted repeats (rrna Gene) Small single copy
TABLE 15.4 Some chloroplast genomes Genes encoding Organism Size (bp) Proteins trna rrna Inverted repeats Chlorella vulgaris Green alga 150,613 77 31 1 Absent Euglena gracilis Protozoan 143,170 67 27 3 Absent Mesostigma viride Protozoan 118,360 92 37 2 Present Pinus thunbergii Black pine 119,707 72 32 1 Present Oryza sativa Rice 134,525 70 30 2 Present Zea mays Corn 140,387 70 30 2 Present
Menschliches Mitochondriengenom 16.569 bp Das Genom kodiert eine 16S-und eine 12S-rRNA (die den prokaryotischen 23S- und 16S-rRNAs entsprechen) sowie 22 trnas. Die 13 Gene (grün unterlegt) kodieren Proteine: Cytb, Cytochrom b; ND1-6, Komponente des NADH-Dehydrogenasekomplexes; COI-III, Untereinheiten des Cytochromoxidasekomplexes; ATPase 6 & 8. D-loop enthält die beiden Promotoren sowie Sequenzen für die Replikation.
Mitochondriengenome Unterscheiden sich stark voneinander: z.b. 3-62 Protein- codierende Gene Benutzen einfacheren genetischen Code Können linear oder circulär sein Pflanzen-Mitochondrien & Chloroplasten benutzen RNA-editing durch chemische Konversion C zu U In Protozoen-Mitochondrien RNA-editing durch Insertion oder Deletion von Nukleotiden
RNA-Editing: Insertion oder Deletion von Basen in der mrna Funktion & Ursprung unbekannt Aminosäuresequenz der Untereinheit III des Enzyms Cytochromoxidase des Protozoons Trypanosoma brucei. Das Protein wird in Mitochondrien codiert. Kleinbuchstaben = Editing
Organellen & Zellkern-Genom Hefe-Mitochondrien enthalten 400 verschiedene Proteine, nur 8 sind vom Mito-Genom kodiert Zellkern-codierte Proteine für Translation & Energieproduktion homolog zu Bakterienproteinen: Tranfer vom Endosymbiont zum Wirtszellkern? Aber: nur 50 der 400 Proteingene sind homolog zu den Bakterien, von denen Mitochondrien abstammen (alpha- Proteobakterien) Weitere 150 sind verwandt mit Bakterienproteinen, aber nicht alpha-proteobakterien Der Rest (ca 200 Gene) hat keine identifizierbaren bakteriellen Homologe
Metagenome Sequenzanalyse gepoolter DNA oder RNA aus einer Umwelt- Probe: kompletter Gengehalt aller Organismen, die in diesem Habitat leben = Metagenom Beispiele: Korallenriff Atemwege See-Eis in der Antarktis Salzseen in der Wüste Waldboden Die meiste DNA in natürlichen Habitaten ist nicht mit lebenden Zellen assoziiert, sondern ist frei, z.b. in Tiefseesedimenten
Genomfunktion & Regulation Genom, Transcriptom & Proteom: Genexpression interaktiv mit Signalen aus der Umwelt (z.b. zum Verständnis von Krankheiten, Umweltverschmutzung) Transcriptom: die gesamte mrna, die von einem Organismus unter spezifischen Bedingungen produziert wird Analyse durch Micro-Arrays (aka Gene Chips)
Transcriptom- Analyse durch Micro-Array
Transcriptom-Analyse durch Micro-Array MOVIE
Transcriptom-Analyse durch Micro-Array
Andere Anwendungen für Micro-Arrays: Vergleich von Genen nah verwandter Organismen (Pathogene & Nicht-Pathogene E.coli) Identifizierung von Mikroorganismen (z.b. in der Diagnostik von Krankheitserregern) ʻPhylochipsʼ: 16S rrna Oligos, zur Identifizierung der Mikrobenpopulation in einer Umweltprobe Identifizierung von höheren Organismen, z. B. bei der Qualitätskontrolle von Fertignahrung
Proteomik (funktionelle Genomik) Proteom: alle Proteine einer Zelle zu einem gegebenen Zeitpunkt methodisch: 2D-Gele Häufig mit zwei kombinierten, unterschiedlich markierten Proben (2-Farben Fluoreszenz) Genomik + Proteomik: Genexpression interaktiv mit Signalen aus der Umwelt (z.b. zum Verständnis von Krankheiten, Umweltverschmutzung)
Proteom-Analyse einer Kultur von Escherichia coli Autoradiogramm einer zweidimensionalen Polyacrylamidgelelektrophorese von Proteinen
Proteom-Analyse einer Kultur von Escherichia coli Autoradiogramm einer zweidimensionalen Polyacrylamidgelelektrophorese von Proteinen
Proteomik: Vergleich mehrerer, fluoreszenz-markierter Proben
Proteomik: Vergleich mehrerer, fluoreszenz-markierter Proben = 2D-DIGE (differential gel electrophoresis)
Evolution von Genomen Gene, die verwandte Sequenzen haben, heissen homolog Gruppen von homologen Genen heissen Genfamilien Gene, deren Ähnlichkeit aus einer Genverdopplung stammt, heissen paralog (Bsp: verschiedene Lactat-Dehydrogenase Enzyme des Menschen) Gene in zwei verschiedenen Organismen, die sich ähneln, weil die beiden Organismen von einem gemeinsamen Vorfahren abstammen, heissen ortholog ( Bsp: LDH von Lactobacillus und LDH des Menschen) d.h. Genfamilien enthalten sowohl Paraloge als auch Orthologe
Evolution von Genomen
Evolution von Genomen Duplikation kann einzelne Gene betreffen, oder das ganze Genom; Bsp S. cerevisiae, Arabidopsis Bei Bakterien ist Genomduplikation selten, und tritt nur teilweise auf Genom-Evolution in Prokaryoten hauptsächlich durch horizontalen Genfluss (Transformation, Transduktion, Konjugation) Detektion von horizontalem Genfluss über GC-Gehalt der DNA und Codon-Bias
Pan-Genome & Core Genome E. coli core genome = 2200 genes; pangenome = 13,000 genes pathogenic E. coli can encode up to 5000 genes
Pathogenicity Islands in E.coli