Molekularbiologische. Datenbanken. Sequenzierung. EST und cdnas. Wissensmanagement in der. Bioinformatik. Ulf Leser

Transkript

1 Molekularbiologische Datenbanken Sequenzierung EST und cdnas Ulf Leser Wissensmanagement in der Bioinformatik

2 Zusammenfassung: Mapping Chromosom isolieren Zufällig in Stücke brechen (Clone) Minimal Tiling Path ermitteln Stücke sequenzieren Fertig Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

3 Hybridisierung (Sketch) Ein Clone (Probe, Sonde) wird markiert (Radioaktiv, fluoreszierend) Probe wird mit Library auf Filter zusammengebracht DNA hybridisiert, wenn komplementär Nicht hybridisierte Clone werden abgewaschen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

4 PCR Illustration Heat Heat Cool Cool Zugabe von Primern und Polymerase Polymerase verlängert Primer an Template Heat Cool Heat etc. Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

5 Beispiel: Clone-Mapping mit Fehler C1 C2 C3 C4 C1 C2 C3 C4 C1, C2, C3 C1 C2 C3 C1, C2, C3, C4 C2, C3, C4 C1 C2 C3 C2 C3 C4 C4 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

6 C1P - Ordnung Theorem: Eine Matrix M ist C1P gdw es eine mit M konsistente Ordnung der Clone und Proben gibt Beweis: Literatur C1 C2 C3 C4 P1 P2 P3 C2 P1 P3 C1 C3 C4 P2 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

7 PQ Bäume P1 C1 C2 C3 C4 P3 P4 P2 Weitere Möglichkeiten C1 C2 C3 C4 P1 P3 P2 P4 C1 C2 C3 C4 P2 P4 P3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe P1

8 Back to real life Echte Daten sind nicht so hübsch Falsche positive Signale Falsche negative Signale Chimeric Clones Matrix nicht C1P Problem: Finde die wahrscheinlichste Lösung Möglichst wenig 1 einfügen (false negatives) Möglichst wenig 1 löschen (false positives) Möglichst wenig Clone entfernen/auftrennen (chimerism) Möglichst wenig Proben entfernen (Non-Unique) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

9 War nicht lösbar A B C1 C2 C3 C4 C D Beispiel C 3 2 A 3 D B A B C D A B C1 C1 C2 C2 C3 C4 C3 C4 D C C1 C2 C3 C4 D A B Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe C

10 Divergenzen Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

11 OMG Standard Genome Maps [BLL+99] mappedobj 1..1 Ma ppable species chromosome type getmaps() 0..* MapObject database name id crossreferences 1..1 Point Segment length unit Marke r Ma p Clo ne 1..1 MapEle m e nt positionprecision 1..* onmap 1..1 getnrofelements() getallelements() getrangebetweenobjects() getelementsinsegment() IntervalPosition PointPosition Range Position leftend rightend OrderedPosition rank frameworkelement position Vag ue Po s itio n leftflankingobj rightflankingobj Lin e a rma p maxcoordinate mincoordinate getscalarrange() getaround() Bin CytogeneticElement rank getsuperelement() getsubelements() getsiblings() Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

12 Inhalt dieser Vorlesung Sequenzierungsstrategien Sequenzierung ESTs & cdnas Datenmodelle Datenbanken Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

13 Teil I. Sequenzierungsstrategien Mapping und Sequenzierung Weg 1: Human Genome Project Weg 2: Whole Genome Shotgun Sequencing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

14 Mapping und Sequenzierung Chromosome nicht direkt sequenzierbar Zerlegung in Bruchstücke notwendig (Clonierung) Berechnung des Minimum Tiling Paths Sequenzieren der Bruchstücke auf dem MTP Aufwandsminimierung Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

15 BAC Map, Chr. 1-3 MB Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

16 Shotgun Sequenzierung Auch Cosmids / BACs (30 KB 300 KB) kann man nicht sequenzieren Heutiger Standard: Shotgun-Sequenzierung Erneutes Zerbrechen in Stücke ~ 1000 Basen Sequenzieren aller Stücke (wie: später) Berechnen der Originalsequenz aus Sequenzüberlappungen (wie: später) Warum? Sequenzierung hochautomatisiert Billiger als Feinkartierung in Plasmids Hohe Redundanz verringert Fehlerrate Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

17 Shotgun - Redundanz Typische notwendige Überdeckung Cosmid (30 KB) : 600 Reads a 500 Basen = Überdeckungsfaktor 10 BAC (120 KB): 2000 Reads a 500 Basen = Überdeckungsfaktor 8,3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

18 Sequenzierung im HGP Mehrstufiges Verfahren Kartierung mit YACs und BACs Berechnung von BAC Contigs (Hybridisierung, STS Anchoring) Shotgun - Sequenzieren der BACs Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

19 Whole Genome Shotgun (WGS) Beobachtung Sequenzierung immer billiger Mapping bleibt teuer Whole Genome Shotgun Zerbrechen von kompletten Genomen in Stücke 1KB- 100KB (keine Kartierung) Alle Bruchstücke (an)sequenzieren Homo sap.: Sequenzen (Celera) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

20 Vergleich WGS versus HGP - Ansatz Billiger, schneller Viele Gaps, da Kandidaten zum Gap-Closing nicht vorhanden Mehr Schwierigkeiten mit Repeats (weniger Scaffolding ) Immenser Aufwand für ausreichend hohe Überdeckung Draftsequenzen Kombination beider Methoden Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

21 Teil II. Sequenzierungstechnik Sequenzierungsmethode nach Sanger Verarbeitungsschritte Base Calling Assembly Finishing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

22 Aufgabe Gegeben: Clone unbekannter Sequenz Gesucht: Sequenz Unmöglich: Ansehen, Messen, Mikroskop, etc. Verfahren von Sanger, 1972: Radioactive Dideoxy Sequencing Dissertation Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

23 Heute Fluoreszente Markierung Hochdurchsatz Billig Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

24 Sequenzierung nach Sanger Zwei Voraussetzungen Polymerase Enzym Bindet an spezifischen Primer Verlängert einsträngige DNA entlang Template Deoxy versus Dideoxy Nucleotide DNA besteht aus Deoxy Nucleotiden (dntp) Einbau von Dideoxy Nucleotiden (ddntp) möglich ddntp stoppt Polymerase Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

25 Struktur von dntp und ddntp Keine freie OH Gruppe Base wird eingebaut, aber keine weiteren Basen können angehängt werden Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

26 Schritt 1 und 2 dntp: ACGT Primer + Polymerase Fluorescent ddntp: ACGT Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

27 Schritt 3 Primer Template ACGAACGCGAGTTAGTTAGACCAGTAGCCA... Polymerase ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACG T C A C A T A A G C G T A C G G T A C G C T A C CT T G G ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTA ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAG ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTTAGT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGA Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

28 Schritt 4 Laser & Detektoren ACGAACGCGAGTTA ACGAACGCGAG ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGT ACGAACGCGA Gel / Kapillar Elektrophorese ACGAACGC ACGAACGCG ACGAACGCGA ACGAACGCGAG ACGAACGCGAGT ACGAACGCGAGTT ACGAACGCGAGTTA ACGAACGCGAGGTTAG Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

29 Ergebnis (roh) Heutige Geräte > 36 Lanes parallel Kapillareletrophorese statt Gel Direktes Laden von 96 Well Plates Sanger Radioaktive Markierung 4 Mischungen (A,G,T,P) 4 Gel - Lanes Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

30 Ergebnis (Zwischenprodukt) Signalverarbeitung (Rauschen,...) Übersetzung in Traces 4 Arrays, jedes für eine Farbe Intensitätswerte in regelmäßigen Zeitabschnitten Theoretisch Peaks entdecken Immer nur eine Farbe Sequenz zuordnen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

31 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

32 Einschub: NCBI Trace Archive Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

33 Probleme mit Traces Low Quality Bereiche <50, > Kurze Fragmente laufen unregelmäßig Anfang schlecht Lange Fragmente sukzessive schlechter (relative Massenunterschied geringer, wenig Fragmente) Rauschen, schwache Signale, unterschiedliche Abstände zwischen Peaks, gleich starke Signale unterschiedliche Farben, etc. Compressions: Hairpin-Loops (GC-Rich) ACGAACGCGACGCGCGCGCGCGCGCGTTAG... ACGAACGCGACGCGCG...GATTGCGCGC C G C G C G Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

34 Vom Tracefile zur Sequenz Tracefiles sind Rohdaten der Sequenzierung Verschiedene Verfahren / Tools, um aus Trace- Files Sequenzen zu berechnen Komplexe Probleme Base Calling Assembly Finishing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

35 Base Calling Base Calling: Abbildung von Traces auf Basensequenzen Problem Keine klaren Peaks erkennbar Mehrere gleich starke Peaks Periode der Peaks verschoben Kontinuierliche Periodenverschiebung... Probleme abhängig von Sequenz (GC Content, Repeats, etc.) Position im Read Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

36 Base Calling in PHRED (Sketch) [EHWG98] PHRED: Heuristischer, hochgradig getunter Algorithmus Schritt 1: Berechnung Expected Peakpositionen Erstes Finden von Peaks Berechnung der Peakabstände Sliding Window von 200 Tracepoints (zum Ausgleich sich kontinuierlich ändernder Perioden) Bestimmung der Periode durch Sinuskurve Expected Peak Zentrum der Sinuskurve Iteratives Verschiebung des Fensters Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

37 PHRED 2 Schritt 2: Finder von Peaks im Trace Suche konkave Tracepoints pro Array Bedingungen an Peakhöhe und benachbarte Peaks Schritt 3: Zuord. Expected Observed Peaks Phase 1: Finden direkter Entsprechungen (mit min Fläche und max. Abweichung) Phase 2: Alignierung nicht zugewiesener Peaks (dynamische Programmierung) Phase 3: Zuordnung des Rests durch einige Regeln (Nachbarn, Mindestfläche, etc.) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

38 PHRED 3 Schritt 4: Resteverwertung Einfügung beobachteter, nicht zugewiesener Peaks in Sequenz (z.b. bei starker Periodenverschiebung) Vorteile von PHRED Erstmals (1998) bessere Erkennung als ABI Software Besonders gut in den High-Quality Areas (wichtig für HGP, nicht wichtig für EST Sequencing) Berechnung aussagekräftiger Qualitätswerte pro Base (wichtig für nächste Schritte) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

39 Assembly Szenario: Shotgun Sequenzierung Ergebnis des Base Calling: Einzelne Reads Gesucht: Gesamtsequenz... bzw.: zusammenhängende Stücke (Contigs) möglichst sichere Sequenz (Redundanz!) Assembly: Berechnung der Konsensussequenz Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

40 Assembly Read 1 Read 2 Read 3 Read 1 Read 2 Read 3 Read 4 Überlappung ist gut (Redundanz) und schlecht (potentielle Konflikte) Typische geforderte Überlappung im HGP: 7-10 Reads Alignments immer an mehreren Stellen möglich Greedy Ansatz nicht optimal Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

41 Assembly Abstrakte Formulierung Assembly: Verschärfung von SUPERSTRING Geg.: Menge S von Strings Ges.: String T so, dass (a) s S: s T (s Substring von T) (b) T, für die (a) gilt, gilt: T T ( T ist minimal) NP-vollständiges Problem Verschärfungen: Fehler in Sequenzen (s ungefähr Substring von T) Zwei Orientierungen von s möglich Gaps Heuristische Verfahren Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

42 Assembly - Fehlerklassen Primary Fehler in Clone durch Fehler bei Polymerase oder Mutationen bei Erzeugung Nicht auffindbar Secondary Fehler zwischen Laser und Sequenz (Base Calling, Lane Recognition, etc.) Basenabweichungen, Inserts/ Gaps,... Tertiary Kontamination (Primer, Clonierungsvektoren; evt. nicht erkannt wegen Fehlern der Stufe I/II) Screening nach bekannten Kontaminationen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

43 Algorithmus [KM95] Einer von vielen (PHRAP, CAP3, GAP4,...) 4 Schritte Berechnung von Sequenzoverlaps unter Zulassung einer festen Fehlerrate. Darstellung als Graph mit Knoten (Fragmente und Komplementäre) und gewichteten Kanten (den Fehlerraten). O(n 2 ) Orientierung der Fragmente festlegen. Löschen von Knoten im Graphen so, dass Summe der Kanten möglichst klein wird. NP-vollständig Fragmente anordnen. Auswahl von Kanten so, dass die Summe der Kanten möglichst klein ist und keine Widersprüche übrigbleiben. NP-vollständig Konsensussequenz durch Multiple Alignment berechnen. NP-vollständig (aber nur in maximalen Zahl überlappender Fragmenten die "dicksten" Stelle im Layout) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

44 Resultat Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

45 Finishing Ergebnis des Assembly Menge von Contigs Offenbleibende Probleme Löcher zwischen Contigs (Gaps) Regionen mit geringer Überdeckung Regionen geringer Basenqualität Ungelöste Basen - Mismatches Finishing Auswahl von weiteren Sequenzierungsexperimenten Automatische/manuelle Korrektur von Mismatches Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

46 Finishing Neue Reads Gaps Geringe Redundanz Low quality Auswahl (möglichst weniger) neuer Reads Design spezifischer Primer Gezielte Selektion von Clonen aus Shotgun Bibliothek Sequenzierrichtung / - technik ändern Neue Reads neues Assembly Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

47 Finishing - Editing Read 1: Read 2: AGAAAGAGA AGAAT-AGA AGAAAGAGA AGAAAGAGA AGAAAGAGA AGAAAGAGA AGAAT-AGA AGAAT-AGA AGAAT-AGA AGAAT-AGA AGAAAGAGA AGAAT*AGA AGAATAGA AGAA*GAGA * Unknown, - Gap Blau: Falsch, Rot: Consensus Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

48 Finishing Ergebnisse Finishing tw. nach wie vor manuelle Arbeit Ein paar Lücken bleiben meist Stellen nicht sequenzierbar (GC-reich, Repeats, etc.) Stellen nicht clonierbar (Instabil: Centromere, Interferenz mit Wirtszellen, etc.) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

49 Finishing Ergebnisse HGP Finished : kaum Löcher, 99.99% Genauigkeit Unfinished : viele Löcher, 99% Genauigkeit Human Draft (2000): Map mit über BACs Minimum Tiling Path: ~ BACs Draft für BACs mit 95% Überdeckung, aber Gaps pro BAC, 99% Genauigkeit WGS: (Drosophila, Celera, 2000) Genom: 120 MB Reads, 12.8-fache Überdeckung 1630 Gaps Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

50 Zusammenfassung Basis-Sequenziertechnik: Dideoxy Sequencing Viele Teilschritte Cloneerstellung Probenaufbereitung (Shotgun) Sequenzieren Base Calling, Assembly, Finishing Extreme Verbilligung in 10 Jahren Kosten von 10 USD auf unter 20 Cent / Base Neue Techniken: Kapillare, Massenspektrometer Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

51 Teil III. ESTs und cdna mrna, cdna, EST UniGene Datenqualität Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

52 DNA -> Protein Central Dogma DNA RNA Protein RNA editing 5 CAP 3 PolyA Tail Splicing messenger RNA (mrna) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

53 mrna - cdna Trick: Rück-Übersetzung von mrna in cdna Reverse Transscriptase (RT) Primer z.b. am Poly-A Tale oder Random Clonierung der cdna in Libraries Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

54 Reverse Transscriptase Retroviren (z.b. HIV) Quelle: Kimball's Biology Pages Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

55 cdna Libraries cdnas: Gene / kodierende Regionen Viel interessanter als genomische DNA des HGS! Differential Splicing different cdnas cdna enthält (meist) PolyA und 3 Ende cdna enthält (oft) nicht 5 Ende (selten < 6KB) Hochgradig abhängig von Gewebe Entwicklungsstadium (Embryo - Erwachsen) Organismusstatus (Krank Gesund) Gene Expression (später) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

56 cdna -> EST Expressed Sequence Tags Single Read Sequenzierung der cdna 3 Enden 5 Enden Sehr hoher Durchsatz Geringe Genauigkeit (2-3% Basenfehler) Kurze Reads ( Basen) Sehr populär (Stand 4/2003) 8 von 30GB in Genbank 16 von 23 Millionen Submissions in Genbank Ca humane ESTs Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

57 EST Clustering 4.5 Millionen ESTs wie viele Gene? Clustern der EST nach Sequenzüberlappungen Ähnlich Assembly, aber Hohe Fehlerrate in Sequenz 4.5 Mill Sequenzen assemblieren Rechenaufwand Genefamilien mit hoher Sequenzähnlichkeit Fehlende Überlappung von 3 und 5 Sequenzen Differential Splicing kein Assembly möglich GeneFinding: Genaue Sequenz nicht notwendig Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

58 UniGene [PWS02] Heuristisches, mehrphasiges Verfahren Entfernen von Low-Quality Regions, Repeats, Kontamination Clustern aller cdna in Genbank (MegaBlast) Zu wenig Toleranz - false negatives wegen Sequenzierfehlern Zu hohe Toleranz - false positives durch Paralogs Clustern aller EST (MegaBlast) Mergen der Cluster bei Überlappung Mergen der Cluster, wenn EST von identischen cdnas Anchoring: Nur Gene mit 3 (PolyA oder Annotation) Singleton cdna und ESTs mit geringerer Spezifität erneut Screenen Wöchentliche Aktualisierung Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

59 UniGene Daten Bewertung Heuristisches Verfahren ohne Garantie optimaler Lösung Orientierung an genomischen (also guten) Sequenzen Clustern können sich von Woche zu Woche ändern (keine stabilen Gene, nicht auf Cluster-IDs verweisen) Ergebnis 4/ Cluster (wie viele Gene hat der Mensch?) Mitglieder: 1 (40.000) - > (wenige) Ca. 70% bestehen nur aus ESTs Andere Verfahren STACK: d2_cluster (q-grams), Assemblies mit PHRAP, tissuespecific TIGR Gene Index: Assemblies mit CAP3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

60 EST Mapping Position der EST nicht bekannt Transscript Mapping Projekte Primer aus EST Sequenzen Vorsicht vor Splicing! Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

61 Zusammenfassung EST / cdna sehr wichtiges Tool Konzentration auf wichtige (kodierende) Sequenzen Messen der Genexpression (später) Katalog aller Gene Nachteile Geringe Datenqualität Keine volle Überdeckung (gering / nur selten exprimierte Gene) Extrem hohe Redundanz Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

62 Teil IV. Datenmodelle Daten Datenmodelle BioSQL EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

63 Rohdaten Daten über den Sequenzierprozess Geräterohdaten (Spektren) Trace files Assemblies, Edits, Contigs, Gaps Benutzte Programme Labourdaten (Maschinen, Personal, Datum,...) NCBI Trace File Archive Viele Sequenziercenter Sanger University of Washington... Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

64 Sequenzdaten Technische Herkunft wer, wann, wie, Methode,... Biologische Herkunft Clone, Organismus, Linie,... Literaturreferenzen Fehlerraten Sequenz Feature Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

65 Feature Annotation von Sequenzteilen Bestandteile Location: Start - Ende, Gaped, Genau - Ungenau Key: CDS, Repeat, RNA-Strukturen, Homologe Sequenzen, Promotoren, Marker, Exon/Intron Boundaries, Funktion, Motiv, Polymorphismus,... Qualifier: Ergänzungen, z.b. kodiertes Protein, Splicevariante, Regulationsmechanismen,... Label: Name des Features (Referenzierung) EMBL Featuretable: Ca. 50 Feature keys, hierarchisch organisiert Jeweils 1-20 Qualifier, tw. mit Controlled Vocabularies Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

66 EMBL Beispiel FH Key Location/Qualifiers FH FT source FT /db_xref="taxon:1638" FT /organism="listeria ivanovii" FT /strain="atcc 19119" FT RBS FT /gene="sod" FT terminator FT /gene="sod" FT CDS FT /db_xref="swiss-prot:p28763" FT /transl_table=11 FT /gene="sod" FT /EC_number=" " FT /product="superoxide dismutase" FT /protein_id="caa " FT /translation="mtyelpklpytydalepnff FT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGH FT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNN FT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERN Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

67 Modellierung 2 Möglichkeiten Metamodellierung Generische Klassen Feature, Term, Qualifier,... Beispiel: BioSQL Ausmodellieren Explizite Klassen RBS, Terminator, CDS,... Beispiel: EMBL Objektmodell Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

68 Beispiel: BioSQL OpenSource Projekt Relationale Schema (Oracle, PostGres, mysql) Parser (Perl) EMBL & SwissProt Ca. 20 Tabellen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

69 BioSQL Core Sequenz Entry mit IDs / Version Literaturreferenzen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

70 BioSQL Feature Feature vom Typ _SOURCE Location(s) _LOCATION Qualifier _Q_VALUE Typ ONTOLOGY_TERM Value QUALIFIER_VALUE Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

71 Beispiel: EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

72 EMBL Feature 2 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

73 Zusammenfassung Interessanter Teil der Modelle: Feature Vorteile Metamodellierung Weniger Tabellen Einfach erweiterbar (INSERT statt CREATE TABLE) Feature-Keys etc. sind Werte Zugriff über SQL Nachteile Langsamer (Größere Tabellen) Unübersichtlich Keine Feature-spezifischen Felder, Datentypen, Constraints Modelle sehr ähnlich für Proteinsequenzen SP relationales Schema basiert auf dem von EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

74 Generischstes relationales Schema Id Name Table Column Table_ID Id Name Value Column_Id Value Type Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

75 Teil V. Datenbanken EMBL / SRS Genbank / Entrez Weitere Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

76 EMBL Identischer Datenbestand zu Genbank / DDBJ Nächtlicher Austausch Formatunterschiede Submission based Archiv (fast) keine Bearbeitung der Daten Verfügbarkeit Flatfile SRS ML (BSML,?) Oracle Dump Files Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

77 EMBL Divisions Tw. Speziesübergreifend, tw. speciesspezifisch Exponentielles Wachstum Quelle: Stand EMBL Release 72, Total: 32 GBases Accession-Num und Version ID Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

78 SRS: Sequence Retrieval System EMBL EBI Lion AG Komponenten Flatfile Indexierungssystem WWW Interface Anfragesprache Administrationstools Parser für >200 DB, EBI-Installation: 120 DBs Joins Verfolgen externer Datenbankreferenzen Equi-Joins Später mehr Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

79 Genbank Modell in ASN.1 Datenspeicherung:? Zugriff: Entrez Ähnlich SRS Keine Joins Neighbours Related Documents Click-And-Browse Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

80 Weitere Datenbanken UniGene, dbest, RZPD,... Spezielle Arten Sequenz Organismen (Yeast, Fly, Mouse, HIV,...) Ribosomen, Immunsystem Motive: Transscriptionsfaktoren, Promotoren,... Vorberechnete, curated Homologien Terminologie GeneOntology (> 7000 Begriffe: Funktion, Prozess, Zelllokation) NCBI Taxonomy Database ( Org.)... Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

81 Literatur [KM95] Kececioglu, J. and Myers, E. W. (1995). "Combinatorial Algorithms for DNA sequence assembly." Algorithmica 13(1/2): [EHWG98] Ewing, B., Hillier, L., Wendl, M. C. and Green, P. (1998). "Base-Calling of Automated Sequence Traces using PHRED. I. Accuracy Assesment." Genome Research 8: [PWS02] Pontius, J. U., Wagner, L. and Schuler, G. D. (2002). UniGene: A Unified View of the Transscriptome. Book "UniGene: A Unified View of the Transscriptome", National Library of Medicine, Bethesda [BO01] Baxevanis, A. D. and Ouellette, B. F. F., Eds. (2001). "Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins", John Wiley & Sons. (Kapitel 12+13) [Sen02] Sensen, C., Ed. (2002). "Essentials of Genomics and Bioinformatics", Wiley-VCH, Weinheim. (Kapitel 2+7) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe