Molekularbiologische. Datenbanken. Sequenzierung. EST und cdnas. Wissensmanagement in der. Bioinformatik. Ulf Leser

Größe: px
Ab Seite anzeigen:

Download "Molekularbiologische. Datenbanken. Sequenzierung. EST und cdnas. Wissensmanagement in der. Bioinformatik. Ulf Leser"

Transkript

1 Molekularbiologische Datenbanken Sequenzierung EST und cdnas Ulf Leser Wissensmanagement in der Bioinformatik

2 Zusammenfassung: Mapping Chromosom isolieren Zufällig in Stücke brechen (Clone) Minimal Tiling Path ermitteln Stücke sequenzieren Fertig Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

3 Hybridisierung (Sketch) Ein Clone (Probe, Sonde) wird markiert (Radioaktiv, fluoreszierend) Probe wird mit Library auf Filter zusammengebracht DNA hybridisiert, wenn komplementär Nicht hybridisierte Clone werden abgewaschen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

4 PCR Illustration Heat Heat Cool Cool Zugabe von Primern und Polymerase Polymerase verlängert Primer an Template Heat Cool Heat etc. Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

5 Beispiel: Clone-Mapping mit Fehler C1 C2 C3 C4 C1 C2 C3 C4 C1, C2, C3 C1 C2 C3 C1, C2, C3, C4 C2, C3, C4 C1 C2 C3 C2 C3 C4 C4 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

6 C1P - Ordnung Theorem: Eine Matrix M ist C1P gdw es eine mit M konsistente Ordnung der Clone und Proben gibt Beweis: Literatur C1 C2 C3 C4 P1 P2 P3 C2 P1 P3 C1 C3 C4 P2 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

7 PQ Bäume P1 C1 C2 C3 C4 P3 P4 P2 Weitere Möglichkeiten C1 C2 C3 C4 P1 P3 P2 P4 C1 C2 C3 C4 P2 P4 P3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe P1

8 Back to real life Echte Daten sind nicht so hübsch Falsche positive Signale Falsche negative Signale Chimeric Clones Matrix nicht C1P Problem: Finde die wahrscheinlichste Lösung Möglichst wenig 1 einfügen (false negatives) Möglichst wenig 1 löschen (false positives) Möglichst wenig Clone entfernen/auftrennen (chimerism) Möglichst wenig Proben entfernen (Non-Unique) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

9 War nicht lösbar A B C1 C2 C3 C4 C D Beispiel C 3 2 A 3 D B A B C D A B C1 C1 C2 C2 C3 C4 C3 C4 D C C1 C2 C3 C4 D A B Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe C

10 Divergenzen Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

11 OMG Standard Genome Maps [BLL+99] mappedobj 1..1 Ma ppable species chromosome type getmaps() 0..* MapObject database name id crossreferences 1..1 Point Segment length unit Marke r Ma p Clo ne 1..1 MapEle m e nt positionprecision 1..* onmap 1..1 getnrofelements() getallelements() getrangebetweenobjects() getelementsinsegment() IntervalPosition PointPosition Range Position leftend rightend OrderedPosition rank frameworkelement position Vag ue Po s itio n leftflankingobj rightflankingobj Lin e a rma p maxcoordinate mincoordinate getscalarrange() getaround() Bin CytogeneticElement rank getsuperelement() getsubelements() getsiblings() Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

12 Inhalt dieser Vorlesung Sequenzierungsstrategien Sequenzierung ESTs & cdnas Datenmodelle Datenbanken Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

13 Teil I. Sequenzierungsstrategien Mapping und Sequenzierung Weg 1: Human Genome Project Weg 2: Whole Genome Shotgun Sequencing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

14 Mapping und Sequenzierung Chromosome nicht direkt sequenzierbar Zerlegung in Bruchstücke notwendig (Clonierung) Berechnung des Minimum Tiling Paths Sequenzieren der Bruchstücke auf dem MTP Aufwandsminimierung Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

15 BAC Map, Chr. 1-3 MB Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

16 Shotgun Sequenzierung Auch Cosmids / BACs (30 KB 300 KB) kann man nicht sequenzieren Heutiger Standard: Shotgun-Sequenzierung Erneutes Zerbrechen in Stücke ~ 1000 Basen Sequenzieren aller Stücke (wie: später) Berechnen der Originalsequenz aus Sequenzüberlappungen (wie: später) Warum? Sequenzierung hochautomatisiert Billiger als Feinkartierung in Plasmids Hohe Redundanz verringert Fehlerrate Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

17 Shotgun - Redundanz Typische notwendige Überdeckung Cosmid (30 KB) : 600 Reads a 500 Basen = Überdeckungsfaktor 10 BAC (120 KB): 2000 Reads a 500 Basen = Überdeckungsfaktor 8,3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

18 Sequenzierung im HGP Mehrstufiges Verfahren Kartierung mit YACs und BACs Berechnung von BAC Contigs (Hybridisierung, STS Anchoring) Shotgun - Sequenzieren der BACs Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

19 Whole Genome Shotgun (WGS) Beobachtung Sequenzierung immer billiger Mapping bleibt teuer Whole Genome Shotgun Zerbrechen von kompletten Genomen in Stücke 1KB- 100KB (keine Kartierung) Alle Bruchstücke (an)sequenzieren Homo sap.: Sequenzen (Celera) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

20 Vergleich WGS versus HGP - Ansatz Billiger, schneller Viele Gaps, da Kandidaten zum Gap-Closing nicht vorhanden Mehr Schwierigkeiten mit Repeats (weniger Scaffolding ) Immenser Aufwand für ausreichend hohe Überdeckung Draftsequenzen Kombination beider Methoden Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

21 Teil II. Sequenzierungstechnik Sequenzierungsmethode nach Sanger Verarbeitungsschritte Base Calling Assembly Finishing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

22 Aufgabe Gegeben: Clone unbekannter Sequenz Gesucht: Sequenz Unmöglich: Ansehen, Messen, Mikroskop, etc. Verfahren von Sanger, 1972: Radioactive Dideoxy Sequencing Dissertation Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

23 Heute Fluoreszente Markierung Hochdurchsatz Billig Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

24 Sequenzierung nach Sanger Zwei Voraussetzungen Polymerase Enzym Bindet an spezifischen Primer Verlängert einsträngige DNA entlang Template Deoxy versus Dideoxy Nucleotide DNA besteht aus Deoxy Nucleotiden (dntp) Einbau von Dideoxy Nucleotiden (ddntp) möglich ddntp stoppt Polymerase Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

25 Struktur von dntp und ddntp Keine freie OH Gruppe Base wird eingebaut, aber keine weiteren Basen können angehängt werden Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

26 Schritt 1 und 2 dntp: ACGT Primer + Polymerase Fluorescent ddntp: ACGT Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

27 Schritt 3 Primer Template ACGAACGCGAGTTAGTTAGACCAGTAGCCA... Polymerase ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACG T C A C A T A A G C G T A C G G T A C G C T A C CT T G G ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTA ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAG ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTTAGT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGA Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

28 Schritt 4 Laser & Detektoren ACGAACGCGAGTTA ACGAACGCGAG ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGT ACGAACGCGA Gel / Kapillar Elektrophorese ACGAACGC ACGAACGCG ACGAACGCGA ACGAACGCGAG ACGAACGCGAGT ACGAACGCGAGTT ACGAACGCGAGTTA ACGAACGCGAGGTTAG Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

29 Ergebnis (roh) Heutige Geräte > 36 Lanes parallel Kapillareletrophorese statt Gel Direktes Laden von 96 Well Plates Sanger Radioaktive Markierung 4 Mischungen (A,G,T,P) 4 Gel - Lanes Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

30 Ergebnis (Zwischenprodukt) Signalverarbeitung (Rauschen,...) Übersetzung in Traces 4 Arrays, jedes für eine Farbe Intensitätswerte in regelmäßigen Zeitabschnitten Theoretisch Peaks entdecken Immer nur eine Farbe Sequenz zuordnen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

31 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

32 Einschub: NCBI Trace Archive Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

33 Probleme mit Traces Low Quality Bereiche <50, > Kurze Fragmente laufen unregelmäßig Anfang schlecht Lange Fragmente sukzessive schlechter (relative Massenunterschied geringer, wenig Fragmente) Rauschen, schwache Signale, unterschiedliche Abstände zwischen Peaks, gleich starke Signale unterschiedliche Farben, etc. Compressions: Hairpin-Loops (GC-Rich) ACGAACGCGACGCGCGCGCGCGCGCGTTAG... ACGAACGCGACGCGCG...GATTGCGCGC C G C G C G Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

34 Vom Tracefile zur Sequenz Tracefiles sind Rohdaten der Sequenzierung Verschiedene Verfahren / Tools, um aus Trace- Files Sequenzen zu berechnen Komplexe Probleme Base Calling Assembly Finishing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

35 Base Calling Base Calling: Abbildung von Traces auf Basensequenzen Problem Keine klaren Peaks erkennbar Mehrere gleich starke Peaks Periode der Peaks verschoben Kontinuierliche Periodenverschiebung... Probleme abhängig von Sequenz (GC Content, Repeats, etc.) Position im Read Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

36 Base Calling in PHRED (Sketch) [EHWG98] PHRED: Heuristischer, hochgradig getunter Algorithmus Schritt 1: Berechnung Expected Peakpositionen Erstes Finden von Peaks Berechnung der Peakabstände Sliding Window von 200 Tracepoints (zum Ausgleich sich kontinuierlich ändernder Perioden) Bestimmung der Periode durch Sinuskurve Expected Peak Zentrum der Sinuskurve Iteratives Verschiebung des Fensters Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

37 PHRED 2 Schritt 2: Finder von Peaks im Trace Suche konkave Tracepoints pro Array Bedingungen an Peakhöhe und benachbarte Peaks Schritt 3: Zuord. Expected Observed Peaks Phase 1: Finden direkter Entsprechungen (mit min Fläche und max. Abweichung) Phase 2: Alignierung nicht zugewiesener Peaks (dynamische Programmierung) Phase 3: Zuordnung des Rests durch einige Regeln (Nachbarn, Mindestfläche, etc.) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

38 PHRED 3 Schritt 4: Resteverwertung Einfügung beobachteter, nicht zugewiesener Peaks in Sequenz (z.b. bei starker Periodenverschiebung) Vorteile von PHRED Erstmals (1998) bessere Erkennung als ABI Software Besonders gut in den High-Quality Areas (wichtig für HGP, nicht wichtig für EST Sequencing) Berechnung aussagekräftiger Qualitätswerte pro Base (wichtig für nächste Schritte) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

39 Assembly Szenario: Shotgun Sequenzierung Ergebnis des Base Calling: Einzelne Reads Gesucht: Gesamtsequenz... bzw.: zusammenhängende Stücke (Contigs) möglichst sichere Sequenz (Redundanz!) Assembly: Berechnung der Konsensussequenz Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

40 Assembly Read 1 Read 2 Read 3 Read 1 Read 2 Read 3 Read 4 Überlappung ist gut (Redundanz) und schlecht (potentielle Konflikte) Typische geforderte Überlappung im HGP: 7-10 Reads Alignments immer an mehreren Stellen möglich Greedy Ansatz nicht optimal Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

41 Assembly Abstrakte Formulierung Assembly: Verschärfung von SUPERSTRING Geg.: Menge S von Strings Ges.: String T so, dass (a) s S: s T (s Substring von T) (b) T, für die (a) gilt, gilt: T T ( T ist minimal) NP-vollständiges Problem Verschärfungen: Fehler in Sequenzen (s ungefähr Substring von T) Zwei Orientierungen von s möglich Gaps Heuristische Verfahren Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

42 Assembly - Fehlerklassen Primary Fehler in Clone durch Fehler bei Polymerase oder Mutationen bei Erzeugung Nicht auffindbar Secondary Fehler zwischen Laser und Sequenz (Base Calling, Lane Recognition, etc.) Basenabweichungen, Inserts/ Gaps,... Tertiary Kontamination (Primer, Clonierungsvektoren; evt. nicht erkannt wegen Fehlern der Stufe I/II) Screening nach bekannten Kontaminationen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

43 Algorithmus [KM95] Einer von vielen (PHRAP, CAP3, GAP4,...) 4 Schritte Berechnung von Sequenzoverlaps unter Zulassung einer festen Fehlerrate. Darstellung als Graph mit Knoten (Fragmente und Komplementäre) und gewichteten Kanten (den Fehlerraten). O(n 2 ) Orientierung der Fragmente festlegen. Löschen von Knoten im Graphen so, dass Summe der Kanten möglichst klein wird. NP-vollständig Fragmente anordnen. Auswahl von Kanten so, dass die Summe der Kanten möglichst klein ist und keine Widersprüche übrigbleiben. NP-vollständig Konsensussequenz durch Multiple Alignment berechnen. NP-vollständig (aber nur in maximalen Zahl überlappender Fragmenten die "dicksten" Stelle im Layout) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

44 Resultat Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

45 Finishing Ergebnis des Assembly Menge von Contigs Offenbleibende Probleme Löcher zwischen Contigs (Gaps) Regionen mit geringer Überdeckung Regionen geringer Basenqualität Ungelöste Basen - Mismatches Finishing Auswahl von weiteren Sequenzierungsexperimenten Automatische/manuelle Korrektur von Mismatches Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

46 Finishing Neue Reads Gaps Geringe Redundanz Low quality Auswahl (möglichst weniger) neuer Reads Design spezifischer Primer Gezielte Selektion von Clonen aus Shotgun Bibliothek Sequenzierrichtung / - technik ändern Neue Reads neues Assembly Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

47 Finishing - Editing Read 1: Read 2: AGAAAGAGA AGAAT-AGA AGAAAGAGA AGAAAGAGA AGAAAGAGA AGAAAGAGA AGAAT-AGA AGAAT-AGA AGAAT-AGA AGAAT-AGA AGAAAGAGA AGAAT*AGA AGAATAGA AGAA*GAGA * Unknown, - Gap Blau: Falsch, Rot: Consensus Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

48 Finishing Ergebnisse Finishing tw. nach wie vor manuelle Arbeit Ein paar Lücken bleiben meist Stellen nicht sequenzierbar (GC-reich, Repeats, etc.) Stellen nicht clonierbar (Instabil: Centromere, Interferenz mit Wirtszellen, etc.) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

49 Finishing Ergebnisse HGP Finished : kaum Löcher, 99.99% Genauigkeit Unfinished : viele Löcher, 99% Genauigkeit Human Draft (2000): Map mit über BACs Minimum Tiling Path: ~ BACs Draft für BACs mit 95% Überdeckung, aber Gaps pro BAC, 99% Genauigkeit WGS: (Drosophila, Celera, 2000) Genom: 120 MB Reads, 12.8-fache Überdeckung 1630 Gaps Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

50 Zusammenfassung Basis-Sequenziertechnik: Dideoxy Sequencing Viele Teilschritte Cloneerstellung Probenaufbereitung (Shotgun) Sequenzieren Base Calling, Assembly, Finishing Extreme Verbilligung in 10 Jahren Kosten von 10 USD auf unter 20 Cent / Base Neue Techniken: Kapillare, Massenspektrometer Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

51 Teil III. ESTs und cdna mrna, cdna, EST UniGene Datenqualität Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

52 DNA -> Protein Central Dogma DNA RNA Protein RNA editing 5 CAP 3 PolyA Tail Splicing messenger RNA (mrna) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

53 mrna - cdna Trick: Rück-Übersetzung von mrna in cdna Reverse Transscriptase (RT) Primer z.b. am Poly-A Tale oder Random Clonierung der cdna in Libraries Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

54 Reverse Transscriptase Retroviren (z.b. HIV) Quelle: Kimball's Biology Pages Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

55 cdna Libraries cdnas: Gene / kodierende Regionen Viel interessanter als genomische DNA des HGS! Differential Splicing different cdnas cdna enthält (meist) PolyA und 3 Ende cdna enthält (oft) nicht 5 Ende (selten < 6KB) Hochgradig abhängig von Gewebe Entwicklungsstadium (Embryo - Erwachsen) Organismusstatus (Krank Gesund) Gene Expression (später) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

56 cdna -> EST Expressed Sequence Tags Single Read Sequenzierung der cdna 3 Enden 5 Enden Sehr hoher Durchsatz Geringe Genauigkeit (2-3% Basenfehler) Kurze Reads ( Basen) Sehr populär (Stand 4/2003) 8 von 30GB in Genbank 16 von 23 Millionen Submissions in Genbank Ca humane ESTs Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

57 EST Clustering 4.5 Millionen ESTs wie viele Gene? Clustern der EST nach Sequenzüberlappungen Ähnlich Assembly, aber Hohe Fehlerrate in Sequenz 4.5 Mill Sequenzen assemblieren Rechenaufwand Genefamilien mit hoher Sequenzähnlichkeit Fehlende Überlappung von 3 und 5 Sequenzen Differential Splicing kein Assembly möglich GeneFinding: Genaue Sequenz nicht notwendig Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

58 UniGene [PWS02] Heuristisches, mehrphasiges Verfahren Entfernen von Low-Quality Regions, Repeats, Kontamination Clustern aller cdna in Genbank (MegaBlast) Zu wenig Toleranz - false negatives wegen Sequenzierfehlern Zu hohe Toleranz - false positives durch Paralogs Clustern aller EST (MegaBlast) Mergen der Cluster bei Überlappung Mergen der Cluster, wenn EST von identischen cdnas Anchoring: Nur Gene mit 3 (PolyA oder Annotation) Singleton cdna und ESTs mit geringerer Spezifität erneut Screenen Wöchentliche Aktualisierung Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

59 UniGene Daten Bewertung Heuristisches Verfahren ohne Garantie optimaler Lösung Orientierung an genomischen (also guten) Sequenzen Clustern können sich von Woche zu Woche ändern (keine stabilen Gene, nicht auf Cluster-IDs verweisen) Ergebnis 4/ Cluster (wie viele Gene hat der Mensch?) Mitglieder: 1 (40.000) - > (wenige) Ca. 70% bestehen nur aus ESTs Andere Verfahren STACK: d2_cluster (q-grams), Assemblies mit PHRAP, tissuespecific TIGR Gene Index: Assemblies mit CAP3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

60 EST Mapping Position der EST nicht bekannt Transscript Mapping Projekte Primer aus EST Sequenzen Vorsicht vor Splicing! Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

61 Zusammenfassung EST / cdna sehr wichtiges Tool Konzentration auf wichtige (kodierende) Sequenzen Messen der Genexpression (später) Katalog aller Gene Nachteile Geringe Datenqualität Keine volle Überdeckung (gering / nur selten exprimierte Gene) Extrem hohe Redundanz Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

62 Teil IV. Datenmodelle Daten Datenmodelle BioSQL EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

63 Rohdaten Daten über den Sequenzierprozess Geräterohdaten (Spektren) Trace files Assemblies, Edits, Contigs, Gaps Benutzte Programme Labourdaten (Maschinen, Personal, Datum,...) NCBI Trace File Archive Viele Sequenziercenter Sanger University of Washington... Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

64 Sequenzdaten Technische Herkunft wer, wann, wie, Methode,... Biologische Herkunft Clone, Organismus, Linie,... Literaturreferenzen Fehlerraten Sequenz Feature Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

65 Feature Annotation von Sequenzteilen Bestandteile Location: Start - Ende, Gaped, Genau - Ungenau Key: CDS, Repeat, RNA-Strukturen, Homologe Sequenzen, Promotoren, Marker, Exon/Intron Boundaries, Funktion, Motiv, Polymorphismus,... Qualifier: Ergänzungen, z.b. kodiertes Protein, Splicevariante, Regulationsmechanismen,... Label: Name des Features (Referenzierung) EMBL Featuretable: Ca. 50 Feature keys, hierarchisch organisiert Jeweils 1-20 Qualifier, tw. mit Controlled Vocabularies Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

66 EMBL Beispiel FH Key Location/Qualifiers FH FT source FT /db_xref="taxon:1638" FT /organism="listeria ivanovii" FT /strain="atcc 19119" FT RBS FT /gene="sod" FT terminator FT /gene="sod" FT CDS FT /db_xref="swiss-prot:p28763" FT /transl_table=11 FT /gene="sod" FT /EC_number=" " FT /product="superoxide dismutase" FT /protein_id="caa " FT /translation="mtyelpklpytydalepnff FT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGH FT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNN FT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERN Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

67 Modellierung 2 Möglichkeiten Metamodellierung Generische Klassen Feature, Term, Qualifier,... Beispiel: BioSQL Ausmodellieren Explizite Klassen RBS, Terminator, CDS,... Beispiel: EMBL Objektmodell Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

68 Beispiel: BioSQL OpenSource Projekt Relationale Schema (Oracle, PostGres, mysql) Parser (Perl) EMBL & SwissProt Ca. 20 Tabellen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

69 BioSQL Core Sequenz Entry mit IDs / Version Literaturreferenzen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

70 BioSQL Feature Feature vom Typ _SOURCE Location(s) _LOCATION Qualifier _Q_VALUE Typ ONTOLOGY_TERM Value QUALIFIER_VALUE Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

71 Beispiel: EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

72 EMBL Feature 2 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

73 Zusammenfassung Interessanter Teil der Modelle: Feature Vorteile Metamodellierung Weniger Tabellen Einfach erweiterbar (INSERT statt CREATE TABLE) Feature-Keys etc. sind Werte Zugriff über SQL Nachteile Langsamer (Größere Tabellen) Unübersichtlich Keine Feature-spezifischen Felder, Datentypen, Constraints Modelle sehr ähnlich für Proteinsequenzen SP relationales Schema basiert auf dem von EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

74 Generischstes relationales Schema Id Name Table Column Table_ID Id Name Value Column_Id Value Type Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

75 Teil V. Datenbanken EMBL / SRS Genbank / Entrez Weitere Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

76 EMBL Identischer Datenbestand zu Genbank / DDBJ Nächtlicher Austausch Formatunterschiede Submission based Archiv (fast) keine Bearbeitung der Daten Verfügbarkeit Flatfile SRS ML (BSML,?) Oracle Dump Files Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

77 EMBL Divisions Tw. Speziesübergreifend, tw. speciesspezifisch Exponentielles Wachstum Quelle: Stand EMBL Release 72, Total: 32 GBases Accession-Num und Version ID Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

78 SRS: Sequence Retrieval System EMBL EBI Lion AG Komponenten Flatfile Indexierungssystem WWW Interface Anfragesprache Administrationstools Parser für >200 DB, EBI-Installation: 120 DBs Joins Verfolgen externer Datenbankreferenzen Equi-Joins Später mehr Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

79 Genbank Modell in ASN.1 Datenspeicherung:? Zugriff: Entrez Ähnlich SRS Keine Joins Neighbours Related Documents Click-And-Browse Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

80 Weitere Datenbanken UniGene, dbest, RZPD,... Spezielle Arten Sequenz Organismen (Yeast, Fly, Mouse, HIV,...) Ribosomen, Immunsystem Motive: Transscriptionsfaktoren, Promotoren,... Vorberechnete, curated Homologien Terminologie GeneOntology (> 7000 Begriffe: Funktion, Prozess, Zelllokation) NCBI Taxonomy Database ( Org.)... Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

81 Literatur [KM95] Kececioglu, J. and Myers, E. W. (1995). "Combinatorial Algorithms for DNA sequence assembly." Algorithmica 13(1/2): [EHWG98] Ewing, B., Hillier, L., Wendl, M. C. and Green, P. (1998). "Base-Calling of Automated Sequence Traces using PHRED. I. Accuracy Assesment." Genome Research 8: [PWS02] Pontius, J. U., Wagner, L. and Schuler, G. D. (2002). UniGene: A Unified View of the Transscriptome. Book "UniGene: A Unified View of the Transscriptome", National Library of Medicine, Bethesda [BO01] Baxevanis, A. D. and Ouellette, B. F. F., Eds. (2001). "Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins", John Wiley & Sons. (Kapitel 12+13) [Sen02] Sensen, C., Ed. (2002). "Essentials of Genomics and Bioinformatics", Wiley-VCH, Weinheim. (Kapitel 2+7) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken Sequenzierung Ulf Leser Wissensmanagement in der Bioinformatik Formalisierung Gegeben Menge C von Clones (Länge egal) Menge P von Probes Matrix M 1 Ci matches Pj = 0 otherwise

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Bioinformatik,

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Bioinformatik

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken ESTs und cdnas Microarrays Ulf Leser Wissensmanagement in der Bioinformatik Sequenzierung Methode nach Sanger Verarbeitungsschritte Base Calling Assembly Finishing Ulf

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Motivation Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische Bioinformatik,

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische

Mehr

Kapitel 4: Genom-Datenbanken

Kapitel 4: Genom-Datenbanken Kapitel 4: Genom-Datenbanken n Nukleotidsequenz-Datenbanken Ausgangsproblematik Beispieldatenbanken n Kartierungs-Datenbanken Genomkarten Beispieldatenbanken n Genexpressions-Datenbanken Ausgangsproblematik

Mehr

Kapitel 4: Genom-Datenbanken

Kapitel 4: Genom-Datenbanken Kapitel 4: Genom-Datenbanken n Nukleotidsequenz-Datenbanken Ausgangsproblematik Beispieldatenbanken n Kartierungs-Datenbanken Genomkarten Beispieldatenbanken n Genexpressions-Datenbanken Ausgangsproblematik

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Von DNA zu Strings Genomsequenzierung Funktionale

Mehr

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Motivation Strings und Matching Naiver Algorithmus Z-Box Algorithmus Ulf Leser:

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Biologische Daten als Strings Ulf Leser Wissensmanagement in der Bioinformatik Ziele für heute Wert von Reduktionismus: Genome als Strings Reinschmecken in Stringmatching Erster

Mehr

Bioinformatik. Z-Box Algorithmus Preprocessing eines Strings. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Z-Box Algorithmus Preprocessing eines Strings. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Z-Box Algorithmus Preprocessing eines Strings Ulf Leser Wissensmanagement in der Bioinformatik Drei Anwendungen Sequenzierung Assembly von Teilsequenzen cdna Clustering All-against-all Sequenzvergleiche

Mehr

Molekularbiologische. Datenbanken. Kartierung von Chromsomen. Wissensmanagement in der. Bioinformatik. Ulf Leser

Molekularbiologische. Datenbanken. Kartierung von Chromsomen. Wissensmanagement in der. Bioinformatik. Ulf Leser Molekularbiologische Datenbanken Kartierung von Chromsomen Ulf Leser Wissensmanagement in der Bioinformatik Daten, Schema, Modell, Metamodell Daten Tatsächliche Werte, uninterpretiert Anfrageergebnisse

Mehr

Genexpressionsdatenbanken

Genexpressionsdatenbanken Genexpressionsdatenbanken ArrayExpress Gliederung Mikroarrays Struktur von Genexpressionsdatenbanken Arrayexpress Aufbau und Statistik Standardisierung Abfragen und Einstellen von Daten Mikroarrays Glasplatte

Mehr

Molekularbiologische. Datenbanken. Genexpression Microarrays. Wissensmanagement in der. Bioinformatik. Ulf Leser

Molekularbiologische. Datenbanken. Genexpression Microarrays. Wissensmanagement in der. Bioinformatik. Ulf Leser Molekularbiologische Datenbanken Genexpression Microarrays Ulf Leser Wissensmanagement in der Bioinformatik Sequenzierung im HGP Mehrstufiges Verfahren Kartierung mit YACs und BACs Berechnung von BAC Contigs

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken Kartierung von Chromsomen I Biotechnische Grundlagen Ulf Leser Wissensmanagement in der Bioinformatik Ankündigung Am 2.6.2004 (nächste Woche) beginnt die Vorlesung um 9.00

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken Übungen Sommersemester 2004 Silke Trißl Prof. Ulf Leser Wissensmanagement in der Bioinformatik Organisatorisches Mittwoch 11 13 Uhr, RUD26 0'313 Mi, 05. Mai 2004 entfällt

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management

Mehr

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme

MOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme MOL.504 Analyse von DNA- und Proteinsequenzen Datenbanken & Informationssysteme Inhaltsübersicht Informationsysteme National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute

Mehr

Sequence Assembly. Nicola Palandt

Sequence Assembly. Nicola Palandt Sequence Assembly Nicola Palandt 1 Einleitung Das Genom eines Lebewesens ist der Träger aller Informationen, die eine Zelle weitergeben kann. Es besteht aus Sequenzen, die mehrere Milliarden Basen lang

Mehr

Sequence Assembly Gudrun Idrissou Proseminar,

Sequence Assembly Gudrun Idrissou Proseminar, Sequence Assembly Gudrun Idrissou Proseminar, 20.12.2010 1 Einleitung Das Shotgun-Sequencing ist eine weitverbreitete Methode zur Sequenzierung von großen DNA Stücken. Man zerteilt die in Vektoren amplifizierte

Mehr

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen

Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was

Mehr

Bioinformatik. Einleitung Überblick. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Einleitung Überblick. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Einleitung Überblick Ulf Leser Wissensmanagement in der Bioinformatik H5N1 Foto: Centers for Disease Control Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2005/2006 2 Migration

Mehr

BCDS - Biochemische Datenbanken und Software

BCDS - Biochemische Datenbanken und Software BCDS - Biochemische Datenbanken und Software Seminarinhalte Bioinformatische Genom- und Proteomanalyse Literaturrecherche und Zitation Naturwissenschaftliche Software Termine 25. Mai, 1. Juni, 8. Juni,

Mehr

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in

Mehr

Applied Bioinformatics. maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex

Applied Bioinformatics. maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex Applied Bioinformatics SS 2013 maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex Organisatorisches Termine Mo 18.03.2013 RR19 9:00 Di 19.03.2013 RR19 9:00 Mi 20.03.2013 RR19 9:00 Übungsziele

Mehr

AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico

AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico AlgoBio WS 16/17 Differenzielle Genexpression Annalisa Marsico 04.01.2017 Pipeline für die Mikroarray-Analyse Bildanalyse Hintergrundkorrektur Normalisierung Vorverarbeitung Zusammenfassung Quantifizierung

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Wintersemester 2006 / 2007 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik

Mehr

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl

Übung II. Einführung, Teil 1. Arbeiten mit Ensembl Übung II Einführung, Teil 1 Arbeiten mit Ensembl Ensembl Genome Browser (Bereitstellung von Vielzeller Genomen) Projekt wurde 1999 initiiert Projektpartner EMBL European Bioinformatics Institute (EBI)

Mehr

BIOINFORMATIK I ÜBUNGEN.

BIOINFORMATIK I ÜBUNGEN. BIOINFORMATIK I ÜBUNGEN http://icbi.at/bioinf Organisation 3 Übungen Kurze Einführung anschließend Labor Protokoll (je 2 Studierende, elektronisch doc, pdf..) Abgabe der Übungen bis spätestens 29. 05.

Mehr

Seminar Biomedical Informatics

Seminar Biomedical Informatics Martin Dugas und Xiaoyi Jiang Institut für Informatik Wintersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Dezember

Mehr

Oracle9i Designer. Rainer Willems. Page 1. Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH

Oracle9i Designer. Rainer Willems. Page 1. Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH Oracle9i Designer Rainer Willems Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH Page 1 1 Agenda 9i Designer & 9i SCM in 9i DS Design Server Generierung &

Mehr

Gleichheit, Ähnlichkeit, Homologie

Gleichheit, Ähnlichkeit, Homologie Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren

Mehr

Vorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken

Vorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken Vorlesungsplan 1. Übersicht 2. Datenmodelle Textdateien, Entry-Modell Relationale DB XML 3. Genom-DB 4. Genexpressions-DB 5. Protein-DB 6. Pathway-DB 7. Publikations-DB 1. OWL & Ontologien 8. Zugriff und

Mehr

Cornel Mülhardt. Molekularbiologie/ Genomics

Cornel Mülhardt. Molekularbiologie/ Genomics Cornel Mülhardt Molekularbiologie/ Genomics 1 Was ist denn Molekularbiologie", bitteschön? 1 1.1 Das Substrat der Molekularbiologie, oder : Molli-World für Anfänger 2 1.2 Was brauche ich zum Arbeiten?

Mehr

Lernmodul 7 Algorithmus von Dijkstra

Lernmodul 7 Algorithmus von Dijkstra Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer

Mehr

Genomics. Ernst W. Mayr Fakultät für Informatik TU München

Genomics. Ernst W. Mayr Fakultät für Informatik TU München Genomics Ernst W. Mayr Fakultät für Informatik TU München http://wwwmayr.in.tum.de/ A. Biologische Hintergründe nde 1. Gene und Phänotypisches 1.1. Beobachtungen nach Mendel 1.2. Eukaryotische Zelle 1.3.

Mehr

Algorithmen und Anwendungen zur Kartierung von Genomen

Algorithmen und Anwendungen zur Kartierung von Genomen Algorithmen und Anwendungen zur Kartierung von Genomen Dr. Dominik Grimm Probelehrveranstaltung Wissenschaftszentrum Straubing Hochschule Weihenstephan-Triesdorf Straubing, 14. Juli 2017 14. Juli 2017

Mehr

Genomsequenzierung für Anfänger

Genomsequenzierung für Anfänger Genomsequenzierung für Anfänger Philipp Pagel 8. November 2005 1 DNA Sequenzierung Heute wird DNA üblicherweise mit der sogenannten Sanger (oder chain-terminationoder Didesoxy-) Methode sequenziert dessen

Mehr

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:

Mehr

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken

Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken 14.05.2009 Prof. Dr. Sven Rahmann 1 3 Proteinsequenz-Datenbanksysteme NCBI Entrez Proteins EBI SRS Proteins UniProt (empfohlen) 2

Mehr

Molekularbiologische Datenbanken

Molekularbiologische Datenbanken Molekularbiologische Datenbanken Übungen Aufgabe 2 Silke Trißl Ulf Leser Wissensmanagement in der Bioinformatik Microarray oder Expressionsanalyse Gleiche Erbinformation in der Zelle (Genom), aber viele

Mehr

Einführung in die Bioinformatik

Einführung in die Bioinformatik Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:

Mehr

Kapitel 2: Ein abstraktes Geo-Datenmodell

Kapitel 2: Ein abstraktes Geo-Datenmodell LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 2: Ein abstraktes Geo-Datenmodell Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2013/14 Ludwig-Maximilians-Universität

Mehr

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)

Zentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte) Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul

Mehr

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken

Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken 07.05.2009 Prof. Dr. Sven Rahmann 1 Datenbanken am NCBI über Entrez http://www.ncbi.nlm.nih.gov/entrez NIH = National Institute

Mehr

Bioinformatik. Multiple Sequence Alignment Sum-of-pairs Score. Ulf Leser Wissensmanagement in der. Bioinformatik

Bioinformatik. Multiple Sequence Alignment Sum-of-pairs Score. Ulf Leser Wissensmanagement in der. Bioinformatik Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Ulf Leser Wissensmanagement in der Bioinformatik Quasar Grundidee Search-Phase sucht Regionen mit Länge w und hoher Ähnlichkeit D.h. Regionen

Mehr

Zentrales Dogma der Biologie

Zentrales Dogma der Biologie Zentrales Dogma der Biologie Transkription: von der DNA zur RNA Biochemie 01/1 Transkription Biochemie 01/2 Transkription DNA: RNA: Biochemie 01/3 Transkription DNA: RNA: Biochemie 01/4 Transkription RNA:

Mehr

Kapitel 2: Ein abstraktes Geo-Datenmodell

Kapitel 2: Ein abstraktes Geo-Datenmodell LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Kapitel 2: Ein abstraktes Geo-Datenmodell Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2011/12 Ludwig-Maximilians-Universität

Mehr

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA

Übung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA Übung II Einführung Teil 1 Arbeiten mit Sequenzen recombinante DNA Recombinante DNA Technologie Protein Synthese In vitro Expression Libraries Gene Transfer in Tieren und Pflanzen Recombinante DNA Technologie

Mehr

Übersicht Sequenziermethoden

Übersicht Sequenziermethoden DNA-Sequenzierung Übersicht Sequenziermethoden Sanger-Sequenzierung Pyrosequencing (Roche/454) Illumina/Solexa Pacific Biosciences (PacBio) Sanger-Sequenzierung Didesoxymethode, Kettenabruch- Synthese

Mehr

Ausprägungsfach Bioinformatik im Rahmen des Bachelor-Studiengangs Informatik. CIBIV Center for Integrative Bioinformatics Vienna

Ausprägungsfach Bioinformatik im Rahmen des Bachelor-Studiengangs Informatik. CIBIV Center for Integrative Bioinformatics Vienna Ausprägungsfach Bioinformatik im Rahmen des Bachelor-Studiengangs Informatik Center for Integrative Bioinformatics Vienna (CIBIV) Max F. Perutz Laboratories (MFPL) Vienna, Austria http://www.cibiv.at CIBIV

Mehr

Einführung Molekulare Bioinformatik

Einführung Molekulare Bioinformatik Einführung Molekulare Bioinformatik Bernhard Haubold 21. Oktober 2014 Übersicht Was ist Bioinformatik? Kursstruktur Was ist Bioinformatik? Geschichtliche Entwicklung Information: Speicherung & Übertragung

Mehr

Algorithmische Bioinformatik

Algorithmische Bioinformatik Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands

Mehr

AlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico

AlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico AlgoBio WS 16/17 Genexpressionanalyse Annalisa Marsico 14.12.2016 Die Mikroarray-Revolution Mikroarrays messen die Genexpression Warum ist es wichtig, die Genexpression zu messen? Die Vielfalt der Zellen

Mehr

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren

Mehr

Neue DNA Sequenzierungstechnologien im Überblick

Neue DNA Sequenzierungstechnologien im Überblick Neue DNA Sequenzierungstechnologien im Überblick Dr. Bernd Timmermann Next Generation Sequencing Core Facility Max Planck Institute for Molecular Genetics Berlin, Germany Max-Planck-Gesellschaft 80 Institute

Mehr

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik

Aufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution

Mehr

Kapitel 5: Protein-Datendanken

Kapitel 5: Protein-Datendanken Kapitel 5: Protein-Datendanken Vom Gen zum Protein n Motivation und historische Entwicklung n Proteomics Datengewinnung PEDRo-Projekt n Protein-Datenbanken Anforderungen Sequenz-Datenbanken Domain/Familien-Datenbanken

Mehr

Informationsgehalt von DNA

Informationsgehalt von DNA Informationsgehalt von DNA Topics Genes code, gene organisation, signals, gene detection Genomes genome organisation, nucleotide patterns, junk DNA DNA als Informationsträger DNA Building Blocks Desoxyribose

Mehr

Während der Synthese synthetisiert die Polymerase den neuen Strang in 5 3 Richtung und bewegt sich in 3 5 -Richtung am Matrizenstrang entlang:

Während der Synthese synthetisiert die Polymerase den neuen Strang in 5 3 Richtung und bewegt sich in 3 5 -Richtung am Matrizenstrang entlang: 4.4 Replikation und PCR Ablauf der Replikation in vivo: Die Replikation wird von einer DNA-abhängigen DNA- Polymerase katalysiert. Jede DNA-Polymerase synthetisiert den neuen Strang in 5 3 Richtung, hierzu

Mehr

Datenbanken in der Molekularbiologie

Datenbanken in der Molekularbiologie WS2015/2016 F1-Praktikum Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Datenbanken in der Molekularbiologie Folie: Tal Dagan, D dorf Datenbanken in der Molekularbiologie

Mehr

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA

ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA Jason R. Miller*, Sergey Koren, Granger Sutton Ein Vortrag von Sergej Tschernyschkow Friedrich-Schiller-Universität Jena 03. Mai 2010 SERGEJ TSCHERNYSCHKOW

Mehr

Bioinformatik II: Phylogenetik

Bioinformatik II: Phylogenetik Bioinformatik II: Phylogenetik phylogenetisch Phylai: griechische Klans phylum: der Stamm phylogenetisch: die Stammesgeschichte von Lebewesen betreffend Hierarchien der Klassifikation: Domäne: Eukaryonten

Mehr

Seminar Biomedical Informatics

Seminar Biomedical Informatics Martin Dugas und Xiaoyi Jiang Institut für Informatik Sommersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Juni Seminararbeit:

Mehr

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 09.07.2009 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht

Mehr

Inhalt Genexpression Microarrays E-Northern

Inhalt Genexpression Microarrays E-Northern Inhalt Genexpression Microarrays E-Northern Genexpression Übersicht Definition Proteinbiosynthese Ablauf Transkription Translation Transport Expressionskontrolle Genexpression: Definition Realisierung

Mehr

Übungen zur Vorlesung Molekularbiologische Datenbanken. Lösungsblatt 1: Datenbanksuche

Übungen zur Vorlesung Molekularbiologische Datenbanken. Lösungsblatt 1: Datenbanksuche Wissensmanagement in der Bioinformatik Prof. Dr. Ulf Leser, Silke Trißl Übungen zur Vorlesung Molekularbiologische Datenbanken Lösungsblatt 1: Datenbanksuche Symptome 1.Ein Kind kommt in die Praxis und

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 3. Aus welchen vier Nukleotiden ist RNA aufgebaut? 4. DNA RNA 5. Ein Wissenschaftler

Mehr

Molekularbiologische Grundlagen

Molekularbiologische Grundlagen Molekularbiologische Grundlagen Ulf Leser, Sommersemester 2008 Silke Trißl Überblick Biologie Organismen Aufbau von Zellen Prokaryoten und Eukaryoten Genom und DNA Transkription DNA RNA Protein Proteine

Mehr

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 08.07.2010 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht

Mehr

Genetik - The Human Genome Project. Überblick über die Genetik. Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern

Genetik - The Human Genome Project. Überblick über die Genetik. Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern Genetik - The Human Genome Project Überblick über die Genetik Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern seines Körpers. 1 2 Im Organismus müsssen nun ständig Enzyme u. a.

Mehr

2. Ein abstraktes Geo-Datenmodell

2. Ein abstraktes Geo-Datenmodell 2 Ein abstraktes Geo-Datenmodell 1 Was soll modelliert werden? 2 Spatial Data Types 3 Integration in das relationale Datenmodell Geo-Informationssysteme 24 21 Was soll modelliert werden? Einzelne Objekte

Mehr

Sequenziertechnologien

Sequenziertechnologien Sequenziertechnologien Folien teilweise von G. Thallinger übernommen 11 Entwicklung der Sequenziertechnologie First Generation 1977 Sanger Sequenzierung (GOLD Standard) Second Generation 2005 454 Sequencing

Mehr

Aufgabenstellung. Genomische Sequenzierung (DNA)

Aufgabenstellung. Genomische Sequenzierung (DNA) Sequenzierung Aufgabenstellung Genomische Sequenzierung (DNA) Re-Sequenzierung eines bekannten Genoms (z.b. Mensch) De novo Sequenzierung Sequenzierung von RNA mittels Umschreiben in cdna Sequenzieren

Mehr

Read Mapping Projektmanagement im So3warebereich SeqAn

Read Mapping Projektmanagement im So3warebereich SeqAn Read Mapping Projektmanagement im So3warebereich SeqAn David Weese April 2010 Inhalt Einführung Reads erzeugen read simulator SWP Teilprojekte Projektplan EINFÜHRUNG 2 nd /Next GeneraGon Sequencing Technologien:

Mehr

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung

Multiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-

Mehr

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2004 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten 7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 1. Aus welchen vier Nukleotiden ist RNA aufgebaut? 2. RNA unterscheidet sich

Mehr

Bioinformatik: The Next Generation

Bioinformatik: The Next Generation Bioinformatik: The Next Generation Prof. Dr. Caroline Friedel Lehr- und Forschungseinheit Bioinformatik Was ist Bioinformatik? Theoretische und Praktische Informatik Statistik, Mathematik Molekularbiologie,

Mehr

Bioinformatik I: Grundlagen der Gentechnik

Bioinformatik I: Grundlagen der Gentechnik Bioinformatik I: Grundlagen der Gentechnik Dr. Maik Böhmer Institut für Biologie und Biotechnologie der Pflanzen Schlossplatz 7 Schwerpunkte: Vorlesung 1: Einführung & Enzyme der Gentechnik Vorlesung 2:

Mehr

DATENQUALITÄT IN GENOMDATENBANKEN

DATENQUALITÄT IN GENOMDATENBANKEN DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten

Mehr

Von Mendel bis -Omics Geschichte und Grundlagen der Humangenetik , Walther Vogel, Institut für Humangenetik

Von Mendel bis -Omics Geschichte und Grundlagen der Humangenetik , Walther Vogel, Institut für Humangenetik Von Mendel bis -Omics Geschichte und Grundlagen der Humangenetik 19.04.2018, Walther Vogel, Institut für Humangenetik Erste Grundlagen ca 1850 bis 1900 Gregor Mendel (1822 1884) Erbfaktoren (Gene) dominant

Mehr

Sequenzierung. Aufklärung der Primärstruktur von DNA. Biotechnik Kurs WS 2006/07

Sequenzierung. Aufklärung der Primärstruktur von DNA. Biotechnik Kurs WS 2006/07 Sequenzierung Aufklärung der Primärstruktur von DNA Biotechnik Kurs WS 2006/07 AK Engels Angelika Keller Übersicht Geschichtlicher Hintergrund Maxam-Gilbert Sequenzierung Sanger Sequenzierung Neuere Sequenzierungstechnologien

Mehr

Einführung Molekulare Bioinformatik

Einführung Molekulare Bioinformatik Einführung Molekulare Bioinformatik Bernhard Haubold 22. Oktober 2013 Übersicht Was ist Bioinformatik? Kursstruktur Was ist Bioinformatik? Geschichtliche Entwicklung Information: Speicherung & Übertragung

Mehr

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch Annkatrin Bressin Freie Universität Berlin Vorlesungsthemen Part 1: Background Basics (4) 1. The Nucleic Acid World 2. Protein Structure

Mehr

Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering. Ulf Leser Wissensmanagement in der Bioinformatik

Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering. Ulf Leser Wissensmanagement in der Bioinformatik Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering Ulf Leser Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen

Mehr

Klonierung von S2P Rolle der M19-Zellen. POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel

Klonierung von S2P Rolle der M19-Zellen. POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel Klonierung von S2P Rolle der M19-Zellen POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel Inhalt 1. Was ist eine humane genomische DNA-Bank? 2. Unterschied zwischen cdna-bank und genomischer DNA-Bank?

Mehr

Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR)

Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR) PCR Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR) von Kary B. Mullis entwickelt (1985) eigentlich im Mai 1983 bei einer nächtlichen Autofahrt erstes erfolgreiches Experiment am 16.12.1983

Mehr

Datenbanken in der Molekularbiologie

Datenbanken in der Molekularbiologie WS2017/2018 F1-Praktikum Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Datenbanken in der Molekularbiologie Folie: Tal Dagan, D dorf Datenbanken in der Molekularbiologie

Mehr

Medizinische Fakultät Auswertestrategien von Microarrays Einführung

Medizinische Fakultät Auswertestrategien von Microarrays Einführung Medizinische Fakultät Auswertestrategien von Microarrays Einführung PD Dr. Knut Krohn IZKF Leipzig Dr. Markus Eszlinger Med. Klinik III Forschungslabor DNA RNA Hintergrund Charakteristisches Muster der

Mehr

Entscheidungstheorie Teil 2. Thomas Kämpke

Entscheidungstheorie Teil 2. Thomas Kämpke Entscheidungstheorie Teil 2 Thomas Kämpke Seite 2 Inhalt Präferenzrelation Referenzpunktansatz Referenzpunktmethode (Zusammenfassung) Distanzfunktion Design von PCR Primerpaaren Vorwärtsprimer p Rückwärtsprimer

Mehr

Ensembl. Steffen Möller

Ensembl. Steffen Möller Ensembl Steffen Möller Zusammenfassung Web Funktionalität Präsentation Genome Aller sequenzierten Säugetiere, Wirbeltiere und Hefe, Fliege, Wurm Identifikation und Annotation von Genen Sequenzvariationen

Mehr

Biowissenschaftlich recherchieren

Biowissenschaftlich recherchieren Biowissenschaftlich recherchieren Uber den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik Nicola Gaedeke Birkhauser Basel Boston Berlin Inhaltsverzeichnis Vorwort xi 1 Die Informationssucheim

Mehr

Molekulare Mechanismen der Signaltransduktion. 06 - Kartierung des AXR1 Gens + early auxin-induced genes Folien: http://tinyurl.

Molekulare Mechanismen der Signaltransduktion. 06 - Kartierung des AXR1 Gens + early auxin-induced genes Folien: http://tinyurl. Molekulare Mechanismen der Signaltransduktion 06 - Kartierung des AXR1 Gens + early auxin-induced genes Folien: http://tinyurl.com/modul-mms bisheriges Modell auxin auxin AXR1 auxin response AXR1 potentieller

Mehr

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung

Algorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites

Mehr