Molekularbiologische. Datenbanken. Sequenzierung. EST und cdnas. Wissensmanagement in der. Bioinformatik. Ulf Leser
|
|
- Sigrid Schäfer
- vor 7 Jahren
- Abrufe
Transkript
1 Molekularbiologische Datenbanken Sequenzierung EST und cdnas Ulf Leser Wissensmanagement in der Bioinformatik
2 Zusammenfassung: Mapping Chromosom isolieren Zufällig in Stücke brechen (Clone) Minimal Tiling Path ermitteln Stücke sequenzieren Fertig Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
3 Hybridisierung (Sketch) Ein Clone (Probe, Sonde) wird markiert (Radioaktiv, fluoreszierend) Probe wird mit Library auf Filter zusammengebracht DNA hybridisiert, wenn komplementär Nicht hybridisierte Clone werden abgewaschen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
4 PCR Illustration Heat Heat Cool Cool Zugabe von Primern und Polymerase Polymerase verlängert Primer an Template Heat Cool Heat etc. Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
5 Beispiel: Clone-Mapping mit Fehler C1 C2 C3 C4 C1 C2 C3 C4 C1, C2, C3 C1 C2 C3 C1, C2, C3, C4 C2, C3, C4 C1 C2 C3 C2 C3 C4 C4 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
6 C1P - Ordnung Theorem: Eine Matrix M ist C1P gdw es eine mit M konsistente Ordnung der Clone und Proben gibt Beweis: Literatur C1 C2 C3 C4 P1 P2 P3 C2 P1 P3 C1 C3 C4 P2 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
7 PQ Bäume P1 C1 C2 C3 C4 P3 P4 P2 Weitere Möglichkeiten C1 C2 C3 C4 P1 P3 P2 P4 C1 C2 C3 C4 P2 P4 P3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe P1
8 Back to real life Echte Daten sind nicht so hübsch Falsche positive Signale Falsche negative Signale Chimeric Clones Matrix nicht C1P Problem: Finde die wahrscheinlichste Lösung Möglichst wenig 1 einfügen (false negatives) Möglichst wenig 1 löschen (false positives) Möglichst wenig Clone entfernen/auftrennen (chimerism) Möglichst wenig Proben entfernen (Non-Unique) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
9 War nicht lösbar A B C1 C2 C3 C4 C D Beispiel C 3 2 A 3 D B A B C D A B C1 C1 C2 C2 C3 C4 C3 C4 D C C1 C2 C3 C4 D A B Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe C
10 Divergenzen Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
11 OMG Standard Genome Maps [BLL+99] mappedobj 1..1 Ma ppable species chromosome type getmaps() 0..* MapObject database name id crossreferences 1..1 Point Segment length unit Marke r Ma p Clo ne 1..1 MapEle m e nt positionprecision 1..* onmap 1..1 getnrofelements() getallelements() getrangebetweenobjects() getelementsinsegment() IntervalPosition PointPosition Range Position leftend rightend OrderedPosition rank frameworkelement position Vag ue Po s itio n leftflankingobj rightflankingobj Lin e a rma p maxcoordinate mincoordinate getscalarrange() getaround() Bin CytogeneticElement rank getsuperelement() getsubelements() getsiblings() Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
12 Inhalt dieser Vorlesung Sequenzierungsstrategien Sequenzierung ESTs & cdnas Datenmodelle Datenbanken Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
13 Teil I. Sequenzierungsstrategien Mapping und Sequenzierung Weg 1: Human Genome Project Weg 2: Whole Genome Shotgun Sequencing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
14 Mapping und Sequenzierung Chromosome nicht direkt sequenzierbar Zerlegung in Bruchstücke notwendig (Clonierung) Berechnung des Minimum Tiling Paths Sequenzieren der Bruchstücke auf dem MTP Aufwandsminimierung Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
15 BAC Map, Chr. 1-3 MB Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
16 Shotgun Sequenzierung Auch Cosmids / BACs (30 KB 300 KB) kann man nicht sequenzieren Heutiger Standard: Shotgun-Sequenzierung Erneutes Zerbrechen in Stücke ~ 1000 Basen Sequenzieren aller Stücke (wie: später) Berechnen der Originalsequenz aus Sequenzüberlappungen (wie: später) Warum? Sequenzierung hochautomatisiert Billiger als Feinkartierung in Plasmids Hohe Redundanz verringert Fehlerrate Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
17 Shotgun - Redundanz Typische notwendige Überdeckung Cosmid (30 KB) : 600 Reads a 500 Basen = Überdeckungsfaktor 10 BAC (120 KB): 2000 Reads a 500 Basen = Überdeckungsfaktor 8,3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
18 Sequenzierung im HGP Mehrstufiges Verfahren Kartierung mit YACs und BACs Berechnung von BAC Contigs (Hybridisierung, STS Anchoring) Shotgun - Sequenzieren der BACs Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
19 Whole Genome Shotgun (WGS) Beobachtung Sequenzierung immer billiger Mapping bleibt teuer Whole Genome Shotgun Zerbrechen von kompletten Genomen in Stücke 1KB- 100KB (keine Kartierung) Alle Bruchstücke (an)sequenzieren Homo sap.: Sequenzen (Celera) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
20 Vergleich WGS versus HGP - Ansatz Billiger, schneller Viele Gaps, da Kandidaten zum Gap-Closing nicht vorhanden Mehr Schwierigkeiten mit Repeats (weniger Scaffolding ) Immenser Aufwand für ausreichend hohe Überdeckung Draftsequenzen Kombination beider Methoden Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
21 Teil II. Sequenzierungstechnik Sequenzierungsmethode nach Sanger Verarbeitungsschritte Base Calling Assembly Finishing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
22 Aufgabe Gegeben: Clone unbekannter Sequenz Gesucht: Sequenz Unmöglich: Ansehen, Messen, Mikroskop, etc. Verfahren von Sanger, 1972: Radioactive Dideoxy Sequencing Dissertation Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
23 Heute Fluoreszente Markierung Hochdurchsatz Billig Quelle: Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
24 Sequenzierung nach Sanger Zwei Voraussetzungen Polymerase Enzym Bindet an spezifischen Primer Verlängert einsträngige DNA entlang Template Deoxy versus Dideoxy Nucleotide DNA besteht aus Deoxy Nucleotiden (dntp) Einbau von Dideoxy Nucleotiden (ddntp) möglich ddntp stoppt Polymerase Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
25 Struktur von dntp und ddntp Keine freie OH Gruppe Base wird eingebaut, aber keine weiteren Basen können angehängt werden Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
26 Schritt 1 und 2 dntp: ACGT Primer + Polymerase Fluorescent ddntp: ACGT Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
27 Schritt 3 Primer Template ACGAACGCGAGTTAGTTAGACCAGTAGCCA... Polymerase ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACG T C A C A T A A G C G T A C G G T A C G C T A C CT T G G ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTA ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAG ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGAGTTAGTTAGT ACGAACGCGAGTTAGTTAGACCAGTAGCCA... ACGAACGCGA Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
28 Schritt 4 Laser & Detektoren ACGAACGCGAGTTA ACGAACGCGAG ACGAACGCGAGTTAGTT ACGAACGCGAGTTAGTTAGT ACGAACGCGA Gel / Kapillar Elektrophorese ACGAACGC ACGAACGCG ACGAACGCGA ACGAACGCGAG ACGAACGCGAGT ACGAACGCGAGTT ACGAACGCGAGTTA ACGAACGCGAGGTTAG Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
29 Ergebnis (roh) Heutige Geräte > 36 Lanes parallel Kapillareletrophorese statt Gel Direktes Laden von 96 Well Plates Sanger Radioaktive Markierung 4 Mischungen (A,G,T,P) 4 Gel - Lanes Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
30 Ergebnis (Zwischenprodukt) Signalverarbeitung (Rauschen,...) Übersetzung in Traces 4 Arrays, jedes für eine Farbe Intensitätswerte in regelmäßigen Zeitabschnitten Theoretisch Peaks entdecken Immer nur eine Farbe Sequenz zuordnen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
31 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
32 Einschub: NCBI Trace Archive Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
33 Probleme mit Traces Low Quality Bereiche <50, > Kurze Fragmente laufen unregelmäßig Anfang schlecht Lange Fragmente sukzessive schlechter (relative Massenunterschied geringer, wenig Fragmente) Rauschen, schwache Signale, unterschiedliche Abstände zwischen Peaks, gleich starke Signale unterschiedliche Farben, etc. Compressions: Hairpin-Loops (GC-Rich) ACGAACGCGACGCGCGCGCGCGCGCGTTAG... ACGAACGCGACGCGCG...GATTGCGCGC C G C G C G Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
34 Vom Tracefile zur Sequenz Tracefiles sind Rohdaten der Sequenzierung Verschiedene Verfahren / Tools, um aus Trace- Files Sequenzen zu berechnen Komplexe Probleme Base Calling Assembly Finishing Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
35 Base Calling Base Calling: Abbildung von Traces auf Basensequenzen Problem Keine klaren Peaks erkennbar Mehrere gleich starke Peaks Periode der Peaks verschoben Kontinuierliche Periodenverschiebung... Probleme abhängig von Sequenz (GC Content, Repeats, etc.) Position im Read Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
36 Base Calling in PHRED (Sketch) [EHWG98] PHRED: Heuristischer, hochgradig getunter Algorithmus Schritt 1: Berechnung Expected Peakpositionen Erstes Finden von Peaks Berechnung der Peakabstände Sliding Window von 200 Tracepoints (zum Ausgleich sich kontinuierlich ändernder Perioden) Bestimmung der Periode durch Sinuskurve Expected Peak Zentrum der Sinuskurve Iteratives Verschiebung des Fensters Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
37 PHRED 2 Schritt 2: Finder von Peaks im Trace Suche konkave Tracepoints pro Array Bedingungen an Peakhöhe und benachbarte Peaks Schritt 3: Zuord. Expected Observed Peaks Phase 1: Finden direkter Entsprechungen (mit min Fläche und max. Abweichung) Phase 2: Alignierung nicht zugewiesener Peaks (dynamische Programmierung) Phase 3: Zuordnung des Rests durch einige Regeln (Nachbarn, Mindestfläche, etc.) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
38 PHRED 3 Schritt 4: Resteverwertung Einfügung beobachteter, nicht zugewiesener Peaks in Sequenz (z.b. bei starker Periodenverschiebung) Vorteile von PHRED Erstmals (1998) bessere Erkennung als ABI Software Besonders gut in den High-Quality Areas (wichtig für HGP, nicht wichtig für EST Sequencing) Berechnung aussagekräftiger Qualitätswerte pro Base (wichtig für nächste Schritte) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
39 Assembly Szenario: Shotgun Sequenzierung Ergebnis des Base Calling: Einzelne Reads Gesucht: Gesamtsequenz... bzw.: zusammenhängende Stücke (Contigs) möglichst sichere Sequenz (Redundanz!) Assembly: Berechnung der Konsensussequenz Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
40 Assembly Read 1 Read 2 Read 3 Read 1 Read 2 Read 3 Read 4 Überlappung ist gut (Redundanz) und schlecht (potentielle Konflikte) Typische geforderte Überlappung im HGP: 7-10 Reads Alignments immer an mehreren Stellen möglich Greedy Ansatz nicht optimal Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
41 Assembly Abstrakte Formulierung Assembly: Verschärfung von SUPERSTRING Geg.: Menge S von Strings Ges.: String T so, dass (a) s S: s T (s Substring von T) (b) T, für die (a) gilt, gilt: T T ( T ist minimal) NP-vollständiges Problem Verschärfungen: Fehler in Sequenzen (s ungefähr Substring von T) Zwei Orientierungen von s möglich Gaps Heuristische Verfahren Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
42 Assembly - Fehlerklassen Primary Fehler in Clone durch Fehler bei Polymerase oder Mutationen bei Erzeugung Nicht auffindbar Secondary Fehler zwischen Laser und Sequenz (Base Calling, Lane Recognition, etc.) Basenabweichungen, Inserts/ Gaps,... Tertiary Kontamination (Primer, Clonierungsvektoren; evt. nicht erkannt wegen Fehlern der Stufe I/II) Screening nach bekannten Kontaminationen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
43 Algorithmus [KM95] Einer von vielen (PHRAP, CAP3, GAP4,...) 4 Schritte Berechnung von Sequenzoverlaps unter Zulassung einer festen Fehlerrate. Darstellung als Graph mit Knoten (Fragmente und Komplementäre) und gewichteten Kanten (den Fehlerraten). O(n 2 ) Orientierung der Fragmente festlegen. Löschen von Knoten im Graphen so, dass Summe der Kanten möglichst klein wird. NP-vollständig Fragmente anordnen. Auswahl von Kanten so, dass die Summe der Kanten möglichst klein ist und keine Widersprüche übrigbleiben. NP-vollständig Konsensussequenz durch Multiple Alignment berechnen. NP-vollständig (aber nur in maximalen Zahl überlappender Fragmenten die "dicksten" Stelle im Layout) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
44 Resultat Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
45 Finishing Ergebnis des Assembly Menge von Contigs Offenbleibende Probleme Löcher zwischen Contigs (Gaps) Regionen mit geringer Überdeckung Regionen geringer Basenqualität Ungelöste Basen - Mismatches Finishing Auswahl von weiteren Sequenzierungsexperimenten Automatische/manuelle Korrektur von Mismatches Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
46 Finishing Neue Reads Gaps Geringe Redundanz Low quality Auswahl (möglichst weniger) neuer Reads Design spezifischer Primer Gezielte Selektion von Clonen aus Shotgun Bibliothek Sequenzierrichtung / - technik ändern Neue Reads neues Assembly Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
47 Finishing - Editing Read 1: Read 2: AGAAAGAGA AGAAT-AGA AGAAAGAGA AGAAAGAGA AGAAAGAGA AGAAAGAGA AGAAT-AGA AGAAT-AGA AGAAT-AGA AGAAT-AGA AGAAAGAGA AGAAT*AGA AGAATAGA AGAA*GAGA * Unknown, - Gap Blau: Falsch, Rot: Consensus Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
48 Finishing Ergebnisse Finishing tw. nach wie vor manuelle Arbeit Ein paar Lücken bleiben meist Stellen nicht sequenzierbar (GC-reich, Repeats, etc.) Stellen nicht clonierbar (Instabil: Centromere, Interferenz mit Wirtszellen, etc.) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
49 Finishing Ergebnisse HGP Finished : kaum Löcher, 99.99% Genauigkeit Unfinished : viele Löcher, 99% Genauigkeit Human Draft (2000): Map mit über BACs Minimum Tiling Path: ~ BACs Draft für BACs mit 95% Überdeckung, aber Gaps pro BAC, 99% Genauigkeit WGS: (Drosophila, Celera, 2000) Genom: 120 MB Reads, 12.8-fache Überdeckung 1630 Gaps Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
50 Zusammenfassung Basis-Sequenziertechnik: Dideoxy Sequencing Viele Teilschritte Cloneerstellung Probenaufbereitung (Shotgun) Sequenzieren Base Calling, Assembly, Finishing Extreme Verbilligung in 10 Jahren Kosten von 10 USD auf unter 20 Cent / Base Neue Techniken: Kapillare, Massenspektrometer Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
51 Teil III. ESTs und cdna mrna, cdna, EST UniGene Datenqualität Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
52 DNA -> Protein Central Dogma DNA RNA Protein RNA editing 5 CAP 3 PolyA Tail Splicing messenger RNA (mrna) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
53 mrna - cdna Trick: Rück-Übersetzung von mrna in cdna Reverse Transscriptase (RT) Primer z.b. am Poly-A Tale oder Random Clonierung der cdna in Libraries Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
54 Reverse Transscriptase Retroviren (z.b. HIV) Quelle: Kimball's Biology Pages Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
55 cdna Libraries cdnas: Gene / kodierende Regionen Viel interessanter als genomische DNA des HGS! Differential Splicing different cdnas cdna enthält (meist) PolyA und 3 Ende cdna enthält (oft) nicht 5 Ende (selten < 6KB) Hochgradig abhängig von Gewebe Entwicklungsstadium (Embryo - Erwachsen) Organismusstatus (Krank Gesund) Gene Expression (später) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
56 cdna -> EST Expressed Sequence Tags Single Read Sequenzierung der cdna 3 Enden 5 Enden Sehr hoher Durchsatz Geringe Genauigkeit (2-3% Basenfehler) Kurze Reads ( Basen) Sehr populär (Stand 4/2003) 8 von 30GB in Genbank 16 von 23 Millionen Submissions in Genbank Ca humane ESTs Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
57 EST Clustering 4.5 Millionen ESTs wie viele Gene? Clustern der EST nach Sequenzüberlappungen Ähnlich Assembly, aber Hohe Fehlerrate in Sequenz 4.5 Mill Sequenzen assemblieren Rechenaufwand Genefamilien mit hoher Sequenzähnlichkeit Fehlende Überlappung von 3 und 5 Sequenzen Differential Splicing kein Assembly möglich GeneFinding: Genaue Sequenz nicht notwendig Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
58 UniGene [PWS02] Heuristisches, mehrphasiges Verfahren Entfernen von Low-Quality Regions, Repeats, Kontamination Clustern aller cdna in Genbank (MegaBlast) Zu wenig Toleranz - false negatives wegen Sequenzierfehlern Zu hohe Toleranz - false positives durch Paralogs Clustern aller EST (MegaBlast) Mergen der Cluster bei Überlappung Mergen der Cluster, wenn EST von identischen cdnas Anchoring: Nur Gene mit 3 (PolyA oder Annotation) Singleton cdna und ESTs mit geringerer Spezifität erneut Screenen Wöchentliche Aktualisierung Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
59 UniGene Daten Bewertung Heuristisches Verfahren ohne Garantie optimaler Lösung Orientierung an genomischen (also guten) Sequenzen Clustern können sich von Woche zu Woche ändern (keine stabilen Gene, nicht auf Cluster-IDs verweisen) Ergebnis 4/ Cluster (wie viele Gene hat der Mensch?) Mitglieder: 1 (40.000) - > (wenige) Ca. 70% bestehen nur aus ESTs Andere Verfahren STACK: d2_cluster (q-grams), Assemblies mit PHRAP, tissuespecific TIGR Gene Index: Assemblies mit CAP3 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
60 EST Mapping Position der EST nicht bekannt Transscript Mapping Projekte Primer aus EST Sequenzen Vorsicht vor Splicing! Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
61 Zusammenfassung EST / cdna sehr wichtiges Tool Konzentration auf wichtige (kodierende) Sequenzen Messen der Genexpression (später) Katalog aller Gene Nachteile Geringe Datenqualität Keine volle Überdeckung (gering / nur selten exprimierte Gene) Extrem hohe Redundanz Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
62 Teil IV. Datenmodelle Daten Datenmodelle BioSQL EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
63 Rohdaten Daten über den Sequenzierprozess Geräterohdaten (Spektren) Trace files Assemblies, Edits, Contigs, Gaps Benutzte Programme Labourdaten (Maschinen, Personal, Datum,...) NCBI Trace File Archive Viele Sequenziercenter Sanger University of Washington... Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
64 Sequenzdaten Technische Herkunft wer, wann, wie, Methode,... Biologische Herkunft Clone, Organismus, Linie,... Literaturreferenzen Fehlerraten Sequenz Feature Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
65 Feature Annotation von Sequenzteilen Bestandteile Location: Start - Ende, Gaped, Genau - Ungenau Key: CDS, Repeat, RNA-Strukturen, Homologe Sequenzen, Promotoren, Marker, Exon/Intron Boundaries, Funktion, Motiv, Polymorphismus,... Qualifier: Ergänzungen, z.b. kodiertes Protein, Splicevariante, Regulationsmechanismen,... Label: Name des Features (Referenzierung) EMBL Featuretable: Ca. 50 Feature keys, hierarchisch organisiert Jeweils 1-20 Qualifier, tw. mit Controlled Vocabularies Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
66 EMBL Beispiel FH Key Location/Qualifiers FH FT source FT /db_xref="taxon:1638" FT /organism="listeria ivanovii" FT /strain="atcc 19119" FT RBS FT /gene="sod" FT terminator FT /gene="sod" FT CDS FT /db_xref="swiss-prot:p28763" FT /transl_table=11 FT /gene="sod" FT /EC_number=" " FT /product="superoxide dismutase" FT /protein_id="caa " FT /translation="mtyelpklpytydalepnff FT HAELASKPGEELVANLDSVPEEIRGAVRNHGGGH FT IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNN FT DVWEHAYYLKFQNRRPEYIDTFWNVINWDERN Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
67 Modellierung 2 Möglichkeiten Metamodellierung Generische Klassen Feature, Term, Qualifier,... Beispiel: BioSQL Ausmodellieren Explizite Klassen RBS, Terminator, CDS,... Beispiel: EMBL Objektmodell Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
68 Beispiel: BioSQL OpenSource Projekt Relationale Schema (Oracle, PostGres, mysql) Parser (Perl) EMBL & SwissProt Ca. 20 Tabellen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
69 BioSQL Core Sequenz Entry mit IDs / Version Literaturreferenzen Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
70 BioSQL Feature Feature vom Typ _SOURCE Location(s) _LOCATION Qualifier _Q_VALUE Typ ONTOLOGY_TERM Value QUALIFIER_VALUE Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
71 Beispiel: EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
72 EMBL Feature 2 Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
73 Zusammenfassung Interessanter Teil der Modelle: Feature Vorteile Metamodellierung Weniger Tabellen Einfach erweiterbar (INSERT statt CREATE TABLE) Feature-Keys etc. sind Werte Zugriff über SQL Nachteile Langsamer (Größere Tabellen) Unübersichtlich Keine Feature-spezifischen Felder, Datentypen, Constraints Modelle sehr ähnlich für Proteinsequenzen SP relationales Schema basiert auf dem von EMBL Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
74 Generischstes relationales Schema Id Name Table Column Table_ID Id Name Value Column_Id Value Type Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
75 Teil V. Datenbanken EMBL / SRS Genbank / Entrez Weitere Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
76 EMBL Identischer Datenbestand zu Genbank / DDBJ Nächtlicher Austausch Formatunterschiede Submission based Archiv (fast) keine Bearbeitung der Daten Verfügbarkeit Flatfile SRS ML (BSML,?) Oracle Dump Files Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
77 EMBL Divisions Tw. Speziesübergreifend, tw. speciesspezifisch Exponentielles Wachstum Quelle: Stand EMBL Release 72, Total: 32 GBases Accession-Num und Version ID Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
78 SRS: Sequence Retrieval System EMBL EBI Lion AG Komponenten Flatfile Indexierungssystem WWW Interface Anfragesprache Administrationstools Parser für >200 DB, EBI-Installation: 120 DBs Joins Verfolgen externer Datenbankreferenzen Equi-Joins Später mehr Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
79 Genbank Modell in ASN.1 Datenspeicherung:? Zugriff: Entrez Ähnlich SRS Keine Joins Neighbours Related Documents Click-And-Browse Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
80 Weitere Datenbanken UniGene, dbest, RZPD,... Spezielle Arten Sequenz Organismen (Yeast, Fly, Mouse, HIV,...) Ribosomen, Immunsystem Motive: Transscriptionsfaktoren, Promotoren,... Vorberechnete, curated Homologien Terminologie GeneOntology (> 7000 Begriffe: Funktion, Prozess, Zelllokation) NCBI Taxonomy Database ( Org.)... Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
81 Literatur [KM95] Kececioglu, J. and Myers, E. W. (1995). "Combinatorial Algorithms for DNA sequence assembly." Algorithmica 13(1/2): [EHWG98] Ewing, B., Hillier, L., Wendl, M. C. and Green, P. (1998). "Base-Calling of Automated Sequence Traces using PHRED. I. Accuracy Assesment." Genome Research 8: [PWS02] Pontius, J. U., Wagner, L. and Schuler, G. D. (2002). UniGene: A Unified View of the Transscriptome. Book "UniGene: A Unified View of the Transscriptome", National Library of Medicine, Bethesda [BO01] Baxevanis, A. D. and Ouellette, B. F. F., Eds. (2001). "Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins", John Wiley & Sons. (Kapitel 12+13) [Sen02] Sensen, C., Ed. (2002). "Essentials of Genomics and Bioinformatics", Wiley-VCH, Weinheim. (Kapitel 2+7) Ulf Leser: Molekularbiologische Datenbanken, Vorlesung, SoSe
Molekularbiologische Datenbanken
Molekularbiologische Datenbanken Sequenzierung Ulf Leser Wissensmanagement in der Bioinformatik Formalisierung Gegeben Menge C von Clones (Länge egal) Menge P von Probes Matrix M 1 Ci matches Pj = 0 otherwise
MehrBioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Bioinformatik,
MehrBioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Bioinformatik
MehrMolekularbiologische Datenbanken
Molekularbiologische Datenbanken ESTs und cdnas Microarrays Ulf Leser Wissensmanagement in der Bioinformatik Sequenzierung Methode nach Sanger Verarbeitungsschritte Base Calling Assembly Finishing Ulf
MehrBioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Motivation Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische Bioinformatik,
MehrBioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Strings und Matching Naiver Algorithmus Ulf Leser: Algorithmische
MehrKapitel 4: Genom-Datenbanken
Kapitel 4: Genom-Datenbanken n Nukleotidsequenz-Datenbanken Ausgangsproblematik Beispieldatenbanken n Kartierungs-Datenbanken Genomkarten Beispieldatenbanken n Genexpressions-Datenbanken Ausgangsproblematik
MehrKapitel 4: Genom-Datenbanken
Kapitel 4: Genom-Datenbanken n Nukleotidsequenz-Datenbanken Ausgangsproblematik Beispieldatenbanken n Kartierungs-Datenbanken Genomkarten Beispieldatenbanken n Genexpressions-Datenbanken Ausgangsproblematik
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Warum Stringmatching? Von DNA zu Strings Genomsequenzierung Funktionale
MehrBioinformatik. Zeichenketten und Stringalgorithmen. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Zeichenketten und Stringalgorithmen Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Motivation Strings und Matching Naiver Algorithmus Z-Box Algorithmus Ulf Leser:
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Biologische Daten als Strings Ulf Leser Wissensmanagement in der Bioinformatik Ziele für heute Wert von Reduktionismus: Genome als Strings Reinschmecken in Stringmatching Erster
MehrBioinformatik. Z-Box Algorithmus Preprocessing eines Strings. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Z-Box Algorithmus Preprocessing eines Strings Ulf Leser Wissensmanagement in der Bioinformatik Drei Anwendungen Sequenzierung Assembly von Teilsequenzen cdna Clustering All-against-all Sequenzvergleiche
MehrMolekularbiologische. Datenbanken. Kartierung von Chromsomen. Wissensmanagement in der. Bioinformatik. Ulf Leser
Molekularbiologische Datenbanken Kartierung von Chromsomen Ulf Leser Wissensmanagement in der Bioinformatik Daten, Schema, Modell, Metamodell Daten Tatsächliche Werte, uninterpretiert Anfrageergebnisse
MehrGenexpressionsdatenbanken
Genexpressionsdatenbanken ArrayExpress Gliederung Mikroarrays Struktur von Genexpressionsdatenbanken Arrayexpress Aufbau und Statistik Standardisierung Abfragen und Einstellen von Daten Mikroarrays Glasplatte
MehrMolekularbiologische. Datenbanken. Genexpression Microarrays. Wissensmanagement in der. Bioinformatik. Ulf Leser
Molekularbiologische Datenbanken Genexpression Microarrays Ulf Leser Wissensmanagement in der Bioinformatik Sequenzierung im HGP Mehrstufiges Verfahren Kartierung mit YACs und BACs Berechnung von BAC Contigs
MehrMolekularbiologische Datenbanken
Molekularbiologische Datenbanken Kartierung von Chromsomen I Biotechnische Grundlagen Ulf Leser Wissensmanagement in der Bioinformatik Ankündigung Am 2.6.2004 (nächste Woche) beginnt die Vorlesung um 9.00
MehrMolekularbiologische Datenbanken
Molekularbiologische Datenbanken Übungen Sommersemester 2004 Silke Trißl Prof. Ulf Leser Wissensmanagement in der Bioinformatik Organisatorisches Mittwoch 11 13 Uhr, RUD26 0'313 Mi, 05. Mai 2004 entfällt
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management
MehrMOL.504 Analyse von DNA- und Proteinsequenzen. Datenbanken & Informationssysteme
MOL.504 Analyse von DNA- und Proteinsequenzen Datenbanken & Informationssysteme Inhaltsübersicht Informationsysteme National Center for Biotechnology Information (NCBI) The European Bioinformatics Institute
MehrSequence Assembly. Nicola Palandt
Sequence Assembly Nicola Palandt 1 Einleitung Das Genom eines Lebewesens ist der Träger aller Informationen, die eine Zelle weitergeben kann. Es besteht aus Sequenzen, die mehrere Milliarden Basen lang
MehrSequence Assembly Gudrun Idrissou Proseminar,
Sequence Assembly Gudrun Idrissou Proseminar, 20.12.2010 1 Einleitung Das Shotgun-Sequencing ist eine weitverbreitete Methode zur Sequenzierung von großen DNA Stücken. Man zerteilt die in Vektoren amplifizierte
MehrÜbungsaufgaben zur Einführung in die Bioinformatik - Lösungen
18.01.2013 Prof. P. Güntert 1 Vorlesung BPC I: Aspekte der Thermodynamik in der Strukturbiologie Übungsaufgaben zur Einführung in die Bioinformatik - Lösungen 1. Hamming und Levenshtein Distanzen a) Was
MehrBioinformatik. Einleitung Überblick. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Einleitung Überblick Ulf Leser Wissensmanagement in der Bioinformatik H5N1 Foto: Centers for Disease Control Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2005/2006 2 Migration
MehrBCDS - Biochemische Datenbanken und Software
BCDS - Biochemische Datenbanken und Software Seminarinhalte Bioinformatische Genom- und Proteomanalyse Literaturrecherche und Zitation Naturwissenschaftliche Software Termine 25. Mai, 1. Juni, 8. Juni,
MehrBioinformatik. BLAST Basic Local Alignment Search Tool. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik BLAST Basic Local Alignment Search Tool Ulf Leser Wissensmanagement in der Bioinformatik Heuristische Alignierung Annotation neuer Sequenzen basiert auf Suche nach homologen Sequenzen in
MehrApplied Bioinformatics. maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex
Applied Bioinformatics SS 2013 maria.fischer@i-med.ac.at http://icbi.at/courses/bioinformatics_ex Organisatorisches Termine Mo 18.03.2013 RR19 9:00 Di 19.03.2013 RR19 9:00 Mi 20.03.2013 RR19 9:00 Übungsziele
MehrAlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico
AlgoBio WS 16/17 Differenzielle Genexpression Annalisa Marsico 04.01.2017 Pipeline für die Mikroarray-Analyse Bildanalyse Hintergrundkorrektur Normalisierung Vorverarbeitung Zusammenfassung Quantifizierung
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Wintersemester 2005 / 2006 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Wintersemester 2006 / 2007 Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Lehrstuhl seit 10/2002 Schwerpunkte Algorithmen der Bioinformatik
MehrÜbung II. Einführung, Teil 1. Arbeiten mit Ensembl
Übung II Einführung, Teil 1 Arbeiten mit Ensembl Ensembl Genome Browser (Bereitstellung von Vielzeller Genomen) Projekt wurde 1999 initiiert Projektpartner EMBL European Bioinformatics Institute (EBI)
MehrBIOINFORMATIK I ÜBUNGEN.
BIOINFORMATIK I ÜBUNGEN http://icbi.at/bioinf Organisation 3 Übungen Kurze Einführung anschließend Labor Protokoll (je 2 Studierende, elektronisch doc, pdf..) Abgabe der Übungen bis spätestens 29. 05.
MehrSeminar Biomedical Informatics
Martin Dugas und Xiaoyi Jiang Institut für Informatik Wintersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Dezember
MehrOracle9i Designer. Rainer Willems. Page 1. Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH
Oracle9i Designer Rainer Willems Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH Page 1 1 Agenda 9i Designer & 9i SCM in 9i DS Design Server Generierung &
MehrGleichheit, Ähnlichkeit, Homologie
Gleichheit, Ähnlichkeit, Homologie Identität (identity) Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) Verhältnis ähnlicher Aminosäuren
MehrVorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken
Vorlesungsplan 1. Übersicht 2. Datenmodelle Textdateien, Entry-Modell Relationale DB XML 3. Genom-DB 4. Genexpressions-DB 5. Protein-DB 6. Pathway-DB 7. Publikations-DB 1. OWL & Ontologien 8. Zugriff und
MehrCornel Mülhardt. Molekularbiologie/ Genomics
Cornel Mülhardt Molekularbiologie/ Genomics 1 Was ist denn Molekularbiologie", bitteschön? 1 1.1 Das Substrat der Molekularbiologie, oder : Molli-World für Anfänger 2 1.2 Was brauche ich zum Arbeiten?
MehrLernmodul 7 Algorithmus von Dijkstra
Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer
MehrGenomics. Ernst W. Mayr Fakultät für Informatik TU München
Genomics Ernst W. Mayr Fakultät für Informatik TU München http://wwwmayr.in.tum.de/ A. Biologische Hintergründe nde 1. Gene und Phänotypisches 1.1. Beobachtungen nach Mendel 1.2. Eukaryotische Zelle 1.3.
MehrAlgorithmen und Anwendungen zur Kartierung von Genomen
Algorithmen und Anwendungen zur Kartierung von Genomen Dr. Dominik Grimm Probelehrveranstaltung Wissenschaftszentrum Straubing Hochschule Weihenstephan-Triesdorf Straubing, 14. Juli 2017 14. Juli 2017
MehrGenomsequenzierung für Anfänger
Genomsequenzierung für Anfänger Philipp Pagel 8. November 2005 1 DNA Sequenzierung Heute wird DNA üblicherweise mit der sogenannten Sanger (oder chain-terminationoder Didesoxy-) Methode sequenziert dessen
MehrBioinformatik. Lokale Alignierung Gapkosten. Silke Trißl / Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Lokale Alignierung Gapkosten Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Ähnlichkeit Lokales und globales Alignment Gapped Alignment Silke Trißl:
MehrEinführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken
Einführung in die Angewandte Bioinformatik: Proteinsequenz-Datenbanken 14.05.2009 Prof. Dr. Sven Rahmann 1 3 Proteinsequenz-Datenbanksysteme NCBI Entrez Proteins EBI SRS Proteins UniProt (empfohlen) 2
MehrMolekularbiologische Datenbanken
Molekularbiologische Datenbanken Übungen Aufgabe 2 Silke Trißl Ulf Leser Wissensmanagement in der Bioinformatik Microarray oder Expressionsanalyse Gleiche Erbinformation in der Zelle (Genom), aber viele
MehrEinführung in die Bioinformatik
Einführung in die Bioinformatik Ringvorlesung Biologie Sommer 07 Burkhard Morgenstern Institut für Mikrobiologie und Genetik Abteilung für Bioinformatik Goldschmidtstr. 1 Online Materialien zur Ringvorlesung:
MehrKapitel 2: Ein abstraktes Geo-Datenmodell
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 2: Ein abstraktes Geo-Datenmodell Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2013/14 Ludwig-Maximilians-Universität
MehrZentrum für Bioinformatik. Übung 4: Revision. Beispielfragen zur Klausur im Modul Angewandte Bioinformatik (erste Semesterhälfte)
Andrew Torda Björn Hansen Iryna Bondarenko Zentrum für Bioinformatik Übung zur Vorlesung Angewandte Bioinformatik Sommersemester 2014 20./23.06.2014 Übung 4: Revision Beispielfragen zur Klausur im Modul
MehrEinführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken
Einführung in die Angewandte Bioinformatik: Nukleotidsequenz-Datenbanken 07.05.2009 Prof. Dr. Sven Rahmann 1 Datenbanken am NCBI über Entrez http://www.ncbi.nlm.nih.gov/entrez NIH = National Institute
MehrBioinformatik. Multiple Sequence Alignment Sum-of-pairs Score. Ulf Leser Wissensmanagement in der. Bioinformatik
Bioinformatik Multiple Sequence Alignment Sum-of-pairs Score Ulf Leser Wissensmanagement in der Bioinformatik Quasar Grundidee Search-Phase sucht Regionen mit Länge w und hoher Ähnlichkeit D.h. Regionen
MehrZentrales Dogma der Biologie
Zentrales Dogma der Biologie Transkription: von der DNA zur RNA Biochemie 01/1 Transkription Biochemie 01/2 Transkription DNA: RNA: Biochemie 01/3 Transkription DNA: RNA: Biochemie 01/4 Transkription RNA:
MehrKapitel 2: Ein abstraktes Geo-Datenmodell
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Kapitel 2: Ein abstraktes Geo-Datenmodell Skript zur Vorlesung Geo-Informationssysteme Wintersemester 2011/12 Ludwig-Maximilians-Universität
MehrÜbung II. Einführung. Teil 1 Arbeiten mit Sequenzen recombinante DNA
Übung II Einführung Teil 1 Arbeiten mit Sequenzen recombinante DNA Recombinante DNA Technologie Protein Synthese In vitro Expression Libraries Gene Transfer in Tieren und Pflanzen Recombinante DNA Technologie
MehrÜbersicht Sequenziermethoden
DNA-Sequenzierung Übersicht Sequenziermethoden Sanger-Sequenzierung Pyrosequencing (Roche/454) Illumina/Solexa Pacific Biosciences (PacBio) Sanger-Sequenzierung Didesoxymethode, Kettenabruch- Synthese
MehrAusprägungsfach Bioinformatik im Rahmen des Bachelor-Studiengangs Informatik. CIBIV Center for Integrative Bioinformatics Vienna
Ausprägungsfach Bioinformatik im Rahmen des Bachelor-Studiengangs Informatik Center for Integrative Bioinformatics Vienna (CIBIV) Max F. Perutz Laboratories (MFPL) Vienna, Austria http://www.cibiv.at CIBIV
MehrEinführung Molekulare Bioinformatik
Einführung Molekulare Bioinformatik Bernhard Haubold 21. Oktober 2014 Übersicht Was ist Bioinformatik? Kursstruktur Was ist Bioinformatik? Geschichtliche Entwicklung Information: Speicherung & Übertragung
MehrAlgorithmische Bioinformatik
Algorithmische Bioinformatik Effiziente Berechnung des Editabstands Dynamische Programmierung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Rekursive Definition des Editabstands
MehrAlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico
AlgoBio WS 16/17 Genexpressionanalyse Annalisa Marsico 14.12.2016 Die Mikroarray-Revolution Mikroarrays messen die Genexpression Warum ist es wichtig, die Genexpression zu messen? Die Vielfalt der Zellen
MehrAlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico
AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse Annalisa Marsico 6.02.2017 Protein-DNA Interaktionen Häufig binden sich Proteine an DNA, um ihre biologische Funktion zu regulieren. Transkriptionsfaktoren
MehrNeue DNA Sequenzierungstechnologien im Überblick
Neue DNA Sequenzierungstechnologien im Überblick Dr. Bernd Timmermann Next Generation Sequencing Core Facility Max Planck Institute for Molecular Genetics Berlin, Germany Max-Planck-Gesellschaft 80 Institute
MehrAufgabenblatt 5. Silke Trißl Wissensmanagement in der Bioinformatik
Aufgabenblatt 5 Silke Trißl Wissensmanagement in der Bioinformatik Zuerst! FRAGEN? Silke Trißl: Bioinformatik für Biophysiker 2 Exercise 1 + 2 Modify program to compare protein sequence read substitution
MehrKapitel 5: Protein-Datendanken
Kapitel 5: Protein-Datendanken Vom Gen zum Protein n Motivation und historische Entwicklung n Proteomics Datengewinnung PEDRo-Projekt n Protein-Datenbanken Anforderungen Sequenz-Datenbanken Domain/Familien-Datenbanken
MehrInformationsgehalt von DNA
Informationsgehalt von DNA Topics Genes code, gene organisation, signals, gene detection Genomes genome organisation, nucleotide patterns, junk DNA DNA als Informationsträger DNA Building Blocks Desoxyribose
MehrWährend der Synthese synthetisiert die Polymerase den neuen Strang in 5 3 Richtung und bewegt sich in 3 5 -Richtung am Matrizenstrang entlang:
4.4 Replikation und PCR Ablauf der Replikation in vivo: Die Replikation wird von einer DNA-abhängigen DNA- Polymerase katalysiert. Jede DNA-Polymerase synthetisiert den neuen Strang in 5 3 Richtung, hierzu
MehrDatenbanken in der Molekularbiologie
WS2015/2016 F1-Praktikum Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Datenbanken in der Molekularbiologie Folie: Tal Dagan, D dorf Datenbanken in der Molekularbiologie
MehrASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA
ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA Jason R. Miller*, Sergey Koren, Granger Sutton Ein Vortrag von Sergej Tschernyschkow Friedrich-Schiller-Universität Jena 03. Mai 2010 SERGEJ TSCHERNYSCHKOW
MehrBioinformatik II: Phylogenetik
Bioinformatik II: Phylogenetik phylogenetisch Phylai: griechische Klans phylum: der Stamm phylogenetisch: die Stammesgeschichte von Lebewesen betreffend Hierarchien der Klassifikation: Domäne: Eukaryonten
MehrSeminar Biomedical Informatics
Martin Dugas und Xiaoyi Jiang Institut für Informatik Sommersemester 2017 Organisation Vorlage: Englischsprachige Publikation Vortrag: ca. 30min + 15min Diskussion, Hand-out, Blockseminar Anfang Juni Seminararbeit:
MehrEinführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays
Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 09.07.2009 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht
MehrInhalt Genexpression Microarrays E-Northern
Inhalt Genexpression Microarrays E-Northern Genexpression Übersicht Definition Proteinbiosynthese Ablauf Transkription Translation Transport Expressionskontrolle Genexpression: Definition Realisierung
MehrÜbungen zur Vorlesung Molekularbiologische Datenbanken. Lösungsblatt 1: Datenbanksuche
Wissensmanagement in der Bioinformatik Prof. Dr. Ulf Leser, Silke Trißl Übungen zur Vorlesung Molekularbiologische Datenbanken Lösungsblatt 1: Datenbanksuche Symptome 1.Ein Kind kommt in die Praxis und
MehrDNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten
7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 3. Aus welchen vier Nukleotiden ist RNA aufgebaut? 4. DNA RNA 5. Ein Wissenschaftler
MehrMolekularbiologische Grundlagen
Molekularbiologische Grundlagen Ulf Leser, Sommersemester 2008 Silke Trißl Überblick Biologie Organismen Aufbau von Zellen Prokaryoten und Eukaryoten Genom und DNA Transkription DNA RNA Protein Proteine
MehrEinführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays
Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays 08.07.2010 Prof. Dr. Sven Rahmann 1 Transcript Omics (Genexpressionsanalyse) Zum Verständnis von lebenden Organismen untersucht
MehrGenetik - The Human Genome Project. Überblick über die Genetik. Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern
Genetik - The Human Genome Project Überblick über die Genetik Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern seines Körpers. 1 2 Im Organismus müsssen nun ständig Enzyme u. a.
Mehr2. Ein abstraktes Geo-Datenmodell
2 Ein abstraktes Geo-Datenmodell 1 Was soll modelliert werden? 2 Spatial Data Types 3 Integration in das relationale Datenmodell Geo-Informationssysteme 24 21 Was soll modelliert werden? Einzelne Objekte
MehrSequenziertechnologien
Sequenziertechnologien Folien teilweise von G. Thallinger übernommen 11 Entwicklung der Sequenziertechnologie First Generation 1977 Sanger Sequenzierung (GOLD Standard) Second Generation 2005 454 Sequencing
MehrAufgabenstellung. Genomische Sequenzierung (DNA)
Sequenzierung Aufgabenstellung Genomische Sequenzierung (DNA) Re-Sequenzierung eines bekannten Genoms (z.b. Mensch) De novo Sequenzierung Sequenzierung von RNA mittels Umschreiben in cdna Sequenzieren
MehrRead Mapping Projektmanagement im So3warebereich SeqAn
Read Mapping Projektmanagement im So3warebereich SeqAn David Weese April 2010 Inhalt Einführung Reads erzeugen read simulator SWP Teilprojekte Projektplan EINFÜHRUNG 2 nd /Next GeneraGon Sequencing Technologien:
MehrMultiple Alignments. Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann. Webseite zur Vorlesung
Multiple Alignments Vorlesung Einführung in die Angewandte Bioinformatik Prof. Dr. Sven Rahmann Webseite zur Vorlesung http://bioinfo.wikidot.com/ Sprechstunde Mo 16-17 in OH14, R214 Sven.Rahmann -at-
MehrData Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing Sommersemester 2004 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte
MehrDNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten
7. Transkription Konzepte: DNA mrna Protein Initiation Elongation Termination RNA Prozessierung Unterschiede Pro /Eukaryoten 1. Aus welchen vier Nukleotiden ist RNA aufgebaut? 2. RNA unterscheidet sich
MehrBioinformatik: The Next Generation
Bioinformatik: The Next Generation Prof. Dr. Caroline Friedel Lehr- und Forschungseinheit Bioinformatik Was ist Bioinformatik? Theoretische und Praktische Informatik Statistik, Mathematik Molekularbiologie,
MehrBioinformatik I: Grundlagen der Gentechnik
Bioinformatik I: Grundlagen der Gentechnik Dr. Maik Böhmer Institut für Biologie und Biotechnologie der Pflanzen Schlossplatz 7 Schwerpunkte: Vorlesung 1: Einführung & Enzyme der Gentechnik Vorlesung 2:
MehrDATENQUALITÄT IN GENOMDATENBANKEN
DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004 Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2 Motivation (1) Genomdatenbanken enthalten
MehrVon Mendel bis -Omics Geschichte und Grundlagen der Humangenetik , Walther Vogel, Institut für Humangenetik
Von Mendel bis -Omics Geschichte und Grundlagen der Humangenetik 19.04.2018, Walther Vogel, Institut für Humangenetik Erste Grundlagen ca 1850 bis 1900 Gregor Mendel (1822 1884) Erbfaktoren (Gene) dominant
MehrSequenzierung. Aufklärung der Primärstruktur von DNA. Biotechnik Kurs WS 2006/07
Sequenzierung Aufklärung der Primärstruktur von DNA Biotechnik Kurs WS 2006/07 AK Engels Angelika Keller Übersicht Geschichtlicher Hintergrund Maxam-Gilbert Sequenzierung Sanger Sequenzierung Neuere Sequenzierungstechnologien
MehrEinführung Molekulare Bioinformatik
Einführung Molekulare Bioinformatik Bernhard Haubold 22. Oktober 2013 Übersicht Was ist Bioinformatik? Kursstruktur Was ist Bioinformatik? Geschichtliche Entwicklung Information: Speicherung & Übertragung
MehrVL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin
VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch Annkatrin Bressin Freie Universität Berlin Vorlesungsthemen Part 1: Background Basics (4) 1. The Nucleic Acid World 2. Protein Structure
MehrAufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering. Ulf Leser Wissensmanagement in der Bioinformatik
Aufgabe 6: Distanzbasierte Phylogenie: Hierarchisches Clustering Ulf Leser Wissensmanagement in der Bioinformatik Daten Wir verwenden neue Daten Die müssen sie ausnahmsweise selber suchen DNA-Sequenzen
MehrKlonierung von S2P Rolle der M19-Zellen. POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel
Klonierung von S2P Rolle der M19-Zellen POL-Seminar der Biochemie II 13.02.2007 Sebastian Gabriel Inhalt 1. Was ist eine humane genomische DNA-Bank? 2. Unterschied zwischen cdna-bank und genomischer DNA-Bank?
MehrGenisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR)
PCR Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR) von Kary B. Mullis entwickelt (1985) eigentlich im Mai 1983 bei einer nächtlichen Autofahrt erstes erfolgreiches Experiment am 16.12.1983
MehrDatenbanken in der Molekularbiologie
WS2017/2018 F1-Praktikum Genomforschung und Sequenzanalyse - Einführung in Methoden der Bioinformatik- Datenbanken in der Molekularbiologie Folie: Tal Dagan, D dorf Datenbanken in der Molekularbiologie
MehrMedizinische Fakultät Auswertestrategien von Microarrays Einführung
Medizinische Fakultät Auswertestrategien von Microarrays Einführung PD Dr. Knut Krohn IZKF Leipzig Dr. Markus Eszlinger Med. Klinik III Forschungslabor DNA RNA Hintergrund Charakteristisches Muster der
MehrEntscheidungstheorie Teil 2. Thomas Kämpke
Entscheidungstheorie Teil 2 Thomas Kämpke Seite 2 Inhalt Präferenzrelation Referenzpunktansatz Referenzpunktmethode (Zusammenfassung) Distanzfunktion Design von PCR Primerpaaren Vorwärtsprimer p Rückwärtsprimer
MehrEnsembl. Steffen Möller
Ensembl Steffen Möller Zusammenfassung Web Funktionalität Präsentation Genome Aller sequenzierten Säugetiere, Wirbeltiere und Hefe, Fliege, Wurm Identifikation und Annotation von Genen Sequenzvariationen
MehrBiowissenschaftlich recherchieren
Biowissenschaftlich recherchieren Uber den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik Nicola Gaedeke Birkhauser Basel Boston Berlin Inhaltsverzeichnis Vorwort xi 1 Die Informationssucheim
MehrMolekulare Mechanismen der Signaltransduktion. 06 - Kartierung des AXR1 Gens + early auxin-induced genes Folien: http://tinyurl.
Molekulare Mechanismen der Signaltransduktion 06 - Kartierung des AXR1 Gens + early auxin-induced genes Folien: http://tinyurl.com/modul-mms bisheriges Modell auxin auxin AXR1 auxin response AXR1 potentieller
MehrAlgorithmen und Datenstrukturen in der Bioinformatik Zweites Übungsblatt WS 05/06 Musterlösung
Johanna Ploog, Konstantin Clemens Freie Universität Berlin Institut für Mathematik II Arbeitsgruppe für Mathematik in den Lebenswissenschaften Algorithmen und Datenstrukturen in der Bioinformatik Zweites
Mehr