DATENQUALITÄT IN GENOMDATENBANKEN



Ähnliche Dokumente
Klausur zum Modul Molekularbiologie ILS, SS 2010 Freitag 6. August 10:00 Uhr

Die Suche nach Genen in Bakteriengenomen. BWInf-Workshop März Prof. Dr. Sven Rahmann AG Bioinformatik Informatik XI, TU Dortmund

Bioinformatik: Hype oder Hoffnung?

Grundideen der Gentechnik

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Foto: Kate Whitley,

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Lizenzierung von StarMoney 8.0 bzw. StarMoney Business 5.0 durchführen

1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet und

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Klonierung von S2P Rolle der M19-Zellen. POL-Seminar der Biochemie II Sebastian Gabriel

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Step by Step Webserver unter Windows Server von Christian Bartl

IV. Übungsaufgaben für die Jahrgangstufe 9 & 10

Softwaretests in Visual Studio 2010 Ultimate Vergleich mit Java-Testwerkzeugen. Alexander Schunk Marcel Teuber Henry Trobisch

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

DNA Sequenzierung. Transkriptionsstart bestimmen PCR

Genetik - The Human Genome Project. Überblick über die Genetik. Die gesamte Erbinformation eines Menschen befindet sich in jedem Zellkern

Verbesserte Basenpaarung bei DNA-Analysen

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Dr. Jens Kurreck. Otto-Hahn-Bau, Thielallee 63, Raum 029 Tel.:

Die Invaliden-Versicherung ändert sich

Educase. Release Notes 1.7: Neue Funktionen und Verbesserungen. Base-Net Informatik AG Wassergrabe 14 CH-6210 Sursee

Zwischen Deutschland, Liechtenstein, Österreich und der Schweiz abgestimmte deutsche Übersetzung

YouTube: Video-Untertitel übersetzen

Lichtbrechung an Linsen

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Lizenzierung von StarMoney 9.0 bzw. StarMoney Business 6.0 durchführen

Risiken der Nutzung der sog. Grünen Gentechnologie

Vorlesung Betriebstechnik/Netzplantechnik Operations Research

Was ist ein genetischer Fingerabdruck?

Professionelle Seminare im Bereich MS-Office

macht mobil einfach Mobile Wartungsprozesse, Checklisten und Inspektionen Mobile integrierte Checklisten in SAP PM/CS

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Rekonstruktion biologischer Netzwerke (mit probabilistischen Methoden) Einführung

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

DNA-Sequenzierung. Martina Krause

1. Fehlende Zugriffsrechte für die Verwendung der VR -NetWorld Software

Klausur zur Vorlesung Biochemie III im WS 2000/01

Agentur für Werbung & Internet. Schritt für Schritt: -Konfiguration mit Apple Mail

Maßnahmen zur Verbesserung der Position in Suchmaschinenergebnissen

PISA-TEST FÜR LEHRER(INNEN)?

Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung

Reinigen der Druckköpfe

Die Klimaforscher sind sich längst nicht sicher. Hans Mathias Kepplinger Senja Post

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

Es gibt zwei Wege die elektronischen Daten aus Navision zu exportieren.

Verwendung des IDS Backup Systems unter Windows 2000

Windows 7 - Whoami. Whoami liefert Informationen wie z.b. die SID, Anmelde-ID eines Users, sowie Gruppenzuordnungen, Berechtigungen und Attribute.

Q1 B1 KW 49. Genregulation

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

How to do? Projekte - Zeiterfassung

Einführung in. Logische Schaltungen

Patch-Management. Leibniz-Akademie Hannover Wirtschaftsinformatik B. Sc. Praxisreflexion im Bereich Management im SS 2011

Microsoft Update Windows Update

Bernadette Büsgen HR-Consulting

Begleittext zum Foliensatz Erbgänge beim Menschen

Mitarbeiterbefragung als PE- und OE-Instrument

Spezielle Lebenslösung für die Grafts zum Aufbewahren - Songul Alci

Internet Explorer Version 6

Projekte für reale Herausforderungen Projektarbeit: Einleitung und Gliederung. Projekte für reale Herausforderungen

Begeisterung und Leidenschaft im Vertrieb machen erfolgreich. Kurzdarstellung des Dienstleistungsangebots

Hilfe zur Urlaubsplanung und Zeiterfassung

A1.7: Entropie natürlicher Texte

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Anwenderleitfaden Citrix. Stand Februar 2008

DURCH VIDA ERZEUGTE PROTOKOLLDATEIEN 1 EINFÜHRUNG

Schritt für Schritt Hilfe Neufahrzeugkonfigurator

Erfahrungen mit Hartz IV- Empfängern

Zeichen bei Zahlen entschlüsseln

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Fachtag Gesundheit und Pflege 2011 an der Evangelischen Hochschule Nürnberg

Moderne MRT-Bildauswertung mit appmri Hippocampus Volume Analyser.

Die Post hat eine Umfrage gemacht

GEPRÜFTE / -R INDUSTRIEMEISTER / -IN METALL / NEU

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Kurzanleitung für Verkäufer

Übungen zur Softwaretechnik

Das Teamrollenmodell nach Meredith Belbin

Grundbegriffe der Informatik

Kurzanweisung für Google Analytics

Anti-Botnet-Beratungszentrum. Windows XP in fünf Schritten absichern

Einbindung einer ACT!12-16 Datenbank als Datenquelle für den Bulkmailer 2012

Was versteht man unter Softwaredokumentation?

Web2Lead. Konfiguration

Evolution & Genetik (Beispiel Hämoglobin) Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

SJ OFFICE - Update 3.0

Kommunikations-Management

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Die nachfolgende Anleitung zeigt die Vorgehensweise unter Microsoft Windows Vista.

4 Aufzählungen und Listen erstellen

SEPA-Umstellungshilfe für die VR-NetWorld Software

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Anwendungshinweise zur Anwendung der Soziometrie

Copyright 2014 Delta Software Technology GmbH. All Rights reserved.

Was wir gut und wichtig finden

Patienteninformation: Gentestung bei familiärem Brust- und Eierstockkrebs (Basis-Information):

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

Transkript:

DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004

Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2

Motivation (1) Genomdatenbanken enthalten molekularbiologische Daten Einsatz bei der Heilmittelentwicklung Genomdaten werden analysiert um neue Medikamente zu finden Dabei Nutzung von verschiedenen Informationsquellen Zwei Probleme: Integrierter Zugriff auf mehrere Datenquellen Qualität der Daten 3

Motivation (2) Daten von hoher Qualität sind sehr wichtig Schlechte Qualität der Daten hat negative wirtschaftliche und medizinische Auswirkungen Trotzdem sind Genomdaten oft unvollständig, veraltet und fehlerhaft Bestimmung und Verbesserung der Qualität molekularbiologischer Daten ist große Herausforderung 4

Biologische Grundkonzepte (1) Genom: Gesamtheit der genetischen Informationen eines Organismus DNA (Desoxyribonukleinsäure): Doppelsträngig Träger der genetischen Information Sequenz aus vier Basen: Adenin, Guanin, Cytosin, Thymin RNA (Ribonukleinsäure): Einzelsträngig Transportform der genetischen Information Uracil statt Thymin 5

Biologische Grundkonzepte (2) Proteine: Sequenz von Aminosäuren Haben vielfältige Funktionen Transkription: Teile der DNA (Gene) werden abgelesen RNA-Kopie des Gens wird erstellt Translation: RNA ist Vorlage für Proteinsynthese Abschnitte der Länge 3 (Codons) werden jeweils in eine Aminosäure übersetzt Mit Hilfe des genetischen Codes Beginnt bei Startcodon und endet bei Stopcodon (Reading Frame) 6

Biologische Grundkonzepte (3) Zentrales Dogma der Molekularbiologie: 7

Genomdaten (1) Informationen über Biomoleküle DNA, RNA und Proteine Strings: Genomsequenzdaten Sequenz der DNA Strings über vierbuchstabigem Alphabet (z.b. actcagtctagg...) Ergebnis von Sequenzierprojekten (z.b. HGP) EST Sequenzdaten Expressed Sequence Tags Strings über vierbuchstabigem Alphabet Transkribierte Teile (RNA) des Genoms Proteinsequenzdaten Sequenz von Aminosäuren String über einem Alphabet aus 20 Buchstaben (z.b. ARNDCQEGHILK...) 8

Genomdaten (2) Attribute: Beschreiben Eigenschaften Art des Organismus, Temperatur beim Versuch, usw. Annotationen: Strukturelle Annotation Auf Genomsequenzen identifizierte Merkmale Auftreten von bestimmten Pattern Genlokalisierung Funktionale Annotation Funktion eines Proteins Beteiligung bei einer Erkrankung Textuelle Form 9

Genomdatenbanken (1) Über 500 öffentlich verfügbare Genomdatenbanken EMBL, GenBank, Swiss-Prot,... Übersicht: http://nar.oupjournals.org/cgi/content/full/32/suppl_1/d3/dc1 Eintrag in EMBL: 10

Genomdatenbanken (2) Eintrag in EMBL: 11

Genomdaten Produktion (1) Weltweit von Arbeitsgruppen und Instituten Beteiligt sind Biologen, Labor Assistenten, Bioinformatiker Oft eigene proprietäre Methoden Es existiert Vielzahl an Werkzeugen Produktionsmethoden: Laborversuche Im Labor durchgeführte Experimente Halbautomatische Versuche Unterstützung durch Automaten und Roboter Bei immer wiederkehrenden Tätigkeiten 12

Genomdaten Produktion (2) Produktionsmethoden: Computerbasierte Transformationen Transformiert Daten von einer Repräsentation in eine andere Übersetzung von Sequenzen Konkatenation von Strings Computerbasierte Analyse Ergebnisse der Versuche werden interpretiert Software produziert neue Informationen Alignment (BLAST/FASTA) 13

Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 14

Fehlerklassen Versuchsfehler Fehler im Versuchsaufbau oder bei Versuchsdurchführung Analysefehler Fehlinterpretation der Informationen Transformationsfehler Fehler bei der Durchführung von Transformationen Propagierte Fehler Nutzung von fehlerhaften Daten für die Erzeugung von neuen Daten Veraltete Daten Unbemerkte Veränderung von Daten, was davon abhängige Daten verfälscht 15

Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 16

DNA Sequenz Bestimmung (1) Erzeugung von Genomsequenzdaten und EST Sequenzdaten Laborversuche, halbautomatische Versuche und computerbasierte Transformationen DNA wird in überlappende Einzelstücke aufgeteilt Sequenz für jedes Einzelstück wird bestimmt Mit Hilfe von Sequenzierautomaten und Software (Base Calling) Gesamtsequenz durch Assemblierung ermittelt Ergebnis Strings: Sequenzen Attribute: Sequenzeigenschaften 17

DNA Sequenz Bestimmung (2) Sequenzierautomat: 18

DNA Sequenz Bestimmung (3) Versuchsfehler Falsche Aufbereitung der Einzelstücke Fehlerhafter Versuchsaufbau Extreme Basenzusammensetzung der sequenzierten DNA Transformationsfehler Fehler beim Base Calling Verbesserung durch Sequenzierautomaten Teilestücke mit fast identischen Sequenzen führen zu fehlerhaften Assemblierung Frame-Shifts 19

Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 20

Strukturelle Annotation des Genoms (1) Identifizierung von strukturellen Merkmalen auf den Genomsequenzen Computerbasierte Analyse Nutzt Daten aus Schritt 1 Ausführung von Operationen auf den Genomsequenzdaten Nutzung von existierenden strukturellen Annotationen und Proteinsequenzen Expertenwissen nötig Ergebnis Strukturelle Klassifikation der Sequenzabschnitte 21

Strukturelle Annotation des Genoms (2) Analysefehler Unvollständiges oder zweifelhaftes Domänenwissen Nachlässige Interpretation Propagierte Fehler: Fehler in genutzten Genomsequenzdaten Fehler in den Zusatzdaten Veraltete Daten: Veraltete Genomsequenzdaten Veränderungen der Daten oft unbemerkt 22

Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 23

Protein Sequenz Bestimmung (1) Bestimmung der Aminosäuresequenz des Proteins Experimentell Durch Laborversuche Computerbasierte Transformationen Nutzt Daten aus den ersten beiden Schritten Übersetzung der Gensequenz mit Hilfe des genetischen Codes Ergebnis Strings: AS Sequenzen 24

Protein Sequenz Bestimmung (2) Versuchsfehler W ie bei DNA Sequenz Bestimmung Transformationsfehler Nutzen des falschen genetischen Codes Propagierte Fehler Inkorrekte Sequenzen oder Frame-Shifts Falsche strukturelle Annotationen Veraltete Daten Veraltete Genomsequenzdaten Veränderungen der Daten oft unbemerkt 25

Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 26

Funktionale Annotation der Proteine (1) Beschreibung der Funktion eines Proteins Nutzt Protein Sequenzen aus 3. Schritt Experimentell Durch Laborversuche Sehr zeitintensiv Computerbasiert Proteinsequenz bestimmt Proteinfunktion Ähnliche Sequenz führt zu gleicher Funktion Suche in DB nach ähnlichen bereits annotierten Proteinen Ergebnis Funktionale Klassifikation des Proteins 27

Funktionale Annotation der Proteine (2) Beispiel für funktionale Annotation: 28

Funktionale Annotation der Proteine (3) Versuchsfehler Vielfältige Versuchsmethoden bei experimenteller funktionaler Annotation Viele mögliche Fehler Analysefehler Grad der Ähnlichkeit zwischen Proteinen ist Problem Es kann sein, dass Ähnlichkeiten in wichtigen Regionen nicht vorhanden sind Funktionstransfer ist fehleranfällig 29

Funktionale Annotation der Proteine (4) Propagierte Fehler Riesige Menge an Proteindaten erfordert computerbasierte Annotationen Oft werden Annotationen, welche weiterverwendet werden, nicht als "mutmaßlich" gekennzeichnet Das führt zu propagierten falschen Annotationen Veraltete Daten Probleme, aufgrund des hohen Grades an Datenabhängigkeit Annotationen ändern sich häufig 30

Fehlerraten DNA Sequenz Bestimmung: 0,23% bis 2,58% Strukturelle Annotation des Genoms: 5% bis 30% Protein Sequenz Bestimmung: Nicht bekannt Funktionale Annotation der Proteine: 5% bis 40% 31

Zusammenfassung Datenqualität bei Genomdaten wichtig Genomdaten sind fehlerhaft Bedingt durch den Produktionsprozess und die hohe Datenabhängigkeit Data Cleansing nötig 32