DATENQUALITÄT IN GENOMDATENBANKEN Alexander Fehr 28. Januar 2004
Gliederung Motivation Biologische Grundkonzepte Genomdaten Datenproduktion und Fehler Data Cleansing 2
Motivation (1) Genomdatenbanken enthalten molekularbiologische Daten Einsatz bei der Heilmittelentwicklung Genomdaten werden analysiert um neue Medikamente zu finden Dabei Nutzung von verschiedenen Informationsquellen Zwei Probleme: Integrierter Zugriff auf mehrere Datenquellen Qualität der Daten 3
Motivation (2) Daten von hoher Qualität sind sehr wichtig Schlechte Qualität der Daten hat negative wirtschaftliche und medizinische Auswirkungen Trotzdem sind Genomdaten oft unvollständig, veraltet und fehlerhaft Bestimmung und Verbesserung der Qualität molekularbiologischer Daten ist große Herausforderung 4
Biologische Grundkonzepte (1) Genom: Gesamtheit der genetischen Informationen eines Organismus DNA (Desoxyribonukleinsäure): Doppelsträngig Träger der genetischen Information Sequenz aus vier Basen: Adenin, Guanin, Cytosin, Thymin RNA (Ribonukleinsäure): Einzelsträngig Transportform der genetischen Information Uracil statt Thymin 5
Biologische Grundkonzepte (2) Proteine: Sequenz von Aminosäuren Haben vielfältige Funktionen Transkription: Teile der DNA (Gene) werden abgelesen RNA-Kopie des Gens wird erstellt Translation: RNA ist Vorlage für Proteinsynthese Abschnitte der Länge 3 (Codons) werden jeweils in eine Aminosäure übersetzt Mit Hilfe des genetischen Codes Beginnt bei Startcodon und endet bei Stopcodon (Reading Frame) 6
Biologische Grundkonzepte (3) Zentrales Dogma der Molekularbiologie: 7
Genomdaten (1) Informationen über Biomoleküle DNA, RNA und Proteine Strings: Genomsequenzdaten Sequenz der DNA Strings über vierbuchstabigem Alphabet (z.b. actcagtctagg...) Ergebnis von Sequenzierprojekten (z.b. HGP) EST Sequenzdaten Expressed Sequence Tags Strings über vierbuchstabigem Alphabet Transkribierte Teile (RNA) des Genoms Proteinsequenzdaten Sequenz von Aminosäuren String über einem Alphabet aus 20 Buchstaben (z.b. ARNDCQEGHILK...) 8
Genomdaten (2) Attribute: Beschreiben Eigenschaften Art des Organismus, Temperatur beim Versuch, usw. Annotationen: Strukturelle Annotation Auf Genomsequenzen identifizierte Merkmale Auftreten von bestimmten Pattern Genlokalisierung Funktionale Annotation Funktion eines Proteins Beteiligung bei einer Erkrankung Textuelle Form 9
Genomdatenbanken (1) Über 500 öffentlich verfügbare Genomdatenbanken EMBL, GenBank, Swiss-Prot,... Übersicht: http://nar.oupjournals.org/cgi/content/full/32/suppl_1/d3/dc1 Eintrag in EMBL: 10
Genomdatenbanken (2) Eintrag in EMBL: 11
Genomdaten Produktion (1) Weltweit von Arbeitsgruppen und Instituten Beteiligt sind Biologen, Labor Assistenten, Bioinformatiker Oft eigene proprietäre Methoden Es existiert Vielzahl an Werkzeugen Produktionsmethoden: Laborversuche Im Labor durchgeführte Experimente Halbautomatische Versuche Unterstützung durch Automaten und Roboter Bei immer wiederkehrenden Tätigkeiten 12
Genomdaten Produktion (2) Produktionsmethoden: Computerbasierte Transformationen Transformiert Daten von einer Repräsentation in eine andere Übersetzung von Sequenzen Konkatenation von Strings Computerbasierte Analyse Ergebnisse der Versuche werden interpretiert Software produziert neue Informationen Alignment (BLAST/FASTA) 13
Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 14
Fehlerklassen Versuchsfehler Fehler im Versuchsaufbau oder bei Versuchsdurchführung Analysefehler Fehlinterpretation der Informationen Transformationsfehler Fehler bei der Durchführung von Transformationen Propagierte Fehler Nutzung von fehlerhaften Daten für die Erzeugung von neuen Daten Veraltete Daten Unbemerkte Veränderung von Daten, was davon abhängige Daten verfälscht 15
Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 16
DNA Sequenz Bestimmung (1) Erzeugung von Genomsequenzdaten und EST Sequenzdaten Laborversuche, halbautomatische Versuche und computerbasierte Transformationen DNA wird in überlappende Einzelstücke aufgeteilt Sequenz für jedes Einzelstück wird bestimmt Mit Hilfe von Sequenzierautomaten und Software (Base Calling) Gesamtsequenz durch Assemblierung ermittelt Ergebnis Strings: Sequenzen Attribute: Sequenzeigenschaften 17
DNA Sequenz Bestimmung (2) Sequenzierautomat: 18
DNA Sequenz Bestimmung (3) Versuchsfehler Falsche Aufbereitung der Einzelstücke Fehlerhafter Versuchsaufbau Extreme Basenzusammensetzung der sequenzierten DNA Transformationsfehler Fehler beim Base Calling Verbesserung durch Sequenzierautomaten Teilestücke mit fast identischen Sequenzen führen zu fehlerhaften Assemblierung Frame-Shifts 19
Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 20
Strukturelle Annotation des Genoms (1) Identifizierung von strukturellen Merkmalen auf den Genomsequenzen Computerbasierte Analyse Nutzt Daten aus Schritt 1 Ausführung von Operationen auf den Genomsequenzdaten Nutzung von existierenden strukturellen Annotationen und Proteinsequenzen Expertenwissen nötig Ergebnis Strukturelle Klassifikation der Sequenzabschnitte 21
Strukturelle Annotation des Genoms (2) Analysefehler Unvollständiges oder zweifelhaftes Domänenwissen Nachlässige Interpretation Propagierte Fehler: Fehler in genutzten Genomsequenzdaten Fehler in den Zusatzdaten Veraltete Daten: Veraltete Genomsequenzdaten Veränderungen der Daten oft unbemerkt 22
Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 23
Protein Sequenz Bestimmung (1) Bestimmung der Aminosäuresequenz des Proteins Experimentell Durch Laborversuche Computerbasierte Transformationen Nutzt Daten aus den ersten beiden Schritten Übersetzung der Gensequenz mit Hilfe des genetischen Codes Ergebnis Strings: AS Sequenzen 24
Protein Sequenz Bestimmung (2) Versuchsfehler W ie bei DNA Sequenz Bestimmung Transformationsfehler Nutzen des falschen genetischen Codes Propagierte Fehler Inkorrekte Sequenzen oder Frame-Shifts Falsche strukturelle Annotationen Veraltete Daten Veraltete Genomsequenzdaten Veränderungen der Daten oft unbemerkt 25
Allgemeiner Produktionsprozess DNA Sequenz Bestimmung Strukturelle Annotation des Genoms Protein Sequenz Bestimmung Funktionale Annotation der Proteine 26
Funktionale Annotation der Proteine (1) Beschreibung der Funktion eines Proteins Nutzt Protein Sequenzen aus 3. Schritt Experimentell Durch Laborversuche Sehr zeitintensiv Computerbasiert Proteinsequenz bestimmt Proteinfunktion Ähnliche Sequenz führt zu gleicher Funktion Suche in DB nach ähnlichen bereits annotierten Proteinen Ergebnis Funktionale Klassifikation des Proteins 27
Funktionale Annotation der Proteine (2) Beispiel für funktionale Annotation: 28
Funktionale Annotation der Proteine (3) Versuchsfehler Vielfältige Versuchsmethoden bei experimenteller funktionaler Annotation Viele mögliche Fehler Analysefehler Grad der Ähnlichkeit zwischen Proteinen ist Problem Es kann sein, dass Ähnlichkeiten in wichtigen Regionen nicht vorhanden sind Funktionstransfer ist fehleranfällig 29
Funktionale Annotation der Proteine (4) Propagierte Fehler Riesige Menge an Proteindaten erfordert computerbasierte Annotationen Oft werden Annotationen, welche weiterverwendet werden, nicht als "mutmaßlich" gekennzeichnet Das führt zu propagierten falschen Annotationen Veraltete Daten Probleme, aufgrund des hohen Grades an Datenabhängigkeit Annotationen ändern sich häufig 30
Fehlerraten DNA Sequenz Bestimmung: 0,23% bis 2,58% Strukturelle Annotation des Genoms: 5% bis 30% Protein Sequenz Bestimmung: Nicht bekannt Funktionale Annotation der Proteine: 5% bis 40% 31
Zusammenfassung Datenqualität bei Genomdaten wichtig Genomdaten sind fehlerhaft Bedingt durch den Produktionsprozess und die hohe Datenabhängigkeit Data Cleansing nötig 32