oqtans: Oqtans: Reproduzierbare, quantitative Transkriptom- Auswertung, auch in der Cloud Sebastian J. Schultheiss sjs@computomics.com Computomics GmbH & Co. KG und Friedrich Miescher Laboratory of the Max Planck Society, Tübingen, Germany! Präsentiert bei der Sommertagung 2014 computomics molecular data analysis c oqtans online quantitative transcript analysis
DNA-Sequenzierung Kosten pro Genom- sequenzierung (Mensch) in US-Dollar $ $ 3 Mrd. 1.000 2000 2014
DNA-Sequenzierung Kosten pro Genom- sequenzierung (Mensch) in US-Dollar Genomgröße in DNA-Basen $ $ 3 Mrd. 1.000 2000 2014 3 Mrd. 17 Mrd. Mensch Weizen
DNA-Sequenzierung Kosten pro Genom- sequenzierung (Mensch) in US-Dollar Genomgröße in DNA-Basen Genom-Kopien pro Zelle $ $ 3 Mrd. 1.000 2000 2014 3 Mrd. 17 Mrd. Mensch Weizen 2 6 Mensch Weizen
Galaxy Werkbank Entwickelt von Penn State and Emory Offene, web-basierte Plattform Datenintensive Biotechnologie-Forschung Verfügbar als öffentlicher Webserver; Download; Cloud J. Goecks et al. 2010 D. Blankenberg et al. 2010 E. Afgan et al. 2010 S. Koskovsky Pond et al. 2009 W. Miller et al. 2007 J. Taylor et al. 2007 D. Blankenberg et al. 2007 M. Giardine et al. 2005
Galaxy Arbeitsweise Persistent (Histories, Parameter, Versionen) Reproduzierbar (Workflows, Pages) Transparent Glaubwürdige Bioinformatik-Analysen J. Goecks et al. 2010 D. Blankenberg et al. 2010 E. Afgan et al. 2010 S. Koskovsky Pond et al. 2009 W. Miller et al. 2007 J. Taylor et al. 2007 D. Blankenberg et al. 2007 M. Giardine et al. 2005
RNAseq für Pflanzentranskriptome
RNAseq Analyse Sequenzieren Mapping Transkripte Quantifizieren Häufige Analyseaufgaben Vergleich zweier Proben (Wildtyp, Mutante) Identifikation neuer Transkripte Lee et al. 2011 Nucleic Acids Res Yamashita et al. 2011 Genome Res Daines et al. 2011 Genome Res Ramani et al. 2010 Genome Res Tang et al. 2011 Nature Methods Grabherr et al. 2011 Nature Biotech Li et al. 2011 Science Gerstein et al. 2010 Science
RNAseq Analyse Sequenzieren Mapping Transkripte Quantifizieren Häufige Probleme Reproduzierbarkeit Verfügbarkeit von Softwareprogrammen Skalierbarkeit
oqtans Open-Source Werkbank für die quantitative Transkriptom- Analyse c oqtans online quantitative transcript analysis Sequenzieren Mapping Transkripte Quantifizieren Basierend auf Galaxy Viele zusätzliche Auswertungsprogramme Techniken basierend auf maschinellen Lernverfahren Alternative Programme
oqtans Galaxy Tools c oqtans online quantitative transcript analysis Sequenzieren Mapping Transkripte Quantifizieren PALMapper* BWA TopHat!! * Entwickelt durch die MLB Rätsch Research Group, FML, Tübingen mtim* SplAdder* ASP* Plus EasySVM, KIRMES and more Trinity Cufflinks GFF Toolkit* rquant* rdiff* Cufflinks/ Cuffdiff DESeq Genesetter* topgo SAFT*
oqtans Transkriptom-Analyseprogramme Sequenzieren PALMapper Read Mapping Transkripte Quantifizieren PALMapper: sehr genauer Read Mapper, der Basenqualität und Spleißstellenvorhersagen verwendet G. Jean et al. 2010 Curr Protoc Bioinformatics
oqtans Transkriptom-Analyseprogramme Sequenzieren Mapping mtim Transcript Prediction Segmentation Quantifizieren mtim: rekonstruiert Exon-Intron Struktur aus Alignments und Spleißstellenvorhersagen SplAdder: fügt Isoformen zu existierender Annotation hinzu, basiert auf Spleißgraph G. Zeller et al. 2013 i.p.
oqtans Transkriptom-Analyseprogramme Sequenzieren Mapping Transkripte Quantification rquant rquant: entfernt systematische Fehler der Sequenzbankherstellung, Sequenziermaschine, des Readmappings Genaue Bestimmung der Transkript- Häufigkeit R. Bohnert & G. Rätsch 2010 Nucleic Acids Res
oqtans Transkriptom-Analyseprogramme Sequenzieren Mapping Transkripte rdiff/deseq Quantification rdiff/deseq: Bestimmt signifikante Unterschiede bei der Transkript/ Genexpression zwischen Proben durch statistische Tests O. Stegle et al. 2010 Nature Preceedings S. Anders and W. Huber 2010 Genome Biology
oqtans Transkriptom-Analyseprogramme Sequenzieren Mapping Transkripte SAFT, Quantification topgo,... SAFT: Das Simple Alignment Filter Tool bestimmt die Alignmentgenauigkeit A. Kahles et al. 2013 i.p.! topgo: Gen-Ontologie Anreicherungsanalyse und Visualisierung!! A. Alexa et al. 2006 Bioinformatics
oqtans Genomannotation Sequenzieren Mapping Transkripte Quantification mgene mgene: Proteincodierende Gene und exprimierte, nichtcodierende Bereiche Spleißstellen, Exons, Introns, Transkripte RGASP-Wettbewerb!! G. Schweikert et al. 2011
oqtans Funktionelle Annotation Sequenzieren Mapping Transkripte Transkriptfunktion Quantification SWISSPROT: Proteinfunktion Pfam: Protein-Domänenfunktion PROVEAN: Schwerwiegende Mutationen ncrna-pipeline
oqtans Ergebnisse c oqtans online quantitative transcript analysis Sequenzieren PALMapper DESeq genesetter A. thaliana Illumina, 78 nt RNA-seq reads Nordamerika (Col-0) (1,2 Millionen) Kanarische Inseln (Can-0) (4,9 Millionen) Gan et al. 2011 Nature
oqtans Genesetter
Cloud Computing Kosten c oqtans online quantitative transcript analysis Sequenzieren! PALMapper DESeq genesetter Verwendeter Computer: 1 XXL Zeit: Quantitative Analyse: < 1 h Kosten bei der Amazon Cloud: ca. $0.82 USD
Intron Positionsgenauigkeit durch Read Alignments 0.90 Sequencing PALMapper TopHat 0.75 0.60 0.68 0.77 544 min 0.45 O. sativa 75 nt RNA-seq reads (24 million) 0.30 0.15 186 min 0.00 F-score Laufzeit
Intron Positionsgenauigkeit durch Read Alignments 0.90 PALMapper mtim 0.75 0.81 Sequencing O. sativa TopHat Cufflinks F-Score 0.60 0.45 0.30 0.58 0.37 75 nt RNA-seq reads (24 million) 0.15 0.00 0.11 Introns Transkripte
Cloud Computing Kosten c oqtans online quantitative transcript analysis Sequenzieren! PALMapper mtim Transkriptfunktion Verwendeter Computer: 20x large-memory Zeit: Quantitative Analyse: 1 h Kosten bei der Amazon Cloud: ca. $7.38 USD
oqtans Verfügbarkeit Open-source Pakete Galaxy Tool Wrapper http://oqtans.org Installation in bestehende Galaxy-Instanz Community Tool Shed http://toolshed.g2.bx.psu.edu/
computomics molecular data analysis Mission Wir erbringen Dienstleistungen für die Analyse von Sequenzdaten und begleiten unsere Kunden vom Experimentdesign bis hin zu komplexen Interpretationen.! Zielkunden Forscher aus Pflanzenbiotechnologie-, Züchtungs- und Saatgutfirmen.! Alleinstellung Validierte Methoden und Qualitätskontrolle Transparent und Reproduzierbar Unabhängig Kundenspezifische Dienstleistung Datensicherheit
oqtans Verfügbarkeit: Cloud Computing Demo Cloudinstanz mit allen oqtans tools http://cloud.oqtans.org AMI bei Amazon Web Services für EC2 Cloudman um beliebig viele Instanzen als Compute Cluster zu starten
oqtans Verfügbarkeit: Cloud Computing
http://oqtans.org Géraldine Jean, Jonas Behr, Regina Bohnert, Philipp Drewe, Nico Görnitz André Kahles, Pramod Mudrakarta,Vipin T. Sreedharan, Georg Zeller, Gunnar Rätsch
oqtans: Oqtans: Reproduzierbare, quantitative Transkriptom- Auswertung, auch in der Cloud Sebastian J. Schultheiss sjs@computomics.com Computomics GmbH & Co. KG und Friedrich Miescher Laboratory of the Max Planck Society, Tübingen, Germany! Präsentiert bei der Sommertagung 2014 computomics molecular data analysis c oqtans online quantitative transcript analysis