Swiss Low Input Genetics (SLIG): Breeding functional dairy cows for low-input production systems using whole genome sequence data SABRE Treffen 04. Juni 2013 Übersicht Das Projekt Sequenzierung Ziel Umfang Partner Zeitplan Der aktueller Stand 1
Gründe für die Sequenzierung Konventionelle Zuchtwerte Genomisch optimierte Zuchtwerte Sequenz optimierte Zuchtwerte Sequenzdaten ultimativer SNP-Chip Genomische Zuchtwertschätzung mit 15 Millionen anstatt 50 000 SNPs Kausative Genvarianten im Datensatz höhere Sicherheit der genomischen Zuchtwerte SNP-Effekte müssen nicht laufend neu geschätzt werden rasseübergreifende genomische Zuchtwertschätzung Ziel Ziel ist es, eine genomische ZWS zu entwickeln basierend auf Sequenzdaten 2
Projektumfang Dauer - 3 Jahre Kosten - 1.2 Millionen CHF Partner - 5 Partner aus Forschung und Industrie Partner im 1000 Bull Genomes Project 492 Tiere im aktuellen Run > 20 Millionen Varianten (SNP, InDels, CNVs...) Projektpartner Christian Stricker Christine Flury, Fritz Schneider, Heidi Signer-Hasler Rohan Fernando, Dorian Garrick Beat Bapst, Birgit Gredler, Jürg Moll, Urs Schnyder Stefan Felder-Reiche, Fritz Schmitz-Hsu Hans Daetwyler, Ben Hayes Ruedi Fries, Sandra Jansen Marlies Dolezal 3
Jun Jul Aug Sep Okt Nov Dez Jan 14 Feb Mrz Apr Mai Jun Jul Aug Sep Okt Nov Dez Jan 15 Feb Mrz Apr Mai Jun Jul Aug Sep Okt Nov Dez Jan 16 Feb Mrz Apr Mai 05.06.2013 Projektumfang Subprojekt 1 (Stierauswahl) Datenpipeline: Sequenzinfo Genotypen (SNP) Imputation der Sequenz-Genotypen in Trainingstiere Genomeweite Assoziationsstudien Anpassung der Effektschätzungs-Methoden (GenSel) Schätzung von genomische Zuchtwerte anhand von Sequenzinformation Implementierung in der Routine-Zuchtwertschätzung Subprojekt 2 Werkzeug zur Kontrolle von Inzucht Implementierung in der Praxis 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Datenpipeline Sequenz -> Genotypen (SNP) Imputation der Sequenzgenotypen in der Trainingstiere Genomweite Assoziationsstudien Zuchtwertschätzung (Anpassung von GenSel) Implementierung Routine Status quo Genetische Diversität, Werkzeug zur Kontrolle von Inzucht Implementierung Routine 4
Anteil genetische Diversität erklärt durch einzelne Stiere STARBUCK PATRON-ET DURHAM-ET STORM-ET CAVEMAN ENHANCER MASCOT-ET RUDOLPH-ET JONN-ET RIOSTAR JAMES AELPLER JEROME SHOTTLE-ET MOUNTAIN LEADMAN STADEL-ET HANOVERHILL SABASTIAN ET FIRE ORKAN FIRESTAR MOUNTBEECH BLACKSTAR ET SWATCH-ET VERGIL BACCALA-ET LUKE FILOU 05.06.2013 Der aktueller Stand Stierauswahl Ausgewählte BS, BV und OB Stiere Selected BV-BS-OB bulls 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 SI-SF-HO BV-BS-OB 0 Ausgewählte HO SF und SI Stiere Selected SI-SF-HO bulls 5
Aktueller Stand: Sequenzierung TUM / Helmholtz Zentrum Illumina HiSeq2000, Paired-end reads (101bp) FASTA Alignment zu UMD 3.1 mit Burrows-Wheeler-Aligner SAM Indizieren und Sortieren mit Samtools BAM PCR Duplikate markieren mit Picardtools Sehr grosse Datenmengen ca. 28 GB / Datei * 60 Stiere = 1.68 TB Datentransfer aufwendig (mehrere Tage, MD5 Prüfung) Grundgerüst der aktuellen Pipeline Variant Calling (Single / Multisample): Samtools + BCFTools (Li et al., 2009) Software Samtools Samtools + BCFTools BCFTools Samtools Picardtools GATK Beagle GATK Aufgabe Sort and index BAM files Variant calling Filter variants Index Fasta (reference) Create dictionary for GATK Create input file for Beagle Phase haplotypes (unzip files) Convert Beagle output file to VCF GATK (Genome Analysis Toolkit) (McKenna et al., 2010) 6
Rechenzeit Chromosomengrösse (Bp X 10 6 ) 05.06.2013 Rechenzeit: Variant Calling 19.12 h 16.48 h 14.24 h 12.00 h 9.36 h 7.12 h 4.48 h 2.24 h Swiss Fleckvieh Holstein Brown Swiss Original Braunvieh Simmental Red Holstein Schweizer Braunvieh 180 160 140 120 100 80 60 40 20 0.00 h Chromosome 0 Variant Calling: Beispiel BTA24 Original Braunvieh Average Variant Calling (Single* or Multi) Total number of variants Mean variant read depth (DP Tag) Mean quality score (QUAL) (n=7) (n=31) Single Multi Single Multi 164'060 346'462 162'398 456'316 11 75 11 337 112 635 114 806 * Single Sample Calling berechnet als Durchschnitt 7
Ausblick 1. Single-sample vs. Multi-sample variant calling - Anzahl / Qualität von Varianten - Schnittmengen von Varianten (Überlappungen) - Allelfrequenzspektrum 2. Samtools vs. GATK - Anzahl / Qualität von Varianten - Schnittmengen von Varianten (Überlappungen) - Rechenzeit 3. Rassenunterschiede Danke an Team Qualitas... Beat Bapst Madeleine Berweger Andreas Bigler Birgit Gredler Jürg Moll Franz Seefried Urs Schuler Urs Schnyder... und Danke Ihnen für Ihre Aufmerksamkeit Bild: simplyfantasticbooks.com Dieses Projekt wird mitfinanziert von ASR und der Kommission für Technologie und Innovation 8