Assessing statistical significance in genome wide association studies

Research Collection Doctoral Thesis Assessing statistical significance in genome wide association studies Author(s): Buzdugan, Laura Publication Date: 2016 Permanent Link: https://doi.org/10.3929/ethz-a-010808029 Rights / License: In Copyright - Non-Commercial Use Permitted This page was generated automatically upon download from the ETH Zurich Research Collection. For more information please consult the Terms of use. ETH Library

DISS. ETH NO. 23868 ASSESSING STATISTICAL SIGNIFICANCE IN GENOME WIDE ASSOCIATION STUDIES A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH (Dr. sc. ETH Zurich) presented by LAURA MONIKA BUZDUGAN Master of Science, ETH Zurich born on 13.06.1988 citizen of Romania accepted on the recommendation of Prof. Dr. Peter Bühlmann, examiner Prof. Dr. Ernst Fehr, co-examiner Dr. Markus Kalisch, co-examiner 2016

Abstract Genome wide association studies (GWAS) hold the promise of unlocking the unknown genetic background of complex diseases, as well as a variety of other human characteristics, from height all the way to behavioral traits, such as cognitive abilities, personality and social attitudes. GWAS rely on the underlying assumption that common diseases and traits, also referred to as phenotypes, are associated with common types of variation in the human genome. The most studied variation is the single nucleotide polymorphism (SNP), which represents a single base change at a specific location in the genome. Such associations can be detected by studying the correlation between the phenotype and the SNPs. These studies also use an important property of SNPs, which is that variants located in close proximity to each other are correlated. This allows researchers to genotype only a subset of all the SNPs, while still reasonably describing the entire set. Finally, GWAS are a hypothesis free method, meaning that all variants are examined for correlation with the trait or disease of interest. Such an approach offers the advantage of possibly shedding light on previously unsuspected biology. In this thesis we have developed a new method for statistical inference in GWAS. Our procedure exploits the specific characteristics of such data to maximize power and reduce the multiple testing burden. Because GWAS use a large number of SNPs which are tested individually against the phenotype, a very high multiple testing correction has to be applied. We propose a model that includes all the SNPs, combined with a data driven hierarchical testing. The SNPs are hierarchically

viii Abstract clustered into a tree on which the testing is done, starting at the top and sequentially descending to lower levels. The tested groups of SNPs are continuously refined until a significant effect cannot be ascertained anymore. This refinement is completely data driven, and it depends on how strong the signal in the data is. Our method is compared to other existing procedures, and is shown to exhibit similar performance in terms of power, while having a much stronger control of the false positives. Finally, it is also successfully validated on the Wellcome Trust Case Control Consortium (WTCCC) data. Furthermore, we released our method as a Bioconductor package, so it can be easily accessed and used by the scientific community. We provide a detailed description of how such an analysis can be performed in practice as well as the specific requirements. The package allows users to go beyond analyzing a single dataset, by providing methods to aggregate multiple datasets in a variety of ways. This is an important extension, because often studies measure multiple (correlated) phenotypes or use datasets from different sources. We show that such an aggregate analysis is in most cases superior to simply pooling the different datasets together, by controlling the error rate and also improving the power of the study.

Zusammenfassung Genomweite Assoziationsstudien (GWAS) versprechen Einblick in unbekannte genetische Hintergründe von komplexen Krankheiten, sowie in eine Vielzahl von anderen menschlichen Eigenschaften, von der Körpergrösse bis hin zu Verhaltensmerkmalen wie kognitiven Fähigkeiten, Persönlichkeitsmerkmalen oder sozialen Haltungen. GWAS beruhen auf der Annahme, dass gewöhnliche Krankheiten und Eigenschaften, auch Phä-notypen genannt, mit gängigen Variationen im menschlichen Genom assoziiert sind. Die meist untersuchte Variante ist die Veränderung eines einzelnen Basenpaares der DNA, auch SNP genannt, für Single Nucleotide Polymorphism. Solche Assoziierungen können durch Untersuchung der Korrelation zwischen dem Phänotyp und den SNPs gefunden werden. Diese Untersuchungen benutzen auch eine wichtige Eigenschaft von SNPs, nämlich dass Varianten, welche in unmittelbarer Nähe liegen, miteinander korreliert sind. Dies ermöglicht es den Forschern, nur eine Teilmenge aller SNPs zu bestimmen, während es immer noch möglich ist, die gesamt Menge verhältnismässig gut zu beschreiben. Schliesslich sind GWAS eine hypothesenfreie Methode, was bedeutet, dass die Korrelationen zwischen allen Varianten und der betreffenden Eigenschaft oder Krankheit geprüft werden. Ein solcher Ansatz bietet den Vorteil, eventuell Einblick in zuvor unverdächtige biologische Mechanismen zu gewähren. In dieser Arbeit haben wir eine neue Methode für die statistische Inferenz in GWAS entwickelt. Unser Verfahren nutzt die besonderen Merkmale solcher Daten, um die statistische Aussagekraft zu maximieren

x Zusammenfassung und den Aufwand multiplen Testens zu verringern. Weil die GWAS eine grosse Anzahl von SNPs verwenden, welche einzeln gegen die Phänotypen getestet werden, muss eine sehr hohe Korrektur für multiples Testen angewendet werden. Wir schlagen ein Modell vor, welches alle SN- Ps enthält, kombiniert mit datengestütztem hierarchischem Testen. Die SNPs sind hierarchisch in einer Baumstruktur gruppiert, auf der das Testen durchgeführt wird, beginnend an der Spitze und dann schrittweise auf ein niedrigeres Niveau absteigend. Die getesteten Gruppen von SNPs werden kontinuierlich verfeinert, bis kein signifikanter Effekt mehr zu erkennen ist. Diese Verfeinerung ist vollständig datengestützt, und sie hängt nur davon ab, wie stark das Signal in den Daten ist. Unsere Methode wird mit anderen bestehenden Verfahren verglichen und zeigt, bei ähnlicher Leistung in Bezug auf statistische Aussagekraft, eine deutlich stärkere Kontrolle der Fehlmeldungen. Schliesslich wird sie auch erfolgreich mit den Daten des Wellcome Trust Fall Control Consortium (WTCCC) validiert. Darüber hinaus haben wir unsere Methode als Bioconductor-Paket veröffentlicht, so dass es leicht von der wissenschaftlichen Gemeinschaft genutzt werden kann. Wir präsentieren eine detaillierte Beschreibung, wie eine solche Analyse durchgeführt werden kann, sowie der spezifischen Anforderungen. Das Paket ermöglicht es Benutzern, auch über die Analyse eines einzelnen Datensatzes hinaus zu gehen, indem wir Methoden bereitstellen, um mehrere Datensätze in einer Vielzahl von Kombinationen zu aggregieren. Dies ist eine wichtige Erweiterung, da Studien oft mehrere (korrelierte) Phänotypen messen oder Datensätze aus verschiedenen Quellen verwenden. Wir zeigen, dass eine solche Aggregat-Analyse in den meisten Fällen einer einfachen Bündelung der verschiedenen Datensätze überlegen ist, sowohl durch die Kontrolle der Fehlerrate als auch durch eine verbesserte Aussagekraft der Studien.