Assessing statistical significance in genome wide association studies

Ähnliche Dokumente
Research Collection. Backward stochastic differential equations with super-quadratic growth. Doctoral Thesis. ETH Library. Author(s): Bao, Xiaobo

Interactive centerline finding in complex tubular structures

Group signature schemes and payment systems based on the discrete logarithm problem

Algorithms for analyzing signals in DNA Applications to transcription and translation

Research Collection. Security econometrics The dynamics of (in)security. Doctoral Thesis. ETH Library. Author(s): Frei, Stefan. Publication Date: 2009

Simulation of Power System Dynamics using Dynamic Phasor Models

Application-specific processor for MIMO-OFDM software-defined radio

Asymptotic properties of diffusions in random environment

Research Collection. Human Cu,Zn-superoxide dismutase preparation of the apo-protein. Calorimetriy and pulse radiolysis. Doctoral Thesis.

Computer-gestützter Entwurf von absatzweise arbeitenden chemischen Mehrproduktanlagen

Research Collection. Offset gate field effect transistors with high drain breakdown potential and low Miller feedback capacitance.

Key indicators in organizational health development individual and organizational variables for health-promoting change

Research Collection. Doctoral Thesis. ETH Library. Author(s): Tschirky, Hugo. Publication Date: 1979

Research Collection. Isolation of low molecular weight taste peptides from Vacherin Mont d'or cheese. Doctoral Thesis. ETH Library

Research Collection. Real-time multi-object tracking. Doctoral Thesis. ETH Library. Author(s): Roth, Daniel Eugen. Publication Date: 2010

Stress-related problems in process simulation

Research Collection. Control strategies for balancing of series and parallel connected IGBT/diode modules. Doctoral Thesis.

Test automation for database management systems and database applications

Dynamic Robot Architecture for Robust Realtime Computer Vision

ANALYSIS AND SIMULATION OF DISTRIBUTION GRIDS WITH PHOTOVOLTAICS

Efficient Design Space Exploration for Embedded Systems

Methods to assess and manage security in interconnected electrical power systems

Globale Symmetrie von stochastischen Teilchenbewegungen mit lokal symmetrischer Interaktion

On the nature of pleiotropy and its role for adaptation

Die Bedeutung neurowissenschaftlicher Erkenntnisse für die Werbung (German Edition)

Binary adder architectures for cell-based VLSI and their synthesis

Hydrodynamics and mass transfer in a reciprocating plate extraction column

PONS DIE DREI??? FRAGEZEICHEN, ARCTIC ADVENTURE: ENGLISCH LERNEN MIT JUSTUS, PETER UND BOB

Research Collection. Improving geometric calibration methods for multi-axis machining centers by examining error interdependencies effects

Research Collection. Zur Chemie der α-aminonitrile: γ,{delta}-dehydroleucin-nitril. Doctoral Thesis. ETH Library. Author(s): Buser, Hans-Peter

Ein Stern in dunkler Nacht Die schoensten Weihnachtsgeschichten. Click here if your download doesn"t start automatically

Large-Scale Mining and Retrieval of Visual Data in a Multimodal Context

VGM. VGM information. HAMBURG SÜD VGM WEB PORTAL USER GUIDE June 2016

Group and Session Management for Collaborative Applications

DIE NEUORGANISATION IM BEREICH DES SGB II AUSWIRKUNGEN AUF DIE ZUSAMMENARBEIT VON BUND LNDERN UND KOMMUNEN

Quantitative IR-Laserchemie mono- und bichromophorer Fluorbutane Geschwindigkeitskonstanten, Isotopen-Trennung und Modenselektivität

Research Collection. Doctoral Thesis. ETH Library. Author(s): Greber, Basil Johannes. Publication Date: 2013

Wie man heute die Liebe fürs Leben findet

Killy Literaturlexikon: Autoren Und Werke Des Deutschsprachigen Kulturraumes 2., Vollstandig Uberarbeitete Auflage (German Edition)

Characterization of the Endosomal Protein Vps13 as a suppressor of the ER-Mitochondria Encounter Structure

The Navier-Stokes equations on polygonal domains with mixed boundary conditions theory and approximation

Research Collection. Doctoral Thesis. ETH Library. Author(s): Grundy, Anthony Nicholas. Publication Date: 2004

HIR Method & Tools for Fit Gap analysis

VGM. VGM information. HAMBURG SÜD VGM WEB PORTAL - USER GUIDE June 2016

Killy Literaturlexikon: Autoren Und Werke Des Deutschsprachigen Kulturraumes 2., Vollstandig Uberarbeitete Auflage (German Edition)

E.T.A. Hoffmann: Kindermärchen - "Nussknacker und Mausekönig": Abhandlung einer These (German Edition)

Martin Luther. Click here if your download doesn"t start automatically

An analysis of three variants of forward guidance contracts

Research Collection. Doctoral Thesis. ETH Library. Author(s): Bruderer Enzler, Heidi. Publication Date: 2015

Introduction FEM, 1D-Example

Konkret - der Ratgeber: Die besten Tipps zu Internet, Handy und Co. (German Edition)

Customer-specific software for autonomous driving and driver assistance (ADAS)

Tackling OS Complexity with Declarative Techniques

Selbstbild vs. Fremdbild. Selbst- und Fremdwahrnehmung des Individuums (German Edition)

Multiscale modeling and simulation of fullerenes in liquids

Travel behaviour modelling for scenarios with exceptional events Methods and implementations

CNC ZUR STEUERUNG VON WERKZEUGMASCHINEN (GERMAN EDITION) BY TIM ROHR

Research Collection. Doctoral Thesis. ETH Library. Author(s): Tschudi-Rein, Kathrin Ruth. Publication Date: 1988

Im Fluss der Zeit: Gedanken beim Älterwerden (HERDER spektrum) (German Edition)

Research Collection. Magnetism in 30 picoseconds and more. Doctoral Thesis. ETH Library. Author(s): Vaterlaus, Andreas. Publication Date: 1991

Funktion der Mindestreserve im Bezug auf die Schlüsselzinssätze der EZB (German Edition)

Jägersprache, Wildkunde und Begriffe aus der Jagd: Schwerpunkt Jägerprüfung Rotwild, Rehwild, Gamswild, Steinwild, Muffelwild (German Edition)

Sterilisation von stückigen Lebensmitteln mit Mikrowellen

Research Collection. Medical Risk Communication and Decision Making: Results of Eye Tracking Studies. Doctoral Thesis. ETH Library

A study on computer-aided design of PIN-diode phase modulators at microwave frequencies

Walter Buchmayr Ges.m.b.H.

How to get Veränderung: Krisen meistern, Ängste loslassen, das Leben lieben! (German Edition)

Hardwarekonfiguration an einer Siemens S7-300er Steuerung vornehmen (Unterweisung Elektriker / - in) (German Edition)

Research Collection. The role of type I interferon signaling on T cells during acute viral infections. Doctoral Thesis.

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

Volksgenossinnen: Frauen in der NS- Volksgemeinschaft (Beiträge zur Geschichte des Nationalsozialismus) (German Edition)

Die "Badstuben" im Fuggerhaus zu Augsburg

Shear band propagation in soils and dynamics of tsunamigenic landslides

HUMANGENETIK IN DER WELT VON HEUTE: 12 SALZBURGER VORLESUNGEN (GERMAN EDITION) BY FRIEDRICH VOGEL

Zurich Open Repository and Archive. Anatomie von Kommunikationsrollen. Methoden zur Identifizierung von Akteursrollen in gerichteten Netzwerken

Design of adaptive structures with piezoelectric materials

Schöpfung als Thema des Religionsunterrichts in der Sekundarstufe II (German Edition)

Strategies for Random Contract-Based Testing

The measurement of the oxygenation status of the newborn infant

Die kreative Manufaktur - Naturseifen zum Verschenken: Pflegende Seifen selbst herstellen (German Edition)

DAS ERSTE MAL UND IMMER WIEDER. ERWEITERTE SONDERAUSGABE BY LISA MOOS

Tote Hose: Worüber Männer schweigen. Ein Tagebuch (German Edition)

Fmoc-kompatible Festphasensynthese von C-terminalen Peptid- Thioestern

Informationstechnische Unterstützung der frühen Phasen der Produkt-Innovation

Flow - der Weg zum Glück: Der Entdecker des Flow-Prinzips erklärt seine Lebensphilosophie (HERDER spektrum) (German Edition)

Wer bin ich - und wenn ja wie viele?: Eine philosophische Reise. Click here if your download doesn"t start automatically

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

Optimal Energy Management and Component Sizing of a Stand-Alone Building Energy System

Cationic Cell Penetrating Oligoprolines and the Effect of Preorganized Charge Display

Improving inter-organizational knowledge transfer to gain development project success

Kursbuch Naturheilverfahren: Curriculum der Weiterbildung zur Erlangung der Zusatzbezeichnung Naturheilverfahren (German Edition)

Kurze Geschichten fuer Kinder und auch fuer Solche, welche die Kinder lieb haben (German Edition)

Die einfachste Diät der Welt: Das Plus-Minus- Prinzip (GU Reihe Einzeltitel)

Biometric authentication system using human gait

Nießbrauch- und Wohnrechtsverträge richtig abschließen (German Edition)

Aus FanLiebe zu Tokio Hotel: von Fans fã¼r Fans und ihre Band

Handbuch der therapeutischen Seelsorge: Die Seelsorge-Praxis / Gesprächsführung in der Seelsorge (German Edition)

Tourismus in ländlichen Räumen der Entwicklungsländer: Chancen und Risiken (German Edition)

Tube Analyzer LogViewer 2.3

Transkript:

Research Collection Doctoral Thesis Assessing statistical significance in genome wide association studies Author(s): Buzdugan, Laura Publication Date: 2016 Permanent Link: https://doi.org/10.3929/ethz-a-010808029 Rights / License: In Copyright - Non-Commercial Use Permitted This page was generated automatically upon download from the ETH Zurich Research Collection. For more information please consult the Terms of use. ETH Library

DISS. ETH NO. 23868 ASSESSING STATISTICAL SIGNIFICANCE IN GENOME WIDE ASSOCIATION STUDIES A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH (Dr. sc. ETH Zurich) presented by LAURA MONIKA BUZDUGAN Master of Science, ETH Zurich born on 13.06.1988 citizen of Romania accepted on the recommendation of Prof. Dr. Peter Bühlmann, examiner Prof. Dr. Ernst Fehr, co-examiner Dr. Markus Kalisch, co-examiner 2016

Abstract Genome wide association studies (GWAS) hold the promise of unlocking the unknown genetic background of complex diseases, as well as a variety of other human characteristics, from height all the way to behavioral traits, such as cognitive abilities, personality and social attitudes. GWAS rely on the underlying assumption that common diseases and traits, also referred to as phenotypes, are associated with common types of variation in the human genome. The most studied variation is the single nucleotide polymorphism (SNP), which represents a single base change at a specific location in the genome. Such associations can be detected by studying the correlation between the phenotype and the SNPs. These studies also use an important property of SNPs, which is that variants located in close proximity to each other are correlated. This allows researchers to genotype only a subset of all the SNPs, while still reasonably describing the entire set. Finally, GWAS are a hypothesis free method, meaning that all variants are examined for correlation with the trait or disease of interest. Such an approach offers the advantage of possibly shedding light on previously unsuspected biology. In this thesis we have developed a new method for statistical inference in GWAS. Our procedure exploits the specific characteristics of such data to maximize power and reduce the multiple testing burden. Because GWAS use a large number of SNPs which are tested individually against the phenotype, a very high multiple testing correction has to be applied. We propose a model that includes all the SNPs, combined with a data driven hierarchical testing. The SNPs are hierarchically

viii Abstract clustered into a tree on which the testing is done, starting at the top and sequentially descending to lower levels. The tested groups of SNPs are continuously refined until a significant effect cannot be ascertained anymore. This refinement is completely data driven, and it depends on how strong the signal in the data is. Our method is compared to other existing procedures, and is shown to exhibit similar performance in terms of power, while having a much stronger control of the false positives. Finally, it is also successfully validated on the Wellcome Trust Case Control Consortium (WTCCC) data. Furthermore, we released our method as a Bioconductor package, so it can be easily accessed and used by the scientific community. We provide a detailed description of how such an analysis can be performed in practice as well as the specific requirements. The package allows users to go beyond analyzing a single dataset, by providing methods to aggregate multiple datasets in a variety of ways. This is an important extension, because often studies measure multiple (correlated) phenotypes or use datasets from different sources. We show that such an aggregate analysis is in most cases superior to simply pooling the different datasets together, by controlling the error rate and also improving the power of the study.

Zusammenfassung Genomweite Assoziationsstudien (GWAS) versprechen Einblick in unbekannte genetische Hintergründe von komplexen Krankheiten, sowie in eine Vielzahl von anderen menschlichen Eigenschaften, von der Körpergrösse bis hin zu Verhaltensmerkmalen wie kognitiven Fähigkeiten, Persönlichkeitsmerkmalen oder sozialen Haltungen. GWAS beruhen auf der Annahme, dass gewöhnliche Krankheiten und Eigenschaften, auch Phä-notypen genannt, mit gängigen Variationen im menschlichen Genom assoziiert sind. Die meist untersuchte Variante ist die Veränderung eines einzelnen Basenpaares der DNA, auch SNP genannt, für Single Nucleotide Polymorphism. Solche Assoziierungen können durch Untersuchung der Korrelation zwischen dem Phänotyp und den SNPs gefunden werden. Diese Untersuchungen benutzen auch eine wichtige Eigenschaft von SNPs, nämlich dass Varianten, welche in unmittelbarer Nähe liegen, miteinander korreliert sind. Dies ermöglicht es den Forschern, nur eine Teilmenge aller SNPs zu bestimmen, während es immer noch möglich ist, die gesamt Menge verhältnismässig gut zu beschreiben. Schliesslich sind GWAS eine hypothesenfreie Methode, was bedeutet, dass die Korrelationen zwischen allen Varianten und der betreffenden Eigenschaft oder Krankheit geprüft werden. Ein solcher Ansatz bietet den Vorteil, eventuell Einblick in zuvor unverdächtige biologische Mechanismen zu gewähren. In dieser Arbeit haben wir eine neue Methode für die statistische Inferenz in GWAS entwickelt. Unser Verfahren nutzt die besonderen Merkmale solcher Daten, um die statistische Aussagekraft zu maximieren

x Zusammenfassung und den Aufwand multiplen Testens zu verringern. Weil die GWAS eine grosse Anzahl von SNPs verwenden, welche einzeln gegen die Phänotypen getestet werden, muss eine sehr hohe Korrektur für multiples Testen angewendet werden. Wir schlagen ein Modell vor, welches alle SN- Ps enthält, kombiniert mit datengestütztem hierarchischem Testen. Die SNPs sind hierarchisch in einer Baumstruktur gruppiert, auf der das Testen durchgeführt wird, beginnend an der Spitze und dann schrittweise auf ein niedrigeres Niveau absteigend. Die getesteten Gruppen von SNPs werden kontinuierlich verfeinert, bis kein signifikanter Effekt mehr zu erkennen ist. Diese Verfeinerung ist vollständig datengestützt, und sie hängt nur davon ab, wie stark das Signal in den Daten ist. Unsere Methode wird mit anderen bestehenden Verfahren verglichen und zeigt, bei ähnlicher Leistung in Bezug auf statistische Aussagekraft, eine deutlich stärkere Kontrolle der Fehlmeldungen. Schliesslich wird sie auch erfolgreich mit den Daten des Wellcome Trust Fall Control Consortium (WTCCC) validiert. Darüber hinaus haben wir unsere Methode als Bioconductor-Paket veröffentlicht, so dass es leicht von der wissenschaftlichen Gemeinschaft genutzt werden kann. Wir präsentieren eine detaillierte Beschreibung, wie eine solche Analyse durchgeführt werden kann, sowie der spezifischen Anforderungen. Das Paket ermöglicht es Benutzern, auch über die Analyse eines einzelnen Datensatzes hinaus zu gehen, indem wir Methoden bereitstellen, um mehrere Datensätze in einer Vielzahl von Kombinationen zu aggregieren. Dies ist eine wichtige Erweiterung, da Studien oft mehrere (korrelierte) Phänotypen messen oder Datensätze aus verschiedenen Quellen verwenden. Wir zeigen, dass eine solche Aggregat-Analyse in den meisten Fällen einer einfachen Bündelung der verschiedenen Datensätze überlegen ist, sowohl durch die Kontrolle der Fehlerrate als auch durch eine verbesserte Aussagekraft der Studien.