PR Statistische Genetik und Bioinformatik

PR Statistische Genetik und Bioinformatik Johanna Bertl Institut für Statistik und OR, Universität Wien Oskar-Morgenstern-Platz 1/6.344, 1090 Wien, Tel.: 01-4277-38617 johanna.bertl@univie.ac.at, homepage.univie.ac.at/johanna.bertl Sprechstunde: Fr., 11 12 Uhr SoSe 2014 Inhalte Grundlagen der Populationsgenetik, der Coalescent-Prozess, statistische Inferenz in der Populationsgenetik, Approximate Bayesian Computation (ABC) Empfohlene Grundlagen Inferenzstatistik Lineare Modelle und Erweiterungen (insbes. multivariate) Statistische Software & Computational Statistics UK Statistische Genetik und Bioinformatik Ablauf/Modus 1. Wiederholung UK Statistische Genetik und Bioinformatik, kurze Einführung 2. Projekt (auf Deutsch oder Englisch) Referat (40%) Handout (Projekte 1 und 2, max. 5 Seiten, vorher mit mir besprechen) oder Bericht (Projekte 3 6, max. 10 Seiten exkl. Programmcode, Abgabe max. 1 Woche nach dem Referat) (40%) 3. Mitarbeit (20%) 1

Notenschlüssel 0 50% 5 50.5 62% 4 62.5 75% 3 75.5 82% 2 82.5 100% 1 Termine 6.3. Vorbesprechung, Quiz, Einführung 13.3. 20.3. 27.3. Projekt 1 3.4. Projekt 2 10.4. Parameterschätzung im Coalescent-Prozess, ABC, Coalescent-Simulation mit ms [Hudson, 2002] 17.4. Osterferien 24.4. Osterferien 1.5. Staatsfeiertag 8.5. Projekt 4 15.5. Projekt 5 22.5. Projekt 6 29.5. Christi Himmelfahrt 5.6. Projekt 3 12.6. 19.6. Fronleichnam 16.6. 2

Quiz 1. Definieren Sie Phänotyp und Genotyp eines Organismus. 2. Wodurch wird der Phänotyp eines Organismus bestimmt? 3. Was ist ein Gen? 4. Wieviele Gene bestimmen ein Merkmal des Organismus? 5. Was bedeuten diploid und haploid? 6. Was ist Rekombination bzw. crossing-over? 3

Projekt 1: Der Coalescent-Prozess Literatur: Nordborg [2007] Aufgabe: Stellen Sie den Artikel vor. Projekt 2: Mutationsmodelle und Simulation von DNA Daten Literatur: Kapitel 2 aus Hein et al. [2005] Stellen Sie das Kapitel vor. Projekt 3: Parameterschätzung mit Approximate Bayesian Computation - Summary Statistics Literatur: Joyce and Marjoram [2008] ms und R 1. Beschreiben Sie die drei ABC Algorithmen aus Kapitel 1. 2. Definieren Sie suffiziente Statistiken und beschreiben Sie das Konzept der approximativen Suffizienz aus Joyce and Marjoram [2008]. 3. Warum ist es oft nicht sinnvoll, hoch-dimensionale Summary Statistiken (bzw. die Daten selbst) zu verwenden, obwohl diese am meisten Information enthalten? 4. Betrachten Sie das einfachste Coalescent-Modell (konstante Populationsgröße, keine Populationsstruktur, keine Rekombination) mit einem einzigen Parameter, θ, der skalierten Mutationsrate. Simulieren Sie einen Datensatz bestehend aus 50 Sequenzen (50 haploide oder 25 diploide Individuen) unter θ = 10 und betrachten Sie diesen als Ihren beobachteten Datensatz. 5. Verwenden Sie als a priori Verteilung die Gleichverteilung auf [5, 20] und schätzen Sie die a posterori Verteilung mittels ABC. Verwenden Sie dabei drei verschiedene Teilmengen der Summary Statistiken aus Beispiel 2 (Kapitel 3.2) und vergleichen Sie die Ergebnisse. 4

Projekt 4: Parameterschätzung mit Approximate Bayesian Computation - Methoden und Software Literatur: Csilléry et al. [2012] R package abc 1. Beschreiben Sie die Funktion abc des Packages und die beiden ABC Algorithmen rejection und loclinear inklusive der Option hcorr. 2. Wählen Sie eine Verteilung mit einem Parameter, dessen konjugierte Verteilung bekannt ist, und für den es eine suffiziente Statistik gibt. Simulieren Sie einen Datensatz unter dieser Verteilung mit einem von Ihnen festgelegten Parameterwert und schätzen Sie die a posteriori Verteilung des Parameters mit den beiden ABC-Algorithmen. Variieren Sie dabei den Anteil der akzeptierten Simulationen und weitere Parameter. Vergleichen Sie die Ergebnisse mit der exakten a posteriori Verteilung. 3. Die Funktion abc erzeugt ein Objekt der Klasse abc. Beschreiben Sie die Ergebnisse der darauf angewandten Funktionen print, summary, hist und plot. Projekt 5: Isolation-by-distance und Hauptkomponentenanalyse Literatur: Novembre and Stephens [2008] Daten: Ausschnitt aus dem Human Genome Diversity Project (HGDP) R 1. Beschreiben Sie kurz die Daten. 2. Führen Sie eine Hauptkomponentenanalyse der SNPs durch (z. B. mit der R-Funktion prcomp). Beachten Sie: Ein SNP entspricht einer Variable. Wie gehen Sie mit fehlenden Werten um? 3. Visualisieren und interpretieren Sie die Ergebnisse der Hauptkomponentenanalyse, insbesondere die 1. und 2. Hauptkomponente und die geographische Information. 5

4. Was bedeutet isolation-by-distance? Gibt es isolation-by-distance-muster in Ihren Resultaten? Welche anderen evolutionären Prozesse könnten die Ergebnisse der Hauptkomponentenanalyse beeinflusst haben? Projekt 6: Schätzen der Rekombinationsrate Literatur: Wall [2000] Daten: SNP-Daten des menschlichen Gens Lymphotoxin-α (LTA) ms und R 1. Warum ist die Rekombinationsrate besonders schwierig zu schätzen? 2. Beschreiben Sie die Maximum-Likelihood-Methode von Wall. Was hat diese Methode mit ABC zu tun? Welches Mutationsmodell wird angenommen? 3. Beschreiben Sie kurz die Daten. 4. Schätzen Sie die Rekombinationsrate entweder für die afrikanischen oder die europäischen Daten mit dem Schätzer C H (fixieren Sie dabei die Anzahl der segregating sites, S, und verwenden Sie das einfachstmögliche Coalescent-Modell mit konstanter Populationsgröße und ohne Populationsstruktur). Um den Rechenaufwand zu verringern, betrachten Sie nur die Werte C = 0, 2, 4,..., 50. Literatur Katalin Csilléry, Olivier François, and Michael G. B. Blum. abc: an R package for approximate Bayesian computation (ABC). Methods in Ecology and Evolution, 3(3):475 479, 2012. ISSN 2041-210X. doi: 10.1111/j.2041-210X.2011.00179.x. URL http://dx.doi.org/10.1111/j.2041-210x.2011.00179.x. Jotun Hein, Mikkel H. Schierup, and Carsten Wiuf. Gene Genealogies, Variation and Evolution. Oxford University Press, 2005. Richard R. Hudson. Generating samples under a Wright-Fisher neutral model of genetic variation. Bioinformatics, 18:337 338, 2002. Paul Joyce and Paul Marjoram. Approximately sufficient statistics and Bayesian computation. Statistical Applications in Genetics and Molecular Biology, 7 (1), 2008. 6

Magnus Nordborg. Coalescent theory. In David J. Balding, Martin Bishop, and Chris Cannings, editors, Handbook of Statistical Genetics, volume 2, pages 843 877. John Wiley & Sons, third edition, 2007. John Novembre and Matthew Stephens. Interpreting principal component analyses of spatial population genetic variation. Nature Genetics, 10(5):646 649, 2008. Jeffrey D. Wall. A comparison of estimators of the population recombination rate. Molecular Biology and Evolution, 17(1):156 163, 2000. URL http://mbe.oxfordjournals.org/content/17/1/156.abstract. 7