PR Statistische Genetik und Bioinformatik



Ähnliche Dokumente
Korrelation (II) Korrelation und Kausalität

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Datenexport aus JS - Software

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Zeichen bei Zahlen entschlüsseln

Was meinen die Leute eigentlich mit: Grexit?

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Stellvertretenden Genehmiger verwalten. Tipps & Tricks

Abitur 2007 Mathematik GK Stochastik Aufgabe C1

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

R ist freie Software und kann von der Website.

Biologie I/B: Klassische und molekulare Genetik, molekulare Grundlagen der Entwicklung Theoretische Übungen SS 2014

Statuten in leichter Sprache

Divergenz 1-E1. Ma 2 Lubov Vassilevskaya

Wie lässt sich die Multiplikation von Bruchzahlen im Operatorenmodell und wie im Größenmodell einführen?

Spiel und Spaß im Freien. Arbeitsblat. Arbeitsblatt 1. Zeichnung: Gisela Specht. Diese Vorlage darf für den Unterricht fotokopiert werden.

Geld Verdienen im Internet leicht gemacht

Professionelle Seminare im Bereich MS-Office

W-Rechnung und Statistik für Ingenieure Übung 11

Gimp Kurzanleitung. Offizielle Gimp Seite:

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Gezielt über Folien hinweg springen

Straumann CARES Visual 8.5.1

Wir machen neue Politik für Baden-Württemberg

Professionelle Seminare im Bereich MS-Office

AHVplus D E L E G I E R T E N V E R S A M M L U N G V OM 1 1. M A I Die AHVplus-Varianten. Antrag: Abstimmung.

Bioinformatik: Hype oder Hoffnung?

Webalizer HOWTO. Stand:

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Erstellen und Bearbeiten von Inhalten (Assets)

Fragebogen: Abschlussbefragung

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Anleitung über den Umgang mit Schildern

Die Universität stellt sich vor

Wireless LAN PCMCIA Adapter Installationsanleitung

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Handout 6. Entwicklung von Makros

2D to 3D Technologie

Grundideen der Gentechnik

Leitfaden Internet-Redaktion kursana.de

ClubWebMan Veranstaltungskalender

Patientenumfrage. Was wirklich zählt

Arbeitsblätter. Sinnvolle Finanzberichte. Seite 19

Spieltheorie Kapitel 7, 8 Evolutionary Game Theory Modelling Network Traffic using Game Theory

Repräsentative Umfrage zur Beratungsqualität im deutschen Einzelhandel (Auszug)

28% der Schweizer sind Single das sind rund 1,5 Millionen Menschen zwischen Jahren

ERSTE SCHRITTE.

Schritt 1. Anmelden. Klicken Sie auf die Schaltfläche Anmelden

Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung

Meinungen zur Altersvorsorge

Widerrufsbelehrung der Free-Linked GmbH. Stand: Juni 2014

Grundsätze für das Online-Marketing der TMB

Darstellungsformen einer Funktion

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

Deutsches Rotes Kreuz. Kopfschmerztagebuch von:

Feiertage in Marvin hinterlegen

News: Aktuelles aus Politik, Wirtschaft und Recht

SUB-ID- VERWALTUNG MIT GPP SETUP-GUIDE FÜR PUBLISHER

Fragebogen ISONORM 9241/110-S

Familie Wiegel. Solarstrom vom eigenen Dach. In Kooperation mit:

Auslotung der Gefühle & Wünsche von Eltern und SchülerInnen zum Schuljahr 2011/2012

dem Vater der Mutter des betreuten Kindes/der betreuten Kinder. Mein Kind/ Meine Kinder wird/werden in der Woche durchschnittlich Stunden betreut.

Animationen erstellen

Anleitung für die Teilnahme an den Platzvergaben "Studio II, Studio IV und Studio VI" im Studiengang Bachelor Architektur SS15

Statistische Thermodynamik I Lösungen zur Serie 1

Projektive Verfahren in der. Bewertung aus Sicht der Befragten

Fortgeschrittene Statistik Logistische Regression

Erfahrungen mit Hartz IV- Empfängern

Die Statistiken von SiMedia

Landes-Arbeits-Gemeinschaft Gemeinsam Leben Gemeinsam Lernen Rheinland-Pfalz e.v.

10.1 Auflösung, Drucken und Scannen

Virtuelle Fotografie (CGI)

Markus Mauritz 4BBW 97/98 BET - Referat. ABC Analyse (Kostenschwerpunktanalyse)

1. Vorbereitung Installation des USB Serial Converter Installation des USB Serial Port Installation des Druckertreibers...

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Sicherheit für Windows Vista Teil 2: Windows Tool zum Entfernen bösartiger Software

So geht s Schritt-für-Schritt-Anleitung

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

FRAGE 39. Gründe, aus denen die Rechte von Patentinhabern beschränkt werden können

Anleitung zur Installation und Verwendung von eclipseuml 2.1.0

EÜR contra Bilanzierung

Pflege Ihrer implantatgetragenen Krone

Grundlagen der Theoretischen Informatik, SoSe 2008

Artikel Schnittstelle über CSV

Können Hunde lächeln?

Die Post hat eine Umfrage gemacht

Office 365 ProPlus für Studierende

6. DNA -Bakteriengenetik

Minor in Biologie (Stufe Bachelor)

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

teischl.com Software Design & Services e.u. office@teischl.com

D a s P r i n z i p V o r s p r u n g. Anleitung. - & SMS-Versand mit SSL (ab CHARLY 8.11 Windows)

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Begrüßung mit Schwung und Begeisterung. Die Teilnehmer müssen spüren, dass die Aufgabe Spaß macht.

Genetisch... Unterschied. DNA zu... 99,9% identisch

Wie erleben Verbraucher IGeL? Ergebnisse einer Umfrage der Verbraucherzentralen

CTI SYSTEMS S.A. CTI SYSTEMS S.A. 12, op der Sang. Fax: +352/ L Lentzweiler. G.D.

trivum Multiroom System Konfigurations- Anleitung Erstellen eines RS232 Protokolls am Bespiel eines Marantz SR7005

Transkript:

PR Statistische Genetik und Bioinformatik Johanna Bertl Institut für Statistik und OR, Universität Wien Oskar-Morgenstern-Platz 1/6.344, 1090 Wien, Tel.: 01-4277-38617 johanna.bertl@univie.ac.at, homepage.univie.ac.at/johanna.bertl Sprechstunde: Fr., 11 12 Uhr SoSe 2014 Inhalte Grundlagen der Populationsgenetik, der Coalescent-Prozess, statistische Inferenz in der Populationsgenetik, Approximate Bayesian Computation (ABC) Empfohlene Grundlagen Inferenzstatistik Lineare Modelle und Erweiterungen (insbes. multivariate) Statistische Software & Computational Statistics UK Statistische Genetik und Bioinformatik Ablauf/Modus 1. Wiederholung UK Statistische Genetik und Bioinformatik, kurze Einführung 2. Projekt (auf Deutsch oder Englisch) Referat (40%) Handout (Projekte 1 und 2, max. 5 Seiten, vorher mit mir besprechen) oder Bericht (Projekte 3 6, max. 10 Seiten exkl. Programmcode, Abgabe max. 1 Woche nach dem Referat) (40%) 3. Mitarbeit (20%) 1

Notenschlüssel 0 50% 5 50.5 62% 4 62.5 75% 3 75.5 82% 2 82.5 100% 1 Termine 6.3. Vorbesprechung, Quiz, Einführung 13.3. 20.3. 27.3. Projekt 1 3.4. Projekt 2 10.4. Parameterschätzung im Coalescent-Prozess, ABC, Coalescent-Simulation mit ms [Hudson, 2002] 17.4. Osterferien 24.4. Osterferien 1.5. Staatsfeiertag 8.5. Projekt 4 15.5. Projekt 5 22.5. Projekt 6 29.5. Christi Himmelfahrt 5.6. Projekt 3 12.6. 19.6. Fronleichnam 16.6. 2

Quiz 1. Definieren Sie Phänotyp und Genotyp eines Organismus. 2. Wodurch wird der Phänotyp eines Organismus bestimmt? 3. Was ist ein Gen? 4. Wieviele Gene bestimmen ein Merkmal des Organismus? 5. Was bedeuten diploid und haploid? 6. Was ist Rekombination bzw. crossing-over? 3

Projekt 1: Der Coalescent-Prozess Literatur: Nordborg [2007] Aufgabe: Stellen Sie den Artikel vor. Projekt 2: Mutationsmodelle und Simulation von DNA Daten Literatur: Kapitel 2 aus Hein et al. [2005] Stellen Sie das Kapitel vor. Projekt 3: Parameterschätzung mit Approximate Bayesian Computation - Summary Statistics Literatur: Joyce and Marjoram [2008] ms und R 1. Beschreiben Sie die drei ABC Algorithmen aus Kapitel 1. 2. Definieren Sie suffiziente Statistiken und beschreiben Sie das Konzept der approximativen Suffizienz aus Joyce and Marjoram [2008]. 3. Warum ist es oft nicht sinnvoll, hoch-dimensionale Summary Statistiken (bzw. die Daten selbst) zu verwenden, obwohl diese am meisten Information enthalten? 4. Betrachten Sie das einfachste Coalescent-Modell (konstante Populationsgröße, keine Populationsstruktur, keine Rekombination) mit einem einzigen Parameter, θ, der skalierten Mutationsrate. Simulieren Sie einen Datensatz bestehend aus 50 Sequenzen (50 haploide oder 25 diploide Individuen) unter θ = 10 und betrachten Sie diesen als Ihren beobachteten Datensatz. 5. Verwenden Sie als a priori Verteilung die Gleichverteilung auf [5, 20] und schätzen Sie die a posterori Verteilung mittels ABC. Verwenden Sie dabei drei verschiedene Teilmengen der Summary Statistiken aus Beispiel 2 (Kapitel 3.2) und vergleichen Sie die Ergebnisse. 4

Projekt 4: Parameterschätzung mit Approximate Bayesian Computation - Methoden und Software Literatur: Csilléry et al. [2012] R package abc 1. Beschreiben Sie die Funktion abc des Packages und die beiden ABC Algorithmen rejection und loclinear inklusive der Option hcorr. 2. Wählen Sie eine Verteilung mit einem Parameter, dessen konjugierte Verteilung bekannt ist, und für den es eine suffiziente Statistik gibt. Simulieren Sie einen Datensatz unter dieser Verteilung mit einem von Ihnen festgelegten Parameterwert und schätzen Sie die a posteriori Verteilung des Parameters mit den beiden ABC-Algorithmen. Variieren Sie dabei den Anteil der akzeptierten Simulationen und weitere Parameter. Vergleichen Sie die Ergebnisse mit der exakten a posteriori Verteilung. 3. Die Funktion abc erzeugt ein Objekt der Klasse abc. Beschreiben Sie die Ergebnisse der darauf angewandten Funktionen print, summary, hist und plot. Projekt 5: Isolation-by-distance und Hauptkomponentenanalyse Literatur: Novembre and Stephens [2008] Daten: Ausschnitt aus dem Human Genome Diversity Project (HGDP) R 1. Beschreiben Sie kurz die Daten. 2. Führen Sie eine Hauptkomponentenanalyse der SNPs durch (z. B. mit der R-Funktion prcomp). Beachten Sie: Ein SNP entspricht einer Variable. Wie gehen Sie mit fehlenden Werten um? 3. Visualisieren und interpretieren Sie die Ergebnisse der Hauptkomponentenanalyse, insbesondere die 1. und 2. Hauptkomponente und die geographische Information. 5

4. Was bedeutet isolation-by-distance? Gibt es isolation-by-distance-muster in Ihren Resultaten? Welche anderen evolutionären Prozesse könnten die Ergebnisse der Hauptkomponentenanalyse beeinflusst haben? Projekt 6: Schätzen der Rekombinationsrate Literatur: Wall [2000] Daten: SNP-Daten des menschlichen Gens Lymphotoxin-α (LTA) ms und R 1. Warum ist die Rekombinationsrate besonders schwierig zu schätzen? 2. Beschreiben Sie die Maximum-Likelihood-Methode von Wall. Was hat diese Methode mit ABC zu tun? Welches Mutationsmodell wird angenommen? 3. Beschreiben Sie kurz die Daten. 4. Schätzen Sie die Rekombinationsrate entweder für die afrikanischen oder die europäischen Daten mit dem Schätzer C H (fixieren Sie dabei die Anzahl der segregating sites, S, und verwenden Sie das einfachstmögliche Coalescent-Modell mit konstanter Populationsgröße und ohne Populationsstruktur). Um den Rechenaufwand zu verringern, betrachten Sie nur die Werte C = 0, 2, 4,..., 50. Literatur Katalin Csilléry, Olivier François, and Michael G. B. Blum. abc: an R package for approximate Bayesian computation (ABC). Methods in Ecology and Evolution, 3(3):475 479, 2012. ISSN 2041-210X. doi: 10.1111/j.2041-210X.2011.00179.x. URL http://dx.doi.org/10.1111/j.2041-210x.2011.00179.x. Jotun Hein, Mikkel H. Schierup, and Carsten Wiuf. Gene Genealogies, Variation and Evolution. Oxford University Press, 2005. Richard R. Hudson. Generating samples under a Wright-Fisher neutral model of genetic variation. Bioinformatics, 18:337 338, 2002. Paul Joyce and Paul Marjoram. Approximately sufficient statistics and Bayesian computation. Statistical Applications in Genetics and Molecular Biology, 7 (1), 2008. 6

Magnus Nordborg. Coalescent theory. In David J. Balding, Martin Bishop, and Chris Cannings, editors, Handbook of Statistical Genetics, volume 2, pages 843 877. John Wiley & Sons, third edition, 2007. John Novembre and Matthew Stephens. Interpreting principal component analyses of spatial population genetic variation. Nature Genetics, 10(5):646 649, 2008. Jeffrey D. Wall. A comparison of estimators of the population recombination rate. Molecular Biology and Evolution, 17(1):156 163, 2000. URL http://mbe.oxfordjournals.org/content/17/1/156.abstract. 7