Identifizierung von CNVs (copy number variations) Antje Krause TFH Wildau akrause@tfh-wildau.de

Ähnliche Dokumente

Neue DNA Sequenzierungstechnologien im Überblick

Professionelle Seminare im Bereich MS-Office

Homologie und Sequenzähnlichkeit. Prof. Dr. Antje Krause FH Bingen / akrause@fh-bingen.de

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Zeichen bei Zahlen entschlüsseln

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Was ist Sozial-Raum-Orientierung?

Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Professionelle Seminare im Bereich MS-Office

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Programmierkurs Java

Agile Software Development

AUF LETZTER SEITE DIESER ANLEITUNG!!!

Anmerkungen zur Übergangsprüfung

Anleitung für den Zugriff auf Mitgliederdateien der AG-KiM

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

trivum Multiroom System Konfigurations- Anleitung Erstellen eines RS232 Protokolls am Bespiel eines Marantz SR7005

Ein Blick in die Zukunft, Entwicklung neuer Testverfahren zum Nachweis von Salmonellen und Campylobacter. Dr. Janin Stratmann-Selke

Kulturelle Evolution 12

Lichtbrechung an Linsen

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet und

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Tutorial: Homogenitätstest

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

Was ist clevere Altersvorsorge?

Der HIV-Antikörper-Schnelltest aus Sicht des Labormediziners. Dr. Thomas Berg, Berlin

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Theoretische Grundlagen der Informatik

Elternzeit Was ist das?

Mediator 9 - Lernprogramm

Eine Anwendung mit InstantRails 1.7

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Bekommen durch Ansteckung. H Human Beim Menschen. Acquired I D. Schwäche des Immunsystems. Schwäche des Immunsystems.

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Mobile Intranet in Unternehmen

Informationen zum neuen Studmail häufige Fragen

Mathematischer Vorbereitungskurs für Ökonomen

Step by Step Webserver unter Windows Server von Christian Bartl

Platinen mit dem HP CLJ 1600 direkt bedrucken ohne Tonertransferverfahren

Begleittext zum Foliensatz Erbgänge beim Menschen

Es gilt das gesprochene Wort. Anrede

Alle gehören dazu. Vorwort

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

Zwischenablage (Bilder, Texte,...)

BlueEvidence Services in Elexis

Grundbegriffe der Informatik

Anleitung zur Einrichtung einer ODBC Verbindung zu den Übungsdatenbanken

Verbinden. der Firma

Informatik-Sommercamp Mastermind mit dem Android SDK

Anleitung zum Extranet-Portal des BBZ Solothurn-Grenchen

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Auswertung des Fragebogens zum CO2-Fußabdruck

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Fehler und Probleme bei Auswahl und Installation eines Dokumentenmanagement Systems

e-books aus der EBL-Datenbank

2. Negative Dualzahlen darstellen

Leitartikel Weltnachrichten 2 / 2016

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Leichte-Sprache-Bilder

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Fotos verkleinern mit Paint

Die Post hat eine Umfrage gemacht

Lineare Gleichungssysteme

Fotostammtisch-Schaumburg

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

S P E C T R A K T U E L L FREIE WAHL DER KRANKENVERSICHERUNG: SORGENVOLLER BLICK IN DIE ZUKUNFT 8/00. I:\PR-ARTIK\Aktuell00\08\Krank_neu.

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Grundideen der Gentechnik

Einfügen von Bildern innerhalb eines Beitrages

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Das Teamrollenmodell nach Meredith Belbin

Vor- und Nachteile der Kastration

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Was meinen die Leute eigentlich mit: Grexit?

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

10 größten SLA Irrtümer. Seminar: 8663 Service-Level-Agreement. Qualified for the Job

Erfahrungen mit Hartz IV- Empfängern

Konzepte der Informatik

15 Optimales Kodieren

Primzahlen und RSA-Verschlüsselung

Einblicke in das menschliche Erbgut (Genom) am Computer

CTI SYSTEMS S.A. CTI SYSTEMS S.A. 12, op der Sang. Fax: +352/ L Lentzweiler. G.D.

Kapitalerhöhung - Verbuchung

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.

Anleitung: Einrichtung der Fritz!Box 7272 mit VoIP Telefonanschluss

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

COMPUTERIA VOM Wenn man seine Termine am Computer verwaltet hat dies gegenüber einer Agenda oder einem Wandkalender mehrere Vorteile.

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

Transkript:

Identifizierung von CNVs (copy number variations) Antje Krause TFH Wildau akrause@tfh-wildau.de

http://www.eva.mpg.de/genetics/images/chimp_human.jpg Sequenzierung des menschlichen Genoms (2001) Vergleiche zeigen, dass Genome zu 99,9% identisch sind und sich nur in einzelnen Nukleotiden, sogenannten SNPs (Single Nucleotide Polymorphisms) unterscheiden Sequenzierung des Schimpansen-Genoms (2005) Vergleich des menschlichen Genoms und des Schimpansen- Genoms zeigt, dass sie zu 98,8% identisch sind Was macht den Menschen zum Menschen? Was macht den Schimpansen zum Schimpansen?

Bisherige Sichtweise auf das Genom Menschen unterscheiden sich durch kleine Variationen im Genom (SNPs): Person X: Person Y:...CGCTAGGATAGCTCTCTAGGATCGCCTCGATAGAGA......CGCTAGGATAGCTCTCTTGGATCGCCTCGATAGAGA... davon gibt es ca. 10 Mio in der gesamten Menschheit Daneben gibt es große Veränderungen im Karyotyp: z.b. Trisomie21 3Mb im Mikroskop sichtbar http://www.bio-pro.de/de/region/ulm/magazin/01155/index.html

Gibt es noch andere Unterschiede neben SNPs? Bereits bekannt: in krankhaft veränderten Zellen (z.b. Tumorzellen) kommen einzelne Genregionen häufiger vor als in gesunden Zellen Im Vergleich des menschlichen Genoms mit den Genomen verschiedener Menschenaffen (Interspezies-Vergleiche) zeigt sich: dass einzelne Gene in unterschiedlicher Kopienzahl vorliegen können dass auch größere Regionen fehlen können, umorganisiert, umgekehrt bzw. vervielfacht sein können Vergleiche zwischen den Genomen verschiedener (gesunder) Menschen (Intraspezies-Vergleiche) zeigen ähnliche Ergebnisse

Neue Sichtweise auf das Genom Es gibt sehr kleinen Unterschiede auf Nukleotidebene (<1kb) und sehr großen Unterschiede auf Chromosomenebene ( 3Mb) und sogenannte Strukturelle Variationen ( 1kb und <3Mb), die komplette Gene und regulatorische Bereiche enthalten können Dazu gehören: Copy Number Varianten Inversionen Deletionen Duplikationen immer im Vergleich zu einem Referenzgenom

E. Check, "Patchwork people", Nature 437, 1084-1086, 2005

Begriffsklärung Copy Number Variant (CNV): DNA-Segment mit einer Länge > 1kb kommt in variabler Anzahl vor in Bezug auf ein Referenzgenom beinhaltet sowohl Löschungen (Deletionen) als auch Duplikationen (Inversionen werden jedoch nicht dazugerechnet) schließt somatische Umorganisationen aus, z.b. in Tumoren Copy Number Polymorphismus (CNP): wenn > 1% der Population Träger einer Variante ist Large-Scale Copy-Number Variation (LCV): CNVs, die größere Regionen umfassen (>100kb)

Welche Folgen hat das? Kann dramatischen Einfluß auf Stoffwechsel haben: Löschen einer DNA-Region kann zum Fehlen essentieller Gene führen Extrakopien eines Gens können zur Überproduktion eines Proteins führen Verschieben einer DNA-Region kann Gen-Regulation durcheinanderbringen Variationen erhöhen eventuell Anfälligkeit für Krankheiten, sind aber häufig nicht Ursache häufig sind jedoch Gene betroffen, die mit der Interaktion mit der Umwelt in Verbindung gebracht werden, also z.b. Immunreaktion, Abbau von Medikamenten und Giften, Abwehr von Pathogenen, Entzündungen

Beispiel: Copy Number Variation E.Gonzalez et al., The influence of CCL3L1 gene-containing segmental duplications on HIV-1/AIDS susceptibility. Science, 307(5714):1434-40, 2005. CCL3L1: HIV-1 suppressive Chemokin Protein der Immunabwehr geringe Kopienzahl führt zu erhöhter Infektionsanfälligkeit höhere Kopienzahl führt bei HIV-Infektion zu verzögertem Ausbruch von AIDS

Beispiel: Inversion H.Stefansson et al., A common inversion under selection in Europeans. Nature Genetics, 37(2):129-37, 2005. Chr. 17: 900kb Region (H1), die in unterschiedlicher Orientierung vorkommen kann Inversion (H2) vor ca. 3 Mio Jahren entstanden betrifft ca. 20% der Europäer, wenige Afrikaner, (bisher) bei keinen Ostasiaten gefunden Untersuchung in Island: Trägerinnen der Inversion haben mehr Kinder positive Selektion! H1-Klone H2-Klone

Krankheiten Hämophilie A (Bluterkrankheit): Inversion auf X-Chromosom Prader-Willi-Syndrom: Deletion auf Chromosom 15 Nierenentzündung (Glomerulonephritis): CNV im Gen FCGr3 beeinflußt Anfälligkeit für Nierenentzündung, die zu Nierenversagen führen kann (zunächst in Ratten untersucht) T.J.Aitman et al., Copy number polymorphism in Fcgr3 predisposes to glomerulonephritis in rats and humans. Nature, 439(7078):851-5, 2006

Identifizierung von CNVs z.b. HapMap, ENSEMBL (öffentliche) Datenbanken Durchsuchen von Sequenzdaten am Computer z.b. BLAT, BLAST z.b. Array CGH, SNP Array Experimenteller Genom-Vergleich im Labor Experimentelle Validierung im Labor z.b. FISH, PCR z.b. SW-ARRAY, CBS Analyse am Computer (öffentliche) Datenbanken z.b. Database of Genomic Variation

Ziele und Hauptakteure Identifikation von CNVs in offenbar gesunden Individuen in verschiedenen Populationen Entwicklung neuer Methoden zur genomweiten CNV- Identifikation Vernetzung mit Daten aus anderen Datenbanken, Projekten, Literatur etc. Copy Number Variation Project am Sanger Center, UK Database of Genomic Variants am TCAG (The Center for Applied Genomics), Canada International HapMap Project Wellcome Trust Case Control Consortium (WTCCC)

Identifizierung von CNVs basierend auf Sequenzdaten M.C.Popesco et al., Human lineage-specific amplification, selection, and neuronal expression of DUF1220 domains. Science, 313(5791):1304-7, 2006 Vergleich Mensch, Schimpanse, Makake (als Outgroup) Start mit 134 cdna-sequenzen von HLS-Genen (Human Lineage Specific) Durchführung von BLAT-Sequenzsuchen gegen das menschliche Genom und gegen Draft-Sequenzen von Schimpanse und Makake (Rhesusaffe) 86,4% der 134 Gene zeigten eine erhöhte Copy Number im menschlichen Genom BLAT: BLAST-like Alignment Tool, entwickelt an der UCSC als Teil des Genome Browsers zum schnellen Durchsuchen des menschlichen Genoms

Identifizierung von CNVs basierend auf Sequenzdaten Gen MGC8902: 49 Kopien im Menschen, 10 im Schimpansen, 4 im Makaken (Rhesusaffe) enthält 6 DUF1220-Domänen (Funktion unbekannt) BLAT-Suche gegen andere Spezies liefert nur Säugetiersequenzen, insbesondere von Primaten stark exprimiert in Hirnregionen, die mit höheren kognitiven Funktionen assoziiert werden

Identifizierung von CNVs basierend auf CGH Array-CGH (Comparative Genomics Hybridization) basiert auf der Annahme, dass die Copy Number proportional zur Hybridisierungsintensität ist eine Veränderung im Intensitätsverhältnis deutet also auf eine Vervielfältigung bzw. Deletion hin Array sollte dazu möglichst die euchromatischen Regionen des Genoms abdecken aufgebrachte Proben (Test und Referenz) sind mit Farbstoff markiert Repeats sind maskiert Euchromatin: weniger dicht gepackter Teil des Genoms, der die meisten Gene enthält (Gegenteil von Heterochromatin)

Array-CGH (Comparative Genomics Hybridization) L.Feuk et al., Structural variation in the human genome. Nature Reviews Genetics, 7(2):85-97, 2006

Array CGH Test: GATTACGGA Referenz: GATTACGGA Test/Referenz GAT TAC GGA Test: GATGGA Referenz: GATTACGGA GAT TAC GGA Test: Referenz: GATTACTACGGA GATTACGGA GAT TAC GGA

Array CGH Vorteile: hohe Auflösung schnell geringe Kosten (hoffentlich in Zukunft) Nachteile: es gibt noch keine Arrays, die das komplette Genom abdecken experimentelle Artefakte

R.Redon et al., Global variation in copy number in the human genome. Nature, 444(7118):444-54, 2006 26.574 Klone auf Chip decken 93,7% der euchromatischen Regionen des menschlichen Genoms ab Experimente für 82 Individuen (rechts Vergleich zweier männlicher Genome) log 2 (Test/Referenz) gegen Genom (Chromosomen) auftragen

Affymetrix 500K EA SNP Chip 474.642 SNPs je 2 Chips pro Probe mit unterschiedlichen Restriktions-Endonukleasen (NspI und StyI) Experimente für 15 Individuen log 2 (Test1/Test2) gegen Genom (Chromosomen) auftragen Analyse mit SW-ARRAY

Strategien zum Finden von CNVs Vergleich mit Referenz Test Referenz CNV Vergleich mit gemittelten Referenzen Test CNV Ref1 Ref2 Ref3 Multiple paarweise Vergleiche (ohne Referenz) Test1 Test2 Test3 Test2 CNV Zusammenfassung Test3 CNV CNV Test4 CNV CNV CNV

Wunsch und Wirklichkeit Rauschen in realen Daten sehr groß selbst nach Entfernen von Artefakten, Normalisierung und Mittelwertbildung Beispiel rechts: Vergleich von Chromosom 21 zweier Individuen aus der HapMap-Datenbank CGH-Daten frei verfügbar am Sanger Center

Problem mit Array CGH Sensitivität und Spezifität niedrig für Einsatz in klinischer Diagnostik noch ungeeignet!? CNV vorhergesagt Keine CNV vorhergesagt CNV True positive False negative Keine CNV False positive True negative Sensitivität: Fähigkeit, korrekterweise ein positives Ergebnis vorherzusagen (hit rate, Trefferrate) = True positive / (True positive + False negative) Spezifität: Fähigkeit, korrekterweise ein negatives Ergebnis abzulehnen (false alarm rate, Selektivität) = True positive / (True positive + False positive)

SW-ARRAY T.Price et al., SW-ARRAY: a dynamic programming solution for the identification of copynumber changes in genomic DNA using array comparative genome hybridization data. Nucleic Acids Research, 33(11):3455-64, 2005 Entwicklung einer Variante des Smith-Waterman Algorithmus (paarweises lokales Sequenzalignment mit Dynamischer Programmierung) zur Detektion von Deletionen und Duplikationen (bzw. Vervielfältigungen), die als Inseln bezeichnet werden Außerdem Angabe einer statistischen Signifikanz für die beste Insel öffentlich verfügbares Programmpaket, in R implementiert

SW-ARRAY Subtraktion eines Schwellwertes von allen Intensitäts-Log- Ratios Sei X(p) dann der justierte Score von Probe p. Der Score von Probe p bis Probe q ist dann: S(p) sei der Score einer Insel, die in Probe p endet und B(p) die Probe, an der diese Insel beginnt. Sei S(0) = 0 Rekursion: > 0

SW-ARRAY Beispiel Berechnungsformel des Schwellwertes beruht auf empirischen Daten Mittelwert der neuen Werte soll < 0 sein neue Werte = log ratios - Schwellwert

SW-ARRAY Beispiel Berechnung der statistischen Signifikanz p einer Insel zufälliges Permutieren der Daten, 1000 mal bei jedem Durchlauf die Anzahl t der Inseln mit einem höheren Score zählen p = t / 1000

SW-ARRAY Robustness oder Reliability Schwellwert 100-mal kontinuierlich verändert zwischen median(x) und median(x)+0,4*mad(x) dabei für jede Position berechnen, wie oft sie sich in einer Insel befindet Wert nahe 0: keine Änderung der Copy Number an dieser Position, unabhängig vom Schwellwert Wert nahe 1: Änderung der Copy Number an dieser Position, unabhängig vom Schwellwert

SW-ARRAY Beispiel zum Mitrechnen 2 1 Score 0-1 -2 Probe / Position

SW-ARRAY Beispiel zum Mitrechnen Insel 2 1 Score 0-1 -2 Probe / Position

SW-ARRAY Wie muß man vorgehen, um mit diesem Verfahren Deletionen zu finden? Die Ursprungsdaten mit -1 multiplizieren! Wie muß man vorgehen, um nicht nur eine Insel, sondern weitere kleinere Inseln zu finden? Die Scores der bisher gefundenen Insel(n) auf 0 setzen und dann das Verfahren wiederholen!

Weitere Methoden zum Finden von Inseln CBS (Circular Binary Segmentation): A.Olshenet al., Circular binary segmentation for the analysis of array-based DNA copy number data. Biostatistics, 5(4):557-72, 2004 Suche nach Positionen, an denen sich die Copy Number ändert; Verwendung von t-test und permutierten Referenzdaten CLAC (Cluster along chromosomes): P.Wanget al., A method for calling gains and losses in array CGH data. Biostatistics, 6(1):45-58.2005 Erzeugen eines Baums (hierarchisches Clustering) entlang jedes Chromosoms; Auswahl interessanter Cluster HMM (Hidden Markov Model):... S.P.Shah, Integrating copy number polymorphisms into array CGH analysis using a robust HMM. Bioinformatics, 22(14):e431-9, 2006

Experimentelle Untersuchung des Humangenoms L.Feuk et al., Structural variation in the human genome. Nature Reviews Genetics, 7(2):85-97, 2006 Probleme: was soll als Standard- bzw. Referenz-Genom verwendet werden? gerade die noch vorhandenen Lücken im menschlichen Referenz-Genom befinden sich in der Nähe von strukturellen Varianten selbst zwischen dem Referenz-Genom am NCBI und dem bei Celera Genomics bestehen große Unterschiede Anteil struktureller Varianten zum jetzigen Zeitpunkt schwer einzuschätzen

Database of Genomic Variants on Human Genome

projects.tcag.ca/variation/ am "The Center for Applied Genomics", Kanada Sammlung struktureller Varianten im menschlichen Genom momentan auf phänotypisch gesunde Personen beschränkt Datenbestand am 1.Februar 2007: CNVs: 5150 Inversionen: 77 Daten aus 39 Publikationen

HapMap

HapMap www.hapmap.org Haplotyp-Mapping Arbeitsgruppen aus Kanada, China, Japan, Großbritannien, Nigeria und den USA Auffinden von Genen, die mit Krankheiten des Menschen assoziiert sind und der Wirkung von Medikamenten 270 Individuen aus 4 Populationen aus Europa, Afrika und Asien 30 Eltern-Kind-Trios der Yoruba aus Nigeria 30 Eltern-Kind-Trios europäischer Herkunft aus Utah, USA 45 nicht-verwandte Japaner aus Tokio 45 nicht-verwandte Han-Chinesen aus Peking

ENSEMBL

ENSEMBL www.ensembl.org Kooperation aus EMBL European Bioinformatics Institute (EBI) und Wellcome Trust Sanger Center (WTSC) Datenbank und Softwaresystem zur Verwaltung und (automatischen) Annotation kompletter (eukaryotischer) Genome inzwischen 27 Genome - von der Mücke bis zum Elefanten

http://www.sanger.ac.uk/humgen/cnv/data/ (Länge) (Häufigkeit)

Weitere Quellen Vortragsfolien von Tom Price, 2003 Locating deletions and polysomy in genomic DNA microarray data using the Smith-Waterman algorithm. http://itmat.upenn.edu/~tsprice/talks/heidelberg.pdf Vortragsfolien von Chris Barnes, 2006 Techniques for the detection of copy number variation using SNP genotyping arrays http://www.newton.cam.ac.uk/webseminars/pg+ws/2006/scb/scbw02/1212/barnes/all.pdf