Gene Center Munich, Computational Biology and Regulatory Networks. Bachelorarbeit

Transkript

1 LUDWIG-MAXIMILIANS-UNIVERSITÄT TECHNISCHE UNIVERSITÄT MÜNCHEN Gene Center Munich, Computational Biology and Regulatory Networks Bachelorarbeit in Bioinformatik Auswirkungen der RNA Polymerase II auf die Genexpression: Ein integrativer Modellierungsansatz für Chromatin Immunopräzipitations- und Genexpressionsdaten Benedikt Zacher Aufgabensteller: Dr. Achim Tresch Betreuer: Dr. Achim Tresch Abgabedatum:

2 Ich versichere, dass ich diese Bachelorarbeit selbständig verfasst und nur die angegebenen Quellen und Hilfsmittel verwendet habe Benedikt Zacher

3 Abstract Gene expression and its regulation plays a key role within the cell. RNA Polymerase II overtakes the role of transcription of protein coding genes in yeast. ChIP-chip experiments can be used to identify the protein-dna interactions that take place during this process. To analyze this data, the R/Bioconductor package Starr was developed. It provides functions for quality assessment, normalization and further analysis, especially for Affymetrix tiling arrays. This package was used to analyse ChIP-chip data of the RNA Polymerase II subunit Rpb3. Thereby the connections of Polymerase II occupancy and gene expresssion, mrna decay and transcription rate was investigated. Further on, a cluster analysis of the occupancy profiles of Polymerase was performed at the transcription start site and over the whole transcript. The influence of the different profiles on the expression, as well as a GO-analysis of the cluster builds the end of this work. Zusammenfassung Genexpression und deren Regulation auf DNA Ebene nimmt eine zentrale Rolle in der Zelle ein. Die RNA Polymerase II übernimmt in Hefe die Transkription von Protein kodierenden Genen in mrna. Mit ChIP-chip Experimenten lassen sich die hier sattfindenden Protein-DNA-Bindungsdaten genomweit ermitteln. Zur Analyse dieser Daten wurde das R/Bioconductor package Starr entwickelt. Es stellt Funktionen zur Qualitätskontrolle, Normalisierung und weiteren Auswertung von Affymetrix tiling arrays zur Verfügung. Mit diesem package wurde die ChIP-chip Daten der RNA Polymerase II Untereinheit Rpb3 untersucht. Dabei wurde unter Anderem der Zusammenhang zwischen Polymerase II Belegung und Genexpression, mrna Abbau und der Transkriptionsrate untersucht. Zudem wurde einer Clusteranalyse der Belegungsprofile der Polymerase am Transkriptionsstart, sowie über das gesamte Transkript durchgeführt. Der Einfluss der unterschiedlichen Profile auf die Expression und eine GO-Analyse der einzelnen Cluster bildet den Abschluss der Arbeit.

4 Inhaltsverzeichnis 1 Einleitung Genexpression in Eukaryoten Chromatin und Genexpression Der Präinitiationskomplex Der Mediator-Komplex Initiation und Promotor escape Elongation Termination Microarrys und ChIP-chip DNA microarrays und tiling arrays ChIP-chip Assay ChIP-Seq Das R/Bioconductor package Starr ExpressionSet probeanno Qualitätskontrolle und diagnostische plots Rekonstruktion des array Bildes Density plots und boxplots Scatterplots Ratio-Scatterplots MA plots Normalisierung der ChIP-chip Daten Fehlerquellen in microarray Daten Rank-Percentile Quantilnormalisierung (Cyclic-)Loess-Normalisierung MAT Scale Normalisierung Welche Methode ist die richtige? Wahl der Referenz Explorative Analyse von ChIP-chip und Genexpressionsdaten in Hefe Polymerase II Belegung und Genexpression Spill-over Effekte und Überlappungen

5 Inhaltsverzeichnis Genlänge und Korrelation mrna Abbau, Transkriptionsrate und Genexpression CUTs und SUTs Polymerase II Profile und Genexpression Belegungsprofile bei differentieller Expression Polymerase II am Transkriptionsstart Polymerase II über das gesamte Transkript Zusammenfassung und Ausblick 60 5

6 Abbildungsverzeichnis 1.1 Assemblierung des Präinitiationskomplexes Sequenzspezifische Abhängigkeit der Rohintensitäten Charakterisierung der background tag distribution Standardabweichung der Rohintensitäten und der logarithmisch transformierten Intensitäten Rekonstruktion des array Bildes auf der logarithmischen Skala Density- und boxplots der logarithmierten Intensitäten Scatterplotmatrix der einzelnen ChIP-chip Experimente Scatterplotmatrix aller paarweisen Ratios von Experimenten und Kontrollen MA-plots aller Paare von Experimenten und Kontrollen vor der Normalisierung Density plots nach der Normalisierung mit unterschiedlichen Verfahren MA-plots der Experimente IP1 rpb3 und IP1 wt nach der Normalisierung mit unterschiedlichen Verfahren Effekt auf die Ratio bei quadratisch transformierter Kontrolle Sequenzspezifische Abhängigkeiten der Ratio der normalisierten Daten Korrelation der Bereiche um die kodierende bzw. transkribierte Region Scatterplot von Polymerase II Belegung und Genexpression aller bzw. gefilterter Gene Abhängigkeit von Genlänge und Korrealtion Vergleich der mrna Halbwertszeiten Density von CUTs, SUTs und ORFs der rrp6 Mutante Polymerase II Profile bei schwacher und starker Genexpression am Transkriptionsstart Dendrogramm und (average) silhouette width des Clusterings der RNAPII Profile am Transkriptionsstart Profile der RNAPII am TSS der drei Cluster nach hierarchischem Clustering Dendrogramm und Silhouette width des Clusterings der RNAPII Profile über das gesamte Tranksript Profile der RNAPII der drei Cluster über das gesamte Tranksript nach hierarchischem Clustering

7 Tabellenverzeichnis 5.1 Korrelation der RNAPII Belegung zur Expression bei unterschiedlichen Halbwertszeiten Korrelation der Transkriptionsraten untereindaner, sowie zum mrna Abbau Korrelation der RNAPII Belegung über CUTs und SUTs zur Genexpression GO-Analyse von Cluster 1 am Transkriptionsstart GO-Analyse von Cluster 3 am Transkriptionsstart Übereinstimmung der Gene in den Clustern am TSS und über das Transkript GO-Analyse von Cluster 2 über das gesamte Transkript GO-Analyse von Cluster 3 über das gesamte Transkript

8 1 Einleitung 1.1 Genexpression in Eukaryoten Genexpression bezeichnet die Transkription eines DNA-Templatstranges in mrna und die darauffolgende Translation in ein Protein. Die RNA Polymerase II (RNAPII) katalysiert die Transkription eines DNA-Strangs in eine mrna. Sie liefert die katalytische Aktivität zur Transkription von Protein kodierenden Genen [41]. Neben der RNAPII existieren in Eukaryoten zwei weitere Typen dieses Enzyms. Die RNA Polymerase I ist für die Transkription der ribosomalen RNA (rrna) verantwortlich. Die RNA Polymerase III transkribiert die transfer RNA (trna). Mit ihren 12 Untereinheiten ist die RNAPII jedoch die komplexeste Polymerase. [26] Die Expression von Genen darf nicht unkontrolliert ablaufen, weshalb dieser Prozess einer besonders starken Regulation bedarf. Die einzelnen Schritte dieser Regulation spielen sich während verschiedener Phasen des Transkriptionsprozesses ab, welche in dieser Reihenfolge mit Assemblierung des Transkriptionsinitiationskomplexes, Initiation und Termination bezeichnet werden. [26] Chromatin und Genexpression Die Chromosomen des Zellkerns bestehen aus Chromatin. Dieses besteht im Wesentlichen aus den Nukleosomen, um die die DNA gewickelt ist. Durch diese Umwicklung, sowie durch übergeordnete Strukturen, kommt es zu einer starken Kompaktierung der DNA. Der erste Schritt zur Kontrolle der Transkription liegt in der Struktur des Chromatins. Das kompakte, aufgewickelte Chromatin fungiert dabei im Allgemeinen als negativer Regulator der Genexpression. Einzelne Gene können reprimiert werden, indem DNA-bindende Proteine wie die Transkriptionsfaktoren oder die RNA-Polymerase II von ihren Bindungsseiten abgeschirmt werden. Darüber hinaus können durch sehr dicht gepacktes Chromatin ganze genomische Regionen ausgeschaltet werden.[31] Histon modifizierende Komplexe (z.b. Histon Acetylasen, wie der SAGA Komplex) und Chromatin remodelling Komplexe (z.b., der SWI/SNF Komplex) machen die DNA zugänglich [58] [63]. Sind die Voraussetzungen für eine Protein-DNA Interaktion seitens der Chromatinstruktur gegeben, kommen zunächst die allgemeinen Transkriptionsfaktoren ins Spiel Der Präinitiationskomplex Die Formierung des Präinitiationskomplexes (PIC) ist notwendig um die Transkription in Gang zu setzen. Dieser Prozess findet am Promotor statt. Dies ist eine DNA 8

9 1 Einleitung Sequenz, die sich in der Nähe der 5 -Endes eines Gens befindet. Diese Sequenzen ermöglichen die Wechselwirkung zwischen spezifischen Proteinen und DNA. Zu den beteiligten Molekülen zählen die generellen Transkriptionsfaktoren (GTFs) TFIIA, TFIIB, TFIID, TFIIE, TFIIF, TFIIH, der SRB/Mediator Komplex, sowie weitere genspezifische Transkriptionsfaktoren. Die Assemblierung des Präinitiationskomplexes läuft in einer strikten Reihenfolge ab. Abbildung 1.1 zeigt den Ablauf der Assemblierung. [44] [41] Abbildung 1.1: Assemblierung des Präinitiationskomplexes [41] TFIID ist für die Promotorerkennung zuständig. Somit bindet er als erstes an den Promotor. Eine Untereinheit dieses Transkriptionsfaktors ist das TATA-binding protein (TBP), welches die TATA-box im Promotor bindet. Durch die Bindung von TBP wird die DNA partiell entwunden und stark gebogen. Die Konsequenz ist, dass Proteine, die zu den Seiten von TBP binden in räumlicher Nähe zueinander stehen und somit leichter miteinander interagieren können. [44] Nun bindet TFIIB an den eben beschriebenen Nucleoproteinkomplex und stabilisiert diesen. Da die RNAPII nicht von alleine an den TFIID/TFIIB/DNA-Komplex binden kann übernimmt TFIIF deren Rekrutierung, indem sie zuerst die RNAPII bindet, um anschließend mit ihr den Präinitiationskomplex am Promotor zu erweitern. Die Aufgabe von TFIIB besteht nun darin, den TFIIF-RNAPII-Komplex an den Promotor zu binden. Dafür besitzt TFIIB sowohl Bindungsseiten für TFIID als auch für die RNAPII. Weiterhin bindet nun TFIIE, um dann TFIIH zu rekrutieren und die Formierung des Präinitiationskomplexes abzuschliessen [38]. TIIFA kann zu jedem Zeitpunkt nach der Bindung von TFIID an den Komplex binden. TFIIA stabilisiert den Komplex durch Erhöhung der Affinität von TBP für die TATA-box. [44] 9

10 1.1.3 Der Mediator-Komplex 1 Einleitung Der Mediator-Komplex wird für die Regulation der Transkription benötigt. Er dient dabei als eine Art Brücke zwischen den Aktivatoren bzw. Repressoren und dem Promotor. Diese Interaktion ermöglicht dem Mediator eine globale Funktion in der Transkriptionskontrolle. Wie die GTFs ist der Mediator-Komplex mit seinen 21 Untereinheiten in Eukaryoten stark konserviert. In Experimenten wurde beobachtet, dass sich der Mediator-Komplex nach der Chromatinremodellierung noch vor der Formierung des Präinitiationskomplexes an die Promotorregion anlagert. Der Mediator bindet dann an die carboxy terminal domain (CTD) der RNAPII. Die Bindung des Mediators an die RNAPII stimuliert die Transkription. [4] [3] Er kann jedoch auch repressiv auf die Transkription wirken. Dafür ist ein zusätzliches Modul, das Srb8-11 Modul, nötig. Ist dieses Modul an den Mediator gebunden, findet keine Transkription statt. Der Einbau von Srb8-11, scheint ein regulatorischer Effekt zu sein, da dieser abgebaut wird, wenn Hefe in nährstoffarmer Umgebung wächst. [4] Initiation und Promotor escape Die Initiation bzw. Promotor escape bezeichnet die erste Phase der aktiven Transkription. Sie umfasst die Synthese der ersten Phosphodiesterbrücken der mrna. Die Initiation der Transkription ist eine sehr instabile Phase. Es kann zum Abbruch, Pausieren oder Arretieren der Transkription kommen. Im ersten Fall kommt es zur physikalischen Dissoziation des mrna-transkripts. [14] TFIIH und TFIIE stimulieren das Verlassen der RNAPII des Promotors. Ein weiterer wichtiger Cofaktor dieser frühen Phase der Elongation ist ATP. Bevor die RNAPII mit der Transkription beginnen kann, muss die DNA entwunden werden. Zu diesem Zweck enthält TFIIH zwei Untereinheiten mit einer ATP-abhängigen Helikase Aktivität. Diese sind identisch mit den Xeroderma pigmentosum complementation group B (XPB) bzw. D (XPD) Genen. Die XPB Untereinheit schmilzt die DNA in 3 5 Richtung auf, während die XPD Untereinheit diese Reaktion in 5 3 katalysiert. Dabei ist XPB essentiell für das initiale Aufschmelzen des Promotors, wohingegen XPD lediglich einen unterstützenden Effekt aufweist. TFIIE besteht aus zwei Untereinheiten, der grösseren α- und der kleineren β-untereinheit. Kürzlich wurde gezeigt, dass die β-untereinheit einen stimulierenden Effekt auf die XPB Helicase und die ATPase-Aktivität hat. Weiterhin wurde nachgeweisen, dass XPB das Abbrechen von sehr kurzen Elongationsintermediaten in der Nähe des Promotors unterdrückt. [34] [14] Spangler et al. [56] haben gezeigt, dass das Aufschmelzen des Promotors und die Promotor escape unterschiedliche DNA Regionen downstream vom Transkriptionsstart beanspruchen. Dabei wurde folgendes Modell vorgeschlagen. TFIIH besitzt zusätzlich zur katalytischen site eine DNA-Bindungsdomäne mit der das Enzym während des Öffnens des Promotors an die DNA-Region bp downstream und während der Promotor escape bp downstream bindet. TFIIH öffnet also zuerst den Promotor, um anschließend vor der RNA Polymerase II vorherzugleiten bis diese den Promotor verlassen hat. 10

11 1 Einleitung TFIIF nimmt bei der Initiation zwei Rollen ein. Einerseits stimuliert er TFIIH und verringert somit indirekt ein Pausieren der RNAPII in der frühen Elongation. Andererseits vermindert er das sogenannte abortive cycling, was bedeutet, dass der neu synthetisierte mrna-strang von der RNAPII dissoziiert. Dies wird durch Erhöhung der Prozessivität der RNAPII realisiert. [66] Nachdem die RNAPII den Promotor verlassen hat, zerfällt der Präinitiationskomplex. Dabei bleibt TFIID am Promotor gebunden, während TFIIB, TFIIE, TFIIF und TFIIH dissoziieren. Anschließend assoziiert TFIIB wieder mit TFIID. TFIIE wird noch vor der Synthese der zehnten Phosphodiesterbindung freigegeben. Dem folgt die Dissoziation von TFIIH. [67] Elongation Nachdem die RNAPII den Promotor verlassen hat, und die TFs des PIC dissoziiert sind, geht das Enzym in die Elongationsphase über. Während dieser Phase spielen erneut eine Reihe von Cofaktoren eine wichtige Rolle. TFIIS war der erste Transkriptionsfaktor, der dabei entdeckt wurde. Es wurde gezeigt, dass TFIIS die Transkription von langen Transkripten in vitro ermöglicht. Während der Transkription wechselt die RNAPII zwischen aktivem und inaktivem Zustand. TFIIS ist notwendig um die inaktive Polymerase in ihre aktive Form zurückzuführen, um so einen vorzeitigen Stop der Transkription zu verhindern.[54] Ein weiteres Charakteristikum der RNAPII in der Elongationsphase ist ihre stark phosphorylierte carboxy-terminal domain (CTD). Die CTD besteht aus einem Heptapeptid mit der Sequenz YSPTSPS, welche ca. 26 mal wiederholt wird. Sie befindet sich in der größten Untereinheit der RNAPII, welche in Hefe die Bezeichnung Rpb1 trägt. Die Notwendigkeit der Phosphorylierung der CTD wird durch zwei Beobachtungen in vitro gestützt. Einerseits ist die aktiv transkribierende RNAPII stark phosphoryliert, andererseits bindet hypophosphorylierte RNAPII vermehrt an den Präinitiationskomplex, wo diese anschließend phosphoryliert wird. Dabei wird Serin 5 durch die TFIIH-assoziierte Cdk7/cyclin H kinase phosphoryliert. [54] Nach dem Verlassen des Promotorbereichs wird dann Serin 2 phosphoryliert. Dieser Prozess wird durch Protein Kinase Inhibitoren wie 5,6-dichloro-1-beta-D-ribofuranosylbenzimidazole (DRB) reguliert. Es gibt die negativen Regulatoren DRB sensitivity inducing factor (DSIF) und den negative elongation factor (NELF), sowie den positiven Regulator positive transcription elongation factor b (P-TEFb). P-TEFb ist eine DRBsensitive cyclin-abhängige protein Kinase, die die eben beschriebene Phosphorylierung der CTD während der Elongation katalysiert. Weitere Faktoren, die für die Elongation benötigt werden sind beispielsweise Mitglieder der ELL-, und ELONGIN-Familie. [54] Termination Im Allgemeinen wird die Termination durch co-transkriptionelle Erkennung eines cisregulatorischen Elements am 3 -Ende der neu synthetisierten RNA eingeleitet. Im Fall von mrnas wird dieses Element von einem Proteinkomplex erkannt, der für das Ab- 11

12 1 Einleitung schneiden der mrna an diesem Signal und die Polyadenylierung zuständig ist. Die Polyadenylierung bezeichnet die Synthese von Adeninbasen an das 3 -Ende der mrna. Die Reaktion benötigt den cleavage und polyadenylation factor (CPF), sowie die cleavage Faktoren IA und IB (CFIA and CFIB). Der poly(a)-schwanz wird anschließend von poly(a)-bindenden Proteinen erkannt und so vor Degradierung geschützt. Nach dem Abschneiden des RNA-Stranges befindet sich in der Regel noch ein kurzer RNA-Strang in der RNAPII, an welchen weiterhin Nukleotide angefügt werden. Die endgültige Termination der Transkription findet kurz nach dem Abschneiden des RNA-Stranges statt. Hiefür werden die beiden Faktoren CPF und CFIA benötigt. [36] Der exakte Mechanismus der Termination ist noch unklar. Die aktuelle Forschung hat jedoch zwei Modelle hervorgebracht. Ein möglicher Mechanismus ist die Auflösung des Elongationskomplexes (EC) durch Pcf11p, eine Untereinheit von CFIA. Durch die Formierung einer Brücke zwischen RNA und der CTD könnte eine Konformationsänderung in der CTD der EC aufgelöst werden. [69] Ein weiteres Model, das Torpedo-Modell schlägt vor, dass das Schneiden der RNA ein neues uncapped 5 Ende im EC entstehen lässt. Dies dient als Substrat für die Rat1/Xrn2 Nuklease, welches die überflüssige RNA abbaut und die Termination der Transkription auslöst. [8] 1.2 Microarrys und ChIP-chip DNA microarrays und tiling arrays DNA-microarrays bestehen aus bis zu mehreren auf einer Oberfläche verankerten Oligonukleotiden. Durch Hybridisierung mit freier DNA kann man mit ihnen die Menge einzelner DNA-Fragmente messen. Das erste miniaturisierte microarray wurde 1995 von Schena et al. entwickelt. Mit diesem array wurde erstmals gleichzeitig die differentielle Genexpression von 45 Arabidopsis Thalaiana Genen gemessen. [50] Das erste Modell für Hefe wurde 1997 hergestellt und enthielt 2,479 ORFs [33]. Diese Art von chips ermöglichte erstmals eine high throughput Analyse der Genexpression. Die Weiterentwicklung der Technologien in der Herstellung von microarrays, sowie der rasante Fortschritt in der Sequenzierung kompletter Genome hat die Ära eines neuen Typ von DNA-chip eröffnet: tiling arrays. Im Gegensatz zu den eben beschriebenen microarrays sind auf tiling arrays nicht mehr nur einige Proben zur Repräsentation einiger interessanter Regionen des Genoms eines Organismus gespottet, sondern das komplette Genom. Die arrays enthalten bis zu über 6 Millionen spots, die aus Oligonukleotiden (< 100 bp) bestehen. Die genomischen Regionen, die von verschiedenen Sonden auf dem array abgebildet werden, überlappen sich hierbei. Je nach Länge und Überlappung der Proben können unterschiedlich scharfe Auflösungen erreicht werden. [40] Im Vergleich zu den klassischen DNA-microarrays, die nur bekannte Proben des Genoms enthalten, liefern tiling arrays einen umfassenden genomweiten Blick der jeweiligen Analyse. Neben der in dieser Arbeit behandelten ChIP-chip Anwendung können mit tiling arrays beispielsweise Methylomanalysen oder Expressionsanalysen ohne bekannte Lage 12

13 1 Einleitung der Gene durchgeführt werden. [40] ChIP-chip Assay In einem ChIP-chip Experiment sollen Protein-Bindungen an der DNA gemessen werden. Zunächst müssen Mutanten des fraglichen Organismus herangezogen werden, die ein sogenanntes TAP-tag gegen einen spezifischen Antikörper in dem zu extrahierenden Protein eingebaut haben. Durch Zugabe von Formaldehyd findet ein sogenanntes crosslinking von Proteinen mit anderen Proteinen oder von Proteinen mit DNA statt. Anschließend wird mit Hilfe eines hochspezifischen und hochaffinen TAP-Antikörpers das Targetprotein samt aller daran gebundenen DNA isoliert. Weiterhin werden die crosslinks aufgelöst und die DNA aufgereinigt. Nun wird die gesamte DNA in einer Polymerase Ketten Reaktion (PCR) amplifiziert. Während der PCR werden Fluoreszenzfarbstoffe hinzugegeben um die DNA einzufärben. Abschliessend folgt die Hybridisierung mit dem array. Nach einer festgesetzten Hybridisierungszeit wird dieses gewaschen, gefärbt und gescannt. [6] Bei microarray Experimenten stehen zwei verschieden Arten des DNA labellings zur Verfügung. Die Wahl des labellings bestimmt wie die Referenzexperimente durchgeführt werden, die zur Normalisierung der Daten verwendet werden. Affymetrix arrays verwenden eine one color Technologie. Dabei wird ein Farbstoff verwendet. Hier muss das Referenzexperiment auf einem zweiten chip durchgeführt werden. Bei two color Plattformen wie Agilent oder Nimblegen werden zwei Farbstoffe verwendet. Hier können Kontrolle und Experiment auf dem gleichen chip hybridisiert werden. Beide Technologien bergen Vor- und Nachteile in sich. Da bei two color Experimenten die Kontrollen auf dem gleichen chip hybridisiert werden, können die Proben hier besser verglichen werden. Allerdings kann es zu einem sogenannten dye-bias kommen, wobei es zu Intensitätsunterschieden zwischen den einzelnen Farbstoffen kommt. Diesem Phänomen kann jedoch durch dye-exchange entgegengewirkt werden, bei dem die Farbstoffe in Replikatmessungen vertauscht werden. [46] One color arrays ermöglichen dagegen durch die Hybridisierung eines samples pro chip bessere Vergleichsmöglichkeiten zwischen arrays und zwischen Gruppen von Experimenten. Da das Referenzexperiment auf einem extra chip durchgeführt wird kann es hier unter Umständen zu starken Unterschieden in den Intensitäten auf den chips kommen. [46] Zu jedem Experiment werden Kontrollen hergestellt, die als Referenz bei der Normalisierung benötigt werden. Die Referenzexperimente sind notwendig, da es bei der Hybridisierung mit dem chip zu sequenzspezifischen Intensitätsunterschieden kommt. Die Purinbasen Adenin und Thymin bilden in doppelsträngiger DNA zwei Wasserstoffbrückenbindungen aus, wohingegen die Pyrimidinbasen Guanin und Cytosin drei Wasserstoffbrücken ausbilden. Dies resultiert in einer unterschiedlichen Affinität und Hybridisierungsintensität der Basenpaare. Dieses Verhalten führt zu sequenzspezifischen Bindungsstärken, welche zu einem verfälschten Signalprofil auf dem chip führen. Dabei 13

14 1 Einleitung spielt einerseits der GC-Gehalt der Sequenz insgesamt eine Rolle, andererseits wird die gemessene Intensität von der Position der vier Basen innerhalb der Sequenz beeinflusst [49]. Abbildung 1.2 A zeigt die Verteilungen der Rohintensität in Abhängigkeit zum GC- Gehalt. Die Intensitätsverteilungen nehmen mit steigendem GC-Gehalt zu. Abbildung 1.2 B zeigt die gemittelte Intensität der Sequenzen in Abhängigkeit der Position der einzelnen Basen. Hier lässt sich feststellen, dass Sequenzen die Guanin bzw. Cytosin enthalten eine höhere mittlere Intensität aufweisen. Während die mittlere Intensität in Abhängikeit von der Position von Guanin einigermaßen konstant ist, nimmt die positionsspezifische Intensität in Abhängigkeit von Cytosin in der Mitte der Sequenz (Basen 6-20) im Vergleich zu den Rändern (Basen und 1-5) zu. Der Intensitätsverlauf von Adenin zeigt ein gegensätzliches Profil zu dem eben Beschriebenen. Hier ist die Bindungsintensität an den Rändern höher als im mittleren Bereich der Sequenz. Der Verlauf von Thymin in der Sequenz dagegen weist nur gegen Ende hin einen leichten Intensitätsabfall auf. Der Effekt der positionsspezifischen Abhängigkeiten wirkt sich zwar nicht so stark auf die Hybridisierungsintensität aus wie der GC-Gehalt, es lässt sich aber dennoch ein klarer Effekt ablesen. In Kapitel 5.7 wird genauer darauf eingegangen, welche Art von Kontrollprobe geeignet ist, um diese Hybridisierungseffekte auszugleichen. Abbildung 1.2: Sequenzspezifische Abhängigkeit der Rohintensitäten. (A) zeigt die Verteilungen der Intensitäten in Abhängigkeit des GC-Gehalts der Sequenzen. Die Proben werden nach der Zahl ihrer G/C Nukleotide sortiert und für jede Klasse ein Boxplot angefertigt. Das Intensitätsniveau nimmt mit steigendem GC-Gehalt der Sequenzen zu. (B) zeigt die Auswirkungen der Hybridisierung auf die mittlere Intensität, abhängig von der Position der Basen innerhalb der Sequenzen. 14

15 1 Einleitung 1.3 ChIP-Seq Abschließend soll kurz eine alternative Technologie zur Messung von genomweiten Bindungsdaten vorgestellt werden: ChIP-Seq. Der erste Schritt dieses Verfahrens besteht - wie bei ChIP-chip - aus einer Chromatinimmunopräzipitation. Im nächsten Schritt werden die angereicherten DNA-Fragmente jedoch nicht auf einem chip hybridisiert, sondern sequenziert. Die sequenzierten DNA-Fragmente werden anschließend mit dem Genom aligniert um die Bindungsintensität der Proteine zu bestimmen. Dabei werden für jede Position die zu ihr alignierten Basen gezählt. [30] Es wurde gezeigt, dass diese neue Methode in der Lage ist eine höhere Auflösung als ChIP-chip Experimente zu erzielen [27]. Bei ChIP-Seq werden Probleme, die bei microarray Experimenten auftauchen - wie die sequenzspezifischen Hybridisierungsunterschiede - umgangen. Dadurch wird eine höhere Spezifizität und bei sehr hoher Samplingrate (d.h. hoher Zahl der sequenzierten Transkripte) auch eine höhere Sensitivität erreicht. [30] Doch auch ChIP-Seq Daten bergen gewisse Unsicherheiten in sich. Als Beispiel soll hier kurz die background tag distribution erläutert werden. Die background tag distribution bezeichnet das Hintergrundrauschen, das beim Sequenzieren entsteht. Um die hier auftretenden Phänomene zu charakterisieren haben Kharchenko et al. [30] input DNA und DNA aus einem ChIP-Experiment sequenziert und verglichen. Bei diesem Vergleich beobachteten sie entweder einzelne Positionen mit einem extrem hohen Zählwert (Abb. 1.3 a), größere Regionen mit erhöhtem Hintergrundrauschen (Abb. 1.3 b) oder Regionen deren Zählwerte wie Protein-Bindungsstellen aussahen (Abb. 1.3 c). Abbildung 1.3: Charakterisierung der background tag distribution: a. Einzelne Positionen mit extrem hohem sequence. b. Größere Regionen mit erhöhtem Hintergrundrauschen. c. Hintergrundrauschen, das wie Proteinbindungsstellen aussieht. Jeder plot zeigt sowohl input als auch ChIP-DNA counts. [30] 15

16 2 Das R/Bioconductor package Starr Im Rahmen dieser Arbeit wurde das R/Bioconductor package Starr entworfen, welches die Normalisierungsmethoden, sowie die für die Analysen benötigten Funktionen bereitstellt. R ist eine frei verfügbare Programmierumgebung zur statistischen Datenverarbeitung und graphischen Visualisierung [47]. Bioconductor ist eine in R programmierte Entwicklungsumgebung zur Analyse biologischer Daten [18]. Das package verwendet zwei R/Bioconductor Objekte. Das Objekt ExpressionSet aus dem R/Bioconductor package Biobase, sowie das Objekt probeanno aus dem package Ringo [59]. Ringo stellt Funktionen zur Normalisierung von two-color arrays bereit. Weiterhin liefert es Methoden zur weiteren Analyse von ChIP-chip Daten. Starr ist durch die Verwendung eben genannter Basisklassen mit allen Funktionalitäten aus Ringo zur Analyse der ChIP-chip Daten kompatibel. Im Folgenden werden kurz die verwendeten Datenstrukturen anhand eines Beispiels erklärt. 2.1 ExpressionSet In einem ExpressionSet Objekt werden Informationen über microarray Experimente gespeichert. Hierzu zählen assaydata, phenodata, featuredata und experimentdata. Zunächst muss das package geladen werden: > library(starr) Nun wird der Pfad zu den im package beigelegten Daten angegeben. Die Funktion readbpmap() aus dem package affxparser wird verwendet, um das bpmap file einzulesen. Das bpmap file enthält das mapping der genomischen Sequenzen und deren Position zu den physikalischen Positionen auf dem chip. > datapath <- system.file("extdata", package = "Starr") > bpmap <- readbpmap(file.path(datapath, + "2006Feb_S288c_All_BothStrands_7G.bpmap")) Im nächsten Schritt können bereits die Daten aus den CEL files eingelesen werden. Hierzu werden die Dateipfade angegeben. > cels <- c(file.path(datapath, " _Rpb3_IP.CEL"), + file.path(datapath, " _WT_IP.CEL"), + file.path(datapath, "Rpb3.CEL"), + file.path(datapath, " _WT_IP2.cel")) 16

17 2 Das R/Bioconductor package Starr Anschließend werden den Experimenten noch Namen zugewiesen. Darüber hinaus muss angegeben werden um was für ein Typ von Experiment es sich handelt ( echtes ChIP-chip- oder Kontroll-Experiment). Optional kann noch ein MIAME Objekt generiert werden, welches Infomationen über Experimentatoren, Labor u.ä. enthält. Die Funktion readcelfile() ließt dann die CEL-files ein und erstellt ein Objekt der Klasse ExpressionSet, welches die Daten enthält. > names <- c("rpb3_1", "wt_1", "rpb3_2", "wt_2") > type <- c("ip", "CONTROL", "IP", "CONTROL") > rpb3_eset <- readcelfile(bpmap, cels, names, type, featuredata = T, + log.it = T) Das ExpressionSet enthält vier Objekte. Dabei sind die featuredata und die experimentdata optional. 1. assaydata Die assaydata enthält die gemessenen Intensitäten. Diese sind in einer Matrix gespeichert, wobei die einzelnen Spalten die verschiedenen Experimente darstellen. Die Matrix kann über die Funktion exprs() abgerufen werden. 2. phenodata Die phenodata ist ein Objekt der Klasse AnnotatedDataFrame. Darin sind der Typ, Name und der Dateipfad der CEL files zu den Experimenten gespeichert. Die Funktion pdata() ruft diese Informationen ab. 3. featuredata Die featuredata ist ebenfalls ein Objekt der Klasse AnnotatedDataFrame. Darin sind die Sequenz und die Position auf den einzelnen Chromosomen der Proben in der assaydata gespeichert. Die Funktion featuredata() liefert dieses Objekt zurück. 4. experimentdata Die experimentdata ist optional und ein Objekt der Klasse MIAME. Es speichert Informationen über Experimentatoren, Labor, usw. Über die Funktion experimentdata() kann dieses Objekt abgerufen werden. Hier ist abschließend eine summary des eben konstruierten ExpressionSets gezeigt: > rpb3_eset ExpressionSet (storagemode: lockedenvironment) assaydata: features, 4 samples element names: exprs phenodata samplenames: rpb3_1, wt_1, rpb3_2, wt_2 varlabels and varmetadata description: 17

18 2 Das R/Bioconductor package Starr type: Description of experiment CEL: CEL files featuredata featurenames: 1, 2,..., ( total) fvarlabels and fvarmetadata description: chr: Chromosome seq: Probe sequence pos: Probe start experimentdata: use 'experimentdata(object)' Annotation: 2.2 probeanno Das probeanno Objekt übernimmt das mapping der Einträge in der Matrix aus dem ExpressionSet auf die Positionen im Genom. Die Funktion bpmaptoprobeanno() erzeugt aus dem bpmap file ein Objekt der Klasse probeanno. > probeanno <- bpmaptoprobeanno(bpmap) Das probeanno Objekt enthält für jedes Chromosom vier Vektoren. chrxx.start und chrxx.end enthalten Start- bzw. Endposition einer bestimmten Probe im Genom. chrxx.index speichert den Zeilenindex der Probe mit der jeweiligen Start- und Endposition in der assaydata. Der Vektor chrxx.unique zeigt an, ob die jeweilige Probe im Genom einzigartig ist. > ls(probeanno)[1:8] [1] "chr1.end" "chr1.index" "chr1.start" "chr1.unique" "chr10.end" [6] "chr10.index" "chr10.start" "chr10.unique" 18

19 3 Qualitätskontrolle und diagnostische plots Bevor mit der Normalisierung und Analyse der Daten begonnen werden kann, muss eine umfassende Qualitätskontrolle durchgeführt werden. Diagnostische plots sollen dabei helfen die Qualität der Daten zu überprüfen und das richtige Normalisierungsverfahren zu wählen. Dies stellt einen essentiellen Schritt bei der Verarbeitung der ChIP-chip Daten dar, da die Normalisierung den gesamten Prozesses der späteren Datenanalyse beeinflusst. Abbildung 3.1: meansd plot [24] zweier Replikatmessungen der RNAPII Untereinheit Rpb3. Die Standardabweichung ist nach den Rängen der gemittelten Intensität sortiert. Die Standardabweichung der Rohintensitäten (A) nimmt mit steigender Intensität zu. Die der logarithmisch transformierten Intensitäten (B) bleibt konstant. Zunächst sei hier erwähnt, dass bei der Verarbeitung der Daten die logarithmierten Intensitäten verwendet werden sollten [13]. Die Standardabweichung von microarray Daten steigt in aller Regel mit steigender Intensität. Abbildung 3.1 zeigt einen meansdplot aus dem package vsn [24]. Es ist deutlich zu erkennen, dass mit steigender Intensität die 19

20 3 Qualitätskontrolle und diagnostische plots Standardabweichung zwischen zwei Replikatmessungen zunimmt (vgl. Abbildung 3.1 A). Durch log-transformierung wird dieses Phänomen jedoch abgeschwächt (vgl. Abbildung 3.1 B). 3.1 Rekonstruktion des array Bildes Die Betrachtung des Scannerbildes in Falschfarbendarstellung dient dazu, Messartefakte, wie z.b. Kratzer oder Blasen an der Oberfläche des arrays zu entdecken. Abbildung 3.2: Rekonstruktion des array Bildes auf der logarithmischen Skala in Falschfarbendarstellung. Gezeigt ist das ChIP-chip Experiment der RNAPII Untereinheit Rpb3. Abbildung 3.2 zeigt die Rekonstruktion der IP1 von der RNAPII Untereinheit Rpb3. Da die Proben zufällig auf dem array verteilt sind, sind keine Bereiche auf dem array zu erwarten, wo sich die Verteilung der Intensität vom Rest des arrays unterscheidet. Sollte dies nicht der Fall sein, sind diese Fehler technischer Art und das Experiment muss wiederholt werden. Auf der Rekonstruktion des Scanner Bildes sind senkrechte Streifen niedrigerer Intensität zu sehen. Dies ist aber lediglich ein Komprimierungseffekt, der in der Pixelgrafik auftaucht. Im Original ist dies nicht zu erkennen. 20

21 3 Qualitätskontrolle und diagnostische plots 3.2 Density plots und boxplots Density plots und boxplots liefern Aufschluss über die Intensitätsverteilungen der einzelnen chips. Zur Analyse der Bindung der RNAPII an die DNA wurden vier ChIP-chip Experimente durchgeführt. Hierzu wurden jeweils zwei ChIP-chip Replikatmessungen mit der RNAPII Untereinheit Rpb3, so wie zwei Referenzerxperimente mit einem wild type ohne TAP-tag durchgeführt. Abbildung 3.3 zeigt einen density- und boxplot der Intensitäten dieser vier Experimente. Auch hier werden die Dichten der logarithmierten Daten geplottet, weil die Originaldaten extrem rechtsschief und damit schlecht darstellbar sind. Es ist klar zu erkennen, dass sich die Intensitätsverteilungen bezüglich ihres Nivaues unterscheiden. Dies kommt dadurch zu Stande, dass kleinste Unterschiede im experimentellen Ablauf zu unterschiedlichen Intensitätsprofilen führen können. Es besteht beispielsweise zwischen der Hybridisierungsintensität und der Zeit der Hybridisierungsreaktion, sowie der DNA-Menge eine nicht-lineare Abhängigkeit [57]. Weitere Unsicherheiten stellen die Behandlung der Zellen, Art des DNA-Labellings, unterschiedlich starke PCR Amplifikationen oder unspezifische Bindungen des Antikörpers dar. Die Unterschiede in den Verteilungen auf den chips können starke Effekte auf die Berechnung der Ratio haben. Bei der Normalisierung muss darauf geachtet werden, dass die Verteilungen über die einzelnen chips nicht zu unterschiedlich sind, d.h. qualitativ eine ähnliche Gestalt haben. A B density IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt intensity IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt Abbildung 3.3: Density- (A) und boxplots (B) der logarithmierten Intensitäten. Die Verteilungen weisen klare Unterschiede bezüglich ihres Intensitätsniveaus auf. 21

22 3.3 Scatterplots 3 Qualitätskontrolle und diagnostische plots Ein Scatterplot ist die Darstellung zweier beobachteter Wertepaare. Dabei werden die Daten in einem Koordinatensystem gegeneinander abgetragen. Mit Hilfe von Scatterplots lassen sich Abhängigkeiten in den Daten untersuchen. Liegen die Datenpunkte um eine Gerade verteilt, sind sie linear abhängig. Andernfalls besteht eine nicht-lineare Abhängigkeit. Diese Abhängigkeiten entstehen durch Unterschiede in der Behandlung der Proben während des Experiments (z.b. durch leichte zeitliche Unterschiede in der Hybridisierungsdauer, Dauer und Effektivität des crosslinkings). Bei starken nicht-linearen Abhängigkeiten sollte erwogen werden ein Experiment zu wiederholen, da die Normalisierung dabei unter Umständen zu drastisch ausfällt. Abbildung 3.4 zeigt eine Scatterplotmatrix der einzelnen ChIP-chip Experimente. In der unteren Hälfte ist die Korrelation der Experimente abgetragen. Die Experimente wurden nach Korrelation hierarchisch geclustert (für eine genaue Beschreibung des Clustering- Verfahrens: siehe Kapitel 5.2.2). Die beiden Replikatmessungen von Rpb3 weisen mit 0.97 die höchste Korrelation auf. Die Datenpunkte liegen um eine Gerade verteilt. Die beiden Kontrollexperimente des wilde type haben eine Korrelation von Diese Korrelation ist erwartungsgemäß etwas schlechter als die von Rpb3. Da hier viele unspezifische Antikörper-Bindungen gemessen werden, ist eine solche Kontrolle unter Umständen nicht so gut reproduzierbar, wie eine echte IP. Im niedrigen Intensitätsbereich des Scatterplots lässt sich eine leichte nicht-lineare Abhängigkeit feststellen. Im höheren Intensitätsbereich ist hingegen Linearität gegeben. Da sich die Nicht-Linearität lediglich auf den Datenbereich mit niedrigerer Dichte und Intensität bezieht, sollte es in diesem Fall nicht erforderlich sein, die Experimente zu wiederholen. Am Vergleich der Kontrollen zu den einzelnen Messungen von Rpb3 lässt sich bei den Paaren, die am gleichen Tag durchgeführt wurden (IP1 rpb3 mit IP1 wt, IP2 rpb3 mit IP2 wt), die jeweils höhere Korrelation feststellen. Dies legt einen systematischen, tagesabhängigen Effekt nahe, wie er auch bei RNA-microarrays und vielen weiteren biochemischen Experimenten beobachtet wird. 3.4 Ratio-Scatterplots Im Ratio-Scatterplot werden alle möglichen Paare von Ratios (log(chip-chip Experiment)- log(kontrolle)) gegeneinander aufgetragen. Abbildung 3.5 zeigt einen solchen plot der vorliegenden Daten. Auch hier wurde hierarchisch nach Korrelation geclustert. Auffallend ist, dass die Ratios in Bezug auf die Kontrolle in ein Cluster fallen. Die Korrelation der Ratios bezüglich einer wild type Referenz weisen Korrelationen von 0.75 und 0.73 auf. Umgekehrt haben die Ratios bezüglich einer Replikatmessung von Rpb3 und jeweils zwei unterschiedlichen Kontrollen Korrelationen von 0.59 und Das untermauert die Annahme, dass die Referenzexperimente der wild types nicht so gut reproduzierbar sind wie echte IPs. Der Vergleich von jeweils unterschiedlichen Paaren (IP1 rpb3vsip2 wt, IP2 rpb3vsip2 wt) zeigt Korrelationen von 0.3 und Dieses Ergebnis zeigt, wie wichtig Replikatmes- 22

23 3 Qualitätskontrolle und diagnostische plots Abbildung 3.4: Scatterplotmatrix der einzelnen ChIP-chip Experimente. In der unteren Hälfte der Matrix ist die Korrelation der Experimente angezeigt. Replikatmessungen korrelieren besser als Paare unterschiedlichen Typs miteinander. Im Scatterplot lässt sich bei den Kontrollmessungen eine leichte Nichtlinearität im niedrigen Intensitätsbereich feststellen. 23

24 3 Qualitätskontrolle und diagnostische plots sungen sind, um die Zuverlässigkeit von microarray Daten zu garantieren. Obwohl alle Experimente untereinander eine Korrelation von mehr als 0.9 aufweisen, korrelieren die berechneten Ratios wie eben gezeigt teilweise sehr schlecht miteinander. Abbildung 3.5: Scatterplotmatrix aller paarweisen Ratios von Experimenten und Kontrollen. In der unteren Hälfte der Matrix ist die Korrelation der Ratios angezeigt. Der plot zeigt, wie wichtig Replikatmessungen für die Zuverlässigkeit von microarray Experimenten sind. 24

25 3 Qualitätskontrolle und diagnostische plots 3.5 MA plots Der MA plot macht Abhängigkeiten zwischen der Intensität und der Verteilung der Ratios deutlich. Erstmals wurde der MA plot von Dudoit et al. [13] auf two color arrays angewandt. Hier wurde der M-value als die log-ratio der beiden Farbkanäle und der A-value als der Mittelwert deren Logarithmen definiert. Bei one color arrays berechnet sich der M-Wert aus der Differenz der logarithmierten Intensitäten, der A-Wert aus dem arithmethischen Mittel der Signale, beider arrays. Seien i, j zwei arrays und x n,m die Bindungsintensität der m-ten Probe auf array m (mit k [1, n]). Dann ist der M- bzw. der A-Wert definiert als M k = log 2 (x k,i ) log 2 (x k,j ) (3.1) A k = 1 2 (log 2(x k,i ) + log 2 (x k,j )) (3.2) Abbildung 3.6 zeigt MA-plots aller Paare von ChIP-chip Experimenten und Kontrollen. Die loess Kurve (rot) zeigt lokale Abhängigkeiten in den Daten. Diese Kurve wird durch lokale polynomielle Regression berechnet. Alle MA-plots zeigen Abhängigkeiten zwischen dem A- und dem M-value. Ein geeignetes Normalisierungsverfahren sollte diese Abhängigkeit beseitigen. 25

26 3 Qualitätskontrolle und diagnostische plots Abbildung 3.6: MA-plots aller Paare von Experimenten und Kontrollen vor der Normalisierung. Die Abhängigkeit zwischen der Intensität und der Ratio ist durch die loess-kurve (rot) dargestellt. 26

27 4 Normalisierung der ChIP-chip Daten Die Normalisierung der ChIP-chip Daten ist ein essentieller Schritt in der Analyse der Daten und die Wahl eines Verfahrens beeinflusst alle weiteren Schritte. Wie bereits in Kapitel 1.2 erwähnt gibt es two color und one color Plattformen für die Durchführung von microarray Experimenten. Bei two color Systemen wird die Kontrolle und das Experiment auf dem gleichen chip hybridisiert. Deshalb wird bei dieser Art von chips zuerst und vor allem innerhalb eines arrays normalisiert. Bei one color arrays wird die Kontrolle auf einem anderen chip als das Experiment hybridisert. Hier wird zwischen arrays normalisiert. Beide Arten der Normalisierung bergen spezifische Probleme in sich. In diesem Kapitel sollen einige Verfahren zur Normalisierung von one color Experimenten vorgestellt werden. Anschießend wird diskutiert, welches Verfahren für die ChIP-chip Daten der Rpb3-Untereinheit der RNAPII verwendet werden soll. 4.1 Fehlerquellen in microarray Daten Microarray Experimente enthalten eine hohe Störanfälligkeit. Es gibt zufällige und systemathische Fehlerquellen. Tu et al. [60] haben die zufälligen Fehler in Sample Preparation Noise und Hybridization Noise unterteilt. Die Sample Preparation Noise ist ein zufälliges Rauschen, welches einerseits vom Menschen bei der Durchführung des Experiments abhängt. Andererseits sind zufällige Fehler während der biochemischen Prozesse - wie der PCR - Teil dieser Art von Rauschen. Tu et al. konnten jedoch zeigen, dass die Sample Preparation Noise im Vergleich zur Hybridization Noise relativ gering ist. Letzteres bezeichnet den Störfaktor, der bei der Hybridisierung der DNA-Fragmente mit dem chip entsteht. Dies beinhaltet beispielsweise unspezifische Bindungen (cross-hybridization). Die Hybridization Noise nimmt mit abnehmender Präsenz der DNA-Fragmente bei der Hybridisierung zu. Das heißt, dass bei hohen gemessenen Intensitäten das gemessene Signal zuverlässiger ist. [60] Zu den systematischen Fehlerquellen zählen sequenzspezifische Hybridisierungsunterschiede oder Abhängigkeiten von Signal und Ratio wie sie im MA-plot visualisiert werden. Weiterhin können sich Replikatmessungen auf unterschiedlichen arrays in ihren Intensitätsskalen stark unterscheiden. Diese systematischen Fehler können mit Hilfe von verschiedenen Normalisierungsverfahren beseitigt werden. Dafür gibt es aber keinen Goldstandard. Die Wahl des richtigen Verfahrens wird einerseits von der Art und der Stärke der systematischen Fehler bestimmt. Andererseits hängt sie von der Art des Moleküls, für das das ChIP-chip Experiment gemacht wird, ab. So werden in der Literatur für Moleküle, die einen geringen Prozentsatz des Genoms binden andere Verfahren empfohlen als für häufig bindende Moleküle [7]. 27

28 4.2 Rank-Percentile 4 Normalisierung der ChIP-chip Daten Buck und Lieb [7] schlagen für häufig bindende Moleküle die Rank-Percentile Methode vor. Dabei wird jede Probe innerhalb eines arrays Rang-transformiert und anschließend deren Percentil (=Quantil) berechnet. Die Proben werden also auf das Intervall [0; 1] normiert. Sei x i,j die Probe i auf dem array j, mit i [1, n] und j [1, m]. Sei weiterhin x i,j die Anzahl der Proben auf array j. Dann ist die normalisierte Intensität definiert durch: norm i,j = rank(x i,j) 1 x i,j 1 (4.1) 4.3 Quantilnormalisierung Bei der Quantilnormalisierung sollen die Intensitätsverteilungen aller chips auf die gleiche Verteilung gebracht werden. In einem qqplot werden die Quantile zweier Verteilungen gegeneinander abgetragen. Liegen die Punkte auf der Hauptdiagonalen, dann haben sie die gleiche Verteilung. Sei N die Anzahl der Datensätze und p die Anzahl der Werte pro Datensatz. Die Idee der Quantilnormalisierung besteht darin, die Werte im qqplot im N-dimensionalen Raum auf die Hauptdiagonale (1/ N,..., 1/ N) zu projizieren [5]. Dies läuft in vier Schritten ab: 1. Konstruiere Matrix X p n aus n Datensätzen der Länge p. Jede Spalte repräsentiert ein array. 2. Sortiere jede Spalte. Man erhält X sort 3. Berechne die Mittelwerte über die Zeilen in X sort. Konstruiere X sort, indem jeder Zeile in X sort der berechnete Mittelwert zugewiesen wird. 4. Konstruiere abschießend X normalized durch Umordnen der Spalten aus X sort in die ursprüngliche Reihenfolge. 4.4 (Cyclic-)Loess-Normalisierung Loess-Normalisierung korrigiert nach Abhängigkeit der log Ratio (M) von der Intensität (A). Durch lokale Regression wird die Normalisierungskurve M k berechnet. Diese ist in Abbildung 3.6 als rote Linie erkennbar. Durch Bilden der Differenz M k = M k M k werden die gemittelten Werte so angepasst, dass die Punkte um y = 0 verteilt sind und somit die systemtischen Fehler verschwinden. Mit den Formeln 3.1 und 3.2 ergibt sich für die normalisierten Werte x k,i = 2 A k+ M k 2 (4.2) x k,j = 2 A k M k 2 (4.3) 28

29 4 Normalisierung der ChIP-chip Daten Um diese Normalisierung mit mehreren arrays durchzuführen, werden beim cyclicloess Verfahren Anpassungen für alle paarweise verschiedenen arrays berechnet. Bei n arrays existieren für chip k n 1 Anpassungen, die gewichtet und anschließend auf den Datensatz angewendet werden. [5] 4.5 MAT MAT (Model-based analysis of tiling-arrays for ChIP-chip) schätzt ein Modell für die sequenzabhängigen Intensitätsunterschiede der Hybridisierung. Mit diesem Modell werden anschließend die Intensitäten normalisiert. Dieses Normalisierungsverfahren kann laut Autoren die Messung einer Kontrollprobe überflüssig machen. [28] 4.6 Scale Normalisierung Bei der scale Normalisierung werden die Signale jeder Replikatmessung durch ihre median absolute deviation (MAD) geteilt. Seien X 1,..., X n die n Signale einer Messung. Dann ist der MAD definiert durch MAD = median( X 1 median(x 1,.., X n ),..., X n median(x 1,.., X n ) ) (4.4) Der MAD ist ähnlich wie die Standardabweichung ein Maß für die Breite einer Verteilung. Jedoch ist der MAD robuster im Bezug auf Außreißer. Durch obige Normalisierung werden die Verteilungen der Intensitäten auf eine uniforme Breite gebracht. Mit Hilfe von boxplots kann entschieden werden, ob scale Normalisierung angewendet werden sollte. [55] 4.7 Welche Methode ist die richtige? Es muss nun geklärt werden, welche Methode geeignet ist, um die in 3.2 erwähnten systematischen Fehlerquellen zu beseitigen bzw. zu korrigieren. Hierzu werden nun die eben vorgestellten Normalisierungen anhand diagnostischer plots diskutiert. Abbildung 4.1 zeigt density plots der Intensitäten nach den einzelnen Normalisierungen. Die Rank- Percentile Normalisierung, sowie die Quantilnormalisierung erzeugen identische Verteilungen. Aber auch MAT und cyclic-loess erzeugen sehr ähnliche Verteilungen. Am meisten unterschieden sich die Verteilungen bei der scale Normalisierung. Es bedarf also hier einer genaueren Unterscheidung der Verfahren selbst, um das Passende auszuwählen. Ein wichtiger Punkt für die Normalisierung zwischen mehreren arrays ist, dass alle arrays eine ähnliche Verteilung bezüglich des Intensitätsniveaus haben sollten. Zudem sollte - wie in Kapitel 3 beschrieben - weitgehend Linearität zwischen den Experimenten gegeben sein. Andernfalls kann sich sehr stark auf die berechnete Ratio auswirken. 29

30 4 Normalisierung der ChIP-chip Daten rankpercentile MAT density IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt density IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt intensity intensity cyclic loess scale density IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt density IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt intensity intensity quantile none density IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt density IP1_rpb3 IP2_rpb3 IP1_wt IP2_wt intensity intensity Abbildung 4.1: Density plots nach der Normalisierung mit unterschiedlichen Verfahren. Die Rank-percentile und Quantilnormalisierung erzeugen identische Verteilungen. Die Verfahren MAT und cyclic-loess erzeugen ähnliche Verteilungen. none zeigt die densities der unnormalisierten Daten. Dies soll hier kurz an einem extremen Beispiel illustriert werden. Abbildung 4.3 (links) zeigt einen Ausschnitt der Ratio der log-transformierten Intensitäten von IP1 rpb3 und IP1 wt. In diesem Bereich ist eine Anreicherung an Polymerase II deutlich zu erkennen. Abbildung 4.3 (rechts) zeigt den gleichen locus, aber mit quadratisch transformiertem Kontrollexperiment. Hier ist die Anreicherung nicht mehr erkennbar. Die Normalisierung mit MAT liefert ähnliche Verteilungen für alle chips. Der zugehörige MA-plot zeigt, dass bei sehr niedrigen Intensitäten eine Abhängigkeit von Intensität und Ratio besteht. Auch wenn dies nur im Bereich niedriger Intensitäten der Fall ist, sollte die Methode in diesem Fall nicht verwendet werden. Zudem wurde kürzlich gezeigt, dass die modellbasierte sequenzspezifische Normalisierung mit MAT und vergleichbaren Verfahren keine Verbessurung gegenüber sequenzunabhängiger Normalisierung bringt 30