Bewertung von Pre-Prozessing-Verfahren

Ähnliche Dokumente

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

AUTOMATISIERTE HANDELSSYSTEME

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Einfache Varianzanalyse für abhängige

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Statistische Auswertung:

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Musterlösung zu Serie 14

Zeichen bei Zahlen entschlüsseln

Die Optimalität von Randomisationstests

QM: Prüfen -1- KN

1 Mathematische Grundlagen

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Einführung in die Algebra

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Professionelle Seminare im Bereich MS-Office

Daten sammeln, darstellen, auswerten

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Tutorial: Homogenitätstest

Taschenbuch Versuchsplanung Produkte und Prozesse optimieren

Lineare Gleichungssysteme

9. Schätzen und Testen bei unbekannter Varianz

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Konzepte der Informatik

Korrelation (II) Korrelation und Kausalität

Primzahlen und RSA-Verschlüsselung

Anwendungshinweise zur Anwendung der Soziometrie

1.3 Die Beurteilung von Testleistungen

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Insiderwissen Hintergrund

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Übungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder

Berechnung der Erhöhung der Durchschnittsprämien

Das Vermögen der privaten Haushalte in Nordrhein-Westfalen ein Überblick auf der Basis der Einkommens- und Verbrauchsstichprobe

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Lineare Gleichungssysteme

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Das Mathematik-Abitur im Saarland

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Willkommen zur Vorlesung Statistik

Grundlagen der Theoretischen Informatik, SoSe 2008

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Statistik für Studenten der Sportwissenschaften SS 2008

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Protokoll des Versuches 7: Umwandlung von elektrischer Energie in Wärmeenergie

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

DIE ANWENDUNG VON KENNZAHLEN IN DER PRAXIS: WEBMARK SEILBAHNEN IM EINSATZ

Mean Time Between Failures (MTBF)

Wir arbeiten mit Zufallszahlen

Lineare Gleichungssysteme I (Matrixgleichungen)

Info zum Zusammenhang von Auflösung und Genauigkeit

4. Erstellen von Klassen

4. Versicherungsangebot

SUDOKU - Strategien zur Lösung

Die reellen Lösungen der kubischen Gleichung

Versuch 3. Frequenzgang eines Verstärkers

Einfache statistische Auswertungen mit dem Programm SPSS

1 topologisches Sortieren

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

2 Evaluierung von Retrievalsystemen

8.2 Thermodynamische Gleichgewichte, insbesondere Gleichgewichte in Mehrkomponentensystemen Mechanisches und thermisches Gleichgewicht

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Die Größe von Flächen vergleichen

Zugversuch. Laborskript für WP-14 WS 13/14 Zugversuch. 1) Theoretische Grundlagen: Seite 1

Theoretische Grundlagen der Informatik WS 09/10

TECHNISCHE UNIVERSITÄT MÜNCHEN

XONTRO Newsletter. Kreditinstitute. Nr. 18

W-Rechnung und Statistik für Ingenieure Übung 11

Plotten von Linien ( nach Jack Bresenham, 1962 )

DSO. Abtastrate und Speichertiefe

Dynamische Methoden der Investitionsrechnung

Praktikum Physik. Protokoll zum Versuch: Geometrische Optik. Durchgeführt am

R ist freie Software und kann von der Website.

6.2 Scan-Konvertierung (Scan Conversion)

Die Näherung durch die Sekante durch die Punkte A und C ist schlechter, da der Punkt C weiter von A entfernt liegt.

Datenbanken Kapitel 2

Forschungsstatistik I

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

A1.7: Entropie natürlicher Texte

Stift-Karussell in M-Plot einrichten

Kennlinienaufnahme elektronische Bauelemente

Dokumentation. estat Version 2.0

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

7 Rechnen mit Polynomen

Quadratische Gleichungen

Dokumentation Datamining

Induktivitätsmessung bei 50Hz-Netzdrosseln

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

DIFFERENTIALGLEICHUNGEN

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Transkript:

Bewertung von Pre-Prozessing-Verfahren für die Mikroarray-Gen-Expressionsanalyse von Mohammad Esad-Djou Institut für Informatik Interdisziplinäres Zentrum für Bioinformatik IZBI WS 2006/07 zur Erlangung des akademischen Grades Diplom

ABSTRACT Das zentrale Ziel der Gen-Expressionsanalyse ist es, Gene und Gen-Gruppen mit differenziellen Expressionsmustern zu detektieren und zu charakterisieren. Die Qualität der Microarray-basierten Gen-Expressionsanalyse ist durch eine Vielzahl von unerwünschten systematischen und zufälligen Fehlern beeinflusst. Pre-Prozessing-Methoden sollen die gemessenen Rohintensitäten der Proben in ein geeignetes Expressionsmaß möglichst fehlerfrei transformieren. Trotz einer Vielzahl von entwickelten Algorithmen bleibt das Pre-Prozessing von Mikroarraydaten problematisch: zum einen gelingt die notwendige Korrektur nur teilweise. Zum anderen ist die Wahl des Verfahrens aufgrund fehlender Vergleichsstudien meist problematisch. Im Mittelpunkt dieser Arbeit stehen ausgewählte Probleme der Bewertung von Pre-Prozessing-Methoden und die Analyse von Expressionsdaten. Es wird ein Bewertungssystem für das Pre-Prozessing von Mikroarraydaten unter Verwendung vorhandener R-Routinen entwickelt und angewendet. Es wurde das Werkzeug GE-Comp in der Programmierungssprache R entwickelt. Durch seine modulare Struktur können unterschiedliche Testfälle kombiniert und anhand statistischer Parameter verglichen werden. Insbesondere können Pre-Prozessing-Methoden mit unterschiedlichen Algorithmen der Background Correction und Normalization bewertet werden. GE-Comp unterstützt weitere Auswertungen mit Affycomp [12] und SAM [15]. Das Bewertungsverfahren kann als Werkzeug für weitere Entwicklungen von Pre-Prozessing-Methoden Anwendung finden.

INHALTSVERZEICHNIS Danksagungen/Widmungen... iii Abkürzungsverzeichnis...iv 1 Einführung... 1 1.1 Problemstellung...1 1.2 Das Ziel der vorliegenden Arbeit...1 1.3 Struktur der Arbeit...2 2 Grundlagen der Gen-Expressionsanalyse... 3 2.1 Biologische Grundlagen: Vom Gen zum Protein...3 2.2 Gen-Expressionsanalyse...3 2.2.1 GenChip-Technologie...4 2.2.2 Hybridisierung und Image Prozessing...4 2.3 Pre-Prozessing...5 2.3.1 MAS...6 2.3.2 RMA...7 2.3.3 dchip: Li-Wong...8 2.3.4 GC-RMA...9 2.3.5 Plier: Probe Logarithmic Intensity Error...9 2.3.6 Das Oligo-Verfahren...11 2.3.7 VSN (Variance Stabilization ans Normalization)...12 2.4 Zusammenfassung...13 3 Bewertung der Pre-Prozessing-Verfahren... 15 3.1 Simulationsansatz...15 3.1.1 Simulation der Gen-Expressionsdaten und Vergleichkriterien...15 3.1.2 Grenze des Vorschlags...16 3.2 R-Paket: Affycomp [16], [12]...16 3.2.1 Der affycomp-report...17 3.2.2 Bewertung der Affycomp...19 3.3 SAM (Significance Analysis of Microarrays)...19 3.3.1 Test Statistik [42]: SAM-Verfahren...20 3.3.2 Abschätzung der FDR (False Discovery Rate)...21 3.4 Zusammenfassung...22 4 Konzept und Aufbau von GE-Comp... 24 4.1 Fehleranalyse...24 4.2 Die Überprüfungsebenen...24 4.3 Berichte und Visualisierung...25 4.4 GE-Comp: Analyse und Entwurf...25 4.4.1 Anwendung von GE-Comp in R...28 4.4.2 Vorbereitung der Test-Fälle...31 5 Ergebnisse... 34 5.1 Test und Testumgebung...34 5.2 Die Test-Fälle...34

5.3 Bewertung von Pre-Prozessing-Verfahren...34 5.4 Statistische Analyse von der Einzeln-Pre-Prozessing-Verfahren...35 5.4.1 Verteilung und Einfluß von Ausreißern...35 5.4.2 Standard-Abweichung: Präsizion...37 5.4.3 Normalisierungseffekte...38 5.4.4 Fold Change...39 5.5 Vergleich der Pre-Prozessing-Methoden...42 5.5.1 Korrelation zwischen den Methoden...42 5.6 Analyse der Background Correction...43 5.7 Analyse der Normalization...45 5.8 Differentiell exprimierte Gene...48 5.9 SAM-Analyse...53 5.9.1 Keine signifikante Änderung von Gene...53 5.9.2 Differentiell exprimierten Spike-in Gene...55 5.9.3 Problematik der p-wert-korrektor...59 6 Zusammenfassung und Ausblick... 61 Literaturverzeichnis... 62 Anhang A: Testen... 64 A.1 Testdatensätze...64 A.1.1 HG-U133A...64 A.1.2 Spike-in-Experimente...64 A.2 Testfälle...65 Glossar... 69 ii Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Danksagungen/Widmungen Bei den folgenden Personen möchte ich mich besonders bedanken: Herrn Dr. Hans Binder für die Ermöglichung, Aufgabenstellung und Unterstützung der vorliegenden Diplomarbeit. Er zeigte stets großes Interesse an der Arbeit und unterstützte mich mit wertvollen Tipps und las die Arbeit mehrmals gegen. Den Mitgliedern vom Bioconductor-Forum, die sorgfältig meine Fragen zum Thema R-Sprache beantworteten. Besonders hervorzuheben sind dabei Gordon Smyth, Adaikalavan Ramasamy, Zhijin (Jean) Wu, Kasper Daniel Hansen, Wolfgang Huber, James MacDonald, Robert Gentleman, Jenny Drnevich, Seth Falcon, Ido M. Tamir, Naomi Altman und Sean Davis. Herrn Holger Schwender für seine engagierten und hilfreichen Antworten zum Siggenes-Paket der Arbeit. Meinen Freunden Steffen Junick, Nico Scherf und Johannes Freudenberg für diverse Anregungen und Diskussionen. Diese Diplomarbeit ist meinen Freunden gewidmet, die im Jahr 1988 in Folge des Massakers in verschiedenen Städten des Iran hingerichtet worden sind. iii Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Abkürzungsverzeichnis BGC Background Correction CSV CV DNA FC FDR FPR Comma Separated Values Coefficient of Variance Desoxyribonukleinsäure Fold-Change False Discovery Rate False Positive Rate GC-Content Guanine-Cytosine-Content IM IQR LW Ideal Mismatch Intraquartile range Li/Wong, dchip MAS Microarray Suite 5.0 MM mrna MSE nf PLIER PM RMA RNA ROC SAM sf TPR VSN Mismatch Messenger RNA Mean Square Error Normalization Factor Probe Logarithmic Intensity Error Perfect Match Robust Multichip Average Ribonukleinsäure Receiver Operating Characteristic Curve Significance Analysis of Microarrays Scaling factor True Postive Rate (Sensititvität) Variance Stabilization and Normalization iv Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

1 Einführung Die Gen-Expressionsanalyse erhält zunehmende Bedeutung in vielen Bereichen biomedizinischer Forschung. So genannte Oligonucleotid-Microarrays haben sich dabei zu einem zentralen Werkzeug entwickelt [35]. Ziel ist es, Gene und Gen-Gruppen, mit differenziellen Expressionsmustern zu isolieren und zu charakterisieren. Die Qualität der Ergebnisse wird von unerwünschten Effekten beeinflusst [3]. Dazu gehören die Qualität der Arrays und der Probenpräparation, z. B. bei der Hybridzation und dem Scannen der Probenintensitäten [35]. So genannte Pre-Prozessing-Methoden sollen derartige Fehler minimieren. Das Pre-Prozessing von Mikroarrays kann in drei Schritte unterteilt werden, die den Hintergrund-bereinigen (Background Correction), Intensitäten zu vergleichender Chips normieren (Normalization) und mehrere Probenwerte zu einem Expressionswert je Gen aggregieren (Summarization) [6], [7], [8]. 1.1 Problemstellung Der Vergleich von Pre-Prozessing-Methoden als ein wichtiger Teilschritt der Gen-Expressionsanalyse ist Gegenstand der vorliegenden Arbeit. Die Bewertung und der Vergleich der Methoden erfordert die Bestimmung der Präzision und der Genauigkeit der jeweiligen Verfahren. Die Präzision lässt sich durch die Varianz oder Coefficient of Variance (CV) ausdrücken. Sie zeigt jedoch nicht an, wie nah eine Messung an der Realität ist [30]. Dies erfordert zusätzlich die Abschätzung des Bias, d.h. der systematischen Abweichung zwischen Mess- und wahrem Wert. Letzterer ist in der Regel nicht bekannt, so dass die Abschätzung der Genauigkeit in der Regel schwer möglich ist [19]. Ein Ausweg stellt die Verwendung von standardisierten Kalibrier-Datensätzen wie z. B. Spike-in-Experiment dar (siehe Kap. 5 und Anhang A) [12] Es gibt mehrere etablierte Methoden für das Pre-Prozessing der Probe-Level-Daten von Affymetrix GeneChips wie z. B. MAS (Microarray Suite 5.0), RMA (Robust Multichip Average) und dchip (bzw. Li-Wong). Aufgrund der genannten Probleme ist es schwierig, die beste Methode herauszufiltern. Darüberhinaus können für verschiedene Anwendungen unterschiedliche Verfahren jeweils die besten Ergebnisse liefern. Pre-Prozessing-Methoden werden hinsichtlich bestimmter Kriterien verglichen und es erfolgt somit eine Bewertung. Diese Kriterien werden im Kapitel 4 diskutiert. 1.2 Das Ziel der vorliegenden Arbeit Es soll ein Bewertungssystem erarbeitet werden, welches verschiedene Pre-Prozessing Verfahren vergleicht. Insbesondere soll der Einfluß unterschiedlicher Teilschritte der Vorverarbeitung mit jeweils unterschiedlichen Algorithmen auf die erhaltenen Expressionswerte anhand ausgewählter

Beispiele untersucht werden. Im Weiteren soll die erarbeitete Methode als ein praktisches Werkzeug bei der Weiterentwicklung von Pre-Prozessing-Methoden Anwendung finden. Folgende Teilaufgaben sollen bearbeitet werden: Konzipierung des Bewertungskonzepts unter Verwendung beschreibender Statistik und vergleichender Tests. Die Implementierung der Methoden in R (GE-Comp): Durch Verwendung der modularen Struktur sollen sowohl neu entwickelte als auch vorhandene Algorithmen in dem Werkzeug integriert werden. Die Verifizierung der Methode unter Verwendung von ausgewählten spiked-in Datensätzen. Vergleich verschiedener Preprozessingverfahren: MAS5, RMA, dchip, GC-RMA, PLIER und der am IZBI entwickelten OLIGO-Methode In der vorliegenden Arbeit werden alle möglichen Preprocessing-Schritte d.h. Background Correction, Normalization, PM-Correction und Summarization - betrachtet, und Signalwerte vor und nach dem Pre-Prozessing untersucht. Dadurch werden Erkenntnisse über den Einfluss des jeweiligen Schritts gewonnen. Im Unterschied zum Simulationsansatz von Freudenberg werden die Vergleichsdaten nicht synthetisiert [1], sondern es werden experimentelle spiked-in Datensätze herangezogen [42 CEL-Dateien von Affymetrix (HG-U133A)]. Ein weiterer Unterschied besteht darin, dass Expressionswerte, die aus verschiedenen Pre-Prozessing-Methoden erhalten wurden, als Eingabedaten zur Bestimmung differentiell exprimierter Gene mittels SAM (Significance Analysis of Microarrays) - eine von Robert Tibshirani u. a. erarbeiteter statistischer Test - verwendet werden. Das entwickelte Werkzeug (GE-Comp) ist mit Hilfe des Skripts in der R-Programmierungsumgebung anwendbar. Aus seiner modularen Architektur ergeben sich flexible Testmöglichkeiten. GE-Comp integriert die Möglichkeiten alternativer Ansätze wie affycomp [12] und SAM [15] (siehe Kapitel 3). 1.3 Struktur der Arbeit Kapitel 2 behandelt in die Grundlagen der Gen-Expressionsanalyse und die wichtigsten Pre-Prozessing-Verfahren. Im Kapitel 3 werden Methoden bzw. Alternativen zur Bewertung von Pre-Prozessing-Verfahren erläutert. Im 4. Kapitel werden das Konzept und der Aufbau von GE-Comp dargestellt. Im 5. Kapitel werden die verwendeten Testfälle und die Ergebnisse präsentiert, wobei sechs Pre-Prozessing-Verfahren MAS, RMA, dchip, GC-RMA, Plier und Oligo - miteinander verglichen werden. Das 6. Kapitel gibt eine Zusammenfassung und einen Ausblick. 2 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

2 Grundlagen der Gen-Expressionsanalyse 2.1 Biologische Grundlagen: Vom Gen zum Protein Die DNA (Desoxyribonukleinsäure) und die RNA (Ribonukleinsäure) sind Polymere aus sequenziell angeordneten Nukleotiden. Chemisch ist jedes Nukleotid aus einem Zuckerrest, einer Phosphatgruppe und einer Base zusammengestzt. Die Basen, die in der DNA auftreten können, sind Adenin, Cytosin, Guanin und Thymin (A, C, G und T). In der RNA ist Thymin durch Uracil (U) ersetzt. Die Nukleotide seien im Weiteren basenspezifisch mit A, C, G und T abgekürzt. Die kleinste mögliche Einheit zur Kodierung genetischer Informationen, das Codon, besteht aus drei miteinander verbundenen Nukleotiden. Gene unterscheiden sich voneinander in der Abfolge der Nukleotide. Um aus einem Gen ein Protein zu synthetisieren, wird der DNA-Strang nach der Herstellung einer RNA-Kopie (Transkription) als mrna (messenger-rna) ins Cytoplasma entlassen. Die Ribosomen lesen die benötigten Aminosäuren an der mrna ab, die dann von einem trna-molekül angeliefert und zu der Polypeptidkette verknüpft werden [36, Teil III, Kap. 16-17]. 2.2 Gen-Expressionsanalyse Die Gen-Expression wird als Ablesen der in den Genen enthaltenen Informationen in der mrna bezeichnet. Sie erfolgt in der Regel als Transkription von der DNA zur mrna und anschließender Translation von der mrna zum Protein [23]. Mit Hilfe der Gen-Expressionsanalyse wird die Aktivität der Gene in einer Zelle/in einem Gewebe oder in einem Organismus anhand der mrna Konzentration entsprechender Gene ermittelt. Von der Analyse der Gen-Expression erhofft man sich die Aufklärung des Zusammenhangs von Genen und deren Ausprägung im entsprechenden Phänotyp [21]. Das Hauptziel der Gen-Expressionsanalyse besteht nun darin, die signifikant differenziell exprimierten Gene oder Gen-Gruppen zu identifizieren. Es existieren verschiedene experimentelle Verfahren zur Realisierung der Gen-Expressionsanalyse. Ältere Techniken wie z. B. Southern-Blotting und Northern-Blotting analysieren einzelne ausgewählte Gene. Neuere Techniken z. B. Differential Display und Serial Analysis of Gene Expression (SAGE) identifizieren bereits bis zu tausende Gene gleichzeitig [21]. Unter Gene-Mikroarrays werden moderne molekularbiologische Untersuchungstechniken bezeichnet, die die simultane Bestimmung einer Vielzahl unterschiedlicher mrna-segmente ermöglichen. Die GeneChip-Technologie von Affymetrix kann bis zu eine Million Oligonukleotide-Proben (etwa 50000 Gene) repräsentieren. Mikroarrays können sich unter anderem in der verwendeten festen Oberfläche (z. B. Glas, Plastik oder Nylonmembran), in der 3 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Länge der Proben, in der Proben-Dichte und in der Detektionsmethode (z. B. Ein- oder Zwei- Farben-Fluoreszenz) unterscheiden [2]. In dieser Arbeit werden Mikroarrays der Affymetrix GeneChip-Technologie betrachtet. Dieser Chiptyp gehört gegenwärtig zu den meist verwendeten Technologien bei der Genexpressionsanalyse. Die Technologie ist ausführlich in [2], [3] und dem Technical Manual von Affymetrix [4] beschrieben. 2.2.1 GenChip-Technologie Zur Darstellung eines Gens verwendet Affymetrix die Intensitäten von mehreren Proben. Abbildung 1 illustriert die Beziehungen zwischen mrna, Probe, Probepaar und Probeset. Ein Probeset besteht aus 11-20 Probepaaren. Ein Probepaar wird aus 2 Proben gebildet, die gepaart vorliegen: Perfect Match (PM) und Mismatch (MM). Eine Probe enthält jeweils 25 Basen. Die PM-Probe wurde entworfen, um mit dem gesuchten spezifischen Transkript zu hybridisieren. Die entsprechende MM-Probe soll Kreuzhybridisierungen detektieren. Die MM-Probe unterscheidet sich von der PM-Probe nur in der mittleren Position, der 13. Base. Der Expressions-Level eines Gens wird aus den Werten der Proben eines Sets summarisiert. [57], [2]. Abbildung 1: Zusammenhang zwischen Probe (PM und MM) und Probeset in der Affymetrix GenChip-Technologie [2] 2.2.2 Hybridisierung und Image Prozessing Das Mikroarray-Experiment und die anschliessende Datenanalyse erfolgen in mehreren Schritten. Nach Hybridisierung, Waschen und Fluoreszenzlabeling wird im ersten Schritt mit Hilfe des Scanners ein digitales Bild des Chips generiert. Das Bild wird im zweiten Schritt in quadratische Flächen (Zonen) aufgeteilt. Mittels geeignetem Imageprozessings wird die mittlere Intensität je Probenspot (Probenintensität oder Signalwert), der einer Fläche entspricht ermittelt. Diese Intensitäten (der PM- und MM-Proben) werden in einer CEL-Datei abgelegt. Detailierte Informationen befinden sich in [2]. Im dritten Schritt (Abbildung 2) werden die Rohintensitäten pre-prozessiert, um anschließend im vierten Schritt die Expressionswerte der einzelnen Proben zu ermitteln [siehe Abschnitt 2.3]. 4 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Abbildung 2: Microarray Data Analysis Prozess Grober Überblick [3 modifiziert] 2.3 Pre-Prozessing Bevor die Roh-Intensitäten analysiert werden können, müssen sie bereinigt bzw. aggregiert werden. Dabei unterscheidet man bis zu vier Teilschritte, die in der Tabelle 1 dargestellt sind. Teil-Schritt Background Correction Beschreibung Entfernen des Background Noise und des Image-Processing-Effects von der Signalintensität. Normalization Erzeugen einer vergleichbaren Probeintensität von verschiedenen Chips. PM-Correction Korregieren der PM-Intensität in einem Probeset für die nichtspezifische- (die Kreuz-) Hybridisierung. In manchen Quellen wird die PM-Correction nicht erwähnt. Summarization Aggregation der Werte der Probesets vom gleichen Gen zu einem Expressionswert. Tabelle 1: Teil-Schritte des Pre-Prozessing Background Correction: Die Hintergrundkorrektur entfernt Intensitätsanteile, die nicht auf die Bindung des Targets zurückzuführen sind. Die unerwünschten Hintergrundeffekte der Intensität sind z. B. auf das Image-Prozessing der Probenspots aber auch auf Kreuzhybridisierung mit nicht-spezifischer RNA und dem optischen Hintergrund (Restintensität beim Fehlen von hybridisierter RNA) zurückzuführen [20]. Normalization: Die Normalisierung bezeichnet den Ausgleich systematischer Unterschiede in der Verteilung der Proben-Intensitäten zwischen verschiedenen Chips, die nicht auf die differentielle Expression von Genen zurückzufüheren sind [20]. PM Correction: Zur Bestimmung des Anteils nicht-spezifischer Bindungen wurden die PM-Proben auf den Affymetrix GeneChips mit MM-Proben gepaart (siehe Abschnitt 2.2.1 und 5 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Abbildung 1). Damit kann man die MM- Intensitäten zur Korrektur der Kreuz-Hybridisierung und des optischen Hintergrunds der PM-Intensitäten verwenden. Im einfachsten Fall wird die MM-Intensität von der PM-Intensität subtrahiert. Eine Reihe von Verfahren - wie RMA und GC-RMA - verzichten auf die MM-Werte. MAS verwendet jedoch diesen Teil-Schritt [20]. Summarization: Die Summarization aggregiert die Probenintensitäten jedes Probe-Sets zu je einem Expressionswert. Background Correction Intensitäten Normalization Normierte Arrays Probe-Set Probe-Set PM-Correction Korrigierte PM Korrigierte PM Summarization: Expressions-Set BG-Korrigierte Intensitäten Probe-Set Korrigierte PM Roh- Daten Probe Level Data Expressionswert Abbildung 3: Pre-Prozessing-Schritte [20, modifiziert] Wie in Abbildung 3 dargestellt, werden die Roh-Intensitäten von Eingabe-Datei(en) (z. B. einer CEL-Datei) gelesen. Danach werden die Hintergrundkorrektur und die Normalisierung durchgeführt. Im zweiten Block werden PM-Correction und Summarization zur Ermmitlung der Expressionswerte angewendet. Im Folgenden werden ausgewählte Pre-Prozessing-Methoden kurz vorgestellt. 2.3.1 MAS Microarray Suite 5.0 (MAS) ist das Standard-Pre-Prozessing-Verfahren von Affymetrix. In diesem Verfahren wird das Pre-Prozessing wie folgt realisiert [6]. Background Correction: Zur Abschätzung des Hintergrundwertes wird der Chip in K gleiche Zonen aufgeteilt (Default K=16). Danach werden Probe-Intensitäten jeder Zone geordnet (Ranking) und aus den niedrigsten der 2% Probe-Intensitäten in jeder Zone der mittlere Hintergrund b berechnet (bz k ). Die Standard-Abweichung dieser Intensitätswerte ist ein Maß des Hintergrundrauschens jeder Zone (nz k ) [6]. Die zur Korrektur verwendeten Hintergrundwerte werden zwischen den Zonen interpoliert [1]. Normalization: Die MAS-Methode verwendet einen simplen Scaling-Algorithmus zur Normalisierung. Der Algorithmus berechnet zwei Faktoren den sog. Scaling Factor sf und den Normalization Factor nf. Der Scaling factor (sf) wird wie folgt berechnet: 6 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

sf Sc = SignalLogValue( i ) Mittel( 2, 0. 02, 0. 98 ) (2.1) [6, modifiziert] Sc bezeichnet das Target Signal (Target-mRNA-Konzentration). Die SignalLogValue wird aus den zugehörigen Probe-Sets i mittels One-Step Tukey s Biweight-Mittelung berechnet (siehe Summarization in MAS unten). Die Funktion Mittel berechnet den Mittelwert aller Beobachtungen nach Entfernung der Ausreißer (niedrigste bzw. höchste) 2% (d.h. 96% von Probe-Sets). Die Intensitäten werden danach wie folgt berechnet: SignalLogValue( i ) Intensität( i ) = nf * sf * 2 (2.2) [6, vereinfacht] Der Normalisierungs-Faktor nf wird mit Hilfe eines Refernzchips bestimmt, auf den alle weiteren Chips so skaliert werden, dass sie den gleichen mittleren Intensitätswert aufweisen [37]. PM-Correction: Die Grundannahme des Affymetrix-Probendesigns besteht darin, die MM als Proben für den nicht-spezifischen Hintergrund zu verwenden. Ein naiver Ansatz würde dann einfach das hintergrundkorrigierte Signal aus der Intensitätsdifferenz PM MM berechnen. Aufgrund der unterschiedlichen Mittelbasen der PM und MM führt diese Korrektur jedoch zu systematischen Fehlern, was sich z. B. in negativen Differenzwerten für ca. 40% aller Probenpaare widerspiegelt. Um diesen Effekt negativer PM MM Intensitätsdifferenzen zu vermeiden, werden die Intensitäten der MM-Proben in MAS durch einen sogenannten Ideal Mismatch (IM) Wert substituiert, der negative PM MM Intensitätsdifferenzen unterdrückt [6]. Summarization: Die individuellen Probenintensitäten eines Sets werden mittels des One-Step Tukey s Biweight Algorithm zu einem Expressionswert agreggiert. Dieser Algorithmus berechnet den Median der logarithmierten Intensitäten, wobei Ausreisser mit zunehmender Abweichung vom Median mit geringerem Gewicht berücksichtigt werden [6]. 2.3.2 RMA Background Correction: Der Background wird aus der Faltung der Verteilungen des Signals und des Hintergrunds geschätzt (siehe [13], [29] und [20]). Dabei wird für die letztere eine log-normal Verteilung und für die erstere eine exponentielle Verteilung angesetzt. Die Hintergrundverteilung ist durch ihre Position und Breite charakterisiert. Sie gilt für alle Proben des Arrays. Formel 2.3 zeigt die Berechnung der beobachteten Proben-Intensität. Sie wird als Summe des (tatsächlichen) Signals X und dem nicht-negativen Hintergrund Y modelliert. (siehe [37]) S = X + Y (2.3) [37] Normalization: Das RMA-Verfahren verwendet die Quantil-Normalisierung. Dabei werden n Arrays mit je p Genen in eine p n -Matrix X der entsprechenden Intensitätswerte transformiert. 7 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Die Werte eines jeden Arrays werden sortiert (X ), danach wird der Mittelwert jeder Zeile p (Gene) in X ermittelt und alle Positionen p in der sortierten Matrix X mit dem Mittelwert ersetzt. Das Verfahren wird für alle Positionen p wiederholt. Die sortierte Matix X wird anschließend wie die ursprüngliche Matrix X neu geordnet, um eine normierte Matrix X norm zu erhalten (siehe [37]). PM-Correction: Das RMA-Verfahren ignoriert die MM-Proben und nutzt PMonly. Summarization: Die logarithmierte Intensität jeder Probe wird additiv in einen Affinitäts- und in einen Expressionsanteil zerlegt. Die Modellparameter von log 2 α i und ( ) PM = α + β + ε (2.4) ( k) ( k) ( k) ( k) ij i j ij β j werden dann unter Verwendung der Intensitätsdaten mehrerer Chips (mindestens 4) mittels Median-Polish bestimmt. In der Formel (2.4) werden Parameter j = 1,...,J für die einzelnen Chips bzw. Arrays und k = 1,...,K für die einzelnen Probe-Sets verwendet. Jedes Probe-Set k besteht aus I Proben miti = 1,...,I. α i ist ein Probe-Effekt der i-ten Probe und β j der Chip-Effekt des j-ten Array. ε ij sind unabhängige und identische Fehler. Die Expressionswerte werden somit in der Log-Skala berechnet [37]. 2.3.3 dchip: Li-Wong Background Correction: Diese Methode verwendet keine gesonderte Hintergrundkorrektur. Normalization: Die Methode verwendet die sogenannte Invariant Set Normalisierung [8], [39], die auf der Annahme beruht, dass zwischen je zwei Chips eine Teilmenge von Genen existiert, deren Expressionsniveau sich nicht signifikant ändert. Zuerst werden die Probensignale aller Gene g 1,...,g m auf jedem Chip einer Serie mit abfallender Intensität geordnet (gerankt). Dann werden Intensitäten der Gene, die in den betrachteten Arrays ähnliche Rankzahlen besitzen, ausgewählt und als Invariant Set ausgezeichnet. Letztlich werden Probenintensitäten des Invariant-Sets für alle betrachteten Arrays auf die Werte eines daraus gewählten Baseline-Arrays mit Hilfe einer nicht-parametrische Kurve (running Median bzw. Smoothing Splines [39, S.10]) skaliert [38], [39, S. 9]. PM-Correction: Das Li-Wong-Verfahren bietet zwei Optionen, a) das volle Full-Li-Wong- Verfahren (LWF) und b) das reduzierte reduced-li-wong-verfahren (LWR). Ersteres verwendet nur PM-Intensitäten und ignoriert MM-Proben, letzteres verwendet die PM-MM Intensitätsdifferenz. Summarization: Die Li-Wong-Methode verwendet ein Modell, welches die Intensität additiv in einen probe-spezifischen Hintergrundanteil V j und einen Signalanteil zerlegt. Letzterer ist das Produkt aus einem probe-spezifischen Affinitäts- und einem genspezifischen Expressionsindex [24]. 8 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

(LWF:)PMij = V j +αjθ i +φjθ i +ε MM ij = V j +αjθ i +ε ( LWR :)PM ij MM ij =θφ i j +εij (2.5) Formel (2.5) beschreibt die zwei Varianten der Li-Wong-Summarization, in denen θ i den Expressionsindex des betrachteten Gens auf dem i-ten Chip und φ j bzw. α j die entsprechenden Proben-Affinitäten bezeichnen. Die Parameter werden mittels nichtlinearer Maximum-Likelihood-Schätzung aus den Intensitätsdaten mehrerer Chips berechnet. V j ist die Base-Line -Antwort des j-ten Probe-Paares aufgrund nicht-spezifischer Hybridation. 2.3.4 GC-RMA GC-RMA [18] verwendet einen ähnlichen Algorthmus wie RMA jedoch mit einer unterschiedlichen Methode zur Hintergrundkorrektur, die auf dem GC-Content der Proben basiert. Background Correction: GC-RMA korrigiert den Intensitätsbeitrag der nicht-spezifischen Bindung (NSB) und verwendet, im Unterschied zu RMA, die Probe-Sequenz. Entsprechend dem Gehalt an benachbarten GC wird eine GC-spezifische Hintergrundverteilung geschätzt und bei der Korrektur verwendet [18]. 2.3.5 Plier: Probe Logarithmic Intensity Error Die Plier-Methode [17] wurde von Affymetrix entwickelt und steht in kommerziellen Paketen - wie Stratagene s ArrayAssist zur Verfügung. Die Hauptintention von Plier liegt bei den Background- und den PM-Correction Algorithmen. Es werden außer den PM-MM, PM-Only Ansätzen zwei weitere Ansätze vorgeschlagen: PM-B: Hier wird das Perfect Match von der Background-Abschätzung subtrahiert. B kann mit uniform Percentage- oder spatially smoothed Percentage-Methoden, die im Plier-Packet vorhanden sind, berechnet werden. MM treated as additional PM: Die Addition der Perfect Match mit der Mismatch (PM+MM) kann in den Fällen angewendet werden, in welcher der Fold-Change im Expressionswert gering ist. Die Grundidee von Plier ist Effekte von probe-spezifischen Intensitäten und chipspezifischen Konzentrationen bei Korrektur-Abschätzung zu berücksichtigen. Solche Schätzungen werden in Plier auf Basis zweier Parameter - sog. Feature Response 1 f(i) und Target Response t(j) ermöglicht. Target Response t(j) ist ein Maß innerhalb eines Experimentes mit (multiplikativen) Unterschieden bezüglich der Intensität, die eine andere Konzentration haben. Feature Response f(i) (vgl. Scaling Factor in MAS-Normalization) ist ein relatives Maß innerhalb eines Probe-Sets mit (multiplikativen) 1 Irrizariy u. a. nennen den Term Probe-Affinität 9 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Unterschieden bezüglich der Intensität einer gegebenen Eigenschaft (z. B. in der Position, in der Probe-Reihenfolge, usw.), die unterschiedlich als andere ist (Entdeckung der systematischen Fehler). Plier nimmt an, dass Fehler auf Log-Skale Additive (log(pm) = signal + Fehler) und auf normal-skala Multiplikative sind (vgl. VSN in Abschnitt 2.3.7). Nach der Abschätzung von Target Response und Feature Response wird die Total Response y wie folgt berechnet (Annahme: gleiche PM- und MM-Fehler für das Probe-Paar i, vgl. Formel 2:1 und 2.2 in MAS-Verfahren): PM (m) MM (m) = y (m) = t( j )* f (m) ( i )* e (2.6a) (siehe [17], [25] modifiziert, vereinfacht) ij ij ij wo t(j) ein chipspezifisches Hintergrundsignal (Konzentration von RNA auf Chip j) und f(i) probespezifische Werte (sog. Probe-Affinität für Probe-Paar i in Gen m) bezeichnet. e präsentiert Fehler. Zur Ermittlung der Fehler e wird ein Zwischenwert q mit Likelihood-Verfahren aus gemessenen PM- und MM-Intensitäten und Total Response y wie folgt berechnet: q = ( y* y) +4*PM*MM (2.6b) [17] Dannach wird für jedes Probe-Set der Fehler der beobachteten Intensitäten mit Formel (2.6c) berechnet: (y+ q) e = ( 2*PM ) (2.6c) [17] Wenn nur PM-Intensitäten verwendet werden, wird Formel (2.6d) zur Abschätzung des Fehlers mit BKG als Hintergrund-Wert benutzt: (y+ BKG) e = PM (2.6d) [17] Wenn die Abschätzung des Fehlers e berechnet ist, wird der Residual r auf Log-Skale und die German-McClure-Funktion (sog. M-Schätzer) h zur Reduzierung der inkonsitenten Features mit einem konstanten Tuning-Parameter z berechnet werden: h r = log( e ) (2.6e) [17] = 1 r*r r + r* z Anschließend werden Ergebnisse für das Probe-Set, als Log-Likelihood-Approximation LL aggregiert: LL(t,f ) = H(PM,MM,BKG,f(i),t(j)) = h(r)(2.7)[17] dann LL( t, f ) = h( r ) 10 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Für Normalization wird das Quantile-Verfahren (von RMA) und der Summarization-Algorithmus (von MAS) One-Step Tukey s Biweight - verwendet [17]. 2.3.6 Das Oligo-Verfahren Die Grundlage des Oligo-Verfahrens [10] ist die Modellierung der Signalintensität (P = PM oder MM, p = Probennummer) durch folgenden Annahmen: 1) Die Signalintensität (I) jeder Probe setzt sich additiv aus Anteilen spezifischer (S) und nichtspezifischer (NS) Hybridisierung zusammen. I = S + NS, d. h. es binden P P P P P P spezifische als auch nicht-spezifische RNA-Fragmente an die Probe. Spezifische Fragmente sind vollständig komplementär zur Probe (25 bp), nicht-spezifische nur teilweise (üblicherweise einige Basen). 2) Bei hohen RNA-Konzentrationen sättigen die Proben, d. h. mit steigender RNA-Konzentration binden zunehmend immer weniger der RNA-Target Fragmente. Dieses Verhalten wird mit der sogenannten Langmuir Isotherme beschrieben: I P P S + NS = mit 1 + f.( S + NS ) P P P P P P P P f 1 = (max. mögliche Probeintensität) I max 3) Hinzu kommt ein optisches Hintergrundrauschen, da jede Probe beim scannen selbst dann eine Signalintensität zurückgibt, wenn keine Hybridisierung stattgefunden hat. Dieser Wert trägt deshalb nicht zur Sättigung bei. P P P P SP + NSP SP + NSP I = + I = + I P P p 1 + f.( S + NS ) 1 + f. I P R R P p P P P p 4) Die Beiträge der spezifischen und nichtspezifischen Bindung werden multiplikativ in einen probenspezifischen Delta-Term, und in einen Gen- bzw. Chipspezifischen Anteil zerlegt, S = S set * S und NS = NS set * NS Die Gleichung verändert sich zu: I P P P P P P SP. SSet + NSP. NSChip = + I P 1 + fi. P R P Der gesuchte Wert ist der Expressionsgrad S Wert für den gesamten Chip berechnet werden NS S und NS bestimmt werden. Set P. Für den nichtspezifischen Anteil muss ein P Chip. Zusätzlich müssen die Sequenzprofile 11 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Auf der Basis dieser Annahmen werden beim Oligo-Verfahren die benötigten Parameter P PM MM PM MM R NS, S, S, NS, NS, I, I aus den Intensitäten bestimmt, um letztendlich Chip P P P P Max p P S Set zu schätzen. Nach der Bestimmung des optischen Hintergrunds [siehe 2.3, Background Correction] wird die sogenannte Hakenkurve (Abbildung 4, Links) aus den Probenintensitäten erzeugt, um aus ihr die gesuchten Parameter zu schätzen. Z. B. Die Probesets links vom Knick (grauer Bereich) werden als hauptsächlich nichtspezifisch hybridisiert angenommen und bilden somit die Grundlage für die Berechnung der nichtspezifischen Sensitivitätsprofile ( ). Mit den p NS p Sensitivitäts-korrigierten Intensitäten wird die Hakenkurve erneut berechnet und p NS p erneut bestimmt (Abbildung 4, Mitte). Durch Anpassung des Intensitätsmodells mittels Gradientenmethode an die Hakenkurve werden die benötigten Parameter geschätzt (Abbildung 4, Rechts). Anschließend werden aus den Daten die Sensitivitätsprofile für die spezifische Hybridisierung ( P S P ) berechnet. Abbildung 4: links: Hakenkurve aus Intensitätsdaten, mitte: Hakenkurven aus NS-korrigierten Intensitäten und rechts: Anpassung der theoretischen Funktion [10] Im letzten Schritt wird aus der Gleichung des Hybridisierungsmodells der spezifische Anteil der Hybridisierung ( S ) bestimmt. Die Werte für ein Probeset werden dann mittels des p p Turkey-Biweight Medianes und unter Ausschluss von Ausreißern berechnet [10]. 2.3.7 VSN (Variance Stabilization ans Normalization) VSN [9] ist ein Normalisierungsverfahren, das auf der Basis des multiplicative-additive error Modells von Rocke und Durbin [11] entwickelt wurde. In Rocke und Durbin [11] wurde ein zwei Komponentenmodell für die gemessene Gen-Expression y vorgeschlagen : η y = α+ε+ b. µ e [26] Hier bezeichnet α ein chipspezifisches (konstantes) Hintergrundsignal. µ das wahre Expressionsmaß ist in beliebigen Einheiten darstellt. ε und e η sind additive- bzw. multiplikative 12 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Fehler-Terme. b ist ein konstanter Verstärkungsfaktor für alle Gene eines Chips. Für beide ε (zufälliger Hintergrund) und η (zufällige Verstärkung) wird eine Normalverteilung mit dem Mittelwert null und den Varianzen 2 σ ε bzw. 2 σ η angenommen [26]. Entsprechend diesem Modell dominiert der additive Fehler für niedrige Intensitäten, während der multiplikative Fehler für hohe Intensitätswerte dominiert. Letzterer ist proportional zum wahren Signal µ. Huber [33] erweitert dieses Modell und berechnet die gemessene Intensität wie folgt: yik = α ik + b ik *x k [33] Entsprechend diesem Modell berechnet sich die Intensität y ik von Probe k auf Chip i additiv aus einem chipspezifischen Offset α ik und einem Signalterm, der sich multiplikativ aus einem Verstärkungsfaktor (sog. gain, vgl. Scaling Factor in MAS und Feature Response in Plier) b ik und dem wahren Expressionsmaß. x k zusammensetzt. Die Schätzung der Parameter des Fehlermodells wird folgendermaßen berechnet: α =α +ε ik i ik [33] α i bezeichnet den Offset pro Chip und ε ik den additiven Fehler. Additive Fehler sind nicht-spezifische Hybridisation, Kreuz-Hybridisation und Hintergrundfluoreszenz. Formel 2.8 zeigt die Berechnung des Verstärkungsfaktorsb ik, wo b i ein Normalisierungsfaktor pro Chip, b k ein sequenzspezifische Probe-Effizienz (der probespezifische Affinitäts-Faktor) und multiplikative Fehler ist. η ik ein b = b *b *e (2.8) η ik i k ik Huber berechnet die Parameter mit Hilfe des Sinus Hyperbolicus (arsinh) wie folgt (siehe [9], [33]): y ar sinh ik α b i i (vereinfacht dargestellt, siehe [33]) 2.4 Zusammenfassung Tabelle 2 fasst die beschriebenen Pre-Prozessing-Methoden überblicksartig zusammen. Die verschiedenen Methoden wurden oben kurz dargestellt. Die Notwendigkeit der Bewertung der einzelnen Methoden ergibt sich aus dervielfältigkeit der Pre-Prozessings-Ansätze. Die Überprüfung der Qualität von Gen-Expressionen vor, nach und auch in jedem Teilschritt des Pre-Prozessings ist erforderlich, um die Qualitätsniveaus von verschiedenen Pre-Prozessing-Methoden nach 13 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

bestimmten Kriterien sicher zu stellen. VSN wurde als Normalisierungsverfahren nicht berücksichtigt. Verfahren MAS5 RMA MBEI (GC-RMA) Plier OLIGO Probe Name Microarray Suite Logarithmic Model Based Robust Multi-Chip Robust Multi- Error Expression Average Chip Average Intensity Index Estimate Oligo Pre-Prozessing Autoren Affymetrix 2002 BGC Normalization PM-MM Differenz mit Korretur constant: Base Line Methoden, linearer Ansatz PM-Corrction PM-MM Bolstad, Speed, Irizarry 2003 Li, Wong 2001 Chip-Mittel None Wie RMA Quantiles PMonly invariantset: Base Line Methoden, non-linearer Ansatz Bolstad, Hubbell Speed, Irizarry (Affymetrix) 2004 2004 Wie RMA PMonly in Full- Li-Wong (Standard) subtractmm in PMonly Reduce-Li- Wong Mit PM- Correction in einem Schritt Wie RMA PM-MM, PM only, PM-B und (MM + PM) Binder, Preibisch, (IZBI) 2006 Wie MAS Oligo- Algorithmus Bestimmung der S- und NS- Proben, Langmuir Isotherme PM-MM One-Step Tukey Modell, Summarization Medianpolish Modell Wie RMA Wie MAS Wie MAS Anzahl der Chips Single Array Analysis 1 Multiple Array Analysis >4 Multiple Multiple Array Multiple Array Array Analysis >5 bis Analysis >4 Analysis >4 10 Skala Linear Log Linear Log Log Log, glog Tabelle 2: Zusammenfassung von sechs Pre-Prozessing-Methoden (siehe [28],[17])] 1 14 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

3 Bewertung der Pre-Prozessing-Verfahren Dieses Kapitel gibt einen Überblick über ausgewählte Vorschläge zur Bewertung von Pre-Prozessing-Algorithmen. Dazu zählt die Diplomarbeit von Freudenberg am IZBI [1], das affycomp-[12][13], das SAM- und das siggenes-paket [14][15], die in der Programmiersprache R geschrieben wurden. 3.1 Simulationsansatz In der Diplomarbeit von Freudenberg wurde eine parametrische Bootstrap-Prozedur zur Simulation von Gen-Expressionsdaten angewendet, um ausgewählte Pre-Prozessing-Methoden miteinander verglichen, um den Einfluss von Hintergrundkorrektur- und Normalisierungsverfahren zu untersuchen. Es wurde eine neuen Normalisierungsmethode (Global Loess) vorgeschlagen[1]. 3.1.1 Simulation der Gen-Expressionsdaten und Vergleichkriterien Microarray-Signaldaten werden in einem Simulationsansatz mittels parametrischen Bootstraps erzeugt. Replikate werden dabei mittels einer Normalverteilung berechnet, deren Parameter aus experimentellen Probendaten geschätzt wurden. Die differenzielle Expression wurde durch einfache Skalierung von hintergrundbereinigten Signalanteilen vorgegeben. Es werden 5 Kriterien erarbeitet, um verchiedenen Preprozessingmethoden miteinander zu vergleichen. Das erste Kriterium betrachtet Zeit- und Speicherverbrauch der Methoden. Die vier weiteren Kriterien sind mathematische Maßstäbe: 1. der zufällige Fehler (Varianz); 2. der systematische Fehler (Bias); 3. und die Kombination beider als MSE (Mean Square Error); und, 4. die Sensitivität. Abbildung 5: Median MSE vs. dem Anteil von differentiell exprimierten Genen [1] 15 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Beispielweise wurde MSE als aggregiertes Maß für Bias und Varianz verwendet, um den Einfluß der Normalisierungsmethode auf die geschätzte Expression zu untersuchen. Abbildung 5 zeigt den Median der MSE-Werte über alle simulierten Exprimente. Wie erwartet, ist eine deutliche Reduzierung von MSE nach der Normalisierung zu verzeichnen. Die drei ausgewählte Normalisierungs-Methoden Quantile, Global Loess und Invariantset liefern die besten Ergebnisse, die schlechtesten liefert MAS. Alle Test-Fälle wurden mit Medianpolish (siehe 2.3.2 RMA, Summarization) aggregiert. 3.1.2 Grenze des Vorschlags Folgende Probleme begrenzen die Anwendung bzw. Aussagefähigkeit des Simulationsansatzes: 1) Die begrenzte Speicherkapazität der Rechner; die im Bootstrapverfahren benötigte Kovarianzmatrix benötigt bereits für kleinere Chips (z. B. HG-U95Av2 mit 409600 Proben) über 600 GB Speicher. 2) Als Entwicklungsumgebung wurde die nur kommerziell-verfügbare Programmiersprache S-Plus verwendet. Im Unterschied zu R ist diese nicht frei zugänglich. 3) Einige mögliche Methodenkombinationen führen zu nicht-sinnvollen Ergebnissen. Als ein Beispiel kann VSN- und RMA-Verfahren dienen [1, s. 61-67]. Wenn man als Background Correction - RMA - und als Normalization - VSN - verwendet, werden nicht sinnvolle Werte berechnet 2 : Da die Intensitäten in RMA-Verfahren in die Log-Skala umgewandelt werden, erscheint die VSN-Normalisierung wirkungslos, da diese auf der originalen linearen Skala aufsetzt. Dies nennt man Über-Normalisierung (Over-Normalization). Die unaufmerksame Kombination verschiedener Verfahren liefert also nicht immer sinnvolle Erkenntnisse (siehe auch [34]). 3.2 R-Paket: Affycomp [16], [12] Affycomp wurde im Rahmen des Projekts Bioconductor als webbasiertes Werkzeug zum Vergleich und Bewertung von Preprozessingverfahren entwickelt. Das Paket kann zum Erzeugen eines automatischen Reports verwendet werden, der mehrere Plots und zusammenfassenden Statistiken erzeugt. Affycomp bewertet die Genauigkeit (niedriges Bias) und Präzision (niedrige Varianz) der erhaltenen Expressionsmaße für die spiked-in Datensätze von Affymetrix. Die Varianz eines Messprozesses kann einfach durch wiederholte Messungen geschätzt werden. Um jedoch den Bias einer Messung zu bestimmen, benötigt man die Kenntnis des tatsächlichen, wahren Wertes oder zumindest eine genauere, unabhängige Messung des Vergleichswertes. Aus diesem Grund verwedet Affycomp die Spike-in- und Dilution-Experimente. In Spike-in-Experimente werden unterschiedliche crna- 2 http://thread.gmane.org/gmane.science.biology.informatics.conductor/8862/focus=8863 16 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Fragmente der Hybridations-Mischung von Arrays in unterschiedlichen pm(pico Molar)- Konzentrationen hinzugefügt. Die crnas werden bei einer bestimmten Konzentration auf jedem Array (abgesehen von Replikaten) in einem zyklischen Latin Square 3 Design, wo jede Konzentration genau einmal in jeder Zeile und Spalte erscheint, angeordnet. In die Dilution-Experimente durch GeneLogic 4 gibt es zwei Quellen von RNA: 1.) menschliches Lebergewebe und 2.) Zellen des Zentralnervensystems (CNS). Diese werden zu den Arrays (HG-U95Av2) in einer Reihe von unterschiedlichen Verdünnungen und Verhältnissen hybridisiert. Beide Experimente haben eine gemeinsame Eigenschaft: Die Genauigkeit und das erwartete Resultat der Datensätze sind vorher bekannt. Dadurch kann der Bias der Auswertmethoden geschätzt werden. 3.2.1 Der affycomp-report Affycomp erzeugt einen standartisierten Report, der den direkten Vergleich verschiedener Preprozessingmethoden anhand analoger Plots und statistischer Parameter erlaubt. Im Einzelnen werden folgende Informationen generiert: die Varianz des Expressionsmasses über die Replikat-Arrays, der Zusammenhang zwischen Expressionsmaß und der Änderung der mrna Konzentration, die Genauigkeit von Expressionsänderungen (Fold-Change) Abbildung 6: Beobachtete Konzentration vs. nominale Konzentration für Spike-In Gene, oben, links nach rechts: MAS, RMA, dchip; unten, Links nach Rechts: GC-RMA, Plier und Oligo-Verfahren [16] 3 Ein Latin square der Ordnung n ist eine n n Matrix (Array) L = (a i,j ) mit Einträgen aus einer n-elementigen Menge A, so dass jedes Element aus A in jeder Zeile und jeder Spalte von L genau einmal vorkommt. Es gibt für Latin Square aller möglichen Ordnungen. 4 Siehe: http://qolotus02.genelogic.com/datasets.nsf/ 17 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Zum direkten Vergleich mehrerer Preprozessingmethoden kann ein entsprechender Report erzeugt werden. Im Folgenden werden zwei Beispiele für Ausgabe-Informationen des Web-Tools präsentiert. In Abbildung 6 ist der Durchschnitt der beobachteten Log 2 -Expressionswerte als Funktion der nominalen Konzentration für jedes Spike-in Gen geplottet (eine Differenz der logarithmierten Achsenwerte von 1 entspricht somit der Verdoppelung der Basiswerte). Die gestrichene diagonale Linie hat die ideale bzw. optimale Steigung von 1. In Abbildung 6 zeigt das Oligo-Verfahren und partiell auch GC-RMA einen nahezu optimalen Kurvenverlauf. Am schlechtesten sind dchip, RMA und MAS. Die Abbildung 7 zeigt mittels des Web-tools erzeugte ROC-Kurven (Receiver Operating Characteristic Curve). Sie korreliert die True Postive Rate (Sensititvität) mit der False Positive Rate (1-Spezifizität) der jeweiligen Preproessingmethode. Die optimale Charakteristik für einen den bestmöglichen Test entspricht einer hohen Sensitivität (TPR=1) bei hoher Spezifizität (FPR=0), d.h. einem ROC-Kurvenverlauf entlang der linken und oberen Koordinatenachsen. Die ROC-Kurve eines schlechten Tests wird dagegen mehr der Diagonale (TPR=FPR) folgen, die dem rein zufälligen und somit unspezifischen Ergebnis entspricht. Abbildung 7: ROC-Kurven: Sensitivität vs. False Discovery Rate (FDR) wird für 6 Verfahren geplottet: oben, von links nach rechts: MAS, RMA, dchip; unten, von links nach rechts: GC-RMA, Plier und Oligo-Verfahren [16] Ohne die Diskussion der Preproessingmethoden vorwegzunehmen (siehe Kapitel 5), ist sofort zu erkennen, dass RMA, GC-RMA, das Oligo-Verfahren und partiell dchip eine bessere ROC-Charakteristik zeigen als MAS und Plier. Das affycomp-webtool erzeugt insgesamt 13 18 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Abbildungen zu verschiedenen Aspekten der primären Datenanalyse. Tabelle 3 gibt einen Überblick dazu. 3.2.2 Bewertung der Affycomp Affycomp hat bemerkenswerte Vorteile, besonders hinsichtlich der Visualisierung und der standardisierten Testumgebung sowie der erzeugten statistischen Berichte betrifft. Allerdings weist Affycomp aber auch folgende Nachteile auf: 1. Die Verwendung von eigenen bzw. neuen Datensätzen ist bei Affycomp voraussichtlich kaum möglich. Sie müssen der vorgegebenen Struktur (wie z. B. Spiked-in-Design) haben. 2. Die Flexibilität des Pakets, z. B. für weitere Test-Methoden oder Testdaten, ist begrenzt. Abbildung Info Bewertung MAplot das Log 2 Fold Change (M) vs. das durchschnittliche Log 2 für alle Gene (A) von Spike-in Experimenten berechnet. (Figure 1) + Informationen über die Verteilung von FC + Überblick über die kombinierten Konsequenzen der Bias und die Varianz in den Schätzungen Spike-in data plot ROC- Kurven beobachtete FC vs. nominale FC Die beobachtete Konzentration wird gegen die nominale Konzentration für jedes Spike-in Gen geplottet (Figure 4.a) Die ROC-Kurven werden erzeugt, indem man die FP gegen die TP errechnet und zwar alle Punkte, bei denen die Plots einen bestimmten Wert/eine bestimmte Schwelle übersteigen. (Figure 5.a, Figure 5.b) Annahme: Der größt-mögliche beobachtete FC korrespondiert mit dem größten tatsächlichen FC. (Figure 6.a, Figure 6.b) + Ermöglicht die Bias und die Varianz festzusetzen + die Frage der Kennzeichnung der differentialen Expression + bietet eine graphische Darstellung für die Spezifizität und Sensitivität + die Darstellung der Abweichungen, außerdem eine Einschätzung der Bias + Figure 6.b: bessere Beobachtung der niedrigen Konzentration Tabelle 3: Zusammenfassung von ausgewählten Abbildungen im Affycomp-Paket 3.3 SAM (Significance Analysis of Microarrays) Der SAM-Ansatz ist eine von Robert Tibshirani u. a. erarbeiteter statistischer Test zur Bestimmung signifikant differentiell exprimierter Gene oder Gen-Gruppen anhand von Mikroarraydaten [14], [15] und [32]. Die Methode wurde in zwei R-Paketen, samr und siggenes, implementiert. In der vorliegenden Arbeit wurde nur Siggenes verwendet [42], [43]. Für jedes Gen wird eine modifizierte t-statistik als relatives Maß der differentiellen Expression bestimmt, welche die differentiellen Expression ins Verhältnis zu der aus wiederholten Messungen bestimmten Standardabweichung setzt. Für Gene mit t-werten jenseits einer justierbare Schwelle (threshold) verwendet SAM eine Permutationstechnik um die False Discovery Rate (FDR) zu schätzen [15]. Die Permutationstechnik vermeidet parametrische Annahmen über die Verteilung der einzelnen Gene. Das Ergebnis des t-tests wird als p-wert ausgegeben. Der p-wert gibt an, mit welcher Irrtumwahrscheinlichkeit (α) die Nullhypothese H 0 zu verwerfen ist. Das 19 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse

Signifikanzniveau α begrenzt die Wahrscheinlichkeit für Fehler erster Art bzw. für falsch positive Ergebnisse (FP) [40]. Je kleiner p, desto signifikanter folglich die ermittelte differentielle Expression. 3.3.1 Test Statistik [42]: SAM-Verfahren SAM kann Expressionswerte verwenden, um differentiell-experimnierte Gene zu ermitteln. Wenn man die Arrays (Sample bzw. CEL) mit n und die Gene mit m bezeichnet, dann können die gesamten Expressionswerte als eine Datenmatrix (m, n), mit m Zeilen und n Spalten dargestellt werden. Für jedes Gene i = 1,...,m wird als Test Statistik die differentielle Expression in einer relativen Skale in Bezug zu den entsprechenden Standardabweichungen gesetzt d i ri = s + s i 0 (3.4) [42] Dabei ist r i die differentielle Expression des Gens i in Bezug zur Referenzbedingung. s i ist die aus replikaten Messungen bestimmte Standardabweichung und der justierbare Term s 0 0 verhindert die Division durch Null und begrenzt somit Fluktuationen von d i bei zufällig auftretenden Werten von s i nahe Null. SAM betrachtet die Fälle ungepaarter und gepaarter Expressionswerte zweier zu vergleichender Klassen von Proben ( Sample versus Referenz): Ungepaarte Proben: Die differenzielle Expression und die entspr. Standardabweichung berechnen sich gemäss 1 1 r = x x = x x i i2 i1 ij ij n2 j C n 2 1 j C1 und (3.5) [42] s 1 1 x x x x n n 1 2 2 2 i = ( + ) ( ij i1) + ( ij i2) /( 1+ 2 2) n1 n2 j C1 j C2, wobei X die Expressionswerte von dem Gen i in CEL j = 1,...,n bezeichnet. Die Variablen C ij bezeichnen die Zahl der Beobachtungen innerhalb eines Klasse (C 1 und C 2 ). Dieser Ansatz setzt voraus, dass die arithmetischen Mittelwerte in jeder Gruppe normal verteilt und die Varianzen der Expressionswerte in beiden Gruppen gleich groß sind. Die Teststatistik des two class case for unpaired t-tests berechnet sich aus Gleichung (3.4) und (3.5). Gepaarte Proben: Im two class, paired Fall bilden zwei Samples (bzw. CEL) ein geordnete Paar (k, -k) mit {-1, 1, -2, 2,, -K, K}. Die differenzielle Expression und die entspr. Standardabweichung berechnen sich gemäss 20 Bewertung von Pre-Prozessing-Verfahren für die Mikroarray Genexpressionsanalyse