Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Florian Frommlet Institut für medizinische Statistik, Medizinische Universität Wien Wien, Jänner 2015

Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin http://neutronsforbreakfast.wordpress.com/

Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin Genetische Information als String in Alphabet mit vier Buchstaben http://neutronsforbreakfast.wordpress.com/ gaacgaatca ttgcaaagag ccaaagatcc aaaatttgca acaaaaacaa aaactctacc

Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben http://techglimpse.com

Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz) http://de.academic.ru

Standardmodell der Genetik http://kvhs.nbed.nb.ca

Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten http://pragmatyczny17.siam.im

Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden http://pragmatyczny17.siam.im

Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp. 203-209. Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa 12000 Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen

Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: 6 8 10 12 14 a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten

Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

Chip-Bilder Aymetrix Dank an Florian Klinglmüller

Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt

MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)

MA-Plots für 8 Chips Vergleiche Gentleman et al.

Methoden der Normalisierung Zweck: Vergleichbarkeit von verschiedenen Chips Aller einfachste Methode: Skalieren, so dass Intensitäten aller Arrays gleichen Mittelwert und gleiche Varianz haben Beispiel: ALLMLL Original: Skaliert: 6 8 10 12 14 6 8 10 12 a b c d e f g h a b c d e f g h

Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma

Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa 12000 Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Studie über Prostatakrebs Ein spezielles Gen Homo sapiens mrna for RET nger protein-like 3 Graphische Darstellung: Boxplot

Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = 17.0769, Gruppe 2: x 2 = 8.8846 Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0

Wahrscheinlichkeitsverteilung von T Theoretische Verteilung von T = x1 x2 S unter Nullhypothese: t-verteilt mit n 2 Freiheitsgraden Dichte der t-verteilung mit df Freiheitsgraden

Bestimmung des kritischen Werts Unter Annahme dass H 0 stimmt, suche symmetrischen Bereich wo H 0 mit Wahrscheinlichkeit α abgelehnt wird d.h. Nullhypothese wird fälschlich verworfen (Fehler 1. Art) Wahl des kritischen Werts für α = 0.05 und df = 50

t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = 1.9249 T = 4.26 Kritischer Wert: 2.0086 Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = 9.1372 10 5 T > kritischer Wert p-wert < α

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 beibehalten H 0 abgelehnt H 0 wahr Fehler 1. Art H 1 wahr Fehler 2. Art Power Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = 12000 Gene Wie groÿ ist FWER für α = 0.05?

Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = 12000 Gene Wie groÿ ist FWER für α = 0.05? Unter der (gewagten) Annahme, dass die Tests unabhängig sind: FWER = 1 (1 α) m = 1 4.8224 10 268 FWER praktisch nicht von 1 unterscheidbar Man erwartet 12000 0.05 = 600 falsche Entdeckungen

Multiples Testproblem Es bedarf einer Korrektur für multiples Testen

Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = 0.005 α = 0.05, m = 100 α Bon = 0.0005 Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = 4.1667 10 6 Gen mit p-wert 9.1372 10 5 nicht mehr signikant j=1

False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = 0.007 0.01 p [2] = 0.013 0.02 p [3] = 0.031 > 0.03 p [4] = 0.039 0.04 p [5] = 0.231 > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = 12000 Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = 3.0 10 6 p [2] = 9.5 10 6 p [3] = 10.5 10 6 p [4] = 11.1 10 6 p [5] = 15.2 10 6 p [6] = 70.5 10 6 p [7] = 91.4 10 6 p [8] = 207.8 10 6 p [9] = 236.2 10 6 p [10] = 296.5 10 6 iα n 4.17 10 6 8.33 10 6 12.50 10 6 16.67 10 6 20.83 10 6 25.00 10 6 29.17 10 6 33.33 10 6 37.50 10 6 41.67 10 6

Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.