Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Transkript

1 Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Florian Frommlet Institut für medizinische Statistik, Medizinische Universität Wien Wien, Jänner 2015

2 Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin

3 Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin Genetische Information als String in Alphabet mit vier Buchstaben gaacgaatca ttgcaaagag ccaaagatcc aaaatttgca acaaaaacaa aaactctacc

4 Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben

5 Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben

6 Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz)

7 Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz)

8 Standardmodell der Genetik

9 Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten

10 Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten

11 Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden

14 Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

19 Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

24 Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

30 Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen

31 Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen

32 Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten

33 Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten

34 Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

39 Chip-Bilder Aymetrix Dank an Florian Klinglmüller

40 Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt

41 Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt

42 MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)

43 MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)

44 MA-Plots für 8 Chips Vergleiche Gentleman et al.

45 Methoden der Normalisierung Zweck: Vergleichbarkeit von verschiedenen Chips Aller einfachste Methode: Skalieren, so dass Intensitäten aller Arrays gleichen Mittelwert und gleiche Varianz haben Beispiel: ALLMLL Original: Skaliert: a b c d e f g h a b c d e f g h

46 Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma

47 Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma

48 Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

51 Studie über Prostatakrebs Ein spezielles Gen Homo sapiens mrna for RET nger protein-like 3 Graphische Darstellung: Boxplot

52 Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = , Gruppe 2: x 2 = Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

55 Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0

56 Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0

57 Wahrscheinlichkeitsverteilung von T Theoretische Verteilung von T = x1 x2 S unter Nullhypothese: t-verteilt mit n 2 Freiheitsgraden Dichte der t-verteilung mit df Freiheitsgraden

58 Bestimmung des kritischen Werts Unter Annahme dass H 0 stimmt, suche symmetrischen Bereich wo H 0 mit Wahrscheinlichkeit α abgelehnt wird d.h. Nullhypothese wird fälschlich verworfen (Fehler 1. Art) Wahl des kritischen Werts für α = 0.05 und df = 50

59 t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = T = 4.26 Kritischer Wert: Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = T > kritischer Wert p-wert < α

62 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

65 Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 beibehalten H 0 abgelehnt H 0 wahr Fehler 1. Art H 1 wahr Fehler 2. Art Power Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

67 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05?

70 Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = Gene Wie groÿ ist FWER für α = 0.05? Unter der (gewagten) Annahme, dass die Tests unabhängig sind: FWER = 1 (1 α) m = FWER praktisch nicht von 1 unterscheidbar Man erwartet = 600 falsche Entdeckungen

71 Multiples Testproblem Es bedarf einer Korrektur für multiples Testen

72 Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = α = 0.05, m = 100 α Bon = Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = Gen mit p-wert nicht mehr signikant j=1

75 False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

78 Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = p [2] = p [3] = > 0.03 p [4] = p [5] = > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

83 Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = p [2] = p [3] = p [4] = p [5] = p [6] = p [7] = p [8] = p [9] = p [10] = iα n

86 Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.

87 Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.