Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Ähnliche Dokumente
Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Testing in Microarray Experiments, StatisticalScience(18), Seiten

AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico

Eine Einführung in R: Hochdimensionale Daten: n << p

Multiples Testen. Wolfgang Mader. 12. Juli Multiples Testen. Wolfgang Mader. Probleme des multiplen Testens. Bonferroni Methode

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

AlgoBio WS 16/17 Genexpressionanalyse. Annalisa Marsico

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Step-Down Prozeduren

Grundlagen der Bioinformatik Übung 5: Microarray Analysis. Yvonne Lichtblau

Statistisches Testen

Statistik II. Statistische Tests. Statistik II

Genexpressionsdatenbanken

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm./HST) FS 2014

Bioinformatik Statistik und Analyse mit R

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Grundlagen der Bioinformatik Übung 6: Microarray Analysis. Yvonne Lichtblau

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Bayesianische Netzwerke - Lernen und Inferenz

Bemerkungen zu statistischen Tests

GRUNDPRINZIPIEN statistischen Testens

Mathematik IV: Statistik

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm.) Herbst 2012

Transcriptomics: Analysis of Microarrays

Eine Einführung in R: Statistische Tests

Kapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation

Gepaarter und ungepaarter t-test. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

3 Grundlagen statistischer Tests (Kap. 8 IS)

Grundlagen der schließenden Statistik

Auswertung und Lösung

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle

das Kleingedruckte...

Statistik II für Betriebswirte Vorlesung 1

Auswertung und Lösung

Multiple Vergleiche. Werner Brannath. VO Biostatistik im WS 2006/2007

Einführung in die Bioinformatik

Ablaufschema beim Testen

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Wahrscheinlichkeit und Statistik BSc D-INFK

Teil VIII Hypothesentests für zwei Stichproben

Einführung in die Induktive Statistik: Testen von Hypothesen

Kapitel III: Einführung in die schließende Statistik

Seminar Biomedical Informatics

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

5. Seminar Statistik

Eine Einführung in R: Varianzanalyse

Statistische Methoden in der Bioinformatik

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

How To Find Out If A Ball Is In An Urn

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

3.5 Moderne Genetik - Vorgänge

AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

Deskriptive Statistik

ANalysis Of VAriance (ANOVA) 1/2

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Mathematische und statistische Methoden II

Strategien für die Expressionsanalyse in funktionellen Gengruppen. Manuela Benita Hummel

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Statistik II. IV. Hypothesentests. Martin Huber

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Statistik III. Methodologie der Psychologie

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Mathematik IV: Statistik

W-Rechnung und Statistik für Ingenieure Übung 13

Statistics, Data Analysis, and Simulation SS 2017

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Schließende Statistik: Hypothesentests (Forts.)

Bemerkungen bzgl statistichen Tests. (basierend auf Slides von Lukas Meier)

Statistische Tests (Signifikanztests)

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Statistische Inferenz

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Multivariate Verfahren

Prüfungsliteratur: Rudolf & Müller S

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Multiple Vergleiche Small Volume Correction Effekte mehrerer Kontraste. Multiple Vergleiche. Mareike Düesberg. SPMKurs 2016

Statistische Methoden der Datenanalyse. Übung XI

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Statistik-Klausur A WS 2010/11

Analyse 2: Hypothesentests

Biometrische und Ökonometrische Methoden II Lösungen 2

Serie 9, Musterlösung

Tests für Erwartungswert & Median

Mögliche Fehler beim Testen

Clustering. Clustering:

Statistische Tests für unbekannte Parameter

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Teil IV Deskriptive Statistik

Statistik II. Statistische Tests. Statistik II

Transkript:

Statistische Analyse von hochdimensionalen Daten in der Bioinformatik Florian Frommlet Institut für medizinische Statistik, Medizinische Universität Wien Wien, Jänner 2015

Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin http://neutronsforbreakfast.wordpress.com/

Einführung DNA Molekül Zwei komplementäre Stränge bilden Doppelhelix Vier Basen Adenin Thymin Cytosin Guanin Genetische Information als String in Alphabet mit vier Buchstaben http://neutronsforbreakfast.wordpress.com/ gaacgaatca ttgcaaagag ccaaagatcc aaaatttgca acaaaaacaa aaactctacc

Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben http://techglimpse.com

Welche genetische Information? Codierung von Proteinen Makromoleküle aus 20 Aminosäuren Grundbausteine aller Zellen Unglaubliche Vielfalt an Aufgaben Codierung von RNA Ribonukleinsäure - Umsetzung von genetischer Information, aber auch viele andere Aufgaben http://techglimpse.com

Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz) http://de.academic.ru

Was ist ein Gen? Übliche Denition: Abschnitt der DNA, der ein Protein codiert Triplets von DNA - Basen codieren Aminosäuren 64 Möglichkeiten (Redundanz) http://de.academic.ru

Standardmodell der Genetik http://kvhs.nbed.nb.ca

Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten http://pragmatyczny17.siam.im

Technologien zum Messen von RNA - Expression Älter: Microarrays Chip mit kurzen DNA Stücken von Genen an Spots (jeweils nur ein Strang) Hybridisierung: Anlagerung von komplementärem DNA oder RNA Strang Neuer: RNA-Seq Komplexere Technologie, die erlaubt mittels next generation sequencing einen generellen Überblick über die in einer Zelle vorhandene RNA zu erhalten http://pragmatyczny17.siam.im

Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden http://pragmatyczny17.siam.im

Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden http://pragmatyczny17.siam.im

Prinzip von Micro Arrays Was wird gemessen? DNA Proben mit Fluorophoren gekennzeichnet Je mehr Hybridisierung an einem Spot desto stärker das Farbsignal Einfarben Microarrays Je heller desto mehr Expression Zweifarben Microarrays Zwei Gruppen mit unterschiedlichen Farben gekennzeichnet (z. Bsp. rot und grün) Gelb: Beide Gruppen exprimiert Dunkel: Keine von beiden http://pragmatyczny17.siam.im

Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

Typische Microarray Experimente Einige Arten von Experimenten Vergleich von Genexpression in mehreren Gruppen: gesund vs. krank; Behandlung vs. Kontrolle; Wildtyp vs. Mutant Suche nach Genen die dierentially expressed Vorhersage der Gruppe durch Gene Class prediction Suche nach Genen die gemeinsam reguliert werden Pathway Analysis Gruppenvergleich - Designfrage Zweifarben spotted microarrays bzw. cdnas Bietet sich an für paarweisen Vergleich, aber in der Praxis meist Aymetrix: nur eine Gruppe pro Chip braucht mehr Chips, aber Messungen besser reproduzierbar Einfachere Designs wenn mehr als zwei Gruppen

Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp. 203-209. Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa 12000 Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp. 203-209. Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa 12000 Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp. 203-209. Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa 12000 Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp. 203-209. Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa 12000 Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Beispiel: Studie über Prostatakrebs Singh et al. (2002) Gene expression correlates of clinical prostate cancer behavior, Cancer Cell 1, pp. 203-209. Microarray Experiment: Von jedem Patien gesunde und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung etwa 12000 Gene Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

Datenaufbereitung Vor der Datenanalyse müssen Bilddaten aufgearbeitet werden Wesentliche Schritte: Bildanalyse (speziell interessant bei Zweifarben cdna-arrays) Qualitätskontrolle (Viele Fehlermöglichkeiten) Transformation und Normalisierung (um danach einfache statistische Verfahren anwenden zu können) Behandlung von fehlenden Werten etc. Am Ende dieser Prozedur erhält man für jedes Gen eine Zahl, die miÿt ob es für das jeweilige Gen einen Unterschied in der Genexpression zwischen den beiden jeweiligen Proben gibt.

Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen

Bildanalyse Elemente der Bildanalyse für cdna Arrays Rohdaten sind nur Pixeldaten Erkenne wo sich ein Spot bendet Image segmentation: Bestimme für jeden Pixel ob Background oder Signal Berechne Statistik für Helligkeit von Spot z. Bsp. Mittelwert, Median, etc. Maÿ für Qualität von Spot Nähere Details siehe Link auf Moodle Bildanalyse für Aymetrix Üblicherweise bereits durch Aymetrix Software Gesamte Oberäche von Chip mit quadratischen Proben an festen Positionen gefüllt Finden von Spots und Segementation kein Problem Mehrere Spots an verschiedenen Orten für gleiches Gen

Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: 6 8 10 12 14 a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten

Erhaltene Intensitäten Beispieldatensatz ALLMLL Daten von 8 Arrays, vgl. Gentleman et al.: Kapitel 3 Intensitäten: Logarithmus der Intensitäten: 6 8 10 12 14 a b c d e f g h Intensitäten extrem schief verteilt! Man arbeitet fast immer mit logarithmierten Daten

Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

Qualitätskontrolle Problem Wie man an Boxplots der Log-Intensitäten erkennt groÿe Unterschiede zwischen Arrays Mitunter geht bei Arrays etwas grob schief Explorative Methoden Ausführlich beschrieben in Gentleman et al.: Kapitel 3 Betrachte Chip-Bild selbst Verteilung der Chip-Signale MA-Plots (siehe später) Aymetrix: Paket 'AyQCReport'

Chip-Bilder Aymetrix Dank an Florian Klinglmüller

Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt

Histogramme Beispieldatensatz ALLMLL Log Intensitäten der ersten beiden Chips Typische Verteilung Bimodale Verteilung oft Zeichen von Artefakt

MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)

MA-Plots Denition von M und A Vergleich von zwei Arrays i {1, 2} für J Individuen Y ij Logarithmen der Farbintensitäten M j = Y 2j Y 1j, A j = (Y 2j + Y 1j )/2 MA-Plot ist dann Streudiagramm zwischen Vektoren M und A Bioconductor: MA-Plots für Quality Control MA Plots von jedem Chip gegen Median über alle SNPs (für jeden Spot) Dazu Loess - Kurven (locally weighted scatterplot smoothing)

MA-Plots für 8 Chips Vergleiche Gentleman et al.

Methoden der Normalisierung Zweck: Vergleichbarkeit von verschiedenen Chips Aller einfachste Methode: Skalieren, so dass Intensitäten aller Arrays gleichen Mittelwert und gleiche Varianz haben Beispiel: ALLMLL Original: Skaliert: 6 8 10 12 14 6 8 10 12 a b c d e f g h a b c d e f g h

Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma

Normalisierung Nichtlineare Methoden Quantilnormalisierung Normalisierungen basierend auf Loess - Kurven etc. Hintergrundkorrektur Üblicherweise noch vor Normalisierung durchgeführt wiederum eine Vielzahl von Methoden Mehr Details siehe R-packages ay und limma

Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa 12000 Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa 12000 Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Erinnerung: Studie über Prostatakrebs Singh et al. (2002) Vergleich von gesunden und Krebszellen Gleason Score als Maÿ für Dierenzierungsgrad der Zelle 52 Individuen: 26 davon mit schlechter Dierenzierung Groÿe Fallzahl für ein Microarray Experiment! etwa 12000 Gene Daten öentlich zugänglich Wikipedia Frage: Gibt es Gene die Dierenzierungsgrad beeinussen?

Studie über Prostatakrebs Ein spezielles Gen Homo sapiens mrna for RET nger protein-like 3 Graphische Darstellung: Boxplot

Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = 17.0769, Gruppe 2: x 2 = 8.8846 Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = 17.0769, Gruppe 2: x 2 = 8.8846 Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

Vergleich für ein einziges Gen Nullhypothese: Expression in beiden Gruppen ist gleich H 0 : µ 1 = µ 2 Alternative: Expression in beiden Gruppen ist verschieden H A : µ 1 µ 2 Vergleiche Mittelwerte zwischen den beiden Gruppen Gruppe 1: x 1 = 17.0769, Gruppe 2: x 2 = 8.8846 Je mehr die Daten streuen desto weniger Aussagekräftig ist dieser Unterschied zwischen den beiden Gruppen

Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0

Der Zweistichproben t-test t-test Statistik T : T = x 1 x 2 S wobei S 2 geeigneter Schätzer für die Varianz der Mittelwertsdierenz. Testentscheidung Falls T gröÿer als kritischer Wert Entscheidung für H A Sonst Beibehaltung von H 0

Wahrscheinlichkeitsverteilung von T Theoretische Verteilung von T = x1 x2 S unter Nullhypothese: t-verteilt mit n 2 Freiheitsgraden Dichte der t-verteilung mit df Freiheitsgraden

Bestimmung des kritischen Werts Unter Annahme dass H 0 stimmt, suche symmetrischen Bereich wo H 0 mit Wahrscheinlichkeit α abgelehnt wird d.h. Nullhypothese wird fälschlich verworfen (Fehler 1. Art) Wahl des kritischen Werts für α = 0.05 und df = 50

t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = 1.9249 T = 4.26 Kritischer Wert: 2.0086 Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = 9.1372 10 5 T > kritischer Wert p-wert < α

t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = 1.9249 T = 4.26 Kritischer Wert: 2.0086 Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = 9.1372 10 5 T > kritischer Wert p-wert < α

t-test für unser spezielles Gen x 1 = 17.08, x 2 = 8.88 S = 1.9249 T = 4.26 Kritischer Wert: 2.0086 Entscheidung für H 1 p-wert: Wahrscheinlichkeit unter H 0 den Wert T oder noch einen extremeren Wert zu beobachten Im Beispiel: p = 9.1372 10 5 T > kritischer Wert p-wert < α

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 beibehalten H 0 abgelehnt H 0 wahr Fehler 1. Art H 1 wahr Fehler 2. Art Power Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Prinzip des statistischen Testens Entscheidung z. Bsp. basierend auf t-test Statistik T : T > kritischer Wert H 0 abgelehnt T kritischer Wert H 0 beibehalten H 0 wahr H 1 wahr H 0 beibehalten Fehler 2. Art H 0 abgelehnt Fehler 1. Art Kontrolliere Fehler 1. Art zum Niveau α (z.b. α = 0.05, oder α = 0.01) Power Wahrscheinlichkeit einen tatsächlichen Unterschied zu erkennen Je kleiner α desto kleiner die Power

Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = 12000 Gene Wie groÿ ist FWER für α = 0.05?

Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = 12000 Gene Wie groÿ ist FWER für α = 0.05?

Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = 12000 Gene Wie groÿ ist FWER für α = 0.05?

Multiples Testproblem Ein statistischer Test: Wahrscheinlichkeit für falsche Entdeckung ist α Was passiert bei vielen (m) Tests? Family wise error rate: FWER := P(Mindestens eine falsche Entdeckung) In unserem Beispiel: m = 12000 Gene Wie groÿ ist FWER für α = 0.05? Unter der (gewagten) Annahme, dass die Tests unabhängig sind: FWER = 1 (1 α) m = 1 4.8224 10 268 FWER praktisch nicht von 1 unterscheidbar Man erwartet 12000 0.05 = 600 falsche Entdeckungen

Multiples Testproblem Es bedarf einer Korrektur für multiples Testen

Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = 0.005 α = 0.05, m = 100 α Bon = 0.0005 Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = 4.1667 10 6 Gen mit p-wert 9.1372 10 5 nicht mehr signikant j=1

Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = 0.005 α = 0.05, m = 100 α Bon = 0.0005 Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = 4.1667 10 6 Gen mit p-wert 9.1372 10 5 nicht mehr signikant j=1

Bonferroni Korrektur Klassische (1936) und extrem einfache Korrekturmethode: Teste zum Signikanzniveau α Bon = α/m Beispiel: α = 0.05, m = 10 α Bon = 0.005 α = 0.05, m = 100 α Bon = 0.0005 Bonferroni kontrolliert FWER weil m P j=1 A i m P(A i ) Bonferroni Korrektur sehr populär, aber Problem mit geringer Power In unserem Beispiel α Bon = 4.1667 10 6 Gen mit p-wert 9.1372 10 5 nicht mehr signikant j=1

False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

False Discovery Rate Konzept der FDR Eingeführt von Benjamini und Hochberg (1995) ( ) V FDR = E R R... Gesamtanzahl der abgelehnten Hypothesen V... Anzahl der falschen Entdeckungen V /R = 0 falls R = 0 FDR: Erwarteter relativer Anteil an falschen Entdeckungen FWER zu kontrollieren ist eine stärkere Anforderung als FDR, gröÿere Power, dafür mehr falsche Entdeckungen

Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = 0.007 0.01 p [2] = 0.013 0.02 p [3] = 0.031 > 0.03 p [4] = 0.039 0.04 p [5] = 0.231 > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = 0.007 0.01 p [2] = 0.013 0.02 p [3] = 0.031 > 0.03 p [4] = 0.039 0.04 p [5] = 0.231 > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = 0.007 0.01 p [2] = 0.013 0.02 p [3] = 0.031 > 0.03 p [4] = 0.039 0.04 p [5] = 0.231 > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = 0.007 0.01 p [2] = 0.013 0.02 p [3] = 0.031 > 0.03 p [4] = 0.039 0.04 p [5] = 0.231 > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

Benjamini - Hochberg Prozedur Vorgangsweise 1. Ordne alle p-werte: p [1] p [m] 2. Bestimme { } k = argmax i p[i] iα m 3. Ablehnung aller Hypothesen mit p-wert p [k] Beispiel: m = 5 p [1] = 0.007 0.01 p [2] = 0.013 0.02 p [3] = 0.031 > 0.03 p [4] = 0.039 0.04 p [5] = 0.231 > 0.05 Verwerfe 4 Hypothesen BH kontrolliert FDR zum Level α

Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = 12000 Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = 3.0 10 6 p [2] = 9.5 10 6 p [3] = 10.5 10 6 p [4] = 11.1 10 6 p [5] = 15.2 10 6 p [6] = 70.5 10 6 p [7] = 91.4 10 6 p [8] = 207.8 10 6 p [9] = 236.2 10 6 p [10] = 296.5 10 6 iα n 4.17 10 6 8.33 10 6 12.50 10 6 16.67 10 6 20.83 10 6 25.00 10 6 29.17 10 6 33.33 10 6 37.50 10 6 41.67 10 6

Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = 12000 Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = 3.0 10 6 p [2] = 9.5 10 6 p [3] = 10.5 10 6 p [4] = 11.1 10 6 p [5] = 15.2 10 6 p [6] = 70.5 10 6 p [7] = 91.4 10 6 p [8] = 207.8 10 6 p [9] = 236.2 10 6 p [10] = 296.5 10 6 iα n 4.17 10 6 8.33 10 6 12.50 10 6 16.67 10 6 20.83 10 6 25.00 10 6 29.17 10 6 33.33 10 6 37.50 10 6 41.67 10 6

Studie über Prostatakrebs Anzahl signikanter Gene α = 0.05 m = 12000 Keine Korrektur: 1967 Bonferroni: 1 Benjamini Hochberg: 5 10 kleinsten p-werte p-wert p [1] = 3.0 10 6 p [2] = 9.5 10 6 p [3] = 10.5 10 6 p [4] = 11.1 10 6 p [5] = 15.2 10 6 p [6] = 70.5 10 6 p [7] = 91.4 10 6 p [8] = 207.8 10 6 p [9] = 236.2 10 6 p [10] = 296.5 10 6 iα n 4.17 10 6 8.33 10 6 12.50 10 6 16.67 10 6 20.83 10 6 25.00 10 6 29.17 10 6 33.33 10 6 37.50 10 6 41.67 10 6

Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.

Weitere Methoden Multiples Testen ein sehr aktiver Forschungsbereich Einige weitere Stichworte Permutationstests Baysianische Modellselektion Empirical Bayes Literatur für Microarrayanalyse Speed (2003) Statistical analysis of gene expression microarray data Gentleman, Carey, Huber, Irizarry, Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor Mallick, Gold (2009) Bayesian analysis of microarray gene expression data etc.