AlgoBio WS 16/17 Differenzielle Genexpression. Annalisa Marsico

Ähnliche Dokumente
AlgoBio WS 16/17 Protein-DNA Interaktionen ChiP-Seq Datenanalyse. Annalisa Marsico

Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Center for Biotechnology, Bielefeld

Eine Einführung in R: Hochdimensionale Daten: n << p

Statistische Tests (Signifikanztests)

Statistik und Wahrscheinlichkeitsrechnung

Multiple Vergleiche Small Volume Correction Effekte mehrerer Kontraste. Multiple Vergleiche. Mareike Düesberg. SPMKurs 2016

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Einführung in die Angewandte Bioinformatik: Analyse und Design von DNA Microarrays

Ein- und Zweistichprobentests

Untersuchungen zur differenziellen Genexpression im ZNS von Noradrenalintransporter-Knockout- und Wildtyp-Mäusen

8. Konfidenzintervalle und Hypothesentests

9. Schätzen und Testen bei unbekannter Varianz

Statistik, Geostatistik

Institut für Biochemie und Molekulare Medizin. Lecture 1 Translational components. Michael Altmann FS 2011

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner /

3 Grundlagen statistischer Tests (Kap. 8 IS)

Ablaufschema beim Testen

Schriftliche Prüfung (90 Minuten)

Step-Down Prozeduren

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Vergleich von Gruppen I

Testen von Hypothesen:

Auswertung und Lösung

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Chi-Quadrat Verfahren

Kapitel 5: Einfaktorielle Varianzanalyse

Konkretes Durchführen einer Inferenzstatistik

Analyse von Querschnittsdaten. Signifikanztests I Basics

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Seminar zur Energiewirtschaft:

Transcriptomics: Analysis of Microarrays

Konfidenzintervalle. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

GRUNDPRINZIPIEN statistischen Testens

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Kapitel 5: Einfaktorielle Varianzanalyse

Schließende Statistik: Hypothesentests (Forts.)

Personalisierte Medizin

KV: Genexpression und Transkription Michael Altmann

Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler

Nicht-parametrische Statistik Eine kleine Einführung

Probleme bei kleinen Stichprobenumfängen und t-verteilung

Einführung in die Bioinformatik

Mathematische und statistische Methoden II

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Seminar Biomedical Informatics

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Was sind MICROARRAYS? Microarrays sind Technologieplattformen zur Messung der Aktivität einer großen Anzahl von Genen.

Kapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation

Aufgaben zu Kapitel 5:

Analyse von Kontingenztafeln

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Informationen zur KLAUSUR am

Genisolierung in 2 Stunden : Die Polymerase-Ketten-Reaktion (PCR)

Expressionskontrolle in Eukaryonten

Molekularbiologische Datenbanken

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Tests einzelner linearer Hypothesen I

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Bioinformatik Statistik und Analyse mit R

Macht des statistischen Tests (power)

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Numerische Methoden und Algorithmen in der Physik

o o o o o o o o o o o o

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Statistik II: Signifikanztests /1

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Sequenziertechnologien

Das Human-Genom und seine sich abzeichnende Dynamik

Armutsquotenberechnung aus gerundeten Einkommensangaben

Einführung in die Induktive Statistik: Testen von Hypothesen

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Statistische Methoden für Bauingenieure WS 13/14. Einführungsbeispiel

Eine Einführung in R: Statistische Tests

MINITAB-ASSISTENT WHITE PAPER

Statistik II SoSe 2006 immer von 8:00-9:30 Uhr

Neue DNA Sequenzierungstechnologien im Überblick

Statistik II. Statistische Tests. Statistik II

Statistik und Wahrscheinlichkeitsrechnung

Mögliche Fehler beim Testen

Aufbau und Funktion des Genoms: Von der Genstruktur zur Funktion

TESTEN VON HYPOTHESEN

Kursinhalte der Weiterbildung Molekulare Biotechnologie (MNr.: 237 / 0411 / 2010)

DNA mrna Protein. Initiation Elongation Termination. RNA Prozessierung. Unterschiede Pro /Eukaryoten

Hypothesentests mit SPSS

Beurteilende Statistik

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Einführung Molekulare Bioinformatik

Brückenkurs Statistik für Wirtschaftswissenschaften

1 Dichte- und Verteilungsfunktion

Testen von Hypothesen, Beurteilende Statistik

Schließende Statistik

2 Aufgaben aus [Teschl, Band 2]

Transkript:

AlgoBio WS 16/17 Differenzielle Genexpression Annalisa Marsico 04.01.2017

Pipeline für die Mikroarray-Analyse Bildanalyse Hintergrundkorrektur Normalisierung Vorverarbeitung Zusammenfassung Quantifizierung Diff. expression Clustering Vorhersage Analyse

Microarrays re-cap Log2(array2) Log2(array1)

Differentielle Genexpression Beim Vergleich von zwei Bedingungen (ca. 20000 Genmessungen für jedes Sample ) wollen wir vor allem wissen: Welche Gene sind differentiell exprimiert zwischen den beiden Bedingungen? Wie finden wir differenziell exprimierte Gene? Wir brauchen eine Zahl zur Quantifizierung des Differentialausdrucks Fühlen wir uns konfident genug, um diesen Unterschied zu berichten? (z.b. in einem Paper)

Differentielle Genexpression Beim Vergleich von zwei Bedingungen (ca. 20000 Genmessungen für jedes Sample ) wollen wir vor allem wissen: Welche Gene sind differentiell exprimiert zwischen den beiden Bedingungen? Wie finden wir differenziell exprimierte Gene? Wir brauchen ein Zahl zur Quantifizierung des Differentialausdrucks Fold changes sind die bevorzugte Quantifizierung des Differentialausdruck. Fold changes sind grundsätzlich Ratios Fühlen wir uns konfident genug, um diesen Unterschied zu berichten? (z.b. in einem Paper)

Warum logs ratios? Wie finden wir differenziell exprimierte Gene? Zahl zur Quantifizierung des Differentialausdrucks Fold changes (Ratios) werden verwendet, um den differentiellen Ausdruck zu quantifizieren Ratios _ sind nicht um 1 symmetrisch. Dies macht die _ Interpretation schwieriger Wir werden also _ _ verwenden

Differentielle Expressionaufgabe Wie orden / repräsentieren wir Gene nach level of interest? Ein Zahl fur Differentiellexpression definieren (Fold change): Große Werte (positiv oder negativ) werden als interessant betrachtet Wie interessant sind denn die interessantesten Gene? Statistical testing hilft uns zu entscheiden.

Wiederholen des Experiments 1000 mal und dann die Fold changes für Gen 1 sammeln Wiederholtes Experiment

Wiederholen des Experiments 1000 mal und dann die Fold changes für Gen 2 sammeln Wiederholtes Experiment

Wiederholtes Experiment Ein Fold change von 1 scheint für Gen 2 signifikanter als für Gen 1. Ein Fold change könnte auch nur wegen natürlicher Variabilität beobachtet werden (Gen 1)

Technische und biologische Variabilität x x x x x x x x Gene 1 Gene 2 Welches dieser Gene wird reproduziert, wenn ein anderes Labor sie testet?

Technische und biologische Variabilität x x x x x x x x Gene 1 Gene 2 Gene 2 ist konsistent, so dass wir berichten würden: die Mittelwerte der beiden Populationen sind sehr verschieden und innerhalb der Population gibt es nicht so viel Variabilität. Der p-wert aus einem T-Test gibt uns eine formale Art um diese Entscheidung zu treffen.

Review der Statistical Inference Seien unsere Messungen, die differentielle Genexpression repräsentieren ( a log(fold_change)) Was ist die typische Nullhypothese? P-value ist die Wahrscheinlichkeit von größer oder gleich als der beobachtete Wert unter der Nullhypothese zu sein. Das ist ein Weg zusammenzufassen, wie interessant ein Gen ist. Annahme: Unter der Nullhypothese folgt einer Normalverteilung mit dem Mittelwert 0 und der Standardabweichung Ohne kennen wir nicht den p-value Wir können durch das Nehmen eines Samples und unter Nutzung der Sample Standardabweichung s schätzen.

Sample Summaries Beobachtungen: Mittelwerte: ): ;

Die t-statistik T-Statistik:

Multiple Testing Problem http://xkcd.com/882/

Multiple Testing Problem Messungen von 10,000 Genen 10,000 p-values berechnen Nenne Gene signifikant wenn p-value < 0.05 Erwartete Anzahl von falschen Positiven: 10,000 x 0.05 = 500 false positives

Multiple Comparison Error Rates Family-wise error rate False Discovery rate False Positives )

Multiple Comparison Error Rate Annahme: 50 von 10,000 Genen sind signifikant mit einem 0.05 Signifikanzniveau Keine Korrektur Erwarte 0.05*10,000=500 false positives False Discovery Rate Erwarte 0.05*50=2.5 false positives Family Wise Error Rate Die Wahrscheinlichkeit von mindestens einem false positive < 0.05

Kontrolle der Error Rates Bonferroni Korrektur P-values kleiner als sind signifikant Benjamini-Hochberg Korrektur Ordne die p-values: Wenn dann ist es signifikant

Beispiel mit 10 p-values

High-throughput RNA Sequencing als Alternative zu Microarrays um Genexpression zu messen

RNAs Polyadenyliert (kodierende) RNAs, Gene Kurze nicht-kodierende RNAs (ncrnas), z.b. micrornas Lange nicht-kodierende RNAs Ribosomal RNA Total RNA Größter Teil der RNA in der Zelle Anreicherung polya capture ribominus AAAAAAA

RNA-Seq AAAAAAA Erfassen der mature RNA durch den poly(a) tail TAGTCAGCTAGTTGGCTA Invertierte Transkription in eine Complementary DNA (cdna)

Yeast Nur ein Transkript pro Gen Kein (wenig) Splicing Überlappende Gene Wenig Raum zwischen den Genen

TP53 (Menschliches Gen)

Fragen, die wir mit RNA-seq beantworten können Was ist die Struktur von bekannten und unbekannten Transkripts? Veränderungen im Splicing Genexpression messen Transcriptexpression messen

RNA-Seq Standard Protokoll Extrahierung von RNA/ polya Anreicherung Fragmentierung von RNA Inverse Transkription von RNA zu cdna (durch random hex.) Ligation von Adapters Größenselektion ~200 bp (~300 bp) PCR Amplifikation Sequenzierung Das produziert reads von Polyadenylierter RNA ohne Stranginformation. Varianten: Ribominus statt polya Anreicherung Strangspezifität

Überblick RNA-Seq Pepke et al. 2009, Nature Methods

Überblick RNA-Seq

Überblick RNA-Seq Danach muss ich die reads in jedem Transcript zählen (in den Transcript exons) Es gibt zwei Wege die Gene-Level Quantifikation zu erreichen.

Gen Modelle Intersection Model Zähle reads, die in exons fallen, die zwischen isoforms geteilt sind

Gen Modelle Union Model Zähle nur reads, die in die union der Exons fallen

Gen Level Daten Gene Model + Überlappungsregel = Gen x Sample Matrix (wie Microarrays) Wir wollen wieder die Gen-Veränderungen zwischen den Bedingungen schätzen (Differentielle Genexpression) Count data Wie modellieren wir biologische Variabilität?

RPKM Wir müssen die Sequenzierungstiefe und die Gen-Länge kontrollieren Mortazavi et al. (2008), Nature Methods führt RPKM ein: Gene count Gene length Sequencing depth

Poisson Verteilung für read counts Marioni et al. zeigte das die technische Variabilität über RNAseq Replikate durch die Nutzung eines Poisson Modells modelliert werden kann Poisson Verteilung ist geeignet für count Daten Gen g Library i Erwartete Zahl der reads An einer bestimmten Position in dem Transcript Für die Poisson-verteilten Daten ist der Mittelwert ( ) = Varianz! Marioni et al. Genome Research 2008

Varianz hängt stark vom Mittelwert ab Für biologische Replikanten ist der Mittelwert Varianz -> Der read count kann nicht mit der Poisson Verteilung modelliert werden Wenn eine Poisson Verteilung eingepasst würde Expression von Gen g Dieser Effekt heißt Overdispersion Gesamtanzahl der reads in Sample i

Die negative binomial Verteilung Das DESeq package implementiert die negative binomial Verteilung für jedes Gen und schätzt die Dispersion der Daten (datengetriebene Beziehung zwischen Mittelwert und Varianz). Es stellt auch einen statistischen Test für Differentielle Genexpression bereit.