Datenauswertung von Microarrays Genexpressionsanalyse

Ähnliche Dokumente
Transcriptomics: Analysis of Microarrays

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Grundlagen der Datenanalyse am Beispiel von SPSS

Bioinformatik: Hype oder Hoffnung?

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Tutorial: Homogenitätstest

Zeichen bei Zahlen entschlüsseln

Stichprobenauslegung. für stetige und binäre Datentypen

Meine Entscheidung zur Wiederaufnahme der Arbeit

Orientierungstest für angehende Industriemeister. Vorbereitungskurs Mathematik

Ihr Mandant möchte einen neuen Gesellschafter aufnehmen. In welcher Höhe wäre eine Vergütung inklusive Tantieme steuerrechtlich zulässig?

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Die Zentralheizung der Stadt Wer heizt wie?

Mitarbeiterbefragung als PE- und OE-Instrument

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

9. Schätzen und Testen bei unbekannter Varianz

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Einzelkurs-Auswertung Microsoft Office Excel 2010 Aufbauseminar

Produktbeschreibung utilitas Ticketsystem

Grundsätzliche Informationen zu SpAz

Individuelles Qualifikationsprofil für

Trend-Vorsorge. Der DIA Deutschland-Trend. 10. Befragungswelle 2. Quartal Einstellungen zur Altersvorsorge. Köln, 20.

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Private Senioren- Unfallversicherung

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

e-books aus der EBL-Datenbank

EMIS - Langzeitmessung

Du hast hier die Möglichkeit Adressen zu erfassen, Lieferscheine & Rechnungen zu drucken und Deine Artikel zu verwalten.

Vivit TQA Anwendertreffen 2014

Digital signierte Rechnungen mit ProSaldo.net

Übungsaufgaben. - Vorgehensweise entsprechend dem Algorithmus der schriftlichen Multiplikation

IT-Unternehmensarchitektur Übung 01: IT-Strategie

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Zur Teilnahme am Webinar bitten wir Sie, sich auf der Lernplattform der Firma edudip zu registrieren.

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

Subpostfächer und Vertretungen für Unternehmen

Wie Projektziele gemessen werden können oder wie man Indikatoren entwickeln kann?

Kontowecker. Der Kontowecker Ihre Finanzen immer im Blick. - Leitfaden für die Einrichtung -

Auswertung der Evaluation des Schulversuchs PraxisHAS

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Statistik II. Statistik II, SS 2001, Seite 1 von 5

Systemwette. Sporttip set

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Erfahrungen mit Hartz IV- Empfängern

Anleitung zur Online-Schulung

WORKSHOP METHODEN ZUR TEST- UND FRAGEBOGENKONSTRUKTION UND VERFAHREN DER DATENAUSWERTUNG. Prof. Dr. Nadine Spörer

Projektsteuerung Projekte effizient steuern. Welche Steuerungsinstrumente werden eingesetzt?

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Anleitung SEPA-Lastschriften in der VR-NetWorld Software Version 5

Tagungsraum-Übersicht im Bildungshaus St. Martin

4. Erstellen von Klassen

Die Bundes-Zentrale für politische Bildung stellt sich vor

Schritt für Schritt zur Krankenstandsstatistik

1. Erklären Sie das Prinzip der Sanger Sequenzierung. Klären Sie dabei folgende Punkte: a) Welche besondere Art von Nukleotiden wird verwendet und

Auswertung von Custom Agilent ChIP on Chip Microarrays mittels MS-Excel für genomweite Methylierungsanalysen

WinWerk. Prozess 4 Akonto. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Persönliches Adressbuch

Kundinnen und Kunden. Berufswahltest (BWT) Fit für den Sprung ins Berufsleben?

Empiriepraktikum: Armut und Ungleichheit in Deutschland. Konzepte, Methoden und Statistiken

Evaluationen. Inhalt. 1. Aufbau einer Evaluation in Stud.IP

IT-SICHERHEIT IM UNTERNEHMEN Mehr Sicherheit für Ihre Entscheidung

Auswertung zu "Projektmanagement B, SS08"

Schluss mit langweiligen Papierexposees! Die Zukunft heißt immodisplay. Vision Displays GmbH Schnackenburgallee 41b Hamburg

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

SS 2014 Torsten Schreiber

GRS SIGNUM Product-Lifecycle-Management

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Hilfe zur Urlaubsplanung und Zeiterfassung

Kurzeinführung Excel2App. Version 1.0.0

Anmeldung und Zugang zum Webinar des Deutschen Bibliotheksverbandes e.v. (dbv)

Physik & Musik. Stimmgabeln. 1 Auftrag

p-cost Benutzerhandbuch Alfred Pabinger

Zusatzmodul Lagerverwaltung

Teil 2: Ablauf der Analyse festlegen

Übungspraktikum 3 Physik II

Prüfungszeiten für den Studiengang Bachelor of Science in Psychologie

Grundlagen der Inferenzstatistik

Anleitung servicedirekt. Anmeldung. Das einfache Überlauf Routing

Individuelle Formulare

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

SmartDispatch DMR-Dispatcher. Bestellablauf. SmartDispatch-Bestellablauf V1.0

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Lösungen: zu 1. a.) b.) c.)

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Wir sind für Sie da. Unser Gesundheitsangebot: Unterstützung im Umgang mit Ihrer Depression

FiBu Berichtsanpassung Berichtsanpassungen von Büro Mayer in der Finanzbuchhaltung für MS Dynamics NAV 2013 R2

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Übersicht: Modul 2. Methoden der empirischen Sozialforschung, Statistik und computergestützte Datenanalyse. Dr. H.-G. Sonnenberg

der Eingabe! Haben Sie das Ergebnis? Auf diesen schwarzen Punkt kommen wir noch zu sprechen.

Ablauf Vorstellungsgespräch

Sicherheitseinstellungen... 2 Pop-up-Fenster erlauben... 3

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Transkript:

Datenauswertung von Microarrays Genexpressionsanalyse Stefan Röpcke Berlin, 29. 6. 2004 Auf der zweiten Folie ist das Merkblatt eingefügt. Am Ende finden Sie noch weitere Folien (aus anderen Vorträgen). Zusätzliche Informationen finden Sie auf der Lecture-Seite der Abteilung Vingron. (lectures.molgen.mpg.de/microarray_ws0304) Viel Erfolg für die Prüfung!

Merkblatt Prüfungstermin: 26. 7. 2004 (genauere Informationen bei der nächsten Veranstaltung) Blockveranstaltung (Teilnahme ist Pflicht): Dienstag 6. Juli oder Donnerstag 8. Juli um 9.00 Uhr, Vorstellung aktueller Forschungsprojekte in der Abteilung Ropers am MPI Kontrollfragen zum Thema Genexpressionsanalyse Die Kontrollfragen sollen Ihnen Anhaltspunkt zum Lernen sein. Als Grundlage gelten Kapitel 10 und 19. Der t-test wird als bekannt vorausgesetzt. 1. Erklären Sie die Grundprinzipien und die wichtigsten Unterschiede folgender Techniken der Genexpressionsanalyse: DNA-Microarrays (gespottet), Oligonukletid- Microarrays (Affymetrix), SAGE (serial analysis of gene expression) 2. Welche Störgrössen oder Fehler können durch wiederholte Messungen der gleichen RNA-Probe auf unterschiedlichen Arrays identifiziert werden? 3. Expressionsdaten müssen in der Regel normiert werden. Was ist das Ziel der Normierung der Expressionswerte zweier Arrays gegeneinander? 4. Stellen Sie sich vor, Ihnen wird ein Datensatz mit folgenden Charakteristika vorgelegt: Datenmatrix (5000x35) mit 20 Arrays von Tumorproben, 15 Arrays von Normalproben, 5000 Gene wurden gemessen. Sie möchten mit Hilfe des t-tests Gene identifizieren, die differenziell zwischen Tumor- und Normalprobenn exprimiert sind. 1. Was müssen Sie im Vorfeld prüfen (Voraussetzungen des t-tests), um interpretierbare p-werte zu erhalten? 2. Worauf müssen Sie bei der Interpretation des p-wertes achten, wenn Sie die t- Statistik für alle 5000 Gene berechnen?

Übersicht Datenanalyse von Oligo-Arrays Normalisierung, Verdichtung, Datenverwaltung Krebsforschung Entdeckung differenzieller Gene im Bronchialkarzinom Entdeckung von Antisense-Transkripten Zusammenhang zwischen Struktur und Expression von Genen

Oligo-Array-Experiment Extraktion der poly-a-rna Amplifikation und Markierung der RNA Fragmentierung Hybridisierung Färbung

Datenanalyse für Oligonukleotid-Arrays ligopaar M M Feature Oligoset [Gen] 1. Feature Normalisierung Offset Subtraktion Median-Zentrierung M Datenverdichtung AvgDiff-Methode (Affymetrix) PM MM als Intensität - Perfect Match 2. Detektionsscore Wilcoxon-Teststatistik -> p-wert Hypothese (H1): PM > MM 3. Repräsentative Intensität PMQ-Methode: 3. Quartil der PM-Intensitäten Strukturierte Speicherung Relationales Datenbanksystem Lade- und Auswerteroutinen

PMQ-Methode im Vergleich zu AvgDiff 8 Array-Experimente mit RNA der Zelllinie RT4 2000 PMQ-Methode 2000 AvgDiff-Methode (Affymetrix) Häufigkeit 1000 Häufigkeit 1000 0 0-4 -2 0 2 4-8 -4 0 4 8 Relative Unterschiede der Intensitäten, logarithmiert (ln) und normiert PMQ-Methode robustes Verfahren bei starken Qualitätsschwankungen der Arrays und der RNA

Übersicht Datenanalyse von Oligo-Arrays Normalisierung, Verdichtung, Datenverwaltung Krebsforschung Entdeckung differenzieller Gene im Bronchialkarzinom Entdeckung von Antisense-Transkripten Zusammenhang zwischen Struktur und Expression von Genen

Expressionsanalyse in der Krebsforschung Am Beispiel des Bronchialkarzinoms Proteinexpression Genexpression Phänotyp Differenzielle Proteinexpression Differenzielle Genexpression Kandidatengen: differenziell exprimiert in Tumorzellen für Diagnostik und Therapie

Datensätze Publikationen in PNAS 2001 Technologie Array Charakteristik Gewebetypen Replikate Hybridisierung Garber et al. cdna-array Brown/Botstein, Stanford ~24 000 Spots Adenokarzinom 41 Plattenepithelkarzinom 16 Normal 5 Andere 10 11 Mit einer Referenzprobe (Mix von 11 Zelllinien) Bhattacharjee et al. Oligonukleotid-Array Affymetrix HG-U95Av2 ~12 000 Oligsets Adenokarzinom 139 Plattenepithelkarzinom 21 Normal 17 Andere 26 36 Eine RNA-Probe pro Array

Vergleichende Analyse - Überblick cdna-array Oligo-Array Filtern Normierung (LOESS), Logarithm. (ln) LogSignal Normierung (LOESS), Logarithm. (ln) Validierung an Replikaten LogRatio [Bsp. log(t/n)] LogSignal Tumor LogSignal Normal Sequenzabgleich Vergleich der Mittelwerte pro Gen Validierung an Replikaten LogSignal Tumor LogSignal Normal 3644 LogRatios Tumor versus Normal t-teststatistik Vergleich der Resultate LogRatios Tumor versus Normal t-teststatistik

Validierung der Normalisierung an Hand von Replikaten cdna-array-daten, normalisiert Oligo-Array-Daten, normalisiert PK1.AD1 grün: blau: höchsten 10% niedrigsten 10% Regressionskurve AD1.NL1 LogRatio: log( PK / AD ) -4 0 4-4 0 4-4 0 4 PK1.AD2 PK2.AD1-4 0 4 PK2.AD2 LogRatio: log( AD / NL ) -3 0 4-3 0 4 AD1.NL2 AD2.NL1-3 0 4-3 0 4 AD2.NL2 LogRatio: log( PK / AD ) LogRatio: log( AD / NL )

Vergleich des Einflusses der Technologie und des Gewebetyps Oligo-Array Expression (LogSignal) -2 0 2-2 0 2-2 Tumor Normal 0 2 Tumor, LogSignal -2 0 2 Tumor, LogSignal 0 2-2 cdna-array -2 0 2 Oligo-Array -2 0 2 cdna-array Expression -2 0 2 Normal, LogSignal

Vergleich der errechneten differenziellen Expression zwischen den Array-Plattformen Für 134 von 799 Genen überlappt der Interquartilsbereich nicht. Intensität (LogSignal) Schema * * *** * x x Häufigkeit Verteilungen aller LogRatio-Werte (T/N) für das Beispielgen sparcl1 2363 (139X17) 205 (41X5) T N pro Gen: jede T- gegen jede N-Probe LogRatio: log( T/N )

Kriterium für differenzielle Expression t-testsstatistik Schwelle: p-wert < 0.05 Mittleres LogRatio Schwelle: unter den 10% kleinsten oder grössten

ROTE Punkte: differenzielle Gene in einem der Datensätze Korrelation der mittleren LogRatios Beste Konkordanz in den Extrema Plattenepithelkarzinom versus normale Lunge Adenokarzinom versus normale Lunge > 0: höher im Tumor, < 0: niedriger im Tumor Mittleres LogRatio Oligo-Arrays 0 1 2-1 -2-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 0 1 2-1 -2 Mittleres LogRatio - cdna-arrays

Differenziell exprimierte Gene Zahl der Gene Oligo-Array, PEK Oligo-Array, ADK cdna-array, PEK cdna-array, ADK PEK 99 Hoch in T N 401 417 287 352 387 404 355 385 162 Repräsentative Intensität Zwei differenzielle Gene als Beispiele ADK 81 PEK: Plattenepithelkarzinom ADK: Adenokarzinom 136 Normale Lungenproben Tetranectin Plattenepithelkarzinomproben PLAU

Übersicht Datenanalyse von Oligo-Arrays Normalisierung, Verdichtung, Datenverwaltung Krebsforschung Entdeckung differenzieller Gene im Bronchialkarzinom Entdeckung von Antisense-Transkripten Zusammenhang zwischen Struktur und Expression von Genen

Entdeckung von Antisense-Transkripten Fragment Genomische Sequenz 2 Oligosets: Sense, Antisense 21 (102) Gene zeigen Antisense-Expression in 76 (310) Experimenten DC13 (A) kb 9,5 7,5 4,4 2,4 1,35 Herz Gehirn Plazenta Lunge Leber Skelettmuskel Niere Pankreas Milz Thymus Prostata Hoden Ovar Dünndarm Kolon PBL (B) Herz Gehirn Plazenta Lunge Leber Skelettmuskel Niere Pankreas Milz Thymus Prostata Hoden Ovar Dünndarm Kolon PBL Northern-Blot Validierung 3/4 positiv Sense 0,24 MTN1 MTN2 MTN1 MTN2 Antisense

Zusammenhang zwischen Genstruktur und -expression Violett: Intron-enthaltende Gene 90% Perzentil 75% Perzentil Mittleres Expressionssignal 500 1 000 5 000 Genlänge (logarithmische Skala, log e )

Ergebnisse 1. Robustes Verfahren zur Auswertung von Oligo-Arrays 2. Anwendbarkeit für die Krebsforschung 3. Technische Varianz dominiert Probenvarianz 4. Antisense-Transkripte weit häufiger als erwartet 5. Hoch exprimierte Gene sind im Mittel kürzer.

Datenanalyse Berechnung eines repräsentativen Expressionswertes und einer Signifikanz Probe Pair Feature Gesättigter Wert PM MM Wilcoxon test nicht-parametrisc gepaart Testet PM > MM 75% Perzentil der PM-Intensitäten

Komplexe Methoden in der Expressionsanalyse Clusteranalyse Data Mining Diskriminanzanalyse assen sich die Gewebeproben gruppieren? Gene Gewebeproben 1 2 3 8 A B : H Farbkodierung hoher Wert niedriger Wert Worin unterscheiden sich Probengrupp Gene A B C D E F G H Tumor Normal 1 2 3 4 5 6 7 8 ODER UND Entscheidend: Definition der Ähnlichkeit Gesucht: konsistent hoch- bzw. runterregulierte Gene Entscheidend: ausreichende Probenz

iteraturdaten: Cluster von Zelllinienexperimenten Scherf et al: A gene expression database for the molecular pharmacology of cancer, Nature Genetics, march 2000

Konservative Interpretation der Resultate Clusteranalyse Data Mining Diskriminanzanalyse assen sich die Gewebeproben gruppieren? Gene Gewebeproben A B C D Ähnlichkeitsgraph 1 2 3 4 3 -> Hierarchisches Clustern nicht sinnvoll 1 4 2 Worin unterscheiden sich Probengrupp Tumor Normal 1 2 3 4 A B C D E F G H I J K L Gesucht: konsistent über- bzw. unterexpremierte Gen Zu geringe Probenz führt zu hoher Rate falsch-positiven.