Zielsetzung des Vortrags Einzuführen in das Softwarepaket JMP inklusive der Genomics-Erweiterung Auswertung von DNA Microarray Daten mit JMP Genomics Vortrag SAS-Treff am URZ Heidelberg Einen Einblick zu geben in das Anwendungsgebiet der Analyse von Microarray- Genexpressionsdaten 15. Februar 2008 2 HMS - Unternehmensprofil Agenda - Übersicht 3 HMS Analytical Software ist ein IT-Spezialist für Datenanalysesysteme und Business Intelligence Schwerpunkte Datenmanagement und analyse für Produktion / QC Implementierung von mathematischen und statistischen Algorithmen Business Intelligence und Data Integration Leistungen Beratung und Konzeption kundenspezifische Entwicklung Schulung und Support Validierung Branchen Life Science (Pharma, Diagnostika, Medizingeräte) Banken und Versicherungen Marketingservices und andere Technologien SAS, Microsoft, Java,.NET, Oracle, JMP 4 Vorstellung der Software JMP Genomics Was ist das? Anwendungsbereich? JMP Eigenschaften + Live Demo JMP Genomics Eigenschaften + LiveDemo Einführung Anwendungsgebiet Auswertung Microarray-Genexpressionsdaten Hintergrund Motivation Technologie Datenauswertung + Live Demo Zusammenfassung Agenda Teil I JMP Genomics Vorstellung der Software JMP Genomics Was ist das? Anwendungsbereich? JMP Eigenschaften + Live Demo JMP Genomics Eigenschaften + LiveDemo Einführung Anwendungsgebiet Auswertung Microarray-Genexpressionsdaten Hintergrund Motivation Technologie Datenauswertung + Live Demo Was ist das? Interaktive und graphische Statistik-Software Algorithmen zur Analyse molekulargenetischer Daten 5 Zusammenfassung 6 Dr. Patrick René Warnat 1
JMP Näher betrachtet JMP Eigenschaften JMP: Produkt von SAS Institute Inc. Entstehung 1989 zuerst auf Macintosh, später Windows, Linux; aktuelle Version JMP 7 Daten-Visualisierung und Auswertung mit Fokus: dynamische Verbindung von Daten und deren Visualisierung leicht zugängliche Bedienung 7 Herkunft Name JMP : JMP website: It is named to suggest a leap in interactivity, a leap in a new direction Wikipedia (en): John s Macintosh Product, John Sall: SAS-Mitgründer Explorative und interaktive Statistik-Software 8 Stand-Alone Desktop Product, aber Verbindung zur SAS-Welt gut unterstützt Schwerpunkt Interaktivität, Point n Click Oberfläche, Responsiveness : Alle Daten im RAM JMP umfasst: JMP - Grenzen Datenrepräsentation in Tabellenform: Eingabe, Bearbeitung von Daten ähnlich zu Spreadsheet- Anwendungen wie Excel Sehr große Datensätze mit Millionen von Datensätzen (Verbesserung durch JMP 64-Bit Edition) JMP Schwerpunkt ist interaktive Datenanalyse, nicht Applikationsentwicklung und Produktions-Datenverarbeitung (ETL, BI) Umfangreiches Spektrum statistischer Methoden und graphischer Visualisierungsmöglichkeiten Auswahl statistischer Methoden nicht umfassend wie in SAS/STAT Vergleich JMP vs. SAS: Both are Information delivery vehicles. Hohe Interaktivität bei Gestaltung Graphiken, Auswahl von Daten 9 Skriptsprache für Batch Ablauf 10 JMP: to go exploring SAS: to haul everything JMP Live Demo JMP Genomics seeing is believing (JMP website) Erweiterung von JMP um Methoden zur Analyse molekulargenetischer Daten in den Bereichen: Genetics Microarray-Analysis Proteomics Aktuelle Version: JMP Genomics 3.1 11 12 Dr. Patrick René Warnat 2
Anwendungsbereich JMP Genomics JMP Genomics Eigenschaften Molekularbiologische Grundlagenforschung Verständnis molekularer Zellmechanismen Transfer Medizin Pharmazie Verbesserung und Individualisierung von Diagnose und Therapie JMP Genomics greift auf die Module SAS/STAT und SAS/Genetics des SAS Systems zurück Installation SAS 9 erforderlich Über Genomics-Menü starten JMP Scripts die SAS Programme generieren und ausführen: 13 Basis: Moderne molekulare Messverfahren große Datenmengen komplexe Analyseprozesse Bedarf: Tools Expertenwissen Genomics Methoden werden nicht direkt auf JMP Tables ausgeführt, sondern auf eine oder mehrere Datendateien, die im Filesystem liegen 14 1 JMP Genomics Dokumentation 1 JMP Genomics umfasst Genomics Menu Erstellung, Manipulation von Datensätzen Genetics Proteomics Workflow Builder (WB) Jeder JMP Genomics Dialog repräsentiert einen Prozess WB ermöglicht es, Sequenzen von vorkonfigurierten JMP Genomics Prozessen auszuführen Expression microarrays Annotation Ausführung von mehreren Prozessen kann über einen Dialog gestartet werden, aber keine Teilparametrierung von Dialogen möglich 15 16 Eigene JMP Genomics Prozesse Agenda Teil II Erstellung eigener Prozesse von JMP Genomics unterstützt, dazu nötig: Definition Benutzeroberfläche XML-Datei Definition Prozesslogik SAS-Macro Vorstellung der Software JMP Genomics Was ist das? Anwendungsbereich? JMP Eigenschaften + Live Demo JMP Genomics Eigenschaften + LiveDemo opt., wenn z. B. interaktive Graphik erzeugt werden soll: Definition Ergebnisdarstellung JSL-Skript Einführung Anwendungsgebiet Auswertung Microarray-Genexpressionsdaten Hintergrund Motivation Technologie Datenauswertung + Live Demo 17 18 Zusammenfassung Dr. Patrick René Warnat 3
Microarray- Genexpressionsmessungen Biologischer Hintergrund Biologischer Hintergrund Hier betrachtetes Ziel: Verständnis zellulärer Vorgänge Motivation Technologie Zellen sind die kleinste funktionelle Einheit lebender Organismen Organismen sind aus Zellen aufgebaut Alle Zellen entstehen aus zuvor existierenden Zellen Vitalfunktionen eines Organismus geschehen innerhalb von Zellen und alle Zellen enthalten Erbinformationen die nötig sind, um Zellfunktionen zu steuern und Erbinformationen an die nächste Zellgeneration weiterzugeben 19 20 Biologischer Informationsfluß Ziele Microarray-Experimente 21 Vereinfachtes Modell Wikipedia [en] Zentraler Speicherort Erbinformationen: DNA Abschnitte der DNA: Gene Umsetzung über RNA -> Proteine Messung mrna in Zellen Genaktivität/Expre ssion Zu Beachten: Nur Zwischenschritt der Umsetzung der Erbinformationen Microarrays 22 Untersuchung Unterschiede in Genexpression für: Vergleich zweier Gruppen: Behandlungs-/Kontrollgruppe Krankheits/Normalgruppe Vergleich mehrerer Gruppen Krankheitsuntergruppen Verschiedene Behandlungen Suche nach neuen Krankheitsuntergruppen Ziele Microarray-Experimente Untersuchung Zeitserien Entwicklungsstadien, Zellzyklus Grund-Prinzip Microarrays Beispiel cdna Microarray Suche nach prädiktiven Mustern für Krankheitsuntergruppen Patientenprognose Individueller Erfolg einer bestimmten Therapie 23 24 Dr. Patrick René Warnat 4
DNA-Microarray-Technologien zur Genexpressionsanalyse Experimenteller Zyklus - Übersicht Biologische Fragestellung cdna-microarrays Experiment Affymetrix Genechips Microarray-Messungen Qualitätskontrolle Agilent Long Oligo Arrays Datenvorverarbeitung Illumina Bead Arrays Auswertung gemäß Fragestellung 25 JMP Genomics Doku Affymetrix.com Agilent.com Illumina.com 26 Biologische Interpretation & Verifikation Datenauswertung Qualitätskontrolle (QC) - Übersicht Besonderheit der Daten: Anzahl Variablen viel größer als Anzahl Beobachtungen Thema hier: Kontrolle nach der Hybridisierung 27 Computergestützte Analyse von DNA- Microarray Genexpressionsprofilen umfasst: Qualitätskontrolle & Vorverarbeitung Auswertung gemäß Fragestellung, z. B.: Detektion differentiell exprimierter Gene Clusteranalyse Phänotyp-Klassifikation 28 Kontrolle: von individuellen Messpunkten von individuellen Hybridisierungen des experimentellen Prozesses Basis für Entscheidung über Neuerstellung bzw. Filterung individueller Messpunkte individueller Hybridisierungen von Hybridisierungsserien QC - Methoden Datenvorverarbeitung 29 Technologie-spezifische Methoden z. B. RNA degradation plots für Affymetrix Chips, spot Eigenschaften von cdna scanner software berechnet Allgemeine Methoden Falschfarbenbilder der Arrays Boxplots Density-Plots MA-plots Paarweise scatter-plots PCA zum Vergleich von Hybridisierungsserien Aggregation und Transformation z. B. Technologiespezifische Zusammenfassung von Sonden (z. B. Affymetrix Chips)* Hintergrund-Korrektur (Rauschen bei der optischen Signalerfassung) Berechnung von Ratios Log Transformation Normalisierung Spezielle Transformationen zur Verbesserung der Vergleichbarkeit von Microarray-Daten 30 * Interessantes Paper dazu: Dai et al.; Nucleic Acid Research 33 (20), e175 Dr. Patrick René Warnat 5
Datenvorverarbeitung - Methoden Berechnung von Ratios Microarray-Analysen basieren auf dem Vergleich von Messungen verschiedener Proben Genexpression wird relative relativen Maßen beschrieben Beispiele: Probe A zu B Probe A &B je zur Referenz-Probe Log Transformation Erzeugt Verteilung, die Normalverteilung ähnlicher Log2: two-fold ratio up = +1 two-fold ratio down = -1 Normalisierung Gemessene Unterschiede der Signalintensitäten = biologisch bedingte Unterschiede + Unterschiede im Prozess der Messung Unterschiede im Prozess der Messung z. B. bedingt durch: Unterschiede in der Probenvorbereitung (mrna Extraktion) Unterschiede zwischen Hybridisierungseffektivität einzelner Sonden Verbesserung der Vergleichbarkeit von Microarray- Daten durch Minimierung der Unterschiede im Prozess der Messung 31 32 Normalisierung - Methoden Einfachste Form Standardisierung JMP Genomics Live Demo Häufig verwendet Quantils-Normalisierung Loess-Normalisierung VSN (variance stabilization normalisation) 33 34 Strukturentdeckende Verfahren Suche nach Mustern / Zusammenhängen explorative, unüberwachte Verfahren kein Zusatzwissen und keine Nullhypothese fließt in die Datenanalyse ein Verfahren dienen zur Gruppierung / Ähnlichkeitsbewertung von Beobachtungseinheiten Strukturentdeckende Verfahren Verfahren zur Gruppierung / Ähnlichkeitsbewertung von Beobachtungseinheiten Gruppierung (Clustering) Hierarchisch Partitionierend (z. B. k-means) Hauptkomponentenanalyse (PCA) Dimensionsreduktion, so dass ein Maximum an Varianz der Originaldaten erhalten bleibt Multidimensionale Skalierung (MDS) Dimensionsreduktion, so dass Distanzmatrix bestmöglich repräsentiert wird 35 36 Dr. Patrick René Warnat 6
Strukturprüfende Verfahren Test auf Differentielle Expression überwachte Verfahren Zusatzwissen bezüglich der Gruppierung der Beobachtungseinheiten fließt in die Datenanalyse ein z. B.: Verfahren zur: Ziel: Feststellung ob Mittelwerte der Genexpression in unterschiedlichen Gruppen von Beobachtungseinheiten signifikant unterschiedlich Methode: Univariate Hypothesentests auf der Basis linearer Modelle, ein Modell pro Gen Detektion differentiell exprimierter Gene Erstellung von prädiktiven Modellen zur Klassenvorhersage (Diagnose) von Beobachtungseinheiten Wichtig: Korrektur für multiples Testen 37 38 Multiples Testen / P-Wert Korrektur Gruppen-Tests Problem: Test von Tausenden von Hypothesen gleichzeitig, dadurch sind vermehrt falsch positive Testergebnisse zu erwarten Beispiel: 10000 Gene pro Chip, 1 Test pro Gen mit Signifikanzniveau p=0.01, Nullhypothese sei immer korrekt Für 10000 0.01=100 Gene falsch positves Testergebnis zu erwarten Lösung: Man muß die p-werte für multiples Testen korrigieren. Test auf Über-Representation definierter Gruppen von Genen in der Liste von z. B. signifikant differentiell detektierten Genen im Vergleich zur Liste aller untersuchten Gene Gruppendefinition z. B. über Gene-Ontology- Kategorien oder Zugehörigkeit zu Zellstoffwegen 39 Methoden, z. B.: Bonferroni, Holm Benjamini-Hochberg 40 Methode: z. B. Fisher s exakter Test Auch hier wichtig: Korrektur für multiples Testen Annotation JMP Genomics Live Demo Berücksichtigung vorhandenen Wissens Was ist über bestimmte Gene schon bekannt? Wie kann ich dieses Wissen zu Interpretation meiner Ergebnisse nutzen? Beispiele: Annotation bzgl. Sequenz DBs Vergleich mit publizierten Ergebnissen 41 42 Dr. Patrick René Warnat 7
Prädiktive Modellierung Prädiktive Modellierung Voraussetzung: Beobachtungseinheit mit bekannter Gruppen- (Klassen-) einteilung Ziel: Generierung eines prädiktiven Modells, welches die Klassenzugehörigkeit für Beobachtungseinheiten vorhersagt, die nicht zur Generierung des Modells verwendet worden sind Zur Schätzung der erreichbaren Klassifikationsgenauigkeit auch einsetzbar: Kreuzvalidierung Methoden zur prädiktive Modellierung, z. B.: Diskriminanzanalyse Logistische Regression 43 Vorgehen: Erstellung prädiktiver Modelle mit Trainingsdaten Auswahl eines Modells auf Validierungsdaten Überprüfung des Modells mit Testdaten 44 K nächste Nachbarn Entscheidungsbäume Support-Vektor-Maschinen Klassifikation hochdimensionaler Daten JMP Genomics Live Demo Generelle Gefahr der Modell-Überanpassung (Overfitting) bei hochdimensionalen Daten besonders gegeben Modell-Komplexität steigt mit Dimensionalität des betrachteten Merkmalraums und muß kontrolliert werden Variablen-Selektion kann zur Kontrolle der Modell- Komplexität beitragen Variablen-Selektion ist allerdings Teil der Modell- Generierung und muss streng vom Modell-Test getrennt werden 45 46 Vortrags - Zusammenfassung Literaturempfehlung 47 JMP Genomics kombiniert benutzerfreundliche Programmoberfläche mit Methoden zur Auswertung molekulargenetischer Daten Gutes Werkzeug zur interaktiven Datenauswertung, weniger gut geeignet bei: Entwicklung sehr komplexer Prozesse (z. B. verteilte Batch-Verarbeitung sehr großer Datensätze, verschachtelte Kreuzvalidierung mit Parameteroptimierung) Auswahl mitgelieferter Methoden gut, aber Möglichkeit der Erweiterbarkeit bleibt wichtig Dokumentation noch work in progress 48 Gute Einführung in die Auswertung von DNA Microarray-Daten Tutorial on Microarray Gene Expression Analysis, Artikelserie in der Zeitschrift Methods of Information in Medicine, Ausgabe 3/2005, Schattauer Verlag Dr. Patrick René Warnat 8