Vortrag - 15. Februar 2008



Ähnliche Dokumente
Tutorial: Homogenitätstest

Datenvisualisierung mit JMP

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

IMS - Learning Design

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

HMS. Statistiken mit SAS ins Internet. HMS Analytical Software GmbH - Johannes Lang

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

1. Einführung. 2. Weitere Konten anlegen

Statistische Auswertung:

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

KNX BAOS Gadget. Installations- und Bedienanleitung. WEINZIERL ENGINEERING GmbH. DE Burgkirchen Web:

Installation SQL- Server 2012 Single Node

Installieren von Microsoft Office Version 2.1

Softwaretests in Visual Studio 2010 Ultimate Vergleich mit Java-Testwerkzeugen. Alexander Schunk Marcel Teuber Henry Trobisch

Transcriptomics: Analysis of Microarrays

Dokumentation. estat Version 2.0

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

FH-SY Chapter Version 3 - FH-SY.NET - FAQ -

- Zweimal Wöchentlich - Windows Update ausführen - Live Update im Norton Antivirusprogramm ausführen

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

So geht s Schritt-für-Schritt-Anleitung

SMART Newsletter Education Solutions April 2015

Grundlagen der Datenanalyse am Beispiel von SPSS

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

SCHULUNG MIT SYSTEM: E-LEARNING VON RAUM21

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Diplomarbeit. Konzeption und Implementierung einer automatisierten Testumgebung. Thomas Wehrspann. 10. Dezember 2008

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Bilder Schärfen und Rauschen entfernen

Probleme kann man nie mit derselben Denkweise lösen, durch die sie entstanden sind. Albert Einstein BERATUNG

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Print2CAD 2017, 8th Generation. Netzwerkversionen

Version 0.3. Installation von MinGW und Eclipse CDT

Einführung in SPSS. 1. Die Datei Seegräser

Microsoft Office Visio 2007 Infotag SemTalk Thema: Prozessmodellierung

Dr. Klaus Körmeier BlueBridge Technologies AG

Step by Step Webserver unter Windows Server von Christian Bartl

Ressourcenmanagement in Forschung und Entwicklung Grünenthal integriert SAS in sein Berechtigungs- und Mandantenkonzept 7.

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

Handbuch ECDL 2003 Basic Modul 6: Präsentation Diagramm auf einer Folie erstellen

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Zeichen bei Zahlen entschlüsseln

Updatehinweise für die Version forma 5.5.5

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Software Release Notes

Microsoft SharePoint 2013 Designer

Herzlich willkommen! SIEVERS-SNC - IT mit Zukunft.

IT-SICHERHEIT IM UNTERNEHMEN Mehr Sicherheit für Ihre Entscheidung

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Bioinformatik: Hype oder Hoffnung?

Herzlich Willkommen bei der nfon GmbH

Dominik Stockem Datenschutzbeauftragter Microsoft Deutschland GmbH

Software Engineering. Sommersemester 2012, Dr. Andreas Metzger

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Workflow- basiertes Data Mining in der Bioinformatik

davero akademie PC und Multimedia

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Erfahrungen mit Hartz IV- Empfängern

Einführung in PHP. (mit Aufgaben)

OUTSOURCING ADVISOR. Analyse von SW-Anwendungen und IT-Dienstleistungen auf ihre Global Sourcing Eignung. Bewertung von Dienstleistern und Standorten

Business Analytics im E-Commerce

Statistische Datenanalyse mit SPSS

Professionelle Seminare im Bereich MS-Office

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Dokumentation zum Spielserver der Software Challenge

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Die Anwendung von Work of Leaders in drei Schritten

CdsComXL. Excel add-in für Bearbeitung und Auswertung der CDS-daten. ComXL-020/D, Spur Spur Spur Spur

Synchronisations- Assistent

.. für Ihre Business-Lösung

9. Schätzen und Testen bei unbekannter Varianz

Titel BOAKdurch Klicken hinzufügen

Die Software für Visualisierung und Analyse von Strukturinformationen aus EDM- und PDM-Systemen.

Modellbildungssysteme: Pädagogische und didaktische Ziele

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Werbemittelverwaltung

Was ist neu in Sage CRM 6.1

Kurzanleitung für Benutzer. 1. Installieren von Readiris TM. 2. Starten von Readiris TM

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

HelpMatics Service Management System

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Software-Entwicklungsprozesse zertifizieren

Anleitung zur Nutzung des SharePort Utility

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Installation der SAS Foundation Software auf Windows

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Transkript:

Zielsetzung des Vortrags Einzuführen in das Softwarepaket JMP inklusive der Genomics-Erweiterung Auswertung von DNA Microarray Daten mit JMP Genomics Vortrag SAS-Treff am URZ Heidelberg Einen Einblick zu geben in das Anwendungsgebiet der Analyse von Microarray- Genexpressionsdaten 15. Februar 2008 2 HMS - Unternehmensprofil Agenda - Übersicht 3 HMS Analytical Software ist ein IT-Spezialist für Datenanalysesysteme und Business Intelligence Schwerpunkte Datenmanagement und analyse für Produktion / QC Implementierung von mathematischen und statistischen Algorithmen Business Intelligence und Data Integration Leistungen Beratung und Konzeption kundenspezifische Entwicklung Schulung und Support Validierung Branchen Life Science (Pharma, Diagnostika, Medizingeräte) Banken und Versicherungen Marketingservices und andere Technologien SAS, Microsoft, Java,.NET, Oracle, JMP 4 Vorstellung der Software JMP Genomics Was ist das? Anwendungsbereich? JMP Eigenschaften + Live Demo JMP Genomics Eigenschaften + LiveDemo Einführung Anwendungsgebiet Auswertung Microarray-Genexpressionsdaten Hintergrund Motivation Technologie Datenauswertung + Live Demo Zusammenfassung Agenda Teil I JMP Genomics Vorstellung der Software JMP Genomics Was ist das? Anwendungsbereich? JMP Eigenschaften + Live Demo JMP Genomics Eigenschaften + LiveDemo Einführung Anwendungsgebiet Auswertung Microarray-Genexpressionsdaten Hintergrund Motivation Technologie Datenauswertung + Live Demo Was ist das? Interaktive und graphische Statistik-Software Algorithmen zur Analyse molekulargenetischer Daten 5 Zusammenfassung 6 Dr. Patrick René Warnat 1

JMP Näher betrachtet JMP Eigenschaften JMP: Produkt von SAS Institute Inc. Entstehung 1989 zuerst auf Macintosh, später Windows, Linux; aktuelle Version JMP 7 Daten-Visualisierung und Auswertung mit Fokus: dynamische Verbindung von Daten und deren Visualisierung leicht zugängliche Bedienung 7 Herkunft Name JMP : JMP website: It is named to suggest a leap in interactivity, a leap in a new direction Wikipedia (en): John s Macintosh Product, John Sall: SAS-Mitgründer Explorative und interaktive Statistik-Software 8 Stand-Alone Desktop Product, aber Verbindung zur SAS-Welt gut unterstützt Schwerpunkt Interaktivität, Point n Click Oberfläche, Responsiveness : Alle Daten im RAM JMP umfasst: JMP - Grenzen Datenrepräsentation in Tabellenform: Eingabe, Bearbeitung von Daten ähnlich zu Spreadsheet- Anwendungen wie Excel Sehr große Datensätze mit Millionen von Datensätzen (Verbesserung durch JMP 64-Bit Edition) JMP Schwerpunkt ist interaktive Datenanalyse, nicht Applikationsentwicklung und Produktions-Datenverarbeitung (ETL, BI) Umfangreiches Spektrum statistischer Methoden und graphischer Visualisierungsmöglichkeiten Auswahl statistischer Methoden nicht umfassend wie in SAS/STAT Vergleich JMP vs. SAS: Both are Information delivery vehicles. Hohe Interaktivität bei Gestaltung Graphiken, Auswahl von Daten 9 Skriptsprache für Batch Ablauf 10 JMP: to go exploring SAS: to haul everything JMP Live Demo JMP Genomics seeing is believing (JMP website) Erweiterung von JMP um Methoden zur Analyse molekulargenetischer Daten in den Bereichen: Genetics Microarray-Analysis Proteomics Aktuelle Version: JMP Genomics 3.1 11 12 Dr. Patrick René Warnat 2

Anwendungsbereich JMP Genomics JMP Genomics Eigenschaften Molekularbiologische Grundlagenforschung Verständnis molekularer Zellmechanismen Transfer Medizin Pharmazie Verbesserung und Individualisierung von Diagnose und Therapie JMP Genomics greift auf die Module SAS/STAT und SAS/Genetics des SAS Systems zurück Installation SAS 9 erforderlich Über Genomics-Menü starten JMP Scripts die SAS Programme generieren und ausführen: 13 Basis: Moderne molekulare Messverfahren große Datenmengen komplexe Analyseprozesse Bedarf: Tools Expertenwissen Genomics Methoden werden nicht direkt auf JMP Tables ausgeführt, sondern auf eine oder mehrere Datendateien, die im Filesystem liegen 14 1 JMP Genomics Dokumentation 1 JMP Genomics umfasst Genomics Menu Erstellung, Manipulation von Datensätzen Genetics Proteomics Workflow Builder (WB) Jeder JMP Genomics Dialog repräsentiert einen Prozess WB ermöglicht es, Sequenzen von vorkonfigurierten JMP Genomics Prozessen auszuführen Expression microarrays Annotation Ausführung von mehreren Prozessen kann über einen Dialog gestartet werden, aber keine Teilparametrierung von Dialogen möglich 15 16 Eigene JMP Genomics Prozesse Agenda Teil II Erstellung eigener Prozesse von JMP Genomics unterstützt, dazu nötig: Definition Benutzeroberfläche XML-Datei Definition Prozesslogik SAS-Macro Vorstellung der Software JMP Genomics Was ist das? Anwendungsbereich? JMP Eigenschaften + Live Demo JMP Genomics Eigenschaften + LiveDemo opt., wenn z. B. interaktive Graphik erzeugt werden soll: Definition Ergebnisdarstellung JSL-Skript Einführung Anwendungsgebiet Auswertung Microarray-Genexpressionsdaten Hintergrund Motivation Technologie Datenauswertung + Live Demo 17 18 Zusammenfassung Dr. Patrick René Warnat 3

Microarray- Genexpressionsmessungen Biologischer Hintergrund Biologischer Hintergrund Hier betrachtetes Ziel: Verständnis zellulärer Vorgänge Motivation Technologie Zellen sind die kleinste funktionelle Einheit lebender Organismen Organismen sind aus Zellen aufgebaut Alle Zellen entstehen aus zuvor existierenden Zellen Vitalfunktionen eines Organismus geschehen innerhalb von Zellen und alle Zellen enthalten Erbinformationen die nötig sind, um Zellfunktionen zu steuern und Erbinformationen an die nächste Zellgeneration weiterzugeben 19 20 Biologischer Informationsfluß Ziele Microarray-Experimente 21 Vereinfachtes Modell Wikipedia [en] Zentraler Speicherort Erbinformationen: DNA Abschnitte der DNA: Gene Umsetzung über RNA -> Proteine Messung mrna in Zellen Genaktivität/Expre ssion Zu Beachten: Nur Zwischenschritt der Umsetzung der Erbinformationen Microarrays 22 Untersuchung Unterschiede in Genexpression für: Vergleich zweier Gruppen: Behandlungs-/Kontrollgruppe Krankheits/Normalgruppe Vergleich mehrerer Gruppen Krankheitsuntergruppen Verschiedene Behandlungen Suche nach neuen Krankheitsuntergruppen Ziele Microarray-Experimente Untersuchung Zeitserien Entwicklungsstadien, Zellzyklus Grund-Prinzip Microarrays Beispiel cdna Microarray Suche nach prädiktiven Mustern für Krankheitsuntergruppen Patientenprognose Individueller Erfolg einer bestimmten Therapie 23 24 Dr. Patrick René Warnat 4

DNA-Microarray-Technologien zur Genexpressionsanalyse Experimenteller Zyklus - Übersicht Biologische Fragestellung cdna-microarrays Experiment Affymetrix Genechips Microarray-Messungen Qualitätskontrolle Agilent Long Oligo Arrays Datenvorverarbeitung Illumina Bead Arrays Auswertung gemäß Fragestellung 25 JMP Genomics Doku Affymetrix.com Agilent.com Illumina.com 26 Biologische Interpretation & Verifikation Datenauswertung Qualitätskontrolle (QC) - Übersicht Besonderheit der Daten: Anzahl Variablen viel größer als Anzahl Beobachtungen Thema hier: Kontrolle nach der Hybridisierung 27 Computergestützte Analyse von DNA- Microarray Genexpressionsprofilen umfasst: Qualitätskontrolle & Vorverarbeitung Auswertung gemäß Fragestellung, z. B.: Detektion differentiell exprimierter Gene Clusteranalyse Phänotyp-Klassifikation 28 Kontrolle: von individuellen Messpunkten von individuellen Hybridisierungen des experimentellen Prozesses Basis für Entscheidung über Neuerstellung bzw. Filterung individueller Messpunkte individueller Hybridisierungen von Hybridisierungsserien QC - Methoden Datenvorverarbeitung 29 Technologie-spezifische Methoden z. B. RNA degradation plots für Affymetrix Chips, spot Eigenschaften von cdna scanner software berechnet Allgemeine Methoden Falschfarbenbilder der Arrays Boxplots Density-Plots MA-plots Paarweise scatter-plots PCA zum Vergleich von Hybridisierungsserien Aggregation und Transformation z. B. Technologiespezifische Zusammenfassung von Sonden (z. B. Affymetrix Chips)* Hintergrund-Korrektur (Rauschen bei der optischen Signalerfassung) Berechnung von Ratios Log Transformation Normalisierung Spezielle Transformationen zur Verbesserung der Vergleichbarkeit von Microarray-Daten 30 * Interessantes Paper dazu: Dai et al.; Nucleic Acid Research 33 (20), e175 Dr. Patrick René Warnat 5

Datenvorverarbeitung - Methoden Berechnung von Ratios Microarray-Analysen basieren auf dem Vergleich von Messungen verschiedener Proben Genexpression wird relative relativen Maßen beschrieben Beispiele: Probe A zu B Probe A &B je zur Referenz-Probe Log Transformation Erzeugt Verteilung, die Normalverteilung ähnlicher Log2: two-fold ratio up = +1 two-fold ratio down = -1 Normalisierung Gemessene Unterschiede der Signalintensitäten = biologisch bedingte Unterschiede + Unterschiede im Prozess der Messung Unterschiede im Prozess der Messung z. B. bedingt durch: Unterschiede in der Probenvorbereitung (mrna Extraktion) Unterschiede zwischen Hybridisierungseffektivität einzelner Sonden Verbesserung der Vergleichbarkeit von Microarray- Daten durch Minimierung der Unterschiede im Prozess der Messung 31 32 Normalisierung - Methoden Einfachste Form Standardisierung JMP Genomics Live Demo Häufig verwendet Quantils-Normalisierung Loess-Normalisierung VSN (variance stabilization normalisation) 33 34 Strukturentdeckende Verfahren Suche nach Mustern / Zusammenhängen explorative, unüberwachte Verfahren kein Zusatzwissen und keine Nullhypothese fließt in die Datenanalyse ein Verfahren dienen zur Gruppierung / Ähnlichkeitsbewertung von Beobachtungseinheiten Strukturentdeckende Verfahren Verfahren zur Gruppierung / Ähnlichkeitsbewertung von Beobachtungseinheiten Gruppierung (Clustering) Hierarchisch Partitionierend (z. B. k-means) Hauptkomponentenanalyse (PCA) Dimensionsreduktion, so dass ein Maximum an Varianz der Originaldaten erhalten bleibt Multidimensionale Skalierung (MDS) Dimensionsreduktion, so dass Distanzmatrix bestmöglich repräsentiert wird 35 36 Dr. Patrick René Warnat 6

Strukturprüfende Verfahren Test auf Differentielle Expression überwachte Verfahren Zusatzwissen bezüglich der Gruppierung der Beobachtungseinheiten fließt in die Datenanalyse ein z. B.: Verfahren zur: Ziel: Feststellung ob Mittelwerte der Genexpression in unterschiedlichen Gruppen von Beobachtungseinheiten signifikant unterschiedlich Methode: Univariate Hypothesentests auf der Basis linearer Modelle, ein Modell pro Gen Detektion differentiell exprimierter Gene Erstellung von prädiktiven Modellen zur Klassenvorhersage (Diagnose) von Beobachtungseinheiten Wichtig: Korrektur für multiples Testen 37 38 Multiples Testen / P-Wert Korrektur Gruppen-Tests Problem: Test von Tausenden von Hypothesen gleichzeitig, dadurch sind vermehrt falsch positive Testergebnisse zu erwarten Beispiel: 10000 Gene pro Chip, 1 Test pro Gen mit Signifikanzniveau p=0.01, Nullhypothese sei immer korrekt Für 10000 0.01=100 Gene falsch positves Testergebnis zu erwarten Lösung: Man muß die p-werte für multiples Testen korrigieren. Test auf Über-Representation definierter Gruppen von Genen in der Liste von z. B. signifikant differentiell detektierten Genen im Vergleich zur Liste aller untersuchten Gene Gruppendefinition z. B. über Gene-Ontology- Kategorien oder Zugehörigkeit zu Zellstoffwegen 39 Methoden, z. B.: Bonferroni, Holm Benjamini-Hochberg 40 Methode: z. B. Fisher s exakter Test Auch hier wichtig: Korrektur für multiples Testen Annotation JMP Genomics Live Demo Berücksichtigung vorhandenen Wissens Was ist über bestimmte Gene schon bekannt? Wie kann ich dieses Wissen zu Interpretation meiner Ergebnisse nutzen? Beispiele: Annotation bzgl. Sequenz DBs Vergleich mit publizierten Ergebnissen 41 42 Dr. Patrick René Warnat 7

Prädiktive Modellierung Prädiktive Modellierung Voraussetzung: Beobachtungseinheit mit bekannter Gruppen- (Klassen-) einteilung Ziel: Generierung eines prädiktiven Modells, welches die Klassenzugehörigkeit für Beobachtungseinheiten vorhersagt, die nicht zur Generierung des Modells verwendet worden sind Zur Schätzung der erreichbaren Klassifikationsgenauigkeit auch einsetzbar: Kreuzvalidierung Methoden zur prädiktive Modellierung, z. B.: Diskriminanzanalyse Logistische Regression 43 Vorgehen: Erstellung prädiktiver Modelle mit Trainingsdaten Auswahl eines Modells auf Validierungsdaten Überprüfung des Modells mit Testdaten 44 K nächste Nachbarn Entscheidungsbäume Support-Vektor-Maschinen Klassifikation hochdimensionaler Daten JMP Genomics Live Demo Generelle Gefahr der Modell-Überanpassung (Overfitting) bei hochdimensionalen Daten besonders gegeben Modell-Komplexität steigt mit Dimensionalität des betrachteten Merkmalraums und muß kontrolliert werden Variablen-Selektion kann zur Kontrolle der Modell- Komplexität beitragen Variablen-Selektion ist allerdings Teil der Modell- Generierung und muss streng vom Modell-Test getrennt werden 45 46 Vortrags - Zusammenfassung Literaturempfehlung 47 JMP Genomics kombiniert benutzerfreundliche Programmoberfläche mit Methoden zur Auswertung molekulargenetischer Daten Gutes Werkzeug zur interaktiven Datenauswertung, weniger gut geeignet bei: Entwicklung sehr komplexer Prozesse (z. B. verteilte Batch-Verarbeitung sehr großer Datensätze, verschachtelte Kreuzvalidierung mit Parameteroptimierung) Auswahl mitgelieferter Methoden gut, aber Möglichkeit der Erweiterbarkeit bleibt wichtig Dokumentation noch work in progress 48 Gute Einführung in die Auswertung von DNA Microarray-Daten Tutorial on Microarray Gene Expression Analysis, Artikelserie in der Zeitschrift Methods of Information in Medicine, Ausgabe 3/2005, Schattauer Verlag Dr. Patrick René Warnat 8