Grundlagen der Bioinformatik Übung 5: Microarray Analysis. Yvonne Lichtblau

Ähnliche Dokumente
Was sind MICROARRAYS? Microarrays sind Technologieplattformen zur Messung der Aktivität einer großen Anzahl von Genen.

Methoden & Tools für die Expressionsdatenanalyse. Vorlesung Einführung in die Bioinformatik - Expressionsdatenanalyse U. Scholz & M.

Statistische Analyse von hochdimensionalen Daten in der Bioinformatik

Kapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation

Einführung in die Bioinformatik

Switching. Übung 2 System Management. 2.1 Szenario

Einführung in QtiPlot

Transcriptomics: Analysis of Microarrays

Einführung in die Genexpressionsplattform des IVM

Microarray-Auswertung im Zusammenspiel mit der Bium (mz) Johanna Mazur & Timo Itzel

Adminer: Installationsanleitung

Robuste Clusterverfahren für Microarrays: Bildanalyse und Tumorklassifikation

Datenaufbereitung, Grafische Datenanalyse

Bewertung von Pre-Prozessing-Verfahren

Einführung in die Bioinformatik

Tag 9: Datenstrukturen

BMBF-Projekt Qualitätsmanagement für Hochdurchsatz-Genotypisierung

Auswirkungen der Low-Level-Analyse auf die Ergebnisse von Genexpressionsdaten der Firma Affymetrix. Dipl.-Stat. Tanja Boes, geb.

Vorlesung Einführung in die Bioinformatik

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Statistische Auswertung der Daten von Blatt 13

V7 Genexpression - Microarrays

MATLAB-Automatisierung von Dymola- Simulationen und Ergebnisauswertung Holger Dittus. Modelica User Group BaWü, Stuttgart,

Bio Data Management. Kapitel 6 Genexpressionsanalyse

Funktionen in PHP 1/7

Es sollte die MS-DOS Eingabeaufforderung starten. Geben Sie nun den Befehl javac ein.

R Installationsanleitung Mac (Version 1.5)

Auto-Provisionierung tiptel 31x0 mit Yeastar MyPBX

Übungsbetrieb in L²P aus Studierenden-Sicht

Bioinformatik Statistik und Analyse mit R

Aufgabe 3. Signal Processing and Speech Communication Lab. Graz University of Technology

R-WORKSHOP II. Inferenzstatistik. Johannes Pfeffer

Microarray-Analyse mit R

Script-Sprache für UPT und MKT-View II / III / IV. Einleitung, Anwendungsfälle, Programmierung. MKT Systemtechnik

Medizinische Fakultät Auswertestrategien von Microarrays Einführung

Vortrag Februar 2008

Modellgestützte Analyse und Optimierung Übungsblatt 4

Installation und Benutzung AD.NAV.ZipTools

Molekularbiologische Datenbanken

Skripte. Beispiel. M. Fyta Computergrundlagen 73/93

Boxplots von Projektionen

Anwendung von Geoinformatik: Entwicklung von Open Source Tools für die automatisierte Analyse von Geoinformationen

Dynamische Websites mit XML und PHP4

INSTALLATION. Voraussetzungen

Berechnung von Strukturgleichungsmodellen mit Amos. Im folgenden kurze Einführung: Arbeiten mit Amos Graphics

Informationszentrum Hochschule Karlsruhe. Anleitung Plotter

Objektorientierte Programmierung und Analyse Zu UML, Systemtechnik, AI/KI und Eclipse s. Extra Scripte

Daten fu r Navigator Mobile (ipad)

Protokoll Frage (Aufgabentyp 1 Allgemeine Frage):

Drucken an der ULB Münster mit Print & Pay

Anleitung zur Herstellung von Wegpunkte, Routen und Tracks mit den LGL DVD Produkten. TopMaps Viewer WR50 V3 Top10 V1 Top25 V3 Top50 V5

Grundlagen des Debian-Paketverwaltungssystems Eine kurze Einführung - WS 09/10. Fatih Abut (fabut2s@smail.inf.fh-brs.de)

Einführung in das wissenschaftliche Rechnen

4 Inhalt bearbeiten und anlegen

SEW Übung EMFText. 1 Aufgabe. 2 Domänenbeschreibung. 3 Installation von Eclipse/EMFText. 4 Schritt-für-Schritt Anleitung. 4.

Quellcodeverwaltung mit SubVersion

Auto-Provisionierung tiptel 30x0 mit Yeastar MyPBX

Dissertationsserver mit miless / MyCoRe:

WEKA A Machine Learning Interface for Data Mining

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

GeoMedia Ausdrucke in eine Datei umleiten (.plt /.pri /.ps)

Die Projek*ools. Files, Git, Tickets & Time

Datenauswertung von Microarrays Genexpressionsanalyse

Einführung in QtiPlot

PDF-Erstellung am PC mit PDFCreator. Installation und Einrichten der einzelnen Komponenten. V Achtung!

SQL. Run. SQL Run - Handbuch. as Mika GmbH. it solutions for your system i

Sage Customer View Kurzhandbuch

Materialupload. Verwalten von Unterrichtsmaterialien. über das STiNE-Webportal. Universität Hamburg Tor zur Welt der Wissenschaft

INHALT 1. INSTALLATION DES V-MODELL XT UNTER WINDOWS 7 2. INSTALLATION DES V-MODELL XT UNTER WINDOWS VISTA

Überblick über COPYDISCOUNT.CH

Smap3D PDM 10. Installation. Stand-Alone-Migration-Analyzer

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Teil 2: Ablauf der Analyse festlegen

DOAG Demo Kino: Advisors, Monitoring Werkzeuge in der Datenbank Ulrike Schwinn Business Unit Database Oracle Deutschland B.V.

Web Mining Übung. Aufgaben. Umfang

Datenbanken erstellen Liste von Datenbanken anzeigen Datenbanken löschen. MySQL 4, 5. Kapitel 06: Datenbanken. Marcel Noe

In diesem Skript werden einige Plot-Typen und Funktionen beschrieben, die für die allgemeine Datenanalyse nützlich sind.

MGS S PA ACCOUNT CONVERTER

Installation, Einrichtung, Nutzung von PHOCA DOWNLOAD. Download-Links... 2

Predictive Modeling Markup Language. Thomas Morandell

Wirtschafts-Informatik-Wietzorek Ulmweg Wangen Programm zur komfortablen Datenauswertung der JTL-WAWI Betaversion

Übungsblätter TachiCAD Christian-Albrechts-Universität Kiel. How to use TachiCAD

10 Lesen und Schreiben von Dateien

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Bedienungsanleitung Software Program Loader V4.1

Anleitung für Kaufkunden, bei denen der CLIQ Web Manager nicht permanent mit dem CLIQ Data Center (DCS) verbunden sind

PHP Programmierung Rasterbildmanipulation DHM Klassifizierung und kartographische Aufbereitung (großer und kleiner Maßstab)

Data Mining als Arbeitsprozess

Begleitendes Praktikum zu Computer Vision und Mustererkennung: Vertiefung

Bio Data Management. Kapitel 6 Genexpressionsanalyse

ROOT. Schaltungstechnik. Michael Ritzert Vorlesung Tools Heidelberg

Sie müssen den Test bis 20:00 Uhr am Abgabetag dieses Übungszettels absolviert haben.

Raiffeisen Bilddatenbank Benutzerhandbuch

Seminar Komplexe Objekte in Datenbanken

Probleme bei der Installation des Plugins smpmt.dll

Pascal-Compiler für den Attiny

6 Bilder und Dokumente verwalten

6 Graphische Darstellungen mit Matplotlib

Transkript:

Grundlagen der Bioinformatik Übung 5: Microarray Analysis Yvonne Lichtblau

Vorstellung Lösungen Übung 4 Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 2

Lösungen vorstellen - Übung 4 (1) Aufgaben 1-6 Vorstellung durch eine Gruppe (2) Aufgaben 7-11 Vorstellung durch eine Gruppe Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 3

Übung 5 - Voraussetzungen (1) Voraussetzungen: Funktionsfähige R Installation (http://cran.r-project.org/) Packages: affy, AnnotationsDbi, hgu133plus2cdf Download Packages at Bioconductor (https://www.bioconductor.org/packages/devel/bioc/html/affy.html) Auf gruenau[1-6] existiert eine R Installation inkl. benötigter Packages Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 4

Übung 5 Voraussetzungen (2) Bioconductor Bioconductor provides tools for the analysis and comprehension of high-throughput genomic data. https://www.bioconductor.org/ Getting Bioconductor Start R and enter the commands: Installing Bioconductor Packages Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 5

Aufgabe 1 Theorie zu k-means Clustering (4P) 1. Das Ergebnis des k-means Clusterings hängt häufig von der Initialisierung der Clustermittelpunkte ab. Entwerfe ein Beispiel in welchem k-means unterschiedliche Ergebnisse abhängig von der Initialisierung der Clustermittelpunkte liefert. (2P) 2. Oft ist die richtige Anzahl der Cluster in biologischen Szenarien unbekannt. Wie könnte man die optimale Clusteranzahl (vielleicht graphisch) für einen gegebenen Datensatz schätzen? (2P) Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 6

Aufgabe 2.1 Einladen von Microarrays (2P) Unter http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gse3678 werden Affymetrix Microarray Daten (CEL-Files) zur Verfügung gestellt, welche im Rahmen dieser Übung analysiert werden. In diesem Versuch wird ein Subtyp von Schilddrüsenkrebs mit gesundem Schilddrüsengewebe verglichen. Für beide Samples wurden je 7 Chips hybridisert. Zu Beginn müssen die Daten in R geladen werden. Hierfür wird die Bibliothek affy benötigt. Bibliotheken können wie in der Übung beschrieben mit dem Befehl library("name") geladen werden. Zum Laden der Daten soll der Befehl ReadAffy verwendet werden. Erzeuge einen Boxplot der Expressionswerte nachdem die Expressionswerte log 2 -transformiert wurden. Tipp: Zugriff auf die tatsächlichen Expressionswerte der eingeladenen Arrays ist mit einem Funktionsaufruf möglich. Finde heraus welcher Objekttyp von ReadAffy erzeugt wird und suche die passende Methode in der Bioconductor Beschreibung. (1P) Beschreibe was Expressionswerte eigentlich sind. (1P) Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 7

Aufgabe 2.2 Normalisieren der Microarrays (3P) Um die Vergleichbarkeit der Microarrays für weitere Analysen zu gewährleisten, müssen die Microarrays erst normalisiert werden. Eine für Affymetrix Daten häufig verwendete Methode nennt sich rma. Diese baut auf der vorgestellten quantil-normalisierung auf. Suche die benötigte Funktion und führe eine rma Normalisierung auf den Arrays durch. Erzeuge nun einen Boxplot der normalisierten Daten. (1P) Beschreibe den Plot und vergleiche ihn mit dem Plot der unnormalisierten Daten. Nenne Gründe warum Microarray Daten ohne Normalisierung nicht vergleichbar sind. (2P) Wichtig: Die log 2 Transformation wird von rma selbst durchgeführt. Des weiteren ist zu beachten, dass rma mehrere Probes (Spots) zu einem Probeset zusammengefasst hat. Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 8

Aufgabe 2.3 Suche nach differentiell exprimierten Genen (5P) Bestimme für jedes Probeset den p-value (two-sided t test) und den Foldchange. Lösen mittels apply oder for-schleife (2P). Fragen: Wie viele Probesets sind differentiell exprimiert (α < 0.01) und wie viele Probesets haben einen Foldchange > 1? (0.5P) Wie viele Probesets sind differentiell exprimiert und haben Foldchange > 1? (0.5P) Was bedeutet differentiell exprimiert und was sagt der p-value aus? (2P) Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 9

Aufgabe 2.4 Multiple testing correction (3P) Führe eine p-value Korrektur nach Benjamini Hochberg durch (1P). Fragen: Wie viele Probesets sind jetzt noch differentiell exprimiert? Wie viele Probesets sind differentiell exprimiert und haben Foldchange > 1? (1P) Warum führt man eine p-value Korrektur aus? (1P) Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 10

Aufgabe 2.5 Volcano Plot (2P) Zeichne einen Volcano Plot für die eben ermittelten p-values und Foldchanges. (1P) Hebe Punkte mit einem nach Benjamini Hochberg signifkanten p-value und einem Foldchange > 1 farbig hervor. (0.5P) Tipp: Dafür kann man den Parameter col der Funktion plot nutzen oder die Funktion points verwenden. Warum macht man Volcano Plots? (0.5P) Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 11

Aufgabe 2.6 Heatmap (1P) Zeichne eine Heatmap für die 50 Probesets mit dem kleinsten p-value. Erzeuge eine weitere Heatmap für 50 zufällig gezogene Probesets. (0.5P) Beschreibe die Heatmaps (0.5P) Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 12

Abgabe Abgabe bis Dienstag den 11.07.2017 um 23:59 Uhr Fragen zur Übung gerne per Email: yvonne.lichtblau@informatik.hu-berlin.de Abgabe als.zip hier hochladen: https://box.hu-berlin.de/u/d/c653bdb3a5/ Dateiname: GdBioinf[AssignmentNr]_[Gruppe].zip Zip muss enthalten: R Skript PDF Datei (mit Bildern/Erklärungen, alle x- und y-achsen beschriften).r auf gruenau2 testen! Wenn die Datei nicht läuft gibt es Punkteabzug. Yvonne Lichtblau: Grundlagen der Bioinformatik, Sommer Semester 2017 13