Clustering. Methods Course: Gene Expression Data Analysis -Day Four. Rainer Spang

Ähnliche Dokumente
Clustering Seminar für Statistik

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Robuste Clusterverfahren für Microarrays: Bildanalyse und Tumorklassifikation

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Data Mining und Knowledge Discovery in Databases

Einführung in die Bioinformatik

Einführung in die Bioinformatik

Multivariate Statistik

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Einführung in das Data Mining Clustering / Clusteranalyse

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

GMDS-Tagung 2006 Bioinformatik 1. Assessing the stability of unsupervised learning results in small-sample-size problems

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Data Warehousing und Data Mining

Seminar zum Thema Künstliche Intelligenz:

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch. Annkatrin Bressin Freie Universität Berlin

CLARANS. Semesterprojekt im Fach Wissensexktraktion / Data Mining, Hochschule Wismar, Studiengang Multimedia Engineering, Sommersemester 2013

Exploration und Klassifikation von BigData

Gliederung. Bachelorseminar: Graphiken in R Visualisierung Kategorialer Daten. Einführung. Visualisierung von zweidimensionalen Kontingenztafeln

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek KDD Übung

Einführung in die Cluster-Analyse mit SAS

Statistik und Wahrscheinlichkeitsrechnung

Produktentwicklung damit sollten Sie rechnen

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Data Mining als Arbeitsprozess

Zusammenhänge zwischen metrischen Merkmalen

Rekonstruktion 3D-Datensätze

Die DOE-Funktionen im Assistenten führen Benutzer durch einen sequenziellen Prozess zum Entwerfen und Analysieren eines oder mehrerer Experimente, in

Data Mining - Clustering. Sven Elvers

Seminar Komplexe Objekte in Datenbanken

Elemente der Analysis II

StatStream : Statistical Monitoring of Thousands of Data Streams in Real Time Yunyue Zhu,Dennis Sasha. Vorgetragen von Matthias Altmann

Die Stammzellhierarchie akuter Leukämien des Kindesalters

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Cluster #4 stellt sich (was) vor...

BERGISCHE UNIVERSITÄT WUPPERTAL FB B: SCHUMPETER SCHOOL OF BUSINESS AND ECONOMICS

Korrelation - Regression. Berghold, IMI

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Methoden zur Visualisierung von Ergebnissen aus Optimierungs- und DOE-Studien

Bioinformatik Statistik und Analyse mit R

Entscheidungsunterstützende Systeme

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Kapitel 4: Data Mining

Eine vorprozessierte Variante von Scatter/Gather

Neue Wege zur Reduktion der Antibiotikaverordnung bei Atemwegsinfektionen.

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17

mi-rna, zirkulierende DNA

6. Künstliche Intelligenz

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Mustererkennung in Energieverbrauchsdaten

Teil II. Nichtlineare Optimierung

SUDOKU - Strategien zur Lösung

Clustering mit dem K-Means-Algorithmus (Ein Experiment)

Diagrammtypen. 8. Dezember 2012

MATHEMATISCHE ANALYSE VON ALGORITHMEN

Seminar Visual Analytics and Visual Data Mining

Proseminar - Data Mining

Identifizierung und Schutz von Waldbeständen mit vorrangiger Bedeutung für den Erhalt der Biodiversität

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Large-Scale Image Search

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Unsupervised Kernel Regression

Einfache Statistiken in Excel

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Funktionaler Zusammenhang. Lehrplan Realschule

Lineare Modelle in R: Einweg-Varianzanalyse

Anfrage Erweiterung Jan Schrader

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Clustering algorithms (Overview)

Eine Kurzanleitung zu Mathematica

8. Clusterbildung, Klassifikation und Mustererkennung

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Cluster-Analyse Ziel: Anwendungsbereiche: Nutzen: Bezug zur Statistik: Bezug zu maschinellem Lernen:

Morphologie auf Binärbildern

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

Proseminar Künstliche Intelligenz

Datenerfassung und Datenmanagement

Algorithms for Regression and Classification

Studiendesign und Statistik: Interpretation publizierter klinischer Daten

4. Diskussion Polymerase-Kettenreaktion

Linearer Zusammenhang von Datenreihen

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS

Conjoint Measurement:

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Greater occipital nerve block using local anaesthetics alone or with triamcinolone for transformed migraine: a randomised comparative study

Verwendung von OO-Metriken zur Vorhersage

Untersuchung der Zusammenhänge zwischen der gebauten Struktur einer Stadt und der

Die Kinder-Krebs-Initiative Buchholz, Holm-Seppensen (KKI) fördert die Erforschung von Lymphomen und Leukämien bei Kindern

Einfache statistische Auswertungen mit dem Programm SPSS

Transkript:

Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang

Eine Krankheit Drei alternative Therapien

Klinische Studie Im Mittel 75% 55% 35% Erfolg

Drei Subtypen der Krankheit A B C

A B C 100% 60% 65% 40% 40% 85% 10% 90% 5%

100% A 90% 91,7% B 85% C

Fazit Der Therapieerfolg ist angestiegen durch eine verbesserte Diagnose 91,7% 75% Ohne daß eine neue Therapie entwickelt wurde

Clustering Ziel: Gruppiere ähnliche Objekte in das gleiche Cluster und unähnliche Objekte in unterschiedliche Cluster Daten Clustering

Cluster von Genen Finde koregulierte Gene Funktionale Klassifikation von Genen Fasse Variablen ähnlichen Informationsgehalts zusammen Dimensionsreduktion Borrowing Information across Genes

Cluster von Arrays? Suchen nach a priori unbekannten Gruppierungen der Arrays Pathologie Beispiel: Arrays = Genexpressiosnprofile von Patienten Cluster = Potentielle Subentitäten einer Krankheit Kein Clustering-Problem: Rekonstruktion bekannter Gruppierungen der Arrays Diagnostik

Leukämie Chiaretti et al. (2004) Gene expression profile of adult T-cell acute lymphocytic leukemia identities distinct subsets of patients with different response to therapy and survival. Blood 103(7):2771-8

Analyse von Methoden vs. Analyse von Daten Hat man a priori gelabelte Daten, wie die B und T-ALL im Chiaretti Datensatz so ist man in einer Situation überwachten Lernens, und sollte die dafür vorhandenen Methoden einsetzen. Nichtsdestotrotz kann man das Verhalten von Clusteringverfahren in diesen Situationen analysieren Finden sie die Struktur wieder?

Clustering - Die Zutaten Zwei Dinge bestimmen das Ergebnis: Distanzmaß: Quantifizierung der (Un-)Ähnlichkeit der Objekte Cluster-Algorithmus: Verfahren, dass die Gruppierung basierend auf dem gewählten Distanzmaß durchführt

Der euklidische Abstand Expressionsprofile x = (x 1,, x n ), y = (y 1,, y n ) d E ( x, y) n i 1 ( x i y i 2 ) Die Luftlinie zwischen zwei Punkten Das Quadrat macht den Abstand sensibel gegen Ausreißer

Die Manhattan-Distanz Abstand, wenn nur parallel zu den Koordinatenachsen gelaufen werden darf (wie in den Straßen von Manhattan) d M ( x, y) n i 1 x i y i. Ausreißer fallen weniger ins Gewicht

Die Pearson-Korrelation. ) ( ) ( ) )( ( 1 ), ( 1 2 1 2 1 i i i i i i i C y y x x y y x x y x d Die Pearson Korrelation beschreibt die lineare Abhängigkeit zweier Profile d c (x, y)= d c (ax+b, y), a > 0 Sie vergleicht den Verlauf

Beispiel: Clustering von Zeitreihen steep up: x1=(2,4,5,6) up: x2=(2/4,4/4,5/4,6/4) down: x3=(6/4,4/4,3/4,2/4) change: x4=(2.5,3.5,4.5,1)

Euklidischer Abstand 0 2.60 2.75 2.25 2.60 0 1.23 2.14 2.75 1.23 0 2.15 2.25 2.14 2.15 0 Matrix of pairwise distances

Manhatten-Distanz 0 12.75 13.25 6.50 12.75 0 2.50 8.25 13.25 2.50 0 7.75 6.50 8.25 7.75 0 Matrix of pairwise distances

Korrelations-Abstand 0 0 2 1.18 0 0 2 1.18 2 2 0 0.82 1.18 1.18 0.82 0 Matrix of pairwise distances Aus d(x,y)=0 folgt nicht x=y Keine Metrik

Normalisierte Abstands-Skalen steep up up down change steep up 0 0 0 9 9 0 10 10 10 8 4 5 up 9 9 0 0 0 0 4 1 10 7 6 5 down 10 10 10 4 1 10 0 0 0 7 5 4 change 8 4 5 7 6 5 7 5 4 0 0 0 Euklid. Manh. Korr. Alle Distanzen wurden auf das Interval [0,10] normalisiert und gerundet

Standardeinheiten Transformiere die Daten auf Standardeinheiten x x ˆ ˆ Dann ergeben euklidische Distanz und Korrelation proportionale Abstände 2 1 2 C 1 2 d ( x, x ) 2 nd ( x, x ) E

Cluster-Algorithmen Die Algorithmen sind Verfahren, die die Daten in Gruppen einteilen Sie bauen dabei auf den Distanzmaßen auf Wir diskutieren: Hierachichal Clustering K-Means-Clustering Partitioning around Medoids

Hierarchisches Clustern Zu Anfang bildet jedes Profil ein Cluster mit einem Element Berechne alle Abstände zwischen Profilen Suche das Paar mit dem kleinsten Abstand Vereinige es zu einem neuen Cluster Berechne die Abstände zwischen dem neuen Cluster und allen anderen Wiederhole bis nur noch 1 Cluster übrig bleibt.

Abstand zwischen Clustern Bisher hatten wir nur Abstandsmasse auf einzelnen Punkten diskutiert Beim hierarchischen Clustering werden aber auch Abstände von Clustern zu Punkten benötigt Wie werden diese definiert?

Linkage Berechne die Distanzen von allen Profilen in Cluster 1 zu allen Profilen in Cluster 2 Der Abstand der Cluster zu einander ist dann: Das Minimum der Abstände (single linkage) Der Mittelwert der Abstände (average linkage) Das Maximum der Abstände (complete linkage)

Dendrogramm Wenn zwei Cluster zusammengelegt werden, werden sie im Dendrogramm durch eine Klammer verbunden Die Höhe der Klammer entspricht dem Abstand der Cluster

Dendrogramm Das Dendrogramm wird oft über eine Heatmap geplotted Dazu müssen die Profile geordnet werden Beachte: Das Dendrogramm legt die Ordnung nicht eindeutig fest Man kann an allen Verzweigungen spiegeln Hierarchie ist nicht gleich Ordnung

Heatmap der Distanzen Die Distanzen der Cluster sind im Dendrogramm durch die Höhen der Äste repräsentiert Es gibt n(n-1)/2 Distanzen, aber nur n-1 Asthöhen Information geht verloren Alternativ kann man die Distanzen aller Profile in einer Heatmap darstellen Diese ist nur übersichtlich wenn die Profile günstig geordnet sind Dazu kann man wiederum das Dendrogramm verwenden

Hierarchien von Clusterings Der Algorithmus produzierte ein Dendrogramm aber noch kein Clustering Das Dendrogramm kann auf verschiedenen Levels geschnitten werden Jeder Schnitt definiert ein Clustering Der orange Schnitt generiert die drei Cluster (G1,G6,G5), (G2,G3), (G4) Der blaue Schnitt generiert vier Cluster (G1,G6),(G5), (G2,G3), (G4) Es entsteht eine Hierarchie von Clusterings

Euklidischer Abstand

Manhattan-Distanz

Korrelations-Abstand

Akute Lymphoblastische Leukämie bei Kinder Golub et al. Science 1999 aber das war kein Clustering-Problem, da die Subentitäten AML und ALL schon a priori bekannt waren

K-Means Clustering Die Anzahl K der Cluster muss gewählt werden Suche H Punkte zufällig aus, dies sind die ersten Zentroide Ordne jeden Punkt dem nächst gelegenen Zentroid zu

Iteration x x x x x x Bestimme die Zentroide der so entstandenen Cluster und ordne die Punkte wiederum dem nächstgelegenen Zentroid zu Iteriere bis alle Punkte im gleichen Cluster bleiben

Optimales Clustering Wir haben K-means Clustering als Algorithmus eingeführt Man kann es auch als ein Optimierungproblem definieren: Ordne die Profile den K-Clustern so zu, dass die folgende Funktion optimiert wird: K 1 W ( C) de ( xi, x j ) 2 k 1 C( i) C( j) k Der Algorithmus ist eine Heuristik zur Minimerung dieser Funktion Natürlich ist das Clustering nur optimal relativ zu dieser Objective Function Mann kann auch andere Objective Functions wählen und erhält andere Clusterings 2

Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch Zentroide, sondern durch prototypische Datenpunkte (Medoide) repräsentiert Ziel ist es den Abstand zum nächsten Medoid über alle Punkte gleichzeitig zu minimieren Minimiert wird also die Objective Function

PAM Algorithmus Initialisierung: Suche zufällig K Prototypen (Medoide) Iteriere bis zur Konvergenz Swapping: Für alle Paare (i,j) bei denen i ein Medoid und j kein Medoid ist: Berechne den Unterschied in der Objective Funktion, der entstünde wenn man j zum Medoid an Stelle von i machte Führe das Swapping durch, wenn es günstig ist

Wie viele Cluster sind in den Daten? Für jeden Datenpunkt können wir die Silhouette s(i) berechnen: a(i) := Mittler Abstand von Punkt i zu allen Punkten im gleichen Cluster b(i) := min C d(i,c), wobei d(i,c) der mittlere Abstand von Punkt i zu allen Punkten in Cluster C ist. Das Minimum wird über alle Cluster in denen Punkt i nicht liegt genommen Bestes Konkurenzcluster - s(i) nahe 1 : Profil ist im richtigen Cluster s(i) nahe -1: Profil ist im falschen Cluster s(i) nahe 0: Profil kann sich nicht entscheiden

Silhouette Plot

Silhouette Plot In diesem Cluster gibt es Profile mit kleinem Silhouetten Score Alle Profile in diesem Cluster haben einen hohen Silhouetten Score T-cell Leukemia Chiaretti et al., 2004 Gibt es in Wirklichkeit drei Cluster in den Daten?

Silhouette Plot Nein! Die Aufteilung des oberen Clusters in zwei Cluster verschlechtert den Silhouetten Plot T-cell Leukemia Chiaretti et al., 2004

Kein Clustering Problem Sie wollen zu einem Referenzprofil die Profile suchen, die ihm am ähnlichsten sind Falscher Ansatz: Sie clustern alle Profile und schauen sich die Profile an, die im selben Cluster wie ihr Referenzprofil liegen Was man bekommt Was man gerne hätte

Screening Problem Sie wollen zu einem Referenzprofil die Profile suchen, die ihm am ähnlichsten sind Richtiger Ansatz: Sie berechnen die Abstände aller Profile zum Referenzprofil und sehen sich die Profile mit kleinstem Abstand an Clustering Screening

Self Fulfilling Prophecy Sie besitzen a priori label 2 Gruppen von Profilen - Wählen differentiell exprimierte Gene aus Clustern die Daten nur unter Einschluss dieser Gene Beobachten, dass die a priori Gruppen zusammen clustern Interpretieren dies als Bestätigung der a priori label Die Gruppen clustern unter umständen nur wegen der Genauswahl zusammen Zufällige Daten hätten dies auch getan

Self Fulfilling Prophecy Randomisierte Labels Clustering mit supervidierter Genselektion Ohne Genselektion

Nicht supervidierte Geneselektion Der Microarray hält 30.000 Gene Nicht alle diese Gene zeigen sinnvolle Clustering Struktur Hybridisierungs-Artefakte produzieren oft kleine Veränderungen in allen Genen Normalisierung kann diese nicht immer eliminieren In den Distanzmaßen summieren sie sich auf Ansatz: Benutze nur stark variierende Gene zum Clustering

Clustering mit allen Genen B- und T-cell ALL Chiaretti et al., 2004

Clustering mit den Top 100 variabelsten Genen B- und T-cell ALL Chiaretti et al., 2004

Genselektion Gene 2 Gene 4 Problem: Unterschiedliche Gene induzieren ein unterschiedliches Clustering

Lymphome Gene und Profile von verschiedenen Lymphomen und lymphoiden Zellinen wurden geclustert Globales Clustering: Die bekannten Lymphom Entitäten bilden Cluster aus Genselktion: Der orange Block von Genen Clustert einen Teil der DLBCL Lymphome mit Keimzentrumszellinien und einen anderen Teil mit aktivierten B-Zellen Alizadeh et al Nature 2000

Acknowledgement Für diese Vorlesung habe ich Folien, Graphiken und Ideen ausgeliehen bei: Jörg Rahnenführer Tobias Müller Anja v. Heydebreck