Clustering Methods Course: Gene Expression Data Analysis -Day Four Rainer Spang
Eine Krankheit Drei alternative Therapien
Klinische Studie Im Mittel 75% 55% 35% Erfolg
Drei Subtypen der Krankheit A B C
A B C 100% 60% 65% 40% 40% 85% 10% 90% 5%
100% A 90% 91,7% B 85% C
Fazit Der Therapieerfolg ist angestiegen durch eine verbesserte Diagnose 91,7% 75% Ohne daß eine neue Therapie entwickelt wurde
Clustering Ziel: Gruppiere ähnliche Objekte in das gleiche Cluster und unähnliche Objekte in unterschiedliche Cluster Daten Clustering
Cluster von Genen Finde koregulierte Gene Funktionale Klassifikation von Genen Fasse Variablen ähnlichen Informationsgehalts zusammen Dimensionsreduktion Borrowing Information across Genes
Cluster von Arrays? Suchen nach a priori unbekannten Gruppierungen der Arrays Pathologie Beispiel: Arrays = Genexpressiosnprofile von Patienten Cluster = Potentielle Subentitäten einer Krankheit Kein Clustering-Problem: Rekonstruktion bekannter Gruppierungen der Arrays Diagnostik
Leukämie Chiaretti et al. (2004) Gene expression profile of adult T-cell acute lymphocytic leukemia identities distinct subsets of patients with different response to therapy and survival. Blood 103(7):2771-8
Analyse von Methoden vs. Analyse von Daten Hat man a priori gelabelte Daten, wie die B und T-ALL im Chiaretti Datensatz so ist man in einer Situation überwachten Lernens, und sollte die dafür vorhandenen Methoden einsetzen. Nichtsdestotrotz kann man das Verhalten von Clusteringverfahren in diesen Situationen analysieren Finden sie die Struktur wieder?
Clustering - Die Zutaten Zwei Dinge bestimmen das Ergebnis: Distanzmaß: Quantifizierung der (Un-)Ähnlichkeit der Objekte Cluster-Algorithmus: Verfahren, dass die Gruppierung basierend auf dem gewählten Distanzmaß durchführt
Der euklidische Abstand Expressionsprofile x = (x 1,, x n ), y = (y 1,, y n ) d E ( x, y) n i 1 ( x i y i 2 ) Die Luftlinie zwischen zwei Punkten Das Quadrat macht den Abstand sensibel gegen Ausreißer
Die Manhattan-Distanz Abstand, wenn nur parallel zu den Koordinatenachsen gelaufen werden darf (wie in den Straßen von Manhattan) d M ( x, y) n i 1 x i y i. Ausreißer fallen weniger ins Gewicht
Die Pearson-Korrelation. ) ( ) ( ) )( ( 1 ), ( 1 2 1 2 1 i i i i i i i C y y x x y y x x y x d Die Pearson Korrelation beschreibt die lineare Abhängigkeit zweier Profile d c (x, y)= d c (ax+b, y), a > 0 Sie vergleicht den Verlauf
Beispiel: Clustering von Zeitreihen steep up: x1=(2,4,5,6) up: x2=(2/4,4/4,5/4,6/4) down: x3=(6/4,4/4,3/4,2/4) change: x4=(2.5,3.5,4.5,1)
Euklidischer Abstand 0 2.60 2.75 2.25 2.60 0 1.23 2.14 2.75 1.23 0 2.15 2.25 2.14 2.15 0 Matrix of pairwise distances
Manhatten-Distanz 0 12.75 13.25 6.50 12.75 0 2.50 8.25 13.25 2.50 0 7.75 6.50 8.25 7.75 0 Matrix of pairwise distances
Korrelations-Abstand 0 0 2 1.18 0 0 2 1.18 2 2 0 0.82 1.18 1.18 0.82 0 Matrix of pairwise distances Aus d(x,y)=0 folgt nicht x=y Keine Metrik
Normalisierte Abstands-Skalen steep up up down change steep up 0 0 0 9 9 0 10 10 10 8 4 5 up 9 9 0 0 0 0 4 1 10 7 6 5 down 10 10 10 4 1 10 0 0 0 7 5 4 change 8 4 5 7 6 5 7 5 4 0 0 0 Euklid. Manh. Korr. Alle Distanzen wurden auf das Interval [0,10] normalisiert und gerundet
Standardeinheiten Transformiere die Daten auf Standardeinheiten x x ˆ ˆ Dann ergeben euklidische Distanz und Korrelation proportionale Abstände 2 1 2 C 1 2 d ( x, x ) 2 nd ( x, x ) E
Cluster-Algorithmen Die Algorithmen sind Verfahren, die die Daten in Gruppen einteilen Sie bauen dabei auf den Distanzmaßen auf Wir diskutieren: Hierachichal Clustering K-Means-Clustering Partitioning around Medoids
Hierarchisches Clustern Zu Anfang bildet jedes Profil ein Cluster mit einem Element Berechne alle Abstände zwischen Profilen Suche das Paar mit dem kleinsten Abstand Vereinige es zu einem neuen Cluster Berechne die Abstände zwischen dem neuen Cluster und allen anderen Wiederhole bis nur noch 1 Cluster übrig bleibt.
Abstand zwischen Clustern Bisher hatten wir nur Abstandsmasse auf einzelnen Punkten diskutiert Beim hierarchischen Clustering werden aber auch Abstände von Clustern zu Punkten benötigt Wie werden diese definiert?
Linkage Berechne die Distanzen von allen Profilen in Cluster 1 zu allen Profilen in Cluster 2 Der Abstand der Cluster zu einander ist dann: Das Minimum der Abstände (single linkage) Der Mittelwert der Abstände (average linkage) Das Maximum der Abstände (complete linkage)
Dendrogramm Wenn zwei Cluster zusammengelegt werden, werden sie im Dendrogramm durch eine Klammer verbunden Die Höhe der Klammer entspricht dem Abstand der Cluster
Dendrogramm Das Dendrogramm wird oft über eine Heatmap geplotted Dazu müssen die Profile geordnet werden Beachte: Das Dendrogramm legt die Ordnung nicht eindeutig fest Man kann an allen Verzweigungen spiegeln Hierarchie ist nicht gleich Ordnung
Heatmap der Distanzen Die Distanzen der Cluster sind im Dendrogramm durch die Höhen der Äste repräsentiert Es gibt n(n-1)/2 Distanzen, aber nur n-1 Asthöhen Information geht verloren Alternativ kann man die Distanzen aller Profile in einer Heatmap darstellen Diese ist nur übersichtlich wenn die Profile günstig geordnet sind Dazu kann man wiederum das Dendrogramm verwenden
Hierarchien von Clusterings Der Algorithmus produzierte ein Dendrogramm aber noch kein Clustering Das Dendrogramm kann auf verschiedenen Levels geschnitten werden Jeder Schnitt definiert ein Clustering Der orange Schnitt generiert die drei Cluster (G1,G6,G5), (G2,G3), (G4) Der blaue Schnitt generiert vier Cluster (G1,G6),(G5), (G2,G3), (G4) Es entsteht eine Hierarchie von Clusterings
Euklidischer Abstand
Manhattan-Distanz
Korrelations-Abstand
Akute Lymphoblastische Leukämie bei Kinder Golub et al. Science 1999 aber das war kein Clustering-Problem, da die Subentitäten AML und ALL schon a priori bekannt waren
K-Means Clustering Die Anzahl K der Cluster muss gewählt werden Suche H Punkte zufällig aus, dies sind die ersten Zentroide Ordne jeden Punkt dem nächst gelegenen Zentroid zu
Iteration x x x x x x Bestimme die Zentroide der so entstandenen Cluster und ordne die Punkte wiederum dem nächstgelegenen Zentroid zu Iteriere bis alle Punkte im gleichen Cluster bleiben
Optimales Clustering Wir haben K-means Clustering als Algorithmus eingeführt Man kann es auch als ein Optimierungproblem definieren: Ordne die Profile den K-Clustern so zu, dass die folgende Funktion optimiert wird: K 1 W ( C) de ( xi, x j ) 2 k 1 C( i) C( j) k Der Algorithmus ist eine Heuristik zur Minimerung dieser Funktion Natürlich ist das Clustering nur optimal relativ zu dieser Objective Function Mann kann auch andere Objective Functions wählen und erhält andere Clusterings 2
Partioning around Medoids PAM Robustere Variante des K-Means Algorithmus durch eine andere Objective Funktion Die Cluster werden nicht durch Zentroide, sondern durch prototypische Datenpunkte (Medoide) repräsentiert Ziel ist es den Abstand zum nächsten Medoid über alle Punkte gleichzeitig zu minimieren Minimiert wird also die Objective Function
PAM Algorithmus Initialisierung: Suche zufällig K Prototypen (Medoide) Iteriere bis zur Konvergenz Swapping: Für alle Paare (i,j) bei denen i ein Medoid und j kein Medoid ist: Berechne den Unterschied in der Objective Funktion, der entstünde wenn man j zum Medoid an Stelle von i machte Führe das Swapping durch, wenn es günstig ist
Wie viele Cluster sind in den Daten? Für jeden Datenpunkt können wir die Silhouette s(i) berechnen: a(i) := Mittler Abstand von Punkt i zu allen Punkten im gleichen Cluster b(i) := min C d(i,c), wobei d(i,c) der mittlere Abstand von Punkt i zu allen Punkten in Cluster C ist. Das Minimum wird über alle Cluster in denen Punkt i nicht liegt genommen Bestes Konkurenzcluster - s(i) nahe 1 : Profil ist im richtigen Cluster s(i) nahe -1: Profil ist im falschen Cluster s(i) nahe 0: Profil kann sich nicht entscheiden
Silhouette Plot
Silhouette Plot In diesem Cluster gibt es Profile mit kleinem Silhouetten Score Alle Profile in diesem Cluster haben einen hohen Silhouetten Score T-cell Leukemia Chiaretti et al., 2004 Gibt es in Wirklichkeit drei Cluster in den Daten?
Silhouette Plot Nein! Die Aufteilung des oberen Clusters in zwei Cluster verschlechtert den Silhouetten Plot T-cell Leukemia Chiaretti et al., 2004
Kein Clustering Problem Sie wollen zu einem Referenzprofil die Profile suchen, die ihm am ähnlichsten sind Falscher Ansatz: Sie clustern alle Profile und schauen sich die Profile an, die im selben Cluster wie ihr Referenzprofil liegen Was man bekommt Was man gerne hätte
Screening Problem Sie wollen zu einem Referenzprofil die Profile suchen, die ihm am ähnlichsten sind Richtiger Ansatz: Sie berechnen die Abstände aller Profile zum Referenzprofil und sehen sich die Profile mit kleinstem Abstand an Clustering Screening
Self Fulfilling Prophecy Sie besitzen a priori label 2 Gruppen von Profilen - Wählen differentiell exprimierte Gene aus Clustern die Daten nur unter Einschluss dieser Gene Beobachten, dass die a priori Gruppen zusammen clustern Interpretieren dies als Bestätigung der a priori label Die Gruppen clustern unter umständen nur wegen der Genauswahl zusammen Zufällige Daten hätten dies auch getan
Self Fulfilling Prophecy Randomisierte Labels Clustering mit supervidierter Genselektion Ohne Genselektion
Nicht supervidierte Geneselektion Der Microarray hält 30.000 Gene Nicht alle diese Gene zeigen sinnvolle Clustering Struktur Hybridisierungs-Artefakte produzieren oft kleine Veränderungen in allen Genen Normalisierung kann diese nicht immer eliminieren In den Distanzmaßen summieren sie sich auf Ansatz: Benutze nur stark variierende Gene zum Clustering
Clustering mit allen Genen B- und T-cell ALL Chiaretti et al., 2004
Clustering mit den Top 100 variabelsten Genen B- und T-cell ALL Chiaretti et al., 2004
Genselektion Gene 2 Gene 4 Problem: Unterschiedliche Gene induzieren ein unterschiedliches Clustering
Lymphome Gene und Profile von verschiedenen Lymphomen und lymphoiden Zellinen wurden geclustert Globales Clustering: Die bekannten Lymphom Entitäten bilden Cluster aus Genselktion: Der orange Block von Genen Clustert einen Teil der DLBCL Lymphome mit Keimzentrumszellinien und einen anderen Teil mit aktivierten B-Zellen Alizadeh et al Nature 2000
Acknowledgement Für diese Vorlesung habe ich Folien, Graphiken und Ideen ausgeliehen bei: Jörg Rahnenführer Tobias Müller Anja v. Heydebreck