Clustering. Clustering:

Größe: px

Ab Seite anzeigen:

Download "Clustering. Clustering:"

Nicole Sternberg
vor 5 Jahren
Abrufe

1 Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen Datenvektoren seiner Gruppe nahe (näher als zu Vektoren anderer Gruppen k-clustering: Clustern einer Datenmenge in k Gruppen Viele Clusterungsprobleme sind NP-hart! Folie 246

2 Genexpression (1) Genexpression: Biosynthese eines Genprodukts (Umsetzung der genetischen Information in Proteine) IdR. Transkription von DNA zu mrna und anschließender Translation von mrna zu Protein. Experimentelle Mikrobiologie: Experimentelle Bestimmung der Expression von Genen Microarray-Technologie: Viele Gene können gleichzeitig untersucht werden (>10000) cdna Microarrays: komplementäre DNA Folie 247

Genexpression (2) cdna-microarrays: Glasscheibe mit mehreren tausend regelmäßig angeordneten Feldern (Spots) Jeder Spot enthält cdna eines bestimmten Gens Ziel

3 Genexpression (2) cdna-microarrays: Glasscheibe mit mehreren tausend regelmäßig angeordneten Feldern (Spots) Jeder Spot enthält cdna eines bestimmten Gens Ziel mrna wird markiert Alle nicht hybridisierten Targets werden abgewaschen Lichtintensität wird anschließend gemessen Intensität spiegelt Expressionslevel wieder Folie 248

4 Genexpression (3) Biologische Fragestellungen: Welche Funktionen haben die einzelnen Gene und in welchen zellulären Prozessen sind sie beteiligt? Wie werden Gene reguliert, wie interagieren Gene und Genprodukte? Wie sind die Interaktionsnetzwerke aufgebaut? Wie unterscheiden sich die Expressionslevel in verschiedenen Zelltypen und Zuständen? Folie 249

5 Genexpressionsanalyse Aufgabenstellung: Datenanalyse, Data Mining Dimensionsreduktion und Visualisierung Finden von Gruppen co-regulierter Gene, funktional zusammenhängender Gene Lösung: Clusteranalyse, Clustering der Gene Algorithmen: Hierarchisches Clustern Self-organizing maps (SOMs) Hauptkomponentenanalyse (PCA) K-Means,... Folie 250

6 Minimum Sum of Squares Clustering MSSC: NP-hartes kombinatorisches Minimierungsproblem K n 2 2 min ˆ ˆ p d ( xi, xj) = d ( xpi (), xi) i= 1 j C i= 1 mit xˆ i 1 = C i i j C { } und C = j {1,..., n} pj () = i i i x j m x R, i = 1,..., n: n Eingabevektoren der Dimension m i C i : zu Cluster i zugeordnete Vektoren p:{1,.., n} {1,..., k}: Zuordnung von Vektor zu Cluster Folie 251

7 Der k-means Algorithmus k-means: Wiederholtes Zuweisen der Inputvektoren zu Clustern und Neuberechnung der Clusterzentren Zuweisen durch Bestimmung des Zentrums mit geringstem Abstand Abbruchkriterium: Clusterzentren haben sich nicht geändert Konvergiert gegen lokales Optimum der MSSC Zielfunktion Wähle Clusterzentren Zuordnung Vektoren zu Clustern Neuberechnung der Clusterzentren Ende Folie 252

8 Memetische Algorithmen fürs MSSC Wichtige Schritte: Bestimmung der Zielfunktion Bestimmung der Repräsentation von Lösungen Wahl der lokalen Suche Entwicklung eines Mutationsoperators Entwicklung eines Rekombinationsoperators Folie 253

9 Memetische Algorithmen fürs MSSC Bestimmung der Zielfunktion: MSSC Funktion n 2 ( ) = ( ˆpi (), i) i = 1 f p d x x Bestimmung der Repräsentation von Lösungen: Abbildung p kann so kodiert werden: p : Vektor 1 wird Cluster 1 zugewiesen Vektor 2 wird Cluster 3 zugewiesen Clusterzentren können aus p berechnet oder gespeichert werden Werden in MA gespeichert Folie 254

10 Memetische Algorithmen fürs MSSC Wahl der lokalen Suche: K-Means, Input: k Clusterzentren Mutationsoperatoren: Operator MM: - Ein zufällig gewählter Vektor wird als Clusterzentrum für ein zufällig gewähltes Cluster herangezogen Operator FM: - Zwei Cluster i und j werden zufällig gewählt - Der Vektor mit der größten Distanz zum Mean von Cluster i wird als Clusterzentrum (mean) von Cluster j verwendet Folie 255

11 Memetische Algorithmen fürs MSSC Rekombinationsoperatoren: Operator UX (uniform Crossover): - Die Mean-Vektoren werden mit gleicher Wahrscheinlichkeit von den beiden Eltern gewählt Operator RX: - Mean-Vektoren in Elter a werden durch Mean-Vektoren von Elter b ersetzt - Mean-Vektoren aus überrepräsentierten Bereichen sollen gelöscht werden - Mean-Vektoren sollen zu unterrepräsentierten Bereichen hinzugefügt werden Folie 256

12 MSSC: RX Rekombination Rekombinationsoperator RX: Elter a: a 1 a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a 10 Discard List: a 2 a 5 a 5 a 7 a 10 Elter b: Kind: b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 b 10 a 1 b 4 a 3 a 4 b 6 a 6 b 3 a 8 a 9 a 10 Split List: a 3 a 6 a 6 a 8 Gewählte Paare: (a 3,a 2 ) (a 8,a 5 ) (a 6,a 7 ) b i a j : a j ist nächster Mean-Vektor zu b i Folie 257

13 Clustering - Distanzen zwischen Lösungen Distanzen: Wichtig, wenn man Lösungen von Clusterungsalgorithmen vergleichen will Wichtig für Fitnesslandschaftsanalyse Vorschlag 1: Center-Distanz: n Dpq (, ) = dx ( ˆ ˆ pi (), xqi ()) i= 1 Nachteil: Abhängig vom MSSC-Kriterium, schwer interpretierbar Folie 258

14 Clustering - Distanzen zwischen Lösungen Ziel: Zählen, der Vektoren die unterschiedlich zugeordnet wurden Vorschlag 2: Matching: Ordne Cluster von Lösung A Clustern von Lösung B zu Zuordnung über Clusterzugehörigkeit Zähle die gemeinsamen Vektoren der zugeordneten Cluster Folie 259

15 Clustering Matching & Distanzberechnung Matching: Zähler = 0 Für jedes Cluster i aus Lösung A: - Finde Cluster j aus Lösung B mit den meisten Vektoren aus i - Finde Cluster k aus Lösung A mit den meisten Vektoren aus j - Wenn i=k, erhöhe Zähler um Anzahl der gemeinsamen Vektoren Distanz = Anzahl Vektoren - Zähler Folie 260

16 Clustering Matching & Distanzberechnung Illustration: Lösung A: a 1 a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a Lösung B: Gemeinsame Vektoren: b 1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 b = 62 Folie 261

17 MSSC Fitness-Distanz-Korelation Verteilung der k-means Lösungen: Matching, FDC: 0.59 Center-Distanz, FDC: 0.66 Folie 262

18 Genexpressionsanalyse mit MA (1) Clusterung der Expressionsdaten Minimum-Sum-Of-Squares Clustering (NP-Hart) Minimierung des Abstandes zum Repräsentanten eines Clusters MA mit k-means lokaler Suche Genexpressionsuntersuchung: - Expression von 6565 Genen über 2 Zellzyklen (Messung an 17 Zeitpunkten) - 2 Zeitpunkte wurden eliminiert Expressionsmuster sind Zeitreihen aus 15 Punkten - Variationsfilter reduziert Datensatz auf 2931 Folie 263

19 Genexpressionsanalyse mit MA (2) Ergebnisse Vergleich MA-Operatoren: Oben: zuvor beschriebene Daten, unten: zufällig erzeugte Daten mit bekanntem Optimum Alg. Gen Nr. LS Iter LS Best Avg. Obj. Error MLS % MA-UX % MA-RX % MA-FM % MA-MM % MLS % MA-UX % MA-RX % MA-FM % MA-MM % Folie 264

20 Genexpressionsanalyse mit MA (3) Ergebnisse: Vergleich zu einfachem k-means: Zuordnung der Gene zu den Clustern stark unterschiedlich! Gene in MA-Cluster 14 verteilen sich auf 5 k-means-cluster: 1(5 Gene), 5(3 Gene), 15(36 Gene), 22(4 Gene), 23(40 Gene) k-means MA Folie 265

Ähnliche Dokumente

Genexpression (1) Clustering

Genexpression (1) Clustering Clusterg Clusterg: Grupperug ud Etelug eer Datemege ach ählche Merkmale Uüberwachte Klassfzerug (Neuroale Netze- Termologe) Dstazkrterum: E Datevektor st zu adere Datevektore seer Gruppe ahe (äher als