Klassifikation und Ähnlichkeitssuche

Größe: px

Ab Seite anzeigen:

Download "Klassifikation und Ähnlichkeitssuche"

Karoline Hertz
vor 6 Jahren
Abrufe

1 Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell ähnliche Moleküle haben mit einer gewissen Wahrscheinlichkeit auch ähnliche biologische Eigenschaften Ähnlichkeitssuche Unüberwachtes Lernen (keine Klasseneinteilung vorgegeben) Hauptkomponentenanalyse(PCA), Cluster-Analyse Überwachtes Lernen (Klasseneinteilung vorgegeben) Diskriminanzanalyse, Support Vector Machine (SVM) Klassifikation

2 Ähnlichkeit Die Ähnlichkeit von Objekten hängt von den gewählten Deskriptoren ab Farbe Größe Gestalt Ähnlichkeitssuche Problemstellung Ein aktives Molekül sei bekannt finde ähnliche Moleküle in einer Datenbank auf der Basis von Fragmenten Vorgehensweise Berechne Fingerprints Suche ähnliche Moleküle mit Hilfe des Tanimotokoeffizienten als Maß für die Ähnlichkeit S AB c = a + b c 0 S AB S AB Tanimoto-Koeffizient für Bitvektoren (z. B. Fingerprints) a Anzahl der in Struktur A gesetzten Bits (=) b Anzahl der in Struktur B gesetzten Bits c Anzahl der in den Strukturen A und B gemeinsam gesetzten Bits Klassifikation 2

3 Tanimoto-Koeffizient Beispiel für Fingerprint {aromatisch,ring, C, N, O, S, P, Halogen} {,,, 0, 0, 0, 0, 0} {0,,, 0, 0, 0, 0, 0}.00 2/(3+2-2)=0.66 /(3+3-)=0.20 3/(3+5-3)= {0, 0,,,, 0, 0, 0} {,,,, 0, 0, 0, }.00 Hauptkomponentenanalyse (PCA) Problemstellung Lassen sich die Moleküle in Gruppen zusammenfassen? Welches sind die entscheidenden Deskriptoren im Datensatz? Erforderliche Daten Matrix mit Deskriptoren für jedes Molekül, aber keine Klassen Die Hauptkomponentenanalyse (principal component analysis) erzeugt aus korrelierten Variablen (Deskriptoren) unkorrelierte Variablen (PCs). Die Transformation der Deskriptormatrix wird so durchgeführt, dass die Datenpunkte entlang der ersten Hauptachse t die größte Streuung (Varianz) aufweisen. Die zweite Hauptachse t 2 ist orthogonal zur ersten und weist die nächstgrößte Varianz auf. t 2 5 t Projektion der ursprünglichen Deskriptoren im Koordinatensystem x, x 2 in das rotierte Koordinatensystem t, t 2. X X Klassifikation 3

4 PCA am Beispiel von P-Glycoprotein logp MR TPSA Ringe Ladung rot_bdg Name Reserpine Epirubicin Dipyridamole Amitriptyline In einer grafischen Darstellung (Biplot) lassen sich sich die Moleküle qualitativ in Gruppen einteilen (geeignete Deskriptoren und Moleküleigenschaften vorausgesetzt) Der cosinus des Winkels der Ladungsvektoren weist auf Korrelation der Deskriptoren hin. Die Länge der Ladungsvektoren entspricht der Relevanz der Deskriptoren PC TPSA SMR 2 rings b_rotn FCharge SlogP Biplot des PGP-Datensatzes mit 2 Molekülen und 6 Deskriptoren PC Cluster-Analyse Ziel Gruppierung von Molekülen anhand ihrer Ähnlichkeit Moleküle innerhalb eines Clusters sollen möglichst ähnlich sein Moleküle in verschiedenen Clustern sollen möglichst unterschiedlich sein Erforderliche Daten Matrix mit Deskriptoren für jedes Molekül, aber keine Klassen Ablauf Fingeprint Deskriptor paarweise Ähnlichkeit Aufteilung in Untergruppen Klassifikation 4

5 Methoden zur Cluster-Analyse Nicht-hirarchische Cluster-Analyse hirarchische Cluster-Analyse z. B. k-mittelwert Clustering agglomerativ divisiv Distanzmaße für kontinuierliche Daten B B A A Euklidische Distanz Manhattan (Cityblock) Distanz D A, B = N ( xia xib ) i= 2 D A, B = N i= x ia x ib Klassifikation 5

6 Distanzen zwischen Gruppen single linkage (nearest neighbour) complete linkage (furthest neighbour) average linkage Ward linkage Minimales Anwachsen der Summe der Quadrate der Abstände der Objekte zum Schwerpunkt eines Clusters Beispiel: Hirarchisches Clustering Cluster Dendrogram Height Hirarchisches Clustering des PGP-Datensatzes von 2 Molekülen unter Verwendung der Deskriptoren logp und TPSA Cluster Dendrogram Height d hclust (*, "complete") d hclust (*, "complete") Optionen: Euklidische Distanz, complete linkage Klassifikation 6

7 Überwachtes Lernen Problemstellung Vorhersage der Zugehörigkeiten von Molekülen zu bestimmten Klassen (z. B. toxisch/nicht toxisch, <0 / 0, hohe / mittlere / geringe Aktivität) erforderliche Daten Trainingsdatensatz bestehend aus einer Matrix mit Deskriptoren für jedes Molekül und Klassenzuordnung der Moleküle Wissensbasierte Vorgehensweise Trainigsdaten Modell Validierung Vorhersage Lineare Diskriminanzanalyse (LDA) Aus den Deskriptoren des Trainigsdatensatzes werden Diskriminanzfunktionen aufgestellt, die Moleküle in einem geeigneten Koordinatensystem dargestellt und eine Trennlinie bzw. Trennebene ermittelt. Neue Substanzen können klassifiziert werden, indem die Werte der Deskriptoren in die Diskriminanzfunktion eingesetzt werden. Die Zuordnung in eine bestimmte Klasse erfolgt dann aufgrund der berechneten Koordinaten relativ zur Trennlinie bzw. Trennebene. Klassifikation 7

8 Praktische Aspekte der LDA Ein Molekül darf nicht mehreren Klassen gleichzeitig zugehören. Die Anzahl der Deskriptoren sollte klein sein und das Verhältnis der Anzahl der Moleküle zur Anzahl der Deskriptoren mindestens 3. Die Anzahl der Moleküle in jeder Klasse sollte ähnlich sein. Die Schwerpunkte der einzelnen Klassen sollte deutlich unterschiedlich sein. Ausreißer können die Analyse verfälschen. x x x x Beispiel: LDA für PGP LDA des PGP-Datensatzes von 2 Molekülen unter Verwendung der Deskriptoren SlogP und TPSA Substanz pk Klasse logp TPSA s 2 calc$x Index s Mittelwert der Klassen Klasse logp TPSA pk < Klassenzuordnung Trainingsdatensatz LOO-Kreuzvalidierung 2 obs. 2 obs calc. calc. Klassifikation 8

9 Support Vector Machines (SVM) Training Orientiere eine (Hyper)ebene so, dass alle Punktgruppen optimal getrennt werden Vorhersage Auf welcher Seite der Ebene liegt ein neuer Punkt? Support Vector Machine (SVM) Wie orientiert man die Ebene? Trennung mit maximaler Trennspanne Support Vectors Punkte, die am dichtesten an der trennenden Eben liegen bestimmen die Lage der Ebene. Klassifikation 9

10 Support Vector Machine (SVM) Nicht saparierbare Trainingsdaten Bestrafe nicht separierte Daten proportional zum gewichteten Abstand zur Trennebene Projektion der Daten und Trennung im hochdimensionale Raum Klassifikation 0

Ähnliche Dokumente

Multivariate Verfahren

Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften: