1 Chemometrie - Computerchemie - Chemoinformatik Chemometrics - Computer Chemistry - Chemoinformatics Ergänzende Unterlagen zu den Lehrveranstaltungen Informationsverarbeitung in der Chemie und Computerunterstützte Chemie COMPUTERCHEMIE Kurt VARMUZA Labor Chemometrie Institute of Chemical Engineering, Technische Universität Wien 2010 Copyright: Univ.Prof. Dr. Kurt Varmuza, c/o Labor Chemometrie, Institute for Chemical Engineering, Technische Universität Wien, Getreidemarkt 9/166, A-1060 Wien. kvarmuza@, cm_computerchemie_ doc

2 1. Introductory Remarks cm_computerchemie_ doc

3 2. Connection Table and Molfile Format N Molfile Format Widely used text format for the exchange of chemical structure data (Molecular Design Ltd). Original paper: Dalby A. et al.: J. Chem. Inf. Comput. Sci. 32, 244 (1992) Comprehensive format description: O Example (remarks in red or blue color), File *.MOL or *.SDF no. atoms no. bonds x-, y-, z- coord. of atoms atom numbers 3-amino-cyclohexanone ChemDraw D (1st line: compound name) (2nd line: software info) (3rd line: empty or any text) V C C C C C C N O M END (or $$$$) element symbol mass difference (isotopes) bond type (1, 2, 3, 4=aromatic) stereo no. of H +1 (or 0) cm_computerchemie_ doc

4 3. Molecular Descriptors 3.1. Overview A chemical structure is transformed into a set of numerical features (molecular descriptors). For the application of multivariate data analysis methods a fixed set of descriptors has to be used. chem. Struktur Connection Table Struktur-Deskriptoren Satz von "charakteristischen" Zahlen x 1, x 2,... x p Literatur zu molekularen Deskriptoren: Todeschini R., Consonni V.: Handbook of molecular descriptors, Wiley-VCH, Weinheim, 2000 Simple molecular descriptors: relative molecular mass, number of non-hydrogen atoms, number of nitrogen (oxygen,...) atoms, number of bonds, number of double bonds, number of tertiary carbon atoms, number of carbonyl groups, number of 3-membered rings,... cm_computerchemie_ doc

5 3.2. Binary Substructure Descriptors A chemical structure is transformed into a binary vector. Each vector element (0 or 1) denotes absence or presence of a given substructure. Similarity and diversity of chemical structures Similarity and Diversity of chemical structures cm_computerchemie_ doc

6 4. Graph Theory and Chemical Structures 4.1. Introduction Chemie chem. Struktur Atom Bindung Strukturformel Graphentheorie Graph Ecke, Knoten, vertex, node Kante, edge, line Visualisierung eines Graphen Labeled (colored) graph Ecken (und Kanten) sind bezeichnet und daher unterscheidbar (wie in einer chemischen Struktur) H-depleted graph (ohne H-Atome) skeleton (not labeled graph) Topologie Nur die Verbindungen der Ecken sind von Bedeutung, aber nicht irgend eine graphische Visualisierung. Isomorphe Graphen = idente Graphen (topologisch ident!) "Graph": amerikanischer Mathematiker Sylvester (1878): "graphical notation of a molecule" Invariante Zahl, die eine Eigenschaft des Graphen charakterisiert, unabhängig von der Numerierung der Ecken oder Kanten, unabhängig von einer räumlichen Anordnung. Invarianten-Typ Beispiel Graphen-Invariante Anzahl Ecken, Anzahl Kanten Ecken-Invariante Anzahl Nachbarn Kanten-Invariante Anzahl Nachbarn der beiden Ecken, die die Kante bilden Es gibt keinen endlichen Satz von Invarianten, der jede beliebige Struktur (Graphen) voll charakterisiert. Graphen-Invariante für chemische Strukturen: topologische Indizes. cm_computerchemie_ doc

7 4.2. Topological Indices Topologischer Index = Invariante als Struktur-Deskriptor zur Charakterisierung chemischer Strukturen Examples of topological indices 4.3. Number of Double Bond Equivalents and Number of Rings DBE, double bond equivalents = (Anzahl notwendiger Ringe) + (Anzahl Doppelbindungen) + 2. (Anzahl Dreifachbindungen) Ableitung einer Formel für einen zusammenhängenden Graphen: v Atom mit Valenz v Atom am Kettenende, Valenz = v Anzahl freier Valenzen v-2 cm_computerchemie_ doc

8 n v n 1,max Anzahl Atome mit der Valenz v (v = 1... vmax) Summe aller freien Valenzen (maximale Anzahl H-Atome) vmax n 1,max = n v (v - 2) + 2 (1) v=3 Wenn DBE = 0 dann ist n 1 = n 1,max Wenn DBE = 1 dann ist n 1 = n 1,max - 2 Wenn DBE = 2 dann ist n 1 = n 1,max - 4 allgemein gilt daher n 1 = n 1,max - 2. DBE Mit (1) ergibt sich: vmax DBE = 1/2 n v (v - 2) - n 1 / v=3 Speziell für CHNO-Verbindungen gilt: DBE = c + (n - h) / c, n, h: Anzahl C-, N-, H-Atome Bsp.: Chinolin C 9 H 7 N: DBE = 9 + (1-7)/2 + 1 = 7 (= 2 Ringe + 5 Doppelbindung) N Anzahl Ringe A B R Anzahl Atome Anzahl Bindungen Anzahl "notwendiger" Ringe (smallest set of rings) A Atome, die ohne Ring verbunden sind benötigen B = A - 1 Bindungen. Pro Ring erhöht sich B um 1. Daher: R = B - A + 1 Bsp.: Naphthalin C 10 H 8 A = 10, B = 11, R = 2 (obwohl es 3 Ringe gibt!) cm_computerchemie_ doc

9 Aromatische Ringe Die Graphentheorie benötigt einen ganzzahligen Bindungstyp, daher werden für aromatische Ringe meist alternierende Einfach- und Doppelbindungen verwendet. Kriterien für die Erkennung eines aromatischen Rings: + Anzahl Ringatome = 4n + 2 (n = 1, 2,...), + jedes Ringatom hat genau eine Doppelbindung, + diese Doppelbindung kann im betrachteten Ring sein oder in einem anderen Ring, es müssen alle (!) Ringe getestet werden. Nach dieser Definition ist Thiophen nicht aromatisch (Doppelbindungen sind nicht "verschiebbar"), Azulen (5-Ring + 7-Ring ergibt aromat. 10-Ring) jedoch schon. S thiophene azulene 4.4. Criterion for Valid Brutto Formulae Gültig im Sinne der Valenzregeln und Graphentheorie ist eine Summenformel, wenn DBE ganzzahlig ist (ausgenommen wenige für die Chemie nicht relevante Fälle). Bsp.: C 1-30 N 0-10 O gültige Summenformeln Bsp.: C 6 H 6 DBE = 6-6/2 + 1 = 4 C 6 H 5 DBE = 6-5/2 + 1 = 4.5 C 6 H 4 DBE = 6-4/2 + 1 = 5 cm_computerchemie_ doc

10 4.5. Substructures cm_computerchemie_ doc

11 Maximum common substructure (MCS, a measure for structural similarity) Identity: identical atom types (elements), identical bond types Size: number of non-hydrogen atoms Compounds A and B FENCHONE MCS Compounds A and B (MCS marked) CAMPHENILONE MORPHINE PETHIDINE Varmuza K., Penchev P., Scsibrany H.: J. Chem. Inf. Comput. Sci., 38, (1998). Maximum common substructures of organic compounds exhibiting similar infrared spectra. cm_computerchemie_ doc

12 4.6. Walks through a Graph "Weg": von einer Ecke (einem Atom) zu einer anderen (einem anderen Atom) "gehen". WALK (Kantenfolge) beliebiger Weg, Ecken und Kanten auch mehrfach möglich, aus potenzierter Adjazenzmatrix zu ermitteln PATH (Weg) jede Ecke nur einmal (daher auch jede Kante nur einmal) TRAIL (Kantenzug) jede Kante nur einmal Euler Trail * durch alle Ecken Semi-Euler Trail ** durch alle Ecken, aber spezielle Ecken für Start und Ziel Anzahl von WALKS bestimmter Länge L (L = Anzahl Kanten am Weg) A Adjazenzmatrix A L das Element a ij gibt an wieviele Wege der Länge L zwischen den Atomen i und j existieren (als Molekül-Deskriptoren verwendet) * Euler Trail: nur dann, wenn alle Ecken eine gerade Anzahl Kanten haben ** Semi Euler Trail: Start- und Ziel-Ecke dürfen ungerade Anzahl Kanten haben Beispiel cm_computerchemie_ doc

13 4.7. Equivalent Atoms and Bonds in a Molecular Structure Atome (Bindungen) sind "topologisch äquivalent" wenn ihre Umgebungen ident sind ("innere Symmetrie" des Moleküls). Umgebung näherungsweise: exakt: eine oder mehrere Sphären bis an die Grenze der Struktur Ident Im allgemeinen wird nur die Topologie berücksichtigt, nicht aber stereochemische Fakten. Äquivalente Atome: in erster Näherung gleiche NMR-Verschiebung, gleiche Reaktionen. Äquivalente Bindungen: gleiche Reaktionen Beispiel Adamantan C 10 H 16 : zwei topologisch (konstitutionell) verschiedene Atome, nur ein Bindungstyp. Methode zur Klassifikation von Atomen in einem Molekül Basierend auf MORGAN-Algorithmus, einfache Version nach Munk und Shelley. Das Verfahren führt nicht immer zum vollständigen Ergebnis! Prinzip: Die Umgebung jedes Atoms wird durch eine Kennzahl (extended connectivity) charakterisiert. Wenn 2 Atome unterschiedliche Zahlen liefern, so sind sie sicher nicht äquivalent. Wenn 2 Atome die gleiche Zahl liefern, können sie äquivalent sein, müssen es aber nicht; das Verfahren wird mit einer anders definierten Kennzahl fortgesetzt. cm_computerchemie_ doc

14 Kochrezept 0. H-Atome werden nicht berücksichtigt. 1. Für alle Atome i wird die Kennzahl A i berechnet: A i = 10. Atomtyp + Anzahl Nachbarn von i Atomtyp: z.b.: C = 2, N = 3, O = 4 Wenn A j ungleich A k : Atome j und k sind mit Sicherheit nicht äquivalent. 2. Wenn A j = A k Für Atome mit gleicher Kennzahl A wird das Verfahren fortgesetzt und eine weitere Kennzahl B berechnet. n B i = 5. A i + A k n: alle Nachbarn von i k = 1 Wenn B j ungleich B k : Atome j und k sind mit Sicherheit nicht äquivalent. Bei Gleichheit kann das Verfahren mit einer weiteren Sphäre fortgesetzt werden Vollständige Methode zur Erkennung äquivalenter Atome und Bindungen: Ermittlung der Automorphismengruppe (alle Abbildungen der untersuchten Struktur auf sich selbst). Example Atom number (arbitrary) C O C C Atom type (code) A 1 = 10*2 + 1 = 21 (atom 1: 2 for C-atom, 1 neighbor) A 2 = 10*4 + 2 = 42 (atom 2: 4 for O-atom, 2 neighbors) A 3 = 10*2 + 2 = 22 (atom 3: 2 for C-atom, 2 neighbors) A 4 = 10*2 + 1 = 21 (atom 4: 2 for C-atom, 1 neighbor) Atoms 1 and 4 could be equivalent, therefore next step with calculation of B 1 and B 4. B 1 = 5* = 147 (one neighbor is atom 2 with A 2 = 42) B 4 = 5* = 127 (one neighbor is atom 3 with A 3 = 22) Now is clear that atoms 1 and 4 are not equivalent. cm_computerchemie_ doc

15 4.8. Automatic Isomer Generation Es gibt Software (Isomerengenerator MOLGEN, Univ. Bayreuth) mit folgender Funktion: Input: Output: Summenformel (und optional: Einschränkungen über die Struktur) alle topologisch möglichen Molekülstrukturen (Graphen) 2 Stufen: Summenformel -> connection table -> Atomkoordinaten für Zeichnung Die Anzahl an Isomeren für eine allgemeine Summenformel kann nicht berechnet werden, sondern es muß abgezählt werden (durch systematische Generierung aller Isomeren). Struktur-Einschränkungen 1. Erlaubte Ringgrößen, Bindungstypen 2. Goodlist: Substrukturen, die vorhanden sein müssen, wobei Überlappung der angegebenen Substrukturen erlaubt ist 3. Goodlist-Superatome (Macros): Substrukturen, die vorhanden sein müssen, wobei Überlappung verboten ist (wichtig für Vereinfachung der Isomerengenerierung) 4. Badlist: Substrukturen, die nicht vorhanden sein dürfen 5. Allgemeinere Struktureigenschaften (z.b. "kondensierte aromatische Ringe") können durch Isomerengeneratoren meist nicht berücksichtigt werden. Kombinatorische Explosion! Beispiel Kohlenwasserstoffe A n z a h l I s o m e r e Anzahl C-Atome DBE = 0 DBE = 2 DBE = (*) ?? (*) C 6 H 6, Benzol und Isomere cm_computerchemie_ doc

16 Example for isomer generation Molecular formula: C 8 H 10 has 4679 isomers (computation time with software Molgen is 0.1 s) With restriction "benzene ring present" only 4 isomers are possible (2 aromatic doublets, ). Example for systematic structure elucidation For a query compound the molecular formula, the low resolution mass spectrum and the IR spectrum are given. MSclass is a software for deriving structural restrictions from low resolution mass spectra; IRclass is a software for deriving structural restrictions from infrared spectra; both are based on the application of multivariate classification. The obtained structural restrictions (goodlist, badlist) have been used by the isomer generator Molgen. Restrictions obtained from MS give 4 candidate structures, restrictions obtained from IR give 512 candidate structures; the cross section contains only one structure - the correct structure of the query. Varmuza K., Werther W.: J. Chem. Inf. Comput. Sci., 36, (1996). Mass spectral classifiers for supporting systematic structure elucidation. Varmuza K.: In Progress in Chemometrics Research; Pomerantsev A.L. (Ed.); Nova Science Publishers, New York, (2005) Global and local chemometric models of spectra-structure relationships. cm_computerchemie_ doc

17 5. Example QSPR (Quantitative Structure-Property Relationship) n = 209 polycyclic aromatic compounds, 3D, all H-atoms; Corina [2] y gas-chromatographic retention indices, Lee indices [3] X m 1 = 467 molecular descriptors; Dragon [4] m 2 = 13 descriptors selected by a genetic algorithm; MobyDigs [5] RDCV (REPEATED DOUBLE CROSS VALIDATION) [1]: 4 segments in outer loop, 7 segments in inner loop; 100 repetitions (100 test-set-predicted values for each object) repeat (typically) 100 times cm_computerchemie_ doc

18 m y-predicted versus y-experimental residuals for objects SEP=12.4 R 2 = SEP 467-2SEP SEP=8.10 R 2 = % - tolerance interval for prediction errors: + 2SEP (approx. normally distributed residuals) cm_computerchemie_ doc

19 m = 13 (GA-selected) Each distribution: n=209 residuals (one from each object). 100 repetitions Thick line: distribution of 209*100 = residuals All results for final number of PLS components = 9. 95% tolerance interval from and quantiles = Each boxplot from 100 SEP-values (100 repetitions). Each SEP calculated from n=209 residuals (one from each object). Optimum model complexity (number of PLS-components) = 9 References [1] Filzmoser P., Liebmann B., Varmuza K.: J. Chemometrics 23, 160 (2009) [2] Corina software, Molecular Networks GmbH Computerchemie, Erlangen, Germany (2004). [3] Lee M.L., et al., Anal. Chem. 51 (1979) [4] Dragon software, 5.0, Talete srl, Milan, Italy (2004). [5] MobyDigs software, 1.0. Talete srl, Milan, Italy (2004) Letzte Seite "Computerchemie" cm_computerchemie_ doc

