QSAR, QSAR, Statistik, Korrelation, Similarität & Deskriptoren

Transkript

1 QSAR, QSAR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug designs am Computer Erfordert das Vorhandensein einer Anzahl von Leitstrukturen, z.b. aus dem High Throughput Screening

2 Informationsfluß in einer drug discovery pipeline

3 Substanzauswahl für das HTS (I) Verschiedene Substanzbibliotheken: general z.b. gegen ganzes Zellassay focused bestimmte Familie von Enzymen targeted ein bestimmtes Enzym Diversität von Substanzbibliotheken Vermeidung von redundanten Verbindungen Verbesserte Trefferwahrscheinlichkeit im HTS 3

4 Typische Targets Anteil am menschlichen Genom und Pharmaka am Markt 4

5 Komponentenauswahl Wieviel Information ist über das target vorhanden? Zunehmende Information X-Ray mit Wirkstoff X-Ray des Proteins Reihe von wirksamen Verbindungen Wenige hits aus HTS Kenntnis der Enzymfunktion (z.b. Kinase, GPCR) active site combi chem Docking QSAR, Pharmacophor erstellen HTS eadme Filter Erstellen einer virtuellen Bibliothek 5

6 eadme Filter für das High Throughput Screening (HTS) R R N R3 Typischer eadme Filter 6

7 Aufbau von Substanzbibliotheken für das High thoughput screening Erzeugung einer virtuellen Bibliothek ausgehend von der Leitstruktur Systematische Variation der Leitstruktur: Gerüst Seitenketten Bioisostere 7

8 Molekülbasierte Deskriptoren zur Voraussage der ADME Eigenschaften logp Wasser/Octanol Verteilungskoeffizient Lipinski s rule Topologische Indices Polar surface area Similarität / Dissimilarität QSAR quantitative structure activity relationship QSPR quantitative structure property rel. 8

9 Deskriptoren Ansätze eine mathematische Beziehung zwischen numerischen Eigenschaften (Deskriptoren P i ) und physikochemischen Eigenschaften der Verbindung (z.b. biologische Aktivität log(/c) ) herzustellen, werden als QSAR, bzw QSPR bezeichnet. log(/ C) = k P + k P + + k n P n Daneben werden Deskriptoren auch zur Beschreibung von Molekülen in der Diversitäts Analyse und in Kombinatorischen Bibliotheken eingesetzt. Prinzipiell kann jede molekulare Eigenschaft als Deskriptor verwendet werden. Mehr zu Deskriptoren unter 9

10 D Deskriptoren (I) Für einige Deskriptoren benötigt man nur Kenntnisse die sich bereits aus der Summenformel der Verbindung erhält. Bsp.: Molmasse, Gesamtladung, Anzahl von Halogenatomen Weitere solcher eindimensionaler Deskriptoren ergeben sich additiv aus atomaren Beiträgen. Bsp.: Summe der atomaren Polarisierbarkeiten Refraktivität (Brechungsindex n, molar refractivity, M R ) M R = (n ) MW / (n +) d mit Dichte d, Molekülgewicht MW Ist abhängig von der Polarisierbarkeit und enthält außerdem das Molekülvolumen (MW / d)

11 logp (I) Der Wasser/n-Octanol Verteilungskoeffizient bzw. der logaritmierte Wert wird als logp bezeichnet. Wird oft zur Abschätzung der Membrangängigkeit und der Bioverfügbarkeit einer Verbindung eingesetzt, da ein oral applizierter Wirkstoff lipophil genug sein muß um durch die Lipidschicht der Membrane zu gelangen, andererseits wasserlöslich sein muß um in Blut und Lymphe transportiert zu werden hydrophil 4. < logp < +8. lipophil Zitronensäure.7 Iodbenzol +3.5 Typische Wirkstoffe < 5.

12 logp (II) Zur Vorhersage des logp wurde eine Reihe von Methoden entwickelt: basierend auf Molekülfragmenten (Gruppen und Reste) ClogP Leo, Hansch et al. J.Med.Chem. 8 (975) 865. Problem: Aufreten von nicht parametrisierten Fragmenten (bis zu 5% in Substanzbibliotheken) basierend auf Atomtypen SlogP S.A. Wildman & G.M.Crippen J.Chem.Inf.Comput.Sci. 39 (999) 868. AlogP, MlogP, XlogP... Jeweils mittels einer mathematischen Fitprozedur (Regressionanalyse, Neuronales Netz) erstellt.

13 logp (III) Neuere Methoden zur Vorhersage des logp verwenden zunehmend Eigenschaften des kompletten Moleküls, wie etwa Moleküloberfläche (polare/unpolare, bzw.deren elektrostatische Eigenschaften) Dipolmoment und Polarisierbarkeit Volumen / Oberfläche (Globularität) Bsp: mit Hilfe quantenmechanischer Daten trainiertes Neuronales Netz logp T. Clark et al. J.Mol.Model. 3 (997) 4. 3

14 D Deskriptoren (II) Weitere atomare Deskriptoren benutzen Information basierend auf empirischen Atomtypen wie in einem Kraftfeld. Bsp.: Anzahl von H-Brücken Akzeptoren (N, O, S) Anzahl von H-Brücken Donoren (OH, NH, SH) Anzahl aromatischer Ringe 4

15 Lipinski s Rule of 5 Kombination von Deskriptoren zur Abschätzung der intestinalen Absorption. Schlechte Aufnahme der Verbindung, wenn Molekülmasse > 5 logp > 5. > 5 H-Brücken Donoren (OH und NH) > H-Brücken Akzeptoren (N und O) Schlechte Diffusion Zu lipophil Zuviele H-Brücken mit den Kopfgruppen der Membran C.A. Lipinski et al. Adv. Drug. Delivery Reviews 3 (997) 3. 5

16 6 D Deskriptoren (I) Bei Deskriptoren die sich aus der Molekülkonfiguration (kovalente Verknüpfung der Atome) ableiten, spricht man von D Deskriptoren. Da keine Atomkoordinaten verwendet werden sind D Deskriptoren generell konformationsunabhängig obwohl sie topologische Information über das Molekül enthalten. Vgl. Darstellung mittels SMILES C C 5 H H 3 H 4 O 7 H distance matrix D adjacency matrix M O H C H H H C

17 D Deskriptoren (II) Die wesentlichsten topologischen Eigenschaften eines Moleküls sind der Verzeigungsgrad und die molekulare Form. H 4 O 7 C C 5 H 6 Für Kohlenstoff stehen 4 Valenzen zur Verfügung. H H 3 Das Verhältnis der tatsächlichen Verzweigung zur theoretisch möglichen Verzeigung läßt sich deshalb als Deskriptor verwenden. 7

18 Allgemeine Definitionen: D Deskriptoren (III) Z i Ordnungszahl (H=, C=6, LP=) h i Anzahl H-Atome die an Atom i gebunden sind d i Anzahl schwerer Atome die an Atom i gebunden sind Deskriptoren für den Verzweigungsgrad und die Flexibilität eines Moleküls: Kier & Hall Connectivity Indices p i Anzahl der s und p Valenzelektronen an Atom i v i = (p i h i ) / (Z i p i ) für alle schweren Atome 8

19 Kier und Hall Connectivity Indices Z i Ordnungszahl (H=, C=6, LP=) d i Anzahl schwerer Atome die an Atom i gebunden sind p i Anzahl der s und p Valenzelektronen an Atom i v i = (p i h i ) / (Z i p i ) für alle schweren Atome Chi. Ordnung χ = für alle Schweratome mit di d > i i Chi. Ordnung χ = i j> i d i d j für alle Schweratome wenn i an j gebunden ist Chiv Valenzindex χ = für alleschweratome mit vi v v > i i 9

20 Kier und Hall Shape Indices (I) n Anzahl schwerer Atome (Nicht-Wasserstoffatome) m Anzahl aller Bindungen zwischen den schweren Atomen p Anzahl der Pfade mit Länge p 3 Anzahl der Pfade mit Länge 3 aus der Distanzmatrix D Kappa κ n( n ) = m ( n )( n Kappa κ = p ) Kappa3 Kappa3 κ κ 3 3 = = ( n )( n 3) p 3 ( n 3)( n ) p 3 für ungerade n für gerade n

21 KappaA Kier und Hall Shape Indices (II) Setzt man die Atome in Relation zu sp 3 -hybridisierten C-Atomen so erhält man die Kappa alpha Indices n ri α = r i c r i Kovalenzradius von Atom i r c Kovalenzradius eines sp 3 Kohlenstoffatoms s( s ) κ α = mit s = n + α ( m + α) Element C C C N N N O P S Cl Hybridisierung sp 3 sp sp sp 3 sp sp sp 3 sp 3 sp 3 α

22 Balaban, Wiener und Zagreb Indices n Anzahl schwerer Atome (Nicht-Wasserstoffatome) m Anzahl aller Bindungen zwischen den schweren Atomen d i Anzahl schwerer Atome die an Atom i gebunden sind w = i D ij i j Summe der nichtdiagonalen Matrixelemente von Atom i in der Distanzmatrix D BalabanJ m m m n + w w i j WienerJ (Pfad Nummer) n i w i Korreliert mit den Siedepunkten von Alkanen WienerPolarität wenn 3 w i Dij n i Zagreb i d i für alle schweren Atome i

23 fingerprints Wie kodiert man die Eigenschaften eines Moleküls zur Speicherung/Verarbeitung in einer Datenbank? Binärer fingerprint eines Moleküls 3

24 Was sagen die topologischen Indices aus? Topologische Indices sind assoziert mit Verzweigunsgrad des Moleküls Größe und räumliche Ausdehnung des Moleküls Strukturelle Flexibilität In der Regel läßt sich eine chemische Eigenschaft nicht direkt mit einem einzigen Index korrellieren. Topologische Indices kodieren prinzipiell dieselben Eigenschaften wie fingerprints, jedoch weniger einleuchtend aber numerisch einfacher aufzustellen 4

25 3D Deskriptoren Bei Deskriptoren die Atomkoordinaten des Moleküls verwenden spricht man von 3D Deskriptoren. Diese sind deshalb in der Regel konformationsabhängig. Beispiele: Van der Waals Volumen, Molekulare Oberfläche, Polare Oberfläche, Elektrostatisches Potential (ESP) 5

26 Quantenmechanische Deskriptoren (Auswahl) Atomladungen (partial atomic charges) Keine Observablen! Mulliken Populationsanalyse Electrostatic potential (ESP) derived charges Dipolmoment Polarisierbarkeit HOMO / LUMO Energien (ev) der Grenzorbitale WienerJ (Pfad Nummer) E HOMO LUMO Covalent hydrogen bond acidity/basicity Donor Differenz der HOMO/LUMO Energien zu Wasser Akzeptor Lit: M. Karelson et al. Chem.Rev. 96 (996) 7 6

27 DRAGON Programm zur Erzeugung von >4 Deskriptoren BalabanJ WienerJ (Pfad Nummer) WienerPolarität Roberto Todeschini Zagreb Siehe: 7

28 Weiterführende Literatur Roberto Todeschini, Viviana Consonni Handbook of Molecular Descriptors, Wiley-VCH, () 667 Seiten (ca. 7 ¼ BalabanJ WienerJ (Pfad Nummer) WienerPolarität Zagreb 8

29 χ A Smilaritätsdeskriptoren und Indices (I) erfüllte Eigenschaft von Molekül A χ A χ B Schnittmenge gemeinsamer Eigenschaften von A und B χ A χ B Vereinigunsmenge der Eigenschaften von A und B Euklidische Distanz Manhattan Distanz B B A A Formel Definition D D A, B = = χ N ( xia xib ) i= χ χ χ A, B A B A B A, B A B A B D D A, B = = χ N i= x χ ia x ib χ χ Bereich Andere Namen ELV ELV - City-Block, Hamming 9

30 D Smilaritätsdeskriptoren und Indices (II) Soergel Distanz Tanimoto Index N N A, B = xia xib max( xia, xib ) i= i= N N N N / ( ) ( ) S = x + iaxib xia xib x i= i= i= i= A, B / ia x ib D = χ χ χ χ / χ χ A, B A B A B A B A, B A B A B S = χ χ / χ χ bis bis + (kontinuierliche Werte) bis + (binäre on/off Werte) - Jaccard Koeffizient Bei binären (dichotomen) Werten sind Soergel Distanz und Tanimoto Index zueinander komplementär 3

31 Smilaritätsdeskriptoren und Indices (III) S Dice Koeffizient N N = x iaxib ia i= i= i= A, B / N ( x ) + ( x ) ib S Cosinus Koeffizient N A, B = xiaxib / i= N i= N ( x ) + ( x ) ia i= ib S ( χ χ ) = χ χ / + A, B A B A B S A, B = A χ B χ A χ B χ / - bis + bis + (kontinuierliche Werte) bis + bis + (binäre on/off Werte) Hodgkin Index Czekanowski Koeffizient Sørensen Koeffizient Monoton mit dem Tanimoto Index Carbo Index Ochiai Koeffizient Hoch korreliert mit dem Tanimoto Index 3

32 Korrelation der Deskriptoren (I) Ebenso wie konkrete Moleküleigenschaften sind auch die Deskriptoren n oft miteinander korreliert. ( x x)( y y) y Korrelation nach Pearson r = n i= i i i= [ n i i i= ( x x) ( y y)...] x hoher Korrelationsgrad r >.84 geringer Korrelationsgrad < r <.84 r <.5 anti-korreliert Auftragung zweier Variablen x und y im Craig-Plot Um aus der Vielzahl der Deskriptoren eine möglichst aussagekräftige Kombination zu erhalten, müssen multivariante Methoden der Statistik angewandt werden. 3

33 Korrelation der Deskriptoren (II) Im allgemeinen hat steht man vor dem Problem aus der Vielzahl vorhandener Deskriptoren die statistisch relevanten (und damit die aussagekräftigsten) für die jeweilige QSAR- Gleichung zu finden. Pro Deskriptor sollten 5 Moleküle (Datenpunkte) vorhanden sein, sonst ist die Gefahr einer zufälligen Korrelation zu hoch Lösungsansatz: Ermittlung der unkorrelierten Variablen mittels einer principal component analysis (PCA) siehe unten oder Anwendung der partial least square (PLS) Technik 33

34 Partial least square (PLS) Die Aktivität y wird als spezielle Linearkombination der Variablen bzw. Moleküleigenschaften x i ausgedrückt wobei y = b t + b t + b t + + b t 3 3 m m t t t m = c = c = c x m x x + c + c + c x x m x + + c n + + c n + + c Die latenten Variablen t i werden so konstruiert, daß sie zueinander orthogonal, also unkorreliert sind. :6WDWLVWLNSURJUDPPH D.h. durch Kombination der ursprünglichen Moleküleigenschaften werden neue Komponenten erzeugt, die unkorreliert zueinander sind. x n x mn n x n 34

35 Principal Component Analysis PCA (I) Problem: Welche sind die entscheidenden Deskriptoren im Datensatz? Die Hauptkomponentenanalyse erzeugt eine Serie unkorrelierter Variablen aus einem Satz korrelierter Variablen. Dazu wird eine Koordinatentransformation der Datenmatrix durchgeführt, sodaß die erste Hauptachse (pc) die größte Streuung (Varianz) der Datenpunkte aufweist. Die zweite (pc) und folgende Hauptachsen stehen orthogonal zueinander und deren Komponenten sind unkorreliert zueinander. Lit: E.C. Pielou: The Interpretation of Ecological Data, Wiley, New York,

36 Principal Component Analysis PCA (II) Die erste Hauptachse (pc) weißt die größte Streuung (Varianz) der Datenpunkte auf, während die zweite (pc) und folgende Hauptachsen orthogonal dazu stehen. 36

37 Principal Component Analysis PCA (III) Die signifikanten Hauptkomponenten haben meistens einen Eigenwert > (Kaiser-Guttman Kriterium). Zusätzlich tritt meistens ein Knick zu den weniger relevanten auf (Scree-Test) 37

38 Principal Component Analysis PCA (IV) Durch die so ermittelten relevanten Hauptkomponenten sollte sich mehr als 8% der gesamten Varianz erfassen lassen 38

39 Principal Component Analysis (V) Bsp: Durch welche Deskriptoren wird der logp bestimmt? Eigenschaft pc pc pc3 Dipolmoment.353 Polarisierbarkeit.54 Mittel des +ESP Mittel des ESP Variance des ESP Minimales ESP Maximales ESP.4.7 Molekülvolumen.56.6 Oberfläche.59.5 Anteil an der Gesamtvariance 8% % % Lit: T.Clark et al. J.Mol.Model. 3 (997) 4 39

40 QSAR-Gleichungen (I) Hat man nun möglichst viele unkorrelierte Eigenschaften, müßen nun noch die Koeffizienten k i bestimmt werden. Dies geschieht durch multiple lineare Regressionsanalyse (least square fit der besten Kombination der Koeffizienten) :6WDWLVWLNSURJUDPPH Meistens kann man nicht die beste Kombination aller möglichen Kombinationen von Deskriptoren berechnen. (exponentielle Laufzeit) In der Regel fängt man deshalb mit dem Deskriptor an der die höchste Einzelkorrelation zeigt und nimmt schrittweise weitere Deskriptoren hinzu (forward regression). Oder man fängt mit allen Deskriptoren an und entfernt sukzessive diejenigen die die Korrelation am wenigsten verschlechtern (backward regression). 4

41 QSAR-Gleichungen (II) Die wichtigsten Statistischen Größen zur Beurteilung einer QSAR-Gleichung sind: Korrelationskoeffizient (quadriert als r ) Standartabweichung (standard deviation, se, möglichst klein, se<.4 Einheiten) Fisher value F (Maß für die Übertragbarkeit der QSAR- Gleichung auf einen anderen Datensatz, sollte möglichst hoch sein, wird aber mit zunehmender Anzahl der Variablen kleiner) Probability value p einer einzelner Variablen (Maß für zufällige Korrelation, p<.5 = 95% Sicherheit) 4

42 QSAR-Gleichungen (III) Zur Überprüfung der Aussagekraft der QSAR-Gleichung werden vor allem zwei gebräuchliche Möglichkeiten verwendet: a) willkürliche Vertauschung der tatsächlichen Aktivitäten (falscher Datensatz) sollte die Voraussagefähigkeit (Standardabweichung) der Gleichung zusammenbrechen lassen. b) Cross-validation Es werden verschiedene Gleichungen aufgestellt, wobei jeweils eine Klasse von Eigenschaften (Physicochemisch, biologisch, elektronisch, sterisch) weggelassen wird (leave-one-out) und das Ergebnis mit dem vollständigen Modell verglichen wird. Die erhaltene Standardabweichung wird als PRESS (predictive residual sum of squares) bezeichnet. 4

43 QSAR-Gleichungen (IV) Cross-validation Der Korrelationskoeffizient q der aus der cross-validation erhalten wird ist kleiner als der ursprüngliche Wert r, aber entsprechend aussagekräftiger. Einer der besten Tests ist jedoch die Überprüfung mit einem externen Datensatz. 43

44 Interpretation von QSAR-Gleichungen Die Art der enthaltenden Variablen bzw. Deskriptoren sollte Rückschlüße auf die zugrunde liegenden physiko-chemischen Vorgänge zulassen und so das Design neuer Moleküle durch Interpolation ermöglichen Die mathematische Form der QSAR-Gleichung kann Aufschluß über den biologischen Wirkungsmechanismus geben: Eine Abhängigkeit der Aktivität von (log P) deutet auf einen Transportvorgang des Wirkstoffes zum Rezeptor hin. Vorsicht ist bei der Extrapolation über die Grenzen des erfaßten Datenbereiches angebracht. Hier können keine zuverlässigen Vorhersagen gemacht werden. 44