Está en la página 1de 14

Grupo QUIBIC Curso QSAR 2021

Similitud molecular y espacio quı́mico

1 Métodos computacionales

Por definición un modelo es una simplificación del objeto permitiendo de-


limitar y describir caracterı́sticas puntuales. Tómese por ejemplo un modelo
matemático,usados generalmente para describir fenómenos fı́sicos. Estos sue-
len realizar ciertas consideraciones que permiten ajustar la las variables en
estudio a ecuaciones o distribuciones que facilitan el análisis e interpretación.
En forma análoga, se han propuesto diferentes modelos que permiten es-
tudiar las moléculas en diversos medios, particularmente aquellos que utilizan
computadoras personales. Ası́ se aprovechan las capacidades del ordenador
para realizar cálculos complejos, que de otra forma resultan laboriosos de
realizar. Ası́ comenzó el desarrollo de los métodos computacionales.
En quı́mica, estas implementaciones suelen referirse a cálculos ab initio
principalmente, por lo cual se asocia el término a la quı́mica teórico-cuántica.
No obstante, las técnicas computacionales se han implementado exitosamente
en la biologı́a molecular derivando la bioinformática y más recientemente, la
quimioinformática.

2 Métodos Quimioinformáticos

La quimioinformática puede tomarse como una disciplina ’joven’. Su de-


sarrollo inicial se puede atribuir a dos personas: Johann Gasteiger y Peter
Willett durante la década de 1980. En un inicio estos métodos surgieron para
resolver una necesidad especı́fica: facilitar la manipulación e interpretación
de información quı́mica.
Por esta razón la quimioinformática se puede considerar como un campo
multidisciplinario. Ya que ocupa herramientas informáticas, matemáticas e
incluso fı́sicas, con el fin de categorizar datos obtenidos de estructuras en 2D
y 3D.

Realizó: Dr. Fernando D. Prieto Martı́nez Página 1


Grupo QUIBIC Curso QSAR 2021

A continuación se hará un breve desarrollo de algunos tópicos quimioin-


formáticos y su relevancia dentro de los métodos QSAR.

3 Representación y modelado molecular

En la sección 1 se comentó sobre el concepto de modelo y su utilidad.


Precisamente, uno de los primeros pasos en el desarrollo de un modelo QSAR
consiste en lograr la descripción y/o elucidación de información que pueda
ser representativa del endpoint bajo estudio.
En ese sentido, la complejidad de las estructuras moleculares se ha abor-
dado desde distintos enfoques; por ejemplo: superficies electrostáticas, pro-
yecciones geométricas, etc. En particular aquellas que son de naturaleza gra-
fológica permiten condensar suficiente información que permite comparar y
obtener descriptores de distintos compuestos (vide infra). Ejemplos incluyen
a las huellas digitales y los SMILES (Simplified Molecular Input Line-Entry
System, vide infra). Es evidente que no es la intención presumir que tales
artilugios son descripciones fieles, pero resultan útiles para fines de manipu-
lación y abstracción.
Una definición básica, ubica al grafo como un par ordenado; es decir,
G(Vg , Eg ). Donde Vg y Eg corresponden a los vértices y aristas, respectiva-
mente; en términos moleculares podemos analogarlos a los átomos y enlaces.
De acuerdo a la teorı́a de grafos desarrollada por Leonard Euler hace casi
300 años, es posible determinar trayectorias, ciclos e invariantes dentro de
los grafos. Los grafos como modelo molecular resultan útiles en el contex-
to computacional. Esto se debe a que un grafo puede codificarse como una
matriz. Por ejemplo, considérese el siguiente grafo (Figura 1):

Realizó: Dr. Fernando D. Prieto Martı́nez Página 2


Grupo QUIBIC Curso QSAR 2021

Figura 1: Ejemplo de un grafo simple.

La matriz de adyacencia A(G) nos indica la conectividad y topologı́a del


grafo. Esto se debe a que indica todos los caminos de orden 1; es decir, las
aristas:
 
0 1 1 1 0
1 0 0 0 0
 
 
A(G) = 
1 0 0 1 0 (1)
1 0 1 0 1
 

0 1 0 1 0
Para fines de un grafo molecular otra representación muy útil es la ma-
triz de distancia D(G), ya que las potencias de esta matriz identifican los
distintos caminos dentro del grafo. Para el ejemplo de la Figura 1 1 esta será
la siguiente:

Realizó: Dr. Fernando D. Prieto Martı́nez Página 3


Grupo QUIBIC Curso QSAR 2021

 
0 1 1 1 2
1 0 2 2 1
 
 
D(G) = 
1 2 0 1 2 (2)
1 2 1 0 1
 

2 1 2 1 0
Es pertinente mencionar que los grafos moleculares tienen algunas propie-
dades particulares, la principal es la omisión de átomos de hidrógeno. Con-
sideraciones adicionales pueden incluir pseudografos ponderados o etiquetas
que facilitan la descripción de elementos estructurales como los anillos (Ro-
senfeld y Gutman 1996). Además de la practicidad, se ha demostrado que
las matrices de un grafo molecular permiten el cálculo de descriptores fisico-
quı́micos. Lo anterior es posible debido a que estas propiedades son altamente
dependientes a la geometrı́a y topologı́a de un compuesto, hecho que se ha
demostrado al calcular distintas propiedades con notable precisión (Burch
2019). Estas invariantes suelen denominarse como ı́ndices topológicos, siendo
un ejemplo muy conocido el ı́ndice de Wiener, el cual puede obtenerse de la
siguiente expresión (Basak 2015):

1X
W = dij (3)
2 ij

En forma semejante, los invariantes grafológicos permiten determinar


fragmentos. Mismos que pueden usarse para el cálculo de otras propieda-
des ’aditivas’ como las cargas parciales o el coeficiente de partición (Figura
2):

Realizó: Dr. Fernando D. Prieto Martı́nez Página 4


Grupo QUIBIC Curso QSAR 2021

(a) Distribución de las cargas (b) Distribución contribuciones


parciales. Ghose-Crippen.

Figura 2: Estructura molecular de indometacina. Se muestran las contri-


buciones por fragmento a las cargas parciales de Gastiger(izquierda) y al
coeficiente de partición (derecha).

Con esta introducción, es momento de comentar una representación más


abstracta: la codificación lineal. Al igual que las reglas de nomenclatura per-
miten a un quı́mico inferir la estructura de un compuesto, las representaciones
lineales hacen lo mismo para la computadora.
Existen diversos ejemplos de algoritmos y codificaciones para obtener
estas representaciones unidimensionales, pero el más utilizado es el código
SMILES. La premisa básica es el uso de ’gramática’ y reglas de codifica-
ción para los sustituyentes y ramificaciones de cadena (Weininger 1988). Un
ejemplo de este código se muestra en la Figura 3.
Mediante el código SMILES la computadora es capaz de construir el
pseudografo molecular e interpretar una estructura bidimensional. El códi-
go SMILES es muy flexible, pues permite el almacenamiento y distribución
de moléculas como grafos comprimidos. No obstante, como cualquier códi-
go la gramática del SMILES es limitada, por lo que pueden existir SMILES
invalidos.

Realizó: Dr. Fernando D. Prieto Martı́nez Página 5


Grupo QUIBIC Curso QSAR 2021

Figura 3: Estructura de indometacina codificada como SMILES.

Esto se refiere a que si bien un SMILES está correctamente escrito, pro-


ducirı́a una molécula inexistente; por ejemplo F#F, que representarı́a una
molécula de flúor formando un triple enlace.
Por esta razón es de suma importancia hacer una limpieza de los datos
antes de intentar realizar un modelo QSAR. Esto incluye desde luego, la
correcta asociación de estructuras a SMILES válidos y viceversa.
Previamente, se mencionó que los fragmentos moleculares pueden asociar-
se a contribuciones fisicoquı́micas. Esta idea es básicamente el fundamento
del QSAR. Pensando en ello, surge la idea de delimitar compuestos de acuer-
do a su actividad biológica. A este concepto de relacionar estructuras con la
distribución de sus propiedades se le conoce como espacio quı́mico.

4 Espacio Quı́mico

¿Te has preguntado alguna vez, cuántos compuestos quı́micos existen?


Una pregunta un tanto retórica, que sin duda invita a la reflexión. Diferentes
grupos de investigación han hecho estimados que apuntan a cifras entre 1080
y 10200 de moléculas posibles (Virshup y col. 2013). Números muy impresio-
nantes, si se considera que hasta 2009, el registro CAS (Chemical Abstracts
Services) contaba con casi 50 millones de estructuras.

Realizó: Dr. Fernando D. Prieto Martı́nez Página 6


Grupo QUIBIC Curso QSAR 2021

Sin duda, esta extensión puede tomarse un universo per se. Siguiendo
esta analogı́a, ¿serı́a posible plantear la existencia de “galaxias” quı́micas?
Toma un momento para considerar las implicaciones de esta idea. Dichas
galaxias podrı́an ser herramientas para catalogar las moléculas. Ası́ surge el
espacio quı́mico, una matriz de N compuestos con M descriptores (Prieto-
Martı́nez y Medina-Franco 2018). En principio estos descriptores podrı́an
ser simples como propiedades fisicoquı́micas o algo más complejo como su
actividad biológica.
Llegado este punto, vale preguntar ¿qué utilidad tiene esto en la práctica?
Principalmente el espacio quı́mico busca separar el universo molecular en
forma eficiente; es decir, encontrar descriptores robustos que además generen
cúmulos bien definidos que permitan identificar patrones.
En contextos farmacéuticos, los descriptores más usados son las reglas
empı́ricas de Lipinski. Estas ’reglas’ fueron determinadas por Christopher
Lipinski, durante su trabajo en Pfizer. Inicialmente, estos descriptores se
plantearon como filtros fisicoquı́micos, indicativos de un buen perfil biofar-
macéutico. No obstante, con el paso de los años adquirieron un rol discrimi-
nativo, al ser usados como indicativos de actividad biológica.
Considérense los siguientes argumentos, tanto a favor como en contra.
A favor: Los productos naturales han sido siempre una fuente directa e
indirecta de fármacos. Recientemente, se ha demostrado por diferentes grupos
que los fármacos y productos naturales recién identificados se interceptan
en su “espacio quı́mico Lipinski” (Cragg y Newman 2013; Ganesan 2004;
González-Medina y col. 2016; Saldı́var-González y col. 2018).
En contra: Es cierto que en la práctica las reglas de Lipinski se han tomado
como robustas. No obstante, se ha demostrado que el uso indiscriminado de
estas métricas produce inflación molecular, al sobrexplotar el mismo espacio
quı́mico (Leeson 2015).

Realizó: Dr. Fernando D. Prieto Martı́nez Página 7


Grupo QUIBIC Curso QSAR 2021

En esencia, esto significa que el espacio quı́mico es algo abstracto y de-


pende fuertemente de la representación molecular. Por ejemplo, la Figura 4
presenta dos representaciones visuales y válidas de espacios quı́micos. Am-
bas representaciones consideran dos grupos de fármacos: benzodiazepinas y
antidepresivos tricı́clicos. En el primer caso, se muestra el espacio quı́mico
generado con descriptores asociados a la regla de Lipinski, mientras que el
segundo utiliza descriptores de volumen y forma.
Nótese como el espacio resultante para casa grupo de descriptores es úni-
co. En este sentido, no se puede afirmar que una u otra representación posea
mayor relevancia, pues este criterio lo determinará el propio investigador
dependiendo de los objetivos del análisis visual.

Figura 4: Representaciones del espacio quı́mico de fármacos neurolépticos,


mediante descriptores de Lipinski (izquierda) y mediante descriptores espa-
ciales (derecha).

Realizó: Dr. Fernando D. Prieto Martı́nez Página 8


Grupo QUIBIC Curso QSAR 2021

Al concepto de “navegar” y sondear el espacio quı́mico se le denomina


quimiografı́a (Oprea y Gottfries 2001). Como ya se ha comentado, determi-
nar los descriptores más adecuados para cada caso individual puede resultar
impráctico, por ello la búsqueda de aquellas representaciones que puedan
resultar más relevantes es precisamente el objetivo de la quimioinformática
(Opassi et al., 2018).
Por esta razón, se han realizado diversas caracterizaciones quimioinformáti-
cas de bases de datos de dominio público. Ası́ ha sido posible identificar pa-
trones en el perfil farmacéutico de los compuestos. Otro detalle a destacar
es como cambia la distancia y la dispersión de los datos, recordando que los
compuestos están separados en base a ciertos descriptores: su cercanı́a indi-
cará similitud. Ası́, se puede establecer que la distancia puede fungir como
una función de la similitud y usar este criterio como métrica de comparación.

4.1. Similitud Molecular


En quı́mica existe un viejo aforismo, sobre el comportamiento de las di-
soluciones:

Lo semejante disuelve a lo semejante

De lo anterior se puede inferir que la explicación tras este aforismo viene


precisamente de las propiedades fisicoquı́micas de un compuesto. Mas recien-
temente, ha surgido un principio derivado de esta afirmación y sirve como
pilar de los métodos quimioinformáticos: Compuestos semejantes tendrán ac-
tividades semejantes (Maggiora y col. 2013). Basado en el espacio quı́mico,
se puede entonces identificar la similitud de un par de compuestos, como se
mencionó, esto se hace en función de la distancia (Tabla 1).

Realizó: Dr. Fernando D. Prieto Martı́nez Página 9


Grupo QUIBIC Curso QSAR 2021

Tabla 1: Funciones de distancia como métricas de similitud.

Nombre Expresión

Distancia Euclidiana E(a, b) = a + b − 2c
Distancia Manhattan H(a, b) = a + b − 2c
c
Distancia Söergel S(a, b) = 1 − a+b−c

Coeficiente coseno C(a, b) = √a


ab
c
Coeficiente de Tanimoto T (a, b) = a+b−c
2c
Coeficiente de Dice D(a, b) = a+b

5 Espacio quı́mico y QSAR

El fundamento del QSAR radica en la capacidad de descomponer la ac-


tividad biológica de un compuesto a contribuciones puntuales. Es cierto que
estos modelos han demostrado numerosos casos de éxito. No obstante, es im-
portante recalcar que las relaciones estructura actividad no son lineales. Esto
quiere decir que un modelo QSAR no siempre será aplicable para cuantificar
la contribución de sustituyentes a un compuesto bioactivo.
Es aquı́ donde vale la pena recordar los principios de la OCDE. Primera-
mente al definir un endpoint en concreto. De esta manera se delimita también
el espacio de propiedades, pues aquellas con buena correlación al endpoint
serán las que se deben sondear primero.

Realizó: Dr. Fernando D. Prieto Martı́nez Página 10


Grupo QUIBIC Curso QSAR 2021

Esto nos lleva al dominio de aplicabilidad, que será propiamente el espa-


cio quı́mico. El lector podrı́a pensar que un espacio de propiedades implica
estructuras igualmente acotadas. No obstante, este no es precisamente el ca-
so, tal como se observa en el espacio de Lipinski. En la práctica esto implica
un ejercicio de criterio, ya que la primera pregunta a responder es ¿Qué se
busca con el modelo QSAR?
Si la respuesta a esta pregunta es el estudio de series de compuestos
congéneres, es probable que el modelo sea exitoso. Por otro lado si se busca
tener un modelo altamente predictivo y universal, difı́cilmente es posible.
Sumado a estos puntos, es pertinente recordar también el quinto principio.
Por esta razón, se vuelve esencial el preprocesamiento de la información.
De esta forma se delimita la intención y alcance para realizar un modelo
QSAR. Algunas preguntas importantes son las siguientes:

¿El endpoint se encuentra bien documentado?

¿Se cuenta con suficientes estructuras?

¿Vale la pena extender el espacio quı́mico?

¿Se cuenta con suficiente información del mecanismo de acción?

Aún si todos estos puntos se logran satisfacer, es importante considerar lo


siguiente. Tal como suele ocurrir con las metodologı́as novedosas, los métodos
QSAR han sido sometidos a un profundo análisis tras su aparente fracaso
debido a su mal uso o errores en su interpretación (Maggiora 2006).

Realizó: Dr. Fernando D. Prieto Martı́nez Página 11


Grupo QUIBIC Curso QSAR 2021

Por tanto, la reflexión nos invita a considerar el hecho de que las relaciones
estructura-actividad no son necesariamente lineales como muchas veces trata
de simplificarse. Considera los compuestos mostrados en la Figura 5, por
ejemplo. Ambos compuestos son inhibidores de cinasas; con una diferencia
notable en su potencia debida únicamente a la presencia de un heteroátomo.
La existencia de este fenómeno es cada vez más reconocida en el campo
farmacéutico y se le ha denominado como ’acantilados’ de actividad (activity
cliff ) (Medina-Franco y col. 2013).

H
N N N

(a) Potencia = 6 nM
N

H
N N N

(b) Potencia ≈ 2400 nM

Figura 5: Ejemplo de un acantilado de actividad.

Realizó: Dr. Fernando D. Prieto Martı́nez Página 12


Grupo QUIBIC Curso QSAR 2021

Referencias

(1) Basak, S. C. en Advances in Mathematical Chemistry and Applications,


Basak, S. C., Restrepo, G. y Villaveces, J. L., eds.; Bentham Science
Publishers: 2015, págs. 3-23.
(2) Burch, K. J. en Mathematical Physics in Theoretical Chemistry, Blin-
der, S. y House, J., eds.; Developments in Physical & Theoretical Che-
mistry; Elsevier: 2019, págs. 261-294.
(3) Cragg, G. M. y Newman, D. J. Biochimica et Biophysica Acta - General
Subjects 2013, 1830, 3670-3695.
(4) Ganesan, A. Current Opinion in Biotechnology 2004, 15, 584-590.
(5) González-Medina, M.; Prieto-Martı́nez, F. D.; Naveja, J. J.; Méndez-
Lucio, O.; El-Elimat, T.; Pearce, C. J.; Oberlies, N. H.; Figueroa,
M. y Medina-Franco, J. L. Future Medicinal Chemistry 2016, 06,
1113-1126.
(6) Leeson, P. D. Advanced Drug Delivery Reviews 2015, 101, 22-33.
(7) Maggiora, G. M.; Vogt, M.; Stumpfe, D. y Bajorath, J. J. Journal of
medicinal chemistry 2013, 57, 3186-3204.
(8) Maggiora, G. M. Journal of Chemical Information and Modeling 2006,
46, 1535.
(9) Medina-Franco, J. L.; Giulianotti, M. a.; Welmaker, G. S. y Houghten,
R. a. Drug Discovery Today 2013, 18, 495-501.
(10) Oprea, T. I. y Gottfries, J. Journal of Combinatorial Chemistry 2001,
3, 157-166.
(11) Prieto-Martı́nez, F. D. y Medina-Franco, J. L. TIP Revista Especiali-
zada en Ciencias Quı́mico-Biológicas 2018, 21, 124-134.
(12) Rosenfeld, V. R. y Gutman, I. Journal of Chemical Information and
Computer Sciences 1996, 36, 527-530.

Realizó: Dr. Fernando D. Prieto Martı́nez Página 13


Grupo QUIBIC Curso QSAR 2021

(13) Saldı́var-González, F. I.; Valli, M.; Andricopulo, A. D.; da Silva Bol-


zani, V. y Medina-Franco, J. L. Journal of Chemical Information and
Modeling 2018, acs.jcim.8b00619.
(14) Virshup, A. M.; Contreras-Garcı́a, J.; Wipf, P.; Yang, W. y Beratan,
D. N. Journal of the American Chemical Society 2013, 135, 7296-7303.
(15) Weininger, D. Journal of Chemical Information and Modeling 1988,
28, 31-36.

Realizó: Dr. Fernando D. Prieto Martı́nez Página 14

También podría gustarte