Trabajo Final MIQ I Osvaldo

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS
FACULTAD DE QUÍMICA-FARMACIA
DEPARTAMENTO: LIC. QUÍMICA
Validación de los Nuevos Índices de
Derivada del Grafo.
Autor: Osvaldo Delgado González.
Tutor: Lic. Raúl T. Pareja Rodríguez.
Santa Clara
2017
Tabla de contenido
Introducción .................................................................................................................................... 1
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA ............................................................................. 4
1.1. Química Grafo-Teórica. ................................................................................................ 5
1.2. Representación Matricial de Grafos moleculares. ................................................... 6
1.3. Descriptores Moleculares. Índices Topológicos. ...................................................... 7
1.4. Índices de Derivada Discreta de grafos moleculares. ............................................. 9
1.5. Métodos Estadísticos.................................................................................................. 11
1.5.1. Regresión Lineal Múltiple. (RLM) ...................................................................... 11
CAPÍTULO 2: MATERIALES Y MÉTODOS ............................................................................ 16
2.1. Herramientas computacionales..................................................................................... 17
2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo. .. 17
2.1.2. IMANN Software. Análisis de Variabilidad. ..................................................... 19
2.1.3. MobyDigs Software: Regresión Lineal Múltiple. ............................................. 20
2.1.4. Lenguaje de programación: FORTRAN 90. .................................................... 21
2.2. Bases de Datos Químicas. ........................................................................................ 22
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN ....................................................................................... 23
3.1. Implementación en FORTRAN 90 de un software capaz de calcular los GDIs. ... 24
3.2. Validación QSPR de los GDIs. .................................................................................. 31
3.2.1. Modelación de propiedades químico-físicas con los GDIs. .......................... 31
Conclusiones:............................................................................................................................... 35
Recomendaciones: ..................................................................................................................... 35
REFERENCIAS BIBLIOGRÁFICAS: ........................................................................................ 36
Resumen
En el presente trabajo se ha validado una nueva familia de descriptores
moleculares basados en conceptos del algebra lineal, derivada del grafo molecular
y Teoría de Información. Estos descriptores (GDIs) han sido implementados
computacionalmente en un programa interactivo desarrollado en el lenguaje de
programación JAVA, el software DIVATI. La implementación de estos descriptores
fue validada computacionalmente, mediante la implementación de un software en
FORTRAN 90, se comprobaron los resultados empleando para ello la molécula
de 3-metil-2-butanona. El proceso de validación arrojó buenos resultados para la
implementación de los GDIs basados en el cálculo de las derivadas inspiradas en
las distintas entropías de información. También se validaron los nuevos
descriptores mediante un estudio QSPR-comparativo, para ello se usó una data
de 110 saponinas esteroidales. Se demostró, la aplicabilidad de los GDIs en la
modelación del logaritmo de partición 1-octanol/agua. Los modelos obtenidos con
el software MobyDigs correlacionaron de satisfactoriamente con la propiedad
modelada. Este trabajo demuestra la seguridad de aplicar los GDIs al estudio de
propiedades químico-físicas de sustancias orgánicas.

Summary
In the present work a new family of molecular descriptors based on linear algebra
concepts, derived from the molecular graph and Information Theory, has been
validated. These descriptors (GDIs) have been implemented computationally in an
interactive program developed in the JAVA programming language, DIVATI
software. The implementation of these descriptors was validated computationally,
by implementing a software in FORTRAN 90, the results were verified using the 3-
methyl-2-butanone molecule. The validation process yielded good results for the
implementation of the GDIs based on the calculation of the derivatives inspired by
the different entropies of information. The new descriptors were also validated
using a QSPR-comparative study, using a data of 110 steroidal saponins. It was
demonstrated, the applicability of the GDIs in the modeling of the logarithm of
partition 1-octanol / water. The models obtained with the MobyDigs software
correlated satisfactorily with the modeled property. This work demonstrates the
safety of applying GDIs to the study of chemical and physical properties of organic
substances.
Introducción
Las propiedades químicas, químico-físicas y biológicas de los compuestos
químicos están en estrecha relación con su estructura molecular, esta puede ser
descrita usando diferentes métodos y estrategias matemáticas. Al resultado final
de estos procedimientos matemáticos que transforman la información estructural
(codificada en una representación simbólica de la molécula) en un número (o
conjunto de números) se les conoce como descriptores moleculares (DMs)
(Todeschini and Consonni, 2009). Los resultados numéricos por ellos expresados
pueden ser relacionados estadísticamente con determinadas propiedades (o
actividades) moleculares. Los DMs pueden ser generados por medio de varios
procedimientos químico-matemáticos (Cockett and Doggett, 2003). Dependiendo
de esto, algunos descriptores pueden tener en cuenta rasgos topológicos (2D),
geométricos (3D), electrónicos de las moléculas, etc. Otros, sin embargo, tienen
más “información” de propiedades químico-físicas que de los rasgos estructurales
de la molécula. Estos incluyen los basados en la determinación experimental de
propiedades químico-físicas, tales como la mayoría de las constantes de los
sustituyentes, hidrofóbicas, electrónicas y estéricas (Todeschini and Consonni,
2009). En contraste, los llamados índices topológicos (ITs) tienen en cuenta la
información estructural, contenida en una representación bidimensional de las
moléculas (generalmente el grafo molecular con los átomos de hidrógenos
suprimidos) sin considerar ningún rasgo físico-químico de las moléculas (Devillers
and Balaban, 1999b).Los ITs han comenzado a ocupar un lugar importante dentro
1
del conjunto de descriptores moleculares utilizados en los estudios biológicos y
farmacéuticos, siendo probablemente el diseño/descubrimiento de nuevos
compuestos bioactivos, una de las áreas más activas de investigación donde se
aplican estos descriptores a problemas biológicos (Martínez-Santiago et al.,
2014). Recientemente se ha definido una nueva familia de descriptores
moleculares basados en la derivada del grafo molecular (GDI) e Índices de
Información (IFI)(Barigye et al., 2013c, Marrero-Ponce et al., 2012). Esta nueva
familia de descriptores (GDIs) emplea la matriz de incidencia (no cuadrada y
asimétrica) y cuenta con una definición local (sobre átomos o agrupaciones de
átomos).Estos GDIs se calculan utilizando un software implementado en JAVA
conocido como DIVATI (Acrónimo DIscrete DeriVAtive Type Indices), un nuevo
módulo del programa TOMOCOMD-CARDD 1.0 (acrónimo de TOpological
MOlecular COMputer Design Computed-Aided ‘Rational’ Drug Design) con el que
se puede calcular de forma automatizada los valores GDIs de estructuras
químicas representadas como grafos moleculares. Para que estos ITs puedan ser
extendidos a otros estudios bioinformáticos y quimioinformáticos, es necesario
que estén debidamente validados operacional y computacionalmente.
2
Situación Problémica:
No se cuenta en el grupo de Investigación CAMDBIR UNIT con un software libre
capaz de validar computacionalmente los GDIs implementados en el software
DIVATI.
Problema científico:
¿Cómo realizar una validación de los GDIs implementados en el software DIVATI?
Hipótesis:
Es posible aplicar un conjunto de métodos [de programación en Fortran 90 y
estadísticos] para validar los nuevos GDIs, implementados en la nueva versión del
software DIVATI.
Objetivo general:
Implementar un programa que sea capaz de validar los nuevos GDIs en el software
DIVATI.
Objetivos específicos:
 Implementar un software en FORTRAN 90 que permita calcular los GDIs
automáticamente.
 Aplicar los GDIs al diseño molecular mediante la realización de un estudio
QSPR-comparativo que permita complementar la validación de los GDIs.
3
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA
4
CAPÍTULO 1: REVISIÓN BIBLIOGRÁFICA
1.1. Química Grafo-Teórica.
La teoría de Grafos es una rama de la Matemática que estudia la estructura de
grafos, tiene su origen en el año 1736, cuando Leonhard Euler (1707-1783) resolvió
el famoso problema conocido como: Problema de los 7 puentes de
Königsberg,(Gorbátov, 1988) el cual demostró la relación entre la Teoría de Grafos
y la Topología.
Un grafo no es más que un conjunto de vértices interconectados por aristas en el
cual cada vértice representa un objeto y la arista que conecta dos vértices
representa la relación entre estos dos objetos(Gorbátov, 1988).
La Teoría de Grafos ha sido ampliamente aplicada a diversos campos de la ciencia
y la técnica como la Matemática, las Ciencias de la Computación, la Ingeniería
Automática, la Química, etc, por citar algunos ejemplos. Específicamente, en la
química grafo-teórica los objetos del grafo pueden representar orbitales, átomos(o
sus núcleos), enlaces, grupos de átomos, moléculas o colecciones de moléculas
(Marrero-Ponce et al., 2012). De esta forma los vértices del grafo podrían
representar los átomos y las aristas las interacciones entre objetos químicos (ej.
átomos), por lo cual estas últimas se usan para definir enlaces químicos, reacciones,
mecanismos de reacciones, modelos cinéticos, u otra relación o transformación de
los objetos químicos (Martínez Santiago et al.).
5
1.2. Representación Matricial de Grafos moleculares.
Los grafos pueden representarse matricialmente en forma algebraica, la descripción
numérica de la estructura de los compuestos químicos es esencial para la
manipulación computacional de las moléculas y para los cálculos de los descriptores
moleculares que de ella se derivan.(Martínez-Santiago et al., 2014)
Para fragmentar matemáticamente la molécula, se define un determinado suceso
(S), el cual es verdadero cuando se cumplen determinadas condiciones al proceso
examinado. Cada suceso determina una matriz binaria bidimensional: 𝑄=
[𝑞𝑖𝑗 ]𝑛𝑥𝑚 , a cada columna de la cual le corresponde biunívocamente una condición,
comprendida en al menos un suceso verdadero, y a cada fila, una colección de
condiciones, con las cuales el suceso tiene lugar. Entonces 𝑞𝑖𝑗 se define como:
1, 𝑠𝑖 𝑙𝑎 𝑗 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 𝑠𝑒 𝑖𝑛𝑐𝑙𝑢𝑦𝑒 𝑒𝑛 𝑙𝑎 𝑖 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠,

𝑞𝑖𝑗 = { 𝑒𝑛 𝑙𝑎𝑠 𝑐𝑢𝑎𝑙𝑒𝑠 𝑒𝑙 𝑠𝑢𝑐𝑒𝑠𝑜 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜.
0, 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜
Cada suceso (S) determina un modelo () con matriz de incidencia Q. Las
condiciones que se comprenden en el suceso son letras del modelo y las
colecciones de condiciones para las cuales el suceso es verdadero serían palabras
del modelo.
Por ejemplo: la Matriz de incidencia (Q): para un grafo G, con una ordenación de
vértices (𝑣1 , 𝑣2 , … 𝑣𝑛 ) y aristas (𝑒1 , 𝑒2 , … 𝑒𝑛 ). Se define por la relación:
1 𝑠𝑖 𝑣𝑖 ∈ 𝑒𝑗
𝑞𝑖𝑗 = { .
0 𝑠𝑖 𝑣𝑖 ∉ 𝑒𝑗
6
Las intensidades de participación de las distintas condiciones en las colecciones de
condiciones para las cuales el suceso es verdadero son caracterizadas utilizando
las frecuencias de su inclusión. Para ello es necesario introducir otra matriz, la
matriz de frecuencia de relaciones: 𝐹 = [𝑞𝑖𝑗 ]𝑛𝑥𝑛 , que caracteriza un modelo con
matriz de incidencia: 𝑄(Ψ) = [𝑞𝑖𝑗 ]𝑛𝑥𝑚
En la matriz de frecuencia de relaciones (F), a cada fila y columna de la cual le
corresponde biunívocamente una condición, y un elemento fij es igual al número de
palabras que comprenden las letras i y j, respectivamente, si i ≠ j; si i = j entonces fi
corresponde al número de palabras que incluyen la letra i (Martínez Santiago et al.,
Gorbátov, 1988). Siendo fi la frecuencia propia de la letra i y fij es la frecuencia
recíproca de las letras i y j, correspondientemente. Analizando la definición de la
matriz de frecuencia (F) de relaciones, se desprende que la misma es simétrica
respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada letra es
mayor que la frecuencia recíproca de esta letra con cualquier otra, fi ≥ fi.j.
Se puede obtener la matriz de frecuencia de relaciones a partir de multiplicar la
traspuesta de la matriz Q por ella misma:
𝐹 = 𝑄 𝑇 𝑥𝑄 (1)
1.3. Descriptores Moleculares. Índices Topológicos.
Los descriptores moleculares (DMs) juegan un papel fundamental actualmente en
el desarrollo de la Química, las Ciencias Farmacéuticas, las investigaciones de
nuevos materiales (Todeschini and Consonni, 2009).
Los descriptores moleculares pueden ser agrupados en dos clases generales:
7
1) Los derivados de medidas experimentales como: logP, refractividad molar,
momento dipolo, polarizabilidad y otras propiedades químico-físicas en general.
2) Descriptores Moleculares Teóricos, los cuales son derivados de
representaciones simbólicas de las moléculas y estos a su vez pueden ser
clasificados acorde con diferentes formas de representación molecular.
Los Índices Topológicos (ITs) son descriptores moleculares derivados de una
invariante grafo-teórica y codifican información estructural, contenida en la
conectividad molecular (Marrero-Ponce et al., 2012, Marrero-Ponce et al., 2006,
Martínez Santiago et al.).
Una invariante grafo-teórica es aquella propiedad del grafo que no depende del
orden de numeración de los elementos del mismo, las cuales pueden ser
obtenidas por manipulación algebraica del grafo.
Los ITs son representaciones numéricas de la estructura molecular. Siendo estos
valores numéricos, matemáticamente derivados de alguna forma directa y no
ambigua de una representación gráfica de la estructura molecular, generalmente
un grafo con hidrógenos suprimidos. Los mismos son sensibles a determinadas
características estructurales, tal como, tamaño, simetría, ramificaciones y ciclos,
y deben además codificar información acerca del tipo de átomos presentes y la
multiplicidad de los enlaces en los que están implicados dichos átomos.
Los índices topoquímicos además de cuantificar información topológica incluyen
información que permite lograr una adecuada diferenciación atómica basada en
propiedades características de los átomos y/o su estado de hibridación. Las
8
nuevas ecuaciones en diferencia finita, u en este trabajo, se clasifican como
índices topoquímicos pues tienen en cuenta propiedades químicas específicas de
cada átomo, tales como: Electronegatividad, Volumen Molar, etc.
1.4. Índices de Derivada Discreta de grafos moleculares.
Un tipo especial de ITs topoquímicos lo constituye los derivados de calcular la
derivada discreta del grafo molecular (Barigye et al., 2013b, Barigye et al., 2014,
Barigye et al., 2013c), además este concepto se ha extendido al relacionar la
derivada de un grafo con las diferentes entropías propias de la teoría de
información.
Las ecuaciones de definición de estos DMs se muestran en la tabla siguiente:
Tabla 1.1. Ecuaciones de Definición de los índices de derivada del grafo.
Descriptor Ecuación de Definición Significado
Jenssent 𝜕𝐺 𝑓𝑖 − 2𝑓𝑖𝑗 + 𝑓𝑗 Derivada de un Grafo (según

(𝑣𝑖 , 𝑣𝑗 ) =
𝜕𝑆 𝑓𝑖𝑗
Gorbátov)
Joint 𝜕𝐺 (𝑓𝑖 − 𝑓𝑖𝑗 ) + 𝑓𝑗 Derivada de un grafo inspirada en

(𝑣𝑖 , 𝑣𝑗 ) =
la entropía de unión
Mutual 𝜕𝐺 Derivada de un grafo inspirada en

(𝑣 , 𝑣 ) = 𝑓𝑖𝑗
𝜕𝑆 𝑖 𝑗
la entropía mutua
Conditional 𝜕𝐺 (𝑓𝑖 − 𝑓𝑖𝑗 ) Derivada de un grafo inspirada en

(𝑣𝑖 , 𝑣𝑗 ) =
la entropía condicional
Donde:
 fi: intensidad de participación de un vértice en el suceso escogido.
 fij: número de veces que aparece un par de vértices simultáneamente.
9
Un suceso, es una forma matemática de fragmentar las moléculas, el cual genera
una matriz de incidencia (Q), a partir de la cual luego de varios procedimientos
algebraicos, se calculan los índices de derivada del grafo utilizando las ecuaciones
antes expuestas.
Para hacer de estos conceptos matemáticos herramientas útiles en la descripción
molecular es importante definir un parámetro que caracterice cada objeto en
particular (elementos de la molécula como los vértices o a la molécula). Se define
entonces el índice atómico Δi sobre cada vértice (átomo) del grafo (molécula)
como la sumatoria sobre todos los valores de derivada como se muestra en la
ecuación 2(Marrero-Ponce et al., 2012):

𝑛
𝜕𝐺 (2)
∆𝑖 = ∑ (𝑣 , 𝑣 )
𝜕𝑆 𝑖 𝑗
𝑖=1
Estos valores constituyen en sí mismos descriptores topológicos de naturaleza
local o LOVIs (acrónimo de LOcal Vertex Invariant), aunque es necesario destacar
el hecho de que se obtendrá un número de LOVIs diferentes para diferentes
moléculas (según sea el número de átomos). Es necesario homogeneizar la data
resultante para el posterior tratamiento estadístico (Randic, 1998, Stat Soft, 2007,
Van de Waterbeemd, 1995). Esto se logra mediante el uso de operadores
matemáticos, conocidos como invariantes, y de esta forma se obtienen
descripciones totales y locales sobre fragmentos de interés en las moléculas. (ver
capítulo 2 epígrafe 2.2.1)
10
1.5. Métodos Estadísticos.
El término quimiometría surgió en la década del 70 y se define como la disciplina
química que combina herramientas matemáticas y estadísticas con
procedimientos para el análisis e interpretación de los datos químicos.(Brereton,
1990, Van de Waterbeemd, 1995) Estas técnicas son utilizadas para la
recopilación, elaboración, análisis, reducción y la caracterización de conjuntos
grandes de datos, como los que se utilizan en los estudios quimionformáticos y
bioinformáticos (Basilevsky, 1994). Actualmente las técnicas de análisis
quimiométrico se interceptan no solo con varios campos de la Matemática y la
Estadística clásica sino también de la Inteligencia Artificial y otras ramas de la
ciencia de la computación.
1.5.1. Regresión Lineal Múltiple. (RLM)
La RLM estudia las relaciones entre una variable dependiente y un conjunto de
variables independientes. Así mismo, la regresión múltiple remite a la correlación
múltiple, que se representa por R. Es decir, la correlación múltiple analiza la relación
entre una serie de variables independientes o predictores (X1, X2,…, Xk),
considerados conjuntamente, con una variable dependiente o criterio. Sus
fundamentos se hallan en la correlación de Pearson. La recta de regresión múltiple
tiene la siguiente forma:
y  a  b1 X 1  b2 X 2  ...  bk X k (3)
11
Siendo: “a” un valor constante, y la variable dependiente, X1, X2,….Xn variables
predictoras y b1, b2,…bn coeficientes estimados para cada variable independiente
del modelo. (Brereton, 1990)
Como puede observarse, la RLM puede utilizarse en la predicción de los valores de
la variable dependiente, en base a una combinación lineal de variables
independientes.
Algoritmo Genético (AG) como método de selección de parámetros:
Cuando se habla de algoritmos genéticos, hay que mencionar a John Holland que
en 1975 sienta las bases para sus posteriores desarrollos hasta llegar a lo que se
conoce hoy por algoritmos genéticos actuales. Según D. Goldberg los AGs son:
Algoritmos de búsqueda basados en los mecanismos de selección natural y
genética natural. Combinan la supervivencia de los más compatibles entre las
estructuras de cadenas, con una estructura de información ya aleatorizada,
intercambiada para construir un algoritmo de búsqueda con algunas de las
capacidades de innovación de la búsqueda humana.
Un AG no es más que un método de búsqueda que imita la teoría de la evolución
biológica de C. Darwin (1809-1882) para la resolución de problemas. Para ello, se
parte de una población inicial de la cual se seleccionan los individuos más
capacitados para luego reproducirlos y mutarlos, y de esa forma obtener finalmente
la siguiente generación de individuos que estarán más adaptados que la anterior
generación. En la naturaleza todo el proceso de evolución biológica se hace de
forma natural, pero para aplicar el AG al campo de la resolución de problemas habrá
que seguir una serie de pasos. Como premisa se debe conseguir que el tamaño de
12
la población sea lo suficientemente grande para garantizar la diversidad de
soluciones. Se aconseja que la población sea generada de forma aleatoria para
obtener dicha diversidad.(Todeschini et al., 2004)
Validación Interna de modelos:
Una condición necesaria para que sea válido un modelo de regresión es que el
coeficiente de determinación (R2) este cercano, tanto como sea posible, a uno y que
el error estándar estimado (s) sea pequeño (capacidad de ajuste a los datos); sin
embargo, la consideración de estos únicos parámetros estadísticos no es suficiente,
pues los valores de los mismos no necesariamente están relacionados con la
capacidad del modelo de realizar buenas predicciones de una data futura. Las
técnicas de validación constituyen herramientas fundamentales a la hora de evaluar
la capacidad predictiva de los modelos obtenidos por métodos multivariados de
regresión y clasificación, por lo que son extensamente aplicadas en la mayoría de
los estudios QSPR/QSAR.(Brereton, 1990)
La validación cruzada (VC) opera haciendo un número de reducidas
modificaciones al conjunto de compuestos de la data original y entonces calcula la
precisión de las predicciones de cada uno de los resultados de los modelos. Es
decir, se ajusta el modelo a los nuevos datos, dejando la parte omitida fuera, y estos
se evalúan en el modelo para computar las predicciones de los casos que fueron
excluidos. Este procedimiento se repite para cada conjunto de datos modificados.
El poder predictivo del modelo puede expresarse como q2, denominado como la
‘varianza predictiva’ o la ‘varianza de la validación
13
∑(𝑦𝑖 − 𝑦̂𝑖 )2 (4)
𝑞2 = 1 −
∑(𝑦𝑖 − 𝑦̅𝑖 )2
cruzada’, la cual es igual a (1-PRESS/SSY), o sea que puede ser calculado acorde
a la siguiente ecuación:
donde, 𝑦𝑖 , 𝑦̂𝑖 𝑦 𝑦̅ es la respuesta observada, estimada y media del i-ésimo caso,
respectivamente. Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual
da N grupos), el procedimiento se conoce como dejar “uno” fuera (LOO, acrónimo
de Leave-One-Out) (Brereton, 1990).
No obstante, se ha mostrado que, desde el punto de vista teórico y práctico, el
procedimiento de dejar ‘varios’ fuera (LSO, acrónimo de Leave-Several-Out) es
preferible al LOO.
En la técnica de validación por Bootstrap, la talla original del conjunto de datos
(n) es preservada en la serie de entrenamiento, a partir de la seleccionan m
objetos (𝑛 > 𝑚) que son asignados al conjunto de evaluación y estos son
sustituidos por m objetos repetidos de la serie de entrenamiento.El modelo es
calculado en el conjunto de entrenamiento y las respuestas son predichas en el
conjunto de evaluación. Las diferencias de los cuadrados entre las respuestas
ciertas y las predichas son recogidas en el PRESS. Este procedimiento de
elaboración del conjunto de entrenamiento es repetido miles de veces, los PRESS
son sumados y el poder predictivo promedio es calculado.(Wehrens et al., 2000)
El método del revuelto [prueba de aleatoriedad (y-sc: y-scrambling)] es
empleado para evaluar la correlación al azar.(Wold and Erikson, 1995) En esta
14
técnica, se calcula un modelo de regresión lineal para la verdadera variable
respuesta (y) junto con un número de regresiones repetidas (200-300 veces) con
las mismas variables, pero con la variable dependiente aleatoriamente revuelta
(ỹ). Luego se calcula para cada modelo la varianza explicada q2LOO y se evalúa la
correlación entre la respuesta verdadera y la revuelta de la siguiente manera:
𝑞𝑘2 = 𝑎 + 𝑏. 𝑟𝑘 (𝑦, 𝑦
̃)
𝑘 (5)
donde, la 𝑞𝑘2 es la varianza explicada para el modelo obtenido con los mismos
predictores teniendo el k-ésimo vector revuelto, 𝑟𝑘 es la correlación entre los
vectores para la respuesta verdadera y la k-ésima revuelta. Un valor del intercepto
cercano a cero implica que el modelo no es obtenido al azar mientras que un
intercepto grande indica que los modelos aleatorios poseen el mismo desempeño
que el modelo verdadero, por lo que se pudiera considerar aleatorio.(Rücker et al.,
2007)
15
CAPÍTULO 2: MATERIALES Y MÉTODOS
16
CAPÍTULO 2: MATERIALES Y MÉTODOS
2.1. Herramientas computacionales.
2.1.1 DIVATI Software. Cálculo de los nuevos Índices de Derivada del Grafo.
La definición de los nuevos DMs tiene como propósito final su uso como una
herramienta para el diseño molecular y diversos estudios teóricos, es por ello muy
importante facilitar, desde un punto de vista computacional, el cálculo de estos
descriptores para que pueda ser utilizado por cualquier investigador interesado. Con
este fin se desarrolló un programa informático interactivo en el lenguaje de
programación JAVA (Figura 2.1) denominado DIVATI (acrónimo DIscrete
DeriVAtive Type Indices), un nuevo módulo del programa TOMOCOMD-CARDD 1.0
(acrónimo de TOpological MOlecular COMputer Design Computed-Aided ‘Rational’
Drug Design). Este programa carga las estructuras en ficheros de formato .mdl, .mol
y .sdf. y permite salvar los descriptores calculados en ficheros de tipo .txt, .xls, .xlsx
y .csv (Marrero-Ponce et al., 2013).
Figura 2.1. Interfaz gráfica del programa TOMOCOMD-CARDD y su módulo DIVATI.
17
Este software facilita el cálculo de todas las familias de índices basados en la
Derivada Discreta de un Grafo y la Teoría de Información: Derivadas, Derivadas
de Orden Superior y Derivadas Mixtas, sobre pares (duplas), tríos (ternas) y
cuartetos (cuaternas) de átomos en cualquier tipo de estructura química orgánica
(excluyendo macromoléculas poliméricas).
Para la diferenciación atómica se dispone de una serie de 21 ponderaciones
(etiquetas) atómicas, agrupadas en tres grandes grupos: Químicas [Número
atómico (Z), Volumen de Van der Walls (W), Polarizabilidad (P), Masa atómica (A),
Radio covalente (R), Electronegatividad de Pauling (E)], Físicas [Área superficial
polar total (T), Contribución atómica al logP (G), contribución atómica a la
refractividad molar (M), Carga (C)] y Topológicas basadas en diferentes criterios
de Grados del Vértice [Grado de valencia (N), Conectividad excéntrica (Y), Estado
Electrotopológico (S), Grado del vértice de Kupchik (K), Estado Intrínseco (I),
Grado del vértice de enlace (B), Grado del vértice de Li (D), Grado del vértice de
Hu-Xu (H), Grado del vértice de Alikhanidi (L), Grado del vértice de Ivanciauc (V),
Conteo de distancias (O)].
El programa permite además realizar cálculos locales atómicos individuales y para
grupos de átomos [Heteroátomos (HT), Halógenos (HL), Aceptores de protones
(AH), Donantes de protones (DH), Carbonos Metilos (MC), Insaturaciones (IS),
Grupos a una longitud k (GL)]. Para los cálculos locales de grupos de átomos se
aplican operadores matemáticos. Si al avaluar estos operadores se tienen en
18
cuenta todos los átomos de la molécula el resultado será un cálculo global (total)
de la molécula.
En el software DIVATI estos operadores han sido denominados colectivamente
como invariantes y agrupados en Normas, Medias, Estadísticos en Algoritmos
Clásicos y constituyen una generalización del uso de la combinación lineal de las
contribuciones atómicas para definición global de la molécula.
2.1.2. IMANN Software. Análisis de Variabilidad.
La calidad de los nuevos descriptores, que se proponen en este trabajo, puede ser
evaluada y comparada si se emplea la técnica de Análisis de variabilidad (AV)
basada en el cálculo de la Entropía de Shannon (SE).
𝑆 = ∑𝑛𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 (6))
para estos índices. Con esta técnica se estima el contenido de información
codificada por los diferentes parámetros moleculares, como entidades
independientes, y luego se comparan los valores entrópicos de estos.
Adicionalmente, para comparaciones lógicas, es deseable que las datas que se
comparen tengan el mismo número de variables, por lo que en estudios donde se
compararon datas con diferentes números de variables, se aplicaron puntos de
corte teniendo en cuenta la de menor número de variables.(Barigye et al., 2013a)
Con motivo de realizar el análisis de variabilidad de los parámetros moleculares
propuestos en el presente trabajo, se ha implementado una herramienta
19
computacional fundamentada en los conceptos de la teoría de información la cual
se denomina IMMAN (acrónimo de Information Theory based CheMoMetric
ANalysis). Esta aplicación permite el cálculo de la Entropía de Shannon (SE) a los
DMs, además de otros parámetros derivados de transformaciones matemáticas de
la SE, tales como: la entropía de Shannon estandarizada (sSE), la Negentropía
(nSE), el índice de redundancia de Brillouin (rSE), el índice de Gini (gSE) y el
contenido de la energía de información (iSE). Otros parámetros basados en la teoría
de información implementados en este programa incluyen la entropía diferencial
generalizada (DSE) y la información de Jeffrey (JI). Los formatos de ficheros de
entrada para el IMMAN incluyen .TXT (tabbed ASCII files) y .CSV (comma-
separated value files). En la Figura 2.2 se muestra la interfaz gráfica del software
(aplicación visual).
Figura 2.2. Interfaz gráfica del programa IMMAN.
2.1.3. MobyDigs Software: Regresión Lineal Múltiple.
El MobyDigs es un software para el cálculo de los modelos de regresión usando
algoritmos genéticos como método de selección de variables obteniéndose un
subconjunto óptimo de modelos predictivos desarrollados por la quimiometría. El
20
algoritmo genético está inspirado en los procesos de evolución natural en el cual
las especies que tienen mejor ajuste a ciertas condiciones pueden prevalecer y
sobrevivir a la próxima generación. Las mejores especies se pueden adaptar por
cruzamiento o mutación en la búsqueda de mejores individuos.(Todeschini et al.,
2004)
Los estadísticos usados para evaluar la calidad del modelo y el ajuste del mismo
a los datos experimentales fueron el coeficiente de correlación múltiple (R) y el
cuadrado de su valor (R2, coeficiente de determinación). La desviación estándar
(s) y la F de Fischer (y/o el nivel de significación del modelo y de cada variable, p
≤ 0.05) también se tuvieron en cuenta a la hora del ajuste y selección de los
modelos desarrollados. La calidad predictiva de las ecuaciones desarrolladas se
evaluó utilizando los estadísticos del proceso de validación cruzada (VC,
validación interna) y validación por boostraping (en este sentido, fue evaluado el
Q2 boot como estadístico para evaluar la calidad de esta validación).
2.1.4. Lenguaje de programación: FORTRAN 90.
El lenguaje de programación Fortran “The IBM Mathematical Formula Traslating
System” tiene sus orígenes en el año 1957 y surge como un método de cálculo de
expresiones matemáticas complejas y computación científica. Este lenguaje de
programación se ha convertido en uno de los lenguajes más empleados para la
programación de tareas de cálculos intensivos en áreas como son: Astronomía,
Modelos Meteorológicos, Álgebra Lineal, Simulación de Satélites, Química
Computacional, entre otras. En los primeros años de la década del 90 del siglo XX
21
surge la versión del compilador Fortran: Fortran 90, el cual ha tenido gran
aceptación por parte de los científicos no especializados en avanzados lenguajes
de programación, pues éste lenguaje de programación es sencillo, genera códigos
más rápidos y eficientes, además de que es un poderoso lenguaje para trabajar
con expresiones matemáticas complejas. En el presente trabajo se utilizará el
lenguaje Fortran 90 para calcular de forma automatizada los GDIs, lo cual
permitirá comprobar el correcto funcionamiento del software DIVATI.
2.2. Bases de Datos Químicas.
Con el paso del tiempo la Química se han desarrollado vertiginosamente, en gran
medida gracias a la enorme cantidad de información sobre: estructura,
propiedades y aplicaciones de millones de moléculas, obtenida a partir de la
experimentación, la cual se encuentra almacenada en diversas bases de datos
químicas las cuales han sido utilizadas por numerosos investigadores.
En la siguiente tabla se muestra a modo de resumen la base de datos química
utilizada en el trabajo, las propiedades modeladas, el tipo de estudio realizado.
Tabla 2. Bases de Datos químicas utilizadas en el trabajo.
Nombre Cantidad de Moléculas Propiedad/Actividad Tipo de Estudio
Saponinas log P
110 QSPR
Esteroidales
22
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN
23
CAPÍTULO 3: RESULTADOS Y DISCUSIÓN
3.1. Implementación en FORTRAN 90 de un software capaz de calcular los
GDIs.
Las fórmulas de derivadas discretas presentadas anteriormente han sido
implementadas en el software DIVATI, desarrollado en JAVA, que es
multiplataforma y posee código libre, lo que permite su uso en posteriores
desarrollos de software para el cálculo de DMs. En el grupo de investigación se
diseñó y aplicó una metodología para realizar una validación exhaustiva de los
nuevos DMs implementados en el programa DIVATI.
Metodología General de Validación:
 Construir un modelo determinado por un suceso previamente fijado.
 Hallar la matriz de frecuencia de relaciones correspondiente al modelo.
 Calcular los pesos de los átomos, ponderados con determinadas propiedades
(también se usó la opción de no ponderar).
 Calcular los valores de derivada, sobre los pares elementos (átomos) del grafo
(molécula).
 Cálculo de los LOVIs y algunas invariantes totales y locales.
Esta metodología es la filosofía de trabajo que se siguió para la construcción del
algoritmo en FORTRAN 90 para el cálculo de los GDIs que se muestra a
continuación:
24
------------------------------------------------------------------------------------------------------------
program Ratify_GDIs print*,'"Y si alguno se imagina end do
que sabe algo, aun no sabe nada
implicit none como debe saberlo."' deallocate(Q)
integer::atomos, i, j, contador, print*," deallocate(Qt)

maximonumerodeposibilidadesp 1 Co 8:2"
araordenuno, enlace, m, print*, "Indices de la derivada del
algoritmo read*, algoritmo grafo (GDIs):"
integer::filas, columnas, a, b, c select case (algoritmo) print*, "------------------------------

---------------------------------"
real::Jenssent, Joint, Mutual, case (1)
Conditional, Jenssenttotal, do i=1,columnas,1
Jointtotal, Conditionaltotal, print*, ""
do j=1,columnas,1
Mutualtotal
print*, "SUBGRAFOS
CONEXOS" if (i>=j) then
real::JE, JO, MU, CO
print*,"Es necesario ingresar la cycle
integer,dimension(:,:),
allocatable::prematrizQdeMultip matriz Q"
else
licidad, Q, Qt, F
print*, "Ingrese el numero de
a=F(i,i)
integer,dimension(:,:), columnas de la matriz Q"
allocatable::matrizQdeMultiplici b=F(i,j)
read*, columnas
dad, matrizQtdeMultiplicidad,
matrizFdeMultiplicidad c=F(j,j)
print*, "Ingrese el numero de filas
de la matriz Q" if (b==0) then
print*,"Autor: Osvaldo Delgado
Glez MIQ I curso: read*, filas
2016-2017" cycle
allocate(Q(filas,columnas)) end if
print*,"Tutores: Msc. Carolina
Aguiar Punhal" print*, "Inserte el elemento de call
la:" calculo(a,b,c,Jenssent,Mutual,Joi
print*," Lic. Raul T. Pareja
Rodriguez" nt,Conditional,i,j)
do i=1,filas,1
print*,"Este programa esta end if
do j=1,columnas,1
disenhado para calcular los end do
diferentes GDIs (Jenssent," print*, "fila",i,"columna",j
end do
print*,"Mutual, Joint y read*, Q(i,j)
Conditional) y la invariante local do i=1,columnas,1
del vertice de cada atomo." end do
do j=1,columnas,1
print*,"" end do
if (i/=j)then
do !insertar la matriz
a=F(i,i)
print*, "Seleccione el evento al allocate(Qt(columnas,filas))
cual le quiere calcular los GDIs:" b=F(i,j)
Qt=transpose(Q)
print*, " 1 Subgrafos c=F(j,j)
allocate(F(columnas,columnas))
conexos"
if (b==0) then
F=matmul(Qt,Q)
print*, " 2 Multiplicidad"
cycle
print*, "La matriz de frecuencia
print*, " 3 Salir" es:(F=Qt*Q)" end if
print*, "" do i=1,columnas,1 call calculototal
(a,b,c,Jenssenttotal,Mutualtotal,J
print*, (F(i,j), j=1,columnas,1)
ointtotal,Conditionaltotal)
25
else print*,"------------------------------- maximonumerodeposibilidadesp
----------------------------------" araordenuno=0
cycle
print*,"///////////////////////////////////// do i=1,atomos,1
end if ////////////////////////////"
maximonumerodeposibilidadesp
end do print*,"------------------------------- araordenuno =
----------------------------------" maximonumerodeposibilidadesp
call sumatoria_de_los_LOVIs
araordenuno + i
(Jenssenttotal, Jointtotal, case (2)
Mutualtotal, Conditionaltotal, JE, end do
JO, MU, CO) print*, ""
maximonumerodeposibilidadesp
print*,"El invariante local del print*, "MULTIPLICIDAD" araordenuno =
vertice",i,"es:" maximonumerodeposibilidadesp
!---------------------------------------
araordenuno - atomos
print*, "Invariante --------------------------------
Jenssent:",Jenssenttotal allocate
print*,"La matriz Q de
(prematrizQdeMultiplicidad
print*, "Invariante Multiplicidad es una matriz que
(maximonumerodeposibilidades
Mutual:",Mutualtotal se construye a partir del orden"
paraordenuno, atomos))
print*, "Invariante Joint:", print*,"1 de la fragmentacion de
do i=1,atomos,1
Jointtotal las moléculas (suceso subgrafos
conexos) (filas) y el orden 0 de do j=1,atomos,1
print*, "Invariante dicha fragmentacion (columnas)"
Conditional:",Conditionaltotal if (i<j) then
print*,""
Jenssenttotal=0 print*,"atomo",i,"y el atomo",j
print*, "Se sugiere pintar la
Mutualtotal=0 molecula en forma de grafo read*, enlace
enumerando los atomos"
Jointtotal=0 select case(enlace)
print*,"¿Cuantos atomos tiene la
Conditionaltotal=0 case(0)
molecula?"
print*,"///////////////////////////////////// cycle
read*, atomos
//////////////////////////"
do while(atomos<=0) case(1)
end do
print*,"Valor invalido" contador=contador+1
print*,"-------------------------------
--------------------------------" print*,"¿Cuantos atomos tiene la do m=1,atomos,1
molecula?"
print*, "La sumatoria de los prematrizQdeMultiplicidad(cont
LOVIs Jenssent es:",JE read*, atomos ador,m)=0
print*, "La sumatoria de los end do end do

LOVIs Mutual es:",MU
print*,"El usuario indicara el prematrizQdeMultiplicidad(cont
print*, "La sumatoria de los enlace que se establece entre los ador,i)=1
LOVIs Joint es:",JO atomos especificados"
prematrizQdeMultiplicidad(cont
print*, "La sumatoria de los print*," 0 Si los atomos no ador,j)=1
LOVIs Conditional es:",CO estan enlazados"
case(2)
JE=0 print*," 1 Si es un simple
contador=contador+1
enlace"
JO=0
do m=1,atomos,1
print*," 2 Si es un doble
MU=0
enlace" prematrizQdeMultiplicidad(cont
CO=0 ador,m)=0
print*," 3 Si es un triple
deallocate (F) enlace" end do
print*, "" contador=0
26
prematrizQdeMultiplicidad(cont print*,"La matriz de frecuencia call calculo (a, b, c, Jenssent,
ador,i)=2 es:(F=Qt*Q)" Mutual, Joint, Conditional, i, j)
prematrizQdeMultiplicidad(cont print*,"------------------------------- end if

ador,j)=2 ---------------------------------"
end do
case(3) allocate
(matrizQtdeMultiplicidad end do
contador=contador+1 (atomos, contador))
do i=1,atomos,1
do m=1,atomos,1 matrizQtdeMultiplicidad
do j=1,atomos,1
=transpose
prematrizQdeMultiplicidad(cont
(matrizQdeMultiplicidad) if (i/=j)then
ador,m)=0
allocate (matrizFdeMultiplicidad a= matrizFdeMultiplicidad(i,i)
end do
(atomos, atomos))
prematrizQdeMultiplicidad(cont b= matrizFdeMultiplicidad(i,j)
matrizFdeMultiplicidad =matmul
ador,i)=3
(matrizQtdeMultiplicidad, c= matrizFdeMultiplicidad(j,j)
prematrizQdeMultiplicidad(cont matrizQdeMultiplicidad)
if (b==0) then
ador,j)=3
deallocate
(matrizQdeMultiplicidad, cycle
case default
matrizQtdeMultiplicidad)
end if
print*,"El valor ingresado es
invalido" do i=1,atomos,1
call calculototal (a, b, c,
print*, (matrizFdeMultiplicidad Jenssenttotal, Mutualtotal,
print*, "Favor, cierre el programa
(i,j), j=1,atomos,1) Jointtotal, Conditionaltotal)
y vuelva a su ejecucion"
end do else
end select
!--------------------------------------- cycle
end if
--------------------------------
end if
end do
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! end do
end do
print*, "Indices de la derivada del call sumatoria_de_los_LOVIs
allocate(matrizQdeMultiplicidad
grafo (GDIs):" (Jenssenttotal, Jointtotal,
(contador,atomos))
Mutualtotal, Conditionaltotal, JE,
do i=1,contador,1 print*, "------------------------------ JO, MU, CO)
---------------------------------"
do j=1,atomos,1 print*,"El invariante local del
do i=1,atomos,1 vertice",i,"es:"
matrizQdeMultiplicidad(i,j)=pre
matrizQdeMultiplicidad(i,j) do j=1,atomos,1 print*, "Invariante
Jenssent:",Jenssenttotal
end do if (i>=j) then
print*, "Invariante
end do cycle Mutual:",Mutualtotal
print*, "La matriz Q es:" else print*, "Invariante Joint:",

Jointtotal
print*,"------------------------------- a= matrizFdeMultiplicidad(i,i)
---------------------------------" print*, "Invariante
b= matrizFdeMultiplicidad(i,j) Conditional:",Conditionaltotal
do i=1,contador,1
c= matrizFdeMultiplicidad(j,j) Jenssenttotal=0
print*,
(matrizQdeMultiplicidad(i,j), if (b==0) then Mutualtotal=0
j=1,atomos,1)
cycle Jointtotal=0
end do
end if Conditionaltotal=0
27
print*, print*, "EXIT" subroutine calculototal(a, b, c,
"////////////////////////////////////////////// Jenssenttotal, Mutualtotal,
/////////////////" exit Jointtotal, Conditionaltotal)
end do case default implicit none
deallocate print*, "caso no valido" integer,intent(in)::a,b,c

(prematrizQdeMultiplicidad,matr
print*, "" real,intent(inout)::Jenssenttotal,
izFdeMultiplicidad)
Mutualtotal, Jointtotal,
end select
print*,"------------------------------- Conditionaltotal
--------------------------------" end do
Jenssenttotal=((a-
print*, "La sumatoria de los end program Ratify_GDIs 2*b+c)/b)+Jenssenttotal
LOVIs Jenssent es:",JE
subroutine calculo(a, b, c, Mutualtotal=b+Mutualtotal
print*, "La sumatoria de los Jenssent, Mutual, Joint,
LOVIs Mutual es:",MU Jointtotal=((a-b+c)/b)+Jointtotal
Conditional, i, j)
print*, "La sumatoria de los Conditionaltotal=((a-
implicit none
LOVIs Joint es:",JO b)/b)+Conditionaltotal
integer,intent(in)::a, b, c, i, j
print*, "La sumatoria de los end subroutine calculototal
LOVIs Conditional es:",CO real,intent(inout)::Jenssent,
subroutine
Mutual, Joint, Conditional
JE=0 sumatoria_de_los_LOVIs
Jenssent=(a-2*b+c)/b (Jenssenttotal, Jointtotal,
JO=0 Mutualtotal, Conditionaltotal, JE,
Mutual=b JO, MU, CO)
MU=0
Joint=(a-b+c)/b implicit none
CO=0
Conditional=(a-b)/b real,intent(in):: Jenssenttotal,
print*, "" Jointtotal, Mutualtotal,
print*, "Entre el atomo",i,"y el Conditionaltotal
print*,"------------------------------- atomo",j
----------------------------------" real,intent(inout)::JE, JO, MU,
print*, "Jenssent:",Jenssent CO
print*,"/////////////////////////////////////
////////////////////////////" print*, "Mutual:",Mutual JE=JE+Jenssenttotal
print*,"------------------------------- print*, "Joint:", Joint JO=JO+Jointtotal
----------------------------------"
print*, MU=MU+Mutualtotal
!Invariate local del vertice "Conditional:",Conditional
CO=CO+Conditionaltotal
!--------------------------------------- print*, "------------------------------
-------------------------------- ---------------------------------" end subroutine
sumatoria_de_los_LOVIs
case (3) end subroutine calculo
------------------------------------------------------------------------------------------------------------
Figura 3.1 Interfaz gráfica del software Ratify_GDIs.
28
Esta metodología y el propio algoritmo denominado: RATIFY GDIs constituyen un
aporte metodológico y práctico de este trabajo dado que puede ser empleada por
otros especialistas para realizar procesos similares a los que se describirán
posteriormente durante la validación de otros programas de cálculo de
descriptores moleculares.
Durante el proceso de validación se utilizó la molécula de 3-metil-2-butanona, la
cual tiene una estructura donde se aprecian: grupos metilos químicamente
equivalentes, instauraciones y átomos de carbonos ¨enterrados¨ en la estructura
los cual aporta mucho a la interpretación de los resultados de calcular los GDIs
para las diferentes formulaciones del trabajo.
Figura. 3.2. Molécula de 3-metil-2-butanona y Grafo molecular con H suprimidos.
El primer paso del algoritmo consiste en construir manualmente la matriz de
incidencia (Q) (ver epígrafe 1.2) según un suceso determinado, en este caso se
utilizó: MULTIPLICITY que consiste en fragmentar matemáticamente la molécula
en subgrafos de orden desde 1, teniendo en cuenta la multiplicidad de los enlaces,
esta matriz se introduce en el software Ratify-GDIs.
29
Mediante la función MATMUL (multiplicación de matrices en FORTRAN 90) se
encuentra la matriz de frecuencia F, a partir de la cual se calculan los GDIs propios
de aplicar cada una de las ecuaciones de definición, recogidas en la tabla 1.
De manera sencilla se puede resumir el algoritmo del software de validación como
se muestra en el esquema siguiente:
Los resultados de aplicar dicha metodología a la molécula anterior utilizando el
suceso de MULTIPLICITY y la comparación con los cálculos realizados con el
software DIVATI se muestran en la tabla, en la cual se calculan las Normas 1 de
cada descriptor.
Tabla 2. Comparación entre DIVATI vs Ratify GDIs.
Descriptor DIVATI Ratify GDIs
GDI (Jenssent) 32,00 32,00
GDI (Mutual) 16,00 16,00
GDI (Conditional) 16,00 16,00
GDI (Joint) 42,00 42,00
30
Puede apreciarse igualdad entre los resultados calculados por ambos métodos, lo
cual es un indicador de la correcta implementación matemática y computacional
de los GDIs.
3.2. Validación QSPR de los GDIs.
3.2.1. Modelación de propiedades químico-físicas con los GDIs.
En esta sección han sido desarrollados modelos QSPR (Quantitative Structure
Property Relationships) para modelar una propiedad químico-física de 110
estructuras derivadas de saponinas esteroidales, las cuales se conocen por su
probada actividad biológica (Marrero-Ponce et al., 2012). En el estudio se modela
el coeficiente de partición 1-octanol/agua, (log P), el cual está relacionado con la
medida de la lipofilidad de estas moléculas.
Se obtuvieron modelos de RLM con 7 variables para cada familia de descriptores
y se obtuvo un modelo final combinando todas las formulaciones para la propiedad
estudiada.
A continuación, se muestran de forma resumida en una tabla los parámetros
estadísticos de los modelos finales de RLM para los diferentes descriptores
inspirados en las entropías de información.
Tabla 2. Resumen de los Modelos log P.
Parámetros Estadísticos
Descriptor R2 q2loo q2boot s F
GDI (Unión) 97.45 97.02 96.85 0.2459 546.57
31
GDI (Mutual) 97.42 96.85 96.65 0.2452 549.87
GDI (Condicional) 96.98 96.48 96.25 0.2654 467.21
GDI (Jenssent) 96.74 96.14 95.90 0.2756 432.07
A partir del análisis de los parámetros estadísticos se observa que todos los
modelos muestran un elevado poder predictivo (q2loo> 96), altos valores de
coeficiente de determinación y bajos valores de error estándar estimado (s <
0,300) lo que demuestra la alta correlación con la propiedad modelada.
Además, los valores de q2boot están por encima del 95 %. Todos estos resultados
dan una medida de la robustez estadística de los modelos de RLM obtenidos a
partir del estudio computacional del conjunto de saponinas estudiado.
El modelo resultante de la combinación de los descriptores posee una alta
correlación con la propiedad modelada, es capaz de explicar el 97.72 % de la
varianza de la propiedad experimental, además de una elevada capacidad
predictiva (q2loo = 97.17), el error estándar es pequeño, lo que demuestra la poca
variación entre el valor experimental y el valor calculado por el modelo.
Se aprecia en el modelo (ecuación 7) la presencia de índices totales, lo cual es
lógico, pues la propiedad que se modela depende de las características
espaciales de la estructura molecular en todo su conjunto.
32
𝐷 𝐷
𝑊 𝑀−
𝑓
𝑇 𝑀−
𝑓 (7)
𝑙𝑜𝑔𝑃 = −2.139(±0.65) + 0.0001(±0)[𝐼𝑛 𝐺𝐼6 (𝑄3 )]𝑀 − 0.587(±0.044)[𝐼𝑛 𝐺𝐼2 (𝑀)]𝑀
𝐷 𝐷
𝑉2 𝑀− 𝑉1 𝑀−
𝑓 𝑓
− 0.00145(±0.00008)[ 𝐼𝑛 𝐼𝐵 (𝑄2 )]𝑀 + 0(±0)[ 𝐼𝑛 𝐸𝑆(𝐾)]𝑄
𝐷 𝐷
𝑉9 𝑀− 𝑃 𝑀−
𝑓 𝑓
+ 5.21(±0.325)[ 𝐼𝑛 𝑇𝑆8 (𝑃2 )]𝑄 − 0.0134(±0.00037)[𝐼𝑛 𝑇𝑆5 (𝑀𝑋)]𝐻
𝐷
𝐽−
𝑓
− 0.0185(±0.00016)[𝑉14/𝐼𝑛 𝐺𝐼7 (𝐾)]𝐵
R2=97.72 q2loo= 97.17 q2boot= 96.98 s= 0.2302 F= 625.65
La formulación que más entra en el modelo es la diferencia inspirada en la
entropía mutua, cuantificando el contenido de información estructural común
entre pares de átomos, además aparecen como sucesos (formas de
fragmentación molecular): quantum (Q) porque está basado en la eliminación de
la aristas que unen a los vértices vi y vj del grafo G, con reemplazamiento,
multiplicidad (M) porque este suceso se define a partir de la formación de los
subgrafos de tipo camino de orden 1 del grafo simple derivado de la molécula
examinada, o sea, tomando como colección de condiciones las aristas del grafo,
subestructuras (B) porque supone estructuras representativas para
prácticamente todos los grupos funcionales orgánicos que están presentes en
las estructuras modeladas y subgrafos de Sach (H) porque fragmenta las
estructuras a partir de considerar subgrafos aislados interconectados por una
arista y ciclos, lo cual está presente en todas las moléculas pertenecientes a esta
data.
A continuación, se muestran los gráficos de correlación y predicción
respectivamente para el modelo combinado en la figura 11.
33
Figura 3.3 Gráficos de predicción y correlación para el modelo combinado de log P.
A partir del análisis del gráfico de predicción se aprecia claramente la alta
capacidad predictiva del modelo, coincidiendo las predicciones para la mayoría
de las moléculas,(ambas curvas se solapan en prácticamente todas las
estructuras, la gris representa los valores de log P para cada molécula y la
azul representa los valores predichos por el modelo), el gráfico de regresión,
muestra la elevada correlación entre la propiedad modelada y la predicha por el
modelo, lo cual da una medida de la posibilidad de aplicación de estos en la
predicción de liposolubilidad.
Mediante la realización de este estudio QSPR se obtuvieron modelos de RLM que
correlacionaron favorablemente con la propiedad modelada, ya que se escogió
una propiedad químico-física la cual tienen una importante relación con la
estructura espacial de la molécula y su desempeño como sustancia
biológicamente activa. Este modelo debe presentar la capacidad de predecir
actividad antinflamatoria de las saponinas esteroidales en posteriores estudios.
34
Conclusiones:
 Se implementó un software en FORTRAN 90 que permite validar los GDIs.
 Se comprobó la correcta implementación computacional de los GDIs en el
software DIVATI.
 El estudio QSPR realizado arrojó modelos de regresión lineal múltiple que
correlacionaron satisfactoriamente con una propiedad químico-física.
Recomendaciones:
 Realizar nuevos estudios QSPR comparativos que permitan continuar la
validación computacional del software DIVATI.
35
REFERENCIAS BIBLIOGRÁFICAS:
 BARIGYE, S. J., MARRERO-PONCE, Y., LÓPEZ, Y. M., SANTIAGO, O. M., TORRENS, F.,
DOMENECH, R. G. & GALVEZ, J. 2013a. Event-based criteria in GT-STAF information indices:
theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in Environmental
Research, 24, 3-34.
 BARIGYE, S. J., MARRERO-PONCE, Y., MARTÍNEZ-LÓPEZ, Y., ARTILES MARTÍNEZ, L. M.,
PINO-URIAS, R. W., MARTÍNEZ-SANTIAGO, O. & TORRENS, F. 2013b. Relations Frequency
Hypermatrices in Mutual, Conditional and Joint Entropy-Based Information Indices. J Comput.
Chem., 34, 259-274.
 BARIGYE, S. J., MARRERO-PONCE, Y., PÉREZ-GIMÉNEZ, F. & BONCHEV, D. 2014. Trends in
Information Theory Based Chemical Structure Codification. Mol. Divers., 1-14.
 BARIGYE, S. J., MARRERO-PONCE, Y., SANTIAGO, O. M., LÓPEZ, Y. M., PÉREZ-GIMÉNEZ, F.
& TORRENS, F. 2013c. Shannon’s, Mutual, Conditional and Joint Entropy Information Indices:
Generalization of Global Indices Defined from Local Vertex Invariants. Current Computer-Aided Drug
Design, 9(2), 164-183.
 BASILEVSKY, A. 1994. Statistical Factor Analysis and Related Methods. Wiley: New York (NY).
 BRERETON, R. G. 1990. Chemometrics, Ellis Horwood, Chichester, UK,.
 COCKETT, M. & DOGGETT, G. 2003. Maths for Chemists, Royal Society of Chemistry, Thomas
Graham House, Science Park, Milton Road, Cambridge CB4 OWF, UK.
 DEVILLERS, J. & BALABAN, A. 1999a. Topological Indices and Related Descriptors in QSAR and
QSPR. Amsterdam: Gordon and Breach.
 DEVILLERS, J. & BALABAN, A. T. 1999b. Topological Indices and Related Descriptors in QSAR and
QSPR. Gordon and Breach: Amsterdam, the Netherlands.
 GORBÁTOV, V. A. 1988. Fundamentos de la Matemática Discreta, Moscú, URSS: Mir.
 MARRERO-PONCE, Y., MARTÍNEZ-SANTIAGO, O., LÓPEZ, Y. M. & S. J. BARIGYE, F. T. 2012.
Derivatives in discrete mathematics: a novel graph-theoretical invariant for generating new 2/3D
molecular descriptors I. Theory and QSPR application. J Comput Aided Mol Des, 26, 1907.
 MARRERO-PONCE, Y., MARTÍNEZ LÓPEZ, Y., MARTÍNEZ SANTIAGO, O. & BARIGYE, S. J.
2013. TOMOCOMD-CARDD-DIVATI. 1.0 ed. Unit of Computer-Aided Molecular “Biosilico” Discovery
and Bioinformatic Research (CAMD-BIR Unit): Santa Clara, Cuba.
36
 MARRERO-PONCE, Y., TORRENS, F., ALVARADO, Y. J. & ROTONDO, R. 2006. J. Comput. Aided
Mol. Des., 20, 685.
 MARTÍNEZ-SANTIAGO, O., MILLÁN-CABRERA, R., MARRERO-PONCE, Y., BARIGYE, S. J.,
MARTÍNEZ-LÓPEZ, Y., TORRENS, F. & PÉREZ-GIMÉNEZ, F. 2014. Discrete Derivatives for Atom-
Pairs as a Novel Graph-Theoretical Invariant for Generating New Molecular Descriptors:
Orthogonality, Interpretation and QSARs/QSPRs on Benchmark Databases. J. Molecular Informatics
33.
 MARTÍNEZ SANTIAGO, O., MARRERO PONCE, Y., MILLÁN CABRERA, R., BARIGYE, S. J.,
MARTÍNEZ LÓPEZ, Y., ARTILES MARTÍNEZ, L. M., GUERRA DE LEÓN, J. O. & PÉREZ GIMÉNEZ,
F. Extending Graph Derivative Descriptors to N-Dimensional Atom-Relations. MATCH (Commun.
Math. Chem.), accepted for publications.
 RANDIC, M. 1998. Encyclopedia of Computational Chemistry. John Wiley & Sons: New York.
 RÜCKER, C., RÜCKER, G. & MERINGER, M. 2007. y-randomization and its variants in
QSPR/QSAR. J. Chem. Inf. Model., 47, 2345–2357.
 STAT SOFT, I. 2007. STATISTICA. 8.0 ed.
 TODESCHINI, R., BALLABIO, D., CONSONNI, V., MAURI, A. & PAVAN, M. 2004. MobyDigs.
Version 1.0, TALETE srl ed.
 TODESCHINI, R. & CONSONNI, V. 2009. Molecular Descriptors for Chemoinformatics, wiley-VCH.
 VAN DE WATERBEEMD, H. 1995. Chemometric Methods in Molecular Design (Methods and
Principles in Medicinal Chemistry). John Wiley & Sons: New York.
 WEHRENS, R., PUTTER, H. & BUYDENS, L. 2000. The bootstrap: a tutorial. Chemom. Intell. Lab.
Syst., 54, 35–52.
 WOLD, S. & ERIKSON, L. 1995. In Chemometric Methods in Molecular Design. van de Waterbeemd,
H., Ed.; VCH Publishers: Weinheim, Germany.
37

Trabajo Final MIQ I Osvaldo

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo Final MIQ I Osvaldo

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS

Validación de los Nuevos Índices de

Derivada del Grafo.

Autor: Osvaldo Delgado González.

Tutor: Lic. Raúl T. Pareja Rodríguez.

En el presente trabajo se ha validado una nueva familia de descriptores

y Teoría de Información. Estos descriptores (GDIs) han sido implementados

computacionalmente en un programa interactivo desarrollado en el lenguaje de

programación JAVA, el software DIVATI. La implementación de estos descriptores

fue validada computacionalmente, mediante la implementación de un software en

FORTRAN 90, se comprobaron los resultados empleando para ello la molécula

de 3-metil-2-butanona. El proceso de validación arrojó buenos resultados para la

implementación de los GDIs basados en el cálculo de las derivadas inspiradas en

las distintas entropías de información. También se validaron los nuevos

descriptores mediante un estudio QSPR-comparativo, para ello se usó una data

de 110 saponinas esteroidales. Se demostró, la aplicabilidad de los GDIs en la

modelación del logaritmo de partición 1-octanol/agua. Los modelos obtenidos con

el software MobyDigs correlacionaron de satisfactoriamente con la propiedad

modelada. Este trabajo demuestra la seguridad de aplicar los GDIs al estudio de

propiedades químico-físicas de sustancias orgánicas.

validated. These descriptors (GDIs) have been implemented computationally in an

interactive program developed in the JAVA programming language, DIVATI

software. The implementation of these descriptors was validated computationally,

implementation of the GDIs based on the calculation of the derivatives inspired by

using a QSPR-comparative study, using a data of 110 steroidal saponins. It was

demonstrated, the applicability of the GDIs in the modeling of the logarithm of

Las propiedades químicas, químico-físicas y biológicas de los compuestos

descrita usando diferentes métodos y estrategias matemáticas. Al resultado final

de estos procedimientos matemáticos que transforman la información estructural

(codificada en una representación simbólica de la molécula) en un número (o

conjunto de números) se les conoce como descriptores moleculares (DMs)

pueden ser relacionados estadísticamente con determinadas propiedades (o

procedimientos químico-matemáticos (Cockett and Doggett, 2003). Dependiendo

de esto, algunos descriptores pueden tener en cuenta rasgos topológicos (2D),

más “información” de propiedades químico-físicas que de los rasgos estructurales

de la molécula. Estos incluyen los basados en la determinación experimental de

propiedades químico-físicas, tales como la mayoría de las constantes de los

sustituyentes, hidrofóbicas, electrónicas y estéricas (Todeschini and Consonni,

2009). En contraste, los llamados índices topológicos (ITs) tienen en cuenta la

información estructural, contenida en una representación bidimensional de las

moléculas (generalmente el grafo molecular con los átomos de hidrógenos

suprimidos) sin considerar ningún rasgo físico-químico de las moléculas (Devillers

farmacéuticos, siendo probablemente el diseño/descubrimiento de nuevos

compuestos bioactivos, una de las áreas más activas de investigación donde se

aplican estos descriptores a problemas biológicos (Martínez-Santiago et al.,

2014). Recientemente se ha definido una nueva familia de descriptores

moleculares basados en la derivada del grafo molecular (GDI) e Índices de

Información (IFI)(Barigye et al., 2013c, Marrero-Ponce et al., 2012). Esta nueva

familia de descriptores (GDIs) emplea la matriz de incidencia (no cuadrada y

asimétrica) y cuenta con una definición local (sobre átomos o agrupaciones de

átomos).Estos GDIs se calculan utilizando un software implementado en JAVA

conocido como DIVATI (Acrónimo DIscrete DeriVAtive Type Indices), un nuevo

módulo del programa TOMOCOMD-CARDD 1.0 (acrónimo de TOpological

MOlecular COMputer Design Computed-Aided ‘Rational’ Drug Design) con el que

se puede calcular de forma automatizada los valores GDIs de estructuras

extendidos a otros estudios bioinformáticos y quimioinformáticos, es necesario

que estén debidamente validados operacional y computacionalmente.

No se cuenta en el grupo de Investigación CAMDBIR UNIT con un software libre

capaz de validar computacionalmente los GDIs implementados en el software

¿Cómo realizar una validación de los GDIs implementados en el software DIVATI?

Es posible aplicar un conjunto de métodos [de programación en Fortran 90 y

 Implementar un software en FORTRAN 90 que permita calcular los GDIs

 Aplicar los GDIs al diseño molecular mediante la realización de un estudio

QSPR-comparativo que permita complementar la validación de los GDIs.