Documentos de Académico
Documentos de Profesional
Documentos de Cultura
https://doi.org/10.1186/s12859-021-03994-z
* Correspondencia:
hmaruen@pucp.edu.pe Resumen
Departamento de
Fondo: El análisis de redes de correlación se ha convertido en una herramienta integral para estudiar
Ciencias - Química, Centro
de Espectroscopia de conjuntos de datos de metabolitos. Las redes se construyen omitiendo las correlaciones entre
Resonancia Magnética metabolitos basadas en dos umbrales, a saber, elr y el asociado pag-valores. Tiempo
Nuclear (CERMN), Pontificia
pag-La configuración del umbral de valor sigue las reglas de la corrección de pruebas de hipótesis
Universidad Católica del Perú,
Av. Universitaria 1801, Lima múltiples, las pautas para r-no se han definido los ajustes de umbral de valor.
32, Lima, Perú
Resultados: A continuación, presentamos un método que permite determinar la r-umbral de
valor basado en un enfoque iterativo, donde se construyen diferentes redes y se monitorea su
topología de red. Una vez que la topología de la red cambia significativamente, el umbral se
establece en el valor del coeficiente de correlación correspondiente. El enfoque se ejemplificó
en: (i) un conjunto de datos de metabolitos y rasgos morfológicos de un panel de asociación de
papa, que se cultivó en condiciones normales de riego y recuperación de agua; y validado (ii) en
un conjunto de datos de metabolitos de corazones de ratones alimentados y en ayunas. Para la
red de correlación de riego normal de papa, un umbral dePearson | r |≥Se sugirió 0,23,
mientras que para la red de correlación de recuperación de agua un umbral de Pearson
|r |≥Se estimó 0,41. Para ambas redes de ratones, el umbral se calculó con
Pearson | r |≥0,84.
Conclusiones: Nuestro análisis corrigió lo anteriormente indicado Pearson umbral del coeficiente
de correlación de 0,4 a 0,41 en la red de recuperación de agua y de 0,4 a 0,23 para la red de riego
normal. Además, el método propuesto sugirió un umbral de correlación de 0,84 para ambas redes
de ratones en lugar de un umbral de 0,7 como se aplicó anteriormente. Demostramos que el
enfoque propuesto es una herramienta valiosa para construir redes biológicas significativas.
© El autor (es) 2021. Acceso abiertoEste artículo tiene la licencia de Creative Commons Attribution 4.0 International License, que permite el uso, el
intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que otorgue el crédito apropiado a los autores
originales y la fuente, enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo
están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito del material. Si el material no
está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá
obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visitehttp: // creativecommons.org/licenses/by/
4.0/. La exención de dedicación de dominio público de Creative Commons (http://creativecommons.org/publi cdomain / zero / 1.0 /) se aplica a los datos
disponibles en este artículo, a menos que se indique lo contrario en una línea de crédito a los datos.
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 2 de 14
Fondo
El análisis de redes basado en correlación (CNA) se ha convertido en una herramienta integral para
estudiar el comportamiento coordinado de los perfiles de metabolitos en las ciencias de las plantas.
Las redes de correlación de metabolitos (CN) se construyen correlacionando cada dos pares de
metabolitos en un conjunto de condiciones diferentes o explotando la variabilidad natural del mapeo
de poblaciones o colección de variedades, ya que proporcionan un gran tamaño de muestra que
estabiliza la correlación y reduce la tasa de error. por ejemplo, en una población de mapeo de líneas
de introgresión de tomate [1, 2], una colección variada de vinos espumosos [3], una colección diversa
de Arabidopsis adhesiones [4], y un panel de la asociación de maíz [5]. El comportamiento coordinado
de los metabolitos en diversas variedades da una idea de sus comunalidades genéticas. Cada
correlación por pares está representada por un coeficiente de correlaciónr que van de -1 a 1. Además,
la importancia de cada correlación se evalúa calculando un pag-valor que varía de 0 a 1. En un
metabolito CN, los nodos representan metabolitos y los bordes entre ellos representan los
coeficientes de correlación estimados.
Para construir CN de metabolitos, se aplican restricciones de umbral a los coeficientes de
correlación y sus asociados. pag-valores para identificar correlaciones espurias entre metabolitos.
Posteriormente, las correlaciones o bordes no significativos, respectivamente, se eliminan de la red.
Configuración de umbral para el asociadopag-los valores siguen las reglas de prueba de hipótesis
múltiples, como una tasa de descubrimiento falso (FDR) [6]. Sin embargo, las pautas para la
configuración del umbral del coeficiente de correlación aún no se han definido bien.
Idealmente, los bordes entre los nodos en un CN reflejan los flujos metabólicos a través de una vía
metabólica. Sin embargo, la relación entre las vías metabólicas y las correlaciones entre los
metabolitos no es sencilla. Factores como las fluctuaciones a corto plazo causadas por la variabilidad
de la planta o el ruido interno pueden generar correlaciones débiles. También deben tenerse en
cuenta los cambios sistemáticos del estado estacionario, así como los aspectos de la organización
celular. Además, la participación de los metabolitos en múltiples vías y su extensa diafonía interna,
dificulta la afiliación clara de los metabolitos a las vías metabólicas en los CN. Por lo tanto, el umbral
del coeficiente de correlación no se puede establecer universalmente y, en cambio, debe ajustarse al
sistema de estudio para extraer datos biológicos significativos [7]. Como resultado, diferentes
estudios han aplicado diferentes configuraciones de umbral selectivo, por ejemplo, Hu et al.
construyó CN de metabolitos para la osteoartritis y controló a los pacientes para identificar
correlaciones significativamente cambiantes entre las redes [8]. Allí, los autores establecen un umbral
para los bordes basados en elpag-valor solamente. A través del análisis topológico de la red de
diferencia, lograron resaltar los metabolitos clave que jugaron un papel importante en el gobierno de
la conectividad y el flujo de información de la red. En [9] los autores utilizaron un umbral de
coeficiente de correlación moderado de 0,6 que les permitió identificar genes que afectan a los
aminoácidos libres. En [10] se aplicó un umbral de 0,7 para resaltar las diferencias entre las redes de
metabolitos de ratones alimentados y en ayunas. Una vez más en [11] se empleó un riguroso umbral
de coeficiente de correlación de 0,8 identificando patrones metabólicos para la tolerancia a la
congelación en dos Brachypodium Sylvaticum ecotipos. La selección del umbral del coeficiente de
correlación, que permite una interpretación biológica significativa, depende de la topología de la red
más que de la fuerza del propio coeficiente de correlación. Dicho esto, las propiedades de la red
asociadas con la conectividad del nodo se alteran (o mejor dicho, dejan de alterar) una vez que se ha
alcanzado un cierto umbral. En otras palabras, la selección del umbral del coeficiente de correlación
depende de la
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 3 de 14
Resultados
Redes iniciales
Definimos las NI y REC-CN como redes ponderadas yo = (VI, miI, w), dónde I fue el conjunto de
nodos correspondientes a metabolitos y rasgos morfológicos encontrados en los datos-
conjunto de tratamiento I , mi era el conjunto de bordes entre ellos y los pesos de los bordes (: mi → R)
correspondía a la Pearson coeficiente de correlación. Los umbrales para ambas redes se establecieron
enPearson | r |≥0.4 y una q-valor≤0,05, eliminando las correlaciones falsas. En estos
ajustes, el NI-CN había VNI | =88 nodos y miNI | =438 bordes que los conectan; el REC-CN
estaba compuesto porVREC | =90 nodos y miREC | =370 bordes. La conexión entre el ácido
fumárico y el vigor de la planta estuvo presente en el REC-CN pero no en el NI-CN, ya que
los coeficientes de correlación correspondientes se calcularon con 0.458 y 0.013,
respectivamente.
coeficiente de correlación y rango pag-valores de 0,05 a 0,01. Una vez que el número de bordes
comienza a descender a un cierto coeficiente de correlación, el umbral se establece en este valor.
Probamos los cambios significativos en el número de bordes estimando los intervalos de confianza
(IC) al 95% empleando el método de Cox modificado [19] asumiendo distribuciones no normales, tales
que:
El ajuste fino calcula los umbrales del coeficiente de correlación con 0,23 y 0,41
A continuación, investigamos los naftalenos clorados en diferentes r-valores en el rango de 0.2 a 0.3
para el NI-CN y en el rango de 0.4 a 0.5 para el REC-CN (Fig. 2). Como antes, elr valor umbral
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 5 de 14
600
400
400
200
200
0
0
1000
1000
800
800
número de borde
número de borde
600
600
400
400
200
200
0
0
valor p valor r
Figura 1 Distribución de números de borde de redes NI y REC, r =1 a 0. Los gráficos en el lado izquierdo de la figura ilustran
histogramas del número de borde en el NI y REC-CN en diferentes r-valor para pag-combinaciones de valores, en
r =1 a 0 con decrementos de 0,1. Los gráficos del lado derecho de la figura muestran los diagramas de caja correspondientes, donde las líneas
centrales representan la media; los límites de las cajas representan el error estándar superior e inferior; los bigotes representan intervalos de
confianza del 95% calculados por la prueba de Cox modificada. Las líneas verticales grises separan los coeficientes de correlación, las líneas
verticales discontinuas rojas representan el intervalo de umbral del coeficiente de correlación propuesto, las líneas horizontales azules representan
el número de borde medio en el que se establece el umbral;a Histograma de números de borde de NI-CN, B Diagrama de caja del número de borde
de NI-CN, C Histograma de número de borde REC-CN, D Diagrama de caja de número de borde REC-CN
fue definido como el r-valor cuando el número de borde mínimo o máximo se encuentra
fuera de los límites del CI correspondiente. Este comportamiento ocurrió para el NI-CN en
un umbral de coeficiente de correlaciónPearson | r |≥0,23. Aquí, el número de bordes
osciló entre 850 y 853, la media se calculó con 851,8, el límite inferior del IC se calculó con
850,18 y el límite superior del IC con 853,42 (fig.2). Para el REC-CN este comportamiento
se observó enPearson | r |≥0,41. En estor-valor, el número de borde osciló entre 354 y
359, la media se calculó con 357, el límite superior de IC con 359,65 y el límite inferior de
IC con 354,37. En consecuencia, elr-El umbral de valor para el NI-CN se propuso con 0,23 y
para el REC-CN con 0,41.
Para verificar la configuración del umbral del coeficiente de correlación propuesto, empleamos
el boot-strapping con reemplazo; de modo que se generaron 100 NI y REC-CN con el 80% de las
muestras seleccionadas al azar, donde una muestra podría ser parte del subconjunto de
muestras más de una vez. Al realizar este análisis, queríamos validar si el umbral estimado se
debió al azar o, de hecho, al resultado de la topología de la red en el umbral propuesto, incluso
con un conjunto reducido de muestras (80%). Como antes, el análisis se dividió en dos ciclos.
Para el primer ciclo, los números de borde de todas las redes fueron
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 6 de 14
a valor r
B
0,3 0,29 0,28 0,27 0,26 0,25 0,24 0,23 0,22 0,21 0,2
1000
1000
800
800
número de borde
número de borde
400 600
400 600
200
200
0
0
0,3 0,29 0,28 0,27 0,26 0,25 0,24 0,23 0,22 0,21 0,2
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
valor p valor r
C valor r
D
0,5 0,49 0,48 0,47 0,46 0,45 0,44 0,43 0,42 0,41 0.4
400
400
300
300
número de borde
número de borde
200
200
100
100
0
0
0,5 0,49 0,48 0,47 0,46 0,45 0,44 0,43 0,42 0,41 0.4
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
valor p valor r
Figura 2 Distribución de números de borde de redes NI y REC, r =0,3 a 0,2 y 0,5 a 0,4. Los gráficos en el lado izquierdo de la figura ilustran
histogramas del número de borde en el NI y REC-CN en diferentesr-valor para pag-combinaciones de valores, en r =0.3 a 0.2 y 0.5 a 0.4 con
decrementos de 0.01, respectivamente. Los gráficos del lado derecho de la figura muestran los diagramas de caja correspondientes, donde las
líneas centrales representan la media; los límites de los recuadros representan el error estándar superior e inferior; los bigotes representan
intervalos de confianza del 95% calculados por la prueba de Cox modificada. Las líneas verticales grises separan los coeficientes de correlación, las
líneas verticales discontinuas rojas representan el intervalo de umbral del coeficiente de correlación propuesto, las líneas horizontales azules
representan el número de borde medio en el que se establece el umbral;a Histograma de números de borde de NI-CN, B Diagrama de caja del
número de borde de NI-CN, C Histograma de número de borde REC-CN, D Diagrama de caja de número de borde REC-CN
a B
1000
600 800 1000 1200 1400
800
número de borde
número de borde
400 600
400
200
200
0
0
1 0,9 0,8 0,7 0,6 0,5 0.4 0,3 0,2 0,1 0 0,3 0,29 0,28 0,27 0,26 0,25 0,24 0,23 0,22 0,21 0,2
C valor r
D valor r
500
1000
400
800
número de borde
número de borde
600
200 300
400
100
200
0
0
1 0,9 0,8 0,7 0,6 0,5 0.4 0,3 0,2 0,1 0 0,5 0,49 0,48 0,47 0,46 0,45 0,44 0,43 0,42 0,41 0.4
valor r valor r
Fig. 3 Distribución de números de borde de redes NI y REC bootstrapped, r =1 a 0. a Diagrama de caja de números de borde de
NI-CN del análisis de arranque en diferentes r-valores, en r =1 a 0 con decrementos de 0,1. B Diagrama de caja de números de
borde de NI-CN del análisis de arranque en diferentes r-valores, en r =0.3 a 0.2 con decrementos de 0.01. C
Gráfico de caja del número de borde de REC-CN del análisis de arranque en diferentes r-valores, en r =1 a 0 con decrementos de 0,1. D Gráfico de
caja del número de borde de REC-CN del análisis de arranque en diferentes r-valores, en r =0,5 a 0,4 con decrementos de 0,01. En los diagramas
de caja, las líneas centrales representan la mediana; los límites de los recuadros representan los cuartiles superior e inferior; los bigotes
representan 1,5×rango intercuartil. El bootstrapping se ejecutó 100 veces y el 80% de las muestras permitió el reemplazo. Las líneas verticales
grises separan los coeficientes de correlación, las líneas verticales discontinuas rojas representan el intervalo de umbral del coeficiente de
correlación propuesto
con 421 (rango 84). Además, el diagrama de caja reveló un aumento de los IC, indicativo de
mayores errores estándar atribuidos al aumento de los números de los bordes en los
coeficientes de correlación más bajos. Estos hallazgos subrayaron la presuposición original de
un ajuste de umbral de coeficiente de correlación dePearson | r |≥0,23 en el NI-CN y Pearson
|r |≥0,41 en el REC-CN.
A continuación, usamos los CN de arranque y calculamos el IC para cada coeficiente de
correlación en variaciones pag-valores empleando la prueba de Cox modificada (Fig. 4). Para el
primer ciclo, 1% (empíricop =0,99) de todos los NI-CN en un r-valor de 0.4 (Fig. 5a) revelaron
números de bordes mínimos o máximos más allá de su CI estimado (Fig. 4a); ar =0,3, el número
se elevó a 54%, equivalente a un empírico pag-valor de 0,46. Ar =0.2, todas las redes mostraron
tener números de borde mínimo o máximo más allá de su CI estimado (empírico p <0,01).
Durante el segundo ciclo, inspeccionamos en particular los
r-valor de 0.23, revelando que el 98% (valor p empírico 0.02) de todas las redes tenían números
de borde mínimo o máximo más allá de su CI estimado (Fig. 4b) Para los REC-CN con correas de
arranque, los números de borde cambiantes significativos como sugirió el CI comenzaron a
ocurrir en r =0,5 (Fig. 4C). Aquí, el 21% de los NC mostró cambios significativos (empíricosp =
0,79); ar =0,4, el 93% de todos los REC-CN presentaron cambios significativos (empíricos
p =0.07), y en r =0,3, todas las redes (empírica p <0.01) tenían números de aristas significativamente
cambiantes. Para el segundo ciclo, investigamos el número de CN de arranque
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 8 de 14
a B
100
100
95
80
90
cambio %
cambio %
60
85
40
80
75
20
70
0
0,1
0,29
0,28
0,27
0,26
0,25
0,24
0,23
0,22
0,21
0,9
0,8
0,7
0,6
0,5
0.4
0,3
0,2
0,2
1
0
C valor r
D valor r
100
100
80
80
cambio %
cambio %
60
60
40
40
20
20
0
0
0,1
0,49
0,48
0,47
0,46
0,45
0,44
0,43
0,42
0,41
0,9
0,8
0,7
0,6
0,5
0.4
0,3
0,2
0.4
1
valor r valor r
Figura 4 Número relativo de NI y REC-CN bootstrap que cambian significativamente. La figura ilustra el número
relativo de números de borde que cambian significativamente en los CN de arranque.a Cambio relativo de NI-CN en el
número de borde basado en análisis de arranque en diferentes r-valores, en r =1 a 0 con decrementos de 0,1. B
NI- cambio relativo en el número de aristas basado en el análisis bootstrapping análisis bootstrapping en diferentes
r-valores, en r =0.3 a 0.2 con decrementos de 0.01. C El cambio relativo de REC-CN en el número de borde basado en el análisis de
arranque en diferentes r-valores, en r =1 a 0 con decrementos de 0,1 D El cambio relativo de REC-CN en el número de borde basado
en el análisis de arranque en diferentes r-valores, en r =0,5 a 0,4 con decrementos de 0,01. El intervalo de confianza se estimó
mediante la prueba de Cox modificada a diferentesr-valor para pag-combinaciones de valores (consulte el texto principal para
obtener más detalles). El bootstrapping se ejecutó 100 veces y el 80% de las muestras permitió el reemplazo. Las líneas verticales
grises separan los coeficientes de correlación, las líneas verticales discontinuas rojas representan el intervalo de umbral del
coeficiente de correlación propuesto.a NI-CN Bootstrapped en r =1 a 0 con decrementos de 0,1; B REC-CN con bootstrapped en r =1
a 0 con decrementos de 0,1; C REC-CN con bootstrapped en r =0,5 a 0,4 con decrementos de 0,01
asociado con el límite propuesto r-valor de 0,41. A este valor, el 90% de todas las redes
revelaron tener números de borde significativamente cambiantes, lo que equivale a una
pag-valor de 0,1. Al establecer elpag-umbral de corte de valor a≤0.1 el análisis bootstrapping
confirmó el umbral propuesto del coeficiente de correlación NI-CN y REC-CN.
a B
valor r
1 0,9 0,8 0,7 0,6 0,5 0.4 0,3 0,2 0,1 0
250
250
200
200
número de borde
número de borde
100 150
100 150
50
50
0
0
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
1 0,9 0,8 0,7 0,6 0,5 0.4 0,3 0,2 0,1 0
valor p valor r
D
valor r
C 1 0,9 0,8 0,7 0,6 0,5 0.4 0,3 0,2 0,1 0
200
200
150
150
número de borde
número de borde
100
100
50
50
0
0
valor r
valor p
Figura 5 Distribución del número de bordes del mousealimentados y mouseayunado redes, r =1 a 0. Gráficos a la izquierda
El lado de la figura ilustra histogramas del número de borde en elalimentados y mouseayunado en diferentes r-valor para pag-
combinaciones de valores, en r =1 a 0 con decrementos de 0,1. Gráficos en el lado derecho de la figura
representar gráficas de caja correspondientes, donde las líneas centrales representan la media; los límites de los recuadros representan el error
estándar superior e inferior; los bigotes representan intervalos de confianza del 95% calculados por la prueba de Cox modificada. Las líneas
verticales grises separan los coeficientes de correlación, las líneas verticales discontinuas rojas representan el intervalo de umbral del coeficiente
de correlación propuesto, las líneas horizontales azules representan el número de borde medio en el que se encuentra el umbral.
colocar; a Ratónalimentados-Histograma de número de borde de CN, B Ratónalimentados-Diagrama de caja del número de borde de CN, C RatónayunoHistograma de
tenido VFed | =42 nodos y miFed | =105 bordes que los conectan; el ratónAyunoCN fue
compuesto de VAyuno | =42 nodos y miAyuno | =112 bordes. En el estudio original, los
autores identificaron ocho bordes que cruzan ambas redes. Aquí, identificamos 17 inter-
seccionamiento de bordes, que contiene todos los bordes del estudio original (archivo adicional 1: Datos
suplementarios S1).
Discusión
La construcción de los CN de los metabolitos no es una tarea trivial. A diferencia de las redes
ponderadas de coexpresión de genes [20], donde todos los bordes se mantienen dentro de la red, el
objetivo de los CN de los metabolitos es eliminar algunas de las correlaciones [21]. Como tal, si el
umbral del coeficiente de correlación se establece demasiado alto, se pueden perder datos biológicos
valiosos, mientras que si el umbral del coeficiente de correlación se establece demasiado bajo, la
plétora de bordes puede tener un efecto de confusión, dificultando la identificación de la información
biológica más viable. asociado con los datos disponibles. Por lo tanto, es muy importante establecer el
umbral del coeficiente de correlación de manera apropiada para que se puedan derivar conclusiones
biológicas significativas. Sin embargo, el umbral del coeficiente de correlación para los CN de los
metabolitos no se puede establecer de forma universal. En cambio, debe determinarse
dinámicamente de acuerdo con el sistema estudiado. Aunque diferentes estudios ya han aplicado
diferentes umbrales de coeficientes de correlación para construir CN de metabolitos, p. Ej. [1, 4,
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 10 de 14
a B
valor r
0,9 0,89 0,88 0,87 0,86 0,85 0,84 0,83 0,82 0,81 0,8
150
150
100
100
número de borde
número de borde
50
50
0
0
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,9 0,89 0,88 0,87 0,86 0,85 0,84 0,83 0,82 0,81 0,8
valor p valor r
150
150
100
100
número de borde
número de borde
50
50
0
0
0,9 0,89 0,88 0,87 0,86 0,85 0,84 0,83 0,82 0,81 0,8
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
0,05
0,03
0,01
valor r
valor p
Figura 6 Distribución del número de bordes del mousealimentados y mouseayunado redes, r =0,9 a 0,8. Gráficos a la izquierda
El lado de la figura ilustra histogramas del número de borde en el mouse.alimentados y mouseayunado en diferentes r-valor
para pag-combinaciones de valores, en r =0,9 a 0,8 con decrementos de 0,01. Gráficos en el lado derecho de la figura
representar gráficas de caja correspondientes, donde las líneas centrales representan la media; los límites de los recuadros representan el error
estándar superior e inferior; los bigotes representan intervalos de confianza del 95% calculados por la prueba de Cox modificada. Las líneas
verticales grises separan los coeficientes de correlación, las líneas verticales discontinuas rojas representan el intervalo de umbral del coeficiente
de correlación propuesto, las líneas horizontales azules representan el número de borde medio en el que se encuentra el umbral.
colocar; a Ratónalimentados-Histograma de número de borde de CN, B Ratónalimentados-Diagrama de caja del número de borde de CN, C RatónayunoHistograma de
8-11, 22-24], todavía no se ha establecido un conjunto de reglas sobre cómo determinarlas. Aquí
presentamos un enfoque que permite a los investigadores seleccionar un umbral de coeficiente de
correlación adecuado para su sistema estudiado.
En nuestro estudio reciente sobre un panel de asociación de papa, construimos un CN sobre
metabolitos de tubérculos y rasgos morfológicos de plantas, donde aplicamos un umbral de
coeficiente de correlación de 0.4 [12]. En este escenario, identificamos una conexión crítica entre el
ácido fumador y el vigor de la planta, lo que nos permitió identificar genes esenciales que ayudan a la
planta a hacer frente al estrés abiótico. Usando el mismo conjunto de datos de papa, en el estudio
actual, demostramos cómo seleccionar el umbral de coeficiente de correlación adecuado basado en
un enfoque iterativo, durante el cual se monitoreó la topología de la red y específicamente su número
de borde asociado. Se construyó una serie de CN, donde se combinaron diferentes coeficientes de
correlación absoluta (de 0 a 1) con un conjunto de diferentes
pag-valores. Para determinar elr-umbral de valor tuvo que detectarse un cambio significativo.
Definimos un cambio significativo como el exceso del rango de números de borde más allá de
los límites del IC correspondiente de un CN. Una vez cumplido este criterio, el
r-se estableció el umbral de valor.
y 0,41 para REC-CN (Figs. 1 y 2). El análisis de arranque con 100 CN basado en el 80% de las
muestras confirmó los umbrales propuestos (Figs.3 y 4). En estos ajustes de umbral, la
conexión crucial entre el ácido fumárico y el vigor de la planta todavía estaba presente en el
REC-CN pero no en el NI-CN como se sugiere en [12]. Para validar el método propuesto,
también se aplicó a conjuntos de datos de metabolitos cardíacos de ratones alimentados y en
ayunas [10]. El estudio original propuso un umbral de 0,7 para ambos NC. Para comparar las
CN se generó una intersección de la red. Nuestro análisis sugirió un umbral
0,84 para ambos NC. Aunque nuestro umbral propuesto era significativamente más alto que en el
estudio original, mostramos una intersección de bordes similar.
Los umbrales propuestos para los cuatro NC diferentes abarcaron una amplia gama de
r-valores, comenzando con un coeficiente de correlación tan bajo como 0,23 para el NI-CN y
alcanzando un coeficiente de correlación tan alto como 0,84 para los dos CN de ratón. Para
identificar una propiedad que potencialmente podría ser clave para este hallazgo, calculamos
una serie de propiedades de red para cada CN. Las propiedades de la red derivadas del grado
del nodo (por ejemplo, grado medio, relación borde a nodo, densidad, coeficiente de
agrupamiento) variaron tanto como los propios umbrales del coeficiente de correlación
propuestos. Sin embargo, otras dos propiedades de la red proporcionaron resultados
interesantes que podrían ser los elementos clave para la detección del umbral del coeficiente
de correlación, a saber: i) el diámetro de la red, que es la distancia geodésica máxima entre
cualquier par de nodos en un gráfico; y ii) el coeficiente de assortatividad de la red,25]. Dice de
manera concisa cómo los nodos se conectan preferentemente entre sí. El diámetro del NI-CN se
calculó con 6 y su coeficiente de assortividad con
0.45, para el REC-CN el diámetro fue de 9 y su coeficiente de assortividad = 0.36, para el
RatónAlimentados-CN el diámetro fue 9 y su coeficiente de assortividad = 0,47, y para el
RatónAyunoCN el diámetro se calculó con 8 y su coeficiente de assortividad con
0,52. A pesar de las diferentes topologías de los cuatro CN, estas dos propiedades de red
reveló valores comparables. Creemos que este hallazgo debe investigarse más a fondo.
Conclusiones
Demostramos que el enfoque desarrollado en este estudio es una herramienta valiosa para la
determinación del umbral del coeficiente de correlación para la construcción de CN de
metabolitos. Aplicamos nuestro método a conjuntos de datos de metabolitos de diferentes
antecedentes biológicos y los umbrales sugeridos variaron de 0,23 sobre 0,41 a 0,84. Aunque el
recién propuestor-Los valores diferían de los valores utilizados en los estudios originales, pero
nos permitió obtener las mismas conclusiones biológicas. Por tanto, la topología de red de CN
determina la interpretación biológica, más que la fuerza del coeficiente de correlación en sí. Por
esta razón, sugerimos tratar los CN como gráficos no ponderados una vez que se haya
establecido el coeficiente de correlación y se hayan eliminado las correlaciones no significativas.
Métodos
Adquisición y procesamiento de conjuntos de datos
Configuración CN
La estimación del IC se basa en una distribución normal. Como los datos de este estudio
violaron esta suposición, empleamos la estimación de IC basada en el método de Cox
modificado, que transforma los datos en logaritmos antes de la estimación [19]. También se
aplicat-valores en lugar de z-valores.
Bootstrapping
Para verificar estadísticamente el enfoque presentado en el estudio actual para la configuración del
umbral del coeficiente de correlación, empleamos bootstrapping con reemplazo de muestra aleatoria.
El bootstrapping se realizó 100 veces con el 80% de las muestras disponibles en los conjuntos de
datos de NI y REC.
Disponibilidad y requisitos
• Nombre del proyecto: determinación del umbral del coeficiente de correlación en redes basadas
en correlación
• Página de inicio del proyecto: https://github.com/toubiana/correlation_coefficient_thres hold
• Lenguaje de programación: R
• Otros requisitos: el código fuente opera en R sin dependencias.
• Licencia: LICENCIA PÚBLICA ACADÉMICA
• Cualquier restricción de uso por parte de no académicos: por ejemplo, se necesita licencia.
Abreviaturas
IC: intervalo de confianza; CNA: análisis de redes basado en correlación; CN: redes de correlación; FDR: tasa de falsos descubrimientos; GWAS:
estudio de asociación de genoma amplio; NI: riego normal; REC: recuperación.
Información suplementaria
La versión en línea contiene material complementario disponible en https://doi.org/10.1186/s12859-021-03994-z.
Archivo adicional 1. Intersección de la red. Descripción del archivo: Intersecciones de red de CN de ratón identificadas en el
estudio actual y en Batushansky et al. [10].
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 13 de 14
Agradecimientos
Agradecemos al Dr. Alfredo Poirier del Departamento de Ciencias — Matemáticas de la PUCP, por sus útiles comentarios. DT
agradece a Cienciactiva-CONCYTEC y al Instituto Interamericano de Cooperación para la Agricultura (IICA) por apoyar su
estadía en CERMN-PUCP.
DT ha diseñado el estudio y realizado todos los análisis. Además, DT ha escrito el código fuente y el manuscrito. HM
ayudó a escribir el manuscrito. Todos los autores han leido y aprobado el manuscrito.
Fondos
Este estudio fue financiado por el Programa Atracción de Investigadores Cienciactiva-CONCYTEC (008–2017-FONDECYT). El
organismo de financiación no contribuyó al diseño del estudio, ni a la recogida de muestras, análisis, interpretación de datos y
no por escrito del manuscrito.
No aplica.
Conflicto de intereses
Los autores declaran que no existen intereses en competencia.
Referencias
1. Rosental L, Perelman A, Nevo N, Toubiana D, Samani T, Batushansky A, Sikron N, Saranga Y, Fait A: Efectos ambientales y genéticos
sobre el equilibrio metabólico de la semilla de tomate y su asociación con el vigor de germinación. BMC Genom 2016,
17.
2. Toubiana D, Puzis R, Wen LL, Sikron N, Kurmanbayeva A, Soltabayeva A, Wilhelmi MDR, Sade N, Fait A, Sagi M et al: El análisis de red
combinado y el aprendizaje automático permiten la predicción de vías metabólicas a partir de datos de metabolómica del
tomate . Commun Biol 2019, 2.
3. Carlin S, Vrhovsek U, Franceschi P, Lotti C, Bontempo L, Camin F, Toubiana D, Zottele F, Toller G, Fait A, et al. Características regionales
de los vinos espumosos del norte de Italia, identificadas mediante microextracción en fase sólida y cromatografía de gases
bidimensional integral junto con espectrometría de masas de tiempo de vuelo. Food Chem. 2016; 208: 68–80.
4. Sulpice R, Trenkamp S, Steinfath M, Usadel B, Gibon Y, Witucka-Wall H, Pyl ET, Tschoep H, Steinhauser MC, Guenther
M y col. Análisis de redes de actividades enzimáticas y niveles de metabolitos y su relación con la biomasa en un gran panel de
accesiones de Arabidopsis. Célula vegetal. 2010; 22 (8): 2872–93.
5. Toubiana D, XueWT, Zhang NY, Kremling K, Gur A, Pilosof S, Gibon Y, Stitt M, Buckler ES, Fernie AR et al: el análisis de red basado en
correlación de perfiles de metabolitos y enzimas revela un papel de la biosíntesis de citrato en la modulación de N y C Metabolismo
en Zea mays. Front Plant Sci 2016, 7.
6. Benjamini Y, Hochberg Y. Control de la tasa de falsos descubrimientos: un enfoque práctico y poderoso para las pruebas múltiples. JR
Stat Soc B Met. 1995; 57 (1): 289–300.
7. Müller-LinowM, WeckwerthW, Hütt MT. Análisis de consistencia de redes de correlación metabólica. BMC Syst Biol.
2007; 1:44.
8. Hu T, ZhangW, Fan Z, Sun G, Likhodi S, Randell E, Zhai Y. Análisis de la red de correlación diferencial de metabolómica de
la osteoartritis. Pac Symp Biocomput. 2016; 21: 120–31.
9. Angelovici R, Batushansky A, Deason N, Gonzalez-Jorge S, Gore MA, Fait A, DellaPenna D. Network-Guided GWAS mejora la
identificación de genes que afectan a los aminoácidos libres. Plant Physiol. 2017; 173 (1): 872–86.
10. Batushansky A, Matsuzaki S, Newhardt MF, West MS, Griffin TM, Humphries KM. El perfil metabólico de GC-MS revela que la
fructosa-2,6-bisfosfato regula el metabolismo de los aminoácidos de cadena ramificada en el corazón durante el ayuno.
Metabolómica. 2019; 15 (2): 1–12.
11. Toubiana D, Sade N, Lifeng L, Wilhelmi MDR, Brotman Y, Luzarowska U, Vogel JP, Blumwald E. El análisis de red basado en correlación
combinado con técnicas de aprendizaje automático destacan el papel de la derivación GABA en la tolerancia a la congelación de
Brachypodium sylvaticum. Sci Rep. 2020; 10 (1): 1–16.
12. Toubiana D, Cabrera R, Salas E, Maccera C, Franco dos Santos G, Cevallos D, Lindqvist-Kreuze H, Lopez JM, Maruenda
H. El perfil morfológico y metabólico de un panel de asociación de papa tropical adaptado sometido a un tratamiento de recuperación de agua
revela nuevos conocimientos sobre el vigor de la planta. Plant J. 2020; 103 (6): 2193–210.
13. Bae H, Kim SK, Cho SK, Kang BG, KimWT. La sobreexpresión de OsRDCP1, una ubiquitina ligasa E3 que contiene el dominio RING de
arroz, aumentó la tolerancia al estrés por sequía en el arroz (Oryza sativa L.). Plant Sci. 2011; 180 (6): 775–82.
14. Brugiere N, ZhangWJ, Xu QZ, Scolaro EJ, Lu C, Kahsay RY, Kise R, Trecker L, Williams RW, Hakimi S, et al. La sobreexpresión del dominio
RING E3 ligasa ZmXerico1 confiere tolerancia a la sequía mediante la regulación de la homeostasis ABA. Plant Physiol. 2017; 175 (3):
1350–69.
15. Joazeiro CAP, Weissman AM. Proteínas RING finger: mediadores de la actividad de ubiquitina ligasa. Célula. 2000; 102 (5): 549–52.
16. Mittler R, KimY, Song LH, Coutu J, Coutu A, Ciftci-Yilmaz S, Lee H, Stevenson B, Zhu JK. Las mutaciones de ganancia y pérdida de
función en Zat10 mejoran la tolerancia de las plantas al estrés ablótico. Febs Lett. 2006; 580 (28-29): 6537-42.
Toubiana y Maruenda Bioinformática BMC (2021) 22: 116 Página 14 de 14
17. Zang DD, Li HY, Xu HY, ZhangWH, Zhang YM, Shi XX, Wang YC: Una proteína de dedo de zinc de arabidopsis aumenta la tolerancia al
estrés abiótico al regular la homeostasis de sodio y potasio, la eliminación de especies reactivas de oxígeno y el potencial
osmótico. Parte delantera. Plant Sci. 2016, 7.
18. Zhang DY, Tong JF, Xu ZL, Wei PP, Xu L, Wan Q, Huang YH, He XL, Yang JY, Shao HB y otros. La proteína de dedo de zinc tipo C2H2 de
soja GmZFP3 con motivo QALGGH conservado regula negativamente las respuestas a la sequía en Arabidopsis transgénica. Parte
delantera. Plant Sci 2016, pág.7.
19. Olsson U. Intervalos de confianza para la media de una distribución logarítmica normal. J Stat Edu. 2005; 13: 1.
20. Langfelder P, Horvath S. WGCNA: un paquete R para análisis de redes de correlación ponderada. BMC Bioinform. 2008; 29
(9): 559.
21. Toubiana D, Fernie AR, Nikoloski Z, Fait A. Análisis de red: abordar datos complejos para estudiar el metabolismo de las plantas. Trends
Biotechnol. 2013; 31 (1): 29–36.
22. Hochberg U, Degu A, Toubiana D, Gendler T, Nikoloski Z, Rachmilevitch S, Fait A: El perfil de metabolitos y el análisis de redes
revelan cambios coordinados en la respuesta al estrés hídrico de la vid. BMC Plant Biol. 2013, 13 (84).
23. Lisec J, Romisch-Margl L, Nikoloski Z, Piepho HP, Giavalisco P, Selbig J, Gierl A, Willmitzer L. Los híbridos de maíz muestran una
menor variabilidad de metabolitos y patrones complejos de herencia de metabolitos. Plant J. 2011; 68 (2): 326–36.
24. Toubiana D, Semel Y, Tohge T, Beleggia R, Cattivelli L, Rosental L, Nikoloski Z, Zamir D, Fernie AR, Fait A: El perfil metabólico de una población
cartográfica expone nuevos conocimientos sobre la regulación del metabolismo de las semillas y las semillas, relaciones entre frutas y plantas.
Plos Genet. 2012, 8 (3).
25. Newman, MEJ: Mezcla selectiva en redes. Phys. Rev. Lett. 2002, 89 (20).
Reaad
dyy tto bm
o ssuub ouurr rreesse
miitt yyo eaarrcchh ?? CChho
oo
osse
e B MCannddbser
enne om
efiitt ffrro metro::
• acceso abierto de oro que fomenta una colaboración más amplia y un aumento de las citas
• máxima visibilidad para su investigación: más de 100 millones de visitas al sitio web al año
Aprende másbiomedcentral.com/submissions