Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Krinos et al. BMC Bioinformatics 2023, 24(1):74
BMC Bioinformática
https://doi.org/10.1186/s1285902205121y
INVESTIGACIÓN Acceso abierto
Los metatranscriptomas ambientales de
ingeniería inversa aclaran las mejores prácticas
para el ensamblaje de eucariotas
Arianna I. Krinos1,2,3* , Natalie R. Cohen4 , Michael J. sigue3 y Harriet Alexander2*
*Correspondencia:
akrinos@mit.edu;
Abstracto
halexander@whoi.edu
Antecedentes: las diversas comunidades de eucariotas microbianos en el océano global brindan
1
Programa Conjunto MITWHOI una variedad de servicios ecosistémicos esenciales, desde la producción primaria y el fujo de
en Oceanografía y Ciencias Aplicadas
carbono hasta la cooperación a través de la simbiosis, pasando por la transferencia trófica. Cada
ciencia e ingeniería oceánica,
Cambridge y Woods Hole,
vez más, estas comunidades se entienden a través de la lente de las herramientas ómicas, que
MA, EE. UU. permiten el procesamiento de alto rendimiento de diversas comunidades. La metatranscriptómica
2
Departamento de Biología, Woods
ofrece una comprensión de la expresión génica casi en tiempo real en comunidades eucariotas
institución oceanográfica del agujero,
Woods Hole, MA, EE. UU. microbianas, lo que proporciona una ventana a la actividad metabólica de la comunidad.
3
departamento de la tierra,
Resultados: aquí presentamos un flujo de trabajo para el ensamblaje del metatranscriptoma eucariota y
atmosférico y planetario
Ciencia, Instituto de Tecnología de validamos la capacidad de la canalización para recapitular datos de expresión a nivel de comunidad
Massachusetts, Cambridge, MA, eucariota reales y fabricados. También incluimos una herramienta de código abierto para simular
metatranscriptomas ambientales con fines de prueba y validación. Volvemos a analizar conjuntos de
Estados
Unidos 4
Instituto Skidaway de
Oceanografía, Universidad de
datos metatranscriptómicos previamente publicados utilizando nuestro enfoque de análisis de
Georgia, Savannah, GA, EE. UU. metatranscriptoma.
Conclusión: determinamos que un enfoque de múltiples ensambladores mejora el ensamblaje del
metatranscriptoma eucariótico en función de las anotaciones taxonómicas y funcionales recapituladas
de una comunidad simulada insilico. La validación sistemática de los métodos de anotación y
ensamblaje de metatranscriptomas proporcionados aquí es un paso necesario para evaluar la
fidelidad de las mediciones de composición de nuestra comunidad y las asignaciones de contenido
funcional de los metatranscriptomas eucariotas.
Palabras clave: Oleoducto, Protista, Metatranscriptómica, Ecología, Océano, Microbiología
marina
Antecedentes
Los microbios eucariotas desempeñan funciones diversas e importantes en los ecosistemas globales
[1], incluidos los procesos de pastoreo, la producción primaria y la actuación como huéspedes de
simbiontes diversos y esenciales [2]. En los ecosistemas oceánicos en particular, la literatura sobre el
papel de los microbios eucariotas en los procesos de los ecosistemas continúa ampliándose [3]. Esta
literatura proporciona más evidencia de que los microbios eucariotas son tan importantes como sus
contrapartes procariotas cuando se trata del ciclo de nutrientes y su enorme influencia en las redes alimentarias y
© The Author(s) 2023, publicación corregida 2023. Acceso abierto Este artículo tiene una licencia Creative Commons Attribution 4.0 International
License, que permite usar, compartir, adaptar, distribuir y reproducir en cualquier medio o formato, siempre que usted dé el crédito apropiado para
el(los) autor(es) original(es) y la fuente, proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios.
Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo
contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está
permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una
copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/. La exención de dedicación de dominio público de Creative Commons (http://
creativeco mmons.org/publicdomain/zero/1.0/) se aplica a los datos disponibles en este artículo, a menos que se indique lo contrario en una línea de crédito a los datos.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 2 de 36
ecología comunitaria [4–7], y requiere esfuerzos renovados para comprender los mecanismos
subyacentes.
La relevancia ecológica de los microbios eucariotas requiere un estudio cuidadoso de su ecología
y distribución, pero esto puede ser difícil de ejecutar, tanto in situ como en el laboratorio.
La diversidad de ensamblajes eucarióticos naturales dificulta la realización de encuestas exhaustivas
de manera específica para taxones. La diversidad taxonómica se puede catalogar en el campo
utilizando amplicones del gen 18S rRNA o datos de conteo de células, aunque esto descuida la
diversidad funcional, que puede aprovecharse para informar una comprensión más amplia de sus
roles biogeoquímicos y ecológicos. Para complicar los esfuerzos, muchos microbios eucariotas no se
pueden cultivar fácilmente en el laboratorio [1, 8], y confiar únicamente en el subconjunto de microbios
eucariotas que podemos cultivar en el laboratorio puede aplicar un filtro sesgado a nuestra
comprensión de estos organismos [9] . Por estas razones, el uso de técnicas de secuenciación
metatranscriptómica y metagenómica ambiental independiente de la cultura se ha convertido en un
método popular y exitoso para descubrir una nueva diversidad taxonómica y funcional en poblaciones
de microbios eucariotas en diversos entornos en el campo [8, 10, 11 ] .
La metatranscriptómica se ha convertido en un enfoque generalizado y prometedor para responder
preguntas sobre la actividad de la comunidad microbiana en el medio ambiente sin conocimientos
previos ni sesgos [12], y puede usarse para identificar los mecanismos genéticos subyacentes que
impulsan fenómenos globales como la biogeoquímica oceánica [13–15]. Los metatranscriptomas
proporcionan un medio accesible para observar el conjunto completo de genes expresados por un
grupo de organismos, que pueden dividirse por tamaño, sitio u origen filogenético [16]. Los
scriptomas de Metatran se pueden emparejar con metagenomas para proporcionar información a
nivel de la comunidad sobre la expresión génica, y pueden representar un complemento funcional
para la cantidad cada vez mayor de composición de la comunidad y nuevos datos de genomas
agrupados que están disponibles para los eucariotas microbianos [10, 11, 17 ] . Sin embargo, a pesar
del potencial de este enfoque, el campo es relativamente nuevo y las prácticas estandarizadas son
inmaduras. El primer transcriptoma ambiental, dirigido al bacterioplancton, se secuenció en 2005 [18],
y los metatranscriptomas marinos comenzaron a aparecer en la literatura alrededor de 2008 [16,
19]. Los scriptomas de Metatran ofrecen una instantánea de toda la comunidad en el momento de la
secuenciación, pero es posible que la proporción relativa de transcritos y su detectabilidad no
siempre brinden información significativa sobre los verdaderos procesos biológicos, en particular
cuando la profundidad de la secuenciación es baja o faltan referencias en la base de datos. [12]. Por
esta razón, se deben compilar bases de datos y se deben desarrollar y continuar desarrollando
nuevos enfoques computacionales para procesar e interpretar datos metatranscriptómicos. La
recopilación de datos transcriptómicos de laboratorio en una sola ubicación y formato por parte del
Proyecto de Secuenciación de Transcrip tomos de Eucariotas Microbianos Marinos (MMETSP) [3,
20] comenzó como un esfuerzo de depósito y se convirtió en una de las bases de datos más
importantes que permiten la identifcación de eucariotas microbianos marinos. de secuencias
metatranscriptómicas (p. ej., [21–24]). Se han realizado descubrimientos sustanciales utilizando
metatranscriptomas secuenciados, incluidas explicaciones novedosas para brechas persistentes en
la comprensión ecológica, como la coexistencia dentro de un nicho aparentemente estrecho [23], el
descubrimiento de nuevos genes u organismos putativos de secuencias previamente desconocidas
[19], el desarrollo de una comprensión molecular de la base de la enfermedad del coral [25], y
decodificando las complejidades de las comunidades microbianas de los respiraderos hidrotermales
de aguas profundas [26]. La disponibilidad de datos metatranscriptómicos, en particular para el fitoplancton eucariótico, ha sido transfo
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 3 de 36
cantidad de información de secuencia, lo que nos permite interpretar mejor el paisaje genético
oceánico a escala global [27]. Aún así, el análisis del metatranscriptoma tiende a variar sustancialmente
entre los estudios, y la interpretación puede sufrir de sesgos inherentes a la tecnología.
Ha faltado enfoques confiables, reproducibles y ampliamente disponibles para el análisis del
metatranscriptoma, particularmente en la evaluación de la comunidad microbiana eucariótica. Las
primeras canalizaciones de transcriptomas se diseñaron en la última década para organismos
convencionales bien estudiados, como humanos y ratones, y sus comunidades microbianas (por
ejemplo, [28]). Es poco probable que estas canalizaciones incluyan software descargable por el
usuario, a menudo se centran en la anotación y no incluyen un mecanismo para el ensamblaje y el
procesamiento de novo [28]. Unos años más tarde, surgió la primera tubería para comunidades
microbianas no caracterizadas, pero se presentó como una descripción de los pasos necesarios para
el análisis del metatranscriptoma, en lugar de como productos de software disponibles para los
usuarios [29] . La herramienta Simple Annotation of Metatranscriptomes by Sequence Analysis
(SAMSA), y su segunda versión lanzada, SAMSA2, se encuentran entre las herramientas de análisis
de metatranscriptomas actualizadas más recientemente [30]. Si bien esta herramienta es un paquete
completo que los científicos pueden descargar y usar, se enfoca en los pasos de eliminación del gen rRNA y no incluye los pasos de en
En campos como la oceanografía microbiana, a menudo necesitamos un ensamblaje de novo de
secuencias de transcriptoma, ya que no siempre se conoce la identidad de los organismos en las
muestras ambientales, e incluso para organismos bien conocidos, es posible que no se disponga de
referencias completas. Hasta la fecha, las canalizaciones de metatranscriptomas han carecido de
productos de software complementarios o pasos de ensamblaje necesarios para el análisis ambiental
de novo. Como consecuencia, la comunidad sigue necesitando una herramienta de análisis de
metatranscriptoma confiable que sea descargable, reproducible e incluya un ensamblaje de transcriptoma de novo.
El panorama de las herramientas de ensamblaje de transcriptomas de novo es amplio y, a menudo,
hay desacuerdo sobre qué herramienta es mejor usar para una aplicación particular o el nivel de
expresión promedio para una transcripción secuenciada [31] . El software Oyster River Protocol (ORP)
se publicó en 2018 como respuesta a este problema, una herramienta diseñada para transcriptomas
individuales y destinada a combinar herramientas de ensamblaje [32]. Usando una colección de
ensambladores de transcriptoma, el ORP está diseñado para superar el desafío de cotejar de manera
eficiente la información de múltiples ensambladores [32]. Además, utiliza una colección de tamaños
de kmer, donde un kmer es una porción de tamaño k de la transcripción utilizada para dividir la
información en partes más digeribles, para reducir la probabilidad de que se favorezcan las
transcripciones menos abundantes durante el ensamblaje. debido al tamaño pequeño de kmer o
viceversa con transcritos más abundantes y tamaño grande de kmer. Sin embargo, el ORP es un
enfoque independiente para el ensamblaje del transcriptoma y no permite que el usuario procese
simultáneamente múltiples muestras, ni admite metatranscriptomas. El ORP obviamente no se integra
con las métricas de anotación posteriores, y más bien es un enfoque para combinar ensamblajes de
transcriptomas construidos usando diferentes longitudes de kmer.
Más recientemente, se ha demostrado que el coensamblaje de novo utilizando múltiples
ensambladores de transcriptoma mejora la calidad del ensamblaje de un solo organismotranscriptoma
[33]. Esto se mostró utilizando una tubería de ensamblaje de transcriptoma de novo con datos de
expresión de organismos no modelo como entrada para recapitular el transcriptoma de una sola especie.
Se utilizó un umbral de calidad de puntuación BUSCO (Benchmarking Universal SingleCopy
Orthologs; [34]) de recuperación del 50 % para evaluar la recuperación de transcriptomas de un solo
organismo [33]. BUSCO es una herramienta que se utiliza para determinar la proporción de
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 4 de 36
genes de una sola copia que se encuentran en un genoma (o un transcriptoma) además de las estadísticas
iniciales basadas solo en el contenido de la secuencia en lugar del linaje evolutivo [34, 35]. Cuando se
trabaja con transcriptomas de un solo organismo, las métricas como las puntuaciones de BUSCO [34]
son apropiadas para evaluar la integridad de la biblioteca de secuencias del organismo. Esto difiere del
contexto metatranscriptómico, en el que los BUSCO de organismos potencialmente múltiples están en
juego para la recuperación. Los autores del estudio de ensamblaje conjunto original [33] señalan que los
ensambladores múltiples utilizados a la vez para un ensamblaje conjunto más grande contribuyen a
ensamblajes transcriptómicos de datos de RNAseq de mayor calidad, especialmente cuando se usa algún
subconjunto de los ensambladores de mayor rendimiento [33 ] . Estos resultados pueden ayudar a
informar los datos de la comunidad metatranscriptómica de múltiples organismos, pero requieren una
transición de la consideración de métricas BUSCO de un solo organismo a la identificación de
características clave de múltiples organismos presentes en una comunidad ambiental. Específicamente,
en lugar de validar un transcriptoma de un solo organismo con sus estimaciones de integridad de
BUSCO, es necesario identificar si los múltiples transcriptomas de un solo organismo completos de
BUSCO presentes en una muestra de toda la comunidad se pueden recuperar con precisión. La
identificación de las métricas más destacadas y apropiadas para la afirmación de que un solo organismo
se ha identificado con precisión y sus funciones se han descrito con precisión a partir de un
metatranscriptoma plantea un desafío importante para el campo. Esto es particularmente cierto para los
datos de la comunidad ambiental en los que los límites taxonómicos pueden no estar completamente
resueltos en primer lugar, y los representantes culturales pueden no estar disponibles. Para complicar
aún más las cosas, incluso cuando se puede demostrar que los productos de ensamblaje son "precisos"
en relación con las métricas de uso común, como la longitud de contig, el porcentaje de lecturas de
secuenciación sin procesar que se asignan al ensamblaje y la presencia de genes anotados con
homología con "core". ” genes de referencia, no se garantiza que ofrezcan la mejor solución al problema
de ensamblaje debido a la falta de representantes en la base de datos [36].
La pregunta que queda de los estudios de coensamblaje de un solo organismo es por qué los
ensambladores transcriptómicos individuales a veces producen resultados de mayor calidad o más
completos, y si la redundancia dentro de cada ensamblaje transcriptómico sesga la evaluación de la calidad.
Para responder a esta pregunta, el contenido ensamblado compartido en la salida de múltiples
ensambladores debe compararse con el nuevo contenido que ofrece la combinación de herramientas de
ensamblaje. Cuando se utilizan y comparan enfoques estandarizados para el ensamblaje y el uso de
parámetros apropiados, se pueden establecer nuevos conocimientos sobre los aspectos unificadores y
diversificadores de las comunidades microbianas [37, 38]. Por lo general, se centran en una o ambas de
las dos vías esenciales para la anotación del material de secuencias: la identidad taxonómica de las
secuencias y su papel funcional en el organismo. Un estudio previo que se enfoca principalmente en la
identificación de roles funcionales a través del ensamblaje de transcritos [39] estableció un flujo de trabajo
comparativo, CoMW, para evaluar el éxito de la recuperación de genes de bases de datos del microbioma
intestinal humano, y comparó la efectividad del proceso basado en ensamblaje de CoMW a métodos sin
ensamblaje para metatranscriptomas.
Aquí, evaluamos la capacidad de los métodos de ensamblaje metatranscriptómicos y, específicamente,
nuestro enfoque de coensamblaje de muestras múltiples y coensamblador para recuperar todas las
transcripciones incluidas de los ensamblajes de transcriptomas de un solo organismo existentes. En lugar
de probar la recuperación de genes de bases de datos identificados, comparamos nuestros ensamblajes
de metatranscriptomas con metatranscriptomas de "diseñador" anotados construidos a partir de diversos
ensamblajes de transcriptomas de una base de datos creada con la base de datos MMETSP [3, 20 ] . esto es
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 5 de 36
El flujo de trabajo de validación está diseñado para responder a las preguntas: ¿Los estudios que
utilizan la metatranscriptómica para comprender la diversidad de la comunidad en los microbios
eucariotas que se encuentran en el medio ambiente (a) recapitulan adecuadamente la diversidad
taxonómica y funcional que se encuentra en esas comunidades? y (b) reproducir secuencias
consistentes que podrían recuperarse de manera confiable con muestreo y ensamblaje repetidos?
Específicamente, el flujo de trabajo está destinado a explorar si las secuencias para las que aún no
hemos asignado una anotación funcional también se recuperan después de la ingeniería inversa de
lecturas sin procesar de contigs previamente ensamblados, o si algunos pueden ser artefactos de
ensamblaje. Además, evaluamos si algunas herramientas de ensamblaje superan a otras, es más
probable que lo hagan en términos de genes del ensamblaje que se pueden anotar, distribución de
longitud de contigs o eficiencia de mapeo en la recapitulación de las lecturas sin procesar. Al hacerlo,
se pretende abordar si es aceptable renunciar a uno o más de estos a favor de requisitos computacionales más bajos.
La comunidad necesita un protocolo para validar las evaluaciones metatranscriptómicas populares
y un conjunto de recomendaciones sobre la mejor manera de manejar el desafío de minimizar los
costos de ensamblaje computacional y maximizar el conocimiento ecológico extraído de estos datos
poderosos. Para hacer frente a estos desafíos, hemos desarrollado eukrhyth mic, una canalización
que facilita el ensamblaje del metatranscriptoma con múltiples herramientas de ensamblaje y
posprocesamiento para el análisis de secuencias ambientales en un flujo de trabajo todo en uno.
Aquí, describimos la tubería eukrhythmic y validamos su rendimiento a través de la construcción de
metatranscriptomas simulados utilizando una herramienta que llamamos jEUKebox, y la aplicamos al
ensamblaje y análisis de conjuntos de datos metatranscriptómicos publicados y metatranscriptomas
simulados. Nuestro esfuerzo de evaluación comparativa que utiliza direcciones eukrhythmic si
ensamblar metatranscriptomas de una comunidad ambiental mixta es comparable a aislar y
secuenciar especies o cepas particulares de microbios marinos eucariotas y secuenciar sus
transcriptomas individualmente.
Métodos
A lo largo de este documento, utilizamos: "metatranscriptomas de diseño" para referirnos al "estándar
de oro" cóntigos metatranscriptómicos simulados por jEUKebox generados a partir de transcriptomas
de referencia MMETSP con anotaciones taxonómicas conocidas, "lecturas sin procesar simuladas"
para hacer referencia a lecturas sin procesar simuladas del estándar de oro, y "productos
reensamblados" para referirse a la salida simulada combinada del ensamblaje del metatranscriptoma
utilizando la tubería rítmica euk .
Tubería eurítmica
Limpieza y recorte de datos El
recorte se realiza con Trimmomatic versión 0.39, una herramienta fexible que se adapta
específicamente a datos de secuenciación de próxima generación de extremos emparejados, con
parámetros especificables por el usuario [40], con una longitud de lectura mínima de 50 pares de
bases , una ventana deslizante de longitud 4 y puntuación de calidad 2, y una lista estándar de
adaptadores de Illumina (ILLUMINACLIP:<lista de adaptadores>:2:30:7 LEADING:2 TRAILING:2 SLIDINGWINDOW:4:2 MIN
LEN:50). Opcionalmente, el usuario también puede optar por filtrar secuencias adicionales, si se
agregaron durante la extracción, con bbmap [41].
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 6 de 36
Ensamblaje
Una de las principales ventajas de utilizar la tubería eukrhythmic es la flexibilidad de utilizar tantos (o
tan pocos) ensambladores transcriptómicos como sea apropiado para los datos (Fig. 1). Muchos
ensambladores de metatranscriptomas diferentes están disponibles para los investigadores y se
usan comúnmente, y puede ser un desafío seleccionar el ensamblador apropiado, dado que cada
uno tiene sus propias ventajas y desventajas [42, 43]. En eukrhythmic, el usuario puede seleccionar
cualquier combinación de ensambladores [36, 44–48] y el proceso de ensamblaje se lleva a cabo en
paralelo, según lo permitan los recursos.
Fusión y agrupamiento
La consolidación de los resultados de los ensambladores del metatranscriptoma constituyente se
realiza en dos pasos. En primer lugar, se concatenan los ensamblajes de la misma muestra o "grupo
de ensamblaje" definido por el usuario (considerado una sola unidad debido a alguna característica compartida).
Inspirado en el proceso adoptado por Cerveau et al. (2016) [49], usamos la herramienta de
agrupamiento MMSeqs [50] para eliminar contigs similares del ensamblaje combinado, primero
usando un umbral de similitud de secuencia del 100 % para la secuencia más corta en una
alineación local para eliminar contigs idénticos recuperados por múltiples ensambladores A
continuación, la canalización se bifurca en dos tipos de salida. Para el primer tipo de salida, muestras
individuales/grupos de ensamblaje ("CAG" o "agrupados por grupo de ensamblaje"), que luego se
someten a una segunda ronda de agrupamiento de MMSeqs para eliminar contigs similares en un
umbral de similitud del 98% (definido de la misma manera que anterior), teniendo en cuenta los
posibles errores de secuenciación [49]. Además, las muestras ya fusionadas del proceso de
ensamblaje se fusionan entre muestras, de modo que se produce un ensamblaje combinado con
todos los datos disponibles, etiquetado como "consolidación de ensamblaje múltiple" o abreviado como "MAD" ("multiensamblador ded
Fig. 1 Diagrama conceptual del flujo de trabajo eurítmico, que incluye A los pasos principales y secundarios de la canalización y B el
resultado esperado de la canalización. Abreviaturas: AGM: para cada grupo de ensamblaje, se fusionan los productos del
ensamblador; CAG: AGM posteriores a la agrupación; SWAM: fusión de grupos de ensamblaje de toda la muestra (todos los CAG
fusionados); MAD: grupos ensamblados combinados, deduplicados (SWAM agrupado)
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 7 de 36
Fig. 2 A Esquema del flujo de trabajo de jEUKebox para simular metatranscriptomas ambientales a partir de
transcriptomas individuales. Los transcriptomas de laboratorio pueden seleccionarse para adaptarse al proyecto individual;
aquí se usaron transcriptomas del conjunto de datos MMETSP para simular lecturas para la evaluación comparativa de
eukrhythmic. B Representación conceptual de las seis simulaciones de composición de la comunidad objetivo (los
representantes taxonómicos son MMETSP Grupo A en la Tabla 1)
asambleas”) en el texto. Luego, agrupamos el conjunto combinado al 98 % de nivel de similitud
utilizando MMSeqs2 como se describió anteriormente.
traducción de proteínas
Para acomodar el análisis posterior del espacio de proteínas, como la anotación de la base de datos de
familias de proteínas (Pfam) [51], la traducción de proteínas con TransDecoder [52] es compatible como
parte de eukrhythmic. Tanto los archivos de grupo de ensamblaje/muestra individual de salida de los dos
pasos de agrupamiento como el ensamblaje único combinado se traducen a secuencias de proteínas.
Anotación
Si bien eukrhythmic está diseñado principalmente para ensamblar, el usuario puede opcionalmente optar
por anotar la salida del ensamblado como parte de la canalización. Actualmente, la tubería proporciona
herramientas de anotación que incluyen evaluación filogenética usando EUKulele [21] y evaluación
funcional básica usando la herramienta complementaria eggNOGmapper [53]. Para caracterizar las
anotaciones KEGG [54], agrupamos los resultados por Kegg Orthology ID (KO). Cuando se asociaron
múltiples anotaciones relevantes con un solo resultado, asignamos recuentos uniformemente a las
anotaciones asignadas.
Diseño de esquema comunitario simulado
Comunidades
Las seis comunidades simuladas se diseñaron para tener una complejidad diferente y para representar
ecotipos comunitarios que podrían encontrarse en estudios metatranscriptómicos del mundo real. Estas
configuraciones se resumen visualmente en la Fig. 2 y en términos de su complejidad en la Tabla 1 y su
composición taxonómica en la Tabla 2. La comunidad 1 fue diseñada para parecerse a una comunidad
dominada por un solo organismo, por lo tanto
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 8 de 36
Tabla 1 Métricas de diversidad calculadas para las seis comunidades basadas en MMETSP simuladas utilizadas en
el análisis
1 0,9 ±10−16 15,8 ± 0,2 4
2 1,3 ±10−17 18,3 ± 0,7 5
3 2,0 ±10−16 28,3 ± 0,7 8
4 2,3 ± 0 36,6 ± 0,5 10
5 1,8 ±10−17 25,2 ± 0,7 7
6 2,4 ±10−16 35,6 ± 0,5 12
La puntuación compuesta de sourmash es un promedio ponderado en abundancia de la distancia de sourmash entre dos transcriptomas
MMETSP. El índice de diversidad de Shannon se calcula de acuerdo con [55], y la riqueza es el número de transcriptomas MMETSP
incluidos en los metatranscriptomas de la comunidad (riqueza de especies)
Tabla 2 Miembros de MMETSP de cada comunidad simulada con el número de grupos ortólogos que incluyen cada
organismo y la completitud de BUSCO evaluada de cada transcriptoma
La completitud de BUSCO es una métrica de la calidad del transcriptoma basada en la presencia de genes eucariotas ancestrales
compartidos (de un total de 255 genes evaluados). Los grupos ortólogos informados se basan en el análisis OrthoFinder [59] de todos
los miembros de la comunidad para cada grupo MMETSP; el número total de ortogrupos informados fue de 42 093 para el grupo A del
MMETSP y de 44 178 para el grupo B del MMETSP
tiene el índice de diversidad de Shannon y la riqueza de especies más bajos (consulte los cálculos
en la Sección “Métricas para evaluar la complejidad de la comunidad”). La comunidad 2 tiene un valor
de riqueza de especies similar al de la comunidad 1 y solo marginalmente mayor diversidad, ya que dos
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 9 de 36
cepas de la misma especie constituyen la mayoría de la muestra. La comunidad 3 tiene la mayor
cantidad de genes que no se comparten entre ninguno de los organismos de la muestra, pero
una diversidad menor que las comunidades 4 y 6, que tienen la mayor diversidad total de
especies. La comunidad 4 tiene más genes compartidos entre dos grupos estrechamente
relacionados. La comunidad 5 tiene el número total más alto de organismos razonablemente
relacionados y genes compartidos. Para el grupo B de MMETSP, la lista de ID de MMETSP para
elegir se seleccionó al azar y los emparejamientos de comunidades individuales se determinaron
mediante la similitud fastANI (consulte la sección " Simulación de comunidades eucariotas
mediante jEUKebox").
Métricas para evaluar la complejidad de la comunidad
El índice de diversidad de Shannon de cada comunidad se calculó mediante la siguiente fórmula
[55]:
norte
Shannon(comunidad) = pj ln pi j=1
donde n es el número total de “tipos” de miembros de la comunidad, yp es su proporción en su
comunidad. La riqueza total de especies se informó como el número total de tipos presentes en
la comunidad.
Utilizamos sourmash para calcular la similitud por pares de cada transcriptoma MMETSP
dentro de cada comunidad [56]. Además, presentamos otra métrica de diversidad para tener en
cuenta la similitud potencial de los transcriptomas más allá de sus anotaciones taxonómicas:
norte norte
Puntuación compuesta de Sourmash = (1 − puntuación de puré de mostaza) min(pi, pj)
yo=1 j=1
En otras palabras, para cada par de transcriptomas en la comunidad, ponderamos el puntaje
de similitud de mezcla agria del par de transcriptomas por la abundancia del transcriptoma
menos abundante en el par. Reportamos la suma de estos puntajes ponderados para cada
comunidad en la Tabla 1.
Simulación de comunidades eucariotas utilizando jEUKebox
Selección de transcriptomas
Para cada conjunto de comunidades eucariotas simuladas, se utilizaron 12 transcriptomas del
MMETSP [3, 20] . Estos se resumen en la Tabla 2 para las dos comunidades seleccionadas.
Para la "comunidad A", se incluyeron los ID, pero no los contigs seleccionados, en función de sus
características, incluidos algunos ID de MMETSP de la misma especie y algunos de cepas
estrechamente relacionadas. Para la "comunidad B", jEUKebox seleccionó aleatoriamente los
transcriptomas MMETSP, con la única restricción de incluir algunos taxones estrechamente relacionados.
Para la selección aleatoria integrada en la canalización, el único requisito es que algún
subconjunto de los organismos que entraron en las comunidades tuvieran un socio muy similar
en la misma comunidad por puntuación de similitud de nucleótidos calculada.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 10 de 36
Cálculo de similitud usando fastANI Con el
fin de seleccionar transcriptomas "estrechamente relacionados" para las especificaciones de la
comunidad, usamos fastANI [57] para calcular la identidad de secuencia basada en nucleótidos
promedio entre transcriptomas e identificar transcriptomas similares sobre la base de tener ≥ 80%
promedio identidad de nucleótidos. Por lo tanto, para, por ejemplo, la comunidad 2 (ver Fig. 2), se
seleccionarían dos transcriptomas MMETSP con similitud fastANI ≥ 80% .
Identificación de relaciones evolutivas putativas con OrthoFinder Para
probar la calidad del ensamblaje del metatranscriptoma con respecto a la recuperación de genes con
un origen evolutivo compartido, pero diferente identidad taxonómica anotada actual, utilizamos la
herramienta OrthoFinder para identificar grupos ortólogos entre los transcriptomas MMETSP e incluir
genes de grupos de genes altamente conservados y relativamente raros en el metatranscriptoma del
diseñador [58, 59]. Como se resume en la Fig. 2, la canalización de jEUKebox automatiza este proceso
al incluir el 10 % de todos los ortólogos de copia única identificados informados por OrthoFinder (grupos
de ortólogos con un solo gen representativo de cada transcriptoma en la comunidad). A continuación,
se seleccionan los genes para cada uno de los organismos de la comunidad de acuerdo con el siguiente
procedimiento. Para los genes que tienen un socio "altamente relacionado" con respecto a la similitud
calculada (consulte la sección "Cálculo de similitud usando fastANI"; puntuación de fastANI ≥ 80%), el
75% de los contigs se incluirán en el transcriptoma del diseñador (según lo prescrito por el proporción
deseada del organismo candidato en los metatranscritos finales) se tomaron de grupos ortólogos que
incluían más que solo el candidato. El 25% restante se seleccionó aleatoriamente de grupos ortólogos
que solo contenían al candidato. Para genes sin un socio altamente relacionado, el 75% de los genes
se tomaron de grupos ortólogos exclusivos que contenían solo al candidato. El 25% restante se
seleccionó aleatoriamente de grupos ortólogos compartidos con otros transcriptomas MMETSP.
Simulación de lecturas sin procesar
Después de crear los metatranscriptomas de diseño directamente a partir de una selección aleatoria
informada de contigs de los transcriptomas MMETSP, se simularon lecturas sin procesar utilizando el
paquete Rsubread [60]. Elegimos una longitud de lectura de 75 pares de bases para permitir que la
función simReads use su conjunto incorporado de puntajes de calidad para determinar aleatoriamente
un error de secuenciación para las lecturas sin procesar generadas (a través del parámetro de error
de simulación. secuenciación). Elegimos una longitud media de fragmentos de 180±40 pares de bases
y generamos una biblioteca de 1 millón de pares de bases para las lecturas de secuenciación
emparejadas que se simularon usando el paquete para cada comunidad y prueba.
Reensamblaje con eukrhythmic
Las lecturas sin procesar simuladas mediante la función simReads se proporcionaron como entrada
para la canalización eukrhythmic. La canalización se ejecutó con la configuración predeterminada como
se describe en la Sección "Eukrhythmic pipeline" y se incluye en el archivo de configuración al
descargar la canalización. Se utilizaron cuatro ensambladores: rnaSPAdes [36], MEGAHIT [47],
metaSPAdes [48] y Trinity [61]. Elegimos estos cuatro ensambladores porque
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 11 de 36
cada uno está diseñado específcamente para el problema de ensamblaje del transcriptoma eucariótico a
nivel comunitario, o se ha informado que funcionan particularmente bien en métricas de ensamblaje de
metatranscriptoma particulares [62]. rnaSPAdes está diseñado para el ensamblaje de ARN y funciona bien
con respecto al mapeo porcentual [36, 62], Trinity funciona bien con respecto al número y la longitud de los
contigs generados [61, 62], MEG AHIT es excepcionalmente rápido [47] y metaSPAdes es diseñado para
el ensamblaje de datos de secuenciación a nivel comunitario [48].
Evaluación de la calidad del
reensamblaje
Estadísticas de ensamblaje Usamos la herramienta de mapeo Salmon para cuantificar la abundancia de
cada contig con respecto a las lecturas sin procesar y para evaluar qué proporción de las lecturas sin
procesar estaban representadas en los contigs ensamblados.
Reportamos estadísticas descriptivas para los contigs ensamblados como un indicador de la calidad de
las secuencias ensambladas. Estos incluyen la desviación mínima, máxima, media y estándar de la longitud
del contig, así como la métrica N50. Usamos la definición de la métrica N50 como la longitud mínima entre
el conjunto de contigs que juntos constituyen el 50% de la longitud total de todos los contigs en el conjunto,
según lo informado por QUAST [63] .
Agrupación de proteínas metatranscriptómicas reensambladas con proteínas metatranscriptómicas
de diseñador derivadas de
MMETSP Para determinar si las coincidencias de secuencia exactas se compartían entre las proteínas
predichas del ensamblaje del metatranscriptoma y las proteínas del MMETSP utilizadas para crear el
metatranscriptoma de diseñador, realizamos la agrupación mmseqs2 entre los dos conjuntos de proteínas
[50]. Elegimos el algoritmo LINCLUST implementado en mmseqs2 debido a su tasa de descubrimiento falso
extremadamente baja en la agrupación [64, 65]. De acuerdo con lo que utilizaron los autores de mmseqs2,
informamos estos resultados utilizando una edad de cobertura mínima de la secuencia objetivo (covmode
1) del 90 % y una identidad de secuencia mínima del 90 %, en cuyo umbral se producen menos grupos pero
hay muy pocas posibilidades de un falso negativo, es decir, dos secuencias similares en un 90 % en el
conjunto de datos que mmseqs2 no informa.
Al evaluar la probabilidad de que los contigs se ensamblaran usando eukrhythmic para agruparse con
los contigs del diseñador, basamos la comparación en las predicciones de proteínas de TransDecoder [52]
agrupadas a través de mmseqs2. Para cada contig de nucleótido completo, consideramos que se había
"agrupado con el metatranscriptoma del diseñador" si al menos un ORF de TransDecoder se agrupaba con
éxito con una proteína del ensamblaje del diseñador, aunque el ensamblaje del transcriptoma ocurre en el
espacio de nucleótidos.
Esto nos permitió cuantificar también qué proporción de los contigs del ensamblaje eukrhythmic no se les
asignó un ORF en absoluto por el software TransDecoder.
Evaluación de proteínas metatranscriptómicas utilizando la comparación BLAST de
todos por todos Además del agrupamiento, realizamos una búsqueda de todos por BLAST entre las
proteínas de los contigs originales del MMETSP y las proteínas predichas resultantes de eukrhythmic. Se
usó un valor evalor de corte de 10−2 para capturar la coincidencia superior en el
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 12 de 36
base de bitscore, y luego los hits se clasificaron de acuerdo con su identidad porcentual y valor
de bitscore.
Anotaciones taxonómicas
Como se realizó dentro de la tubería eukrhythmic, generamos anotaciones taxonómicas tanto
para los metatranscriptomas de diseño como para los productos reensamblados de euk rítmico
con la herramienta EUKulele (versión 2.0.3) utilizando la base de datos de referencia
predeterminada de contigs de todos los transcriptomas MMETSP y la base de datos MarRef [3 , 20, 21, 66].
Informamos diferencias en el número de especies y géneros anotados de EUKulele en los
productos reensamblados en comparación con las secuencias que se prescribieron para incluirse
en el metatranscriptoma del diseñador utilizando la canalización jEUKebox. También comparamos
las anotaciones EUKulele de los metatranscriptomas del diseñador, incluidas las coincidencias
falsas sobre la base de secuencias de baja calidad que están presentes en la base de datos y
que, para empezar, no se anotaron, con las anotaciones de los productos reensamblados.
Realizamos una regresión lineal estándar sobre el número de anotaciones para cada especie,
género, orden y phylum de los metatranscriptomas del diseñador en comparación con los
productos reensamblados. También categorizamos las anotaciones taxonómicas de acuerdo a si
fueron clasificadas correctamente, incorrectamente (en conflicto con las anotaciones originales) o
no fueron clasificadas. Realizamos una prueba T de 2 muestras de Welch para muestras
independientes como se implementó en scipy [67] para comparar las abundancias sumadas de
secuencias clasificadas y no clasificadas correcta e incorrectamente.
anotaciones funcionales
Todas las anotaciones funcionales se determinaron utilizando eggNOGmapper (versión 2.1.3)
[53]. De manera similar a las anotaciones taxonómicas, se compararon las anotaciones de
términos de ortología (KO) de la Enciclopedia de genes y genomas de Kioto (KEGG) entre los
metatranscriptomas del diseñador a través de la anotación de los contigs del MMETSP y los
productos reensamblados que se recuperaron como resultado de la canalización eurítmica.
Se realizó una regresión lineal estándar para comparar la abundancia de términos de la
ortología KEGG en los metatranscriptomas del diseñador en comparación con los productos
reensamblados de eukrhythmic. La regresión y el valor de probabilidad asociado se calcularon
utilizando la implementación en base R [68].
Ensamblaje y evaluación de metatranscriptomas ambientalmente relevantes del proyecto Tara
Oceans
Reunimos metatranscriptomas del proyecto Tara Oceans [69, 70] como una contrapartida
ambiental de los datos de secuencia simulados. Se ensamblaron muestras de metatranscriptoma
de tres cuencas oceánicas distintas a partir de las muestras de superficie de fracción de pequeño
tamaño altamente diversas del proyecto Tara: el Atlántico Norte, el Océano Austral y el Mar
Mediterráneo; los números de acceso se recopilan en la Tabla 6. Ensamblamos estos
metatranscriptomas utilizando parámetros predeterminados para la tubería eukrhythmic y usamos
MEGAHIT y rnaSPAdes, que demostraron ser los ensambladores más rápidos y precisos,
respectivamente, tanto en el presente trabajo como en otras investigaciones [36 , 47]. Se
seleccionaron ensambladores de árboles para comparar los hallazgos mutuos de los tres ensambladores.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 13 de 36
al contenido de secuencia único identificado por cada uno. Evaluamos los resultados del
ensamblaje del scriptoma de metatran a través del mapeo porcentual a través de Salmon usando
la longitud de kmer predeterminada de 31, la selección automática del tipo de biblioteca y el fag –
validateMappings [71], y las anotaciones taxonómicas y funcionales proporcionadas por EUKulele
(versión 2.0 .3) y eggNOGmapper (versión 2.1.3), respectivamente [21, 53].
Estos metatranscriptomas fueron analizados previamente por [22] con secuencias transcritas de
longitud ≥150 bases ensambladas usando terciopelo [72] incluido como parte de la base de datos
“MATOU” [22]. Para comparar los contigs generados y retenidos a partir de nuestro enfoque de
ensamblador múltiple, realizamos una búsqueda blastn [73] con un corte de valor e de 1e10 para
encontrar la coincidencia de mayor puntuación de las secuencias transcritas "MATOU" con nuestras
secuencias. , y comparó los cóntigos que coincidieron correctamente con la base de datos utilizando
este método con aquellos que, de otro modo, podrían anotarse funcional y/o taxonómicamente. Las
secuencias de codificación identificadas de longitud > 150 bases se conservaron para su posterior
análisis siguiendo [22].
Reensamblaje y evaluación de metatranscriptomas previamente explorados
de la serie temporal de Narragansett Bay
Reunimos diez muestras de un estudio metatranscriptómico de 2015 de la serie temporal de
Narragansett Bay [23]. Estas muestras se almacenan con el número de acceso del proyecto del
Centro Nacional de Información Biotecnológica (NCBI) SRP055134 y a las muestras se les
asignaron números de acceso individuales recopilados en la Tabla 5. Reunimos estos metatranscript
tomos utilizando parámetros predeterminados para la tubería eukrhythmic y usamos MEGAHIT,
rnaSPAdes, metaSPAdes y Trinidad [36, 47, 48, 61]. Comparamos las anotaciones taxonómicas y
funcionales entre los ensambladores con la composición de los principales grupos taxonómicos
informados por el estudio de 2015, que utilizó el mapeo de lectura sin procesar para hacer referencia
a los ensamblajes del transcriptoma en lugar de ensamblar el metatranscriptoma en sí [23] .
También comparamos los conocimientos extraídos de los metatranscriptomas simulados a través
de jEUKebox con los patrones que surgen del uso de múltiples ensambladores en un conjunto de
datos ambientales analizados previamente.
Procesamiento y visualización de
datos Los datos de salida de las herramientas descritas se procesaron utilizando Python versión
3.8.3 [74] y R versión 4.1.0 [68]. Las figuras se generaron usando plotnine en Python [75] o ggplot2
[76] en R con organización en paneles usando patchwork 1.1.2 [77]. El análisis estadístico de los
datos se realizó con SciPy [67] o con R versión 4.1.0 [68].
Resultados
Las lecturas sin procesar simuladas se crearon usando la tubería jEUKebox descrita en los
métodos (Sección "Simulación de comunidades eucariotas usando jEUKebox") y se procesaron con
eukrhythmic. Brevemente, las lecturas se recortaron, se sometieron a una estimación de calidad y
se ensamblaron utilizando múltiples herramientas de software que se identificaron o demostraron
en estudios anteriores para funcionar bien con secuencias de ARNm transcritas, datos
metagenómicos o ambos [36, 47, 61], se agruparon , y luego fueron anotados funcional y
taxonómicamente con EUKulele (versión 2.0.3) y eggNOGmapper (versión 2.1.3) [21, 53]. Te
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 14 de 36
los detalles completos de las tuberías jEUKebox y eukrhythmic se amplían en los Materiales y
Métodos (Sección "Eukrhythmic pipeline").
El oleoducto jEUKebox genera metatranscriptomas eucariotas simulados con diversidad
de secuencia
variable Desarrollamos el oleoducto jEUKebox para facilitar la creación rápida de conjuntos de
datos metatranscriptómicos simulados completos que pueden usarse para comparar oleoductos
y software. Aquí, construimos metatranscriptomas de eucariotas marinos con diferente diversidad
de secuencias y complejidad de la comunidad aprovechando los datos de referencia del
MMETSP [3, 20]. Tratamos los conjuntos de datos simulados por jEUKebox como un estándar
de oro para evaluar el rendimiento de las canalizaciones eukrhythmic y los ensambladores que
utiliza. Se pueden encontrar más detalles sobre cómo la tubería simula lecturas sin procesar
que se asemejan al tipo de datos generados por encuestas metatranscriptómicas marinas en
Materiales y métodos (Sección " Simulación de comunidades eucariotas usando jEUKebox").
Elegimos dos grupos distintos de transcriptomas de laboratorio del MMETSP [20] para las
simulaciones para garantizar que los resultados no fueran producto de los organismos
específicos que seleccionamos. Para la selección aleatoria integrada en la canalización, el
único requisito es que algún subconjunto de los organismos que entraron en las comunidades
tuvieran un socio muy similar en la misma comunidad por puntuación de similitud de nucleótidos
calculada (Sección “Simulación de comunidades eucariotas usando jEUKebox ”). También
diseñamos la tubería jEUKebox para incluir una fracción balanceada de transcripciones comunes
que tenían un ortólogo expresado por múltiples organismos, e implementamos seis
configuraciones comunitarias distintas para simular un rango de riqueza e igualdad de especies (Fig. 2).
Los productos eukrhythmic representan con precisión las
lecturas sin procesar . La canalización eukrhythmic produjo productos reensamblados con puntajes
de asignación de porcentaje de lectura sin procesar similares a los de los ensamblajes del diseñador.
El mapeo de las lecturas sin procesar simuladas contra los productos eukrhythmic reensamblados
fue menor que contra los metatranscriptomas del diseñador contra los que fueron simulados, con un
87,5 ± 2,0 % de lecturas sin procesar simuladas mapeadas contra los productos eukrhythmic
reensamblados y un 96,0 ± 0,2 % contra el ensamblaje del diseñador (Fig. .3AC; Tabla 3). Esta
discrepancia probablemente se deba al paso de introducción del error en las lecturas sin procesar
oa conflictos entre diferentes ubicaciones de lectura sin procesar en candidatos para productos
reensamblados que el ensamblador no pudo resolver. Estos patrones se reprodujeron en el conjunto
de datos ambientales que probamos [23]: tanto el ensamblaje MAD (82,1 ± 3,8 %) como el
ensamblaje agrupado de múltiples ensambladores ("CAG"; 77,6 ± 4,5 % mapeado) superaron a
cualquier ensamblador individual con respecto al porcentaje mapeo (Fig. 3DE). En nuestros datos
simulados, rnaSPAdes tuvo el mapeo de porcentaje promedio más alto de cualquier ensamblador, y
MEGAHIT tuvo el más bajo (Fig. 3D), pero los patrones fueron ligeramente diferentes en el conjunto
de datos ambientales [23]. Si bien MEGAHIT todavía tiene un desempeño inferior al de los otros
ensambladores con respecto al mapeo porcentual (Fig. 3D, E), las comparaciones entre los
ensambladores restantes fueron menos sencillas. rnaS PAdes mostró el rendimiento individual más
alto (75,0 ± 4,7 % mapeado), seguido de SPAdes (70,5 ± 5,4 % por ciento mapeado). Sin embargo,
Trinity se desempeñó mejor en algunas muestras que en otras, por lo que mostró una mayor
dispersión en los valores porcentuales de mapeo (67,8 ± 8,6 %).
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 15 de 36
La longitud promedio de contig tendió a ser significativamente más corta en los ensamblajes
eurítmicos en comparación con los metatranscriptomas de diseño, aunque hubo una variabilidad
considerable (Fig. 3). La longitud promedio de los marcos de lectura abiertos (ORF) predicha por la
herramienta TransDecoder también fue menor en los reensamblajes eurítmicos en comparación con
las secuencias originales recuperadas de los transcriptomas MMETSP (Tabla 4; Fig. 3). Aunque todavía
sustancialmente más cortas que los metatranscritos del diseñador, las secuencias en los productos
eurítmicos que fueron recuperadas por más de un ensamblador de acuerdo con el agrupamiento
mmseqs2 tenían una longitud progresivamente más larga (longitud media de 334 pares de bases para
grupos representados por un solo ensamblador, longitud media de 960 pares de bases para grupos
representados por los cuatro ensambladores, prueba t entre distribuciones p < 0.001; Fig. 3). Estos
contigs más largos tenían una alta fidelidad con las lecturas sin procesar, como lo demuestra el acuerdo
de múltiples enfoques de ensamblaje, por lo tanto, era probable que fueran secuencias más largas
interrumpidas por menos instancias de conflicto.
La agrupación en clústeres menos estricta reduce ligeramente las
anotaciones identificadas eukrhythmic reduce la redundancia de los contigs identificados para el
ensamblaje fusionado a través de la agrupación, lo que reduce la complejidad computacional de las
operaciones posteriores en el archivo de ensamblaje más pequeño de múltiples ensambladores y
muestras múltiples. La aplicación del agrupamiento directamente a los metatranscriptomas del
diseñador reveló que el agrupamiento sustancial de proteínas y espacios solo disminuye ligeramente
las anotaciones únicas extraídas del conjunto de datos. Por ejemplo, el agrupamiento mmseqs2 con un
umbral de identidad de secuencia de 0,6 y un umbral de cobertura de 0,6 en el modo de cobertura 1
redujo la cantidad de con tigs en el ensamblado en un promedio de 23,7 % y redujo el tamaño del
archivo de ensamblado en un promedio de 21,7 %, pero solo redujo las anotaciones funcionales de la
base de datos KEGG identificadas promedio en un 1,4% y no resultó en la pérdida de ninguna especie
del conjunto de datos a través de la agrupación (Fig. 4). De forma predeterminada, eukrhythmic utiliza
un enfoque conservador de 100 % de identidad de secuencia y 98 % de cobertura para el paso de
agrupamiento más indulgente, pero descubrimos en esta prueba que los valores del 80 % para la
cobertura y la identidad de secuencia podrían reducir considerablemente el tamaño total del archivo sin
cambiar considerablemente anotaciones únicas (Archivo adicional 1: Fig. S1). Dada esta reducción
sustancial en el tamaño del archivo sin pérdida de la mayoría de las anotaciones, se pueden justificar
umbrales de agrupamiento más estrictos, especialmente en conjuntos de datos con muchas muestras o secuencias de alta profundidad.
(Vea la figura en la página siguiente).
Fig. 3 El ensamblaje "MAD" combinado mejora un conjunto de estadísticas de ensamblaje en relación con los ensamblajes individuales.
Se muestran estadísticas de ensamblaje básicas para los reensamblajes eurítmicos (por muestra) en comparación con los metatranscriptomas del
diseñador. Una distribución de mapeo de porcentaje de Salmon para el diseñador frente a metatranscriptomas reensamblados. B Distribuciones de longitud
de contig normalizadas logarítmicamente comparadas entre diseñador y reensamblado. C Fracción por secuencia del contenido de GC para el
diseñador en comparación con los reensamblajes.
D Mapeo porcentual usando Salmon de conjuntos de datos simulados, separando por el mapeo porcentual de ensamblajes individuales usando cada
ensamblador probado (distribuciones más bajas), grupos de ensamblaje agrupados en un ensamblaje con múltiples ensambladores subyacentes
("CAG"), y todos los ensambladores y ensamblajes consolidados (" ENOJADO"). Todas las estimaciones de mapeo porcentual se realizaron de forma
independiente para cada conjunto de lecturas sin procesar de los datos subyacentes. E Datos ambientales de Narragansett Bay utilizando las mismas
comparaciones que el Panel D.
Las líneas verticales en los paneles D y E corresponden a los valores medios de la distribución o conjunto de distribuciones representadas por el color
de cada línea vertical
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 16 de 36
Fig. 3 (Ver leyenda en página anterior.)
El ensamblaje del metatranscriptoma eucariota recapitula con precisión la diversidad
taxonómica simulada En general, todos los ensambladores se desempeñaron bien con respecto
a la recuperación de las principales anotaciones taxonómicas de los metatranscriptomas
simulados. La herramienta EUKulele asignó anotaciones a nivel de género al 94,8 ± 2,2 % de todos los contigs recuperados
Más
información:
https://
github.com/
jEUKebox
AlexanderLabWHOI/ ensambladores
que
luego
se
agruparon
utilizando
configuraciones
eukrhythmic
predeterminadas.
Se
presenta
la
media
En y
desviación
estándar
de
cuatro
ensayos
de
cada
comunidad
y
una
lista
de
identificaciones
este MMETSP.
También
mostramos
la
cantidad
de
géneros
que
(1)
se
incluyeron
originalmente
a
través
de
transcriptomas
aprovechados
del
análisis
se MMETSP
(2)
identificados
usando
EUKulele
dentro
de
los
metatranscriptomas
utilizaron
cuatro simulados
y
(3)
recuperados
en
los
datos
reensamblados
después
de
la
aplicación
de
la
canalización
eukrhythmic .
Para
los
KO
ID
funcionales,
solo
se
pudieron
comparar
los
ensamblajes
del
diseñador
y
los
productos
eukrhythmic
reensamblados.
Se
proporciona
como
complemento
una
versión
de
esta
tabla
en
la
que
las
dos
comunidades
distintas
diseñadas
a
partir
del
MMETSP
(la
combinación
de
las
dos
contribuye
a
una
desviación
estándar
relativamente
alta)
se
presentan
por
separado.
6 5 4 3 2 1 Comunidad Tabla
3
Tamaño
de
ensamblaje
resultante
y
recuperación
taxonómica,
funcional
y
de
contenido
central
de
las
salidas
después
de
jEUKebox
la
simulación
de
lectura
sin
procesar
y
el
reensamblaje
con
eukrhythmic
52795
±
5152
31,2
±
2,9 44262
±
6254
25,9
±
3,2 49911
±
6524
29,5
±
4,7 47862
±
7756
28,0
±
5,2 44180
±
3486
26,1
±
2,6 51741
±
6031
32,6
±
3,6 cóntigos Simulado
Clústeres Contigo ensamblado Número
de
59826
±
4076
5,6
1,3 50042
±
5395
3,8
±
0,9 57262
±
6752
5,1
±
1,4 53379
±
6921
4,4
0,9 49354
±
4948
3,2
0,9 59489
±
4825
3,8
0,5 Tamaño
(MB) Asamblea
géneros MMETSP
6,2
±
1,2 4,6
±
1,1 5,9
±
1,1 5,0
±
0,0 4,4
±
1,2 4,4
±
1,1 géneros Diseñador
2,8
±
0,7 2,8
±
0,7 3,2
±
1,0 3,6
±
0,9 3,4
±
0,7 3,1
±
1,1 géneros Recuperado
6,4
±
0,9 3,9
±
0,8 5,8
±
0,9 4,5
±
0,9 3,4
±
0,7 3,9
±
0,4 Especies MMETSP
7,2
±
0,7 5,0
±
0,9 6,6
±
0,9 5,2
±
0,5 4,6
±
1,1 4,9
±
0,6 Especies Diseñador
3,2
±
1,0 2,8
±
0,7 3,4
±
0,9 3,2
±
0,7 3,2
±
0,7 3,5
±
1,3 Especies Recuperado
3049,9
±
355,6
1882,6
±
156,9 3226,0
±
545,6
1720,6
±
127,9 3284,8
±
204,2
1895,8
±
149,2 3346,4
±
369,2
1879,2
±
154,7 3422,5
±
412,1
1816,9
±
188,8 3435,1
±
429,6
1941,2
±
161,5 KO
distintosDiseñador
KO
distintos Recuperado
Página 17 de 36 Krinos et al. BMC Bioinformática 2023, 24(1):74
Machine Translated by Google
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 18 de 36
Tabla 4 Comparación de la longitud promedio de las secuencias en los metatranscriptomas del diseñador
en comparación con los reensamblajes eurítmicos
Se proporcionan tanto la longitud promedio de las secuencias de nucleótidos como las secuencias de proteínas predichas por TransDecoder, así
como la fracción promedio del contenido de GC para las secuencias de nucleótidos.
Fig. 4 La agrupación en clústeres del ensamblaje del diseñador escala el tamaño del ensamblaje y la cantidad de anotaciones recuperadas.
La agrupación se realizó en el conjunto original de contigs del "metatranscriptoma de diseñador" de las referencias MMETSP
utilizando la herramienta mmseqs2 [50]. Se examinó el efecto del nivel de cobertura (color) y el porcentaje de identidad (tamaño) a
través de mmseqs2 en el tamaño del archivo, el número de secuencias anotadas a nivel de género y el número de secuencias con
anotaciones funcionales en relación con el conjunto no agrupado. El diagrama de caja que subyace a cada conjunto de puntos destaca
la distribución de proporciones en relación con el conjunto no agrupado. eukrhythmic utiliza un nivel de cobertura de 0,98 y una
identidad de secuencia de 1 para el agrupamiento mmseqs2. Consulte el archivo adicional 1: Fig. S1 para obtener un resumen
gráfico más detallado de la influencia de la identidad de secuencia y la cobertura en el tamaño del ensamblaje recuperado y sus
anotaciones funcionales y taxonómicas.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 19 de 36
Tabla 5 ID de muestras y números de acceso para las muestras de la bahía de Narragansett. La información
descriptiva sobre las condiciones de la muestra se reproduce de [23]
Tabla 6 ID de muestra y números de acceso para los 15 metatranscriptomas de Tara Oceans ensamblados como
parte de este proyecto, incluida la cuenca oceánica de la que se tomaron muestras
Todas las muestras analizadas se recogieron de aguas superficiales.
que coincidieron con los géneros encontrados en los transcriptomas MMETSP
seleccionados utilizados para simular los metatranscriptomas (97.7 ± 2.2% de contigs
anotados). En general, el número de anotaciones en conflicto con la anotación a nivel de
género asignada en base al MMETSP fue similar en los metatranscriptomas del
diseñador en comparación con los ensamblajes generados por eukrhythmic. La regresión
lineal calculada entre las anotaciones a nivel de género de los ensamblajes del
diseñador y los reensamblajes eurítmicos fue casi uno a uno: Reensamblaje = −1353 +
1,02 (Diseñador); R = 0,95; p =< 8.2e − 184; tenga en cuenta que la intersección es
relativa a las abundancias totales del orden de 105. Esto indica que la abundancia total
de cada anotación a nivel de género evaluada por la cuantificación de Salmon coincidió
bien entre los metatranscriptomas del diseñador y los productos reensamblados de eukrhythmic.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 20 de 36
A pesar de este rendimiento, faltaban algunas anotaciones a nivel de género basadas en
los contigs proporcionados por el MMETSP. Entre todos los ensayos, un promedio de 1,3 ±
1,9 géneros de un promedio de un total de 6,1 ± 2,7 géneros no fueron recuperados por el
reensamblaje eurítmico, a pesar de estar presentes en los transcriptomas MMETSP que se
usaron para crear cada comunidad (ver Tabla 2 ). Como muchas de estas anotaciones
también faltaban en las anotaciones de EUKulele en los contigs de MMETSP (1.9±1.9
géneros), es posible que estos contigs simplemente no hayan sido lo suficientemente
distintos de los transcriptomas de otros organismos en la base de datos para ser anotados,
potencialmente debido a la longitud de la secuencia o la especificidad. Utilizando las
anotaciones EUKulele en lugar de la anotación taxonómica del transcriptoma del que se
tomaron los contigs originales, no se encontraron 2,8 ± 1,7 géneros en los resultados
reensamblados eurítmicos en comparación con las anotaciones EUKulele originales de los
ensamblajes del diseñador. Se asignó un promedio de 39,3 ± 12,9 anotaciones distintas a
nivel de género en la salida rítmica euk en comparación con 6,1 ± 2,7 géneros MMETSP
distintos que se utilizaron para generar las muestras debido a que se anotaron con éxito
como géneros similares presentes en el MMETSP. Estos contigs anotados taxonómicamente
de forma espuria constituían tanto una minoría del total de contigs ensamblados como una
abundancia estimada de las lecturas sin procesar simuladas (archivo adicional 1: Fig. S6), y
la aparición de estas anotaciones espurias podría reducirse con parámetros EUKulele más
estrictos, aunque a expensas de algunas anotaciones correctas.
Las anotaciones de secuencia se clasificaron según se alinearan o no con las anotaciones
a nivel de género del MMETSP (Fig. 5). No hubo una diferencia estadísticamente significativa
entre la abundancia sumada por muestra de contigs anotados incorrectamente entre el
diseñador y los productos reensamblados eurítmicos (T = −0.084; p = 0.93), sin embargo, los
contigs anotados correctamente fueron significativamente más abundantes en los
ensamblajes de diseñador (T=−5.28; p=8.3e−7) y los contigs no anotados fueron
significativamente más abundantes en los ensamblajes eurítmicos (T=5.43; p=4.5e−7).
Las anotaciones funcionales del ensamblaje del metatranscriptoma coinciden con la
abundancia y diversidad de funciones
en los transcriptomas del diseñador. Las anotaciones funcionales se recuperaron con una
frecuencia similar y una abundancia relativa en los productos reensamblados eurítmicos en
comparación con los ensamblajes del diseñador (Fig. 6; Archivo adicional 1: Fig. S7), y
también entre ensambladores (Archivo adicional 1: Fig. S13). Como promedio general entre
los grupos y muestras del MMETSP, 5820,6±349,6 términos ortológicos KEGG (KO) se
recuperaron correctamente de los ensamblajes del diseñador, 820,3±163,7 fueron "falsos
positivos" que se recuperaron en los ensamblajes eurítmicos pero no en los ensamblajes
originales del diseñador , y 473,8±107,6 fueron identificados en el ensamblaje del diseñador
pero no recuperados por euk rítmico. Sin embargo, los KO falsos positivos y no recuperados
tendieron a tener una baja abundancia en comparación con los que se identificaron
correctamente: en promedio, hubo 1566,5 ± 321,3 ocurrencias totales de anotaciones de KO
falsos positivos por muestra en los reensamblajes eurítmicos y 107,6 ± 204,7 ocurrencias
totales de anotaciones de KO que no se encontraron en los reensamblajes eurítmicos en los
ensamblajes de diseñador, en comparación con un promedio de 132751.9±10176.5 ocurrencias en los ensamblajes de dise
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 21 de 36
Los reensamblajes de la figura 5 eukrhythmic recapitulan con precisión la información taxonómica. Transcripciones sumadas
por millón (TPM) según lo informado por el mapeo de Salmon del ensamblaje del diseñador en comparación con
el reensamblaje eukrhythmic. Cada punto representa un género; la línea punteada es una línea 1 a 1 (y = x), o
colección de transcriptomas de referencia del MMETSP. El tamaño del círculo corresponde al tipo de comunidad (1–6)
como se describe en el texto; cabe destacar que algunas comunidades tienen géneros muy abundantes, como los círculos
más pequeños correspondientes a la Comunidad 1. B Suma de TPM total en el diseñador frente a reensamblajes que
correspondían a géneros que (1) coincidían con los géneros de los transcriptomas MMETSP originales, ( 2) entraban en
conflicto o no coincidían con los géneros de los transcriptomas MMETSP originales, o (3) no estaban anotados, según
EUKulele. C El número de géneros que coincidieron (verdaderos positivos), no coincidieron (falsos positivos) o no fueron
anotados (falsos negativos según la precisión de la base de datos). Como se muestra en el panel B, los contigs no anotados
a nivel de género fueron más abundantes en los reensamblajes que en los metatranscriptomas del diseñador. También hubo
más coincidencias estadísticamente significativas en los metatranscriptomas del diseñador que en los reensamblajes de
eukrhythmic. Sin embargo, se produjeron falsos positivos a una tasa similar entre los dos tipos de ensamblaje, lo que indica
que es más probable que estos fueran producto de la calidad original de los contigs del MMETSP o su capacidad para
clasificarse de forma única.
ensamblaje de diseñador y 116489.5 ± 9961.0 ocurrencias en los reensamblajes eurítmicos
de KO que se recuperaron mutuamente antes y después del proceso de reensamblaje. Una
regresión lineal con una intersección y impuesta de cero como se calcula en R [68] reveló una
relación de abundancia de KO reensamblados = abundancia de KO del diseñador ∙ 0,96 con
un R2 ajustado de 0,85 ( p = 2,2e−16), lo que indica un casi uno Relación uno a uno entre las
abundancias de cada KO en el ensamblaje del diseñador y en los productos reensamblados
(incluidos los falsos positivos y los KO que faltan en los reensamblajes eukrítmicos; Fig. 6).
La gran mayoría de los KO también recuperados en los ensamblajes del diseñador fueron
identificados por las cuatro herramientas de ensamblaje (5326,6±247,9 KO en todas las
muestras). rnaSPAdes recuperó individualmente la mayor cantidad de KO únicos que también
se encontraron en el ensamblaje de diseñador de cualquier ensamblador (96,0±20,4), pero
rnaSPAdes también generó la mayor cantidad de KO que no se encontraron en los
ensamblajes de diseñador (176,4±26,5), casi el doble del número que recuperó de forma
única (Fig. 6). rnaSPAdes también tuvo el mayor número de proteínas que tuvieron y no
tuvieron un BLAST exitoso ([73, 78, 79], Fig. 7).
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 22 de 36
Fig. 6 Hallazgos de anotaciones funcionales del reensamblaje eurítmico de las lecturas sin procesar simuladas de los
metatranscriptomas del diseñador. Un resumen de la recuperación de KO, que muestra el número total de KO recuperados
por el reensamblaje eurítmico que estaban presentes en los transcriptomas originales "Match", aquellos que estaban
en los reensamblajes eurítmicos que no estaban presentes en el conjunto original del diseñador "falsos positivos" , y los que
estuvieron presentes en los ensamblajes de diseñador pero no recuperados por eukrhythmic “not retrieved”. B el número de
ocurrencias de cada KO se compara entre los metatranscriptomas del diseñador (eje horizontal) y los reensamblajes eurítmicos
(eje vertical). La línea diagonal punteada indica la línea uno a uno. C estas incidencias de cada KO en los ensamblajes
de diseñador y los reensamblajes eurítmicos se dividen por los ensamblajes individuales de los que se recuperó cada
KO ("recuento de incidencias" es el número de KO que cumplen cada categoría). Se muestra que la mayoría de todos los KO
recuperados son recuperados por los cuatro ensambladores y están presentes en los metatranscriptomas del diseñador. Las
partes de la barra coloreadas en gris indican que estos KO fueron recuperados por todos los ensambladores enumerados,
pero no se encontraron en el ensamblaje del diseñador. D Datos ambientales para KO de Narragansett Bay en
comparación con el Panel C
Aplicación de la tubería eukrhythmic a conjuntos de datos metatranscriptómicos
ambientales Para comparar la tubería eukrhythmic y proporcionar ejemplos de los posibles
conocimientos biológicos que se pueden extraer del enfoque de ensamblaje, reunimos y anotamos
muestras de dos conjuntos de datos metatranscriptómicos. Primero, elegimos dos conjuntos de
muestras del proyecto Tara Oceans como un conjunto representativo de datos oceanográficos
generales: un conjunto del Océano Austral y otro del Mar Mediterráneo, dos cuencas oceánicas
con niveles contrastantes de diversidad (Fig. 8A–C) . Descubrimos que eukrhythmic expande la
cantidad total de datos de secuencias de codificación de protistas que se pueden recuperar
desde cualquier parte del océano global. También reunimos un conjunto de datos
metatranscriptómicos de un estudio publicado previamente en la Bahía de Narragansett como un
ejemplo costero con un grupo taxonómico dominante (es decir, un escenario canónico de
"floración"). Observamos que, si bien eukrhyth mic recapitula muchos de los patrones generales
de un estudio basado en el mapeo de lectura directa, el enfoque de ensamblaje supera al mapeo
de lectura directa con respecto al número de representantes distintos de diatomeas recuperados,
el grupo taxonómico dominante (Bacillari ophyta) en las muestras. .
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 23 de 36
La figura 7. El agrupamiento de mmseqs2 en eukrhythmic colapsa las secuencias redundantes y resalta las
diferencias entre ensambladores en la fidelidad de las proteínas recuperadas a las proteínas de diseño. Panel A El
número total de contigs por grupo separados por los ensambladores de los que se recuperaron. rnaSPAdes produjo el mayor
número de contigs en general de forma independiente, que fue un número general más alto que los contigs que fueron
producidos por los cuatro ensambladores (diagrama de caja del extremo derecho en el panel A). Panel B La proporción de
grupos mmseqs2 de proteínas que no se agruparon con proteínas del ensamblaje del diseñador en función del número de
ensambladores representados dentro del grupo. Los productos proteicos respaldados por el ensamblaje de los cuatro
ensambladores tenían menos probabilidades de ser "falsos" o no recuperables del ensamblaje del diseñador. Panel C
Número de contigs a los que no se les asignó ORF de proteína a través de TransDecoder (negro) en comparación con
contigs con proteínas que tienen coincidencias BLAST según algún porcentaje de identidad. La primera barra apilada
corresponde a contigs que tenían un ORF detectado y una coincidencia BLAST con un porcentaje de identidad >75 % en un
umbral de valor e de 10−2. Archivo adicional 1: la Fig. S11.4 muestra los contigs del ensamblaje del diseñador que originalmente
no tenía un ORF identifcado
Los ensamblajes eurítmicos de Tara Oceans contienen secuencias de
codificación que
carecen de representación en el atlas de genes "MATOU".
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 24 de 36
Fig. 8 Conjunto de datos de la bahía de Narragansett de Alexander et al. (2015) [23] ensamblado usando eukrhythmic. A La
correspondencia entre la proporción de lecturas sin procesar totales en (y) este estudio frente a (x) [23]. Cada punto
representa un tiempo de muestreo, y Bacillariophyta agrega todas las diatomeas que no son de Skeletonema ni de
Thalassiosira. B Desglose taxonómico a nivel de familia del mapeo de lectura sin procesar de [23] (izquierda) en comparación con este estudio.
C Lecturas sin procesar normalizadas logarítmicamente asignadas a cada familia taxonómica comparadas entre los dos
estudios. D Especies de Skeletonema representadas en el reensamblaje eukrhythmic que representa parte de la diversidad dentro de
este género que se sabe que muestra dominancia estacional en la bahía de Narragansett
aciertos signifcativos en el atlas de genes compuestos "MATOU" en todos los metatran scriptomas de Tara
Oceans seleccionados por [22] (Fig. 8DF; mapeo porcentual de estas secuencias de codificación a las lecturas
sin procesar en comparación con todos los contigs que se muestran en el archivo adicional 1: Fig . . S20). Un
promedio del 16,1 % de todas las secuencias de codificación del Mar Mediterráneo y el 18,8 % de todas las
secuencias del Océano Austral no tenían ninguna coincidencia con el contenido de la secuencia de codificación
recuperada previamente en la base de datos de MATOU, que incluye secuencias de codificación de todas las
principales cuencas oceánicas del mundo. Estos resultados indican la expansión de las secuencias de
codificación logradas mediante el uso de eukrhythmic, pero también que el número total de secuencias de
codificación no se expande uniformemente entre las muestras (Fig. 8E); mientras que en algunas muestras
>75% de las secuencias de codificación no coincidían con la base de datos MATOU, en otras era <10%.
No se pudo asignar una anotación taxonómica a través de EUKulele hasta al 41,3% de los productos de
secuencia de codificación del ensamblaje para cada muestra, pero más aún en muestras del mar Mediterráneo
(archivo adicional 1: Fig. S21) ; Mar Mediterráneo medio:
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 25 de 36
34,8 ± 5,2 %, media del Océano Austral 28,0 ± 4,4 %). Entre la fracción de secuencias que tenían
anotaciones taxonómicas EUKulele y que no se encontraron en la base de datos de MATOU, los
dinofagelados dominaron el número registrado de secuencias de codificación recuperadas en
ambas cuencas (media del Mar Mediterráneo: 12,0 ± 7,7 %, media del Océano Austral : 34,0 ± 10,1
% ; Figura 8F). Los dinofagelados también dominaron en términos de proporción promedio de TPM
total (SO: 30.3±11.1%; MS: 8.6±6.6%), pero no en términos de TPM crudo promedio asignado en
el Océano Austral (SO: Ochrophytes tuvo el TPM asignado más alto en 32853,1±66098,9, mientras
que los dinofagelados tenían 31853,4±82808,6 TPM asignado), porque algunas muestras
dominadas por dinofagelados también tenían un número relativamente bajo de lecturas asignadas
a secuencias de codificación que no se encuentran en la base de datos de MATOU (Fig. 8E, F) .
Toda la información de la anotación taxonómica para la fracción de las secuencias eukrhythmic
que tenían una anotación EUKulele se resume en el archivo adicional 1: Fig. S22.
Nuestros esfuerzos amplían el contenido de la secuencia de codificación total disponible de los
metatranscriptomas oceánicos globales, pero también resaltan la necesidad continua de intercomparación
de enfoques. La longitud promedio de las secuencias de codificación que no coincidieron con la base de
datos de MATOU fue de 466,9 ± 243,1 bases, mientras que la longitud promedio de las secuencias de
codificación que sí coincidieron fue de 613,5 ± 438,0 bases (Archivo adicional 1: Figs. S23, S24 ). La
longitud promedio de las secuencias de codificación con coincidencia (es decir, recuperadas por ambos
esfuerzos de ensamblaje) fue significativamente más larga (t = 720.86; p <1e16). El uso de un tamaño k
mer de 63 con el ensamblador velvet de [22] también puede haber contribuido a este resultado: el
ensamblador rnaSPAdes, por ejemplo, tiene en cuenta el nivel de cobertura variable de los datos de
expresión al usar un tamaño kmer que varía dinámicamente con la longitud de lectura [36]. En ocasiones,
este enfoque aumenta la tasa de errores de ensamblaje, pero también evita que se pasen por alto los genes
que rara vez se expresan [36]. Debido a que las comunidades eucariotas en el océano microbiano pueden
ser escasas y contener taxones raros, argumentamos que se justifica un enfoque de ensamblaje más
exhaustivo, incluso si se reduce la longitud promedio de las secuencias ensambladas.
Ensamblaje de Tara Oceans Secuencias no codificadas y fidelidad de lectura sin procesar
Las asambleas de Tara Oceans del Mar Mediterráneo y el Océano Austral variaron
en su composición global así como en la precisión de su recuperación en el proceso de montaje. Si bien
enfocamos el resto de nuestro análisis en las secuencias de codificación predichas para compararlas con el
análisis de [22], notamos que a través del mapeo de Salmon, un promedio de 30.1±10.7% de las lecturas
sin procesar para las muestras del Mar Mediterráneo se mapearon de nuevo a la codificación. secuencias,
en comparación con el 51,5 ± 13,3 % para el ensamblaje completo, mientras que en las muestras del
Océano Austral, el 51,5 ± 11,6 % de las lecturas sin procesar se asignaron a secuencias de codificación en
comparación con el 76,4 ± 10,3 % para el ensamblaje completo (Archivo adicional 1 : Figura S22). Esto
indica que, en ambos casos, una fracción sustancial (>20 %) de las lecturas sin procesar originales se
pueden ensamblar en contigs, pero parecen no codificarse. Estas secuencias no codificantes pueden estar
involucradas en importantes procesos regulatorios [80, 81], como el estrés por nutrientes en las diatomeas
[82], por lo que no deben excluirse de la consideración.
Múltiples ensambladores mejoran el ensamblaje del metatranscriptoma del fitoplancton de
la bahía de
Narragansett Evaluamos la tubería eukrhythmic utilizando un conjunto de datos metatranscriptómico marino
analizado previamente [23] (Fig. 9). En particular, pudimos recapitular la
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 26 de 36
Fig. 9 Reensamblajes de Tara Oceans usando eukrhythmic (Carradec et al. (2018) [22]). Un mapa que muestra las
ubicaciones de las muestras de Tara Oceans reensambladas. Los recuadros sobre las regiones están expandidos en
los Paneles B y C. B Muestras del Mar Mediterráneo. Los números indican las estaciones de Tara Oceans. C Muestras del
Océano Austral. Al igual que en el Panel B, los números indican las estaciones de Tara Oceans. D superposición entre
ensambladores de las lecturas asignadas a las secuencias de codificación. El eje x indica las anotaciones asignadas a
cada una de las secuencias de codificación, y el eje y muestra la suma de lecturas entre muestras asignadas a las
secuencias de codificación para esa categoría. E Fracción de secuencias de codificación que coincidieron o no con la base de
datos de MATOU. Los tonos de azul indican secuencias de codificación recuperadas solo por este estudio. El segmento
superior indica las secuencias de codificación sin anotaciones funcionales o taxonómicas, seguido de la proporción
de secuencias con anotaciones funcionales y taxonómicas ("ft"), la proporción con solo anotaciones funcionales ("f") y
la proporción con solo anotaciones taxonómicas (" t”). Lo mismo se muestra en tonos de naranja para las secuencias de
codificación ensambladas de este estudio que tenían una coincidencia signifcativa con la base de datos MATOU. El eje y
muestra la muestra de Tara Oceans codificada por colores. F: la fracción de TPM asignada a secuencias de codificación con anotaciones taxonómicas recuperadas.
Estos son de las barras "ft" y "t" "No en MATOU" en el Panel E. Los dinofagelados dominan muchas de las muestras del Océano
Austral, particularmente para aquellas secuencias de codificación que no se pudieron anotar taxonómicamente
composición taxonómica de la comunidad dominada por diatomeas descrita en [23]. En todos los
ensambladores, se sugirió que representantes del filo Ochrophyta eran miembros dominantes de
la comunidad (Fig. 9A, D; archivo adicional 1: Fig. S19) y, además, los géneros Skeletonema y
Talassiosira se recuperaron en las proporciones esperadas, con Esqueletoma que produce una
floración numéricamente dominante determinada a través de recuentos de células obtenidos por
microscopía en la muestra S2 (archivo adicional 1: Fig. S15). En particular, nuestro ensamblaje
recuperó una mayor diversidad de especies de diatomeas que el método de mapeo de lectura sin
procesar utilizado anteriormente (Fig. 9; [ 23]), incluida la recuperación de múltiples especies de
Skeletonema que se sabe que están presentes en este ecosistema ( [83]; figura 9D).
Si bien los patrones amplios en las anotaciones taxonómicas eran indistinguibles entre los
diferentes ensambladores y la mayoría de las ID de KEGG Orthology (KO) fueron recuperadas por
los cuatro ensambladores (Fig. 9B, C), los ensambladores mostraron algunas diferencias con
respecto a la abundancia de cada anotación funcional. . En particular, MEGAHIT informó menos
instancias de cada grupo funcional de genes que rnaSPAdes, y menos que Trinity aproximadamente
la mitad de las veces (Fig. 9; Archivo adicional 1: Fig. S12). rnaSPAdes pareció informar una menor
abundancia general de diatomeas cuando se usó la métrica TPM normalizada devuelta por Salmon
[71] , pero este patrón no se mantuvo cuando se usaron lecturas sin procesar no normalizadas en
su lugar (Fig. 9; Archivo adicional 1: Figs. 14, 15, 16). cóntigos
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 27 de 36
generados por los ensambladores que se anotaron con éxito como Skeletonema o algunas otras
diatomeas parecían tener una longitud promedio más larga que el promedio entre todos los
taxones (longitud media de Skeletonema contigs con error estándar de la media: 618,6 ± 0,7 ;
media general : 396,6 ± 0,07 ; Prueba t de dos muestras t = 310.17 p < 2.2e − 16; Archivo adicional 1: Fig.
S18). rnaSPAdes produjo una cantidad desproporcionadamente alta de contigs en relación con
los otros ensambladores, muchos de estos contigs pertenecientes a taxones que no son de
diatomeas (archivo adicional 1: Fig. S18). Estos contigs también tendieron a ser más cortos en
los ensamblajes de rnaSPAdes, tanto para taxones que no son de diatomeas (media de
rnaSPAdes ± error estándar = 377,7 ± 0,1; media general = 421,1 ± 0,09; prueba t t = −367,17, p
< 2,2e − 16 ) y para contigs no anotados (media de rnaSPAdes ± error estándar = 264,7 ± 0,7;
media general = 300,8 ± 0,07; prueba t t = −498,5, p < 2,2e − 16). Si bien estas diferencias
fueron universales para contigs no anotados y no diatomeas, rnaSPAdes produjo contigs de
Skeletonema más cortos que Trinity (t = −101.1; p < 2.2e 16), pero contigs de Skeletonema más
largos que ambos MEGAHIT (t = 41.6; p < 2.2e − 16) y PICAS (t=64,0; p < 2,2e − 16).
Discusión
El análisis del metatranscriptoma se ha convertido en un enfoque generalizado para extraer información
taxonómica y funcional de las comunidades de protistas en una variedad de entornos que van desde los
ecosistemas marinos costeros hasta los de océano abierto y los ecosistemas del suelo [12–14, 23, 69 ,
84 ]. Aquí, diseñamos una canalización de múltiples ensambladores para el ensamblaje scriptomic de
metatran, eukrhythmic, y evaluamos su rendimiento tanto en datos de metatranscriptoma simulados del
MMETSP [20] como en conjuntos de datos de metatranscriptoma publicados previamente [22, 23]. Al hacer
esto, exploramos el rendimiento relativo de los ensambladores de uso común y determinamos que un
enfoque de múltiples ensambladores mejora los resultados del ensamblaje del metatranscriptoma con
respecto a la recapitulación de proteínas y sus anotaciones taxonómicas y funcionales.
Canalizaciones escalables y reproducibles como eukrhythmic mejoran la intercomparación y
hacen avanzar la investigación computacional
Eukrhythmic permite el procesamiento simultáneo de muchos metatranscriptomas a la vez, y su diseño
modular permite reprocesar de manera reproducible los resultados de análisis anteriores a medida que se
dispone de nuevas herramientas. A medida que los conjuntos de datos se vuelven más grandes, las
preguntas de investigación ahora apuntan a abordar preguntas ambiciosas a través de escalas de espacio
y tiempo. Los conjuntos de datos cada vez más complejos requieren una gestión cuidadosa del flujo de
trabajo [85, 86]. Hemos desarrollado una canalización que gestiona grandes conjuntos de datos
metatranscriptómicos con el objetivo de evaluar la diversidad y la función de los protistas marinos, y hemos
demostrado la utilidad de nuestra herramienta modular a través de los nuevos conocimientos que la
herramienta extrae de los metatranscriptomas publicados y analizados previamente [22, 23 ] . En particular,
el nuevo análisis de los datos de [22, 23] destaca los conocimientos analíticos ampliados que podrían
derivarse de un enfoque de ensamblador múltiple como el proporcionado por eukrhythmic, y estos conjuntos
de datos pueden continuar siendo reanalizados de manera reproducible con eukrhythmic como Se dispone de herramientas de montaje mejorad
Además, a pesar de los aproximadamente dieciséis pasos de software discretos que ocurren durante una
ejecución de eukrhythmic, los procesos se ejecutan en paralelo y se pueden implementar en el clúster, lo
que significa que el reanálisis que normalmente tomaría varios días por muestra ahora podría tomar la
misma cantidad de tiempo. para todo el proyecto, en función de los recursos.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 28 de 36
¿Los metatranscriptomas capturan la diversidad de las comunidades de protistas?
Los metatranscriptomas ambientales son un mosaico comunitario de señales de expresión efímeras
basadas en ARN. Los metatranscriptomas son cada vez más una herramienta de diagnóstico de rutina
para sacar conclusiones importantes sobre la composición y función de la comunidad dentro de los
sistemas marinos [12–14, 23, 69, 87, 88], y se están aplicando para establecer comparaciones a escala
global [22, 69] y más. largos períodos de tiempo [8991]. A pesar de esto, aún no se han establecido las
mejores prácticas para la recolección física, el procesamiento molecular y los análisis bioinformáticos
[86]. Hacia la estandarización de los enfoques computacionales para la metatranscriptómica de protistas
marinos [86], hemos demostrado que una tubería de ensamblaje de metatranscriptoma eucariota de
varios niveles recapitula contigs anotados de una comunidad de transcriptomas simulados. En particular,
los contigs producidos a partir de múltiples ensambladores tienden a ser de la más alta calidad con
respecto a su similitud con los contigs originales de los ensamblajes del transcriptoma a través de
anotaciones de agrupamiento, taxonómicas y funcionales. Encontramos que los enfoques
metatranscriptómicos para evaluar la diversidad y la función de la comunidad en el medio ambiente están
recapitulando de manera adecuada y reproducible la diversidad taxonómica y funcional del grupo de
ARN y de esos entornos cuando usan enfoques de ensamblaje similares a los empleados por eukrhythmic .
Nuestro reensamblaje de conjuntos de datos metatranscriptómicos ambientales destaca aún más el
poder del enfoque de ensamblador múltiple en la recuperación del contenido genético novedoso. En las
muestras de la bahía de Narragansett [23], dominada por diatomeas, recuperamos una mayor diversidad
de diatomeas que el mapeo de lectura sin procesar solo en el análisis original, un nivel de diversidad que
se alinea con otros estudios de la región [83]. A partir de las muestras de Tara Oceans, encontramos
secuencias de proteínas novedosas no recuperadas e incluidas en un esfuerzo de análisis global
integral utilizando un solo ensamblador [22], más de la mitad de las cuales tenían anotaciones funcionales
y/o taxonómicas. Incluso cuando las secuencias de codificación finales se agruparon y solo se retuvieron
los contigs de longitud suficiente siguiendo [22], todas las muestras contenían secuencias de codificación
previamente desconocidas, y algunas muestras contenían más secuencias desconocidas que conocidas.
Aunque no todas estas secuencias de codificación pueden anotarse, se han hecho progresos recientes
para anotar genes de función desconocida [92], que pueden ser muy abundantes en los datos
metatranscriptómicos. Estos resultados demuestran el valor de volver a ensamblar conjuntos de datos
previamente analizados utilizando múltiples herramientas con diferentes algoritmos subyacentes.
Una nota importante es que incluso el mejor recurso que tenemos disponible para la anotación
taxonómica basada en el consenso de ensamblajes de metatranscriptomas de comunidades mixtas de
novo limita nuestros esfuerzos antes de comenzar: los transcriptomas secuenciados derivados de
laboratorio de organismos individuales no pueden ser completamente anotados inversamente. En otras
palabras, incluso cuando usamos herramientas de búsqueda de secuencias para recuperar la anotación
taxonómica de un contig presente en la base de datos, algunas de estas secuencias son demasiado
cortas o comparten un porcentaje no despreciable de secuencias entre organismos y no se pueden
anotar a un fino. nivel de resolución, incluso en su estado no modificado. En estos casos, el hecho de
que podamos recuperar muchos, pero no todos, de los contigs originalmente anotados después de
aplicar ingeniería inversa a la comunidad nos dice más sobre los límites de la anotación taxonómica a
través de secuencias de lectura corta que sobre las trampas del ensamblaje. proceso. Por lo tanto, es
fundamental que sigamos considerando las deficiencias del proceso de anotación a medida que
analizamos y volvemos a analizar los conjuntos de datos metatranscriptómicos.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 29 de 36
¿Existe un mejor ensamblador para los metatranscriptomas ambientales eucarióticos?
Un objetivo adicional de nuestro análisis fue comparar el desempeño de diferentes ensambladores en los
datos del metatranscriptoma eucariota y determinar si se justifica el uso de múltiples ensambladores.
Según nuestros resultados, ninguno de los ensambladores que evaluamos (MEGAHIT [47], rnaSPADes
[36], metaSPAdes [48] y Trinity [61]) es universalmente la mejor opción. El ensamblaje de secuencias de
novo tiene consideraciones tanto técnicas como prácticas. Más allá de simplemente equilibrar el tiempo
de ejecución, los requisitos de memoria y la precisión óptima, el rendimiento de los ensambladores es difícil
de evaluar. En particular en asambleas comunitarias, la profundidad de secuenciación baja puede
complicar los enfoques típicos utilizados para reducir los efectos del error de secuenciación. En nuestro
estudio, dos ensambladores se destacaron como los sujetalibros del espectro de enfoques de ensamblaje.
MEGAHIT produjo contigs largos, pero tuvo el porcentaje más bajo de mapeo de lecturas sin procesar en
el ensamblado, mientras que rnaSPAdes rutinariamente tuvo el porcentaje más alto de mapeo de lectura
sin procesar y la cantidad de anotaciones funcionales (Fig. 9; Archivo adicional 1: Fig. S12), pero tenía
contigs más cortos en promedio y una alta incidencia de transcripciones que no parecían estar codificando.
Estos patrones se mantuvieron tanto en conjuntos de datos simulados como ambientales (Figs. 3 y 6;
Archivo adicional 1: Figs. S2–S5).
El espectro de enfoques adoptado por los ensambladores también tuvo un impacto significativo en la
interpretación de los productos de ensamblaje. Este efecto puede ser más claro cuando se considera cómo
la longitud promedio de contigs recuperados por un ensamblador (por ejemplo, MEGAHIT y rnaS PAdes
como en el ejemplo anterior) puede sesgar directamente la interpretación de la composición de la
comunidad. Las transcripciones más cortas reclutarán menos lecturas, pero aparecerán más abundantes
cuando se utilice una normalización que tenga en cuenta la longitud de la secuencia [93]. Debido a que
los ensambladores que funcionan como rnaSPAdes producen una mayor cantidad de contigs más cortos
que pueden no anotarse, los organismos o contigs individuales o los genes predichos con una longitud de
transcrito más larga parecen comparativamente menos abundantes cuando las lecturas están normalizadas,
pero no cuando las lecturas sin procesar no normalizadas están solas. (Archivo adicional 1: Figs. S15, S16, S17).
Por ejemplo, en las muestras de la bahía de Narragansett, observamos que la diatomea Skeletonema
parece tener una longitud de cóntigo media más alta, al menos en los cóntigos que pueden ensamblarse
con precisión y etiquetarse taxonómicamente con la herramienta EUKulele. Sin embargo, las métricas de
composición de la comunidad convencionales como TPM que se normalizan a la longitud de contig
penalizarán el reclutamiento de lecturas sin procesar para estos contigs más largos que el promedio. Sin
embargo, como se ha descrito bien para los transcriptomas, el uso de lecturas sin procesar deja la
interpretación vulnerable a sesgos relacionados con la profundidad de secuenciación, el enfoque de
secuenciación y la longitud de la transcripción, intuitivamente porque se espera que las transcripciones más
largas recluten una mayor cantidad de lecturas sin procesar en virtud de su tamaño. [93]. En una muestra
de comunidad mixta, y particularmente en comunidades marinas en las que los organismos son
extraordinariamente diversos, las normalizaciones deben tener en cuenta la heterogeneidad de la comunidad.
En conjunto, estos resultados respaldan la utilidad potencial de fusionar los enfoques sutilmente
diferentes tomados por diferentes herramientas de ensamblaje, para maximizar la recuperación de genes
y al mismo tiempo retener las distintas firmas que hacen que la composición de la comunidad sea
interpretable. Los enfoques similares a rnaSPAdes mejoran la recuperación funcional, mientras que los
ensambladores similares a MEGA HIT producen secuencias más largas, que posiblemente tengan una
mayor fidelidad para la comunidad observada. Esta observación plantea aún más la cuestión de cómo
podemos o debemos extraer información sobre la composición de la comunidad a partir de los metatranscriptomas.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 30 de 36
especialmente cuando las muestras no se pueden normalizar o no se han normalizado para limpieza o picos
en secuencias.
¿Deberíamos reducir el tamaño de los ensamblajes metatranscriptómicos?
Las restricciones computacionales continúan limitando la escala de los análisis metatranscriptómicos, ya que
las herramientas posteriores para, por ejemplo, la cuantificación de la abundancia y la anotación funcional
pueden tener requisitos de memoria considerables para archivos de ensamblaje excesivamente grandes [94].
Aquí, abogamos por un enfoque de ensamblador múltiple para el ensamblaje del metatranscriptoma. Como
hemos discutido, el enfoque de ensamblador múltiple genera una mayor cantidad de secuencias de
codificación predichas totales, y muchas de las secuencias de codificación adicionales ensambladas a partir
de nuestro conjunto de datos simulado son similares taxonómicamente, funcionalmente y a través de la
identidad de secuencia a las secuencias de codificación del ensamblaje del diseñador ( Figs. 5, 6, 7, archivo adicional 1: Fig. S8).
Sin embargo, el uso de un enfoque de ensamblador múltiple creará ensamblajes más grandes, y los usuarios
deben ser conscientes de la complejidad de su conjunto de datos y los requisitos de uso de memoria en
sentido descendente. Los investigadores pueden abordar el tamaño excesivo del conjunto (1) limitando
intencionalmente el conjunto a contenido reducido y de alta calidad, o (2) agrupando más estrictamente los
productos del conjunto, cuya elección se reduce a la pregunta de investigación.
Los contigs estadísticamente más probables de contener marcos de lectura abiertos detectables y de
parecerse mucho al contenido de secuencia "verdadero" en una muestra del mundo real a través de la
búsqueda de secuencias explosivas y el agrupamiento mmseqs2 son aquellos en los que múltiples
ensambladores pueden ponerse de acuerdo (Fig. 7; Archivo adicional 1 : Figuras S8–S11). Los investigadores
pueden optar por maximizar la confianza en los productos de ensamblaje utilizando solo los contigs
descubiertos por más de un ensamblador, o pueden expandir el número total de genes recuperados
aprovechando múltiples algoritmos. Si bien la intención de eukrhythmic es combinar los resultados de
múltiples herramientas que contribuyen de forma independiente, en un análisis en el que el objetivo es extraer
solo los productos que se puede suponer que son de la más alta calidad, la intersección más pequeña entre
las herramientas de ensamblaje puede ser retenido. Esto también reduciría sustancialmente el número de
secuencias, mejorando la viabilidad computacional de los análisis posteriores.
Por ejemplo, si un investigador estaba interesado específcamente en generar un conjunto central de genes
de alta confianza para un sitio y luego mapear las lecturas sin procesar en un ensamblaje combinado para
detectar cambios en la expresión a lo largo del tiempo y el espacio, el ensamblaje múltiple puede proporcionar
un conjunto de transcripciones más probable que se recuperen con precisión de las muestras originales y
que sean ecológicamente relevantes para el mapeo. Sin embargo, es importante señalar dos trampas de este
enfoque. En primer lugar, esto reduce sustancialmente la proporción de lecturas sin procesar que se
representan en los contigs finales después del ensamblaje (Fig. 7). En segundo lugar, mientras que algunos
ensambladores producen una mayor cantidad de productos de secuencia que no tienen una similitud
detectable con los contigs "verdaderos" a partir de los cuales se simularon las lecturas sin procesar, también
producen una cantidad de secuencias únicas que son detectables en el ensamblaje original y, lo que es más
importante, no identificado por ninguno de los otros enfoques de ensamblaje (p. ej., rnaspades).
Los investigadores también pueden optar por agrupar el ensamblaje resultante de acuerdo con el tamaño
de archivo final deseado o el nivel de redundancia de secuencia. Usando el agrupamiento mmseqs2 [50],
encontramos que para nuestros ensamblajes combinados, la elección de los parámetros de agrupamiento es
importante, con reducciones potencialmente significativas en el tamaño del archivo sin un impacto apreciable
en el perfil funcional y taxonómico del metatranscriptoma ensamblado (Fig. 4 ; archivo adicional 1: Fig. S1).
Ahora se están desarrollando enfoques para
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 31 de 36
agrupar de manera más confiable y eficiente genes predichos de función conocida y desconocida,
por ejemplo, utilizando herramientas como mmseqs2 acopladas a información de dominio funcional y
modelado probabilístico [92]. Tales enfoques son particularmente útiles para ajustar secuencias de
codificación de un solo ensamblaje en el contexto de conjuntos de datos expansivos en el espacio y/
o el tiempo, de los cuales se pueden extraer muchos millones de secuencias de codificación totales,
y el procesamiento computacional se vuelve excepcionalmente limitante [92] .
eukrhythmic: un enfoque para el ensamblaje optimizado del metatranscriptoma de múltiples
ensambladores La calidad del metatranscriptoma no se puede evaluar utilizando métricas genómicas
o de un solo organismo. En cambio, los productos de ensamblaje deben considerarse como contenido
genético potencialmente novedoso al evaluar el éxito del ensamblaje. Aquí, presentamos eukrhythmic,
un flujo de trabajo para ensamblar metatranscriptomas ambientales de comunidades eucariotas
mediante el aprovechamiento de múltiples ensambladores. Evaluamos nuestra tubería usando
metatranscriptomas ambientales existentes y datos comunitarios simulados que generamos usando
una segunda tubería, jEUKebox. La canalización flexible de jEUKebox se puede reutilizar a medida
que se disponga de secuencias de referencia adicionales para probar las hipótesis de ecología
comunitaria para organismos cultivados y no cultivados. Simular comunidades y probar su capacidad
de recuperación es un paso esencial para garantizar la fidelidad de los estudios de metatranscriptoma
a medida que crece el volumen de datos taxonómicos y funcionales disponibles para hacer
predicciones. En particular, imaginamos la construcción de datos de metacomunidades utilizando
organismos no cultivados deducidos de secuencias metagenómicas (genomas ensamblados en
metagenoma (MAG)) [10]. Nuestra incapacidad para anotar algunos contigs no modificados de la
comunidad simulada original resalta preguntas cruciales sobre los límites de la anotación. ¿Algunos
genes están destinados a seguir siendo difíciles de anotar (taxonómica y funcionalmente), ya sea
porque varían demasiado entre organismos, por lo tanto, se necesita un genoma altamente completo
y específico del organismo para identificarlos con precisión, o porque son parte de un grupo
indistinguible de genes muy similares? ¿Podemos estar seguros de que estos son genes verdaderos,
o podrían ser artefactos del ensamblador que se usó originalmente para generar los ensamblajes de
referencia? Las simulaciones rigurosas de comunidades pueden ayudar a identificar estos genes
difíciles de anotar y establecer umbrales que eviten anotaciones erróneas, junto con nuevos enfoques
para anotar genes desconocidos [95] .
Las simulaciones computacionales deben combinarse con la curación en laboratorio de las
comunidades cultivadas y la secuenciación metatranscriptómica acompañante que se puede comparar
con los datos de conteo. Ya existen planes prometedores para ejecutar estos pasos [96].
La evaluación crítica de la precisión y la calidad del ensamblaje del metatranscriptoma y la
cuantificación de los impactos técnicos, como la similitud de agrupamiento o los algoritmos utilizados
para construir contigs, brindan confianza para las interpretaciones ecológicas. La tubería eukrhythmic
mic representa una hoja de ruta reproducible para ensamblar nuevos metatranscriptomas ambientales
eucariotas y volver a ensamblar el creciente depósito de metatranscriptomas ambientales eucariotas
existentes con múltiples ensambladores. Esta herramienta flexible que los investigadores pueden
usar para estandarizar los pasos cruciales del análisis del metatranscriptoma es un paso hacia la
estandarización y validación del ensamblaje del metatranscriptoma eucariota. Con el uso constante
de herramientas de software y los pasos de procesamiento previo y posterior que permite eukrhythmic,
el ensamblaje del metatranscriptoma tiene el potencial de desbloquear
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 32 de 36
los roles funcionales de microbios eucariotas en gran parte no caracterizados que impulsan la
biogeoquímica en diversos ecosistemas naturales. Los flujos de trabajo estandarizados para el
ensamblaje del metatranscriptoma eucariótico, como las simulaciones comunitarias y eurítmicas, con la
tecnología de herramientas como jEUKebox, son un medio fundamental para validar estos descubrimientos.
Información complementaria La versión en
línea contiene material complementario disponible en https://doi.org/10.1186/s1285902205121y.
Archivo adicional 1: Fig. S1. Resumen visual del efecto del agrupamiento con mmseqs2 en la energía recuperada, KO (anotaciones
funcionales) y tamaño de archivo en bytes. Si bien la reducción del umbral de identidad de secuencia para el agrupamiento da como resultado
una reducción promedio de hasta el 30 % en el tamaño del archivo, el número de géneros recuperados y anotaciones funcionales solo se
ven afectados modestamente, especialmente en cobertura alta. Una identidad de secuencia intermedia de 0,8 y una cobertura de 0,8 daría
como resultado una reducción promedio del 1525 % en el tamaño del archivo, pero dejaría sin cambios las distintas anotaciones funcionales y taxonómicas.
Figura S2. Figura del texto principal facetada por un grupo de ensamblaje METSP simulado (dos conjuntos diferentes de organismos). Es de
destacar que el reensamblaje eukrhythmic recapitula con precisión la distribución bimodal en el contenido de GC observado en las secuencias
metatranscriptómicas del diseñador del grupo A de MMETSP. Figura S3. Longitudes de secuencia de proteínas en los reensamblajes en
comparación con el diseñador. La línea 1 a 1 muestra dónde caerían las secuencias si la longitud promedio de las secuencias de proteínas
recuperadas a través de TransDecoder fuera idéntica entre los ensamblajes del diseñador y los productos reensamblados derivados de
eurritmia; el hecho de que todas las muestras caigan en la mitad inferior derecha de la gráfica indica que las secuencias de proteínas fueron
consistentemente más grandes en los ensamblajes de diseño en comparación con los productos reensamblados eurítmicos. Figura S4.
Longitud media de contig en función del número de ensambladores que encontraron una secuencia que coincidía con la descripción
dada. Para el grupo de 4 ensambladores, esto significa que los cuatro ensambladores probados identificaron una secuencia que coincidía
con la secuencia incluida en la distribución cuando se agruparon dentro de eukrhythmic. El panel A corresponde al grupo A de MMETSP,
mientras que el panel B corresponde al grupo B de MMETSP. Las pruebas T independientes de Welch y las pruebas de KolmogorovSmirnof
para la bondad de ft entre distribuciones calculadas en estas distribuciones de longitud revelan que la distribución general de longitudes para 1
frente a 2 vs. 3 vs. 4 distribuciones de ensambladores son estadísticamente significativamente diferentes (p < 1e−6), con mayores
ensambladores dentro de un grupo que conducen a una mayor longitud promedio. Figura S5. Porcentajes de mapeo de salmón contra las
lecturas sin procesar simuladas cuando se calculan individualmente contra cada una de las cuatro herramientas de ensamblaje utilizadas
por eukrhythmic. rnaSPAdes superó constantemente a los otros ensambladores con respecto al mapeo porcentual, la longitud promedio y la
cantidad de anotaciones. Figura S6. Figura del texto principal, pero con A: comparación de TPM para los ensamblajes del diseñador y
los productos reensamblados de euk rítmicos etiquetados por distintos grupos de simulaciones en relación con su subconjunto de
organismos MMETSP; cada punto se llena de acuerdo a su “grupo MMETSP”. Figura S7. Figura del texto principal con los resultados divididos
por "grupo MMETSP" para demostrar que los diferentes grupos taxonómicos de organismos incluidos en la simulación no afectan las
tendencias generales observadas en los resultados. Los tres paneles están divididos por muestras utilizando los dos "grupos MMETSP" de
transcriptomas de organismos individuales. Figura S8.
Mapeo de porcentaje de salmón por grupo MMETSP cuando se usan productos contig de todos los ensambladores como en eukrhythmic
(distribución inferior con uno o más ensambladores) en comparación con cuando solo se usan contigs acordados por múltiples ensambladores. El
mapeo de porcentaje promedio disminuye progresivamente con la inclusión de menos contigs a medida que los criterios de inclusión se hacen más
estrictos. Figura S9. Proporción de contigs de cada subconjunto de agrupamiento que tenía ORF extraídos de la secuencia. La gran
mayoría de los cóntigos tenían un único ORF predicho, pero los rnaSPAdes solos tenían el mayor número de cóntigos de nucleótidos en los que
no se podía detectar un ORF. En la práctica, se podría suponer que estas secuencias no codifican. Figura S10. Proporción de contigs de cada
subconjunto de agrupamiento en los que se extrajeron ORF de la secuencia en todos los contigs identificados por el ensamblador. rnaSPAdes
tuvo un mayor número de contigs sin un ORF identifcado. Figura S11. Proporción de contigs del ensamblaje del diseñador a los que se extrajeron
ORF de la secuencia. En general, menos contigs no tenían un ORF identificado, y un mayor número de contigs tenían múltiples ORF
predichos que en los productos reensamblados de euk rítmico. Figura S12. Comparación de la abundancia de ID de KO dentro de anotaciones
funcionales en muestras de Narragansett Bay y diferentes combinaciones de ensambladores de metatranscriptoma. Una línea punteada negra
indica una relación de uno a uno, lo que significa que la abundancia de KO que caen a lo largo de esta línea son exactamente tan abundantes
usando el ensamblador enumerado en el eje x y usando el ensamblador enumerado en el eje y. En la parte superior izquierda, Trinity se
compara con MEGAHIT, en la parte superior derecha, Trinity se compara con rnaSPAdes, en la parte inferior izquierda, MEGAHIT se compara
con rnaSPAdes y, en la parte inferior derecha, MEGAHIT se compara con SPAdes. Cada punto corresponde a un solo KO dentro de una
muestra. Mientras que rnaSPAdes tendía a informar una gran abundancia de cada KO identifcado en relación con los otros ensambladores,
MEGAHIT informó menos instancias de cada KO que los otros tres ensambladores en la mayoría de las muestras. Esto puede deberse a
los enfoques adoptados por los dos ensambladores. Mientras que en un ensamblaje típico, se supone que los kmeros que aparecen solo una
vez son el resultado de un error, estos kmeros pueden representar una diversidad real e importante en un conjunto de secuencias de
toda la comunidad de baja abundancia [47] . El ensamblador MEGAHIT es un ejemplo de software específico de metagenómica que defne "mercy
kmers" que entran en juego entre dos kmers dentro de una sola lectura que se secuencian más de una vez. rnaSPAdes, por ejemplo, no emplea
una estrategia de "misericordia", sino que reduce significativamente el umbral de cobertura en comparación con el ensamblaje genómico
[36].
Uno adopta la suposición metaómica de que una cobertura extremadamente baja es plausiblemente no artificial, mientras que el otro es más
generoso con respecto a la cobertura y el uso de la memoria, pero con la intención de minimizar la influencia del error de secuenciación. La
estrategia adoptada por MEGAHIT puede resultar en una consideración incompleta de las isoformas, lo que podría haber contribuido a la tasa
de recuperación relativamente baja de múltiples copias de los grupos KO identificados por los ensamblajes MEGAHIT de las muestras de
metatranscriptoma de Narragansett Bay. Figura S13. Proporción del valor TPM total normalizado de los principales grupos taxonómicos según
los cuatro ensambladores metatranscriptómicos que se probaron. rnaSPAdes tenía una proporción más baja de TPM asignada a
Ochrophyta (incluidas las diatomeas), pero una investigación posterior pareció ser en gran parte una consecuencia de la gran cantidad de
pequeños contigs producidos por rnaSPAdes. Higo.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 33 de 36
S14. Proporción de TPM normalizado total según lo informado por Salmon a partir de las lecturas sin procesar asignadas a cada
categoría taxonómica en los ensamblajes producidos por cada uno de los cuatro ensambladores (facetas). En particular, en la
muestra S2, el desglose taxonómico de la comunidad eucariótica difiere de manera importante en medio de un florecimiento de la
diatomea Skeletonema. Figura S15. Proporción de lecturas sin procesar asignadas según lo informado por Salmon asignado a cada
categoría taxonómica para los cuatro ensambladores de metatranscriptoma, expresada como una proporción del total. Figura S16. Proporción
de lecturas sin procesar asignadas según lo informado por Salmon asignado a cada categoría taxonómica para los cuatro ensambladores
de metatranscriptoma, expresada como una proporción del total. Figura S17. Longitud promedio de contigs por anotación de contigs
generados por las cuatro herramientas de ensamblaje en muestras. Las barras de error muestran el error estándar de la media. Figura S18.
Número total de contigs generados por los cuatro ensambladores probados para cada una de las agrupaciones taxonómicas
consideradas. rnaSPAdes tendía a producir más contigs que los otros cuatro ensambladores, pero estos contigs a menudo eran más
cortos y ocasionalmente conducían a resultados de composición de comunidad engañosos. Figura S19. Gráficos de abundancia apilados
análogos por agrupación taxonómica a los gráficos de abundancia relativa presentados en Alexander et al. [23] para los cinco
puntos de muestreo in situ recolectados en la bahía de Narragansett. Figura S20. Mapeo de porcentaje de salmón de secuencias de
codificación (izquierda) frente a contigs completos (derecha) para las muestras de Tara Oceans. El mapeo solo a las secuencias de
codificación del ensamblaje disminuyó el porcentaje medio mapeado, según lo informado por Salmon. Figura S21. Anotaciones taxonómicas
por muestra para todos los CDS rítmicos de euk, incluidos aquellos que se encontraron y no coincidieron con la base de datos de MATOU.
Figura S22. TPM total asignado por muestra a secuencias a las que se les asignó una anotación EUKulele, pero que no tenían una
coincidencia de explosión signifcativa con la base de datos MATOU de Carradec et al. [22]. Figura S23. Distribución completa de secuencias
de codificación recuperadas por el ensamblaje eukrhythmic y no se encontraron (izquierda) en la base de datos MATOU [22] frente a
(derecha) encontradas en la base de datos MATOU. Figura S24. Longitud promedio por muestra de las secuencias de codificación
recuperadas por el ensamblaje eukrhythmic y no se encontraron (izquierda) en la base de datos MATOU [22] vs. (derecha) encontradas
en la base de datos MATOU. Tabla S1. (Suplemento) Efecto de agrupar el ensamblaje del diseñador en el tamaño y las anotaciones del ensamblaje.
La agrupación se realizó en el conjunto original de contigs del "metatranscriptoma de diseñador" de las referencias MMETSP utilizando la
herramienta mmseqs2 (Mirdata et al. 2019). eukrhythmic utiliza un nivel de cobertura de 0,98 y una identidad de secuencia de 1 para el
agrupamiento mmseqs2. Consulte la Figura complementaria 1 para obtener un resumen gráfico de la influencia de la identidad de secuencia y
la cobertura en el tamaño del ensamblaje recuperado y sus anotaciones funcionales y taxonómicas.
Agradecimientos
Agradecemos a Margaret Mars Brisbin y Sarah Hu por sus valiosos comentarios sobre la canalización y su contribución a las pruebas.
También agradecemos a Celeste Nobrega por su trabajo en este proyecto como estudiante invitada en la Institución Oceanográfica Woods
Hole. El clúster de computación de alto rendimiento Poseidon en la Institución Oceanográfica Woods Hole se utilizó para ejecutar todos los
análisis.
Contribuciones de los
autores HA y AIK concibieron la idea para el flujo de trabajo inicial, con aportes de NRC y MJF. AIK desarrolló el código para euk rítmico y
jEUKebox con el apoyo de NRC y HA. AIK y HA escribieron el manuscrito con contribuciones de NRC; todos los autores revisaron y editaron el
manuscrito.
Financiación
Agradecemos la financiación que apoyó este trabajo de Simons Collaboration on Computational Biogeochemical Modeling of Marine
Ecosystems (CBIOMES) (subvención n.º 549931), una subvención de la Fundación Nacional de Ciencias (OCE 1948025 para HA), Simons Early
Career Investigator in Marine Microbial Ecology y Evolution Award (subvención n.º 931886 para HA), y la Beca de Posgrado en Ciencias
Computacionales del Departamento de Energía (DESC0020347 para AIK).
Disponibilidad de datos y materiales Todo
el código está disponible en los repositorios públicos de GitHub https://github.com/alexanderlabwhoi/eukrhythmic y https://github.com/
alexanderlabwhoi/jeukebox. La salida de muestra de eukrhythmic para las pruebas simuladas está disponible en https://osf.io/te7sp/. El código
utilizado para generar figuras está disponible en un repositorio público de GitHub en https://github.com/akrinos/2022Krinoseukrhythmic.
Declaraciones
Aprobación ética y consentimiento para participar No
aplica.
Consentimiento para publicación
No aplicable.
Conflicto de intereses Los
autores declaran que no tienen conflictos de intereses.
Recibido: 8 julio 2022 Aceptado: 21 diciembre 2022
Publicado: 3 de marzo de 2023
Referencias
1. Massana R, PedrósAlió C. Revelando nuevos eucariotas microbianos en la superficie del océano. Curr Opin Microbiol.
2008;11(3):213–8.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 34 de 36
2. Worden AZ, sigue a MJ, Giovannoni SJ, Wilken S, Zimmerman AE, Keeling PJ. Repensar el ciclo del carbono marino: tener en cuenta los múltiples
estilos de vida de los microbios. Ciencia. 2015;347(6223):1257594.
3. Caron DA, Alexander H, Allen AE, Archibald JM, Armbrust EV, Bachy C, Bell CJ, Bharti A, Dyhrman ST, Guida SM,
et al. Sondeando la evolución, ecología y fisiología de protistas marinos usando transcriptómica. Nat Rev Microbiol. 2017;15(1):6–20.
4. Caron DA, Worden AZ, Countway PD, Demir E, Heidelberg KB. Los protistas también son microbios: una perspectiva. ISME J.
2009;3(1):4–12.
5. Lawler SP, Morin PJ. Arquitectura de red alimentaria y dinámica de población en microcosmos de laboratorio de protistas. Soy Nat.
1993;141(5):675–86.
6. Stoecker DK. Modelos conceptuales de mixotrofia en protistas planctónicos y algunas implicaciones ecológicas y evolutivas
cationes. Eur J Protistol. 1998;34(3):281–90.
7. Sherr EB, Sherr BF. Importancia de la depredación por protistas en las redes alimentarias microbianas acuáticas. Antonie Van Leeuwenhoek.
2002;81(1):293–308.
8. Del Campo J, Guillou L, Hehenberger E, Logares R, LópezGarcía P, Massana R. Ecological and evolutionary signif
cance de nuevos linajes de protistas. Eur J Protistol. 2016;55:4–11.
9. Del Campo J, Balagué V, Forn I, Lekunberri I, Massana R. Sesgo de cultivo en fagelados heterótrofos marinos analizados
a través de incubaciones de enriquecimiento de agua de mar. Microbio Ecol. 2013;66(3):489–99.
10. Alexander H, Hu SK, Krinos AI, Pachiadaki M, Tully BJ, Neely CJ, Reiter T. Genomas eucariotas de un metagen global
El conjunto de datos ómicos ilumina los modos tróficos y la biogeografía del plancton oceánico. bioRxiv. 2021.
11. Delmont TO, Gaia M, Hinsinger DD, Frémont P, Vanni C, FernandezGuerra A, Eren AM, Kourlaiev A, d'Agata L, Clays sen Q, et al. Convergencia
del repertorio funcional de linajes de plancton eucarióticos lejanamente relacionados abundantes en el océano iluminado por el sol. Genoma
celular. 2022;2(5): 100123.
12. Giford SM, Sharma S, RintaKanto JM, Moran MA. Análisis cuantitativo de una secuencia microbiana marina profundamente
metatranscriptoma. ISME J. 2011;5(3):461–72.
13. Becker KW, Harke MJ, Mende DR, Muratore D, Weitz JS, DeLong EF, Dyhrman ST, Van Mooy BA. El análisis combinado de pigmentos y
metatranscriptómico revela patrones diel altamente sincronizados de respuesta fenotípica a la luz a través de dominios en el océano
oligotrófico abierto. ISME J. 2021;15(2):520–33.
14. Salazar G, Paoli L, Alberti A, HuertaCepas J, Ruscheweyh HJ, Cuenca M, Field CM, Coelho LP, Cruaud C, Engelen S, et al. Los cambios en la
expresión génica y la renovación de la comunidad dan forma diferencial al metatranscriptoma del océano global.
Celúla. 2019;179(5):1068–83.
15. Stewart FJ, Ulloa O, DeLong EF. Metatranscriptómica microbiana en una zona de mínimo de oxígeno marino permanente.
Microbiol Ambiental. 2012;14(1):23–40.
16. John DE, Zielinski BL, Paul JH. Creación de una biblioteca piloto de metatranscriptoma a partir de plancton eucariota de un eutrófico
bahía (Bahía de Tampa, Florida). Métodos de Limnol Oceanogr. 2009;7(3):249–59.
17. Sunagawa S, Acinas SG, Bork P, Bowler C, Eveillard D, Gorsky G, Guidi L, Iudicone D, Karsenti E, Lombard F, et al. Tara
Océanos: hacia la biología de los ecosistemas oceánicos globales. Nat Rev Microbiol. 2020;18(8):428–45.
18. Poretsky RS, Bano N, Buchan A, LeCleir G, Kleikemper J, Pickering M, Pate WM, Moran MA, Hollibaugh JT. Análisis de transcripciones de genes
microbianos en muestras ambientales. Aplicación Environ Microbiol. 2005;71(7):4121–6.
19. Gilbert JA, Field D, Huang Y, Edwards R, Li W, Gilna P, Joint I. Detección de un gran número de secuencias novedosas en el
metatranscriptomas de comunidades microbianas marinas complejas. Más uno. 2008;3(8):e3042.
20. Keeling PJ, Burki F, Wilcox HM, Allam B, Allen EE, AmaralZettler LA, Armbrust EV, Archibald JM, Bharti AK, Bell CJ, et al.
El proyecto de secuenciación del transcriptoma de eucariotas microbianos marinos (MMETSP): esclarecimiento de la diversidad funcional de la
vida eucariota en los océanos a través de la secuenciación del transcriptoma. PLoS Biol. 2014;12(6):1001889.
21. Krinos AI, Hu SK, Cohen NR, Alexander H. EUKulele: anotación taxonómica de los microbios eucariotas anónimos. j
Software de código abierto. 2021;6(57):2817. https://doi.org/10.21105/joss.02817.
22. Carradec Q, Pelletier E, Da Silva C, Alberti A, Seeleuthner Y, BlancMathieu R, LimaMendez G, Rocha F, Tirichine L,
Labadie K, et al. Un atlas oceánico mundial de genes eucariotas. Nat Comun. 2018;9(1):1–13.
23. Alexander H, Jenkins BD, Rynearson TA, Dyhrman ST. Los análisis de metatranscriptoma indican la partición de recursos entre las diatomeas en
el campo. Proc Natl Acad Sci. 2015;112(17):2182–90.
24. Johnson LK, Alexander H, Brown CT. Reensamblaje, evaluación de calidad y anotación de 678 transcriptomas de referencia eucarióticos
microbianos. Gigaciencia. 2019;8(4):158.
25. Daniels C, Baumgarten S, Yum LK, Michell CT, Bayer T, Arif C, Roder C, Weil E, Voolstra CR. El análisis del metatranscriptoma del coral
constructor de arrecifes Orbicella faveolata indica una respuesta holobionte a la enfermedad del coral. Frente Mar Sci. 2015; 2:62.
26. Lesniewski RA, Jain S, Anantharaman K, Schloss PD, Dick GJ. El metatranscriptoma de una pluma hidrotermal de aguas profundas está dominado
por metanótrofos y litótrofos de la columna de agua. ISME J. 2012;6(12):2257–68.
27. Richter D. Metagenómica y metatranscriptomas de comunidades oceánicas. Ficología. 2017;56(4):158.
28. Leimena MM, RamiroGarcia J, Davids M, van den Bogert B, Smidt H, Smid EJ, Boekhorst J, Zoetendal EG, Schaap PJ, Kleerebezem M. Una tubería
de análisis de metatranscriptoma integral y su validación utilizando conjuntos de datos de microbiota del intestino delgado humano . BMC Genómica.
2013;14(1):530.
29. Davids M, Hugenholtz F, dos Santos VM, Smidt H, Kleerebezem M, Schaap PJ. Perfilado funcional de comunidades microbianas
desconocidas utilizando una canalización de metatranscriptoma de ensamblaje de novo validada. Más uno. 2016;11(1):e0146423.
30. Westreich ST, Treiber ML, Mills DA, Korf I, Lemay DG. SAMSA2: una tubería de análisis de metatranscriptoma independiente.
BMC Bioinforme. 2018;19(1):175.
31. Vijay N, Poelstra JW, Künstner A, Wolf JB. Desafíos y estrategias en el ensamblaje del transcriptoma y la cuantificación de la expresión génica
diferencial. Una evaluación completa in silico de los experimentos de RNAseq. Mol Ecol. 2013;22(3):620–34.
32. Mac Manes MD. El protocolo Oyster River: un enfoque multiensamblador y kmer para el transcriptoma de novo
asamblea. PeerJ. 2018;6:5428.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 35 de 36
33. Ortiz R, Gera P, Rivera C, Santos JC. Pincho: un enfoque modular para la transcriptómica de novo de alta calidad. genes
2021;12(7):953.
34. Simão FA, Waterhouse RM, Ioannidis P, Kriventseva EV, Zdobnov EM. BUSCO: evaluación del ensamblaje del genoma y la integridad de la
anotación con ortólogos de una sola copia. Bioinformática. 2015;31(19):3210–2.
35. Jauhal AA, Newcomb RD. Evaluación de la calidad del ensamblaje del genoma antes del análisis posterior: N50 versus BUSCO.
Recursos de ecología molecular. 2021.
36. Bushmanova E, Antipov D, Lapidus A, Prjibelski AD. rnaSPAdes: un ensamblador de transcriptomas de novo y sus aplicaciones
catión a datos de RNASeq. Gigaciencia. 2019;8(9):100.
37. Jiang Y, Xiong X, Danska J, Parkinson J. El análisis metatranscriptómico de diversas comunidades microbianas revela vías metabólicas
centrales y funcionalidad específica del microbioma. Microbioma. 2016;4(1):1–18.
38. Almeida A, Mitchell AL, Tarkowska A, Finn RD. Asignaciones taxonómicas de evaluación comparativa basadas en el perfil del gen 16S rRNA
de la microbiota de entornos comúnmente muestreados. Gigaciencia. 2018;7(5):054.
39. Anwar MZ, Lanzen A, BangAndreasen T, Jacobsen CS. Montar o no parecerseuna comparativa validada
flujo de trabajo de metatranscriptómica (CoMW). Gigaciencia. 2019;8(8):096.
40. Bolger AM, Lohse M, Usadel B. Trimmomatic: un recortador fexible para datos de secuencia de Illumina. Bioinformática.
2014;30(15):2114–20.
41. Bushnell B. BBMap: un alineador rápido, preciso y con detección de empalmes. Informe técnico, Laboratorio Nacional Lawrence Berkeley.
(LBNL), Berkeley, CA (Estados Unidos). 2014.
42. Honaas LA, Wafula EK, Wickett NJ, Der JP, Zhang Y, Edger PP, Altman NS, Pires JC, LeebensMack JH, DePamphilis CW. Selección de
ensamblajes superiores de transcriptomas de novo: lecciones aprendidas al aprovechar el mejor genoma vegetal. Más uno.
2016;11(1):0146062.
43. Clarke K, Yang Y, Marsh R, Xie L, et al. Análisis comparativo del ensamblaje del transcriptoma de novo. Ciencia China Vida Ciencia.
2013;56(2):156–62.
44. Namiki T, Hachiya T, Tanaka H, Sakakibara Y. MetaVelvet: una extensión del ensamblador Velvet para ensamblar metagen ome de novo a
partir de lecturas de secuencia corta. Ácidos Nucleicos Res. 2012;40(20):155–155.
45. Simpson JT, Durbin R. Ensamblaje eficiente de novo de genomas grandes usando estructuras de datos comprimidas. genoma
Res. 2012;22(3):549–56.
46. Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I, Adiconis X, Fan L, Raychowdhury R, Zeng Q, et al. Ensamblaje completo
del transcriptoma a partir de datos de RNASeq sin un genoma de referencia. Nat Biotechnol. 2011;29(7):644–52.
47. Li D, Liu CM, Luo R, Sadakane K, Lam TW. MEGAHIT: una solución ultrarrápida de un solo nodo para ensamblaje metagenómico grande y
complejo a través de un gráfico de Bruijn sucinto. Bioinformática. 2015;31(10):1674–6.
48. Nurk S, Meleshko D, Korobeynikov A, Pevzner PA. metaSPAdes: un nuevo ensamblador metagenómico versátil.
Genoma Res. 2017;27(5):824–34.
49. Cerveau N., Jackson DJ. La combinación de ensamblajes de novo independientes optimiza el transcriptoma de codificación para
organismos eucariotas modelo no convencionales. BMC Bioinforme. 2016;17(1):525.
50. Mirdita M, Steinegger M, Söding J. Aplicación de servidor web local y de escritorio MMseqs2 para búsquedas de secuencias rápidas e
interactivas. Bioinformática. 2019;35(16):2856–8.
51. ElGebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC, Qureshi M, Richardson LJ, Salazar GA, Smart A,
et al. La base de datos de familias de proteínas de Pfam en 2019. Nucleic Acids Res. 2019;47(D1):427–32.
52. Haas B, Papanicolaou A. TransDecoder identifica regiones codificantes candidatas dentro de secuencias de transcripción. 2021.
53. HuertaCepas J, Forslund K, Coelho LP, Szklarczyk D, Jensen LJ, Von Mering C, Bork P. Anotación funcional rápida en todo el genoma a
través de la asignación de ortología por mapeador de eggNOG. Mol Biol Evol. 2017;34(8):2115–22.
54. Kanehisa M, et al., La base de datos KEGG. En: Simposio de la Fundación Novartis, Wiley Online Library; 2002. págs.
91–100.
55. Shannon CE. Una teoría matemática de la comunicación. Bell Syst Tech J. 1948;27(3):379–423.
56. Brown CT, Irber L. sourmash: una biblioteca para el esbozo de ADN MinHash. J Software de código abierto. 2016;1(5):27.
57. Jain C, RodriguezR LM, Phillippy AM, Konstantinidis KT, Aluru S. El análisis ANI de alto rendimiento de genomas procarióticos de 90K revela
límites claros entre especies. Nat Comun. 2018;9(1):1–8.
58. Emms DM, Kelly S. OrthoFinder: inferencia de ortología filogenética para genómica comparativa. Genoma Biol.
2019;20(1):1–14.
59. Emms DM, Kelly S. OrthoFinder: resolución espectacular de los sesgos fundamentales en las comparaciones del genoma completo
mejora la precisión de la inferencia de ortogrupos. Genoma Biol. 2015;16(1):1–14.
60. Liao Y, Smyth GK, Shi W. El paquete R Rsubread es más fácil, más rápido, más barato y mejor para la alineación y cuantificación de lecturas
de secuenciación de ARN. Ácidos Nucleicos Res. 2019;47(8):47–47.
61. Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, et al.
Reconstrucción de la secuencia de transcripción de novo a partir de RNAseq utilizando la plataforma Trinity para la generación y el análisis
de referencias. Protocolo Nat. 2013;8(8):1494–512.
62. Hölzer M, Marz M. Ensamblaje del transcriptoma de novo: una comparación completa entre especies de ensambladores de RNASeq de
lectura corta. Gigaciencia. 2019;8(5):039.
63. Bushmanova E, Antipov D, Lapidus A, Suvorov V, Prjibelski AD. rnaQUAST: una herramienta de evaluación de calidad para de novo
ensamblajes transcriptómicos. Bioinformática. 2016;32(14):2210–2.
64. Steinegger M, Söding J. MMseqs2 permite la búsqueda de secuencias de proteínas sensibles para el análisis de datos masivos
conjuntos Nat Biotechnol. 2017;35(11):1026–8.
65. Steinegger M, Söding J. Agrupación de grandes conjuntos de secuencias de proteínas en tiempo lineal. Nat Comun. 2018;9(1):1–8.
66. Klemetsen T, Raknes IA, Fu J, Agafonov A, Balasundaram SV, Tartari G, Robertsen E, Willassen NP. Las bases de datos MAR: desarrollo e
implementación de bases de datos específcas para la metagenómica marina. Ácidos Nucleicos Res.
2018;46(D1):692–9.
67. Virtanen P, Gommers R, Oliphant TE, Haberland M, Reddy T, Cournapeau D, Burovski E, Peterson P, Weckesser W, Bright J, et al. SciPy
1.0: algoritmos fundamentales para la computación científica en Python. Métodos Nat. 2020;17(3):261–72.
Machine Translated by Google
Krinos et al. BMC Bioinformática 2023, 24(1):74 Página 36 de 36
68. Equipo central de R: R: un lenguaje y un entorno para la computación estadística. R Fundación para la Computación Estadística,
Viena, Austria. R Fundación para la Computación Estadística. 2021. https://www.Rproject.org/
69. Vorobev A, Dupouy M, Carradec Q, Delmont TO, Annamalé A, Wincker P, Pelletier E. Reconstrucción de transcriptomas y análisis funcional
de comunidades de plancton marino eucariota mediante metagenómica y metatranscriptómica de alto rendimiento. Genoma Res.
2020;30(4):647–59.
70. Sunagawa S, Coelho LP, Chafron S, Kultima JR, Labadie K, Salazar G, Djahanschiri B, Zeller G, Mende DR, Alberti A, et al. Estructura y función
del microbioma oceánico global. Ciencia. 2015;348(6237):1261359.
71. Patro R, Duggal G, Love MI, Irizarry RA, Kingsford C. Salmon proporciona una cuantificación rápida y consciente de los sesgos de la expresión
del transcrito. Métodos Nat. 2017;14(4):417–9.
72. Zerbino DR, Birney E. Velvet: algoritmos para ensamblaje de lectura corta de novo utilizando gráficos de Bruijn. Genoma Res.
2008;18(5):821–9.
73. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Herramienta básica de búsqueda de alineación local. J Mol Biol.
1990;215(3):403–10.
74. Van Rossum G, Drake FL Jr. Manual de referencia de Python. Centrum voor Wiskunde en Informatica Amsterdam; 1995.
75. Kibirige H, Lamp G, Katins J, gdowding, austin, matthiask, Funnell T, Finkernagel F, Arnfred J, Blanchard D, Asta
nin S, Chiang E, Kishimoto PN, Sheehan E, stonebig, Willers, B, Gibboni R, smutch, Halchenko, Y, Pavel, King, B, RK M,
Collins J, zachcp, Anthony, Koopman, B, Grohmann CH, Becker D, Brown D, Saiz D. Has2k1/plotnine: V0.8.0. https://
doi.org/10.5281/zenodo.4636791.
76. Wickham H. Ggplot2: gráficos elegantes para el análisis de datos. Saltador; 2016. (https://ggplot2.tidyverse.org).
77. Pedersen TL. patchwork: el compositor de tramas. Paquete R versión 1.1.1. 2020. https://CRAN.Rproject.org/packa
ge = mosaico
78. Altschul SF, Madden TL, Schäfer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. Gapped BLAST y PSIBLAST: una nueva generación de
programas de búsqueda de bases de datos de proteínas. Ácidos Nucleicos Res. 1997;25(17):3389–402.
79. Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, Madden TL. BLAST+: arquitectura y aplicaciones. BMC Bioinforme.
2009;10(1):1–9.
80. Budak H, Kaya SB, Cagirici HB. ARN largo no codificante en plantas en la era de las secuencias de referencia. Ciencia de la planta frontal.
2020;11:276.
81. Rogato A, Richard H, Sarazin A, Voss B, Navarro SC, Champeimont R, Navarro L, Carbone A, Hess WR, Falciatore A.
La diversidad de pequeños ARN no codificantes en la diatomea Phaeodactylum tricornutum. Genoma BMC. 2014;15(1):1–20.
82. LopezGomollon S, Beckers M, Rathjen T, Moxon S, Maumus F, Mohorianu I, Moulton V, Dalmay T, Mock T. Descubrimiento global y
caracterización de pequeños ARN no codificantes en microalgas marinas. Genoma BMC. 2014;15(1):1–13.
83. Canesi KL, Rynearson TA. Variación temporal de la composición de la comunidad Skeletonema a largo plazo
Serie en Narragansett Bay identificada mediante secuenciación de ADN de alto rendimiento. Mar Ecol Prog Ser. 2016;556:1–16.
84. Damon C, Lehembre F, OgerDesfeux C, Luis P, Ranger J, FraissinetTachet L, Marmeisse R. Metatranscriptomics revela la diversidad de genes
expresados por eucariotas en suelos forestales. Más uno. 2012;7(1):28967.
85. Reiter T, Brooks PT, Irber L, Joslin SE, Reid CM, Scott C, Brown CT, PierceWard NT. Racionalización de uso intensivo de datos
biología con sistemas de flujo de trabajo. Gigaciencia. 2021;10(1):140.
86. Cohen N, Alexander H, Krinos A, Hu SK, Lampe RH. Metatranscriptómica de microeucariotas marinos: muestra pro
recomendaciones de flujo de trabajo de procesamiento y bioinformática para aplicaciones ecológicas. Ciencias Marinas Delanteras. 2022;858.
87. Gilbert JA, Meyer F, Schriml L, Joint IR, Mühling M, Field D. Metagenomas y metatranscriptomas de la estación de monitoreo costero a largo
plazo L4 en el Canal de la Mancha Occidental. Soporte Genom Sci. 2010;3(2):183–93.
88. Nowinski B, Smith CB, Thomas CM, Esson K, Marin R, Preston CM, Birch JM, Scholin CA, Huntemann M, Clum A, et al. Metagenomas y
metatranscriptomas microbianos durante una floración de fitoplancton costero. Datos Cientificos. 2019;6(1):1–7.
89. Vislova A, Aylward F, Sosa O, DeLong E. El análisis de la secuencia del metatranscriptoma revela la periodicidad diaria de la expresión génica
de la comunidad microbiana en el interior del océano. Unión de Am Geophys. 2016;2016:44–0482.
90. Ollison GA, Hu SK, Mesrop LY, DeLong EF, Caron DA. Llueva o truene: la profundidad, no la estación, da forma a la activa comunidad pro tistán
en la estación ALOHA en el Giro Subtropical del Pacífico Norte. Deep Sea Res Parte I. 2021;170: 103494.
91. Hu SK, Liu Z, Alexander H, Campbell V, Connell PE, Dyhrman ST, Heidelberg KB, Caron DA. Cambio metabólico
prioridades entre taxones clave de protistas dentro y debajo de la zona eufótica. Microbiol Ambiental. 2018;20(8):2865–79.
92. Vanni C, Schechter MS, Delmont TO, Eren AM, Steinegger M, Glöckner FO, FernandezGuerra A. AGNOSTOSDB: a
recurso para desbloquear las regiones inexploradas del espacio de la secuencia de codificación. bioRxiv. 2021.
93. Wagner GP, Kin K, Lynch VJ. Medición de la abundancia de ARNm usando datos de RNAseq: la medida de RPKM es inconsistente entre las
muestras. Teoría Biosci. 2012;131(4):281–5.
94. Shakya M, Lo CC, Cadena PD. Avances y desafíos en el análisis metatranscriptómico. Geneta delantera. 2019;904.
95. Vanni C, Schechter MS, Acinas SG, Barberán A, Buttigieg PL, Casamayor EO, Delmont TO, Duarte CM, Eren AM, Finn RD, et al. Unificación
del espacio de secuencias codificantes microbianas conocidas y desconocidas. Elife. 2022;11:67667.
96. Berube P, Giford S, Hurwitz B, Jenkins B, Marchetti A, Santoro A. Hoja de ruta hacia la intercalibración y estandarización de las mediciones ómicas
de los ácidos nucleicos oceánicos en toda la comunidad. https://doi.org/10.1575/1912/28054. https://hdl. handle.net/1912/28054
Nota del editor Springer Nature
se mantiene neutral con respecto a los reclamos jurisdiccionales en los mapas publicados y las afiliaciones institucionales.