Está en la página 1de 36

Machine Translated by Google

Krinos  et  al.  BMC  Bioinformatics  2023,  24(1):74  
BMC  Bioinformática
https://doi.org/10.1186/s12859­022­05121­y

INVESTIGACIÓN Acceso  abierto

Los  metatranscriptomas  ambientales  de  
ingeniería  inversa  aclaran  las  mejores  prácticas  
para  el  ensamblaje  de  eucariotas
Arianna  I.  Krinos1,2,3* , Natalie  R.  Cohen4 , Michael  J.  sigue3  y  Harriet  Alexander2*

*Correspondencia:  
akrinos@mit.edu;  
Abstracto
halexander@whoi.edu
Antecedentes:  las  diversas  comunidades  de  eucariotas  microbianos  en  el  océano  global  brindan  
1
Programa  Conjunto  MIT­WHOI   una  variedad  de  servicios  ecosistémicos  esenciales,  desde  la  producción  primaria  y  el  fujo  de  
en  Oceanografía  y  Ciencias  Aplicadas
carbono  hasta  la  cooperación  a  través  de  la  simbiosis,  pasando  por  la  transferencia  trófica.  Cada  
ciencia  e  ingeniería  oceánica,
Cambridge  y  Woods  Hole,
vez  más,  estas  comunidades  se  entienden  a  través  de  la  lente  de  las  herramientas  ómicas,  que  
MA,  EE.  UU. permiten  el  procesamiento  de  alto  rendimiento  de  diversas  comunidades.  La  metatranscriptómica  
2
Departamento  de  Biología,  Woods
ofrece  una  comprensión  de  la  expresión  génica  casi  en  tiempo  real  en  comunidades  eucariotas  
institución  oceanográfica  del  agujero,
Woods  Hole,  MA,  EE.  UU. microbianas,  lo  que  proporciona  una  ventana  a  la  actividad  metabólica  de  la  comunidad.
3
departamento  de  la  tierra,
Resultados:  aquí  presentamos  un  flujo  de  trabajo  para  el  ensamblaje  del  metatranscriptoma  eucariota  y  
atmosférico  y  planetario
Ciencia,  Instituto  de  Tecnología  de   validamos  la  capacidad  de  la  canalización  para  recapitular  datos  de  expresión  a  nivel  de  comunidad  
Massachusetts,  Cambridge,  MA, eucariota  reales  y  fabricados.  También  incluimos  una  herramienta  de  código  abierto  para  simular  
metatranscriptomas  ambientales  con  fines  de  prueba  y  validación.  Volvemos  a  analizar  conjuntos  de  
Estados  

Unidos  4

Instituto  Skidaway  de  
Oceanografía,  Universidad  de  
datos  metatranscriptómicos  previamente  publicados  utilizando  nuestro  enfoque  de  análisis  de  
Georgia,  Savannah,  GA,  EE.  UU. metatranscriptoma.

Conclusión:  determinamos  que  un  enfoque  de  múltiples  ensambladores  mejora  el  ensamblaje  del  
metatranscriptoma  eucariótico  en  función  de  las  anotaciones  taxonómicas  y  funcionales  recapituladas  
de  una  comunidad  simulada  in­silico.  La  validación  sistemática  de  los  métodos  de  anotación  y  
ensamblaje  de  metatranscriptomas  proporcionados  aquí  es  un  paso  necesario  para  evaluar  la  
fidelidad  de  las  mediciones  de  composición  de  nuestra  comunidad  y  las  asignaciones  de  contenido  
funcional  de  los  metatranscriptomas  eucariotas.

Palabras  clave:  Oleoducto,  Protista,  Metatranscriptómica,  Ecología,  Océano,  Microbiología  
marina

Antecedentes  
Los  microbios  eucariotas  desempeñan  funciones  diversas  e  importantes  en  los  ecosistemas  globales  
[1],  incluidos  los  procesos  de  pastoreo,  la  producción  primaria  y  la  actuación  como  huéspedes  de  
simbiontes  diversos  y  esenciales  [2].  En  los  ecosistemas  oceánicos  en  particular,  la  literatura  sobre  el  
papel  de  los  microbios  eucariotas  en  los  procesos  de  los  ecosistemas  continúa  ampliándose  [3].  Esta  
literatura  proporciona  más  evidencia  de  que  los  microbios  eucariotas  son  tan  importantes  como  sus  
contrapartes  procariotas  cuando  se  trata  del  ciclo  de  nutrientes  y  su  enorme  influencia  en  las  redes  alimentarias  y

©  The  Author(s)  2023,  publicación  corregida  2023.  Acceso  abierto  Este  artículo  tiene  una  licencia  Creative  Commons  Attribution  4.0  International  
License,  que  permite  usar,  compartir,  adaptar,  distribuir  y  reproducir  en  cualquier  medio  o  formato,  siempre  que  usted  dé  el  crédito  apropiado  para  
el(los)  autor(es)  original(es)  y  la  fuente,  proporcione  un  enlace  a  la  licencia  Creative  Commons  e  indique  si  se  realizaron  cambios.
Las  imágenes  u  otro  material  de  terceros  en  este  artículo  están  incluidos  en  la  licencia  Creative  Commons  del  artículo,  a  menos  que  se  indique  lo  
contrario  en  una  línea  de  crédito  al  material.  Si  el  material  no  está  incluido  en  la  licencia  Creative  Commons  del  artículo  y  su  uso  previsto  no  está  
permitido  por  la  regulación  legal  o  excede  el  uso  permitido,  deberá  obtener  el  permiso  directamente  del  titular  de  los  derechos  de  autor.  Para  ver  una  
copia  de  esta  licencia,  visite  http://creativecommons.org/licenses/by/4.0/.  La  exención  de  dedicación  de  dominio  público  de  Creative  Commons  (http://
creativeco  mmons.org/publicdomain/zero/1.0/)  se  aplica  a  los  datos  disponibles  en  este  artículo,  a  menos  que  se  indique  lo  contrario  en  una  línea  de  crédito  a  los  datos.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  2  de  36

ecología  comunitaria  [4–7],  y  requiere  esfuerzos  renovados  para  comprender  los  mecanismos  
subyacentes.
La  relevancia  ecológica  de  los  microbios  eucariotas  requiere  un  estudio  cuidadoso  de  su  ecología  
y  distribución,  pero  esto  puede  ser  difícil  de  ejecutar,  tanto  in  situ  como  en  el  laboratorio.
La  diversidad  de  ensamblajes  eucarióticos  naturales  dificulta  la  realización  de  encuestas  exhaustivas  
de  manera  específica  para  taxones.  La  diversidad  taxonómica  se  puede  catalogar  en  el  campo  
utilizando  amplicones  del  gen  18S  rRNA  o  datos  de  conteo  de  células,  aunque  esto  descuida  la  
diversidad  funcional,  que  puede  aprovecharse  para  informar  una  comprensión  más  amplia  de  sus  
roles  biogeoquímicos  y  ecológicos.  Para  complicar  los  esfuerzos,  muchos  microbios  eucariotas  no  se  
pueden  cultivar  fácilmente  en  el  laboratorio  [1,  8],  y  confiar  únicamente  en  el  subconjunto  de  microbios  
eucariotas  que  podemos  cultivar  en  el  laboratorio  puede  aplicar  un  filtro  sesgado  a  nuestra  
comprensión  de  estos  organismos  [9] .  Por  estas  razones,  el  uso  de  técnicas  de  secuenciación  
metatranscriptómica  y  metagenómica  ambiental  independiente  de  la  cultura  se  ha  convertido  en  un  
método  popular  y  exitoso  para  descubrir  una  nueva  diversidad  taxonómica  y  funcional  en  poblaciones  
de  microbios  eucariotas  en  diversos  entornos  en  el  campo  [8,  10,  11 ] .
La  metatranscriptómica  se  ha  convertido  en  un  enfoque  generalizado  y  prometedor  para  responder  
preguntas  sobre  la  actividad  de  la  comunidad  microbiana  en  el  medio  ambiente  sin  conocimientos  
previos  ni  sesgos  [12],  y  puede  usarse  para  identificar  los  mecanismos  genéticos  subyacentes  que  
impulsan  fenómenos  globales  como  la  biogeoquímica  oceánica  [13–15].  Los  metatranscriptomas  
proporcionan  un  medio  accesible  para  observar  el  conjunto  completo  de  genes  expresados  por  un  
grupo  de  organismos,  que  pueden  dividirse  por  tamaño,  sitio  u  origen  filogenético  [16].  Los  
scriptomas  de  Metatran  se  pueden  emparejar  con  metagenomas  para  proporcionar  información  a  
nivel  de  la  comunidad  sobre  la  expresión  génica,  y  pueden  representar  un  complemento  funcional  
para  la  cantidad  cada  vez  mayor  de  composición  de  la  comunidad  y  nuevos  datos  de  genomas  
agrupados  que  están  disponibles  para  los  eucariotas  microbianos  [10,  11,  17 ] .  Sin  embargo,  a  pesar  
del  potencial  de  este  enfoque,  el  campo  es  relativamente  nuevo  y  las  prácticas  estandarizadas  son  
inmaduras.  El  primer  transcriptoma  ambiental,  dirigido  al  bacterioplancton,  se  secuenció  en  2005  [18],  
y  los  metatranscriptomas  marinos  comenzaron  a  aparecer  en  la  literatura  alrededor  de  2008  [16,  
19].  Los  scriptomas  de  Metatran  ofrecen  una  instantánea  de  toda  la  comunidad  en  el  momento  de  la  
secuenciación,  pero  es  posible  que  la  proporción  relativa  de  transcritos  y  su  detectabilidad  no  
siempre  brinden  información  significativa  sobre  los  verdaderos  procesos  biológicos,  en  particular  
cuando  la  profundidad  de  la  secuenciación  es  baja  o  faltan  referencias  en  la  base  de  datos.  [12].  Por  
esta  razón,  se  deben  compilar  bases  de  datos  y  se  deben  desarrollar  y  continuar  desarrollando  
nuevos  enfoques  computacionales  para  procesar  e  interpretar  datos  metatranscriptómicos.  La  
recopilación  de  datos  transcriptómicos  de  laboratorio  en  una  sola  ubicación  y  formato  por  parte  del  
Proyecto  de  Secuenciación  de  Transcrip  tomos  de  Eucariotas  Microbianos  Marinos  (MMETSP)  [3,  
20]  comenzó  como  un  esfuerzo  de  depósito  y  se  convirtió  en  una  de  las  bases  de  datos  más  
importantes  que  permiten  la  identifcación  de  eucariotas  microbianos  marinos.  de  secuencias  
metatranscriptómicas  (p.  ej.,  [21–24]).  Se  han  realizado  descubrimientos  sustanciales  utilizando  
metatranscriptomas  secuenciados,  incluidas  explicaciones  novedosas  para  brechas  persistentes  en  
la  comprensión  ecológica,  como  la  coexistencia  dentro  de  un  nicho  aparentemente  estrecho  [23],  el  
descubrimiento  de  nuevos  genes  u  organismos  putativos  de  secuencias  previamente  desconocidas  
[19],  el  desarrollo  de  una  comprensión  molecular  de  la  base  de  la  enfermedad  del  coral  [25],  y  
decodificando  las  complejidades  de  las  comunidades  microbianas  de  los  respiraderos  hidrotermales  
de  aguas  profundas  [26].  La  disponibilidad  de  datos  metatranscriptómicos,  en  particular  para  el  fitoplancton  eucariótico,  ha  sido  transfo
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  3  de  36

cantidad  de  información  de  secuencia,  lo  que  nos  permite  interpretar  mejor  el  paisaje  genético  
oceánico  a  escala  global  [27].  Aún  así,  el  análisis  del  metatranscriptoma  tiende  a  variar  sustancialmente  
entre  los  estudios,  y  la  interpretación  puede  sufrir  de  sesgos  inherentes  a  la  tecnología.
Ha  faltado  enfoques  confiables,  reproducibles  y  ampliamente  disponibles  para  el  análisis  del  
metatranscriptoma,  particularmente  en  la  evaluación  de  la  comunidad  microbiana  eucariótica.  Las  
primeras  canalizaciones  de  transcriptomas  se  diseñaron  en  la  última  década  para  organismos  
convencionales  bien  estudiados,  como  humanos  y  ratones,  y  sus  comunidades  microbianas  (por  
ejemplo,  [28]).  Es  poco  probable  que  estas  canalizaciones  incluyan  software  descargable  por  el  
usuario,  a  menudo  se  centran  en  la  anotación  y  no  incluyen  un  mecanismo  para  el  ensamblaje  y  el  
procesamiento  de  novo  [28].  Unos  años  más  tarde,  surgió  la  primera  tubería  para  comunidades  
microbianas  no  caracterizadas,  pero  se  presentó  como  una  descripción  de  los  pasos  necesarios  para  
el  análisis  del  metatranscriptoma,  en  lugar  de  como  productos  de  software  disponibles  para  los  
usuarios  [29] .  La  herramienta  Simple  Annotation  of  Metatranscriptomes  by  Sequence  Analysis  
(SAMSA),  y  su  segunda  versión  lanzada,  SAMSA2,  se  encuentran  entre  las  herramientas  de  análisis  
de  metatranscriptomas  actualizadas  más  recientemente  [30].  Si  bien  esta  herramienta  es  un  paquete  
completo  que  los  científicos  pueden  descargar  y  usar,  se  enfoca  en  los  pasos  de  eliminación  del  gen  rRNA  y  no  incluye  los  pasos  de  en
En  campos  como  la  oceanografía  microbiana,  a  menudo  necesitamos  un  ensamblaje  de  novo  de  
secuencias  de  transcriptoma,  ya  que  no  siempre  se  conoce  la  identidad  de  los  organismos  en  las  
muestras  ambientales,  e  incluso  para  organismos  bien  conocidos,  es  posible  que  no  se  disponga  de  
referencias  completas.  Hasta  la  fecha,  las  canalizaciones  de  metatranscriptomas  han  carecido  de  
productos  de  software  complementarios  o  pasos  de  ensamblaje  necesarios  para  el  análisis  ambiental  
de  novo.  Como  consecuencia,  la  comunidad  sigue  necesitando  una  herramienta  de  análisis  de  
metatranscriptoma  confiable  que  sea  descargable,  reproducible  e  incluya  un  ensamblaje  de  transcriptoma  de  novo.
El  panorama  de  las  herramientas  de  ensamblaje  de  transcriptomas  de  novo  es  amplio  y,  a  menudo,  
hay  desacuerdo  sobre  qué  herramienta  es  mejor  usar  para  una  aplicación  particular  o  el  nivel  de  
expresión  promedio  para  una  transcripción  secuenciada  [31] .  El  software  Oyster  River  Protocol  (ORP)  
se  publicó  en  2018  como  respuesta  a  este  problema,  una  herramienta  diseñada  para  transcriptomas  
individuales  y  destinada  a  combinar  herramientas  de  ensamblaje  [32].  Usando  una  colección  de  
ensambladores  de  transcriptoma,  el  ORP  está  diseñado  para  superar  el  desafío  de  cotejar  de  manera  
eficiente  la  información  de  múltiples  ensambladores  [32].  Además,  utiliza  una  colección  de  tamaños  
de  k­mer,  donde  un  k­mer  es  una  porción  de  tamaño  k  de  la  transcripción  utilizada  para  dividir  la  
información  en  partes  más  digeribles,  para  reducir  la  probabilidad  de  que  se  favorezcan  las  
transcripciones  menos  abundantes  durante  el  ensamblaje.  debido  al  tamaño  pequeño  de  k­mer  o  
viceversa  con  transcritos  más  abundantes  y  tamaño  grande  de  k­mer.  Sin  embargo,  el  ORP  es  un  
enfoque  independiente  para  el  ensamblaje  del  transcriptoma  y  no  permite  que  el  usuario  procese  
simultáneamente  múltiples  muestras,  ni  admite  metatranscriptomas.  El  ORP  obviamente  no  se  integra  
con  las  métricas  de  anotación  posteriores,  y  más  bien  es  un  enfoque  para  combinar  ensamblajes  de  
transcriptomas  construidos  usando  diferentes  longitudes  de  k­mer.
Más  recientemente,  se  ha  demostrado  que  el  coensamblaje  de  novo  utilizando  múltiples  
ensambladores  de  transcriptoma  mejora  la  calidad  del  ensamblaje  de  un  solo  organismo­transcriptoma  
[33].  Esto  se  mostró  utilizando  una  tubería  de  ensamblaje  de  transcriptoma  de  novo  con  datos  de  
expresión  de  organismos  no  modelo  como  entrada  para  recapitular  el  transcriptoma  de  una  sola  especie.
Se  utilizó  un  umbral  de  calidad  de  puntuación  BUSCO  (Benchmarking  Universal  Single­Copy  
Orthologs;  [34])  de  recuperación  del  50  %  para  evaluar  la  recuperación  de  transcriptomas  de  un  solo  
organismo  [33].  BUSCO  es  una  herramienta  que  se  utiliza  para  determinar  la  proporción  de
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  4  de  36

genes  de  una  sola  copia  que  se  encuentran  en  un  genoma  (o  un  transcriptoma)  además  de  las  estadísticas  
iniciales  basadas  solo  en  el  contenido  de  la  secuencia  en  lugar  del  linaje  evolutivo  [34,  35].  Cuando  se  
trabaja  con  transcriptomas  de  un  solo  organismo,  las  métricas  como  las  puntuaciones  de  BUSCO  [34]  
son  apropiadas  para  evaluar  la  integridad  de  la  biblioteca  de  secuencias  del  organismo.  Esto  difiere  del  
contexto  metatranscriptómico,  en  el  que  los  BUSCO  de  organismos  potencialmente  múltiples  están  en  
juego  para  la  recuperación.  Los  autores  del  estudio  de  ensamblaje  conjunto  original  [33]  señalan  que  los  
ensambladores  múltiples  utilizados  a  la  vez  para  un  ensamblaje  conjunto  más  grande  contribuyen  a  
ensamblajes  transcriptómicos  de  datos  de  RNAseq  de  mayor  calidad,  especialmente  cuando  se  usa  algún  
subconjunto  de  los  ensambladores  de  mayor  rendimiento  [33 ] .  Estos  resultados  pueden  ayudar  a  
informar  los  datos  de  la  comunidad  metatranscriptómica  de  múltiples  organismos,  pero  requieren  una  
transición  de  la  consideración  de  métricas  BUSCO  de  un  solo  organismo  a  la  identificación  de  
características  clave  de  múltiples  organismos  presentes  en  una  comunidad  ambiental.  Específicamente,  
en  lugar  de  validar  un  transcriptoma  de  un  solo  organismo  con  sus  estimaciones  de  integridad  de  
BUSCO,  es  necesario  identificar  si  los  múltiples  transcriptomas  de  un  solo  organismo  completos  de  
BUSCO  presentes  en  una  muestra  de  toda  la  comunidad  se  pueden  recuperar  con  precisión.  La  
identificación  de  las  métricas  más  destacadas  y  apropiadas  para  la  afirmación  de  que  un  solo  organismo  
se  ha  identificado  con  precisión  y  sus  funciones  se  han  descrito  con  precisión  a  partir  de  un  
metatranscriptoma  plantea  un  desafío  importante  para  el  campo.  Esto  es  particularmente  cierto  para  los  
datos  de  la  comunidad  ambiental  en  los  que  los  límites  taxonómicos  pueden  no  estar  completamente  
resueltos  en  primer  lugar,  y  los  representantes  culturales  pueden  no  estar  disponibles.  Para  complicar  
aún  más  las  cosas,  incluso  cuando  se  puede  demostrar  que  los  productos  de  ensamblaje  son  "precisos"  
en  relación  con  las  métricas  de  uso  común,  como  la  longitud  de  contig,  el  porcentaje  de  lecturas  de  
secuenciación  sin  procesar  que  se  asignan  al  ensamblaje  y  la  presencia  de  genes  anotados  con  
homología  con  "core".  ”  genes  de  referencia,  no  se  garantiza  que  ofrezcan  la  mejor  solución  al  problema  
de  ensamblaje  debido  a  la  falta  de  representantes  en  la  base  de  datos  [36].
La  pregunta  que  queda  de  los  estudios  de  coensamblaje  de  un  solo  organismo  es  por  qué  los  
ensambladores  transcriptómicos  individuales  a  veces  producen  resultados  de  mayor  calidad  o  más  
completos,  y  si  la  redundancia  dentro  de  cada  ensamblaje  transcriptómico  sesga  la  evaluación  de  la  calidad.
Para  responder  a  esta  pregunta,  el  contenido  ensamblado  compartido  en  la  salida  de  múltiples  
ensambladores  debe  compararse  con  el  nuevo  contenido  que  ofrece  la  combinación  de  herramientas  de  
ensamblaje.  Cuando  se  utilizan  y  comparan  enfoques  estandarizados  para  el  ensamblaje  y  el  uso  de  
parámetros  apropiados,  se  pueden  establecer  nuevos  conocimientos  sobre  los  aspectos  unificadores  y  
diversificadores  de  las  comunidades  microbianas  [37,  38].  Por  lo  general,  se  centran  en  una  o  ambas  de  
las  dos  vías  esenciales  para  la  anotación  del  material  de  secuencias:  la  identidad  taxonómica  de  las  
secuencias  y  su  papel  funcional  en  el  organismo.  Un  estudio  previo  que  se  enfoca  principalmente  en  la  
identificación  de  roles  funcionales  a  través  del  ensamblaje  de  transcritos  [39]  estableció  un  flujo  de  trabajo  
comparativo,  CoMW,  para  evaluar  el  éxito  de  la  recuperación  de  genes  de  bases  de  datos  del  microbioma  
intestinal  humano,  y  comparó  la  efectividad  del  proceso  basado  en  ensamblaje  de  CoMW  a  métodos  sin  
ensamblaje  para  metatranscriptomas.
Aquí,  evaluamos  la  capacidad  de  los  métodos  de  ensamblaje  metatranscriptómicos  y,  específicamente,  
nuestro  enfoque  de  coensamblaje  de  muestras  múltiples  y  coensamblador  para  recuperar  todas  las  
transcripciones  incluidas  de  los  ensamblajes  de  transcriptomas  de  un  solo  organismo  existentes.  En  lugar  
de  probar  la  recuperación  de  genes  de  bases  de  datos  identificados,  comparamos  nuestros  ensamblajes  
de  metatranscriptomas  con  metatranscriptomas  de  "diseñador"  anotados  construidos  a  partir  de  diversos  
ensamblajes  de  transcriptomas  de  una  base  de  datos  creada  con  la  base  de  datos  MMETSP  [3,  20 ] .  esto  es
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  5  de  36

El  flujo  de  trabajo  de  validación  está  diseñado  para  responder  a  las  preguntas:  ¿Los  estudios  que  
utilizan  la  metatranscriptómica  para  comprender  la  diversidad  de  la  comunidad  en  los  microbios  
eucariotas  que  se  encuentran  en  el  medio  ambiente  (a)  recapitulan  adecuadamente  la  diversidad  
taxonómica  y  funcional  que  se  encuentra  en  esas  comunidades?  y  (b)  reproducir  secuencias  
consistentes  que  podrían  recuperarse  de  manera  confiable  con  muestreo  y  ensamblaje  repetidos?  
Específicamente,  el  flujo  de  trabajo  está  destinado  a  explorar  si  las  secuencias  para  las  que  aún  no  
hemos  asignado  una  anotación  funcional  también  se  recuperan  después  de  la  ingeniería  inversa  de  
lecturas  sin  procesar  de  contigs  previamente  ensamblados,  o  si  algunos  pueden  ser  artefactos  de  
ensamblaje.  Además,  evaluamos  si  algunas  herramientas  de  ensamblaje  superan  a  otras,  es  más  
probable  que  lo  hagan  en  términos  de  genes  del  ensamblaje  que  se  pueden  anotar,  distribución  de  
longitud  de  contigs  o  eficiencia  de  mapeo  en  la  recapitulación  de  las  lecturas  sin  procesar.  Al  hacerlo,  
se  pretende  abordar  si  es  aceptable  renunciar  a  uno  o  más  de  estos  a  favor  de  requisitos  computacionales  más  bajos.
La  comunidad  necesita  un  protocolo  para  validar  las  evaluaciones  metatranscriptómicas  populares  
y  un  conjunto  de  recomendaciones  sobre  la  mejor  manera  de  manejar  el  desafío  de  minimizar  los  
costos  de  ensamblaje  computacional  y  maximizar  el  conocimiento  ecológico  extraído  de  estos  datos  
poderosos.  Para  hacer  frente  a  estos  desafíos,  hemos  desarrollado  eukrhyth  mic,  una  canalización  
que  facilita  el  ensamblaje  del  metatranscriptoma  con  múltiples  herramientas  de  ensamblaje  y  
posprocesamiento  para  el  análisis  de  secuencias  ambientales  en  un  flujo  de  trabajo  todo  en  uno.
Aquí,  describimos  la  tubería  eukrhythmic  y  validamos  su  rendimiento  a  través  de  la  construcción  de  
metatranscriptomas  simulados  utilizando  una  herramienta  que  llamamos  jEUKebox,  y  la  aplicamos  al  
ensamblaje  y  análisis  de  conjuntos  de  datos  metatranscriptómicos  publicados  y  metatranscriptomas  
simulados.  Nuestro  esfuerzo  de  evaluación  comparativa  que  utiliza  direcciones  eukrhythmic  si  
ensamblar  metatranscriptomas  de  una  comunidad  ambiental  mixta  es  comparable  a  aislar  y  
secuenciar  especies  o  cepas  particulares  de  microbios  marinos  eucariotas  y  secuenciar  sus  
transcriptomas  individualmente.

Métodos
A  lo  largo  de  este  documento,  utilizamos:  "metatranscriptomas  de  diseño"  para  referirnos  al  "estándar  
de  oro"  cóntigos  metatranscriptómicos  simulados  por  jEUKebox  generados  a  partir  de  transcriptomas  
de  referencia  MMETSP  con  anotaciones  taxonómicas  conocidas,  "lecturas  sin  procesar  simuladas"  
para  hacer  referencia  a  lecturas  sin  procesar  simuladas  del  estándar  de  oro,  y  "productos  
reensamblados"  para  referirse  a  la  salida  simulada  combinada  del  ensamblaje  del  metatranscriptoma  
utilizando  la  tubería  rítmica  euk .

Tubería  eurítmica  
Limpieza  y  recorte  de  datos  El  
recorte  se  realiza  con  Trimmomatic  versión  0.39,  una  herramienta  fexible  que  se  adapta  
específicamente  a  datos  de  secuenciación  de  próxima  generación  de  extremos  emparejados,  con  
parámetros  especificables  por  el  usuario  [40],  con  una  longitud  de  lectura  mínima  de  50  pares  de  
bases ,  una  ventana  deslizante  de  longitud  4  y  puntuación  de  calidad  2,  y  una  lista  estándar  de  
adaptadores  de  Illumina  (ILLUMINACLIP:<lista  de  adaptadores>:2:30:7  LEADING:2  TRAILING:2  SLIDINGWINDOW:4:2  MIN

LEN:50).  Opcionalmente,  el  usuario  también  puede  optar  por  filtrar  secuencias  adicionales,  si  se  
agregaron  durante  la  extracción,  con  bbmap  [41].
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  6  de  36

Ensamblaje  
Una  de  las  principales  ventajas  de  utilizar  la  tubería  eukrhythmic  es  la  flexibilidad  de  utilizar  tantos  (o  
tan  pocos)  ensambladores  transcriptómicos  como  sea  apropiado  para  los  datos  (Fig.  1).  Muchos  
ensambladores  de  metatranscriptomas  diferentes  están  disponibles  para  los  investigadores  y  se  
usan  comúnmente,  y  puede  ser  un  desafío  seleccionar  el  ensamblador  apropiado,  dado  que  cada  
uno  tiene  sus  propias  ventajas  y  desventajas  [42,  43].  En  eukrhythmic,  el  usuario  puede  seleccionar  
cualquier  combinación  de  ensambladores  [36,  44–48]  y  el  proceso  de  ensamblaje  se  lleva  a  cabo  en  
paralelo,  según  lo  permitan  los  recursos.

Fusión  y  agrupamiento  
La  consolidación  de  los  resultados  de  los  ensambladores  del  metatranscriptoma  constituyente  se  
realiza  en  dos  pasos.  En  primer  lugar,  se  concatenan  los  ensamblajes  de  la  misma  muestra  o  "grupo  
de  ensamblaje"  definido  por  el  usuario  (considerado  una  sola  unidad  debido  a  alguna  característica  compartida).
Inspirado  en  el  proceso  adoptado  por  Cerveau  et  al.  (2016)  [49],  usamos  la  herramienta  de  
agrupamiento  MMSeqs  [50]  para  eliminar  contigs  similares  del  ensamblaje  combinado,  primero  
usando  un  umbral  de  similitud  de  secuencia  del  100  %  para  la  secuencia  más  corta  en  una  
alineación  local  para  eliminar  contigs  idénticos  recuperados  por  múltiples  ensambladores  A  
continuación,  la  canalización  se  bifurca  en  dos  tipos  de  salida.  Para  el  primer  tipo  de  salida,  muestras  
individuales/grupos  de  ensamblaje  ("CAG"  o  "agrupados  por  grupo  de  ensamblaje"),  que  luego  se  
someten  a  una  segunda  ronda  de  agrupamiento  de  MMSeqs  para  eliminar  contigs  similares  en  un  
umbral  de  similitud  del  98%  (definido  de  la  misma  manera  que  anterior),  teniendo  en  cuenta  los  
posibles  errores  de  secuenciación  [49].  Además,  las  muestras  ya  fusionadas  del  proceso  de  
ensamblaje  se  fusionan  entre  muestras,  de  modo  que  se  produce  un  ensamblaje  combinado  con  
todos  los  datos  disponibles,  etiquetado  como  "consolidación  de  ensamblaje  múltiple"  o  abreviado  como  "MAD" ("multi­ensamblador  ded

Fig.  1  Diagrama  conceptual  del  flujo  de  trabajo  eurítmico,  que  incluye  A  los  pasos  principales  y  secundarios  de  la  canalización  y  B  el  
resultado  esperado  de  la  canalización.  Abreviaturas:  AGM:  para  cada  grupo  de  ensamblaje,  se  fusionan  los  productos  del  
ensamblador;  CAG:  AGM  posteriores  a  la  agrupación;  SWAM:  fusión  de  grupos  de  ensamblaje  de  toda  la  muestra  (todos  los  CAG  
fusionados);  MAD:  grupos  ensamblados  combinados,  deduplicados  (SWAM  agrupado)
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  7  de  36

Fig.  2  A  Esquema  del  flujo  de  trabajo  de  jEUKebox  para  simular  metatranscriptomas  ambientales  a  partir  de  
transcriptomas  individuales.  Los  transcriptomas  de  laboratorio  pueden  seleccionarse  para  adaptarse  al  proyecto  individual;  
aquí  se  usaron  transcriptomas  del  conjunto  de  datos  MMETSP  para  simular  lecturas  para  la  evaluación  comparativa  de  
eukrhythmic.  B  Representación  conceptual  de  las  seis  simulaciones  de  composición  de  la  comunidad  objetivo  (los  
representantes  taxonómicos  son  MMETSP  Grupo  A  en  la  Tabla  1)

asambleas”)  en  el  texto.  Luego,  agrupamos  el  conjunto  combinado  al  98  %  de  nivel  de  similitud  
utilizando  MMSeqs2  como  se  describió  anteriormente.

traducción  de  proteínas

Para  acomodar  el  análisis  posterior  del  espacio  de  proteínas,  como  la  anotación  de  la  base  de  datos  de  
familias  de  proteínas  (Pfam)  [51],  la  traducción  de  proteínas  con  TransDecoder  [52]  es  compatible  como  
parte  de  eukrhythmic.  Tanto  los  archivos  de  grupo  de  ensamblaje/muestra  individual  de  salida  de  los  dos  
pasos  de  agrupamiento  como  el  ensamblaje  único  combinado  se  traducen  a  secuencias  de  proteínas.

Anotación

Si  bien  eukrhythmic  está  diseñado  principalmente  para  ensamblar,  el  usuario  puede  opcionalmente  optar  
por  anotar  la  salida  del  ensamblado  como  parte  de  la  canalización.  Actualmente,  la  tubería  proporciona  
herramientas  de  anotación  que  incluyen  evaluación  filogenética  usando  EUKulele  [21]  y  evaluación  
funcional  básica  usando  la  herramienta  complementaria  eggNOG­mapper  [53].  Para  caracterizar  las  
anotaciones  KEGG  [54],  agrupamos  los  resultados  por  Kegg  Orthology  ID  (KO).  Cuando  se  asociaron  
múltiples  anotaciones  relevantes  con  un  solo  resultado,  asignamos  recuentos  uniformemente  a  las  
anotaciones  asignadas.

Diseño  de  esquema  comunitario  simulado
Comunidades

Las  seis  comunidades  simuladas  se  diseñaron  para  tener  una  complejidad  diferente  y  para  representar  
ecotipos  comunitarios  que  podrían  encontrarse  en  estudios  metatranscriptómicos  del  mundo  real.  Estas  
configuraciones  se  resumen  visualmente  en  la  Fig.  2  y  en  términos  de  su  complejidad  en  la  Tabla  1  y  su  
composición  taxonómica  en  la  Tabla  2.  La  comunidad  1  fue  diseñada  para  parecerse  a  una  comunidad  
dominada  por  un  solo  organismo,  por  lo  tanto
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  8  de  36

Tabla  1  Métricas  de  diversidad  calculadas  para  las  seis  comunidades  basadas  en  MMETSP  simuladas  utilizadas  en  
el  análisis

Comunidad Puntuación  compuesta  de  Sourmash Shannon Riqueza

1 0,9  ±10−16 15,8  ±  0,2 4

2 1,3  ±10−17 18,3  ±  0,7 5

3 2,0  ±10−16 28,3  ±  0,7 8

4 2,3  ±  0 36,6  ±  0,5 10

5 1,8  ±10−17 25,2  ±  0,7 7

6 2,4  ±10−16 35,6  ±  0,5 12

La  puntuación  compuesta  de  sourmash  es  un  promedio  ponderado  en  abundancia  de  la  distancia  de  sourmash  entre  dos  transcriptomas  
MMETSP.  El  índice  de  diversidad  de  Shannon  se  calcula  de  acuerdo  con  [55],  y  la  riqueza  es  el  número  de  transcriptomas  MMETSP  
incluidos  en  los  metatranscriptomas  de  la  comunidad  (riqueza  de  especies)

Tabla  2  Miembros  de  MMETSP  de  cada  comunidad  simulada  con  el  número  de  grupos  ortólogos  que  incluyen  cada  
organismo  y  la  completitud  de  BUSCO  evaluada  de  cada  transcriptoma

MMETSP ID  de  MMETSP Organismo busco Número  de


Grupo Lo  completo ortólogo
Grupos

A MMETSP0027 Skeletonema  marinoi 146/255 17057

A MMETSP0147 Chrysochromulina  polylepis 119/255 8185

A MMETSP0448 Heterocapsa  triquestra 124/255 14377

A MMETSP0562 Skeletonema  dohrnii 134/255 10279

A MMETSP0604 Skeletonema  menzelii 161/255 9599

A MMETSP0918 Skeletonema  marinoi 135/255 9871

A MMETSP0971 Thalassiosira  oceanica 152/255 11115

A MMETSP0994 emiliania  huxleyi 113/255 12435

A MMETSP0995 emiliania  huxleyi 99/255 12415

A MMETSP1403 Micromonas  pusilla .  137/255 3779

A MMETSP1405 Thalassiosira  weissfogii 151/255 8800

A MMETSP1428 Skeletonema  marinoi 152/255 10152

B MMETSP0321 Leptocylindrus  danicus   169/255 8235

B MMETSP0369 Scrippsiella  hangoei­like   155/255 20932

B MMETSP0397 Cyclophora  tenuis   83/255 7306

B MMETSP0469 Oxyrrhis  marina   160/255 9456

B MMETSP0800 Striatella  unipunctata   100/255 8288

B MMETSP0884 Pelagococcus  subviridis   112/255 7134

B MMETSP0896 Heterosigma  akashiwo   62/255 3988

B MMETSP0975 Pelagomonadales  sp. 171/255 9100

B MMETSP1117 Symbiodinium  sp. 129/255 14718

B MMETSP1338 Pelagodinium  sp. 141/255 17307

B MMETSP1349 Aplanochytrium  stocchinoi   75/255 3747

B MMETSP1411 Thalassiosira  weissfogii 144/255 6939

La  completitud  de  BUSCO  es  una  métrica  de  la  calidad  del  transcriptoma  basada  en  la  presencia  de  genes  eucariotas  ancestrales  
compartidos  (de  un  total  de  255  genes  evaluados).  Los  grupos  ortólogos  informados  se  basan  en  el  análisis  OrthoFinder  [59]  de  todos  
los  miembros  de  la  comunidad  para  cada  grupo  MMETSP;  el  número  total  de  ortogrupos  informados  fue  de  42  093  para  el  grupo  A  del  
MMETSP  y  de  44  178  para  el  grupo  B  del  MMETSP

tiene  el  índice  de  diversidad  de  Shannon  y  la  riqueza  de  especies  más  bajos  (consulte  los  cálculos  
en  la  Sección  “Métricas  para  evaluar  la  complejidad  de  la  comunidad”).  La  comunidad  2  tiene  un  valor  
de  riqueza  de  especies  similar  al  de  la  comunidad  1  y  solo  marginalmente  mayor  diversidad,  ya  que  dos
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  9  de  36

cepas  de  la  misma  especie  constituyen  la  mayoría  de  la  muestra.  La  comunidad  3  tiene  la  mayor  
cantidad  de  genes  que  no  se  comparten  entre  ninguno  de  los  organismos  de  la  muestra,  pero  
una  diversidad  menor  que  las  comunidades  4  y  6,  que  tienen  la  mayor  diversidad  total  de  
especies.  La  comunidad  4  tiene  más  genes  compartidos  entre  dos  grupos  estrechamente  
relacionados.  La  comunidad  5  tiene  el  número  total  más  alto  de  organismos  razonablemente  
relacionados  y  genes  compartidos.  Para  el  grupo  B  de  MMETSP,  la  lista  de  ID  de  MMETSP  para  
elegir  se  seleccionó  al  azar  y  los  emparejamientos  de  comunidades  individuales  se  determinaron  
mediante  la  similitud  fastANI  (consulte  la  sección  "  Simulación  de  comunidades  eucariotas  
mediante  jEUKebox").

Métricas  para  evaluar  la  complejidad  de  la  comunidad

El  índice  de  diversidad  de  Shannon  de  cada  comunidad  se  calculó  mediante  la  siguiente  fórmula  
[55]:
norte

Shannon(comunidad)  = pj  ln  pi  j=1

donde  n  es  el  número  total  de  “tipos”  de  miembros  de  la  comunidad,  yp  es  su  proporción  en  su  
comunidad.  La  riqueza  total  de  especies  se  informó  como  el  número  total  de  tipos  presentes  en  
la  comunidad.
Utilizamos  sourmash  para  calcular  la  similitud  por  pares  de  cada  transcriptoma  MMETSP  
dentro  de  cada  comunidad  [56].  Además,  presentamos  otra  métrica  de  diversidad  para  tener  en  
cuenta  la  similitud  potencial  de  los  transcriptomas  más  allá  de  sus  anotaciones  taxonómicas:

norte norte

Puntuación  compuesta  de  Sourmash  = (1  −  puntuación  de  puré  de  mostaza)  min(pi,  pj)
yo=1  j=1

En  otras  palabras,  para  cada  par  de  transcriptomas  en  la  comunidad,  ponderamos  el  puntaje  
de  similitud  de  mezcla  agria  del  par  de  transcriptomas  por  la  abundancia  del  transcriptoma  
menos  abundante  en  el  par.  Reportamos  la  suma  de  estos  puntajes  ponderados  para  cada  
comunidad  en  la  Tabla  1.

Simulación  de  comunidades  eucariotas  utilizando  jEUKebox  
Selección  de  transcriptomas  
Para  cada  conjunto  de  comunidades  eucariotas  simuladas,  se  utilizaron  12  transcriptomas  del  
MMETSP  [3,  20] .  Estos  se  resumen  en  la  Tabla  2  para  las  dos  comunidades  seleccionadas.
Para  la  "comunidad  A",  se  incluyeron  los  ID,  pero  no  los  contigs  seleccionados,  en  función  de  sus  
características,  incluidos  algunos  ID  de  MMETSP  de  la  misma  especie  y  algunos  de  cepas  
estrechamente  relacionadas.  Para  la  "comunidad  B",  jEUKebox  seleccionó  aleatoriamente  los  
transcriptomas  MMETSP,  con  la  única  restricción  de  incluir  algunos  taxones  estrechamente  relacionados.
Para  la  selección  aleatoria  integrada  en  la  canalización,  el  único  requisito  es  que  algún  
subconjunto  de  los  organismos  que  entraron  en  las  comunidades  tuvieran  un  socio  muy  similar  
en  la  misma  comunidad  por  puntuación  de  similitud  de  nucleótidos  calculada.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  10  de  36

Cálculo  de  similitud  usando  fastANI  Con  el  
fin  de  seleccionar  transcriptomas  "estrechamente  relacionados"  para  las  especificaciones  de  la  
comunidad,  usamos  fastANI  [57]  para  calcular  la  identidad  de  secuencia  basada  en  nucleótidos  
promedio  entre  transcriptomas  e  identificar  transcriptomas  similares  sobre  la  base  de  tener  ≥  80%  
promedio  identidad  de  nucleótidos.  Por  lo  tanto,  para,  por  ejemplo,  la  comunidad  2  (ver  Fig.  2),  se  
seleccionarían  dos  transcriptomas  MMETSP  con  similitud  fastANI  ≥  80% .

Identificación  de  relaciones  evolutivas  putativas  con  OrthoFinder  Para  
probar  la  calidad  del  ensamblaje  del  metatranscriptoma  con  respecto  a  la  recuperación  de  genes  con  
un  origen  evolutivo  compartido,  pero  diferente  identidad  taxonómica  anotada  actual,  utilizamos  la  
herramienta  OrthoFinder  para  identificar  grupos  ortólogos  entre  los  transcriptomas  MMETSP  e  incluir  
genes  de  grupos  de  genes  altamente  conservados  y  relativamente  raros  en  el  metatranscriptoma  del  
diseñador  [58,  59].  Como  se  resume  en  la  Fig.  2,  la  canalización  de  jEUKebox  automatiza  este  proceso  
al  incluir  el  10  %  de  todos  los  ortólogos  de  copia  única  identificados  informados  por  OrthoFinder  (grupos  
de  ortólogos  con  un  solo  gen  representativo  de  cada  transcriptoma  en  la  comunidad).  A  continuación,  
se  seleccionan  los  genes  para  cada  uno  de  los  organismos  de  la  comunidad  de  acuerdo  con  el  siguiente  
procedimiento.  Para  los  genes  que  tienen  un  socio  "altamente  relacionado"  con  respecto  a  la  similitud  
calculada  (consulte  la  sección  "Cálculo  de  similitud  usando  fastANI";  puntuación  de  fastANI  ≥  80%),  el  
75%  de  los  contigs  se  incluirán  en  el  transcriptoma  del  diseñador  (según  lo  prescrito  por  el  proporción  
deseada  del  organismo  candidato  en  los  metatranscritos  finales)  se  tomaron  de  grupos  ortólogos  que  
incluían  más  que  solo  el  candidato.  El  25%  restante  se  seleccionó  aleatoriamente  de  grupos  ortólogos  
que  solo  contenían  al  candidato.  Para  genes  sin  un  socio  altamente  relacionado,  el  75%  de  los  genes  
se  tomaron  de  grupos  ortólogos  exclusivos  que  contenían  solo  al  candidato.  El  25%  restante  se  
seleccionó  aleatoriamente  de  grupos  ortólogos  compartidos  con  otros  transcriptomas  MMETSP.

Simulación  de  lecturas  sin  procesar

Después  de  crear  los  metatranscriptomas  de  diseño  directamente  a  partir  de  una  selección  aleatoria  
informada  de  contigs  de  los  transcriptomas  MMETSP,  se  simularon  lecturas  sin  procesar  utilizando  el  
paquete  Rsubread  [60].  Elegimos  una  longitud  de  lectura  de  75  pares  de  bases  para  permitir  que  la  
función  simReads  use  su  conjunto  incorporado  de  puntajes  de  calidad  para  determinar  aleatoriamente  
un  error  de  secuenciación  para  las  lecturas  sin  procesar  generadas  (a  través  del  parámetro  de  error  
de  simulación.  secuenciación).  Elegimos  una  longitud  media  de  fragmentos  de  180±40  pares  de  bases  
y  generamos  una  biblioteca  de  1  millón  de  pares  de  bases  para  las  lecturas  de  secuenciación  
emparejadas  que  se  simularon  usando  el  paquete  para  cada  comunidad  y  prueba.

Reensamblaje  con  eukrhythmic  
Las  lecturas  sin  procesar  simuladas  mediante  la  función  simReads  se  proporcionaron  como  entrada  
para  la  canalización  eukrhythmic.  La  canalización  se  ejecutó  con  la  configuración  predeterminada  como  
se  describe  en  la  Sección  "Eukrhythmic  pipeline"  y  se  incluye  en  el  archivo  de  configuración  al  
descargar  la  canalización.  Se  utilizaron  cuatro  ensambladores:  rnaSPAdes  [36],  MEGAHIT  [47],  
metaSPAdes  [48]  y  Trinity  [61].  Elegimos  estos  cuatro  ensambladores  porque
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  11  de  36

cada  uno  está  diseñado  específcamente  para  el  problema  de  ensamblaje  del  transcriptoma  eucariótico  a  
nivel  comunitario,  o  se  ha  informado  que  funcionan  particularmente  bien  en  métricas  de  ensamblaje  de  
metatranscriptoma  particulares  [62].  rnaSPAdes  está  diseñado  para  el  ensamblaje  de  ARN  y  funciona  bien  
con  respecto  al  mapeo  porcentual  [36,  62],  Trinity  funciona  bien  con  respecto  al  número  y  la  longitud  de  los  
contigs  generados  [61,  62],  MEG  AHIT  es  excepcionalmente  rápido  [47]  y  metaSPAdes  es  diseñado  para  
el  ensamblaje  de  datos  de  secuenciación  a  nivel  comunitario  [48].

Evaluación  de  la  calidad  del  
reensamblaje  
Estadísticas  de  ensamblaje  Usamos  la  herramienta  de  mapeo  Salmon  para  cuantificar  la  abundancia  de  
cada  contig  con  respecto  a  las  lecturas  sin  procesar  y  para  evaluar  qué  proporción  de  las  lecturas  sin  
procesar  estaban  representadas  en  los  contigs  ensamblados.
Reportamos  estadísticas  descriptivas  para  los  contigs  ensamblados  como  un  indicador  de  la  calidad  de  
las  secuencias  ensambladas.  Estos  incluyen  la  desviación  mínima,  máxima,  media  y  estándar  de  la  longitud  
del  contig,  así  como  la  métrica  N50.  Usamos  la  definición  de  la  métrica  N50  como  la  longitud  mínima  entre  
el  conjunto  de  contigs  que  juntos  constituyen  el  50%  de  la  longitud  total  de  todos  los  contigs  en  el  conjunto,  
según  lo  informado  por  QUAST  [63] .

Agrupación  de  proteínas  metatranscriptómicas  reensambladas  con  proteínas  metatranscriptómicas  
de  diseñador  derivadas  de  
MMETSP  Para  determinar  si  las  coincidencias  de  secuencia  exactas  se  compartían  entre  las  proteínas  
predichas  del  ensamblaje  del  metatranscriptoma  y  las  proteínas  del  MMETSP  utilizadas  para  crear  el  
metatranscriptoma  de  diseñador,  realizamos  la  agrupación  mmseqs2  entre  los  dos  conjuntos  de  proteínas  
[50].  Elegimos  el  algoritmo  LINCLUST  implementado  en  mmseqs2  debido  a  su  tasa  de  descubrimiento  falso  
extremadamente  baja  en  la  agrupación  [64,  65].  De  acuerdo  con  lo  que  utilizaron  los  autores  de  mmseqs2,  
informamos  estos  resultados  utilizando  una  edad  de  cobertura  mínima  de  la  secuencia  objetivo  (­cov­mode  
1)  del  90  %  y  una  identidad  de  secuencia  mínima  del  90  %,  en  cuyo  umbral  se  producen  menos  grupos  pero  
hay  muy  pocas  posibilidades  de  un  falso  negativo,  es  decir,  dos  secuencias  similares  en  un  90  %  en  el  
conjunto  de  datos  que  mmseqs2  no  informa.

Al  evaluar  la  probabilidad  de  que  los  contigs  se  ensamblaran  usando  eukrhythmic  para  agruparse  con  
los  contigs  del  diseñador,  basamos  la  comparación  en  las  predicciones  de  proteínas  de  TransDecoder  [52]  
agrupadas  a  través  de  mmseqs2.  Para  cada  contig  de  nucleótido  completo,  consideramos  que  se  había  
"agrupado  con  el  metatranscriptoma  del  diseñador"  si  al  menos  un  ORF  de  TransDecoder  se  agrupaba  con  
éxito  con  una  proteína  del  ensamblaje  del  diseñador,  aunque  el  ensamblaje  del  transcriptoma  ocurre  en  el  
espacio  de  nucleótidos.
Esto  nos  permitió  cuantificar  también  qué  proporción  de  los  contigs  del  ensamblaje  eukrhythmic  no  se  les  
asignó  un  ORF  en  absoluto  por  el  software  TransDecoder.

Evaluación  de  proteínas  metatranscriptómicas  utilizando  la  comparación  BLAST  de  
todos  por  todos  Además  del  agrupamiento,  realizamos  una  búsqueda  de  todos  por  BLAST  entre  las  
proteínas  de  los  contigs  originales  del  MMETSP  y  las  proteínas  predichas  resultantes  de  eukrhythmic.  Se  
usó  un  valor  e­valor  de  corte  de  10−2  para  capturar  la  coincidencia  superior  en  el
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  12  de  36

base  de  bitscore,  y  luego  los  hits  se  clasificaron  de  acuerdo  con  su  identidad  porcentual  y  valor  
de  bitscore.

Anotaciones  taxonómicas
Como  se  realizó  dentro  de  la  tubería  eukrhythmic,  generamos  anotaciones  taxonómicas  tanto  
para  los  metatranscriptomas  de  diseño  como  para  los  productos  reensamblados  de  euk  rítmico  
con  la  herramienta  EUKulele  (versión  2.0.3)  utilizando  la  base  de  datos  de  referencia  
predeterminada  de  contigs  de  todos  los  transcriptomas  MMETSP  y  la  base  de  datos  MarRef  [3 ,  20,  21,  66].
Informamos  diferencias  en  el  número  de  especies  y  géneros  anotados  de  EUKulele  en  los  
productos  reensamblados  en  comparación  con  las  secuencias  que  se  prescribieron  para  incluirse  
en  el  metatranscriptoma  del  diseñador  utilizando  la  canalización  jEUKebox.  También  comparamos  
las  anotaciones  EUKulele  de  los  metatranscriptomas  del  diseñador,  incluidas  las  coincidencias  
falsas  sobre  la  base  de  secuencias  de  baja  calidad  que  están  presentes  en  la  base  de  datos  y  
que,  para  empezar,  no  se  anotaron,  con  las  anotaciones  de  los  productos  reensamblados.
Realizamos  una  regresión  lineal  estándar  sobre  el  número  de  anotaciones  para  cada  especie,  
género,  orden  y  phylum  de  los  metatranscriptomas  del  diseñador  en  comparación  con  los  
productos  reensamblados.  También  categorizamos  las  anotaciones  taxonómicas  de  acuerdo  a  si  
fueron  clasificadas  correctamente,  incorrectamente  (en  conflicto  con  las  anotaciones  originales)  o  
no  fueron  clasificadas.  Realizamos  una  prueba  T  de  2  muestras  de  Welch  para  muestras  
independientes  como  se  implementó  en  scipy  [67]  para  comparar  las  abundancias  sumadas  de  
secuencias  clasificadas  y  no  clasificadas  correcta  e  incorrectamente.

anotaciones  funcionales
Todas  las  anotaciones  funcionales  se  determinaron  utilizando  eggNOG­mapper  (versión  2.1.3)
[53].  De  manera  similar  a  las  anotaciones  taxonómicas,  se  compararon  las  anotaciones  de  
términos  de  ortología  (KO)  de  la  Enciclopedia  de  genes  y  genomas  de  Kioto  (KEGG)  entre  los  
metatranscriptomas  del  diseñador  a  través  de  la  anotación  de  los  contigs  del  MMETSP  y  los  
productos  reensamblados  que  se  recuperaron  como  resultado  de  la  canalización  eurítmica.

Se  realizó  una  regresión  lineal  estándar  para  comparar  la  abundancia  de  términos  de  la  
ortología  KEGG  en  los  metatranscriptomas  del  diseñador  en  comparación  con  los  productos  
reensamblados  de  eukrhythmic.  La  regresión  y  el  valor  de  probabilidad  asociado  se  calcularon  
utilizando  la  implementación  en  base  R  [68].

Ensamblaje  y  evaluación  de  metatranscriptomas  ambientalmente  relevantes  del  proyecto  Tara  
Oceans  
Reunimos  metatranscriptomas  del  proyecto  Tara  Oceans  [69,  70]  como  una  contrapartida  
ambiental  de  los  datos  de  secuencia  simulados.  Se  ensamblaron  muestras  de  metatranscriptoma  
de  tres  cuencas  oceánicas  distintas  a  partir  de  las  muestras  de  superficie  de  fracción  de  pequeño  
tamaño  altamente  diversas  del  proyecto  Tara:  el  Atlántico  Norte,  el  Océano  Austral  y  el  Mar  
Mediterráneo;  los  números  de  acceso  se  recopilan  en  la  Tabla  6.  Ensamblamos  estos  
metatranscriptomas  utilizando  parámetros  predeterminados  para  la  tubería  eukrhythmic  y  usamos  
MEGAHIT  y  rnaSPAdes,  que  demostraron  ser  los  ensambladores  más  rápidos  y  precisos,  
respectivamente,  tanto  en  el  presente  trabajo  como  en  otras  investigaciones  [36 ,  47].  Se  
seleccionaron  ensambladores  de  árboles  para  comparar  los  hallazgos  mutuos  de  los  tres  ensambladores.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  13  de  36

al  contenido  de  secuencia  único  identificado  por  cada  uno.  Evaluamos  los  resultados  del  
ensamblaje  del  scriptoma  de  metatran  a  través  del  mapeo  porcentual  a  través  de  Salmon  usando  
la  longitud  de  k­mer  predeterminada  de  31,  la  selección  automática  del  tipo  de  biblioteca  y  el  fag  –
validateMappings  [71],  y  las  anotaciones  taxonómicas  y  funcionales  proporcionadas  por  EUKulele  
(versión  2.0  .3)  y  eggNOG­mapper  (versión  2.1.3),  respectivamente  [21,  53].
Estos  metatranscriptomas  fueron  analizados  previamente  por  [22]  con  secuencias  transcritas  de  
longitud  ≥150  bases  ensambladas  usando  terciopelo  [72]  incluido  como  parte  de  la  base  de  datos  
“MATOU” [22].  Para  comparar  los  contigs  generados  y  retenidos  a  partir  de  nuestro  enfoque  de  
ensamblador  múltiple,  realizamos  una  búsqueda  blastn  [73]  con  un  corte  de  valor  e  de  1e­10  para  
encontrar  la  coincidencia  de  mayor  puntuación  de  las  secuencias  transcritas  "MATOU"  con  nuestras  
secuencias. ,  y  comparó  los  cóntigos  que  coincidieron  correctamente  con  la  base  de  datos  utilizando  
este  método  con  aquellos  que,  de  otro  modo,  podrían  anotarse  funcional  y/o  taxonómicamente.  Las  
secuencias  de  codificación  identificadas  de  longitud  >  150  bases  se  conservaron  para  su  posterior  
análisis  siguiendo  [22].

Reensamblaje  y  evaluación  de  metatranscriptomas  previamente  explorados  
de  la  serie  temporal  de  Narragansett  Bay  
Reunimos  diez  muestras  de  un  estudio  metatranscriptómico  de  2015  de  la  serie  temporal  de  
Narragansett  Bay  [23].  Estas  muestras  se  almacenan  con  el  número  de  acceso  del  proyecto  del  
Centro  Nacional  de  Información  Biotecnológica  (NCBI)  SRP055134  y  a  las  muestras  se  les  
asignaron  números  de  acceso  individuales  recopilados  en  la  Tabla  5.  Reunimos  estos  metatranscript  
tomos  utilizando  parámetros  predeterminados  para  la  tubería  eukrhythmic  y  usamos  MEGAHIT,  
rnaSPAdes,  metaSPAdes  y  Trinidad  [36,  47,  48,  61].  Comparamos  las  anotaciones  taxonómicas  y  
funcionales  entre  los  ensambladores  con  la  composición  de  los  principales  grupos  taxonómicos  
informados  por  el  estudio  de  2015,  que  utilizó  el  mapeo  de  lectura  sin  procesar  para  hacer  referencia  
a  los  ensamblajes  del  transcriptoma  en  lugar  de  ensamblar  el  metatranscriptoma  en  sí  [23] .  
También  comparamos  los  conocimientos  extraídos  de  los  metatranscriptomas  simulados  a  través  
de  jEUKebox  con  los  patrones  que  surgen  del  uso  de  múltiples  ensambladores  en  un  conjunto  de  
datos  ambientales  analizados  previamente.

Procesamiento  y  visualización  de  
datos  Los  datos  de  salida  de  las  herramientas  descritas  se  procesaron  utilizando  Python  versión  
3.8.3  [74]  y  R  versión  4.1.0  [68].  Las  figuras  se  generaron  usando  plotnine  en  Python  [75]  o  ggplot2  
[76]  en  R  con  organización  en  paneles  usando  patchwork  1.1.2  [77].  El  análisis  estadístico  de  los  
datos  se  realizó  con  SciPy  [67]  o  con  R  versión  4.1.0  [68].

Resultados

Las  lecturas  sin  procesar  simuladas  se  crearon  usando  la  tubería  jEUKebox  descrita  en  los  
métodos  (Sección  "Simulación  de  comunidades  eucariotas  usando  jEUKebox")  y  se  procesaron  con  
eukrhythmic.  Brevemente,  las  lecturas  se  recortaron,  se  sometieron  a  una  estimación  de  calidad  y  
se  ensamblaron  utilizando  múltiples  herramientas  de  software  que  se  identificaron  o  demostraron  
en  estudios  anteriores  para  funcionar  bien  con  secuencias  de  ARNm  transcritas,  datos  
metagenómicos  o  ambos  [36,  47,  61],  se  agruparon ,  y  luego  fueron  anotados  funcional  y  
taxonómicamente  con  EUKulele  (versión  2.0.3)  y  eggNOG­mapper  (versión  2.1.3)  [21,  53].  Te
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  14  de  36

los  detalles  completos  de  las  tuberías  jEUKebox  y  eukrhythmic  se  amplían  en  los  Materiales  y  
Métodos  (Sección  "Eukrhythmic  pipeline").

El  oleoducto  jEUKebox  genera  metatranscriptomas  eucariotas  simulados  con  diversidad  
de  secuencia  
variable  Desarrollamos  el  oleoducto  jEUKebox  para  facilitar  la  creación  rápida  de  conjuntos  de  
datos  metatranscriptómicos  simulados  completos  que  pueden  usarse  para  comparar  oleoductos  
y  software.  Aquí,  construimos  metatranscriptomas  de  eucariotas  marinos  con  diferente  diversidad  
de  secuencias  y  complejidad  de  la  comunidad  aprovechando  los  datos  de  referencia  del  
MMETSP  [3,  20].  Tratamos  los  conjuntos  de  datos  simulados  por  jEUKebox  como  un  estándar  
de  oro  para  evaluar  el  rendimiento  de  las  canalizaciones  eukrhythmic  y  los  ensambladores  que  
utiliza.  Se  pueden  encontrar  más  detalles  sobre  cómo  la  tubería  simula  lecturas  sin  procesar  
que  se  asemejan  al  tipo  de  datos  generados  por  encuestas  metatranscriptómicas  marinas  en  
Materiales  y  métodos  (Sección  "  Simulación  de  comunidades  eucariotas  usando  jEUKebox").  
Elegimos  dos  grupos  distintos  de  transcriptomas  de  laboratorio  del  MMETSP  [20]  para  las  
simulaciones  para  garantizar  que  los  resultados  no  fueran  producto  de  los  organismos  
específicos  que  seleccionamos.  Para  la  selección  aleatoria  integrada  en  la  canalización,  el  
único  requisito  es  que  algún  subconjunto  de  los  organismos  que  entraron  en  las  comunidades  
tuvieran  un  socio  muy  similar  en  la  misma  comunidad  por  puntuación  de  similitud  de  nucleótidos  
calculada  (Sección  “Simulación  de  comunidades  eucariotas  usando  jEUKebox  ”).  También  
diseñamos  la  tubería  jEUKebox  para  incluir  una  fracción  balanceada  de  transcripciones  comunes  
que  tenían  un  ortólogo  expresado  por  múltiples  organismos,  e  implementamos  seis  
configuraciones  comunitarias  distintas  para  simular  un  rango  de  riqueza  e  igualdad  de  especies  (Fig.  2).

Los  productos  eukrhythmic  representan  con  precisión  las  
lecturas  sin  procesar .  La  canalización  eukrhythmic  produjo  productos  reensamblados  con  puntajes  
de  asignación  de  porcentaje  de  lectura  sin  procesar  similares  a  los  de  los  ensamblajes  del  diseñador.  
El  mapeo  de  las  lecturas  sin  procesar  simuladas  contra  los  productos  eukrhythmic  reensamblados  
fue  menor  que  contra  los  metatranscriptomas  del  diseñador  contra  los  que  fueron  simulados,  con  un  
87,5  ±  2,0  %  de  lecturas  sin  procesar  simuladas  mapeadas  contra  los  productos  eukrhythmic  
reensamblados  y  un  96,0  ±  0,2  %  contra  el  ensamblaje  del  diseñador  (Fig.  .3A­C;  Tabla  3).  Esta  
discrepancia  probablemente  se  deba  al  paso  de  introducción  del  error  en  las  lecturas  sin  procesar  
oa  conflictos  entre  diferentes  ubicaciones  de  lectura  sin  procesar  en  candidatos  para  productos  
reensamblados  que  el  ensamblador  no  pudo  resolver.  Estos  patrones  se  reprodujeron  en  el  conjunto  
de  datos  ambientales  que  probamos  [23]:  tanto  el  ensamblaje  MAD  (82,1  ±  3,8  %)  como  el  
ensamblaje  agrupado  de  múltiples  ensambladores  ("CAG";  77,6  ±  4,5  %  mapeado)  superaron  a  
cualquier  ensamblador  individual  con  respecto  al  porcentaje  mapeo  (Fig.  3D­E).  En  nuestros  datos  
simulados,  rnaSPAdes  tuvo  el  mapeo  de  porcentaje  promedio  más  alto  de  cualquier  ensamblador,  y  
MEGAHIT  tuvo  el  más  bajo  (Fig.  3D),  pero  los  patrones  fueron  ligeramente  diferentes  en  el  conjunto  
de  datos  ambientales  [23].  Si  bien  MEGAHIT  todavía  tiene  un  desempeño  inferior  al  de  los  otros  
ensambladores  con  respecto  al  mapeo  porcentual  (Fig.  3D,  E),  las  comparaciones  entre  los  
ensambladores  restantes  fueron  menos  sencillas.  rnaS  PAdes  mostró  el  rendimiento  individual  más  
alto  (75,0  ±  4,7  %  mapeado),  seguido  de  SPAdes  (70,5  ±  5,4  %  por  ciento  mapeado).  Sin  embargo,  
Trinity  se  desempeñó  mejor  en  algunas  muestras  que  en  otras,  por  lo  que  mostró  una  mayor  
dispersión  en  los  valores  porcentuales  de  mapeo  (67,8  ±  8,6  %).
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  15  de  36

La  longitud  promedio  de  contig  tendió  a  ser  significativamente  más  corta  en  los  ensamblajes  
eurítmicos  en  comparación  con  los  metatranscriptomas  de  diseño,  aunque  hubo  una  variabilidad  
considerable  (Fig.  3).  La  longitud  promedio  de  los  marcos  de  lectura  abiertos  (ORF)  predicha  por  la  
herramienta  TransDecoder  también  fue  menor  en  los  reensamblajes  eurítmicos  en  comparación  con  
las  secuencias  originales  recuperadas  de  los  transcriptomas  MMETSP  (Tabla  4;  Fig.  3).  Aunque  todavía  
sustancialmente  más  cortas  que  los  metatranscritos  del  diseñador,  las  secuencias  en  los  productos  
eurítmicos  que  fueron  recuperadas  por  más  de  un  ensamblador  de  acuerdo  con  el  agrupamiento  
mmseqs2  tenían  una  longitud  progresivamente  más  larga  (longitud  media  de  334  pares  de  bases  para  
grupos  representados  por  un  solo  ensamblador,  longitud  media  de  960  pares  de  bases  para  grupos  
representados  por  los  cuatro  ensambladores,  prueba  t  entre  distribuciones  p  <  0.001;  Fig.  3).  Estos  
contigs  más  largos  tenían  una  alta  fidelidad  con  las  lecturas  sin  procesar,  como  lo  demuestra  el  acuerdo  
de  múltiples  enfoques  de  ensamblaje,  por  lo  tanto,  era  probable  que  fueran  secuencias  más  largas  
interrumpidas  por  menos  instancias  de  conflicto.

La  agrupación  en  clústeres  menos  estricta  reduce  ligeramente  las  
anotaciones  identificadas  eukrhythmic  reduce  la  redundancia  de  los  contigs  identificados  para  el  
ensamblaje  fusionado  a  través  de  la  agrupación,  lo  que  reduce  la  complejidad  computacional  de  las  
operaciones  posteriores  en  el  archivo  de  ensamblaje  más  pequeño  de  múltiples  ensambladores  y  
muestras  múltiples.  La  aplicación  del  agrupamiento  directamente  a  los  metatranscriptomas  del  
diseñador  reveló  que  el  agrupamiento  sustancial  de  proteínas  y  espacios  solo  disminuye  ligeramente  
las  anotaciones  únicas  extraídas  del  conjunto  de  datos.  Por  ejemplo,  el  agrupamiento  mmseqs2  con  un  
umbral  de  identidad  de  secuencia  de  0,6  y  un  umbral  de  cobertura  de  0,6  en  el  modo  de  cobertura  1  
redujo  la  cantidad  de  con  tigs  en  el  ensamblado  en  un  promedio  de  23,7  %  y  redujo  el  tamaño  del  
archivo  de  ensamblado  en  un  promedio  de  21,7  %,  pero  solo  redujo  las  anotaciones  funcionales  de  la  
base  de  datos  KEGG  identificadas  promedio  en  un  1,4%  y  no  resultó  en  la  pérdida  de  ninguna  especie  
del  conjunto  de  datos  a  través  de  la  agrupación  (Fig.  4).  De  forma  predeterminada,  eukrhythmic  utiliza  
un  enfoque  conservador  de  100  %  de  identidad  de  secuencia  y  98  %  de  cobertura  para  el  paso  de  
agrupamiento  más  indulgente,  pero  descubrimos  en  esta  prueba  que  los  valores  del  80  %  para  la  
cobertura  y  la  identidad  de  secuencia  podrían  reducir  considerablemente  el  tamaño  total  del  archivo  sin  
cambiar  considerablemente  anotaciones  únicas  (Archivo  adicional  1:  Fig.  S1).  Dada  esta  reducción  
sustancial  en  el  tamaño  del  archivo  sin  pérdida  de  la  mayoría  de  las  anotaciones,  se  pueden  justificar  
umbrales  de  agrupamiento  más  estrictos,  especialmente  en  conjuntos  de  datos  con  muchas  muestras  o  secuencias  de  alta  profundidad.

(Vea  la  figura  en  la  página  siguiente).

Fig.  3  El  ensamblaje  "MAD"  combinado  mejora  un  conjunto  de  estadísticas  de  ensamblaje  en  relación  con  los  ensamblajes  individuales.

Se  muestran  estadísticas  de  ensamblaje  básicas  para  los  reensamblajes  eurítmicos  (por  muestra)  en  comparación  con  los  metatranscriptomas  del  

diseñador.  Una  distribución  de  mapeo  de  porcentaje  de  Salmon  para  el  diseñador  frente  a  metatranscriptomas  reensamblados.  B  Distribuciones  de  longitud  

de  contig  normalizadas  logarítmicamente  comparadas  entre  diseñador  y  reensamblado.  C  Fracción  por  secuencia  del  contenido  de  GC  para  el  

diseñador  en  comparación  con  los  reensamblajes.

D  Mapeo  porcentual  usando  Salmon  de  conjuntos  de  datos  simulados,  separando  por  el  mapeo  porcentual  de  ensamblajes  individuales  usando  cada  

ensamblador  probado  (distribuciones  más  bajas),  grupos  de  ensamblaje  agrupados  en  un  ensamblaje  con  múltiples  ensambladores  subyacentes  

("CAG"),  y  todos  los  ensambladores  y  ensamblajes  consolidados  ("  ENOJADO").  Todas  las  estimaciones  de  mapeo  porcentual  se  realizaron  de  forma  

independiente  para  cada  conjunto  de  lecturas  sin  procesar  de  los  datos  subyacentes.  E  Datos  ambientales  de  Narragansett  Bay  utilizando  las  mismas  

comparaciones  que  el  Panel  D.
Las  líneas  verticales  en  los  paneles  D  y  E  corresponden  a  los  valores  medios  de  la  distribución  o  conjunto  de  distribuciones  representadas  por  el  color  

de  cada  línea  vertical
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  16  de  36

Fig.  3  (Ver  leyenda  en  página  anterior.)

El  ensamblaje  del  metatranscriptoma  eucariota  recapitula  con  precisión  la  diversidad  

taxonómica  simulada  En  general,  todos  los  ensambladores  se  desempeñaron  bien  con  respecto  
a  la  recuperación  de  las  principales  anotaciones  taxonómicas  de  los  metatranscriptomas  
simulados.  La  herramienta  EUKulele  asignó  anotaciones  a  nivel  de  género  al  94,8  ±  2,2  %  de  todos  los  contigs  recuperados
Más  
información:  
https://
github.com/
jEUKebox
AlexanderLabWHOI/ ensambladores  
que  
luego  
se  
agruparon  
utilizando  
configuraciones  
eukrhythmic  
predeterminadas.  
Se  
presenta  
la  
media  
En  y  
desviación  
estándar  
de  
cuatro  
ensayos  
de  
cada  
comunidad  
y  
una  
lista  
de  
identificaciones  
este  MMETSP.  
También  
mostramos  
la  
cantidad  
de  
géneros  
que  
(1)  
se  
incluyeron  
originalmente  
a  
través  
de  
transcriptomas  
aprovechados  
del  
análisis  
se   MMETSP  
(2)  
identificados  
usando  
EUKulele  
dentro  
de  
los  
metatranscriptomas  
utilizaron  
cuatro   simulados  
y  
(3)  
recuperados  
en  
los  
datos  
reensamblados  
después  
de  
la  
aplicación  
de  
la  
canalización  
eukrhythmic .  
Para  
los  
KO  
ID  
funcionales,  
solo  
se  
pudieron  
comparar  
los  
ensamblajes  
del  
diseñador  
y  
los  
productos  
eukrhythmic  
reensamblados.  
Se  
proporciona  
como  
complemento  
una  
versión  
de  
esta  
tabla  
en  
la  
que  
las  
dos  
comunidades  
distintas  
diseñadas  
a  
partir  
del  
MMETSP  
(la  
combinación  
de  
las  
dos  
contribuye  
a  
una  
desviación  
estándar  
relativamente  
alta)  
se  
presentan  
por  
separado.
6 5 4 3 2 1 Comunidad Tabla  
3  
Tamaño  
de  
ensamblaje  
resultante  
y  
recuperación  
taxonómica,  
funcional  
y  
de  
contenido  
central  
de  
las  
salidas  
después  
de  
jEUKebox  
la  
simulación  
de  
lectura  
sin  
procesar  
y  
el  
reensamblaje  
con  
eukrhythmic
52795  
±  
5152  
31,2  
±  
2,9 44262  
±  
6254  
25,9  
±  
3,2 49911  
±  
6524  
29,5  
±  
4,7 47862  
±  
7756  
28,0  
±  
5,2 44180  
±  
3486  
26,1  
±  
2,6 51741  
±  
6031  
32,6  
±  
3,6 cóntigos Simulado
Clústeres Contigo ensamblado Número  
de
59826  
±  
4076  
5,6  
1,3 50042  
±  
5395  
3,8  
±  
0,9 57262  
±  
6752  
5,1  
±  
1,4 53379  
±  
6921  
4,4  
0,9 49354  
±  
4948  
3,2  
0,9 59489  
±  
4825  
3,8  
0,5 Tamaño  
(MB) Asamblea
géneros MMETSP
6,2  
±  
1,2 4,6  
±  
1,1 5,9  
±  
1,1 5,0  
±  
0,0 4,4  
±  
1,2 4,4  
±  
1,1 géneros Diseñador
2,8  
±  
0,7 2,8  
±  
0,7 3,2  
±  
1,0 3,6  
±  
0,9 3,4  
±  
0,7 3,1  
±  
1,1 géneros Recuperado
6,4  
±  
0,9 3,9  
±  
0,8 5,8  
±  
0,9 4,5  
±  
0,9 3,4  
±  
0,7 3,9  
±  
0,4 Especies MMETSP
7,2  
±  
0,7 5,0  
±  
0,9 6,6  
±  
0,9 5,2  
±  
0,5 4,6  
±  
1,1 4,9  
±  
0,6 Especies Diseñador
3,2  
±  
1,0 2,8  
±  
0,7 3,4  
±  
0,9 3,2  
±  
0,7 3,2  
±  
0,7 3,5  
±  
1,3 Especies Recuperado
3049,9  
±  
355,6  
1882,6  
±  
156,9 3226,0  
±  
545,6  
1720,6  
±  
127,9 3284,8  
±  
204,2  
1895,8  
±  
149,2 3346,4  
±  
369,2  
1879,2  
±  
154,7 3422,5  
±  
412,1  
1816,9  
±  
188,8 3435,1  
±  
429,6  
1941,2  
±  
161,5 KO  
distintosDiseñador
KO  
distintos Recuperado
Página  17  de  36 Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74
Machine Translated by Google
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  18  de  36

Tabla  4  Comparación  de  la  longitud  promedio  de  las  secuencias  en  los  metatranscriptomas  del  diseñador  
en  comparación  con  los  reensamblajes  eurítmicos

Asamblea Tipo  de  secuencia Longitud  promedio Promedio


Fracción  GC
Contenido

Asambleas  del  diseñador nucleótido 1278,7  ±  1027,4 0,57  ±  0,10

Productos  reensamblados nucleótido 539,9  ±  564,3 0,56  ±  0,10


­
Asambleas  del  diseñador Proteína 276,3  ±  261,7
­
Productos  reensamblados Proteína 165,1  ±  157,7

Se  proporcionan  tanto  la  longitud  promedio  de  las  secuencias  de  nucleótidos  como  las  secuencias  de  proteínas  predichas  por  TransDecoder,  así  
como  la  fracción  promedio  del  contenido  de  GC  para  las  secuencias  de  nucleótidos.

Fig.  4  La  agrupación  en  clústeres  del  ensamblaje  del  diseñador  escala  el  tamaño  del  ensamblaje  y  la  cantidad  de  anotaciones  recuperadas.
La  agrupación  se  realizó  en  el  conjunto  original  de  contigs  del  "metatranscriptoma  de  diseñador"  de  las  referencias  MMETSP  
utilizando  la  herramienta  mmseqs2  [50].  Se  examinó  el  efecto  del  nivel  de  cobertura  (color)  y  el  porcentaje  de  identidad  (tamaño)  a  
través  de  mmseqs2  en  el  tamaño  del  archivo,  el  número  de  secuencias  anotadas  a  nivel  de  género  y  el  número  de  secuencias  con  
anotaciones  funcionales  en  relación  con  el  conjunto  no  agrupado.  El  diagrama  de  caja  que  subyace  a  cada  conjunto  de  puntos  destaca  
la  distribución  de  proporciones  en  relación  con  el  conjunto  no  agrupado.  eukrhythmic  utiliza  un  nivel  de  cobertura  de  0,98  y  una  
identidad  de  secuencia  de  1  para  el  agrupamiento  mmseqs2.  Consulte  el  archivo  adicional  1:  Fig.  S1  para  obtener  un  resumen  
gráfico  más  detallado  de  la  influencia  de  la  identidad  de  secuencia  y  la  cobertura  en  el  tamaño  del  ensamblaje  recuperado  y  sus  
anotaciones  funcionales  y  taxonómicas.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  19  de  36

Tabla  5  ID  de  muestras  y  números  de  acceso  para  las  muestras  de  la  bahía  de  Narragansett.  La  información  
descriptiva  sobre  las  condiciones  de  la  muestra  se  reproduce  de  [23]

ejemplo  de  identificacion Grupo  de  montaje Número  de  acceso Contexto  Experimental

NarBay_A NarBay_A SRR1810207 Nitrato  añadido  (+N)

NarBay_B NarBay_B SRR1810208 ­NORTE

NarBay_C NarBay_C SRR1810209 Fosfato  añadido  (+P)

NarBay_D NarBay_D SRR1810210 ­PAG

NarBay_E NarBay_E SRR1810211 Sin  enmienda

NarBay_S1 NarBay_S1 SRR1810799 Muestra  ambiental  1

NarBay_S2 NarBay_S2 SRR1810204 Muestra  ambiental  2

NarBay_S3 NarBay_S3 SRR1810801 Muestra  ambiental  3

NarBay_S4 NarBay_S4 SRR1810205 Muestra  ambiental  4

NarBay_S5 NarBay_S5 SRR1810206 Muestra  ambiental  5

Tabla  6  ID  de  muestra  y  números  de  acceso  para  los  15  metatranscriptomas  de  Tara  Oceans  ensamblados  como  
parte  de  este  proyecto,  incluida  la  cuenca  oceánica  de  la  que  se  tomaron  muestras

Número  de  acceso ID  de  muestra/grupo  de  montaje cuenca  oceánica

ERR1712028 SO_SRF_SMALL_ERR1712028 Oceano  del  Sur

ERR1719157 SO_SRF_SMALL_ERR1719157 Oceano  del  Sur

ERR1740115 SO_SRF_SMALL_ERR1740115 Oceano  del  Sur

ERR1740130 SO_SRF_SMALL_ERR1740130 Oceano  del  Sur

ERR1740133 SO_SRF_SMALL_ERR1740133 Oceano  del  Sur

ERR1711918 MS_SRF_SMALL_ERR1711918 mar  Mediterráneo

ERR1711995 MS_SRF_SMALL_ERR1711995 mar  Mediterráneo

ERROR1711998 MS_SRF_SMALL_ERR1711998 mar  Mediterráneo

ERR1712006 MS_SRF_SMALL_ERR1712006 mar  Mediterráneo

ERR1712022 MS_SRF_SMALL_ERR1712022 mar  Mediterráneo

ERR1719164 MS_SRF_SMALL_ERR1719164 mar  Mediterráneo

ERR1719224 MS_SRF_SMALL_ERR1719224 mar  Mediterráneo

ERR550386 MS_SRF_SMALL_ERR550386 mar  Mediterráneo

ERR550396 MS_SRF_SMALL_ERR550396 mar  Mediterráneo

ERR550403 MS_SRF_SMALL_ERR550403 mar  Mediterráneo

ERR550404 MS_SRF_SMALL_ERR550404 mar  Mediterráneo

Todas  las  muestras  analizadas  se  recogieron  de  aguas  superficiales.

que  coincidieron  con  los  géneros  encontrados  en  los  transcriptomas  MMETSP  
seleccionados  utilizados  para  simular  los  metatranscriptomas  (97.7  ±  2.2%  de  contigs  
anotados).  En  general,  el  número  de  anotaciones  en  conflicto  con  la  anotación  a  nivel  de  
género  asignada  en  base  al  MMETSP  fue  similar  en  los  metatranscriptomas  del  
diseñador  en  comparación  con  los  ensamblajes  generados  por  eukrhythmic.  La  regresión  
lineal  calculada  entre  las  anotaciones  a  nivel  de  género  de  los  ensamblajes  del  
diseñador  y  los  reensamblajes  eurítmicos  fue  casi  uno  a  uno:  Reensamblaje  =  −1353  +  
1,02  (Diseñador);  R  =  0,95;  p  =<  8.2e  −  184;  tenga  en  cuenta  que  la  intersección  es  
relativa  a  las  abundancias  totales  del  orden  de  105.  Esto  indica  que  la  abundancia  total  
de  cada  anotación  a  nivel  de  género  evaluada  por  la  cuantificación  de  Salmon  coincidió  
bien  entre  los  metatranscriptomas  del  diseñador  y  los  productos  reensamblados  de  eukrhythmic.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  20  de  36

A  pesar  de  este  rendimiento,  faltaban  algunas  anotaciones  a  nivel  de  género  basadas  en  
los  contigs  proporcionados  por  el  MMETSP.  Entre  todos  los  ensayos,  un  promedio  de  1,3  ±  
1,9  géneros  de  un  promedio  de  un  total  de  6,1  ±  2,7  géneros  no  fueron  recuperados  por  el  
reensamblaje  eurítmico,  a  pesar  de  estar  presentes  en  los  transcriptomas  MMETSP  que  se  
usaron  para  crear  cada  comunidad  (ver  Tabla  2 ).  Como  muchas  de  estas  anotaciones  
también  faltaban  en  las  anotaciones  de  EUKulele  en  los  contigs  de  MMETSP  (1.9±1.9  
géneros),  es  posible  que  estos  contigs  simplemente  no  hayan  sido  lo  suficientemente  
distintos  de  los  transcriptomas  de  otros  organismos  en  la  base  de  datos  para  ser  anotados,  
potencialmente  debido  a  la  longitud  de  la  secuencia  o  la  especificidad.  Utilizando  las  
anotaciones  EUKulele  en  lugar  de  la  anotación  taxonómica  del  transcriptoma  del  que  se  
tomaron  los  contigs  originales,  no  se  encontraron  2,8  ±  1,7  géneros  en  los  resultados  
reensamblados  eurítmicos  en  comparación  con  las  anotaciones  EUKulele  originales  de  los  
ensamblajes  del  diseñador.  Se  asignó  un  promedio  de  39,3  ±  12,9  anotaciones  distintas  a  
nivel  de  género  en  la  salida  rítmica  euk  en  comparación  con  6,1  ±  2,7  géneros  MMETSP  
distintos  que  se  utilizaron  para  generar  las  muestras  debido  a  que  se  anotaron  con  éxito  
como  géneros  similares  presentes  en  el  MMETSP.  Estos  contigs  anotados  taxonómicamente  
de  forma  espuria  constituían  tanto  una  minoría  del  total  de  contigs  ensamblados  como  una  
abundancia  estimada  de  las  lecturas  sin  procesar  simuladas  (archivo  adicional  1:  Fig.  S6),  y  
la  aparición  de  estas  anotaciones  espurias  podría  reducirse  con  parámetros  EUKulele  más  
estrictos,  aunque  a  expensas  de  algunas  anotaciones  correctas.
Las  anotaciones  de  secuencia  se  clasificaron  según  se  alinearan  o  no  con  las  anotaciones  
a  nivel  de  género  del  MMETSP  (Fig.  5).  No  hubo  una  diferencia  estadísticamente  significativa  
entre  la  abundancia  sumada  por  muestra  de  contigs  anotados  incorrectamente  entre  el  
diseñador  y  los  productos  reensamblados  eurítmicos  (T  =  −0.084;  p  =  0.93),  sin  embargo,  los  
contigs  anotados  correctamente  fueron  significativamente  más  abundantes  en  los  
ensamblajes  de  diseñador  (T=−5.28;  p=8.3e−7)  y  los  contigs  no  anotados  fueron  
significativamente  más  abundantes  en  los  ensamblajes  eurítmicos  (T=5.43;  p=4.5e−7).

Las  anotaciones  funcionales  del  ensamblaje  del  metatranscriptoma  coinciden  con  la  
abundancia  y  diversidad  de  funciones  
en  los  transcriptomas  del  diseñador.  Las  anotaciones  funcionales  se  recuperaron  con  una  
frecuencia  similar  y  una  abundancia  relativa  en  los  productos  reensamblados  eurítmicos  en  
comparación  con  los  ensamblajes  del  diseñador  (Fig.  6;  Archivo  adicional  1:  Fig.  S7),  y  
también  entre  ensambladores  (Archivo  adicional  1:  Fig.  S13).  Como  promedio  general  entre  
los  grupos  y  muestras  del  MMETSP,  5820,6±349,6  términos  ortológicos  KEGG  (KO)  se  
recuperaron  correctamente  de  los  ensamblajes  del  diseñador,  820,3±163,7  fueron  "falsos  
positivos"  que  se  recuperaron  en  los  ensamblajes  eurítmicos  pero  no  en  los  ensamblajes  
originales  del  diseñador ,  y  473,8±107,6  fueron  identificados  en  el  ensamblaje  del  diseñador  
pero  no  recuperados  por  euk  rítmico.  Sin  embargo,  los  KO  falsos  positivos  y  no  recuperados  
tendieron  a  tener  una  baja  abundancia  en  comparación  con  los  que  se  identificaron  
correctamente:  en  promedio,  hubo  1566,5  ±  321,3  ocurrencias  totales  de  anotaciones  de  KO  
falsos  positivos  por  muestra  en  los  reensamblajes  eurítmicos  y  107,6  ±  204,7  ocurrencias  
totales  de  anotaciones  de  KO  que  no  se  encontraron  en  los  reensamblajes  eurítmicos  en  los  
ensamblajes  de  diseñador,  en  comparación  con  un  promedio  de  132751.9±10176.5  ocurrencias  en  los  ensamblajes  de  dise
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  21  de  36

Los  reensamblajes  de  la  figura  5  eukrhythmic  recapitulan  con  precisión  la  información  taxonómica.  Transcripciones  sumadas  
por  millón  (TPM)  según  lo  informado  por  el  mapeo  de  Salmon  del  ensamblaje  del  diseñador  en  comparación  con  
el  reensamblaje  eukrhythmic.  Cada  punto  representa  un  género;  la  línea  punteada  es  una  línea  1  a  1  (y  =  x),  o  
colección  de  transcriptomas  de  referencia  del  MMETSP.  El  tamaño  del  círculo  corresponde  al  tipo  de  comunidad  (1–6)  
como  se  describe  en  el  texto;  cabe  destacar  que  algunas  comunidades  tienen  géneros  muy  abundantes,  como  los  círculos  
más  pequeños  correspondientes  a  la  Comunidad  1.  B  Suma  de  TPM  total  en  el  diseñador  frente  a  reensamblajes  que  
correspondían  a  géneros  que  (1)  coincidían  con  los  géneros  de  los  transcriptomas  MMETSP  originales,  ( 2)  entraban  en  
conflicto  o  no  coincidían  con  los  géneros  de  los  transcriptomas  MMETSP  originales,  o  (3)  no  estaban  anotados,  según  
EUKulele.  C  El  número  de  géneros  que  coincidieron  (verdaderos  positivos),  no  coincidieron  (falsos  positivos)  o  no  fueron  
anotados  (falsos  negativos  según  la  precisión  de  la  base  de  datos).  Como  se  muestra  en  el  panel  B,  los  contigs  no  anotados  
a  nivel  de  género  fueron  más  abundantes  en  los  reensamblajes  que  en  los  metatranscriptomas  del  diseñador.  También  hubo  
más  coincidencias  estadísticamente  significativas  en  los  metatranscriptomas  del  diseñador  que  en  los  reensamblajes  de  
eukrhythmic.  Sin  embargo,  se  produjeron  falsos  positivos  a  una  tasa  similar  entre  los  dos  tipos  de  ensamblaje,  lo  que  indica  
que  es  más  probable  que  estos  fueran  producto  de  la  calidad  original  de  los  contigs  del  MMETSP  o  su  capacidad  para  
clasificarse  de  forma  única.

ensamblaje  de  diseñador  y  116489.5  ±  9961.0  ocurrencias  en  los  reensamblajes  eurítmicos  
de  KO  que  se  recuperaron  mutuamente  antes  y  después  del  proceso  de  reensamblaje.  Una  
regresión  lineal  con  una  intersección  y  impuesta  de  cero  como  se  calcula  en  R  [68]  reveló  una  
relación  de  abundancia  de  KO  reensamblados  =  abundancia  de  KO  del  diseñador  ∙  0,96  con  
un  R2  ajustado  de  0,85  ( p  =  2,2e−16),  lo  que  indica  un  casi  uno  Relación  uno  a  uno  entre  las  
abundancias  de  cada  KO  en  el  ensamblaje  del  diseñador  y  en  los  productos  reensamblados  
(incluidos  los  falsos  positivos  y  los  KO  que  faltan  en  los  reensamblajes  eukrítmicos;  Fig.  6).

La  gran  mayoría  de  los  KO  también  recuperados  en  los  ensamblajes  del  diseñador  fueron  
identificados  por  las  cuatro  herramientas  de  ensamblaje  (5326,6±247,9  KO  en  todas  las  
muestras).  rnaSPAdes  recuperó  individualmente  la  mayor  cantidad  de  KO  únicos  que  también  
se  encontraron  en  el  ensamblaje  de  diseñador  de  cualquier  ensamblador  (96,0±20,4),  pero  
rnaSPAdes  también  generó  la  mayor  cantidad  de  KO  que  no  se  encontraron  en  los  
ensamblajes  de  diseñador  (176,4±26,5),  casi  el  doble  del  número  que  recuperó  de  forma  
única  (Fig.  6).  rnaSPAdes  también  tuvo  el  mayor  número  de  proteínas  que  tuvieron  y  no  
tuvieron  un  BLAST  exitoso  ([73,  78,  79],  Fig.  7).
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  22  de  36

Fig.  6  Hallazgos  de  anotaciones  funcionales  del  reensamblaje  eurítmico  de  las  lecturas  sin  procesar  simuladas  de  los  
metatranscriptomas  del  diseñador.  Un  resumen  de  la  recuperación  de  KO,  que  muestra  el  número  total  de  KO  recuperados  
por  el  reensamblaje  eurítmico  que  estaban  presentes  en  los  transcriptomas  originales  "Match",  aquellos  que  estaban  
en  los  reensamblajes  eurítmicos  que  no  estaban  presentes  en  el  conjunto  original  del  diseñador  "falsos  positivos" ,  y  los  que  
estuvieron  presentes  en  los  ensamblajes  de  diseñador  pero  no  recuperados  por  eukrhythmic  “not  retrieved”.  B  el  número  de  
ocurrencias  de  cada  KO  se  compara  entre  los  metatranscriptomas  del  diseñador  (eje  horizontal)  y  los  reensamblajes  eurítmicos  
(eje  vertical).  La  línea  diagonal  punteada  indica  la  línea  uno  a  uno.  C  estas  incidencias  de  cada  KO  en  los  ensamblajes  
de  diseñador  y  los  reensamblajes  eurítmicos  se  dividen  por  los  ensamblajes  individuales  de  los  que  se  recuperó  cada  
KO  ("recuento  de  incidencias"  es  el  número  de  KO  que  cumplen  cada  categoría).  Se  muestra  que  la  mayoría  de  todos  los  KO  
recuperados  son  recuperados  por  los  cuatro  ensambladores  y  están  presentes  en  los  metatranscriptomas  del  diseñador.  Las  
partes  de  la  barra  coloreadas  en  gris  indican  que  estos  KO  fueron  recuperados  por  todos  los  ensambladores  enumerados,  
pero  no  se  encontraron  en  el  ensamblaje  del  diseñador.  D  Datos  ambientales  para  KO  de  Narragansett  Bay  en  
comparación  con  el  Panel  C

Aplicación  de  la  tubería  eukrhythmic  a  conjuntos  de  datos  metatranscriptómicos  
ambientales  Para  comparar  la  tubería  eukrhythmic  y  proporcionar  ejemplos  de  los  posibles  
conocimientos  biológicos  que  se  pueden  extraer  del  enfoque  de  ensamblaje,  reunimos  y  anotamos  
muestras  de  dos  conjuntos  de  datos  metatranscriptómicos.  Primero,  elegimos  dos  conjuntos  de  
muestras  del  proyecto  Tara  Oceans  como  un  conjunto  representativo  de  datos  oceanográficos  
generales:  un  conjunto  del  Océano  Austral  y  otro  del  Mar  Mediterráneo,  dos  cuencas  oceánicas  
con  niveles  contrastantes  de  diversidad  (Fig.  8A–C) .  Descubrimos  que  eukrhythmic  expande  la  
cantidad  total  de  datos  de  secuencias  de  codificación  de  protistas  que  se  pueden  recuperar  
desde  cualquier  parte  del  océano  global.  También  reunimos  un  conjunto  de  datos  
metatranscriptómicos  de  un  estudio  publicado  previamente  en  la  Bahía  de  Narragansett  como  un  
ejemplo  costero  con  un  grupo  taxonómico  dominante  (es  decir,  un  escenario  canónico  de  
"floración").  Observamos  que,  si  bien  eukrhyth  mic  recapitula  muchos  de  los  patrones  generales  
de  un  estudio  basado  en  el  mapeo  de  lectura  directa,  el  enfoque  de  ensamblaje  supera  al  mapeo  
de  lectura  directa  con  respecto  al  número  de  representantes  distintos  de  diatomeas  recuperados,  
el  grupo  taxonómico  dominante  (Bacillari  ophyta)  en  las  muestras. .
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  23  de  36

La  figura  7.  El  agrupamiento  de  mmseqs2  en  eukrhythmic  colapsa  las  secuencias  redundantes  y  resalta  las  
diferencias  entre  ensambladores  en  la  fidelidad  de  las  proteínas  recuperadas  a  las  proteínas  de  diseño.  Panel  A  El  
número  total  de  contigs  por  grupo  separados  por  los  ensambladores  de  los  que  se  recuperaron.  rnaSPAdes  produjo  el  mayor  
número  de  contigs  en  general  de  forma  independiente,  que  fue  un  número  general  más  alto  que  los  contigs  que  fueron  
producidos  por  los  cuatro  ensambladores  (diagrama  de  caja  del  extremo  derecho  en  el  panel  A).  Panel  B  La  proporción  de  
grupos  mmseqs2  de  proteínas  que  no  se  agruparon  con  proteínas  del  ensamblaje  del  diseñador  en  función  del  número  de  
ensambladores  representados  dentro  del  grupo.  Los  productos  proteicos  respaldados  por  el  ensamblaje  de  los  cuatro  
ensambladores  tenían  menos  probabilidades  de  ser  "falsos"  o  no  recuperables  del  ensamblaje  del  diseñador.  Panel  C  
Número  de  contigs  a  los  que  no  se  les  asignó  ORF  de  proteína  a  través  de  TransDecoder  (negro)  en  comparación  con  
contigs  con  proteínas  que  tienen  coincidencias  BLAST  según  algún  porcentaje  de  identidad.  La  primera  barra  apilada  
corresponde  a  contigs  que  tenían  un  ORF  detectado  y  una  coincidencia  BLAST  con  un  porcentaje  de  identidad  >75  %  en  un  
umbral  de  valor  e  de  10−2.  Archivo  adicional  1:  la  Fig.  S11.4  muestra  los  contigs  del  ensamblaje  del  diseñador  que  originalmente  
no  tenía  un  ORF  identifcado

Los  ensamblajes  eurítmicos  de  Tara  Oceans  contienen  secuencias  de  
codificación  que  
carecen  de  representación  en  el  atlas  de  genes  "MATOU".
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  24  de  36

Fig.  8  Conjunto  de  datos  de  la  bahía  de  Narragansett  de  Alexander  et  al.  (2015)  [23]  ensamblado  usando  eukrhythmic.  A  La  
correspondencia  entre  la  proporción  de  lecturas  sin  procesar  totales  en  (y)  este  estudio  frente  a  (x)  [23].  Cada  punto  
representa  un  tiempo  de  muestreo,  y  Bacillariophyta  agrega  todas  las  diatomeas  que  no  son  de  Skeletonema  ni  de  
Thalassiosira.  B  Desglose  taxonómico  a  nivel  de  familia  del  mapeo  de  lectura  sin  procesar  de  [23]  (izquierda)  en  comparación  con  este  estudio.
C  Lecturas  sin  procesar  normalizadas  logarítmicamente  asignadas  a  cada  familia  taxonómica  comparadas  entre  los  dos  
estudios.  D  Especies  de  Skeletonema  representadas  en  el  reensamblaje  eukrhythmic  que  representa  parte  de  la  diversidad  dentro  de  
este  género  que  se  sabe  que  muestra  dominancia  estacional  en  la  bahía  de  Narragansett

aciertos  signifcativos  en  el  atlas  de  genes  compuestos  "MATOU"  en  todos  los  metatran  scriptomas  de  Tara  
Oceans  seleccionados  por  [22]  (Fig.  8D­F;  mapeo  porcentual  de  estas  secuencias  de  codificación  a  las  lecturas  
sin  procesar  en  comparación  con  todos  los  contigs  que  se  muestran  en  el  archivo  adicional  1:  Fig . .  S20).  Un  
promedio  del  16,1  %  de  todas  las  secuencias  de  codificación  del  Mar  Mediterráneo  y  el  18,8  %  de  todas  las  
secuencias  del  Océano  Austral  no  tenían  ninguna  coincidencia  con  el  contenido  de  la  secuencia  de  codificación  
recuperada  previamente  en  la  base  de  datos  de  MATOU,  que  incluye  secuencias  de  codificación  de  todas  las  
principales  cuencas  oceánicas  del  mundo.  Estos  resultados  indican  la  expansión  de  las  secuencias  de  
codificación  logradas  mediante  el  uso  de  eukrhythmic,  pero  también  que  el  número  total  de  secuencias  de  
codificación  no  se  expande  uniformemente  entre  las  muestras  (Fig.  8E);  mientras  que  en  algunas  muestras  
>75%  de  las  secuencias  de  codificación  no  coincidían  con  la  base  de  datos  MATOU,  en  otras  era  <10%.

No  se  pudo  asignar  una  anotación  taxonómica  a  través  de  EUKulele  hasta  al  41,3%  de  los  productos  de  
secuencia  de  codificación  del  ensamblaje  para  cada  muestra,  pero  más  aún  en  muestras  del  mar  Mediterráneo  
(archivo  adicional  1:  Fig.  S21) ;  Mar  Mediterráneo  medio:
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  25  de  36

34,8  ±  5,2  %,  media  del  Océano  Austral  28,0  ±  4,4  %).  Entre  la  fracción  de  secuencias  que  tenían  
anotaciones  taxonómicas  EUKulele  y  que  no  se  encontraron  en  la  base  de  datos  de  MATOU,  los  
dinofagelados  dominaron  el  número  registrado  de  secuencias  de  codificación  recuperadas  en  
ambas  cuencas  (media  del  Mar  Mediterráneo:  12,0  ±  7,7  %,  media  del  Océano  Austral :  34,0  ±  10,1  
% ;  Figura  8F).  Los  dinofagelados  también  dominaron  en  términos  de  proporción  promedio  de  TPM  
total  (SO:  30.3±11.1%;  MS:  8.6±6.6%),  pero  no  en  términos  de  TPM  crudo  promedio  asignado  en  
el  Océano  Austral  (SO:  Ochrophytes  tuvo  el  TPM  asignado  más  alto  en  32853,1±66098,9,  mientras  
que  los  dinofagelados  tenían  31853,4±82808,6  TPM  asignado),  porque  algunas  muestras  
dominadas  por  dinofagelados  también  tenían  un  número  relativamente  bajo  de  lecturas  asignadas  
a  secuencias  de  codificación  que  no  se  encuentran  en  la  base  de  datos  de  MATOU  (Fig.  8E,  F) .  
Toda  la  información  de  la  anotación  taxonómica  para  la  fracción  de  las  secuencias  eukrhythmic  
que  tenían  una  anotación  EUKulele  se  resume  en  el  archivo  adicional  1:  Fig.  S22.
Nuestros  esfuerzos  amplían  el  contenido  de  la  secuencia  de  codificación  total  disponible  de  los  
metatranscriptomas  oceánicos  globales,  pero  también  resaltan  la  necesidad  continua  de  intercomparación  
de  enfoques.  La  longitud  promedio  de  las  secuencias  de  codificación  que  no  coincidieron  con  la  base  de  
datos  de  MATOU  fue  de  466,9  ±  243,1  bases,  mientras  que  la  longitud  promedio  de  las  secuencias  de  
codificación  que  sí  coincidieron  fue  de  613,5  ±  438,0  bases  (Archivo  adicional  1:  Figs.  S23,  S24 ).  La  
longitud  promedio  de  las  secuencias  de  codificación  con  coincidencia  (es  decir,  recuperadas  por  ambos  
esfuerzos  de  ensamblaje)  fue  significativamente  más  larga  (t  =  720.86;  p  <1e­16).  El  uso  de  un  tamaño  k­
mer  de  63  con  el  ensamblador  velvet  de  [22]  también  puede  haber  contribuido  a  este  resultado:  el  
ensamblador  rnaSPAdes,  por  ejemplo,  tiene  en  cuenta  el  nivel  de  cobertura  variable  de  los  datos  de  
expresión  al  usar  un  tamaño  k­mer  que  varía  dinámicamente  con  la  longitud  de  lectura  [36].  En  ocasiones,  
este  enfoque  aumenta  la  tasa  de  errores  de  ensamblaje,  pero  también  evita  que  se  pasen  por  alto  los  genes  
que  rara  vez  se  expresan  [36].  Debido  a  que  las  comunidades  eucariotas  en  el  océano  microbiano  pueden  
ser  escasas  y  contener  taxones  raros,  argumentamos  que  se  justifica  un  enfoque  de  ensamblaje  más  
exhaustivo,  incluso  si  se  reduce  la  longitud  promedio  de  las  secuencias  ensambladas.

Ensamblaje  de  Tara  Oceans  Secuencias  no  codificadas  y  fidelidad  de  lectura  sin  procesar

Las  asambleas  de  Tara  Oceans  del  Mar  Mediterráneo  y  el  Océano  Austral  variaron

en  su  composición  global  así  como  en  la  precisión  de  su  recuperación  en  el  proceso  de  montaje.  Si  bien  
enfocamos  el  resto  de  nuestro  análisis  en  las  secuencias  de  codificación  predichas  para  compararlas  con  el  
análisis  de  [22],  notamos  que  a  través  del  mapeo  de  Salmon,  un  promedio  de  30.1±10.7%  de  las  lecturas  
sin  procesar  para  las  muestras  del  Mar  Mediterráneo  se  mapearon  de  nuevo  a  la  codificación.  secuencias,  
en  comparación  con  el  51,5  ±  13,3  %  para  el  ensamblaje  completo,  mientras  que  en  las  muestras  del  
Océano  Austral,  el  51,5  ±  11,6  %  de  las  lecturas  sin  procesar  se  asignaron  a  secuencias  de  codificación  en  
comparación  con  el  76,4  ±  10,3  %  para  el  ensamblaje  completo  (Archivo  adicional  1 :  Figura  S22).  Esto  
indica  que,  en  ambos  casos,  una  fracción  sustancial  (>20  %)  de  las  lecturas  sin  procesar  originales  se  
pueden  ensamblar  en  contigs,  pero  parecen  no  codificarse.  Estas  secuencias  no  codificantes  pueden  estar  
involucradas  en  importantes  procesos  regulatorios  [80,  81],  como  el  estrés  por  nutrientes  en  las  diatomeas  
[82],  por  lo  que  no  deben  excluirse  de  la  consideración.

Múltiples  ensambladores  mejoran  el  ensamblaje  del  metatranscriptoma  del  fitoplancton  de  
la  bahía  de  
Narragansett  Evaluamos  la  tubería  eukrhythmic  utilizando  un  conjunto  de  datos  metatranscriptómico  marino  
analizado  previamente  [23]  (Fig.  9).  En  particular,  pudimos  recapitular  la
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  26  de  36

Fig.  9  Reensamblajes  de  Tara  Oceans  usando  eukrhythmic  (Carradec  et  al.  (2018)  [22]).  Un  mapa  que  muestra  las  
ubicaciones  de  las  muestras  de  Tara  Oceans  reensambladas.  Los  recuadros  sobre  las  regiones  están  expandidos  en  
los  Paneles  B  y  C.  B  Muestras  del  Mar  Mediterráneo.  Los  números  indican  las  estaciones  de  Tara  Oceans.  C  Muestras  del  
Océano  Austral.  Al  igual  que  en  el  Panel  B,  los  números  indican  las  estaciones  de  Tara  Oceans.  D  superposición  entre  
ensambladores  de  las  lecturas  asignadas  a  las  secuencias  de  codificación.  El  eje  x  indica  las  anotaciones  asignadas  a  
cada  una  de  las  secuencias  de  codificación,  y  el  eje  y  muestra  la  suma  de  lecturas  entre  muestras  asignadas  a  las  
secuencias  de  codificación  para  esa  categoría.  E  Fracción  de  secuencias  de  codificación  que  coincidieron  o  no  con  la  base  de  
datos  de  MATOU.  Los  tonos  de  azul  indican  secuencias  de  codificación  recuperadas  solo  por  este  estudio.  El  segmento  
superior  indica  las  secuencias  de  codificación  sin  anotaciones  funcionales  o  taxonómicas,  seguido  de  la  proporción  
de  secuencias  con  anotaciones  funcionales  y  taxonómicas  ("ft"),  la  proporción  con  solo  anotaciones  funcionales  ("f")  y  
la  proporción  con  solo  anotaciones  taxonómicas  ("  t”).  Lo  mismo  se  muestra  en  tonos  de  naranja  para  las  secuencias  de  
codificación  ensambladas  de  este  estudio  que  tenían  una  coincidencia  signifcativa  con  la  base  de  datos  MATOU.  El  eje  y  
muestra  la  muestra  de  Tara  Oceans  codificada  por  colores.  F:  la  fracción  de  TPM  asignada  a  secuencias  de  codificación  con  anotaciones  taxonómicas  recuperadas.
Estos  son  de  las  barras  "ft"  y  "t"  "No  en  MATOU"  en  el  Panel  E.  Los  dinofagelados  dominan  muchas  de  las  muestras  del  Océano  
Austral,  particularmente  para  aquellas  secuencias  de  codificación  que  no  se  pudieron  anotar  taxonómicamente

composición  taxonómica  de  la  comunidad  dominada  por  diatomeas  descrita  en  [23].  En  todos  los  
ensambladores,  se  sugirió  que  representantes  del  filo  Ochrophyta  eran  miembros  dominantes  de  
la  comunidad  (Fig.  9A,  D;  archivo  adicional  1:  Fig.  S19)  y,  además,  los  géneros  Skeletonema  y  
Talassiosira  se  recuperaron  en  las  proporciones  esperadas,  con  Esqueletoma  que  produce  una  
floración  numéricamente  dominante  determinada  a  través  de  recuentos  de  células  obtenidos  por  
microscopía  en  la  muestra  S2  (archivo  adicional  1:  Fig.  S15).  En  particular,  nuestro  ensamblaje  
recuperó  una  mayor  diversidad  de  especies  de  diatomeas  que  el  método  de  mapeo  de  lectura  sin  
procesar  utilizado  anteriormente  (Fig.  9;  [ 23]),  incluida  la  recuperación  de  múltiples  especies  de  
Skeletonema  que  se  sabe  que  están  presentes  en  este  ecosistema  ( [83];  figura  9D).
Si  bien  los  patrones  amplios  en  las  anotaciones  taxonómicas  eran  indistinguibles  entre  los  
diferentes  ensambladores  y  la  mayoría  de  las  ID  de  KEGG  Orthology  (KO)  fueron  recuperadas  por  
los  cuatro  ensambladores  (Fig.  9B,  C),  los  ensambladores  mostraron  algunas  diferencias  con  
respecto  a  la  abundancia  de  cada  anotación  funcional. .  En  particular,  MEGAHIT  informó  menos  
instancias  de  cada  grupo  funcional  de  genes  que  rnaSPAdes,  y  menos  que  Trinity  aproximadamente  
la  mitad  de  las  veces  (Fig.  9;  Archivo  adicional  1:  Fig.  S12).  rnaSPAdes  pareció  informar  una  menor  
abundancia  general  de  diatomeas  cuando  se  usó  la  métrica  TPM  normalizada  devuelta  por  Salmon  
[71] ,  pero  este  patrón  no  se  mantuvo  cuando  se  usaron  lecturas  sin  procesar  no  normalizadas  en  
su  lugar  (Fig.  9;  Archivo  adicional  1:  Figs.  14,  15,  16).  cóntigos
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  27  de  36

generados  por  los  ensambladores  que  se  anotaron  con  éxito  como  Skeletonema  o  algunas  otras  
diatomeas  parecían  tener  una  longitud  promedio  más  larga  que  el  promedio  entre  todos  los  
taxones  (longitud  media  de  Skeletonema  contigs  con  error  estándar  de  la  media:  618,6  ±  0,7 ;  
media  general :  396,6  ±  0,07 ;  Prueba  t  de  dos  muestras  t  =  310.17  p  <  2.2e  −  16;  Archivo  adicional  1:  Fig.
S18).  rnaSPAdes  produjo  una  cantidad  desproporcionadamente  alta  de  contigs  en  relación  con  
los  otros  ensambladores,  muchos  de  estos  contigs  pertenecientes  a  taxones  que  no  son  de  
diatomeas  (archivo  adicional  1:  Fig.  S18).  Estos  contigs  también  tendieron  a  ser  más  cortos  en  
los  ensamblajes  de  rnaSPAdes,  tanto  para  taxones  que  no  son  de  diatomeas  (media  de  
rnaSPAdes  ±  error  estándar  =  377,7  ±  0,1;  media  general  =  421,1  ±  0,09;  prueba  t  t  =  −367,17,  p  
<  2,2e  −  16 )  y  para  contigs  no  anotados  (media  de  rnaSPAdes  ±  error  estándar  =  264,7  ±  0,7;  
media  general  =  300,8  ±  0,07;  prueba  t  t  =  −498,5,  p  <  2,2e  −  16).  Si  bien  estas  diferencias  
fueron  universales  para  contigs  no  anotados  y  no  diatomeas,  rnaSPAdes  produjo  contigs  de  
Skeletonema  más  cortos  que  Trinity  (t  =  −101.1;  p  <  2.2e  ­  16),  pero  contigs  de  Skeletonema  más  
largos  que  ambos  MEGAHIT  (t  =  41.6;  p  <  2.2e  −  16)  y  PICAS  (t=64,0;  p  <  2,2e  −  16).

Discusión
El  análisis  del  metatranscriptoma  se  ha  convertido  en  un  enfoque  generalizado  para  extraer  información  
taxonómica  y  funcional  de  las  comunidades  de  protistas  en  una  variedad  de  entornos  que  van  desde  los  
ecosistemas  marinos  costeros  hasta  los  de  océano  abierto  y  los  ecosistemas  del  suelo  [12–14,  23,  69 ,  
84 ].  Aquí,  diseñamos  una  canalización  de  múltiples  ensambladores  para  el  ensamblaje  scriptomic  de  
metatran,  eukrhythmic,  y  evaluamos  su  rendimiento  tanto  en  datos  de  metatranscriptoma  simulados  del  
MMETSP  [20]  como  en  conjuntos  de  datos  de  metatranscriptoma  publicados  previamente  [22,  23].  Al  hacer  
esto,  exploramos  el  rendimiento  relativo  de  los  ensambladores  de  uso  común  y  determinamos  que  un  
enfoque  de  múltiples  ensambladores  mejora  los  resultados  del  ensamblaje  del  metatranscriptoma  con  
respecto  a  la  recapitulación  de  proteínas  y  sus  anotaciones  taxonómicas  y  funcionales.

Canalizaciones  escalables  y  reproducibles  como  eukrhythmic  mejoran  la  intercomparación  y  
hacen  avanzar  la  investigación  computacional  
Eukrhythmic  permite  el  procesamiento  simultáneo  de  muchos  metatranscriptomas  a  la  vez,  y  su  diseño  
modular  permite  reprocesar  de  manera  reproducible  los  resultados  de  análisis  anteriores  a  medida  que  se  
dispone  de  nuevas  herramientas.  A  medida  que  los  conjuntos  de  datos  se  vuelven  más  grandes,  las  
preguntas  de  investigación  ahora  apuntan  a  abordar  preguntas  ambiciosas  a  través  de  escalas  de  espacio  
y  tiempo.  Los  conjuntos  de  datos  cada  vez  más  complejos  requieren  una  gestión  cuidadosa  del  flujo  de  
trabajo  [85,  86].  Hemos  desarrollado  una  canalización  que  gestiona  grandes  conjuntos  de  datos  
metatranscriptómicos  con  el  objetivo  de  evaluar  la  diversidad  y  la  función  de  los  protistas  marinos,  y  hemos  
demostrado  la  utilidad  de  nuestra  herramienta  modular  a  través  de  los  nuevos  conocimientos  que  la  
herramienta  extrae  de  los  metatranscriptomas  publicados  y  analizados  previamente  [22,  23 ] .  En  particular,  
el  nuevo  análisis  de  los  datos  de  [22,  23]  destaca  los  conocimientos  analíticos  ampliados  que  podrían  
derivarse  de  un  enfoque  de  ensamblador  múltiple  como  el  proporcionado  por  eukrhythmic,  y  estos  conjuntos  
de  datos  pueden  continuar  siendo  reanalizados  de  manera  reproducible  con  eukrhythmic  como  Se  dispone  de  herramientas  de  montaje  mejorad
Además,  a  pesar  de  los  aproximadamente  dieciséis  pasos  de  software  discretos  que  ocurren  durante  una  
ejecución  de  eukrhythmic,  los  procesos  se  ejecutan  en  paralelo  y  se  pueden  implementar  en  el  clúster,  lo  
que  significa  que  el  reanálisis  que  normalmente  tomaría  varios  días  por  muestra  ahora  podría  tomar  la  
misma  cantidad  de  tiempo.  para  todo  el  proyecto,  en  función  de  los  recursos.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  28  de  36

¿Los  metatranscriptomas  capturan  la  diversidad  de  las  comunidades  de  protistas?
Los  metatranscriptomas  ambientales  son  un  mosaico  comunitario  de  señales  de  expresión  efímeras  
basadas  en  ARN.  Los  metatranscriptomas  son  cada  vez  más  una  herramienta  de  diagnóstico  de  rutina  
para  sacar  conclusiones  importantes  sobre  la  composición  y  función  de  la  comunidad  dentro  de  los  
sistemas  marinos  [12–14,  23,  69,  87,  88],  y  se  están  aplicando  para  establecer  comparaciones  a  escala  
global  [22,  69]  y  más.  largos  períodos  de  tiempo  [89­91].  A  pesar  de  esto,  aún  no  se  han  establecido  las  
mejores  prácticas  para  la  recolección  física,  el  procesamiento  molecular  y  los  análisis  bioinformáticos  
[86].  Hacia  la  estandarización  de  los  enfoques  computacionales  para  la  metatranscriptómica  de  protistas  
marinos  [86],  hemos  demostrado  que  una  tubería  de  ensamblaje  de  metatranscriptoma  eucariota  de  
varios  niveles  recapitula  contigs  anotados  de  una  comunidad  de  transcriptomas  simulados.  En  particular,  
los  contigs  producidos  a  partir  de  múltiples  ensambladores  tienden  a  ser  de  la  más  alta  calidad  con  
respecto  a  su  similitud  con  los  contigs  originales  de  los  ensamblajes  del  transcriptoma  a  través  de  
anotaciones  de  agrupamiento,  taxonómicas  y  funcionales.  Encontramos  que  los  enfoques  
metatranscriptómicos  para  evaluar  la  diversidad  y  la  función  de  la  comunidad  en  el  medio  ambiente  están  
recapitulando  de  manera  adecuada  y  reproducible  la  diversidad  taxonómica  y  funcional  del  grupo  de  
ARN  y  de  esos  entornos  cuando  usan  enfoques  de  ensamblaje  similares  a  los  empleados  por  eukrhythmic .

Nuestro  reensamblaje  de  conjuntos  de  datos  metatranscriptómicos  ambientales  destaca  aún  más  el  
poder  del  enfoque  de  ensamblador  múltiple  en  la  recuperación  del  contenido  genético  novedoso.  En  las  
muestras  de  la  bahía  de  Narragansett  [23],  dominada  por  diatomeas,  recuperamos  una  mayor  diversidad  
de  diatomeas  que  el  mapeo  de  lectura  sin  procesar  solo  en  el  análisis  original,  un  nivel  de  diversidad  que  
se  alinea  con  otros  estudios  de  la  región  [83].  A  partir  de  las  muestras  de  Tara  Oceans,  encontramos  
secuencias  de  proteínas  novedosas  no  recuperadas  e  incluidas  en  un  esfuerzo  de  análisis  global  
integral  utilizando  un  solo  ensamblador  [22],  más  de  la  mitad  de  las  cuales  tenían  anotaciones  funcionales  
y/o  taxonómicas.  Incluso  cuando  las  secuencias  de  codificación  finales  se  agruparon  y  solo  se  retuvieron  
los  contigs  de  longitud  suficiente  siguiendo  [22],  todas  las  muestras  contenían  secuencias  de  codificación  
previamente  desconocidas,  y  algunas  muestras  contenían  más  secuencias  desconocidas  que  conocidas.  
Aunque  no  todas  estas  secuencias  de  codificación  pueden  anotarse,  se  han  hecho  progresos  recientes  
para  anotar  genes  de  función  desconocida  [92],  que  pueden  ser  muy  abundantes  en  los  datos  
metatranscriptómicos.  Estos  resultados  demuestran  el  valor  de  volver  a  ensamblar  conjuntos  de  datos  
previamente  analizados  utilizando  múltiples  herramientas  con  diferentes  algoritmos  subyacentes.

Una  nota  importante  es  que  incluso  el  mejor  recurso  que  tenemos  disponible  para  la  anotación  
taxonómica  basada  en  el  consenso  de  ensamblajes  de  metatranscriptomas  de  comunidades  mixtas  de  
novo  limita  nuestros  esfuerzos  antes  de  comenzar:  los  transcriptomas  secuenciados  derivados  de  
laboratorio  de  organismos  individuales  no  pueden  ser  completamente  anotados  inversamente.  En  otras  
palabras,  incluso  cuando  usamos  herramientas  de  búsqueda  de  secuencias  para  recuperar  la  anotación  
taxonómica  de  un  contig  presente  en  la  base  de  datos,  algunas  de  estas  secuencias  son  demasiado  
cortas  o  comparten  un  porcentaje  no  despreciable  de  secuencias  entre  organismos  y  no  se  pueden  
anotar  a  un  fino.  nivel  de  resolución,  incluso  en  su  estado  no  modificado.  En  estos  casos,  el  hecho  de  
que  podamos  recuperar  muchos,  pero  no  todos,  de  los  contigs  originalmente  anotados  después  de  
aplicar  ingeniería  inversa  a  la  comunidad  nos  dice  más  sobre  los  límites  de  la  anotación  taxonómica  a  
través  de  secuencias  de  lectura  corta  que  sobre  las  trampas  del  ensamblaje.  proceso.  Por  lo  tanto,  es  
fundamental  que  sigamos  considerando  las  deficiencias  del  proceso  de  anotación  a  medida  que  
analizamos  y  volvemos  a  analizar  los  conjuntos  de  datos  metatranscriptómicos.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  29  de  36

¿Existe  un  mejor  ensamblador  para  los  metatranscriptomas  ambientales  eucarióticos?
Un  objetivo  adicional  de  nuestro  análisis  fue  comparar  el  desempeño  de  diferentes  ensambladores  en  los  
datos  del  metatranscriptoma  eucariota  y  determinar  si  se  justifica  el  uso  de  múltiples  ensambladores.  
Según  nuestros  resultados,  ninguno  de  los  ensambladores  que  evaluamos  (MEGAHIT  [47],  rnaSPADes  
[36],  metaSPAdes  [48]  y  Trinity  [61])  es  universalmente  la  mejor  opción.  El  ensamblaje  de  secuencias  de  
novo  tiene  consideraciones  tanto  técnicas  como  prácticas.  Más  allá  de  simplemente  equilibrar  el  tiempo  
de  ejecución,  los  requisitos  de  memoria  y  la  precisión  óptima,  el  rendimiento  de  los  ensambladores  es  difícil  
de  evaluar.  En  particular  en  asambleas  comunitarias,  la  profundidad  de  secuenciación  baja  puede  
complicar  los  enfoques  típicos  utilizados  para  reducir  los  efectos  del  error  de  secuenciación.  En  nuestro  
estudio,  dos  ensambladores  se  destacaron  como  los  sujetalibros  del  espectro  de  enfoques  de  ensamblaje.  
MEGAHIT  produjo  contigs  largos,  pero  tuvo  el  porcentaje  más  bajo  de  mapeo  de  lecturas  sin  procesar  en  
el  ensamblado,  mientras  que  rnaSPAdes  rutinariamente  tuvo  el  porcentaje  más  alto  de  mapeo  de  lectura  
sin  procesar  y  la  cantidad  de  anotaciones  funcionales  (Fig.  9;  Archivo  adicional  1:  Fig.  S12),  pero  tenía  
contigs  más  cortos  en  promedio  y  una  alta  incidencia  de  transcripciones  que  no  parecían  estar  codificando.  
Estos  patrones  se  mantuvieron  tanto  en  conjuntos  de  datos  simulados  como  ambientales  (Figs.  3  y  6;  
Archivo  adicional  1:  Figs.  S2–S5).
El  espectro  de  enfoques  adoptado  por  los  ensambladores  también  tuvo  un  impacto  significativo  en  la  
interpretación  de  los  productos  de  ensamblaje.  Este  efecto  puede  ser  más  claro  cuando  se  considera  cómo  
la  longitud  promedio  de  contigs  recuperados  por  un  ensamblador  (por  ejemplo,  MEGAHIT  y  rnaS  PAdes  
como  en  el  ejemplo  anterior)  puede  sesgar  directamente  la  interpretación  de  la  composición  de  la  
comunidad.  Las  transcripciones  más  cortas  reclutarán  menos  lecturas,  pero  aparecerán  más  abundantes  
cuando  se  utilice  una  normalización  que  tenga  en  cuenta  la  longitud  de  la  secuencia  [93].  Debido  a  que  
los  ensambladores  que  funcionan  como  rnaSPAdes  producen  una  mayor  cantidad  de  contigs  más  cortos  
que  pueden  no  anotarse,  los  organismos  o  contigs  individuales  o  los  genes  predichos  con  una  longitud  de  
transcrito  más  larga  parecen  comparativamente  menos  abundantes  cuando  las  lecturas  están  normalizadas,  
pero  no  cuando  las  lecturas  sin  procesar  no  normalizadas  están  solas.  (Archivo  adicional  1:  Figs.  S15,  S16,  S17).
Por  ejemplo,  en  las  muestras  de  la  bahía  de  Narragansett,  observamos  que  la  diatomea  Skeletonema  
parece  tener  una  longitud  de  cóntigo  media  más  alta,  al  menos  en  los  cóntigos  que  pueden  ensamblarse  
con  precisión  y  etiquetarse  taxonómicamente  con  la  herramienta  EUKulele.  Sin  embargo,  las  métricas  de  
composición  de  la  comunidad  convencionales  como  TPM  que  se  normalizan  a  la  longitud  de  contig  
penalizarán  el  reclutamiento  de  lecturas  sin  procesar  para  estos  contigs  más  largos  que  el  promedio.  Sin  
embargo,  como  se  ha  descrito  bien  para  los  transcriptomas,  el  uso  de  lecturas  sin  procesar  deja  la  
interpretación  vulnerable  a  sesgos  relacionados  con  la  profundidad  de  secuenciación,  el  enfoque  de  
secuenciación  y  la  longitud  de  la  transcripción,  intuitivamente  porque  se  espera  que  las  transcripciones  más  
largas  recluten  una  mayor  cantidad  de  lecturas  sin  procesar  en  virtud  de  su  tamaño.  [93].  En  una  muestra  
de  comunidad  mixta,  y  particularmente  en  comunidades  marinas  en  las  que  los  organismos  son  
extraordinariamente  diversos,  las  normalizaciones  deben  tener  en  cuenta  la  heterogeneidad  de  la  comunidad.
En  conjunto,  estos  resultados  respaldan  la  utilidad  potencial  de  fusionar  los  enfoques  sutilmente  
diferentes  tomados  por  diferentes  herramientas  de  ensamblaje,  para  maximizar  la  recuperación  de  genes  
y  al  mismo  tiempo  retener  las  distintas  firmas  que  hacen  que  la  composición  de  la  comunidad  sea  
interpretable.  Los  enfoques  similares  a  rnaSPAdes  mejoran  la  recuperación  funcional,  mientras  que  los  
ensambladores  similares  a  MEGA  HIT  producen  secuencias  más  largas,  que  posiblemente  tengan  una  
mayor  fidelidad  para  la  comunidad  observada.  Esta  observación  plantea  aún  más  la  cuestión  de  cómo  
podemos  o  debemos  extraer  información  sobre  la  composición  de  la  comunidad  a  partir  de  los  metatranscriptomas.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  30  de  36

especialmente  cuando  las  muestras  no  se  pueden  normalizar  o  no  se  han  normalizado  para  limpieza  o  picos  
en  secuencias.

¿Deberíamos  reducir  el  tamaño  de  los  ensamblajes  metatranscriptómicos?

Las  restricciones  computacionales  continúan  limitando  la  escala  de  los  análisis  metatranscriptómicos,  ya  que  
las  herramientas  posteriores  para,  por  ejemplo,  la  cuantificación  de  la  abundancia  y  la  anotación  funcional  
pueden  tener  requisitos  de  memoria  considerables  para  archivos  de  ensamblaje  excesivamente  grandes  [94].  
Aquí,  abogamos  por  un  enfoque  de  ensamblador  múltiple  para  el  ensamblaje  del  metatranscriptoma.  Como  
hemos  discutido,  el  enfoque  de  ensamblador  múltiple  genera  una  mayor  cantidad  de  secuencias  de  
codificación  predichas  totales,  y  muchas  de  las  secuencias  de  codificación  adicionales  ensambladas  a  partir  
de  nuestro  conjunto  de  datos  simulado  son  similares  taxonómicamente,  funcionalmente  y  a  través  de  la  
identidad  de  secuencia  a  las  secuencias  de  codificación  del  ensamblaje  del  diseñador  ( Figs.  5,  6,  7,  archivo  adicional  1:  Fig.  S8).
Sin  embargo,  el  uso  de  un  enfoque  de  ensamblador  múltiple  creará  ensamblajes  más  grandes,  y  los  usuarios  
deben  ser  conscientes  de  la  complejidad  de  su  conjunto  de  datos  y  los  requisitos  de  uso  de  memoria  en  
sentido  descendente.  Los  investigadores  pueden  abordar  el  tamaño  excesivo  del  conjunto  (1)  limitando  
intencionalmente  el  conjunto  a  contenido  reducido  y  de  alta  calidad,  o  (2)  agrupando  más  estrictamente  los  
productos  del  conjunto,  cuya  elección  se  reduce  a  la  pregunta  de  investigación.
Los  contigs  estadísticamente  más  probables  de  contener  marcos  de  lectura  abiertos  detectables  y  de  
parecerse  mucho  al  contenido  de  secuencia  "verdadero"  en  una  muestra  del  mundo  real  a  través  de  la  
búsqueda  de  secuencias  explosivas  y  el  agrupamiento  mmseqs2  son  aquellos  en  los  que  múltiples  
ensambladores  pueden  ponerse  de  acuerdo  (Fig.  7;  Archivo  adicional  1 :  Figuras  S8–S11).  Los  investigadores  
pueden  optar  por  maximizar  la  confianza  en  los  productos  de  ensamblaje  utilizando  solo  los  contigs  
descubiertos  por  más  de  un  ensamblador,  o  pueden  expandir  el  número  total  de  genes  recuperados  
aprovechando  múltiples  algoritmos.  Si  bien  la  intención  de  eukrhythmic  es  combinar  los  resultados  de  
múltiples  herramientas  que  contribuyen  de  forma  independiente,  en  un  análisis  en  el  que  el  objetivo  es  extraer  
solo  los  productos  que  se  puede  suponer  que  son  de  la  más  alta  calidad,  la  intersección  más  pequeña  entre  
las  herramientas  de  ensamblaje  puede  ser  retenido.  Esto  también  reduciría  sustancialmente  el  número  de  
secuencias,  mejorando  la  viabilidad  computacional  de  los  análisis  posteriores.
Por  ejemplo,  si  un  investigador  estaba  interesado  específcamente  en  generar  un  conjunto  central  de  genes  
de  alta  confianza  para  un  sitio  y  luego  mapear  las  lecturas  sin  procesar  en  un  ensamblaje  combinado  para  
detectar  cambios  en  la  expresión  a  lo  largo  del  tiempo  y  el  espacio,  el  ensamblaje  múltiple  puede  proporcionar  
un  conjunto  de  transcripciones  más  probable  que  se  recuperen  con  precisión  de  las  muestras  originales  y  
que  sean  ecológicamente  relevantes  para  el  mapeo.  Sin  embargo,  es  importante  señalar  dos  trampas  de  este  
enfoque.  En  primer  lugar,  esto  reduce  sustancialmente  la  proporción  de  lecturas  sin  procesar  que  se  
representan  en  los  contigs  finales  después  del  ensamblaje  (Fig.  7).  En  segundo  lugar,  mientras  que  algunos  
ensambladores  producen  una  mayor  cantidad  de  productos  de  secuencia  que  no  tienen  una  similitud  
detectable  con  los  contigs  "verdaderos"  a  partir  de  los  cuales  se  simularon  las  lecturas  sin  procesar,  también  
producen  una  cantidad  de  secuencias  únicas  que  son  detectables  en  el  ensamblaje  original  y,  lo  que  es  más  
importante,  no  identificado  por  ninguno  de  los  otros  enfoques  de  ensamblaje  (p.  ej.,  rnaspades).
Los  investigadores  también  pueden  optar  por  agrupar  el  ensamblaje  resultante  de  acuerdo  con  el  tamaño  
de  archivo  final  deseado  o  el  nivel  de  redundancia  de  secuencia.  Usando  el  agrupamiento  mmseqs2  [50],  
encontramos  que  para  nuestros  ensamblajes  combinados,  la  elección  de  los  parámetros  de  agrupamiento  es  
importante,  con  reducciones  potencialmente  significativas  en  el  tamaño  del  archivo  sin  un  impacto  apreciable  
en  el  perfil  funcional  y  taxonómico  del  metatranscriptoma  ensamblado  (Fig.  4 ;  archivo  adicional  1:  Fig.  S1).  
Ahora  se  están  desarrollando  enfoques  para
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  31  de  36

agrupar  de  manera  más  confiable  y  eficiente  genes  predichos  de  función  conocida  y  desconocida,  
por  ejemplo,  utilizando  herramientas  como  mmseqs2  acopladas  a  información  de  dominio  funcional  y  
modelado  probabilístico  [92].  Tales  enfoques  son  particularmente  útiles  para  ajustar  secuencias  de  
codificación  de  un  solo  ensamblaje  en  el  contexto  de  conjuntos  de  datos  expansivos  en  el  espacio  y/
o  el  tiempo,  de  los  cuales  se  pueden  extraer  muchos  millones  de  secuencias  de  codificación  totales,  
y  el  procesamiento  computacional  se  vuelve  excepcionalmente  limitante  [92] .

eukrhythmic:  un  enfoque  para  el  ensamblaje  optimizado  del  metatranscriptoma  de  múltiples  
ensambladores  La  calidad  del  metatranscriptoma  no  se  puede  evaluar  utilizando  métricas  genómicas  
o  de  un  solo  organismo.  En  cambio,  los  productos  de  ensamblaje  deben  considerarse  como  contenido  
genético  potencialmente  novedoso  al  evaluar  el  éxito  del  ensamblaje.  Aquí,  presentamos  eukrhythmic,  
un  flujo  de  trabajo  para  ensamblar  metatranscriptomas  ambientales  de  comunidades  eucariotas  
mediante  el  aprovechamiento  de  múltiples  ensambladores.  Evaluamos  nuestra  tubería  usando  
metatranscriptomas  ambientales  existentes  y  datos  comunitarios  simulados  que  generamos  usando  
una  segunda  tubería,  jEUKebox.  La  canalización  flexible  de  jEUKebox  se  puede  reutilizar  a  medida  
que  se  disponga  de  secuencias  de  referencia  adicionales  para  probar  las  hipótesis  de  ecología  
comunitaria  para  organismos  cultivados  y  no  cultivados.  Simular  comunidades  y  probar  su  capacidad  
de  recuperación  es  un  paso  esencial  para  garantizar  la  fidelidad  de  los  estudios  de  metatranscriptoma  
a  medida  que  crece  el  volumen  de  datos  taxonómicos  y  funcionales  disponibles  para  hacer  
predicciones.  En  particular,  imaginamos  la  construcción  de  datos  de  metacomunidades  utilizando  
organismos  no  cultivados  deducidos  de  secuencias  metagenómicas  (genomas  ensamblados  en  
metagenoma  (MAG))  [10].  Nuestra  incapacidad  para  anotar  algunos  contigs  no  modificados  de  la  
comunidad  simulada  original  resalta  preguntas  cruciales  sobre  los  límites  de  la  anotación.  ¿Algunos  
genes  están  destinados  a  seguir  siendo  difíciles  de  anotar  (taxonómica  y  funcionalmente),  ya  sea  
porque  varían  demasiado  entre  organismos,  por  lo  tanto,  se  necesita  un  genoma  altamente  completo  
y  específico  del  organismo  para  identificarlos  con  precisión,  o  porque  son  parte  de  un  grupo  
indistinguible  de  genes  muy  similares?  ¿Podemos  estar  seguros  de  que  estos  son  genes  verdaderos,  
o  podrían  ser  artefactos  del  ensamblador  que  se  usó  originalmente  para  generar  los  ensamblajes  de  
referencia?  Las  simulaciones  rigurosas  de  comunidades  pueden  ayudar  a  identificar  estos  genes  
difíciles  de  anotar  y  establecer  umbrales  que  eviten  anotaciones  erróneas,  junto  con  nuevos  enfoques  
para  anotar  genes  desconocidos  [95] .
Las  simulaciones  computacionales  deben  combinarse  con  la  curación  en  laboratorio  de  las  
comunidades  cultivadas  y  la  secuenciación  metatranscriptómica  acompañante  que  se  puede  comparar  
con  los  datos  de  conteo.  Ya  existen  planes  prometedores  para  ejecutar  estos  pasos  [96].
La  evaluación  crítica  de  la  precisión  y  la  calidad  del  ensamblaje  del  metatranscriptoma  y  la  
cuantificación  de  los  impactos  técnicos,  como  la  similitud  de  agrupamiento  o  los  algoritmos  utilizados  
para  construir  contigs,  brindan  confianza  para  las  interpretaciones  ecológicas.  La  tubería  eukrhythmic  
mic  representa  una  hoja  de  ruta  reproducible  para  ensamblar  nuevos  metatranscriptomas  ambientales  
eucariotas  y  volver  a  ensamblar  el  creciente  depósito  de  metatranscriptomas  ambientales  eucariotas  
existentes  con  múltiples  ensambladores.  Esta  herramienta  flexible  que  los  investigadores  pueden  
usar  para  estandarizar  los  pasos  cruciales  del  análisis  del  metatranscriptoma  es  un  paso  hacia  la  
estandarización  y  validación  del  ensamblaje  del  metatranscriptoma  eucariota.  Con  el  uso  constante  
de  herramientas  de  software  y  los  pasos  de  procesamiento  previo  y  posterior  que  permite  eukrhythmic,  
el  ensamblaje  del  metatranscriptoma  tiene  el  potencial  de  desbloquear
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  32  de  36

los  roles  funcionales  de  microbios  eucariotas  en  gran  parte  no  caracterizados  que  impulsan  la  
biogeoquímica  en  diversos  ecosistemas  naturales.  Los  flujos  de  trabajo  estandarizados  para  el  
ensamblaje  del  metatranscriptoma  eucariótico,  como  las  simulaciones  comunitarias  y  eurítmicas,  con  la  
tecnología  de  herramientas  como  jEUKebox,  son  un  medio  fundamental  para  validar  estos  descubrimientos.

Información  complementaria  La  versión  en  
línea  contiene  material  complementario  disponible  en  https://doi.org/10.1186/s12859­022­05121­y.

Archivo  adicional  1:  Fig.  S1.  Resumen  visual  del  efecto  del  agrupamiento  con  mmseqs2  en  la  energía  recuperada,  KO  (anotaciones  
funcionales)  y  tamaño  de  archivo  en  bytes.  Si  bien  la  reducción  del  umbral  de  identidad  de  secuencia  para  el  agrupamiento  da  como  resultado  
una  reducción  promedio  de  hasta  el  30  %  en  el  tamaño  del  archivo,  el  número  de  géneros  recuperados  y  anotaciones  funcionales  solo  se  
ven  afectados  modestamente,  especialmente  en  cobertura  alta.  Una  identidad  de  secuencia  intermedia  de  0,8  y  una  cobertura  de  0,8  daría  
como  resultado  una  reducción  promedio  del  15­25  %  en  el  tamaño  del  archivo,  pero  dejaría  sin  cambios  las  distintas  anotaciones  funcionales  y  taxonómicas.
Figura  S2.  Figura  del  texto  principal  facetada  por  un  grupo  de  ensamblaje  METSP  simulado  (dos  conjuntos  diferentes  de  organismos).  Es  de  
destacar  que  el  reensamblaje  eukrhythmic  recapitula  con  precisión  la  distribución  bimodal  en  el  contenido  de  GC  observado  en  las  secuencias  
metatranscriptómicas  del  diseñador  del  grupo  A  de  MMETSP.  Figura  S3.  Longitudes  de  secuencia  de  proteínas  en  los  reensamblajes  en  
comparación  con  el  diseñador.  La  línea  1  a  1  muestra  dónde  caerían  las  secuencias  si  la  longitud  promedio  de  las  secuencias  de  proteínas  
recuperadas  a  través  de  TransDecoder  fuera  idéntica  entre  los  ensamblajes  del  diseñador  y  los  productos  reensamblados  derivados  de  
eurritmia;  el  hecho  de  que  todas  las  muestras  caigan  en  la  mitad  inferior  derecha  de  la  gráfica  indica  que  las  secuencias  de  proteínas  fueron  
consistentemente  más  grandes  en  los  ensamblajes  de  diseño  en  comparación  con  los  productos  reensamblados  eurítmicos.  Figura  S4.  
Longitud  media  de  contig  en  función  del  número  de  ensambladores  que  encontraron  una  secuencia  que  coincidía  con  la  descripción  
dada.  Para  el  grupo  de  4  ensambladores,  esto  significa  que  los  cuatro  ensambladores  probados  identificaron  una  secuencia  que  coincidía  
con  la  secuencia  incluida  en  la  distribución  cuando  se  agruparon  dentro  de  eukrhythmic.  El  panel  A  corresponde  al  grupo  A  de  MMETSP,  
mientras  que  el  panel  B  corresponde  al  grupo  B  de  MMETSP.  Las  pruebas  T  independientes  de  Welch  y  las  pruebas  de  Kolmogorov­Smirnof  
para  la  bondad  de  ft  entre  distribuciones  calculadas  en  estas  distribuciones  de  longitud  revelan  que  la  distribución  general  de  longitudes  para  1  
frente  a  2  vs.  3  vs.  4  distribuciones  de  ensambladores  son  estadísticamente  significativamente  diferentes  (p  <  1e−6),  con  mayores  
ensambladores  dentro  de  un  grupo  que  conducen  a  una  mayor  longitud  promedio.  Figura  S5.  Porcentajes  de  mapeo  de  salmón  contra  las  
lecturas  sin  procesar  simuladas  cuando  se  calculan  individualmente  contra  cada  una  de  las  cuatro  herramientas  de  ensamblaje  utilizadas  
por  eukrhythmic.  rnaSPAdes  superó  constantemente  a  los  otros  ensambladores  con  respecto  al  mapeo  porcentual,  la  longitud  promedio  y  la  
cantidad  de  anotaciones.  Figura  S6.  Figura  del  texto  principal,  pero  con  A:  comparación  de  TPM  para  los  ensamblajes  del  diseñador  y  
los  productos  reensamblados  de  euk  rítmicos  etiquetados  por  distintos  grupos  de  simulaciones  en  relación  con  su  subconjunto  de  
organismos  MMETSP;  cada  punto  se  llena  de  acuerdo  a  su  “grupo  MMETSP”.  Figura  S7.  Figura  del  texto  principal  con  los  resultados  divididos  
por  "grupo  MMETSP"  para  demostrar  que  los  diferentes  grupos  taxonómicos  de  organismos  incluidos  en  la  simulación  no  afectan  las  
tendencias  generales  observadas  en  los  resultados.  Los  tres  paneles  están  divididos  por  muestras  utilizando  los  dos  "grupos  MMETSP"  de  
transcriptomas  de  organismos  individuales.  Figura  S8.
Mapeo  de  porcentaje  de  salmón  por  grupo  MMETSP  cuando  se  usan  productos  contig  de  todos  los  ensambladores  como  en  eukrhythmic  
(distribución  inferior  con  uno  o  más  ensambladores)  en  comparación  con  cuando  solo  se  usan  contigs  acordados  por  múltiples  ensambladores.  El  
mapeo  de  porcentaje  promedio  disminuye  progresivamente  con  la  inclusión  de  menos  contigs  a  medida  que  los  criterios  de  inclusión  se  hacen  más  
estrictos.  Figura  S9.  Proporción  de  contigs  de  cada  subconjunto  de  agrupamiento  que  tenía  ORF  extraídos  de  la  secuencia.  La  gran  
mayoría  de  los  cóntigos  tenían  un  único  ORF  predicho,  pero  los  rnaSPAdes  solos  tenían  el  mayor  número  de  cóntigos  de  nucleótidos  en  los  que  
no  se  podía  detectar  un  ORF.  En  la  práctica,  se  podría  suponer  que  estas  secuencias  no  codifican.  Figura  S10.  Proporción  de  contigs  de  cada  
subconjunto  de  agrupamiento  en  los  que  se  extrajeron  ORF  de  la  secuencia  en  todos  los  contigs  identificados  por  el  ensamblador.  rnaSPAdes  
tuvo  un  mayor  número  de  contigs  sin  un  ORF  identifcado.  Figura  S11.  Proporción  de  contigs  del  ensamblaje  del  diseñador  a  los  que  se  extrajeron  
ORF  de  la  secuencia.  En  general,  menos  contigs  no  tenían  un  ORF  identificado,  y  un  mayor  número  de  contigs  tenían  múltiples  ORF  
predichos  que  en  los  productos  reensamblados  de  euk  rítmico.  Figura  S12.  Comparación  de  la  abundancia  de  ID  de  KO  dentro  de  anotaciones  
funcionales  en  muestras  de  Narragansett  Bay  y  diferentes  combinaciones  de  ensambladores  de  metatranscriptoma.  Una  línea  punteada  negra  
indica  una  relación  de  uno  a  uno,  lo  que  significa  que  la  abundancia  de  KO  que  caen  a  lo  largo  de  esta  línea  son  exactamente  tan  abundantes  
usando  el  ensamblador  enumerado  en  el  eje  x  y  usando  el  ensamblador  enumerado  en  el  eje  y.  En  la  parte  superior  izquierda,  Trinity  se  
compara  con  MEGAHIT,  en  la  parte  superior  derecha,  Trinity  se  compara  con  rnaSPAdes,  en  la  parte  inferior  izquierda,  MEGAHIT  se  compara  
con  rnaSPAdes  y,  en  la  parte  inferior  derecha,  MEGAHIT  se  compara  con  SPAdes.  Cada  punto  corresponde  a  un  solo  KO  dentro  de  una  
muestra.  Mientras  que  rnaSPAdes  tendía  a  informar  una  gran  abundancia  de  cada  KO  identifcado  en  relación  con  los  otros  ensambladores,  
MEGAHIT  informó  menos  instancias  de  cada  KO  que  los  otros  tres  ensambladores  en  la  mayoría  de  las  muestras.  Esto  puede  deberse  a  
los  enfoques  adoptados  por  los  dos  ensambladores.  Mientras  que  en  un  ensamblaje  típico,  se  supone  que  los  k­meros  que  aparecen  solo  una  
vez  son  el  resultado  de  un  error,  estos  k­meros  pueden  representar  una  diversidad  real  e  importante  en  un  conjunto  de  secuencias  de  
toda  la  comunidad  de  baja  abundancia  [47] .  El  ensamblador  MEGAHIT  es  un  ejemplo  de  software  específico  de  metagenómica  que  defne  "mercy  
k­mers"  que  entran  en  juego  entre  dos  k­mers  dentro  de  una  sola  lectura  que  se  secuencian  más  de  una  vez.  rnaSPAdes,  por  ejemplo,  no  emplea  
una  estrategia  de  "misericordia",  sino  que  reduce  significativamente  el  umbral  de  cobertura  en  comparación  con  el  ensamblaje  genómico  
[36].

Uno  adopta  la  suposición  metaómica  de  que  una  cobertura  extremadamente  baja  es  plausiblemente  no  artificial,  mientras  que  el  otro  es  más  
generoso  con  respecto  a  la  cobertura  y  el  uso  de  la  memoria,  pero  con  la  intención  de  minimizar  la  influencia  del  error  de  secuenciación.  La  
estrategia  adoptada  por  MEGAHIT  puede  resultar  en  una  consideración  incompleta  de  las  isoformas,  lo  que  podría  haber  contribuido  a  la  tasa  
de  recuperación  relativamente  baja  de  múltiples  copias  de  los  grupos  KO  identificados  por  los  ensamblajes  MEGAHIT  de  las  muestras  de  
metatranscriptoma  de  Narragansett  Bay.  Figura  S13.  Proporción  del  valor  TPM  total  normalizado  de  los  principales  grupos  taxonómicos  según  
los  cuatro  ensambladores  metatranscriptómicos  que  se  probaron.  rnaSPAdes  tenía  una  proporción  más  baja  de  TPM  asignada  a  
Ochrophyta  (incluidas  las  diatomeas),  pero  una  investigación  posterior  pareció  ser  en  gran  parte  una  consecuencia  de  la  gran  cantidad  de  
pequeños  contigs  producidos  por  rnaSPAdes.  Higo.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  33  de  36

S14.  Proporción  de  TPM  normalizado  total  según  lo  informado  por  Salmon  a  partir  de  las  lecturas  sin  procesar  asignadas  a  cada  
categoría  taxonómica  en  los  ensamblajes  producidos  por  cada  uno  de  los  cuatro  ensambladores  (facetas).  En  particular,  en  la  
muestra  S2,  el  desglose  taxonómico  de  la  comunidad  eucariótica  difiere  de  manera  importante  en  medio  de  un  florecimiento  de  la  
diatomea  Skeletonema.  Figura  S15.  Proporción  de  lecturas  sin  procesar  asignadas  según  lo  informado  por  Salmon  asignado  a  cada  
categoría  taxonómica  para  los  cuatro  ensambladores  de  metatranscriptoma,  expresada  como  una  proporción  del  total.  Figura  S16.  Proporción  
de  lecturas  sin  procesar  asignadas  según  lo  informado  por  Salmon  asignado  a  cada  categoría  taxonómica  para  los  cuatro  ensambladores  
de  metatranscriptoma,  expresada  como  una  proporción  del  total.  Figura  S17.  Longitud  promedio  de  contigs  por  anotación  de  contigs  
generados  por  las  cuatro  herramientas  de  ensamblaje  en  muestras.  Las  barras  de  error  muestran  el  error  estándar  de  la  media.  Figura  S18.  
Número  total  de  contigs  generados  por  los  cuatro  ensambladores  probados  para  cada  una  de  las  agrupaciones  taxonómicas  
consideradas.  rnaSPAdes  tendía  a  producir  más  contigs  que  los  otros  cuatro  ensambladores,  pero  estos  contigs  a  menudo  eran  más  
cortos  y  ocasionalmente  conducían  a  resultados  de  composición  de  comunidad  engañosos.  Figura  S19.  Gráficos  de  abundancia  apilados  
análogos  por  agrupación  taxonómica  a  los  gráficos  de  abundancia  relativa  presentados  en  Alexander  et  al.  [23]  para  los  cinco  
puntos  de  muestreo  in  situ  recolectados  en  la  bahía  de  Narragansett.  Figura  S20.  Mapeo  de  porcentaje  de  salmón  de  secuencias  de  
codificación  (izquierda)  frente  a  contigs  completos  (derecha)  para  las  muestras  de  Tara  Oceans.  El  mapeo  solo  a  las  secuencias  de  
codificación  del  ensamblaje  disminuyó  el  porcentaje  medio  mapeado,  según  lo  informado  por  Salmon.  Figura  S21.  Anotaciones  taxonómicas  
por  muestra  para  todos  los  CDS  rítmicos  de  euk,  incluidos  aquellos  que  se  encontraron  y  no  coincidieron  con  la  base  de  datos  de  MATOU.
Figura  S22.  TPM  total  asignado  por  muestra  a  secuencias  a  las  que  se  les  asignó  una  anotación  EUKulele,  pero  que  no  tenían  una  
coincidencia  de  explosión  signifcativa  con  la  base  de  datos  MATOU  de  Carradec  et  al.  [22].  Figura  S23.  Distribución  completa  de  secuencias  
de  codificación  recuperadas  por  el  ensamblaje  eukrhythmic  y  no  se  encontraron  (izquierda)  en  la  base  de  datos  MATOU  [22]  frente  a  
(derecha)  encontradas  en  la  base  de  datos  MATOU.  Figura  S24.  Longitud  promedio  por  muestra  de  las  secuencias  de  codificación  
recuperadas  por  el  ensamblaje  eukrhythmic  y  no  se  encontraron  (izquierda)  en  la  base  de  datos  MATOU  [22]  vs.  (derecha)  encontradas  
en  la  base  de  datos  MATOU.  Tabla  S1.  (Suplemento)  Efecto  de  agrupar  el  ensamblaje  del  diseñador  en  el  tamaño  y  las  anotaciones  del  ensamblaje.
La  agrupación  se  realizó  en  el  conjunto  original  de  contigs  del  "metatranscriptoma  de  diseñador"  de  las  referencias  MMETSP  utilizando  la  
herramienta  mmseqs2  (Mirdata  et  al.  2019).  eukrhythmic  utiliza  un  nivel  de  cobertura  de  0,98  y  una  identidad  de  secuencia  de  1  para  el  
agrupamiento  mmseqs2.  Consulte  la  Figura  complementaria  1  para  obtener  un  resumen  gráfico  de  la  influencia  de  la  identidad  de  secuencia  y  
la  cobertura  en  el  tamaño  del  ensamblaje  recuperado  y  sus  anotaciones  funcionales  y  taxonómicas.

Agradecimientos  
Agradecemos  a  Margaret  Mars  Brisbin  y  Sarah  Hu  por  sus  valiosos  comentarios  sobre  la  canalización  y  su  contribución  a  las  pruebas.  
También  agradecemos  a  Celeste  Nobrega  por  su  trabajo  en  este  proyecto  como  estudiante  invitada  en  la  Institución  Oceanográfica  Woods  
Hole.  El  clúster  de  computación  de  alto  rendimiento  Poseidon  en  la  Institución  Oceanográfica  Woods  Hole  se  utilizó  para  ejecutar  todos  los  
análisis.

Contribuciones  de  los  
autores  HA  y  AIK  concibieron  la  idea  para  el  flujo  de  trabajo  inicial,  con  aportes  de  NRC  y  MJF.  AIK  desarrolló  el  código  para  euk  rítmico  y  
jEUKebox  con  el  apoyo  de  NRC  y  HA.  AIK  y  HA  escribieron  el  manuscrito  con  contribuciones  de  NRC;  todos  los  autores  revisaron  y  editaron  el  
manuscrito.

Financiación  
Agradecemos  la  financiación  que  apoyó  este  trabajo  de  Simons  Collaboration  on  Computational  Biogeochemical  Modeling  of  Marine  
Ecosystems  (CBIOMES)  (subvención  n.º  549931),  una  subvención  de  la  Fundación  Nacional  de  Ciencias  (OCE  1948025  para  HA),  Simons  Early  
Career  Investigator  in  Marine  Microbial  Ecology  y  Evolution  Award  (subvención  n.º  931886  para  HA),  y  la  Beca  de  Posgrado  en  Ciencias  
Computacionales  del  Departamento  de  Energía  (DE­SC0020347  para  AIK).

Disponibilidad  de  datos  y  materiales  Todo  
el  código  está  disponible  en  los  repositorios  públicos  de  GitHub  https://github.com/alexanderlabwhoi/eukrhythmic  y  https://github.com/
alexanderlabwhoi/jeukebox.  La  salida  de  muestra  de  eukrhythmic  para  las  pruebas  simuladas  está  disponible  en  https://osf.io/te7sp/.  El  código  
utilizado  para  generar  figuras  está  disponible  en  un  repositorio  público  de  GitHub  en  https://github.com/akrinos/2022­Krinos­eukrhythmic.

Declaraciones

Aprobación  ética  y  consentimiento  para  participar  No  
aplica.

Consentimiento  para  publicación  
No  aplicable.

Conflicto  de  intereses  Los  
autores  declaran  que  no  tienen  conflictos  de  intereses.

Recibido:  8  julio  2022  Aceptado:  21  diciembre  2022
Publicado:  3  de  marzo  de  2023

Referencias
1.  Massana  R,  Pedrós­Alió  C.  Revelando  nuevos  eucariotas  microbianos  en  la  superficie  del  océano.  Curr  Opin  Microbiol.
2008;11(3):213–8.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  34  de  36

2.  Worden  AZ,  sigue  a  MJ,  Giovannoni  SJ,  Wilken  S,  Zimmerman  AE,  Keeling  PJ.  Repensar  el  ciclo  del  carbono  marino:  tener  en  cuenta  los  múltiples  
estilos  de  vida  de  los  microbios.  Ciencia.  2015;347(6223):1257594.
3.  Caron  DA,  Alexander  H,  Allen  AE,  Archibald  JM,  Armbrust  EV,  Bachy  C,  Bell  CJ,  Bharti  A,  Dyhrman  ST,  Guida  SM,
et  al.  Sondeando  la  evolución,  ecología  y  fisiología  de  protistas  marinos  usando  transcriptómica.  Nat  Rev  Microbiol.  2017;15(1):6–20.

4.  Caron  DA,  Worden  AZ,  Countway  PD,  Demir  E,  Heidelberg  KB.  Los  protistas  también  son  microbios:  una  perspectiva.  ISME  J.
2009;3(1):4–12.
5.  Lawler  SP,  Morin  PJ.  Arquitectura  de  red  alimentaria  y  dinámica  de  población  en  microcosmos  de  laboratorio  de  protistas.  Soy  Nat.
1993;141(5):675–86.
6.  Stoecker  DK.  Modelos  conceptuales  de  mixotrofia  en  protistas  planctónicos  y  algunas  implicaciones  ecológicas  y  evolutivas
cationes.  Eur  J  Protistol.  1998;34(3):281–90.
7.  Sherr  EB,  Sherr  BF.  Importancia  de  la  depredación  por  protistas  en  las  redes  alimentarias  microbianas  acuáticas.  Antonie  Van  Leeuwenhoek.
2002;81(1):293–308.
8.  Del  Campo  J,  Guillou  L,  Hehenberger  E,  Logares  R,  López­García  P,  Massana  R.  Ecological  and  evolutionary  signif
cance  de  nuevos  linajes  de  protistas.  Eur  J  Protistol.  2016;55:4–11.
9.  Del  Campo  J,  Balagué  V,  Forn  I,  Lekunberri  I,  Massana  R.  Sesgo  de  cultivo  en  fagelados  heterótrofos  marinos  analizados
a  través  de  incubaciones  de  enriquecimiento  de  agua  de  mar.  Microbio  Ecol.  2013;66(3):489–99.
10.  Alexander  H,  Hu  SK,  Krinos  AI,  Pachiadaki  M,  Tully  BJ,  Neely  CJ,  Reiter  T.  Genomas  eucariotas  de  un  metagen  global
El  conjunto  de  datos  ómicos  ilumina  los  modos  tróficos  y  la  biogeografía  del  plancton  oceánico.  bioRxiv.  2021.
11.  Delmont  TO,  Gaia  M,  Hinsinger  DD,  Frémont  P,  Vanni  C,  Fernandez­Guerra  A,  Eren  AM,  Kourlaiev  A,  d'Agata  L,  Clays  sen  Q,  et  al.  Convergencia  
del  repertorio  funcional  de  linajes  de  plancton  eucarióticos  lejanamente  relacionados  abundantes  en  el  océano  iluminado  por  el  sol.  Genoma  
celular.  2022;2(5):  100123.
12.  Giford  SM,  Sharma  S,  Rinta­Kanto  JM,  Moran  MA.  Análisis  cuantitativo  de  una  secuencia  microbiana  marina  profundamente
metatranscriptoma.  ISME  J.  2011;5(3):461–72.
13.  Becker  KW,  Harke  MJ,  Mende  DR,  Muratore  D,  Weitz  JS,  DeLong  EF,  Dyhrman  ST,  Van  Mooy  BA.  El  análisis  combinado  de  pigmentos  y  
metatranscriptómico  revela  patrones  diel  altamente  sincronizados  de  respuesta  fenotípica  a  la  luz  a  través  de  dominios  en  el  océano  
oligotrófico  abierto.  ISME  J.  2021;15(2):520–33.
14.  Salazar  G,  Paoli  L,  Alberti  A,  Huerta­Cepas  J,  Ruscheweyh  HJ,  Cuenca  M,  Field  CM,  Coelho  LP,  Cruaud  C,  Engelen  S,  et  al.  Los  cambios  en  la  
expresión  génica  y  la  renovación  de  la  comunidad  dan  forma  diferencial  al  metatranscriptoma  del  océano  global.
Celúla.  2019;179(5):1068–83.
15.  Stewart  FJ,  Ulloa  O,  DeLong  EF.  Metatranscriptómica  microbiana  en  una  zona  de  mínimo  de  oxígeno  marino  permanente.
Microbiol  Ambiental.  2012;14(1):23–40.
16.  John  DE,  Zielinski  BL,  Paul  JH.  Creación  de  una  biblioteca  piloto  de  metatranscriptoma  a  partir  de  plancton  eucariota  de  un  eutrófico
bahía  (Bahía  de  Tampa,  Florida).  Métodos  de  Limnol  Oceanogr.  2009;7(3):249–59.
17.  Sunagawa  S,  Acinas  SG,  Bork  P,  Bowler  C,  Eveillard  D,  Gorsky  G,  Guidi  L,  Iudicone  D,  Karsenti  E,  Lombard  F,  et  al.  Tara
Océanos:  hacia  la  biología  de  los  ecosistemas  oceánicos  globales.  Nat  Rev  Microbiol.  2020;18(8):428–45.
18.  Poretsky  RS,  Bano  N,  Buchan  A,  LeCleir  G,  Kleikemper  J,  Pickering  M,  Pate  WM,  Moran  MA,  Hollibaugh  JT.  Análisis  de  transcripciones  de  genes  
microbianos  en  muestras  ambientales.  Aplicación  Environ  Microbiol.  2005;71(7):4121–6.
19.  Gilbert  JA,  Field  D,  Huang  Y,  Edwards  R,  Li  W,  Gilna  P,  Joint  I.  Detección  de  un  gran  número  de  secuencias  novedosas  en  el
metatranscriptomas  de  comunidades  microbianas  marinas  complejas.  Más  uno.  2008;3(8):e3042.
20.  Keeling  PJ,  Burki  F,  Wilcox  HM,  Allam  B,  Allen  EE,  Amaral­Zettler  LA,  Armbrust  EV,  Archibald  JM,  Bharti  AK,  Bell  CJ,  et  al.
El  proyecto  de  secuenciación  del  transcriptoma  de  eucariotas  microbianos  marinos  (MMETSP):  esclarecimiento  de  la  diversidad  funcional  de  la  
vida  eucariota  en  los  océanos  a  través  de  la  secuenciación  del  transcriptoma.  PLoS  Biol.  2014;12(6):1001889.
21.  Krinos  AI,  Hu  SK,  Cohen  NR,  Alexander  H.  EUKulele:  anotación  taxonómica  de  los  microbios  eucariotas  anónimos.  j
Software  de  código  abierto.  2021;6(57):2817.  https://doi.org/10.21105/joss.02817.
22.  Carradec  Q,  Pelletier  E,  Da  Silva  C,  Alberti  A,  Seeleuthner  Y,  Blanc­Mathieu  R,  Lima­Mendez  G,  Rocha  F,  Tirichine  L,
Labadie  K,  et  al.  Un  atlas  oceánico  mundial  de  genes  eucariotas.  Nat  Comun.  2018;9(1):1–13.
23.  Alexander  H,  Jenkins  BD,  Rynearson  TA,  Dyhrman  ST.  Los  análisis  de  metatranscriptoma  indican  la  partición  de  recursos  entre  las  diatomeas  en  
el  campo.  Proc  Natl  Acad  Sci.  2015;112(17):2182–90.
24.  Johnson  LK,  Alexander  H,  Brown  CT.  Reensamblaje,  evaluación  de  calidad  y  anotación  de  678  transcriptomas  de  referencia  eucarióticos  
microbianos.  Gigaciencia.  2019;8(4):158.
25.  Daniels  C,  Baumgarten  S,  Yum  LK,  Michell  CT,  Bayer  T,  Arif  C,  Roder  C,  Weil  E,  Voolstra  CR.  El  análisis  del  metatranscriptoma  del  coral  
constructor  de  arrecifes  Orbicella  faveolata  indica  una  respuesta  holobionte  a  la  enfermedad  del  coral.  Frente  Mar  Sci.  2015;  2:62.

26.  Lesniewski  RA,  Jain  S,  Anantharaman  K,  Schloss  PD,  Dick  GJ.  El  metatranscriptoma  de  una  pluma  hidrotermal  de  aguas  profundas  está  dominado  
por  metanótrofos  y  litótrofos  de  la  columna  de  agua.  ISME  J.  2012;6(12):2257–68.
27.  Richter  D.  Metagenómica  y  metatranscriptomas  de  comunidades  oceánicas.  Ficología.  2017;56(4):158.
28.  Leimena  MM,  Ramiro­Garcia  J,  Davids  M,  van  den  Bogert  B,  Smidt  H,  Smid  EJ,  Boekhorst  J,  Zoetendal  EG,  Schaap  PJ,  Kleerebezem  M.  Una  tubería  
de  análisis  de  metatranscriptoma  integral  y  su  validación  utilizando  conjuntos  de  datos  de  microbiota  del  intestino  delgado  humano .  BMC  Genómica.  
2013;14(1):530.
29.  Davids  M,  Hugenholtz  F,  dos  Santos  VM,  Smidt  H,  Kleerebezem  M,  Schaap  PJ.  Perfilado  funcional  de  comunidades  microbianas  
desconocidas  utilizando  una  canalización  de  metatranscriptoma  de  ensamblaje  de  novo  validada.  Más  uno.  2016;11(1):e0146423.

30.  Westreich  ST,  Treiber  ML,  Mills  DA,  Korf  I,  Lemay  DG.  SAMSA2:  una  tubería  de  análisis  de  metatranscriptoma  independiente.
BMC  Bioinforme.  2018;19(1):175.
31.  Vijay  N,  Poelstra  JW,  Künstner  A,  Wolf  JB.  Desafíos  y  estrategias  en  el  ensamblaje  del  transcriptoma  y  la  cuantificación  de  la  expresión  génica  
diferencial.  Una  evaluación  completa  in  silico  de  los  experimentos  de  RNA­seq.  Mol  Ecol.  2013;22(3):620–34.

32.  Mac  Manes  MD.  El  protocolo  Oyster  River:  un  enfoque  multiensamblador  y  kmer  para  el  transcriptoma  de  novo
asamblea.  PeerJ.  2018;6:5428.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  35  de  36

33.  Ortiz  R,  Gera  P,  Rivera  C,  Santos  JC.  Pincho:  un  enfoque  modular  para  la  transcriptómica  de  novo  de  alta  calidad.  genes
2021;12(7):953.
34.  Simão  FA,  Waterhouse  RM,  Ioannidis  P,  Kriventseva  EV,  Zdobnov  EM.  BUSCO:  evaluación  del  ensamblaje  del  genoma  y  la  integridad  de  la  
anotación  con  ortólogos  de  una  sola  copia.  Bioinformática.  2015;31(19):3210–2.
35.  Jauhal  AA,  Newcomb  RD.  Evaluación  de  la  calidad  del  ensamblaje  del  genoma  antes  del  análisis  posterior:  N50  versus  BUSCO.
Recursos  de  ecología  molecular.  2021.
36.  Bushmanova  E,  Antipov  D,  Lapidus  A,  Prjibelski  AD.  rnaSPAdes:  un  ensamblador  de  transcriptomas  de  novo  y  sus  aplicaciones
catión  a  datos  de  RNA­Seq.  Gigaciencia.  2019;8(9):100.
37.  Jiang  Y,  Xiong  X,  Danska  J,  Parkinson  J.  El  análisis  metatranscriptómico  de  diversas  comunidades  microbianas  revela  vías  metabólicas  
centrales  y  funcionalidad  específica  del  microbioma.  Microbioma.  2016;4(1):1–18.
38.  Almeida  A,  Mitchell  AL,  Tarkowska  A,  Finn  RD.  Asignaciones  taxonómicas  de  evaluación  comparativa  basadas  en  el  perfil  del  gen  16S  rRNA  
de  la  microbiota  de  entornos  comúnmente  muestreados.  Gigaciencia.  2018;7(5):054.
39.  Anwar  MZ,  Lanzen  A,  Bang­Andreasen  T,  Jacobsen  CS.  Montar  o  no  parecerse­una  comparativa  validada
flujo  de  trabajo  de  metatranscriptómica  (CoMW).  Gigaciencia.  2019;8(8):096.
40.  Bolger  AM,  Lohse  M,  Usadel  B.  Trimmomatic:  un  recortador  fexible  para  datos  de  secuencia  de  Illumina.  Bioinformática.
2014;30(15):2114–20.
41.  Bushnell  B.  BBMap:  un  alineador  rápido,  preciso  y  con  detección  de  empalmes.  Informe  técnico,  Laboratorio  Nacional  Lawrence  Berkeley.
(LBNL),  Berkeley,  CA  (Estados  Unidos).  2014.
42.  Honaas  LA,  Wafula  EK,  Wickett  NJ,  Der  JP,  Zhang  Y,  Edger  PP,  Altman  NS,  Pires  JC,  Leebens­Mack  JH,  DePamphilis  CW.  Selección  de  
ensamblajes  superiores  de  transcriptomas  de  novo:  lecciones  aprendidas  al  aprovechar  el  mejor  genoma  vegetal.  Más  uno.  
2016;11(1):0146062.
43.  Clarke  K,  Yang  Y,  Marsh  R,  Xie  L,  et  al.  Análisis  comparativo  del  ensamblaje  del  transcriptoma  de  novo.  Ciencia  China  Vida  Ciencia.
2013;56(2):156–62.
44.  Namiki  T,  Hachiya  T,  Tanaka  H,  Sakakibara  Y.  MetaVelvet:  una  extensión  del  ensamblador  Velvet  para  ensamblar  metagen  ome  de  novo  a  
partir  de  lecturas  de  secuencia  corta.  Ácidos  Nucleicos  Res.  2012;40(20):155–155.
45.  Simpson  JT,  Durbin  R.  Ensamblaje  eficiente  de  novo  de  genomas  grandes  usando  estructuras  de  datos  comprimidas.  genoma
Res.  2012;22(3):549–56.
46.  Grabherr  MG,  Haas  BJ,  Yassour  M,  Levin  JZ,  Thompson  DA,  Amit  I,  Adiconis  X,  Fan  L,  Raychowdhury  R,  Zeng  Q,  et  al.  Ensamblaje  completo  
del  transcriptoma  a  partir  de  datos  de  RNA­Seq  sin  un  genoma  de  referencia.  Nat  Biotechnol.  2011;29(7):644–52.

47.  Li  D,  Liu  CM,  Luo  R,  Sadakane  K,  Lam  TW.  MEGAHIT:  una  solución  ultrarrápida  de  un  solo  nodo  para  ensamblaje  metagenómico  grande  y  
complejo  a  través  de  un  gráfico  de  Bruijn  sucinto.  Bioinformática.  2015;31(10):1674–6.
48.  Nurk  S,  Meleshko  D,  Korobeynikov  A,  Pevzner  PA.  metaSPAdes:  un  nuevo  ensamblador  metagenómico  versátil.
Genoma  Res.  2017;27(5):824–34.
49.  Cerveau  N.,  Jackson  DJ.  La  combinación  de  ensamblajes  de  novo  independientes  optimiza  el  transcriptoma  de  codificación  para
organismos  eucariotas  modelo  no  convencionales.  BMC  Bioinforme.  2016;17(1):525.
50.  Mirdita  M,  Steinegger  M,  Söding  J.  Aplicación  de  servidor  web  local  y  de  escritorio  MMseqs2  para  búsquedas  de  secuencias  rápidas  e  
interactivas.  Bioinformática.  2019;35(16):2856–8.
51.  El­Gebali  S,  Mistry  J,  Bateman  A,  Eddy  SR,  Luciani  A,  Potter  SC,  Qureshi  M,  Richardson  LJ,  Salazar  GA,  Smart  A,
et  al.  La  base  de  datos  de  familias  de  proteínas  de  Pfam  en  2019.  Nucleic  Acids  Res.  2019;47(D1):427–32.
52.  Haas  B,  Papanicolaou  A.  TransDecoder  identifica  regiones  codificantes  candidatas  dentro  de  secuencias  de  transcripción.  2021.
53.  Huerta­Cepas  J,  Forslund  K,  Coelho  LP,  Szklarczyk  D,  Jensen  LJ,  Von  Mering  C,  Bork  P.  Anotación  funcional  rápida  en  todo  el  genoma  a  
través  de  la  asignación  de  ortología  por  mapeador  de  eggNOG.  Mol  Biol  Evol.  2017;34(8):2115–22.
54.  Kanehisa  M,  et  al.,  La  base  de  datos  KEGG.  En:  Simposio  de  la  Fundación  Novartis,  Wiley  Online  Library;  2002.  págs.
91–100.
55.  Shannon  CE.  Una  teoría  matemática  de  la  comunicación.  Bell  Syst  Tech  J.  1948;27(3):379–423.
56.  Brown  CT,  Irber  L.  sourmash:  una  biblioteca  para  el  esbozo  de  ADN  MinHash.  J  Software  de  código  abierto.  2016;1(5):27.
57.  Jain  C,  Rodriguez­R  LM,  Phillippy  AM,  Konstantinidis  KT,  Aluru  S.  El  análisis  ANI  de  alto  rendimiento  de  genomas  procarióticos  de  90K  revela  
límites  claros  entre  especies.  Nat  Comun.  2018;9(1):1–8.
58.  Emms  DM,  Kelly  S.  OrthoFinder:  inferencia  de  ortología  filogenética  para  genómica  comparativa.  Genoma  Biol.
2019;20(1):1–14.
59.  Emms  DM,  Kelly  S.  OrthoFinder:  resolución  espectacular  de  los  sesgos  fundamentales  en  las  comparaciones  del  genoma  completo
mejora  la  precisión  de  la  inferencia  de  ortogrupos.  Genoma  Biol.  2015;16(1):1–14.
60.  Liao  Y,  Smyth  GK,  Shi  W.  El  paquete  R  Rsubread  es  más  fácil,  más  rápido,  más  barato  y  mejor  para  la  alineación  y  cuantificación  de  lecturas  
de  secuenciación  de  ARN.  Ácidos  Nucleicos  Res.  2019;47(8):47–47.
61.  Haas  BJ,  Papanicolaou  A,  Yassour  M,  Grabherr  M,  Blood  PD,  Bowden  J,  Couger  MB,  Eccles  D,  Li  B,  Lieber  M,  et  al.
Reconstrucción  de  la  secuencia  de  transcripción  de  novo  a  partir  de  RNA­seq  utilizando  la  plataforma  Trinity  para  la  generación  y  el  análisis  
de  referencias.  Protocolo  Nat.  2013;8(8):1494–512.
62.  Hölzer  M,  Marz  M.  Ensamblaje  del  transcriptoma  de  novo:  una  comparación  completa  entre  especies  de  ensambladores  de  RNA­Seq  de  
lectura  corta.  Gigaciencia.  2019;8(5):039.
63.  Bushmanova  E,  Antipov  D,  Lapidus  A,  Suvorov  V,  Prjibelski  AD.  rnaQUAST:  una  herramienta  de  evaluación  de  calidad  para  de  novo
ensamblajes  transcriptómicos.  Bioinformática.  2016;32(14):2210–2.
64.  Steinegger  M,  Söding  J.  MMseqs2  permite  la  búsqueda  de  secuencias  de  proteínas  sensibles  para  el  análisis  de  datos  masivos
conjuntos  Nat  Biotechnol.  2017;35(11):1026–8.
65.  Steinegger  M,  Söding  J.  Agrupación  de  grandes  conjuntos  de  secuencias  de  proteínas  en  tiempo  lineal.  Nat  Comun.  2018;9(1):1–8.
66.  Klemetsen  T,  Raknes  IA,  Fu  J,  Agafonov  A,  Balasundaram  SV,  Tartari  G,  Robertsen  E,  Willassen  NP.  Las  bases  de  datos  MAR:  desarrollo  e  
implementación  de  bases  de  datos  específcas  para  la  metagenómica  marina.  Ácidos  Nucleicos  Res.
2018;46(D1):692–9.
67.  Virtanen  P,  Gommers  R,  Oliphant  TE,  Haberland  M,  Reddy  T,  Cournapeau  D,  Burovski  E,  Peterson  P,  Weckesser  W,  Bright  J,  et  al.  SciPy  
1.0:  algoritmos  fundamentales  para  la  computación  científica  en  Python.  Métodos  Nat.  2020;17(3):261–72.
Machine Translated by Google

Krinos  et  al.  BMC  Bioinformática  2023,  24(1):74 Página  36  de  36

68.  Equipo  central  de  R:  R:  un  lenguaje  y  un  entorno  para  la  computación  estadística.  R  Fundación  para  la  Computación  Estadística,
Viena,  Austria.  R  Fundación  para  la  Computación  Estadística.  2021.  https://www.R­project.org/
69.  Vorobev  A,  Dupouy  M,  Carradec  Q,  Delmont  TO,  Annamalé  A,  Wincker  P,  Pelletier  E.  Reconstrucción  de  transcriptomas  y  análisis  funcional  
de  comunidades  de  plancton  marino  eucariota  mediante  metagenómica  y  metatranscriptómica  de  alto  rendimiento.  Genoma  Res.  
2020;30(4):647–59.
70.  Sunagawa  S,  Coelho  LP,  Chafron  S,  Kultima  JR,  Labadie  K,  Salazar  G,  Djahanschiri  B,  Zeller  G,  Mende  DR,  Alberti  A,  et  al.  Estructura  y  función  
del  microbioma  oceánico  global.  Ciencia.  2015;348(6237):1261359.
71.  Patro  R,  Duggal  G,  Love  MI,  Irizarry  RA,  Kingsford  C.  Salmon  proporciona  una  cuantificación  rápida  y  consciente  de  los  sesgos  de  la  expresión  
del  transcrito.  Métodos  Nat.  2017;14(4):417–9.
72.  Zerbino  DR,  Birney  E.  Velvet:  algoritmos  para  ensamblaje  de  lectura  corta  de  novo  utilizando  gráficos  de  Bruijn.  Genoma  Res.
2008;18(5):821–9.
73.  Altschul  SF,  Gish  W,  Miller  W,  Myers  EW,  Lipman  DJ.  Herramienta  básica  de  búsqueda  de  alineación  local.  J  Mol  Biol.  
1990;215(3):403–10.
74.  Van  Rossum  G,  Drake  FL  Jr.  Manual  de  referencia  de  Python.  Centrum  voor  Wiskunde  en  Informatica  Amsterdam;  1995.
75.  Kibirige  H,  Lamp  G,  Katins  J,  gdowding,  austin,  matthias­k,  Funnell  T,  Finkernagel  F,  Arnfred  J,  Blanchard  D,  Asta
nin  S,  Chiang  E,  Kishimoto  PN,  Sheehan  E,  stonebig,  Willers,  B,  Gibboni  R,  smutch,  Halchenko,  Y,  Pavel,  King,  B,  RK  M,  
Collins  J,  zachcp,  Anthony,  Koopman,  B,  Grohmann  CH,  Becker  D,  Brown  D,  Saiz  D.  Has2k1/plotnine:  V0.8.0.  https://
doi.org/10.5281/zenodo.4636791.
76.  Wickham  H.  Ggplot2:  gráficos  elegantes  para  el  análisis  de  datos.  Saltador;  2016.  (https://ggplot2.tidyverse.org).
77.  Pedersen  TL.  patchwork:  el  compositor  de  tramas.  Paquete  R  versión  1.1.1.  2020.  https://CRAN.R­project.org/packa
ge  =  mosaico
78.  Altschul  SF,  Madden  TL,  Schäfer  AA,  Zhang  J,  Zhang  Z,  Miller  W,  Lipman  DJ.  Gapped  BLAST  y  PSI­BLAST:  una  nueva  generación  de  
programas  de  búsqueda  de  bases  de  datos  de  proteínas.  Ácidos  Nucleicos  Res.  1997;25(17):3389–402.
79.  Camacho  C,  Coulouris  G,  Avagyan  V,  Ma  N,  Papadopoulos  J,  Bealer  K,  Madden  TL.  BLAST+:  arquitectura  y  aplicaciones.  BMC  Bioinforme.  
2009;10(1):1–9.
80.  Budak  H,  Kaya  SB,  Cagirici  HB.  ARN  largo  no  codificante  en  plantas  en  la  era  de  las  secuencias  de  referencia.  Ciencia  de  la  planta  frontal.
2020;11:276.
81.  Rogato  A,  Richard  H,  Sarazin  A,  Voss  B,  Navarro  SC,  Champeimont  R,  Navarro  L,  Carbone  A,  Hess  WR,  Falciatore  A.
La  diversidad  de  pequeños  ARN  no  codificantes  en  la  diatomea  Phaeodactylum  tricornutum.  Genoma  BMC.  2014;15(1):1–20.
82.  Lopez­Gomollon  S,  Beckers  M,  Rathjen  T,  Moxon  S,  Maumus  F,  Mohorianu  I,  Moulton  V,  Dalmay  T,  Mock  T.  Descubrimiento  global  y  
caracterización  de  pequeños  ARN  no  codificantes  en  microalgas  marinas.  Genoma  BMC.  2014;15(1):1–13.
83.  Canesi  KL,  Rynearson  TA.  Variación  temporal  de  la  composición  de  la  comunidad  Skeletonema  a  largo  plazo
Serie  en  Narragansett  Bay  identificada  mediante  secuenciación  de  ADN  de  alto  rendimiento.  Mar  Ecol  Prog  Ser.  2016;556:1–16.
84.  Damon  C,  Lehembre  F,  Oger­Desfeux  C,  Luis  P,  Ranger  J,  Fraissinet­Tachet  L,  Marmeisse  R.  Metatranscriptomics  revela  la  diversidad  de  genes  
expresados  por  eucariotas  en  suelos  forestales.  Más  uno.  2012;7(1):28967.
85.  Reiter  T,  Brooks  PT,  Irber  L,  Joslin  SE,  Reid  CM,  Scott  C,  Brown  CT,  Pierce­Ward  NT.  Racionalización  de  uso  intensivo  de  datos
biología  con  sistemas  de  flujo  de  trabajo.  Gigaciencia.  2021;10(1):140.
86.  Cohen  N,  Alexander  H,  Krinos  A,  Hu  SK,  Lampe  RH.  Metatranscriptómica  de  microeucariotas  marinos:  muestra  pro
recomendaciones  de  flujo  de  trabajo  de  procesamiento  y  bioinformática  para  aplicaciones  ecológicas.  Ciencias  Marinas  Delanteras.  2022;858.
87.  Gilbert  JA,  Meyer  F,  Schriml  L,  Joint  IR,  Mühling  M,  Field  D.  Metagenomas  y  metatranscriptomas  de  la  estación  de  monitoreo  costero  a  largo  
plazo  L4  en  el  Canal  de  la  Mancha  Occidental.  Soporte  Genom  Sci.  2010;3(2):183–93.
88.  Nowinski  B,  Smith  CB,  Thomas  CM,  Esson  K,  Marin  R,  Preston  CM,  Birch  JM,  Scholin  CA,  Huntemann  M,  Clum  A,  et  al.  Metagenomas  y  
metatranscriptomas  microbianos  durante  una  floración  de  fitoplancton  costero.  Datos  Cientificos.  2019;6(1):1–7.

89.  Vislova  A,  Aylward  F,  Sosa  O,  DeLong  E.  El  análisis  de  la  secuencia  del  metatranscriptoma  revela  la  periodicidad  diaria  de  la  expresión  génica  
de  la  comunidad  microbiana  en  el  interior  del  océano.  Unión  de  Am  Geophys.  2016;2016:44–0482.
90.  Ollison  GA,  Hu  SK,  Mesrop  LY,  DeLong  EF,  Caron  DA.  Llueva  o  truene:  la  profundidad,  no  la  estación,  da  forma  a  la  activa  comunidad  pro  tistán  
en  la  estación  ALOHA  en  el  Giro  Subtropical  del  Pacífico  Norte.  Deep  Sea  Res  Parte  I.  2021;170:  103494.
91.  Hu  SK,  Liu  Z,  Alexander  H,  Campbell  V,  Connell  PE,  Dyhrman  ST,  Heidelberg  KB,  Caron  DA.  Cambio  metabólico
prioridades  entre  taxones  clave  de  protistas  dentro  y  debajo  de  la  zona  eufótica.  Microbiol  Ambiental.  2018;20(8):2865–79.
92.  Vanni  C,  Schechter  MS,  Delmont  TO,  Eren  AM,  Steinegger  M,  Glöckner  FO,  Fernandez­Guerra  A.  AGNOSTOS­DB:  a
recurso  para  desbloquear  las  regiones  inexploradas  del  espacio  de  la  secuencia  de  codificación.  bioRxiv.  2021.
93.  Wagner  GP,  Kin  K,  Lynch  VJ.  Medición  de  la  abundancia  de  ARNm  usando  datos  de  RNA­seq:  la  medida  de  RPKM  es  inconsistente  entre  las  
muestras.  Teoría  Biosci.  2012;131(4):281–5.
94.  Shakya  M,  Lo  CC,  Cadena  PD.  Avances  y  desafíos  en  el  análisis  metatranscriptómico.  Geneta  delantera.  2019;904.
95.  Vanni  C,  Schechter  MS,  Acinas  SG,  Barberán  A,  Buttigieg  PL,  Casamayor  EO,  Delmont  TO,  Duarte  CM,  Eren  AM,  Finn  RD,  et  al.  Unificación  
del  espacio  de  secuencias  codificantes  microbianas  conocidas  y  desconocidas.  Elife.  2022;11:67667.
96.  Berube  P,  Giford  S,  Hurwitz  B,  Jenkins  B,  Marchetti  A,  Santoro  A.  Hoja  de  ruta  hacia  la  intercalibración  y  estandarización  de  las  mediciones  ómicas  
de  los  ácidos  nucleicos  oceánicos  en  toda  la  comunidad.  https://doi.org/10.1575/1912/28054.  https://hdl.  handle.net/1912/28054

Nota  del  editor  Springer  Nature  
se  mantiene  neutral  con  respecto  a  los  reclamos  jurisdiccionales  en  los  mapas  publicados  y  las  afiliaciones  institucionales.

También podría gustarte