Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ARTÍCULO DE INVESTIGACIÓN
miRWalk: un recurso en línea para la predicción de
sitios de unión de microARN
Carsten StichtID*, Carolina De La Torre, Alisha Parveen, Norbert Gretz
Centro de Investigación Médica, Facultad de Medicina de Mannheim, Universidad de Heidelberg, Mannheim, Alemania
* carsten.sticht@medma.uniheidelberg.de
Abstracto
Resumen: miRWalk es una plataforma de código abierto que proporciona una interfaz intuitiva que
a1111111111 genera sitios de unión a miARN predichos y validados de genes conocidos de humanos, ratones,
a1111111111 ratas, perros y vacas. El núcleo de miRWalk es la predicción del sitio de destino de miARN con el
a1111111111 software de enfoque basado en bosque aleatorio TarPmiR que busca la secuencia de transcripción
a1111111111
completa, incluidos 5'UTR, CDS y 3'UTR. Además, integra resultados de otras bases de datos
a1111111111
con interacciones objetivomiARN predichas y validadas. La atención se centra en un diseño
modular y extensible, así como en un ciclo de actualización rápido. La base de datos está
disponible usando Python, MySQL y HTML/Javascript URL de la base de datos: http://mirwalk.umm.uniheidelberg
ACCESO ABIERTO
Cita: Sticht C, De La Torre C, Parveen A, Gretz N (2018)
miRWalk: un recurso en línea para la predicción de
sitios de unión de microARN. PLoS ONE 13(10): e0206239. Introducción
https://doi.org/10.1371/journal. teléfono.0206239
Los microARN (miARN) son moléculas pequeñas de ARN no codificante de 21 a 25 nucleótidos de longitud de
base. Están involucrados en la regulación de la expresión génica mediante la alineación con el gen diana, lo que da
Editor: Moray Campbell, Universidad Estatal de Ohio,
ESTADOS UNIDOS
como resultado la escisión o la represión de los genes diana a nivel postranscripcional [1]. Desempeñan funciones
reguladoras importantes en muchos procesos biológicos, incluida la diferenciación, el metabolismo, el desarrollo y la
Recibido: 15 de junio de 2018
señalización celular. Por lo tanto, la identificación de objetivos genéticos es importante para la caracterización
Aceptado: 9 de octubre de 2018 funcional de los miARN y brinda nuevos conocimientos sobre los procesos biológicos que podrían conducir a
Publicado: 18 de octubre de 2018
biomarcadores y predictores de la respuesta farmacológica para la enfermedad. Los procesos para la identificación
y validación de dianas de microARN en el laboratorio son en su mayoría lentos y costosos.
Derechos de autor: © 2018 Sticht et al. Este es un
Estas limitaciones han llevado al desarrollo de enfoques computacionales sofisticados de predicciones de objetivos
artículo de acceso abierto distribuido bajo los términos de
Creative Commons Attribution License, que permite el
de microARN que permiten reducir los objetivos potenciales para la validación experimental.
uso, la distribución y la reproducción sin restricciones
en cualquier medio, siempre que se acredite el autor original Ya se han desarrollado varios métodos computacionales para identificar genes diana. Alguno
y la fuente.
Los métodos se basan en la conservación de los sitios de unión (p. ej., TargetScan) [2], otros se basan en la
Declaración de disponibilidad de datos: se puede accesibilidad del sitio y las propiedades termodinámicas para filtrar los sitios de unión de las semillas (p. ej., miRanda) [2].
acceder a todos los datos a través del sitio web http:// Los algoritmos de predicción utilizan una combinación de diferentes características para aumentar su precisión y
mirwalk.umm.uni heidelberg.de. Los conjuntos completos compensar las limitaciones de las características individuales. Sin embargo, todavía existe la necesidad de una tasa
se pueden descargar en "Recursos".
precisa con un enfoque computacional de alta sensibilidad necesario para superar el problema generado por el
Financiamiento: El/los autor(es) no recibieron financiamiento algoritmo tradicional. Los algoritmos basados en aprendizaje automático se basan en la parametrización de datos
específico para este trabajo. biológicos y otras características predichas y están creciendo en una nueva era en genómica. Esta técnica es
Conflicto de intereses: Los autores han declarado que no utilizada por muchos algoritmos de predicción que generan una interacción miARNalquitrán validada con mayor
existen conflictos de intereses. precisión (por ejemplo, TarpmiR, miRGen++, MBSTAR) [3–5].
PLOS UNO | https://doi.org/10.1371/journal.pone.0206239 18 de octubre de 2018 dieciséis
Machine Translated by Google
miRWalk: un recurso en línea para la predicción de sitios de unión de microARN
Basado en el algoritmo de precisión de predicción y el hecho de que la mayoría de las bases de datos de predicción
no se actualizaron durante algunos años, hemos decidido lanzar una técnica basada en el aprendizaje de última
generación con nuevas funciones y transferir al repositorio de miRWalk a otro servidor en un nuevo marco para
aumentar la precisión y la sensibilidad, lo que permite el uso exhaustivo de otra aplicación en este estudio.
Implementación
Recuperación de datos
Todas las secuencias de ARNm y otra información necesaria (p. ej., EnterID, longitud de ARNm y CDS, ubicación y
definición de genes) de todos los genes conocidos de humanos, ratones, ratas, vacas y perros se extrajeron de la
base de datos del NCBI. Las secuencias de miARN y otra información (p. ej., nombre de Sanger, MIID, ubicación
genómica de miARN, secuencia de bucle de tallo y otros números de acceso como bucle de tallo y secuencia
madura) se descargaron de miRBase (versión 21) [6] .
Los conjuntos de datos TargetScan (puntuaciones de contexto de sitio conservadas, versión 7.1), miRDB (versión
5.0) y la información con fecha válida de miRTarBase (versión 7.0) [7] también se incorporaron al marco miRWalk.
Estas plataformas se eligieron en función de su popularidad y precisión en la predicción de la interacción.
Ejecución
Luego, la predicción de objetivos se realizó con el algoritmo TarPmiR, que se desarrolló mediante el análisis de datos
de perfiles de expresión de alto rendimiento en un marco de bosque aleatorio (mirdb9).
Con datos genómicos actualizados y el algoritmo TarPmiR, hemos realizado la predicción de objetivos de miARN en
todo el genoma para todas las transcripciones conocidas (incluidas todas las isoformas) de cinco especies: humanos,
ratones, ratas, perros y vacas. La predicción de datos se realizó en un clúster de computación de alto rendimiento bwHPC
(BadenWurttemberg High Performance Cluster). Todos los datos de predicción de objetivos, así como las anotaciones
genómicas asociadas, se importaron a una base de datos MySQL de backend para la presentación web. Los usuarios
pueden buscar resultados precompilados a través de la interfaz web de miRWalk, utilizando términos de búsqueda de
objetivos genéticos o de miARN. En particular, los usuarios tienen la flexibilidad de buscar un solo objetivo de miARN/
gen, o una combinación de múltiples objetivos de miARN/gen.
Implementación del sitio web El sitio
web de miRWalk se implementó utilizando el marco web Python Django que se ejecuta sobre una base de datos MySQL.
La biblioteca Javascript D3.js se utilizó para visualizaciones y funciones interactivas de interacción. El sistema se
implementa en la plataforma heiCloud con 16 G de RAM y CPU de procesador de 8 núcleos. El rendimiento de la
visualización de la red depende del navegador del usuario. miRWalk ha sido probado con los principales navegadores
modernos como Google Chrome (60+), Mozilla Firefox (50+) y Microsoft Internet Explorer (10+). Para una mejor
experiencia, recomendamos a los usuarios que accedan a miRWalk usando la última versión del navegador Firefox o
Chrome desde una computadora con al menos 4G de RAM y una resolución de pantalla de 1280 × 800.
Actualización de la base
de datos La base de datos ha sido y es actualizada dos veces al año. Para este propósito, se escribieron diez scripts
especiales en Python 3, que descargan automáticamente todos los datos y archivos necesarios, los procesan y los
guardan en los formatos y tablas apropiados. La predicción real de las interacciones del gen miARN con TarPmiR (la
parte que consume más tiempo) se realiza luego en un servidor de cuadrícula y
PLOS UNO | https://doi.org/10.1371/journal.pone.0206239 18 de octubre de 2018 2 / 6
Machine Translated by Google
miRWalk: un recurso en línea para la predicción de sitios de unión de microARN
los resultados finalmente se integran en la base de datos miRWalk. Así, la base de datos completa se actualiza
cada 6 meses.
interfaz web
Buscar un solo gen/miARN Los usuarios
pueden proporcionar una sola entrada de ID de miARN (p. ej., hsamiR2143p) o números de acceso (p. ej.,
MIMAT0000271) basado en la versión actual de miRBase mediante la selección de especies. Durante la búsqueda
de miARN individuales, también son aceptables los nombres cortos o la familia de miARN (p. ej., let7) que
pertenecen a varios miARN. En el caso de ARNm, los usuarios pueden usar la siguiente ID para buscar información
de interacción de entrada: Símbolos de genes (p. ej., GAS2), EnterID (p. ej., 10608), EnsemblID (p. ej.,
ENSG00000148935 o ENST00000454584) y RefseqID (por ejemplo, NM_001143830) y haga clic en la opción de
búsqueda para ejecutar la entrada de consulta.
Buscar un conjunto de genes / miRNAs Target
Mining proporciona una opción de búsqueda avanzada para varios miRNAs o genes objetivos.
Los usuarios pueden cargar miARN o lista de genes. Al buscar interacciones de dianas de genes de miARN, se
requieren nombres de miARN completos y maduros. Para la búsqueda de reguladores de miARN, puede proporcionar
identificaciones de genes NCBI o símbolos de genes oficiales.
Salida de búsqueda. Después de buscar interacciones objetivo, hay diferentes opciones disponibles para
filtrado de los datos de salida generados (Fig. 1):
A. miRNAID o GeneID: muestran solo las interacciones de este miRNA o gen generado en las columnas iniciales. Los
usuarios pueden elegir EnsemblID (por ejemplo, ENSG) o símbolos genéticos oficiales.
b. Puntuación: ajústelo para filtrar todos los resultados con un mínimo de probabilidad vinculante junto con la
posición vinculante (3UTR, CDS, 5UTR) con una sola entrada. La puntuación se calcula a partir de un enfoque
basado en bosques aleatorios mediante la ejecución del algoritmo TarPmiR para la predicción del sitio objetivo
de miARN.
contra Otros algoritmos populares, como miRDB o Target Scan, están disponibles para comparar con los resultados.
Solo para resultados validados, los usuarios pueden elegir miRTarBase como opción de filtro.
Exportar datos. Los usuarios pueden descargar el resultado de la búsqueda de consultas en formato de texto sin
formato (formato separado por comas (.csv)). La lista de funciones de interacción calculada con TarPmiR se guarda en
la tabla exportada.
Ver nodo gráfico. La interacción entre el gen diana y el miARN se puede mostrar como un gráfico de nodos
producido con la biblioteca javascript d3.js (Fig. 2). Para redes grandes, recomendamos una computadora potente, ya
que los gráficos se calculan en el lado del cliente. Hemos limitado el número de nodos hasta 10.000.
GSEA. El análisis de enriquecimiento de conjuntos de genes (GSEA) es para probar si algún grupo funcional de
genes (p. ej., vías, objetivo de un factor de transcripción) de la lista seleccionada por el usuario está significativamente
enriquecido entre esos genes de interés. miRWalk ofrece un análisis de enriquecimiento estándar basado en las pruebas
hipergeométricas (algoritmo de selección de chicuadrado).
Discusión
Se han desarrollado muchas técnicas computacionales para predecir genes objetivo de miARN y se están
introduciendo múltiples características para ayudar a identificar sus genes objetivo, como la complementariedad de
diferentes regiones en miARN, la conservación del sitio de unión o la accesibilidad de los sitios objetivo.
PLOS UNO | https://doi.org/10.1371/journal.pone.0206239 18 de octubre de 2018 3 / 6
Machine Translated by Google
miRWalk: un recurso en línea para la predicción de sitios de unión de microARN
Fig 1. Descripción general de la salida de la consulta. Descripción general de los resultados obtenidos después de consultar varios genes
objetivo. Se pueden configurar varias opciones de filtro para refinar el resultado de la consulta. El resultado de la tabla consta de varios enlaces
a otras bases de datos: miRBase (miRNAID), Ensemble (Ensembl Transcript ID) y NCBI (Genesymbols).
https://doi.org/10.1371/journal.pone.0206239.g001
Los diferentes algoritmos predictivos se basan en diferentes características; por lo tanto, la integración de
varios algoritmos puede mejorar la predicción de objetivos. Nuestra estrategia para mejorar la base de datos
miRWalk [8] fue incluir los resultados de predicción de varios algoritmos diferentes para cubrir todos estos
factores y obtener una mayor precisión en la predicción de las interacciones del gen diana de miARN. Para eso,
Fig. 2. Trazado gráfico de red. La interacción entre el gen diana y el miARN se puede mostrar como un gráfico de nodos. El gráfico se puede exportar
en formato SVG, PNG o PDF.
https://doi.org/10.1371/journal.pone.0206239.g002
PLOS UNO | https://doi.org/10.1371/journal.pone.0206239 18 de octubre de 2018 4 / 6
Machine Translated by Google
miRWalk: un recurso en línea para la predicción de sitios de unión de microARN
La implementación de TarPmiR fue de gran importancia ya que aplica un enfoque de aprendizaje basado en
bosques aleatorios para integrar la mayoría de estas características para predecir los sitios objetivo de
miRNA y, además, ofrece la posibilidad de ampliar la clase de unión e incluir nuevas características.
Conclusión
La base de datos miRWalk proporciona información actualizada sobre las interacciones entre genes y miARN.
Con una interfaz claramente estructurada e intuitiva, los usuarios pueden capturar datos de manera rápida y
exitosa, realizar análisis estadísticos y visualizar y descargar redes GenemiRNA. La disponibilidad libre y la
actualización persistente de los datos es un factor de enorme importancia, especialmente en la ciencia.
miRWalk (versión 1) comenzó en 2011 y se actualiza y desarrolla constantemente. Este enfoque integrador
permite a los usuarios identificar fácilmente objetivos de miARN importantes para comprender mejor las
funciones de varios miARN y optimizar sus objetivos genéticos.
Agradecimientos Agradecemos
a bwHPC Cluster BadenWürttemberg por permitirnos utilizar sus instalaciones de supercomputación para una
identificación y cálculo más rápidos de los datos de interacción de miARN. Nos gustaría agradecerle la
posibilidad de utilizar el almacenamiento de datos para la ciencia (SDS@HD) y el sistema miRWalk en heiCloud
del centro de datos de Heidelberg (URZ).
Contribuciones de autor
Conceptualización: Carsten Sticht, Norbert Gretz.
Curación de datos: Carsten Sticht, Carolina De La Torre.
Metodología: Carsten Sticht.
Administración del proyecto: Norbert Gretz.
Recursos: Carolina De La Torre, Alisha Parveen.
Software: Carsten Sticht, Alisha Parveen.
Supervisor: Norbert Gretz.
Redacción – borrador original: Carsten Sticht.
Redacción, revisión y edición: Carolina De La Torre, Alisha Parveen, Norbert Gretz.
Referencias
1. Xu J, Zhang R, Shen Y, Liu G, Lu X, Wu CI. La evolución de la capacidad de evolución en sitios diana de microARN en
vertebrados. Investigación del genoma. 2013; 23(11):1810–6. https://doi.org/10.1101/gr.148916.112 PMID:
24077390; PMCID central de PubMed: PMC3814881.
2. Agarwal V, Bell GW, Nam JW, Bartel DP. Predicción de sitios diana efectivos de microARN en mamíferos
ARNm. eLife. 2015; 4. https://doi.org/10.7554/eLife.05005 PMID: 26267216; PMCID central de PubMed: PMC4532895.
3. Bandyopadhyay S, Ghosh D, Mitra R, Zhao Z. MBSTAR: aprendizaje de instancias múltiples para predecir sitios de
unión funcionales específicos en objetivos de microARN. Informes científicos. 2015; 5:8004. https://doi.org/10.
1038/srep08004 PMID: 25614300; PMCID central de PubMed: PMC4648438.
4. Ding J, Li X, Hu H. TarPmiR: un nuevo enfoque para la predicción del sitio objetivo de microARN. Bioinformática. 2016;
32(18):2768–75. https://doi.org/10.1093/bioinformatics/btw318 PMID: 27207945; PMCID central de PubMed:
PMC5018371.
5. Huang JC, Babak T, Corson TW, Chua G, Khan S, Gallie BL, et al. Uso de datos de perfiles de expresión para
identificar objetivos de microARN humanos. Métodos de la naturaleza. 2007; 4(12):1045–9. https://doi.org/
10.1038/nmeth1130 _ PMID: 18026111.
PLOS UNO | https://doi.org/10.1371/journal.pone.0206239 18 de octubre de 2018 5 / 6
Machine Translated by Google
miRWalk: un recurso en línea para la predicción de sitios de unión de microARN
6. GriffithsJones S. miRBase: secuencias de microARN y anotación. Protocolos actuales en bioinformática.
2010; Capítulo 12: Unidad 12 9 1–0. https://doi.org/10.1002/0471250953.bi1209s29 PMID: 20205188.
7. Chou CH, Shrestha S, Yang CD, Chang NW, Lin YL, Liao KW, et al. Actualización de miRTarBase 2018: un
recurso para interacciones microARNobjetivo validadas experimentalmente. Investigación de ácidos nucleicos.
2017. https://doi.org/10.1093/nar/gkx1067 PMID: 29126174.
8. Dweep H, Gretz N, Sticht C. base de datos miRWalk para interacciones miRNAobjetivo. Métodos en biología molecular.
2014; 1182:289–305. https://doi.org/10.1007/9781493910625_25 PMID: 25055920.
PLOS UNO | https://doi.org/10.1371/journal.pone.0206239 18 de octubre de 2018 6 / 6