Está en la página 1de 6

Machine Translated by Google

ARTÍCULO  DE  INVESTIGACIÓN

miRWalk:  un  recurso  en  línea  para  la  predicción  de  
sitios  de  unión  de  microARN
Carsten  StichtID*,  Carolina  De  La  Torre,  Alisha  Parveen,  Norbert  Gretz
Centro  de  Investigación  Médica,  Facultad  de  Medicina  de  Mannheim,  Universidad  de  Heidelberg,  Mannheim,  Alemania

*  carsten.sticht@medma.uni­heidelberg.de

Abstracto
Resumen:  miRWalk  es  una  plataforma  de  código  abierto  que  proporciona  una  interfaz  intuitiva  que  

a1111111111 genera  sitios  de  unión  a  miARN  predichos  y  validados  de  genes  conocidos  de  humanos,  ratones,  
a1111111111 ratas,  perros  y  vacas.  El  núcleo  de  miRWalk  es  la  predicción  del  sitio  de  destino  de  miARN  con  el  
a1111111111 software  de  enfoque  basado  en  bosque  aleatorio  TarPmiR  que  busca  la  secuencia  de  transcripción  
a1111111111
completa,  incluidos  5'­UTR,  CDS  y  3'­UTR.  Además,  integra  resultados  de  otras  bases  de  datos  
a1111111111
con  interacciones  objetivo­miARN  predichas  y  validadas.  La  atención  se  centra  en  un  diseño  
modular  y  extensible,  así  como  en  un  ciclo  de  actualización  rápido.  La  base  de  datos  está  
disponible  usando  Python,  MySQL  y  HTML/Javascript  URL  de  la  base  de  datos:  http://mirwalk.umm.uni­heidelberg

ACCESO  ABIERTO

Cita:  Sticht  C,  De  La  Torre  C,  Parveen  A,  Gretz  N  (2018)  

miRWalk:  un  recurso  en  línea  para  la  predicción  de  

sitios  de  unión  de  microARN.  PLoS  ONE  13(10):  e0206239.   Introducción
https://doi.org/10.1371/journal.  teléfono.0206239
Los  microARN  (miARN)  son  moléculas  pequeñas  de  ARN  no  codificante  de  21  a  25  nucleótidos  de  longitud  de  
base.  Están  involucrados  en  la  regulación  de  la  expresión  génica  mediante  la  alineación  con  el  gen  diana,  lo  que  da  
Editor:  Moray  Campbell,  Universidad  Estatal  de  Ohio,
ESTADOS  UNIDOS
como  resultado  la  escisión  o  la  represión  de  los  genes  diana  a  nivel  postranscripcional  [1].  Desempeñan  funciones  
reguladoras  importantes  en  muchos  procesos  biológicos,  incluida  la  diferenciación,  el  metabolismo,  el  desarrollo  y  la  
Recibido:  15  de  junio  de  2018
señalización  celular.  Por  lo  tanto,  la  identificación  de  objetivos  genéticos  es  importante  para  la  caracterización  
Aceptado:  9  de  octubre  de  2018 funcional  de  los  miARN  y  brinda  nuevos  conocimientos  sobre  los  procesos  biológicos  que  podrían  conducir  a  

Publicado:  18  de  octubre  de  2018
biomarcadores  y  predictores  de  la  respuesta  farmacológica  para  la  enfermedad.  Los  procesos  para  la  identificación  
y  validación  de  dianas  de  microARN  en  el  laboratorio  son  en  su  mayoría  lentos  y  costosos.
Derechos  de  autor:  ©  2018  Sticht  et  al.  Este  es  un  
Estas  limitaciones  han  llevado  al  desarrollo  de  enfoques  computacionales  sofisticados  de  predicciones  de  objetivos  
artículo  de  acceso  abierto  distribuido  bajo  los  términos  de  

Creative  Commons  Attribution  License,  que  permite  el  
de  microARN  que  permiten  reducir  los  objetivos  potenciales  para  la  validación  experimental.

uso,  la  distribución  y  la  reproducción  sin  restricciones  

en  cualquier  medio,  siempre  que  se  acredite  el  autor  original   Ya  se  han  desarrollado  varios  métodos  computacionales  para  identificar  genes  diana.  Alguno
y  la  fuente.
Los  métodos  se  basan  en  la  conservación  de  los  sitios  de  unión  (p.  ej.,  TargetScan)  [2],  otros  se  basan  en  la  

Declaración  de  disponibilidad  de  datos:  se  puede   accesibilidad  del  sitio  y  las  propiedades  termodinámicas  para  filtrar  los  sitios  de  unión  de  las  semillas  (p.  ej.,  miRanda)  [2].
acceder  a  todos  los  datos  a  través  del  sitio  web  http:// Los  algoritmos  de  predicción  utilizan  una  combinación  de  diferentes  características  para  aumentar  su  precisión  y  
mirwalk.umm.uni  heidelberg.de.  Los  conjuntos  completos   compensar  las  limitaciones  de  las  características  individuales.  Sin  embargo,  todavía  existe  la  necesidad  de  una  tasa  
se  pueden  descargar  en  "Recursos".
precisa  con  un  enfoque  computacional  de  alta  sensibilidad  necesario  para  superar  el  problema  generado  por  el  
Financiamiento:  El/los  autor(es)  no  recibieron  financiamiento   algoritmo  tradicional.  Los  algoritmos  basados  en  aprendizaje  automático  se  basan  en  la  parametrización  de  datos  
específico  para  este  trabajo. biológicos  y  otras  características  predichas  y  están  creciendo  en  una  nueva  era  en  genómica.  Esta  técnica  es  

Conflicto  de  intereses:  Los  autores  han  declarado  que  no   utilizada  por  muchos  algoritmos  de  predicción  que  generan  una  interacción  miARN­alquitrán  validada  con  mayor  
existen  conflictos  de  intereses. precisión  (por  ejemplo,  TarpmiR,  miRGen++,  MBSTAR)  [3–5].

PLOS  UNO  |  https://doi.org/10.1371/journal.pone.0206239  18  de  octubre  de  2018 dieciséis
Machine Translated by Google

miRWalk:  un  recurso  en  línea  para  la  predicción  de  sitios  de  unión  de  microARN

Basado  en  el  algoritmo  de  precisión  de  predicción  y  el  hecho  de  que  la  mayoría  de  las  bases  de  datos  de  predicción
no  se  actualizaron  durante  algunos  años,  hemos  decidido  lanzar  una  técnica  basada  en  el  aprendizaje  de  última  
generación  con  nuevas  funciones  y  transferir  al  repositorio  de  miRWalk  a  otro  servidor  en  un  nuevo  marco  para  
aumentar  la  precisión  y  la  sensibilidad,  lo  que  permite  el  uso  exhaustivo  de  otra  aplicación  en  este  estudio.

Implementación
Recuperación  de  datos

Todas  las  secuencias  de  ARNm  y  otra  información  necesaria  (p.  ej.,  EnterID,  longitud  de  ARNm  y  CDS,  ubicación  y  
definición  de  genes)  de  todos  los  genes  conocidos  de  humanos,  ratones,  ratas,  vacas  y  perros  se  extrajeron  de  la  
base  de  datos  del  NCBI.  Las  secuencias  de  miARN  y  otra  información  (p.  ej.,  nombre  de  Sanger,  MIID,  ubicación  
genómica  de  miARN,  secuencia  de  bucle  de  tallo  y  otros  números  de  acceso  como  bucle  de  tallo  y  secuencia  
madura)  se  descargaron  de  miRBase  (versión  21)  [6] .
Los  conjuntos  de  datos  TargetScan  (puntuaciones  de  contexto  de  sitio  conservadas,  versión  7.1),  miRDB  (versión  
5.0)  y  la  información  con  fecha  válida  de  miRTarBase  (versión  7.0)  [7]  también  se  incorporaron  al  marco  miRWalk.  
Estas  plataformas  se  eligieron  en  función  de  su  popularidad  y  precisión  en  la  predicción  de  la  interacción.

Ejecución

Luego,  la  predicción  de  objetivos  se  realizó  con  el  algoritmo  TarPmiR,  que  se  desarrolló  mediante  el  análisis  de  datos  
de  perfiles  de  expresión  de  alto  rendimiento  en  un  marco  de  bosque  aleatorio  (mirdb9).
Con  datos  genómicos  actualizados  y  el  algoritmo  TarPmiR,  hemos  realizado  la  predicción  de  objetivos  de  miARN  en  
todo  el  genoma  para  todas  las  transcripciones  conocidas  (incluidas  todas  las  isoformas)  de  cinco  especies:  humanos,  
ratones,  ratas,  perros  y  vacas.  La  predicción  de  datos  se  realizó  en  un  clúster  de  computación  de  alto  rendimiento  bwHPC  
(Baden­Wurttemberg  High  Performance  Cluster).  Todos  los  datos  de  predicción  de  objetivos,  así  como  las  anotaciones  
genómicas  asociadas,  se  importaron  a  una  base  de  datos  MySQL  de  back­end  para  la  presentación  web.  Los  usuarios  
pueden  buscar  resultados  precompilados  a  través  de  la  interfaz  web  de  miRWalk,  utilizando  términos  de  búsqueda  de  
objetivos  genéticos  o  de  miARN.  En  particular,  los  usuarios  tienen  la  flexibilidad  de  buscar  un  solo  objetivo  de  miARN/
gen,  o  una  combinación  de  múltiples  objetivos  de  miARN/gen.

Implementación  del  sitio  web  El  sitio  

web  de  miRWalk  se  implementó  utilizando  el  marco  web  Python  Django  que  se  ejecuta  sobre  una  base  de  datos  MySQL.  
La  biblioteca  Javascript  D3.js  se  utilizó  para  visualizaciones  y  funciones  interactivas  de  interacción.  El  sistema  se  
implementa  en  la  plataforma  heiCloud  con  16  G  de  RAM  y  CPU  de  procesador  de  8  núcleos.  El  rendimiento  de  la  
visualización  de  la  red  depende  del  navegador  del  usuario.  miRWalk  ha  sido  probado  con  los  principales  navegadores  
modernos  como  Google  Chrome  (60+),  Mozilla  Firefox  (50+)  y  Microsoft  Internet  Explorer  (10+).  Para  una  mejor  
experiencia,  recomendamos  a  los  usuarios  que  accedan  a  miRWalk  usando  la  última  versión  del  navegador  Firefox  o  
Chrome  desde  una  computadora  con  al  menos  4G  de  RAM  y  una  resolución  de  pantalla  de  1280  ×  800.

Actualización  de  la  base  

de  datos  La  base  de  datos  ha  sido  y  es  actualizada  dos  veces  al  año.  Para  este  propósito,  se  escribieron  diez  scripts  
especiales  en  Python  3,  que  descargan  automáticamente  todos  los  datos  y  archivos  necesarios,  los  procesan  y  los  
guardan  en  los  formatos  y  tablas  apropiados.  La  predicción  real  de  las  interacciones  del  gen  miARN  con  TarPmiR  (la  
parte  que  consume  más  tiempo)  se  realiza  luego  en  un  servidor  de  cuadrícula  y

PLOS  UNO  |  https://doi.org/10.1371/journal.pone.0206239  18  de  octubre  de  2018 2 /  6
Machine Translated by Google

miRWalk:  un  recurso  en  línea  para  la  predicción  de  sitios  de  unión  de  microARN

los  resultados  finalmente  se  integran  en  la  base  de  datos  miRWalk.  Así,  la  base  de  datos  completa  se  actualiza  
cada  6  meses.

interfaz  web
Buscar  un  solo  gen/miARN  Los  usuarios  

pueden  proporcionar  una  sola  entrada  de  ID  de  miARN  (p.  ej.,  hsa­miR­214­3p)  o  números  de  acceso  (p.  ej.,
MIMAT0000271)  basado  en  la  versión  actual  de  miRBase  mediante  la  selección  de  especies.  Durante  la  búsqueda  
de  miARN  individuales,  también  son  aceptables  los  nombres  cortos  o  la  familia  de  miARN  (p.  ej.,  let­7)  que  
pertenecen  a  varios  miARN.  En  el  caso  de  ARNm,  los  usuarios  pueden  usar  la  siguiente  ID  para  buscar  información  
de  interacción  de  entrada:  Símbolos  de  genes  (p.  ej.,  GAS2),  EnterID  (p.  ej.,  10608),  Ensembl­ID  (p.  ej.,
ENSG00000148935  o  ENST00000454584)  y  RefseqID  (por  ejemplo,  NM_001143830)  y  haga  clic  en  la  opción  de  
búsqueda  para  ejecutar  la  entrada  de  consulta.

Buscar  un  conjunto  de  genes /  miRNAs  Target  

Mining  proporciona  una  opción  de  búsqueda  avanzada  para  varios  miRNAs  o  genes  objetivos.
Los  usuarios  pueden  cargar  miARN  o  lista  de  genes.  Al  buscar  interacciones  de  dianas  de  genes  de  miARN,  se  
requieren  nombres  de  miARN  completos  y  maduros.  Para  la  búsqueda  de  reguladores  de  miARN,  puede  proporcionar  
identificaciones  de  genes  NCBI  o  símbolos  de  genes  oficiales.
Salida  de  búsqueda.  Después  de  buscar  interacciones  objetivo,  hay  diferentes  opciones  disponibles  para
filtrado  de  los  datos  de  salida  generados  (Fig.  1):

A.  miRNA­ID  o  GeneID:  muestran  solo  las  interacciones  de  este  miRNA  o  gen  generado  en  las  columnas  iniciales.  Los  
usuarios  pueden  elegir  Ensembl­ID  (por  ejemplo,  ENSG)  o  símbolos  genéticos  oficiales.

b.  Puntuación:  ajústelo  para  filtrar  todos  los  resultados  con  un  mínimo  de  probabilidad  vinculante  junto  con  la  
posición  vinculante  (3UTR,  CDS,  5UTR)  con  una  sola  entrada.  La  puntuación  se  calcula  a  partir  de  un  enfoque  
basado  en  bosques  aleatorios  mediante  la  ejecución  del  algoritmo  TarPmiR  para  la  predicción  del  sitio  objetivo  
de  miARN.

contra  Otros  algoritmos  populares,  como  miRDB  o  Target  Scan,  están  disponibles  para  comparar  con  los  resultados.  
Solo  para  resultados  validados,  los  usuarios  pueden  elegir  miRTarBase  como  opción  de  filtro.

Exportar  datos.  Los  usuarios  pueden  descargar  el  resultado  de  la  búsqueda  de  consultas  en  formato  de  texto  sin  
formato  (formato  separado  por  comas  (.csv)).  La  lista  de  funciones  de  interacción  calculada  con  TarPmiR  se  guarda  en  
la  tabla  exportada.
Ver  nodo  gráfico.  La  interacción  entre  el  gen  diana  y  el  miARN  se  puede  mostrar  como  un  gráfico  de  nodos  
producido  con  la  biblioteca  javascript  d3.js  (Fig.  2).  Para  redes  grandes,  recomendamos  una  computadora  potente,  ya  
que  los  gráficos  se  calculan  en  el  lado  del  cliente.  Hemos  limitado  el  número  de  nodos  hasta  10.000.

GSEA.  El  análisis  de  enriquecimiento  de  conjuntos  de  genes  (GSEA)  es  para  probar  si  algún  grupo  funcional  de  
genes  (p.  ej.,  vías,  objetivo  de  un  factor  de  transcripción)  de  la  lista  seleccionada  por  el  usuario  está  significativamente  
enriquecido  entre  esos  genes  de  interés.  miRWalk  ofrece  un  análisis  de  enriquecimiento  estándar  basado  en  las  pruebas  
hipergeométricas  (algoritmo  de  selección  de  chi­cuadrado).

Discusión
Se  han  desarrollado  muchas  técnicas  computacionales  para  predecir  genes  objetivo  de  miARN  y  se  están  
introduciendo  múltiples  características  para  ayudar  a  identificar  sus  genes  objetivo,  como  la  complementariedad  de  
diferentes  regiones  en  miARN,  la  conservación  del  sitio  de  unión  o  la  accesibilidad  de  los  sitios  objetivo.

PLOS  UNO  |  https://doi.org/10.1371/journal.pone.0206239  18  de  octubre  de  2018 3 /  6
Machine Translated by Google

miRWalk:  un  recurso  en  línea  para  la  predicción  de  sitios  de  unión  de  microARN

Fig  1.  Descripción  general  de  la  salida  de  la  consulta.  Descripción  general  de  los  resultados  obtenidos  después  de  consultar  varios  genes  
objetivo.  Se  pueden  configurar  varias  opciones  de  filtro  para  refinar  el  resultado  de  la  consulta.  El  resultado  de  la  tabla  consta  de  varios  enlaces  
a  otras  bases  de  datos:  miRBase  (miRNA­ID),  Ensemble  (Ensembl  Transcript  ID)  y  NCBI  (Genesymbols).

https://doi.org/10.1371/journal.pone.0206239.g001

Los  diferentes  algoritmos  predictivos  se  basan  en  diferentes  características;  por  lo  tanto,  la  integración  de  
varios  algoritmos  puede  mejorar  la  predicción  de  objetivos.  Nuestra  estrategia  para  mejorar  la  base  de  datos  
miRWalk  [8]  fue  incluir  los  resultados  de  predicción  de  varios  algoritmos  diferentes  para  cubrir  todos  estos  
factores  y  obtener  una  mayor  precisión  en  la  predicción  de  las  interacciones  del  gen  diana  de  miARN.  Para  eso,

Fig.  2.  Trazado  gráfico  de  red.  La  interacción  entre  el  gen  diana  y  el  miARN  se  puede  mostrar  como  un  gráfico  de  nodos.  El  gráfico  se  puede  exportar  
en  formato  SVG,  PNG  o  PDF.

https://doi.org/10.1371/journal.pone.0206239.g002

PLOS  UNO  |  https://doi.org/10.1371/journal.pone.0206239  18  de  octubre  de  2018 4 /  6
Machine Translated by Google

miRWalk:  un  recurso  en  línea  para  la  predicción  de  sitios  de  unión  de  microARN

La  implementación  de  TarPmiR  fue  de  gran  importancia  ya  que  aplica  un  enfoque  de  aprendizaje  basado  en  
bosques  aleatorios  para  integrar  la  mayoría  de  estas  características  para  predecir  los  sitios  objetivo  de  
miRNA  y,  además,  ofrece  la  posibilidad  de  ampliar  la  clase  de  unión  e  incluir  nuevas  características.

Conclusión
La  base  de  datos  miRWalk  proporciona  información  actualizada  sobre  las  interacciones  entre  genes  y  miARN.  
Con  una  interfaz  claramente  estructurada  e  intuitiva,  los  usuarios  pueden  capturar  datos  de  manera  rápida  y  
exitosa,  realizar  análisis  estadísticos  y  visualizar  y  descargar  redes  Gene­miRNA.  La  disponibilidad  libre  y  la  
actualización  persistente  de  los  datos  es  un  factor  de  enorme  importancia,  especialmente  en  la  ciencia.  
miRWalk  (versión  1)  comenzó  en  2011  y  se  actualiza  y  desarrolla  constantemente.  Este  enfoque  integrador  
permite  a  los  usuarios  identificar  fácilmente  objetivos  de  miARN  importantes  para  comprender  mejor  las  
funciones  de  varios  miARN  y  optimizar  sus  objetivos  genéticos.

Agradecimientos  Agradecemos  

a  bwHPC  Cluster  Baden­Württemberg  por  permitirnos  utilizar  sus  instalaciones  de  supercomputación  para  una  
identificación  y  cálculo  más  rápidos  de  los  datos  de  interacción  de  miARN.  Nos  gustaría  agradecerle  la  
posibilidad  de  utilizar  el  almacenamiento  de  datos  para  la  ciencia  (SDS@HD)  y  el  sistema  miRWalk  en  heiCloud  
del  centro  de  datos  de  Heidelberg  (URZ).

Contribuciones  de  autor
Conceptualización:  Carsten  Sticht,  Norbert  Gretz.

Curación  de  datos:  Carsten  Sticht,  Carolina  De  La  Torre.

Metodología:  Carsten  Sticht.

Administración  del  proyecto:  Norbert  Gretz.

Recursos:  Carolina  De  La  Torre,  Alisha  Parveen.

Software:  Carsten  Sticht,  Alisha  Parveen.

Supervisor:  Norbert  Gretz.

Redacción  –  borrador  original:  Carsten  Sticht.

Redacción,  revisión  y  edición:  Carolina  De  La  Torre,  Alisha  Parveen,  Norbert  Gretz.

Referencias
1.  Xu  J,  Zhang  R,  Shen  Y,  Liu  G,  Lu  X,  Wu  CI.  La  evolución  de  la  capacidad  de  evolución  en  sitios  diana  de  microARN  en  
vertebrados.  Investigación  del  genoma.  2013;  23(11):1810–6.  https://doi.org/10.1101/gr.148916.112  PMID:  
24077390;  PMCID  central  de  PubMed:  PMC3814881.

2.  Agarwal  V,  Bell  GW,  Nam  JW,  Bartel  DP.  Predicción  de  sitios  diana  efectivos  de  microARN  en  mamíferos
ARNm.  eLife.  2015;  4.  https://doi.org/10.7554/eLife.05005  PMID:  26267216;  PMCID  central  de  PubMed:  PMC4532895.

3.  Bandyopadhyay  S,  Ghosh  D,  Mitra  R,  Zhao  Z.  MBSTAR:  aprendizaje  de  instancias  múltiples  para  predecir  sitios  de  
unión  funcionales  específicos  en  objetivos  de  microARN.  Informes  científicos.  2015;  5:8004.  https://doi.org/10.  
1038/srep08004  PMID:  25614300;  PMCID  central  de  PubMed:  PMC4648438.
4.  Ding  J,  Li  X,  Hu  H.  TarPmiR:  un  nuevo  enfoque  para  la  predicción  del  sitio  objetivo  de  microARN.  Bioinformática.  2016;  
32(18):2768–75.  https://doi.org/10.1093/bioinformatics/btw318  PMID:  27207945;  PMCID  central  de  PubMed:  
PMC5018371.

5.  Huang  JC,  Babak  T,  Corson  TW,  Chua  G,  Khan  S,  Gallie  BL,  et  al.  Uso  de  datos  de  perfiles  de  expresión  para  
identificar  objetivos  de  microARN  humanos.  Métodos  de  la  naturaleza.  2007;  4(12):1045–9.  https://doi.org/
10.1038/nmeth1130  _  PMID:  18026111.

PLOS  UNO  |  https://doi.org/10.1371/journal.pone.0206239  18  de  octubre  de  2018 5 /  6
Machine Translated by Google

miRWalk:  un  recurso  en  línea  para  la  predicción  de  sitios  de  unión  de  microARN

6.  Griffiths­Jones  S.  miRBase:  secuencias  de  microARN  y  anotación.  Protocolos  actuales  en  bioinformática.
2010;  Capítulo  12:  Unidad  12  9  1–0.  https://doi.org/10.1002/0471250953.bi1209s29  PMID:  20205188.
7.  Chou  CH,  Shrestha  S,  Yang  CD,  Chang  NW,  Lin  YL,  Liao  KW,  et  al.  Actualización  de  miRTarBase  2018:  un  
recurso  para  interacciones  microARN­objetivo  validadas  experimentalmente.  Investigación  de  ácidos  nucleicos.  
2017.  https://doi.org/10.1093/nar/gkx1067  PMID:  29126174.
8.  Dweep  H,  Gretz  N,  Sticht  C.  base  de  datos  miRWalk  para  interacciones  miRNA­objetivo.  Métodos  en  biología  molecular.  
2014;  1182:289–305.  https://doi.org/10.1007/978­1­4939­1062­5_25  PMID:  25055920.

PLOS  UNO  |  https://doi.org/10.1371/journal.pone.0206239  18  de  octubre  de  2018 6 /  6

También podría gustarte