Está en la página 1de 4

Título del paper Canary: Decentralized Distributed Deep Learning Via

Gradient Sketch and Partition in Multi-Interface Network


Autores Qihua Zhou , Student Member, IEEE, Kun Wang , Senior
Member, IEEE, Haodong Lu , Student Member, IEEE, We
Xu , Senior Member, IEEE, Yanfei Sun , Member, IEEE, an
Song Guo , Fellow, IEEE

Año de publicación 2021

Motivación Mejorar la performance en la arquitectura de sistemas D


partir de reducir el tiempo, mejorar la comunicación y el
de los recursos. Además, resolver los problemas de ráfag
de tráfico datos, consistencia y conveniencia de
programación
Problema Los autores proponen diseñar una arquitectura de DL
descentralizada que aproveche al máximo las ventajas d
redes de interfaces múltiples para acelerar la formación
DL y proporcione interfaces de programación uniformes
ayudar a los desarrolladores a crear fácilmente tareas de
con menos modificación de código.(Zhou et al., 2021)
Propuesta de solución Los autores proponen el intercambio de gradiente a nive
pieza y la comunicación colectiva en múltiples interfaces
para manejar la sincronización de parámetros y la
transmisión de trafico respectivamente. A parte de un
boceto para comprimir tensores en los gradientes
Asimismo, con Canary aplicarlo a los existentes framewo
de aprendizaje evitando los cuellos de botella.(Zhou et a
2021)
Algoritmos de deep learning usados Piece-level Gradient Exchange, Multi interface Collective
Communication : para manejar la sincronización de
parámetros y la transmisión de tráfico, respectivamente
.AlexNet ,BCubenetwork : Usados para pruebas

Gradient Sketch : proporcionar más ancho de banda


disponible, también es importante reducir el volumen de
tráfico de la red.Para lograrlo se comprime el gradiente p
un sketch de quartile.

Servicios, bibliotecas usadas y descripción de cómo el Canary : Implementacion de algoritmos en un sistema


algoritmo es paralelizado prototipado usando PyTorch
BML on PyTorch : Usado para comparar Canary
PS : Usado en Tensorflow

Alibaba Cloud : Usado para evaluar el performance de


Canary

SGD para sincrónicos y asincrónicos


Esquemas en la data paralela en el entrenamiento de De
learning

Evaluación de Canary en 5 aspectos:


1. En convergencia: Canary logra una sólida convergenci
entrenamiento y minimiza la función de pérdida bajo
diferentes puntos de referencia, tanto en clústeres
equipados con CPU como con GPU.
2. En escalabilidad: Canary puede proporcionar una prec
de prueba estable y una buena aceleración de la velocida
de procesamiento de imágenes junto con el incremento
número de trabajadores

3. Reduce los gastos generales de comunicación:


En los registros de utilización de ancho de banda en tiem
real demuestran que Canary requiere una utilización de
ancho de banda menos promedio y produce menos ráfa
de tráfico en comparación con el BML en PyTorch.
4. Gradient Sketch : Acelera y aumenta la velocidad de
convergencia , sin deteriorar la calidad del entrenamient
requerir gasto extra computacional.
5. Eficiencia en el entrenamiento:
Ofrece una mejor perfomance que BML en PyTorch , Ako
Pytorch y PS en Tensorflow.
Arquitectura física o diagrama de infraestructura
contenerizada usada.

La comunicación en DL paralela de datos se puede mane


través de dos formas de coordinación: coordinación
centralizada y coordinación descentralizada

Cuatro tipos de arquitectura para la data paralela

Arquitectura Canary : Implementado en Python , para la


comunicación esta combinad con C++ usando Open MPI
PyTorch. Los GPU intervienen si están disponibles
Se observa por los datos: Que existe una sobrecarga de l
red es un problema crucial que afecta la eficiencia del
entrenamiento distribuido de modelos grandes.[1]

Opinión crítica de su parte (estudiante) de las los beneficios


o perjuicios del uso de paralelismo en dicho algoritmo.
Mientras tengas mas trabajadores disminuye el tiempo d
computación y aumenta la comunicación.

Por ejemplo FatTree presenta problemas ya que para qu


haya comunicación necesita pasar varios flujos a través
múltiples saltos de switches entre dos máquinas.

En términos de escalabilidad y comunicación me parece


es eficiente.
Depende del modelo para dar sobrecarga computaciona
adicional al distribuido en el sistema de entrenamiento.
Como sabemos los gradientes tienen problemas como e
stochastic y el vanishing.

A mi parecer es beneficioso el paralelismo ya que reduce


cuellos de botella y reduces el gasto en comunicación en
procesos.
Referencia:

Zhou, Q., Wang, K., Lu, H., Xu, W., Sun, Y., & Guo, S. (2021). Canary: Decentralized Distributed Deep
Learning Via Gradient Sketch and Partition in Multi-Interface Networks. IEEE Transactions on
Parallel and Distributed Systems, 32(4), 900–917. https://doi.org/10.1109/TPDS.2020.3036738

También podría gustarte