Está en la página 1de 3

Título del paper Fast Deep Neural Network Training on Distributed System

and Cloud TPUs

Autores Yang You, Member, IEEE, Zhao Zhang, Member, IEEE, Cho-
Jui Hsieh, Member, IEEE, James Demmel, Fellow, IEEE, Kur
Keutzer, Fellow, IEEE

Año de publicación 2019

Motivación La velocidad de procesamiento que podría llegar a alcanza


ImageNet con un tamaño de lote grande sin perder
eficacia.

Problema
Para las aplicaciones de Deep learning los conjuntos de
datos mas grandes y modelos conducen a una mejora
significativa en la precisión, pero esto demanda un mayor
gasto computacional.(You et al., 2019)

Propuesta de solución Los autores proponen utilizar un tamaño de lote grande,


impulsado por el algoritmo de escala de velocidad
adaptativa por capas (LARS)para el uso masivo de los
recursos del procesador.(You et al., 2019)

Algoritmos de deep learning usados DNN, SGD, RNN, Alexnet, Gradient clipping technique ,
AlexNet-BN

Servicios, bibliotecas usadas y descripción de cómo el Servicios:


algoritmo es paralelizado Google’s Neural Machine Translation: Tecnología para
traducción de lenguajes

Google’s Tensor Processing Unit (TPU): son procesadores


especializados para ejecutar de manera más eficiente los
algoritmos de inteligencia artificial 

Frameworks:
TensorFlow : Framework de Google
AutoGraph : Herramienta de Tensorflow
Arquitectura física o diagrama de infraestructura Arquitectura de un TPU chi
contenerizada usada. por MX. El performance de
chip es 45 Tflops.
Este chip es usado para la
inference en la red DNN en
entrenamiento.

TPU Pod: Es una supercomputadora para aplicaciones de


Deep learning en la nube donde esta incluido los TPU chip

Cada unidad TPU incluye 4 chips de TPU

Opinión crítica de su parte (estudiante) de las los beneficios El principal beneficio es que reduce el tiempo promedio ya
o perjuicios del uso de paralelismo en dicho algoritmo. que es dividido en varios procesadores. Contamos las
operaciones que requiere por el batch size de cada imagen

Un segundo beneficio es que un gran batch size aumenta


rendimiento del computador, el cual es importante en un
entorno distribuido.

Un pequeño batch size podría ocasionar perdida en la


información.

Un hardware deficiente aumenta el tiempo de


procesamiento.

En un sistema distribuido, la comunicación significara


mover los datos a través de la red contantemente

El paralelismo requiere un gran número de recursos y ciclo


de procesamiento y no todos tienen el acceso a este tipo
de hardware.

Por ejemplo, no se puede comparar una GPU y una CPU.


Uno es procesamiento secuencia y el otro en paralelo
Referencia:

You, Y., Zhang, Z., Hsieh, C. J., Demmel, J., & Keutzer, K. (2019). Fast Deep Neural Network Training on
Distributed Systems and Cloud TPUs. IEEE Transactions on Parallel and Distributed Systems, 30(11),
2449–2462. https://doi.org/10.1109/TPDS.2019.2913833

También podría gustarte