Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Paper 8
Paper 8
12-05-2024
ABSTRACT
Aunque la carga de trabajo es dinámica, algunas tareas de larga duración tienen una
utilización de recursos estable, lo que puede beneficiar a los planificadores
adaptativos.
1. INTRODUCCIÓN La consolidación de las demandas de procesamiento en la nube es crucial.
la eficiencia en el uso de recursos
Ventajas
la gestión centralizada
Google ha proporcionado un conjunto de datos de uso del clúster para investigadores. Los
análisis de este conjunto de datos destaca desafíos importantes para los diseñadores de
sistemas de programación de recursos en la nube.
Heterogeneidad y variabilidad de Demanda y disponibilidad de recursos
máquinas y carga de trabajo altamente dinámica.
Esto requiere que los planificadores de recursos La Sección 5 se enfoca en la predictibilidad del
mantengan modelos más sofisticados basados en el uso de recursos, mientras que la Sección 6
tiempo del uso de recursos, al menos para las tareas explora las implicaciones de las preferencias y
de larga duración. restricciones de recursos.
Servicios de larga duración: servidores (como servidores web) que requieren una cierta cantidad de
recursos (generalmente tiempo de CPU) para lograr un rendimiento aceptable y funcionar
indefinidamente.
Sistemas DAG-de-tareas: sistemas similares a MapReduce[7] o Dryad[10] que ejecutan muchas tareas
cortas e independientes (de segundos a minutos) que se asumen como dependientes de la CPU o de la
E/S
Computación de alto rendimiento (o de rendimiento): sistemas de cola por lotes que típicamente
ejecutan programas dependientes de la CPU, pueden tolerar tiempos de espera sustanciales y a
menudo requieren muchas máquinas simultáneamente durante un largo período de tiempo (de horas
a días).
Cada categoría Los servicios interactivos de larga duración manejan
Este documento examina una
presenta cargas de clientes externos de manera independiente
carga de trabajo que combina
desafíos
diferentes tipos. Otros análisis de
diferentes para
la misma carga de trabajo fueron Los sistemas DAG-de-tareas requieren interacciones
los
realizados en paralelo con este frecuentes con el planificador debido a los análisis de
planificadores
trabajo. datos interactivos comunes
de clústeres.
Los planificadores actuales no están preparados para abordar esta diversidad de necesidades y desafíos, lo que sugiere la
necesidad de nuevos enfoques, como lo evidencia el esfuerzo continuo de Google por desarrollar un nuevo planificador.
El análisis del uso agregado destaca que las tareas de producción representan un tipo de carga de
trabajo distinto, con un mayor uso de recursos y patrones diarios más claros en su utilización. Aunque
solo un pequeño porcentaje de trabajos se ejecutan con prioridad de producción, representan la
mayoría de los trabajos de larga duración. En contraste, las tareas de baja prioridad muestran un uso
más irregular, incluso excluyendo los trabajos de corta duración.
A pesar de que estas divisiones no son perfectas, muestran una diferencia cualitativa en las cargas
de trabajo agregadas en las prioridades más altas y más bajas. Esto sugiere que el rastreo de tareas
se diferencia de los rastros de cargas de trabajo por lotes y de servicios interactivos.
Aunque más de 2000 trabajos se ejecutan durante todo el período de seguimiento, la mayoría
solo duran minutos.
La distribución de duraciones muestra una forma de cola pesada, con muchos trabajos cortos.
Las prioridades de producción tienden a tener más trabajos de larga duración, mientras que las
otras prioridades tienen más trabajos cortos.
La diversidad de usuarios sugiere que la carga de trabajo no está sesgada por una sola aplicación
o individuo.
3.4 Formas de tareas
Cada tarea tiene una solicitud de recurso, que debe indicar la cantidad de CPU y espacio de memoria
que requerirá la tarea. (Las solicitudes pretenden representar el uso “máximo” previsto por el
remitente para la tarea).
3.5 Distribuciones
La duración de los puestos de trabajo y los recursos totales solicitados de los puestos de trabajo
parecen formar una distribución de cola pesada. Descubrimos que las distribuciones de las leyes de
potencia no se ajustan bien a los datos (valor p<<0,1 para la prueba de bondad de ajuste de
Kolmogorov Smirnov, del método de Monte Carlo claramente por debajo del umbral de 0,10 que
recomienda). Lo mismo ocurre con la duración de las tareas y el total de recursos solicitados (días
de CPU o días de memoria) de tareas y trabajos.
En el caso de las duraciones, existe un sesgo debido a nuestra incapacidad de observar cuándo se
ejecutan trabajos o tareas fuera del mes del seguimiento. En particular, esto significa que las
duraciones que podemos observar se limitan al tiempo desde que comienza el trabajo o tarea hasta
el final del período de seguimiento.
4. DINAMICIDAD
Los programadores que se centran en cargas de trabajo de servicios de larga duración pueden asumir
que el estado del clúster cambia lentamente y, en consecuencia, pueden suponer que se puede gastar
tiempo o recursos considerables al tomar decisiones de programación o ubicación. La carga de trabajo
mixta de este seguimiento viola esos supuestos. El programador necesita tomar decisiones sobre
dónde colocar las tareas decenas de veces por segundo e incluso necesita reiniciar las tareas con
frecuencia.
Dado que muchas tareas se comportan como servicios de larga duración, se podría esperar que el
programador no tenga mucho trabajo con las nuevas tareas.
Esto es especialmente cierto ya que los proveedores de seguimiento indican que los programas MapReduce
ejecutan trabajos separados para los trabajadores y los maestros. Los trabajos del clúster sirven como
contenedores de ejecución para muchas tareas de asignación/reducción. Por lo tanto, este programador no
administra directamente al menos algunas fuentes comunes de lo que serían tareas detalladas.
La figura muestra que el planificador debe decidir dónde (o si) colocar las tareas ejecutables con frecuencia.
Un obstáculo aparente para pronosticar la disponibilidad de recursos a partir del uso anterior de
recursos es la frecuencia con la que las tareas comienzan y terminan. Afortunadamente, aunque hay una
gran cantidad de tareas que se inician y se detienen, estas tareas breves no contribuyen
significativamente al uso. La Figura indica que los trabajos de menos de dos horas representan menos del
10% de la utilización total (aunque representan más del 95% de los trabajos).
Solicitudes de Recursos
No Automatización
Especificación Manual
Elección de Distribución
Números Desigual de
Redondos Tamaños
Solicitudes de Recursos
Precisión de la Solicitud
Reflejo de la Utilización
Máxima
Posibilidad de
Utilización de
Nombres
Trabajos Programas en Trabajos Repetidos
Duplicados
Periódicos Desarrollo
6. Limitación de tareas
Restricciones en Tareas
Especificadas como un
Operadores: =, ≠, <, > indicador booleano en
cada tarea
6.2 Retraso en la programación inducido por restricciones
Impacto de las
Restricciones
La ausencia de la restricción de
en la Latencia Efecto del Anti-Afinidad
anti-afinidad reduce la latencia.
de
Programación
Predictores de la Latencia
6.3 Localidad
Localización de tareas
Especificadas como un
Operadores: =, ≠, <, > indicador booleano en
cada tarea
7. Conclusiones
Estabilidad en Algunos Trabajos: Aunque hay variabilidad, ciertos trabajos de larga duración
muestran una utilización de recursos estable.