Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arquitecturas de Big Data
Arquitecturas de Big Data
Data
BIG DATA ACADEMY
“Tengo una necesidad de negocio”: Implementa la necesidad con El proceso se ejecutará sobre
algún lenguaje: algún tipo de infraestructura
- Construye un reporte
- Haz un proceso de limpieza de datos - Python
- Construye una red neuronal - Scala
- R
- SQL
1. Subida de datos
DISCO: 10 TB
3. Procesamiento del proceso sobre los núcleos de CPU
RAM: 100 GB
CPU: 40 NÚCLEOS
DÍA 1
LAPTO DE DESARROLLADOR
1GB DISCO: 1 TB
RAM: 16 GB
CPU: 4 NÚCLEOS
DÍA 2
10GB
DÍA 3
En el 3er día el proceso no pudo ejecutarse, no Negocio no funciona
50GB
hay suficiente RAM (16 GB) para colocar un este día
archivo de 50 GB
DISCO: 10 TB
5 SEMANAS DESPUÉS
RAM: 100 GB
CPU: 40 NÚCLEOS
ALGUNA ACTIVIDADES
“Compraremos un servidor empresarial” - Preparación de licitación [1 semana]
- Contacto a proveedores [1 semana]
Durante 5 semanas, negocio
- Elección de proveedor [1 semana] no funcionó
- Compra y despliegue [1 semana]
- Instalación de software [1 semana]
DÍA 1
SERVIDOR EMPRESARIAL
50GB DISCO: 10 TB
RAM: 100 GB
CPU: 40 NÚCLEOS
DÍA 2
90GB
DÍA 3
En el 3er día el proceso no pudo ejecutarse, no Negocio no funciona
300GB
hay suficiente RAM (100 GB) para colocar un este día
archivo de 300 GB
ALGUNA ACTIVIDADES
“Compraremos un clúster de servidores” - Preparación de licitación [1 semana] POTENCIA DEL CLÚSTER
- Contacto a proveedores [1 semana] DISCO: 100 TB
- Elección de proveedor [1 semana] …
- Compra y despliegue [1 semana] RAM: 1000 GB
- Instalación de software [1 semana] CPU: 400 NÚCLEOS
300GB
PROCESO
RAM: 100GB RAM: 100GB RAM: 100GB RAM: 100GB RAM: 100GB
El proceso no se distribuye
sobre el clúster, el
desarrollador debe modificar
el código para incluir la lógico
de distribución de carga de
trabajo
5 SEMANAS DESPUÉS
Algunas actividades:
Sólo contiene la necesidad de Necesidad de negocio +
negocio (P.E.: 1000 líneas de - Reserva de recursos sobre servidores [1 semana] Necesidad técnica (P.E.: 3000
código) - Distribución de la carga de trabajo sobre servidores líneas de código)
[1 semana]
- Coordinación de ejecución [1 semana]
- Gestión de excepciones [1 semana] Adaptar el proceso para que funcione
- Pruebas [1 semana] en un clúster toma mucho tiempo
DÍA 1
300GB
DÍA 2
500GB
Después de 5 semanas
Un desarrollador deberá tenemos el resultado
adaptar el proceso para la CLÚSTER
nueva volumetría DISCO: 10 TB
RAM: 100 GB
CPU: 40 NÚCLEOS
PROCESO 1
PROCESO 2
PROCESO 3000
DÍA 3
Si aumenta la volumetría, aumentamos la reserva del
clúster, el clúster reserva los servidores y distribuye
la carga de trabajo del código de manera
automática
700GB Reserva el 70%
del clúster
300GB PROCESO
DÍA 2
RAM: 100GB RAM: 100GB RAM: 100GB RAM: 100GB RAM: 100GB
RESERVA
DÍA 1: 30%
500GB DÍA 2: 50%
DÍA 3: 70%
DÍA 3
700GB
CLÚSTER DE BIG DATA
- Reserva la potencia del clúster según la volumetría
- Distribuye de manera automática la carga de trabajo sobre los servidores reservador
POTENCIA
DISCO: 100 TB
RAM: 1000 GB
CPU: 400 NÚCLEOS
SÚPER SERVIDOR
REEMPLAZADO POR