Está en la página 1de 30

Cómoimplementar proyectos de BigData

Clústercomputacional
¿Cómo trabaja una computadora? ¿Cómo trabaja un clúster?

Disco 1000 TB
100 TB
DISCO DISCO

Almacenamiento

256 GB 2560 GB
RAM Memoria RAM

Procesamiento

40 400
NÚCLEOS NÚCLEOS
DE CPU CPU DE CPU

Un clúster es la suma de los recursos computacionales de los servidores


Un servidor común que lo conforman, es como si tuviésemos una “super-computadora”
Laparalelización
Enfoque Clásico Enfoque Big Data
Archivo a
Procesar

Lógica de negocio

Lógica de
paralelización Lógica de negocio
Archivo a
Procesar Programa Archivo a Archivo a
Procesar Procesar
Programa

PARTE EL ARCHIVO EN 5 PARTES
SI EL NODO1 TIENE UN 20% DE RECURSOS LIBRES
ENVIA LA PARTE1 A PROCESAR EN EL NODO1
SINO El clúster decide como paralelizarlo,
SI EL NODO2 ESTA CAIDO Y EL NODO3 TIENE UN 10% DE RECURSOS LIBRES
PARTE LA PARTE1 EN DOS (PARTE1_1,PARTE1_2) menos complejidad para el
ENVIA LA PARTE 1_1 A PROCESAR EN NODO3 desarrollador

Clúster

Clúster
Escalabilidad
Enfoque Clásico Enfoque Big Data

X CPU X CPU
Programa Programa

Escalabilidad Lineal
t(H)
CPU t 3.5
CPU t
t(H) 3
1 3H
12 1 3H 2.5
2 2H 10
2 1.5H 2
8
4 10H 6 1.5
4
4 0.75H
1
8 4H 2
8 0.375 H 0.5
0
16 2H 0 2 4 6 8 10 12 14 16 18 0
16 0.375H
CPU 0 2 4 6 8 10 12 14 16 18

CPU
¿BigData aplicado a lasempresas?
BIG DATA EMPRESARIAL

BIG DATA ACADÉMICO


Tecnologías

Gobierno

Conceptos en Estándares
evolución Big Data Seguridad
x

Calidad
Patrones
Conceptos Pliego conceptual Devops
“estable” de BigData
• ¿Computación cuántica?
• ¿Teleportación de datos? • Batch
• Real Time Arquetipos
• Machine Learning
• Infraestructure Soluciones
• Tuning Buenas prácticas en la industria
• …
Empresariales
Concepción de un ProyectoBig Data
ETL ETL

REAL REAL
BI BI
TIME TIME

CORE BIG
TRADICIONAL
DATA
VISUALIZ ANALYTI VISUALIZ ANALYTI
ATION CS ATION CS

REPORTI REPORTI
NG NG
Tecnologías para Big Data
Tecnologíasen el mundo del Big Data
En 2016
Tecnologíasen el mundo del Big Data
En 2020
Propuesta de mixtecnológico
INGESTA ALMACENAMIENTO PROCESAMIENTO EXPLOTACIÓN GOBIERNO SEGURIDAD
Arquitectura conceptual general deBig Data
Fuentes Ingesta Almacenamiento Explotación

ALMACENAMIENTO ALMACENAMIENTO ALMACENAMIENTO HERRAMIENTAS


BATCH REAL TIME IN-MEMORY DE
PROGRAMACIÓN
FUENTE BATCH INGESTA BATCH

HERRAMIENTAS
Procesamiento DE
VISUALIZACIÓN
FUENTE REAL INGESTA REAL PROCESAMIENTO PROCESAMIENTO PROCESAMIENTO
TIME TIME BATCH MICRO-BATCH REAL TIME
HERRAMIENTAS
DE ANALÍTICA
PROCESAMIENTO MOTORESDE
ANALÍTICO BÚSQUEDA

Gobierno

GOBIERNO DE GOBIERNO DE GOBIERNO DE


RECURSOS TECNOLÓGICO PROCESOS

Seguridad
SEGURIDADDE SEGURIDADDE
SEGURIDADDE SEGURIDAD DE SEGURIDAD DE
DATOS EN DATOS EN
SERVICIOS DATOS ENCLOUD ACCESO REMOTO
REPOSO MOVIMIENTO
Arquitectura tecnológica
Desarrollo e
implementación
¿Ycómo programar sobre BigData?
Lapruebaend-to-end
ALMACENAMIENTO ALMACENAMIENTO
FUENTE REAL TIME HERRAMIENTAS
IN-MEMORY REAL TIME
DE VISUALIZACIÓN

INGESTA REAL
TIME PROCESAMIENTO
ANALÍTICO

PROCESAMIENTO
MICRO-BATCH

No te aventures a programar sin hacer antes un end-to-end


¡¡¡Y haz pruebas: de flujo, de stress, de concurrencia, …!!!
Patróndeprocesamientobatchaplicadoa
reporting
Source Solución

<< Low Latency>> <<Low Latency>> <<Low Latency>>


Dynamic Reports Fixed Reports NavigationMetadata

Mainframe

Reporting

<< High Latency>>


Universal

Datawarehouse File Server


Import

Format +
<< High Latency>> << High Latency>>
Compression+ Modeling
Landing Temp Partition Landing
Patrón de procesamiento en real time
aplicado a redessociales
Big Data Governance
¿CÓMO INTEGRAR ELGOBIERNO DE DATOS CON ELBIG DATA?
Datalake
LANDING UNIVERSAL SMART EXPLOTACIÓN
Bases de Datos
Crtl+C Crtl+V

Ingesta
Mainframes Parquet

ETL ANALÍTICA
FileSystems Parquet API

Parquet
Modelamiento
Batch de recursos a
la analítica

Parquet
ETL
Realtime ANALÍTICA

<REGISTROS>
API
Parquet

A lo más cambia el formato pero no


el contenido
Infraestructura
¿ON- PREMISE OCLOUD?
CloudComputing
En el modelo de nube no hay necesidad de
invertir en mantenimiento físico de
infraestructura de servidores
La computación en la nube ofrece a los
individuos y a las empresas la capacidad de
un pool de recursos de computación con buen
mantenimiento, seguro, de fácil acceso y bajo
demanda.
Principales proveedores en elmercado
¿Qué proveedor elegir?

En general, los cuatro proveedores ofrecen


los mismos servicios a precios similares.
Para seleccionar a un proveedor se
recomienda:

• Facilidad de integración con la


infraestructura on-premise y nuestro
software actual
• Regiones físicas disponibles cercanas a
nuestras oficinas
• Soporte
• Precio
Arquitecturas Híbridas
Es un concepto de infraestructura de
datos, el cual permite interconectar una
red de computadoras físicamente
ubicados en un datacenter empresarial
con un datacenter cloud ofrecido por
algún servicio de nube.
Big Data + Arquitecturas híbridas
Estándar deInfraestructura
Gateway Master Metadata Slave

x2 x2
x10 inicialmente y luego ir
Redundancia de aumentando de 10 en 10 según
NODOS USERS metadata (RAID) necesidad
1 80 x3
2 160 Estándar de industria
Big Data Integration
Integración de Big Data conotras
filosofías
Agile
DATA
VIRTUALIZATION

Complementos
Cloud
ARQUITECTURAS
BLOCKCHAIN
HÍBRIDAS
Integración
continua

Dockerización

ANALYTICS
BIG IOT
Deep Learning
DATA

Integración de Big Data +IoT
Estado actual del Big
Data en Latinoamérica
EstadoactualdeBigDataenlaregión
Sectores: Banca, Seguros, Retail, Financieras, etc…
Las empresas tienen necesidad de perfiles Big
Data, los cuales son muy escasos:
◦Data Engineers
◦Data Scientists
◦Data Architects
◦Data Leaders

También podría gustarte