Big Data Proyectos

Cómoimplementar proyectos de BigData
Clústercomputacional
¿Cómo trabaja una computadora? ¿Cómo trabaja un clúster?
Disco 1000 TB
100 TB
DISCO DISCO
Almacenamiento
256 GB 2560 GB
RAM Memoria RAM
Procesamiento
40 400
NÚCLEOS NÚCLEOS
DE CPU CPU DE CPU
Un clúster es la suma de los recursos computacionales de los servidores

Un servidor común que lo conforman, es como si tuviésemos una “super-computadora”
Laparalelización
Enfoque Clásico Enfoque Big Data
Archivo a
Procesar
Lógica de negocio
Lógica de
paralelización Lógica de negocio
Archivo a
Procesar Programa Archivo a Archivo a
Procesar Procesar
Programa
…
PARTE EL ARCHIVO EN 5 PARTES
SI EL NODO1 TIENE UN 20% DE RECURSOS LIBRES
ENVIA LA PARTE1 A PROCESAR EN EL NODO1
SINO El clúster decide como paralelizarlo,
SI EL NODO2 ESTA CAIDO Y EL NODO3 TIENE UN 10% DE RECURSOS LIBRES
PARTE LA PARTE1 EN DOS (PARTE1_1,PARTE1_2) menos complejidad para el
ENVIA LA PARTE 1_1 A PROCESAR EN NODO3 desarrollador
…
Clúster
Clúster
Escalabilidad
Enfoque Clásico Enfoque Big Data
X CPU X CPU
Programa Programa
Escalabilidad Lineal
t(H)
CPU t 3.5
CPU t
t(H) 3
1 3H
12 1 3H 2.5
2 2H 10
2 1.5H 2
8
4 10H 6 1.5
4
4 0.75H
1
8 4H 2
8 0.375 H 0.5
0
16 2H 0 2 4 6 8 10 12 14 16 18 0
16 0.375H
CPU 0 2 4 6 8 10 12 14 16 18
CPU
¿BigData aplicado a lasempresas?
BIG DATA EMPRESARIAL
BIG DATA ACADÉMICO

Tecnologías
Gobierno
Conceptos en Estándares
evolución Big Data Seguridad
x
Calidad
Patrones
Conceptos Pliego conceptual Devops
“estable” de BigData
• ¿Computación cuántica?
• ¿Teleportación de datos? • Batch
• Real Time Arquetipos
• Machine Learning
• Infraestructure Soluciones
• Tuning Buenas prácticas en la industria
• …
Empresariales
Concepción de un ProyectoBig Data
ETL ETL
REAL REAL
BI BI
TIME TIME
CORE BIG
TRADICIONAL
DATA
VISUALIZ ANALYTI VISUALIZ ANALYTI
ATION CS ATION CS
REPORTI REPORTI
NG NG
Tecnologías para Big Data
Tecnologíasen el mundo del Big Data
En 2016
Tecnologíasen el mundo del Big Data
En 2020
Propuesta de mixtecnológico
INGESTA ALMACENAMIENTO PROCESAMIENTO EXPLOTACIÓN GOBIERNO SEGURIDAD
Arquitectura conceptual general deBig Data
Fuentes Ingesta Almacenamiento Explotación
ALMACENAMIENTO ALMACENAMIENTO ALMACENAMIENTO HERRAMIENTAS

BATCH REAL TIME IN-MEMORY DE
PROGRAMACIÓN
FUENTE BATCH INGESTA BATCH
HERRAMIENTAS
Procesamiento DE
VISUALIZACIÓN
FUENTE REAL INGESTA REAL PROCESAMIENTO PROCESAMIENTO PROCESAMIENTO
TIME TIME BATCH MICRO-BATCH REAL TIME
HERRAMIENTAS
DE ANALÍTICA
PROCESAMIENTO MOTORESDE
ANALÍTICO BÚSQUEDA
Gobierno
GOBIERNO DE GOBIERNO DE GOBIERNO DE

RECURSOS TECNOLÓGICO PROCESOS
Seguridad
SEGURIDADDE SEGURIDADDE
SEGURIDADDE SEGURIDAD DE SEGURIDAD DE
DATOS EN DATOS EN
SERVICIOS DATOS ENCLOUD ACCESO REMOTO
REPOSO MOVIMIENTO
Arquitectura tecnológica
Desarrollo e
implementación
¿Ycómo programar sobre BigData?
Lapruebaend-to-end
ALMACENAMIENTO ALMACENAMIENTO
FUENTE REAL TIME HERRAMIENTAS
IN-MEMORY REAL TIME
DE VISUALIZACIÓN
INGESTA REAL
TIME PROCESAMIENTO
ANALÍTICO
PROCESAMIENTO
MICRO-BATCH
No te aventures a programar sin hacer antes un end-to-end

¡¡¡Y haz pruebas: de flujo, de stress, de concurrencia, …!!!
Patróndeprocesamientobatchaplicadoa
reporting
Source Solución
<< Low Latency>> <<Low Latency>> <<Low Latency>>

Dynamic Reports Fixed Reports NavigationMetadata
Mainframe
Reporting
<< High Latency>>

Universal
Datawarehouse File Server

Import
Format +
<< High Latency>> << High Latency>>
Compression+ Modeling
Landing Temp Partition Landing
Patrón de procesamiento en real time
aplicado a redessociales
Big Data Governance
¿CÓMO INTEGRAR ELGOBIERNO DE DATOS CON ELBIG DATA?
Datalake
LANDING UNIVERSAL SMART EXPLOTACIÓN
Bases de Datos
Crtl+C Crtl+V
Ingesta
Mainframes Parquet
ETL ANALÍTICA
FileSystems Parquet API
Parquet
Modelamiento
Batch de recursos a
la analítica
Parquet
ETL
Realtime ANALÍTICA
<REGISTROS>
API
Parquet
A lo más cambia el formato pero no

el contenido
Infraestructura
¿ON- PREMISE OCLOUD?
CloudComputing
En el modelo de nube no hay necesidad de
invertir en mantenimiento físico de
infraestructura de servidores
La computación en la nube ofrece a los
individuos y a las empresas la capacidad de
un pool de recursos de computación con buen
mantenimiento, seguro, de fácil acceso y bajo
demanda.
Principales proveedores en elmercado
¿Qué proveedor elegir?
En general, los cuatro proveedores ofrecen

los mismos servicios a precios similares.
Para seleccionar a un proveedor se
recomienda:
• Facilidad de integración con la

infraestructura on-premise y nuestro
software actual
• Regiones físicas disponibles cercanas a
nuestras oficinas
• Soporte
• Precio
Arquitecturas Híbridas
Es un concepto de infraestructura de
datos, el cual permite interconectar una
red de computadoras físicamente
ubicados en un datacenter empresarial
con un datacenter cloud ofrecido por
algún servicio de nube.
Big Data + Arquitecturas híbridas
Estándar deInfraestructura
Gateway Master Metadata Slave
x2 x2
x10 inicialmente y luego ir
Redundancia de aumentando de 10 en 10 según
NODOS USERS metadata (RAID) necesidad
1 80 x3
2 160 Estándar de industria
Big Data Integration
Integración de Big Data conotras
filosofías
Agile
DATA
VIRTUALIZATION
Complementos
Cloud
ARQUITECTURAS
BLOCKCHAIN
HÍBRIDAS
Integración
continua
Dockerización
ANALYTICS
BIG IOT
Deep Learning
DATA
…
Integración de Big Data +IoT
Estado actual del Big
Data en Latinoamérica
EstadoactualdeBigDataenlaregión
Sectores: Banca, Seguros, Retail, Financieras, etc…
Las empresas tienen necesidad de perfiles Big
Data, los cuales son muy escasos:
◦Data Engineers
◦Data Scientists
◦Data Architects
◦Data Leaders

Big Data Proyectos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data Proyectos

Cargado por

Copyright:

Formatos disponibles

Cómoimplementar proyectos de BigData

Un clúster es la suma de los recursos computacionales de los servidores

BIG DATA ACADÉMICO

ALMACENAMIENTO ALMACENAMIENTO ALMACENAMIENTO HERRAMIENTAS

GOBIERNO DE GOBIERNO DE GOBIERNO DE

No te aventures a programar sin hacer antes un end-to-end

<< Low Latency>> <<Low Latency>> <<Low Latency>>

<< High Latency>>

Datawarehouse File Server

A lo más cambia el formato pero no

En general, los cuatro proveedores ofrecen

• Facilidad de integración con la

También podría gustarte