Está en la página 1de 26

B IG D A TA

BIG DATA
• BIG DATA SE UTILIZA PARA MAXIMIZAR LA EFICIENCIA Y AUMENTAR LOS INGRESOS EN LOS PROCESOS DE
FABRICACIÓN, VENTAS, RRHH, EXPERIENCIA DEL CLIENTE, ENTRE OTROS.

• EXISTEN PLATAFORMAS COMO ORACLE QUE DENTRO DE LA ADMINISTRACIÓN DE DATOS ABSORBEN


DATOS DE CUALQUIER TAMAÑO PARA CUALQUIER TIPO DE APLICACIÓN EN CUALQUIER TIPO DE ENTORNO.

• EL RESULTADO ES LA COMBINACIÓN COHESIONADA DE ESCALABILIDAD Y EFICIENCIA CON COMPONENTES


DE BIG DATA CON EL FIN DE OPTIMIZAR LA INFRAESTRUCTURA SUBYACENTE.
TECNOLOGÍAS DE BIG DATA: INTEGRACIÓN

• INTEGRACIÓN DE BIG DATA: PROPORCIONA TODOS LOS DISTINTOS TIPOS DE DATOS A LA EMPRESAS, YA
SEAN DATOS EN REPOSO O EN MOVIMIENTO Y DE CARÁCTER INTERNO O EXTERNO.

• LA INTEGRACIÓN SE ENCARGA DE ASIMILAR, ADMINISTRAR E IMPLEMENTARLAS PARA LAS NECESIDADES


DE SERVICIO DE LA EMPRESA. (CAPACIDADES DE TRANSMISIÓN DE DATOS EN TIEMPO REAL, CREACIÓN DE
APLICACIONES DE PROCESAMIENTO DE FLUJO DE EVENTOS EN TIEMPO REAL Y OBTENCIÓN DE
INFORMACIÓN BASADA EN DATOS).
TECNOLOGIAS DE BIG DATA: ADMINISTRACIÓN

• ADMINISTRACIÓN DE BIG DATA: MAXIMIZA LOS RECURSOS PARA ORGANIZACIONES DE TODOS LOS
TAMAÑOS PARA OBTENER MAYOR VALOR DE LOS DATOS Y PROCESOS ORGANIZATIVOS. (AMPLIACIÓN
ELÁSTICA, RENDIMIENTO DE CONSULTA RÁPIDO, ANÁLISIS Y FILTRO DE LOS DATOS DONDE RESIDEN,
SERVICIO AUTOMATIZADO, SERVICIOS EN LA NUBE).

• LOS LAGOS DE DATOS Y LABORATORIOS DE DATOS BASADOS EN LA NUBE PROPORCIONAN


CONFIGURACIONES FLEXIBLES PARA SATISFACER LAS NECESIDADES DE LA CARGA DE TRABAJO Y LA
ESCALABILIDAD RÁPIDA.
TECNOLOGÍAS DE BIG DATA: ANÁLISIS

• ANÁLISIS DE BIG DATA: APRENDIZAJE AUTOMÁTICO NECESARIOS PARA LOGRAR LOS OBJETIVOS
COMERCIALES EN SOLUCIONES ESCALABLES. (PREGUNTAR SOBRE CUALQUIER TIPO DE DATOS EN
CUALQUIER ENTORNO O DISPOSITIVO; MANEJO DE LAS CARGAS DE TRABAJO GRÁFICAS, ESPACIALES DE
PROCESAMIENTO DE BASES DE DATOS COMO NOSQL; MACHINE LEARNING).

• DESDE VISUALIZACIONES SIMPLES COMO DE POTENTES ALGORITMOS DE APRENDIZAJE AUTOMÁTICO.


INTRODUCCIÓN A LA ARQUITECTURA “BIG DATA”

• LA METODOLOGÍA TRADICIONAL CONOCIDA COMO ETL (EXTRACTION TRANSFORMATION AND LOAD)


CAPTURA LA DATA PROVENIENTE DE BASES DE DATOS RELACIONALES COMO XML PARA LUEGO SER
ENVIADA A UN ÁREA INTERMEDIA PARA EL PROCESO DE TRANSFORMACIÓN EN BASE A UNA SERIE DE
REGLAS; POSTERIORMENTE LOS DATOS SE CARGAN EN UNA BODEGA Y SON USADOS PARA ANALÍTICA.

• LA TECNOLOGÍA ELT NO ES ÓPTIMA PARA EL ANÁLISIS DE DATOS SEMIESTRUCTURADOS O NO


ESTRUCTURADOS POR LO QUE LA TECNOLOGÍA ELT (EXTRACTION, LOAD AND TRANSFORMATION) ES UNA
MEJOR ALTERNATIVA.
PROCESO DE ELT
• SE EXTRAE TODA LA DATA ESTRUCTURADA Y NO ESTRUCTURADA
• SE CARGAN A UN REPOSITORIO DE DATOS (LAGO DE DATOS) DONDE SE REALIZAN LAS
TRANSFORMACIONES

• EL LAGO DE DATOS PERMITE APROVECHAR EL USO DEL PROCESAMIENTO DISTRIBUIDO PARA ACELERAR
LAS TRANSFORMACIONES.

• EL RESULTADO DE LA TRANSFORMACIÓN DE USA EN ANALÍTICA.


DATA WAREHOUSE VS DATA LAKE

• DATA WAREHOUSE: BODEGA DE DATOS, ALMACENA DATOS PREVIAMENTE YA PROCESADOS.


• DATA LAKE: LAGO DE DATOS, ALMACENA LOS DATOS CRUDOS, SIN PROCESAMIENTO ANTERIOR.

• EN EL LAGO DE DATOS NO SE REQUIERE UNA ESTRUCTURA, ES SENCILLO ACCEDER Y REALIZAR CAMBIOS.


• LA BODEGA DE DATOS ES MAS COSTOSA DE MANIPULAR, PERO ES MÁS FÁCIL DE DESCIFRAR.
GRUPOS DE BIG DATA
• ARQUITECTURA POR LOTES: COLECCIÓN DE DATOS QUE HAN SIDO AGRUPADOS EN UN INTERVALO DE
TIEMPO ESPECIFICO.

• ARQUITECTURA EN TIEMPO REAL: ABORDAN DATA CONTINUA, CON POCA LATENCIA.

• EXISTEN ARQUITECTURAS INTERMEDIAS EN EL ESPECTRO COMO LOS MICRO BATCHES, QUE IMPLICAN
USAR INGESTA POR LOTES EN INTERVALOS DE TIEMPO PEQUEÑOS.
PROCESAMIENTO POR LOTES

• ADECUADO PARA MANEJAR GRANDES VOLÚMENES DE DATOS O AQUELLOS PROVENIENTES DE SISTEMAS


INFORMÁTICOS HEREDADOS DONDE NO ES POSIBLE OBTENER DATOS EN TIEMPO REAL.

• REQUIERE CARGAR DATOS POR LOTES A UN LAGO DE DATOS PARA SU POSTERIOR PROCESAMIENTO.
PROCESAMIENTO POR STREAMING (TIEMPO REAL)

• FUNCIONA EFICIENTEMENTE EN CONTEXTOS DE FLUJOS CONSTANTES DE DATOS DONDE SE REQUIERE


ANÁLISIS Y TOMA DE DECISIONES RÁPIDAMENTE.

• POSEEN UNA ARQUITECTURA ORIENTADA A MANEJAR EVENTOS INDIVIDUALMENTE, TAL QUE SE PROCEDA
A PROCESAR LA DATA TAN PRONTO SE GENERE EL EVENTO.
CUANDO ES EFICIENTE EL USO DEL BIG DATA

• ES USUALMENTE UTILIZADO CUANDO SE HABLA EN TÉRMINOS DE PETABYTES Y EXABYTES DE DATOS

• GIGABYTE: 10^9
• TERABYTE: 10^12
• PETABYTE: 10^15
• EXABYTE: 10^18
• LAS BASES DE DATOS CONVENCIONALES SON UNA PARTE IMPORTANTE Y RELEVANTE PARA UNA SOLUCIÓN
ANALÍTICA.
TIPOS DE DATOS
• WEB AND SOCIAL MEDIA: INFORMACIÓN QUE ES OBTENIDA DE LAS REDES SOCIALES.
• BIOMETRICS: HUELLAS DIGITALES, ESCANEOS, RECONOCIMIENTO FACIAL, GENÉTICA, ...
• MACHINE TO MACHINE: TECNOLOGÍAS QUE PERMITEN CONECTARSE A OTROS DISPOSITIVOS.
• HUMAN GENERATED: GENERADO POR LAS PERSONAS A TRAVÉS DE LLAMADAS, CORREOS, DOCUMENTOS,

• BIG TRANSACTION DATA: REGISTROS DE FACTURACIÓN Y RELACIONADOS CON TELECOMUNICACIONES.


COMPONENTES DE UNA PLATAFORMA BIG DATA

• PLATAFORMAS DE CÓDIGO ABIERTO (HADOOP) EL CUAL CONSISTE EN DIVIDIR EN DOS TAREAS (MAPER –
REDUCER) PARA MANIPULAR LOS DATOS DISTRIBUIDOS A NODOS DE UN CLÚSTER LOGRANDO UN ALTO
PARALELISMO EN EL PROCESAMIENTO.

• HADOOP SE COMPONE DE TRES PIEZAS: 1. HADOOP DISTRIBUTED FILE SYSTEM (HDFS) 2. HADOOP
MAPREDUCE Y HADOOP COMMON.
HDFS
• LOS DATOS EN EL CLUSTER DE HADOOP SON DIVIDIDOS EN PEQUEÑAS PIEZAS LLAMADAS BLOQUES Y
DISTRIBUIDAS A TRAVÉS DEL CLUSTER

• LAS FUNCIONES MAP Y REDUCE PUEDEN SER EJECUTADS EN PEQUEÑOS SUBCONJUNTOS


• SE PROVEE LA ESCALABILIDAD NECESARIA PARA EL PROCESAMIENTO DE GRANDES VOLÚMENES
• CADA BLOQUE ES ALMACENADO TRES VECES Y ALMENOS UN BLOQUE SE ALMACENA EN UN DIFERENTE
RACK PARA LOGRAR REDUNDANCIA
HADOOP MAPREDUCE
• ES EL NUCLEO DE HADOOP.
• SE REFIERE A DOS PROCESOS SEPARADOS QUE HADOOP EJECUTA: 1. MAP 2. REDUCE
• MAP TOMA UN CONJUNTO DE DATOS, LO CONVIERTE EN OTRO CONJUNTO DONDE LOS ELEMENTOS INDIVIDUALES
SON SEPARADOS EN TUPLAS.

• REDUCE OBTIENE LA SALIDA DE MAP COMO DATOS DE ENTRADA Y COMBINA LAS TUPLAS EN UN CONJUNTO MÁS
PEQUEÑO DE LAS MISMAS.

• UNA FASE INTERMEDIA ES L DENOMINADA SHUFFLE, LA CUAL OBTIENE LAS TUPLS DEL PROCESO MAP Y DETERMINA
QUE NODO PROCESARÁ ESTOS DATOS DIRIGIENDO LA SALIDA A UNA TAREA REDUCE EN ESPECIFICO.
HADOOP COMMON
• ES UN CONJUNTO DE LIBRERÍAS QUE SOPORTAN VARIOS SUBPROYECTOS DE HADOOP.
• ADEMÁS DE ESTOS TRES COMPONENTES EXISTEN OTROS PROYECTOS RELACIONADOS
• ES UN SERVICIO QUE DA ACCESO A LOS SISTEMAS DE ARCHIVOS SOPORTADOS POR HADOOP, EL SOFTWARE
CONTIENE LOS ARCHIVOS CON EXTENSIÓN .JAR Y LOS SCRIPTS NECESARIOS PAR EJECUTAR LA HERRAMIENTA, EL
PAQUETE TAMBIÉN PROPORCIONA CÓDIGO FUENTE, DOCUMENTACIÓN PROYECTOS DE LA COMUNIDAD.

• SCRIPT. DOCUMENTO QUE CONTIENE INSTRUCCIONES ESCRITAS EN CÓDIGO DE PROGRAMACIÓN.


• JAQL: LENGUAJE FUNCIONAL Y DECLARTIVO QUE PERMITE
LA EXPLOTACIÓN DE DATOS EN FORMATO JSON DISEÑADO
OTROS PROYECTOS PARA PROCESAR GRANDES VOLÚMENES DE
INFORMACIÓN.

• AVRO: PROYECTO DE APACHE QUE PROVEE SERVICIOS DE • LUCENE: LIBRERIAS PARA INDEXACIÓN Y BUSQUEDA DE
SERIALIZACIÓN. TEXTO.

• CASSANDA: PERMITE GRANDES VOLÚMENES DE DATOS EN • OOZIE: SIMPLIFIA LOS FLUJOS DE TRABAJO Y LA
FORMA DISTRIBUIDA. COORDINACIÓN ENTRE CDA UNO DE LOS PROCESOS.
• CHUKWA: COLECCIÓN Y ANÁLISIS A GRAN ESCAL DE “LOGS” • PIG: EMBIENTE DE EJECUCIÓN DE PROGRAMAS SIMILAR A
• FLUME: DIRIGE LOS DATOS DE UNA FUENTE HCUA LGUNA JAVA Y SU APLICCIÓN.
OTRA LOCLIDAD (MBIENTE DE HADOOP).
• ZOOKEEPER: PUEDE CREAR UN ARCHIVO QUE SE
• HBASE: BASE DE DATOS COLUMNAR QUE SE EJECUTA EN PERSISTE EN MEMORIA DE LOS SERVIDORES ZOOKEEPER,
HDFS.
ES UN SERVIDOS QUE PUEDE SER CONFIGURADO PARA
• HIVE: INFRAESTRUCTURA DE DATA WAREHOUSE. VIGILAR UN ZNODE EN PARTICULAR.
BIG DATA

• ES TODO UN ECOSISTEMA DE PROYECTOS QUE EN CONJUNTO PERMITEN SIMPLIFICAR, ADMINISTRAR,


COORDINAR Y ANALIZAR GRANDES VOLÚMENES DE INFORMACIÓN.
LINKS

• HTTPS://WWW.ORACLE.COM/CO/BIG-DATA/
• HTTPS://WWW.PANDAID.COM/BIG-DATA-PROCESOS-EN-TIEMPO-REAL/
• HTTPS://WWW.IBM.COM/DEVELOPERWORKS/SSA/LOCAL/IM/QUE-ES-BIG-DATA/INDEX.HTML

También podría gustarte