Big Data 1

B IG D A TA
BIG DATA
• BIG DATA SE UTILIZA PARA MAXIMIZAR LA EFICIENCIA Y AUMENTAR LOS INGRESOS EN LOS PROCESOS DE
FABRICACIÓN, VENTAS, RRHH, EXPERIENCIA DEL CLIENTE, ENTRE OTROS.
• EXISTEN PLATAFORMAS COMO ORACLE QUE DENTRO DE LA ADMINISTRACIÓN DE DATOS ABSORBEN

DATOS DE CUALQUIER TAMAÑO PARA CUALQUIER TIPO DE APLICACIÓN EN CUALQUIER TIPO DE ENTORNO.
• EL RESULTADO ES LA COMBINACIÓN COHESIONADA DE ESCALABILIDAD Y EFICIENCIA CON COMPONENTES

DE BIG DATA CON EL FIN DE OPTIMIZAR LA INFRAESTRUCTURA SUBYACENTE.
TECNOLOGÍAS DE BIG DATA: INTEGRACIÓN
• INTEGRACIÓN DE BIG DATA: PROPORCIONA TODOS LOS DISTINTOS TIPOS DE DATOS A LA EMPRESAS, YA
SEAN DATOS EN REPOSO O EN MOVIMIENTO Y DE CARÁCTER INTERNO O EXTERNO.
• LA INTEGRACIÓN SE ENCARGA DE ASIMILAR, ADMINISTRAR E IMPLEMENTARLAS PARA LAS NECESIDADES

DE SERVICIO DE LA EMPRESA. (CAPACIDADES DE TRANSMISIÓN DE DATOS EN TIEMPO REAL, CREACIÓN DE
APLICACIONES DE PROCESAMIENTO DE FLUJO DE EVENTOS EN TIEMPO REAL Y OBTENCIÓN DE
INFORMACIÓN BASADA EN DATOS).
TECNOLOGIAS DE BIG DATA: ADMINISTRACIÓN
• ADMINISTRACIÓN DE BIG DATA: MAXIMIZA LOS RECURSOS PARA ORGANIZACIONES DE TODOS LOS
TAMAÑOS PARA OBTENER MAYOR VALOR DE LOS DATOS Y PROCESOS ORGANIZATIVOS. (AMPLIACIÓN
ELÁSTICA, RENDIMIENTO DE CONSULTA RÁPIDO, ANÁLISIS Y FILTRO DE LOS DATOS DONDE RESIDEN,
SERVICIO AUTOMATIZADO, SERVICIOS EN LA NUBE).
• LOS LAGOS DE DATOS Y LABORATORIOS DE DATOS BASADOS EN LA NUBE PROPORCIONAN

CONFIGURACIONES FLEXIBLES PARA SATISFACER LAS NECESIDADES DE LA CARGA DE TRABAJO Y LA
ESCALABILIDAD RÁPIDA.
TECNOLOGÍAS DE BIG DATA: ANÁLISIS
• ANÁLISIS DE BIG DATA: APRENDIZAJE AUTOMÁTICO NECESARIOS PARA LOGRAR LOS OBJETIVOS
COMERCIALES EN SOLUCIONES ESCALABLES. (PREGUNTAR SOBRE CUALQUIER TIPO DE DATOS EN
CUALQUIER ENTORNO O DISPOSITIVO; MANEJO DE LAS CARGAS DE TRABAJO GRÁFICAS, ESPACIALES DE
PROCESAMIENTO DE BASES DE DATOS COMO NOSQL; MACHINE LEARNING).
• DESDE VISUALIZACIONES SIMPLES COMO DE POTENTES ALGORITMOS DE APRENDIZAJE AUTOMÁTICO.

INTRODUCCIÓN A LA ARQUITECTURA “BIG DATA”
• LA METODOLOGÍA TRADICIONAL CONOCIDA COMO ETL (EXTRACTION TRANSFORMATION AND LOAD)

CAPTURA LA DATA PROVENIENTE DE BASES DE DATOS RELACIONALES COMO XML PARA LUEGO SER
ENVIADA A UN ÁREA INTERMEDIA PARA EL PROCESO DE TRANSFORMACIÓN EN BASE A UNA SERIE DE
REGLAS; POSTERIORMENTE LOS DATOS SE CARGAN EN UNA BODEGA Y SON USADOS PARA ANALÍTICA.
• LA TECNOLOGÍA ELT NO ES ÓPTIMA PARA EL ANÁLISIS DE DATOS SEMIESTRUCTURADOS O NO

ESTRUCTURADOS POR LO QUE LA TECNOLOGÍA ELT (EXTRACTION, LOAD AND TRANSFORMATION) ES UNA
MEJOR ALTERNATIVA.
PROCESO DE ELT
• SE EXTRAE TODA LA DATA ESTRUCTURADA Y NO ESTRUCTURADA
• SE CARGAN A UN REPOSITORIO DE DATOS (LAGO DE DATOS) DONDE SE REALIZAN LAS
TRANSFORMACIONES
• EL LAGO DE DATOS PERMITE APROVECHAR EL USO DEL PROCESAMIENTO DISTRIBUIDO PARA ACELERAR
LAS TRANSFORMACIONES.
• EL RESULTADO DE LA TRANSFORMACIÓN DE USA EN ANALÍTICA.

DATA WAREHOUSE VS DATA LAKE
• DATA WAREHOUSE: BODEGA DE DATOS, ALMACENA DATOS PREVIAMENTE YA PROCESADOS.

• DATA LAKE: LAGO DE DATOS, ALMACENA LOS DATOS CRUDOS, SIN PROCESAMIENTO ANTERIOR.
• EN EL LAGO DE DATOS NO SE REQUIERE UNA ESTRUCTURA, ES SENCILLO ACCEDER Y REALIZAR CAMBIOS.

• LA BODEGA DE DATOS ES MAS COSTOSA DE MANIPULAR, PERO ES MÁS FÁCIL DE DESCIFRAR.
GRUPOS DE BIG DATA
• ARQUITECTURA POR LOTES: COLECCIÓN DE DATOS QUE HAN SIDO AGRUPADOS EN UN INTERVALO DE
TIEMPO ESPECIFICO.
• ARQUITECTURA EN TIEMPO REAL: ABORDAN DATA CONTINUA, CON POCA LATENCIA.
• EXISTEN ARQUITECTURAS INTERMEDIAS EN EL ESPECTRO COMO LOS MICRO BATCHES, QUE IMPLICAN
USAR INGESTA POR LOTES EN INTERVALOS DE TIEMPO PEQUEÑOS.
PROCESAMIENTO POR LOTES
• ADECUADO PARA MANEJAR GRANDES VOLÚMENES DE DATOS O AQUELLOS PROVENIENTES DE SISTEMAS

INFORMÁTICOS HEREDADOS DONDE NO ES POSIBLE OBTENER DATOS EN TIEMPO REAL.
• REQUIERE CARGAR DATOS POR LOTES A UN LAGO DE DATOS PARA SU POSTERIOR PROCESAMIENTO.
PROCESAMIENTO POR STREAMING (TIEMPO REAL)
• FUNCIONA EFICIENTEMENTE EN CONTEXTOS DE FLUJOS CONSTANTES DE DATOS DONDE SE REQUIERE

ANÁLISIS Y TOMA DE DECISIONES RÁPIDAMENTE.
• POSEEN UNA ARQUITECTURA ORIENTADA A MANEJAR EVENTOS INDIVIDUALMENTE, TAL QUE SE PROCEDA
A PROCESAR LA DATA TAN PRONTO SE GENERE EL EVENTO.
CUANDO ES EFICIENTE EL USO DEL BIG DATA
• ES USUALMENTE UTILIZADO CUANDO SE HABLA EN TÉRMINOS DE PETABYTES Y EXABYTES DE DATOS
• GIGABYTE: 10^9
• TERABYTE: 10^12
• PETABYTE: 10^15
• EXABYTE: 10^18
• LAS BASES DE DATOS CONVENCIONALES SON UNA PARTE IMPORTANTE Y RELEVANTE PARA UNA SOLUCIÓN
ANALÍTICA.
TIPOS DE DATOS
• WEB AND SOCIAL MEDIA: INFORMACIÓN QUE ES OBTENIDA DE LAS REDES SOCIALES.
• BIOMETRICS: HUELLAS DIGITALES, ESCANEOS, RECONOCIMIENTO FACIAL, GENÉTICA, ...
• MACHINE TO MACHINE: TECNOLOGÍAS QUE PERMITEN CONECTARSE A OTROS DISPOSITIVOS.
• HUMAN GENERATED: GENERADO POR LAS PERSONAS A TRAVÉS DE LLAMADAS, CORREOS, DOCUMENTOS,
…
• BIG TRANSACTION DATA: REGISTROS DE FACTURACIÓN Y RELACIONADOS CON TELECOMUNICACIONES.

COMPONENTES DE UNA PLATAFORMA BIG DATA
• PLATAFORMAS DE CÓDIGO ABIERTO (HADOOP) EL CUAL CONSISTE EN DIVIDIR EN DOS TAREAS (MAPER –
REDUCER) PARA MANIPULAR LOS DATOS DISTRIBUIDOS A NODOS DE UN CLÚSTER LOGRANDO UN ALTO
PARALELISMO EN EL PROCESAMIENTO.
• HADOOP SE COMPONE DE TRES PIEZAS: 1. HADOOP DISTRIBUTED FILE SYSTEM (HDFS) 2. HADOOP
MAPREDUCE Y HADOOP COMMON.
HDFS
• LOS DATOS EN EL CLUSTER DE HADOOP SON DIVIDIDOS EN PEQUEÑAS PIEZAS LLAMADAS BLOQUES Y
DISTRIBUIDAS A TRAVÉS DEL CLUSTER
• LAS FUNCIONES MAP Y REDUCE PUEDEN SER EJECUTADS EN PEQUEÑOS SUBCONJUNTOS

• SE PROVEE LA ESCALABILIDAD NECESARIA PARA EL PROCESAMIENTO DE GRANDES VOLÚMENES
• CADA BLOQUE ES ALMACENADO TRES VECES Y ALMENOS UN BLOQUE SE ALMACENA EN UN DIFERENTE
RACK PARA LOGRAR REDUNDANCIA
HADOOP MAPREDUCE
• ES EL NUCLEO DE HADOOP.
• SE REFIERE A DOS PROCESOS SEPARADOS QUE HADOOP EJECUTA: 1. MAP 2. REDUCE
• MAP TOMA UN CONJUNTO DE DATOS, LO CONVIERTE EN OTRO CONJUNTO DONDE LOS ELEMENTOS INDIVIDUALES
SON SEPARADOS EN TUPLAS.
• REDUCE OBTIENE LA SALIDA DE MAP COMO DATOS DE ENTRADA Y COMBINA LAS TUPLAS EN UN CONJUNTO MÁS
PEQUEÑO DE LAS MISMAS.
• UNA FASE INTERMEDIA ES L DENOMINADA SHUFFLE, LA CUAL OBTIENE LAS TUPLS DEL PROCESO MAP Y DETERMINA
QUE NODO PROCESARÁ ESTOS DATOS DIRIGIENDO LA SALIDA A UNA TAREA REDUCE EN ESPECIFICO.
HADOOP COMMON
• ES UN CONJUNTO DE LIBRERÍAS QUE SOPORTAN VARIOS SUBPROYECTOS DE HADOOP.
• ADEMÁS DE ESTOS TRES COMPONENTES EXISTEN OTROS PROYECTOS RELACIONADOS
• ES UN SERVICIO QUE DA ACCESO A LOS SISTEMAS DE ARCHIVOS SOPORTADOS POR HADOOP, EL SOFTWARE
CONTIENE LOS ARCHIVOS CON EXTENSIÓN .JAR Y LOS SCRIPTS NECESARIOS PAR EJECUTAR LA HERRAMIENTA, EL
PAQUETE TAMBIÉN PROPORCIONA CÓDIGO FUENTE, DOCUMENTACIÓN PROYECTOS DE LA COMUNIDAD.
• SCRIPT. DOCUMENTO QUE CONTIENE INSTRUCCIONES ESCRITAS EN CÓDIGO DE PROGRAMACIÓN.

• JAQL: LENGUAJE FUNCIONAL Y DECLARTIVO QUE PERMITE
LA EXPLOTACIÓN DE DATOS EN FORMATO JSON DISEÑADO
OTROS PROYECTOS PARA PROCESAR GRANDES VOLÚMENES DE
INFORMACIÓN.
• AVRO: PROYECTO DE APACHE QUE PROVEE SERVICIOS DE • LUCENE: LIBRERIAS PARA INDEXACIÓN Y BUSQUEDA DE
SERIALIZACIÓN. TEXTO.
• CASSANDA: PERMITE GRANDES VOLÚMENES DE DATOS EN • OOZIE: SIMPLIFIA LOS FLUJOS DE TRABAJO Y LA
FORMA DISTRIBUIDA. COORDINACIÓN ENTRE CDA UNO DE LOS PROCESOS.
• CHUKWA: COLECCIÓN Y ANÁLISIS A GRAN ESCAL DE “LOGS” • PIG: EMBIENTE DE EJECUCIÓN DE PROGRAMAS SIMILAR A
• FLUME: DIRIGE LOS DATOS DE UNA FUENTE HCUA LGUNA JAVA Y SU APLICCIÓN.
OTRA LOCLIDAD (MBIENTE DE HADOOP).
• ZOOKEEPER: PUEDE CREAR UN ARCHIVO QUE SE
• HBASE: BASE DE DATOS COLUMNAR QUE SE EJECUTA EN PERSISTE EN MEMORIA DE LOS SERVIDORES ZOOKEEPER,
HDFS.
ES UN SERVIDOS QUE PUEDE SER CONFIGURADO PARA
• HIVE: INFRAESTRUCTURA DE DATA WAREHOUSE. VIGILAR UN ZNODE EN PARTICULAR.
BIG DATA
• ES TODO UN ECOSISTEMA DE PROYECTOS QUE EN CONJUNTO PERMITEN SIMPLIFICAR, ADMINISTRAR,

COORDINAR Y ANALIZAR GRANDES VOLÚMENES DE INFORMACIÓN.
LINKS
• HTTPS://WWW.ORACLE.COM/CO/BIG-DATA/
• HTTPS://WWW.PANDAID.COM/BIG-DATA-PROCESOS-EN-TIEMPO-REAL/
• HTTPS://WWW.IBM.COM/DEVELOPERWORKS/SSA/LOCAL/IM/QUE-ES-BIG-DATA/INDEX.HTML

Big Data 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data 1

Cargado por

Copyright:

Formatos disponibles

B IG D A TA

• EXISTEN PLATAFORMAS COMO ORACLE QUE DENTRO DE LA ADMINISTRACIÓN DE DATOS ABSORBEN

• EL RESULTADO ES LA COMBINACIÓN COHESIONADA DE ESCALABILIDAD Y EFICIENCIA CON COMPONENTES

• LA INTEGRACIÓN SE ENCARGA DE ASIMILAR, ADMINISTRAR E IMPLEMENTARLAS PARA LAS NECESIDADES

• LOS LAGOS DE DATOS Y LABORATORIOS DE DATOS BASADOS EN LA NUBE PROPORCIONAN

• DESDE VISUALIZACIONES SIMPLES COMO DE POTENTES ALGORITMOS DE APRENDIZAJE AUTOMÁTICO.

• LA METODOLOGÍA TRADICIONAL CONOCIDA COMO ETL (EXTRACTION TRANSFORMATION AND LOAD)

• LA TECNOLOGÍA ELT NO ES ÓPTIMA PARA EL ANÁLISIS DE DATOS SEMIESTRUCTURADOS O NO

• EL RESULTADO DE LA TRANSFORMACIÓN DE USA EN ANALÍTICA.

• DATA WAREHOUSE: BODEGA DE DATOS, ALMACENA DATOS PREVIAMENTE YA PROCESADOS.

• EN EL LAGO DE DATOS NO SE REQUIERE UNA ESTRUCTURA, ES SENCILLO ACCEDER Y REALIZAR CAMBIOS.

• ARQUITECTURA EN TIEMPO REAL: ABORDAN DATA CONTINUA, CON POCA LATENCIA.

• ADECUADO PARA MANEJAR GRANDES VOLÚMENES DE DATOS O AQUELLOS PROVENIENTES DE SISTEMAS

• FUNCIONA EFICIENTEMENTE EN CONTEXTOS DE FLUJOS CONSTANTES DE DATOS DONDE SE REQUIERE

• ES USUALMENTE UTILIZADO CUANDO SE HABLA EN TÉRMINOS DE PETABYTES Y EXABYTES DE DATOS

• BIG TRANSACTION DATA: REGISTROS DE FACTURACIÓN Y RELACIONADOS CON TELECOMUNICACIONES.

• LAS FUNCIONES MAP Y REDUCE PUEDEN SER EJECUTADS EN PEQUEÑOS SUBCONJUNTOS

• SCRIPT. DOCUMENTO QUE CONTIENE INSTRUCCIONES ESCRITAS EN CÓDIGO DE PROGRAMACIÓN.

• ES TODO UN ECOSISTEMA DE PROYECTOS QUE EN CONJUNTO PERMITEN SIMPLIFICAR, ADMINISTRAR,

También podría gustarte