Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Big Data 1
Big Data 1
BIG DATA
• BIG DATA SE UTILIZA PARA MAXIMIZAR LA EFICIENCIA Y AUMENTAR LOS INGRESOS EN LOS PROCESOS DE
FABRICACIÓN, VENTAS, RRHH, EXPERIENCIA DEL CLIENTE, ENTRE OTROS.
• INTEGRACIÓN DE BIG DATA: PROPORCIONA TODOS LOS DISTINTOS TIPOS DE DATOS A LA EMPRESAS, YA
SEAN DATOS EN REPOSO O EN MOVIMIENTO Y DE CARÁCTER INTERNO O EXTERNO.
• ADMINISTRACIÓN DE BIG DATA: MAXIMIZA LOS RECURSOS PARA ORGANIZACIONES DE TODOS LOS
TAMAÑOS PARA OBTENER MAYOR VALOR DE LOS DATOS Y PROCESOS ORGANIZATIVOS. (AMPLIACIÓN
ELÁSTICA, RENDIMIENTO DE CONSULTA RÁPIDO, ANÁLISIS Y FILTRO DE LOS DATOS DONDE RESIDEN,
SERVICIO AUTOMATIZADO, SERVICIOS EN LA NUBE).
• ANÁLISIS DE BIG DATA: APRENDIZAJE AUTOMÁTICO NECESARIOS PARA LOGRAR LOS OBJETIVOS
COMERCIALES EN SOLUCIONES ESCALABLES. (PREGUNTAR SOBRE CUALQUIER TIPO DE DATOS EN
CUALQUIER ENTORNO O DISPOSITIVO; MANEJO DE LAS CARGAS DE TRABAJO GRÁFICAS, ESPACIALES DE
PROCESAMIENTO DE BASES DE DATOS COMO NOSQL; MACHINE LEARNING).
• EL LAGO DE DATOS PERMITE APROVECHAR EL USO DEL PROCESAMIENTO DISTRIBUIDO PARA ACELERAR
LAS TRANSFORMACIONES.
• EXISTEN ARQUITECTURAS INTERMEDIAS EN EL ESPECTRO COMO LOS MICRO BATCHES, QUE IMPLICAN
USAR INGESTA POR LOTES EN INTERVALOS DE TIEMPO PEQUEÑOS.
PROCESAMIENTO POR LOTES
• REQUIERE CARGAR DATOS POR LOTES A UN LAGO DE DATOS PARA SU POSTERIOR PROCESAMIENTO.
PROCESAMIENTO POR STREAMING (TIEMPO REAL)
• POSEEN UNA ARQUITECTURA ORIENTADA A MANEJAR EVENTOS INDIVIDUALMENTE, TAL QUE SE PROCEDA
A PROCESAR LA DATA TAN PRONTO SE GENERE EL EVENTO.
CUANDO ES EFICIENTE EL USO DEL BIG DATA
• GIGABYTE: 10^9
• TERABYTE: 10^12
• PETABYTE: 10^15
• EXABYTE: 10^18
• LAS BASES DE DATOS CONVENCIONALES SON UNA PARTE IMPORTANTE Y RELEVANTE PARA UNA SOLUCIÓN
ANALÍTICA.
TIPOS DE DATOS
• WEB AND SOCIAL MEDIA: INFORMACIÓN QUE ES OBTENIDA DE LAS REDES SOCIALES.
• BIOMETRICS: HUELLAS DIGITALES, ESCANEOS, RECONOCIMIENTO FACIAL, GENÉTICA, ...
• MACHINE TO MACHINE: TECNOLOGÍAS QUE PERMITEN CONECTARSE A OTROS DISPOSITIVOS.
• HUMAN GENERATED: GENERADO POR LAS PERSONAS A TRAVÉS DE LLAMADAS, CORREOS, DOCUMENTOS,
…
• PLATAFORMAS DE CÓDIGO ABIERTO (HADOOP) EL CUAL CONSISTE EN DIVIDIR EN DOS TAREAS (MAPER –
REDUCER) PARA MANIPULAR LOS DATOS DISTRIBUIDOS A NODOS DE UN CLÚSTER LOGRANDO UN ALTO
PARALELISMO EN EL PROCESAMIENTO.
• HADOOP SE COMPONE DE TRES PIEZAS: 1. HADOOP DISTRIBUTED FILE SYSTEM (HDFS) 2. HADOOP
MAPREDUCE Y HADOOP COMMON.
HDFS
• LOS DATOS EN EL CLUSTER DE HADOOP SON DIVIDIDOS EN PEQUEÑAS PIEZAS LLAMADAS BLOQUES Y
DISTRIBUIDAS A TRAVÉS DEL CLUSTER
• REDUCE OBTIENE LA SALIDA DE MAP COMO DATOS DE ENTRADA Y COMBINA LAS TUPLAS EN UN CONJUNTO MÁS
PEQUEÑO DE LAS MISMAS.
• UNA FASE INTERMEDIA ES L DENOMINADA SHUFFLE, LA CUAL OBTIENE LAS TUPLS DEL PROCESO MAP Y DETERMINA
QUE NODO PROCESARÁ ESTOS DATOS DIRIGIENDO LA SALIDA A UNA TAREA REDUCE EN ESPECIFICO.
HADOOP COMMON
• ES UN CONJUNTO DE LIBRERÍAS QUE SOPORTAN VARIOS SUBPROYECTOS DE HADOOP.
• ADEMÁS DE ESTOS TRES COMPONENTES EXISTEN OTROS PROYECTOS RELACIONADOS
• ES UN SERVICIO QUE DA ACCESO A LOS SISTEMAS DE ARCHIVOS SOPORTADOS POR HADOOP, EL SOFTWARE
CONTIENE LOS ARCHIVOS CON EXTENSIÓN .JAR Y LOS SCRIPTS NECESARIOS PAR EJECUTAR LA HERRAMIENTA, EL
PAQUETE TAMBIÉN PROPORCIONA CÓDIGO FUENTE, DOCUMENTACIÓN PROYECTOS DE LA COMUNIDAD.
• AVRO: PROYECTO DE APACHE QUE PROVEE SERVICIOS DE • LUCENE: LIBRERIAS PARA INDEXACIÓN Y BUSQUEDA DE
SERIALIZACIÓN. TEXTO.
• CASSANDA: PERMITE GRANDES VOLÚMENES DE DATOS EN • OOZIE: SIMPLIFIA LOS FLUJOS DE TRABAJO Y LA
FORMA DISTRIBUIDA. COORDINACIÓN ENTRE CDA UNO DE LOS PROCESOS.
• CHUKWA: COLECCIÓN Y ANÁLISIS A GRAN ESCAL DE “LOGS” • PIG: EMBIENTE DE EJECUCIÓN DE PROGRAMAS SIMILAR A
• FLUME: DIRIGE LOS DATOS DE UNA FUENTE HCUA LGUNA JAVA Y SU APLICCIÓN.
OTRA LOCLIDAD (MBIENTE DE HADOOP).
• ZOOKEEPER: PUEDE CREAR UN ARCHIVO QUE SE
• HBASE: BASE DE DATOS COLUMNAR QUE SE EJECUTA EN PERSISTE EN MEMORIA DE LOS SERVIDORES ZOOKEEPER,
HDFS.
ES UN SERVIDOS QUE PUEDE SER CONFIGURADO PARA
• HIVE: INFRAESTRUCTURA DE DATA WAREHOUSE. VIGILAR UN ZNODE EN PARTICULAR.
BIG DATA
• HTTPS://WWW.ORACLE.COM/CO/BIG-DATA/
• HTTPS://WWW.PANDAID.COM/BIG-DATA-PROCESOS-EN-TIEMPO-REAL/
• HTTPS://WWW.IBM.COM/DEVELOPERWORKS/SSA/LOCAL/IM/QUE-ES-BIG-DATA/INDEX.HTML