Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BigData Tools PDF
BigData Tools PDF
Resumen
Este documento brinda una breve introducción al uso de las herra-
mientas de código abierto más populares que hacen parte del ecosistema
de Hadoop en el contexto de Big Data, las cuales están incluidas en el
ambiente de Cloudera Distribution Hadoop (CDH).
Especı́ficamente se realizan algunos casos de uso analı́tico tomados y
adaptados de la documentación oficial de Cloudera con fines académicos,
sin pretender ser una guı́a exhaustiva, ni remplazar la documentación
oficial.
Se asume que el lector esta familiarizado con los fundamentos de Big
Data, la arquitectura de Haddop, el uso de MapReduce y tiene conceptos
y habilidades tanto en programación como en bases de datos relacionales.
Introducción
En cualquier prueba de concepto (PoC ) exitosa se deben abordar problemáti-
cas que sean de interés para la organización. Por lo tanto, lo primero que debe
hacer es definir una pregunta de negocio (BQ).
Los ejercicios se realizaran en el contexto de una empresa llamada DataCo,
y su misión como Especialista es ayudar a esta empresa a obtener una mejor
visión formulando y resolviendo grandes interrogantes de negocio.
* seramirezf@correo.udistrital.edu.co
1
Figura 1: Modelo de datos relacional de DataCo. Fuente: Cloudera, 2017
sqoop import-all-tables \
-m 1 \
--connect jdbc:mysql://10.0.2.15:3306/retail_db \
--username=retail_dba \
--password=cloudera \
--compression-codec=snappy \
--as-parquetfile \
--warehouse-dir=/user/hive/warehouse \
--hive-import
6. Confirme que los datos fueron importados en HDFS mediante las siguien-
tes instrucciones, una vez finalice la ejecución de las anteriores:
2
hadoop fs -ls /user/hive/warehouse/
hadoop fs -ls /user/hive/warehouse/categories/
7. Describa el resultado obtenido en cada caso.
8. Abra un navegador web e ingrese a http://10.0.2.15:8888 para iniciar Hue
invalidate metadata;
show tables;
14. Recupere los 10 productos más vendidos mediante la siguiente consulta
3
16. Plante y resuelva otro BQ para DataCo que sea de su interés como Espe-
cialista, considerando para ello el modelo de datos relacional de DataCo
y usando SQL.
17. ¿Por qué si la ingesta de datos se realizó sobre Hive es posible consultarlos
desde Impala ?