Está en la página 1de 5

ANÁLISIS EXPLORATORIO

CON APACHE HIVE SOBRE


HDFS
Actividad grupal

Ingeniería para el Procesado Masivo de Datos

Sí No A veces

Todos los miembros se han integrado en el trabajo del grupo.

Todos los miembros participan activamente.

Todos los miembros respetan otras ideas aportadas.

Todos los miembros participan en la elaboración del informe.

Me he preocupado por realizar un trabajo cooperativo con mis compañeros.

Señala si consideras que algún aspecto del trabajo en grupo no ha sido adecuado.

KERLY REYES.
ANDRÉS MACÍAS.
GIORGIA CONGACHA.
PATRICIO VALLEJO.
RICARDO ALMEIDA. MARZO 2022
Ingeniería para el Procesado Masivo de Datos

GESTIÓN DE DIRECTORIOS Y FICHEROS EN HDFS

1. Subir los ficheros de datos al sistema de ficheros local

2. Crear una carpeta en el directorio raíz de HDFS y copiar los ficheros de datos
subidos inicialmente al sistema de ficheros local en la carpeta recién creada en
HDFS.

3. Crear una tabla por cada uno de los ficheros de datos copiados en HDFS, con el
esquema más adecuado. Al menos, una de las tablas debe ser externa.

Tabla externa creada:

LABORATORIO 1
Ingeniería para el Procesado Masivo de Datos

CONSULTAS SQL Y CAPTURAS DE FUNCIONAMIENTO

4. Mostrar las cinco primeras filas de cada tabla cargada.

5. Contar el número de filas de cada tabla.

6. Estudiar el rango (máximo y mínimo) de cada variable numérica.

LABORATORIO 2
Ingeniería para el Procesado Masivo de Datos

7. Estudiar las diferentes categorías de las principales variables categóricas y el


número de filas correspondientes a cada categoría.

8. Buscar valores inexistentes o anómalos.

En la tabla SALES existen valores negativos en la columna WEEKLY_SALES y en la


tabla FEATURES existen valores nulos en las CPI y UNEMPLOYMENT.

CONSIDERACIONES RELEVANTES PARA EL ANÁLISIS DEL NEGOCIO.

9. Realizar alguna operación join entre las tablas creadas.

Se propone identificar el ingreso por ventas versus los diferentes indicadores de la


región en donde se encuentra la tienda para definir un comportamiento de ventas,
para ello realizaremos una combinación de campos de las SALES y FEATURES.

LABORATORIO 3
Ingeniería para el Procesado Masivo de Datos

10. Obtener cualquier agregación

A través del presente análisis definimos cuales son las tiendas con los mayores
ingresos de ventas tanto semanales como anuales. Logrando identificar que la
tienda 20, 4 y 14 ocupan el top 3 de ventas.

11. Obtener cualquier agrupación y agregación

Finalmente, con la siguiente agrupación definiremos la relación entre el ingreso de


ventas versus su tamaño, lo que nos permitirá identificar la rentabilidad de aquellas
tiendas que no están generando una relación de costo beneficio comparado a las
instalaciones que ocupan.

LABORATORIO 4

También podría gustarte