ETL Extraccion

Universidad Central
Maestría en Analítica de Datos

Asignatura Big Data
Taller N° 002 - ETL - Extracción de datos
Grupo No 7
Resumen
La etapa de extracción de datos. implica que la extracción de datos se tenga que realizar
adaptando los datos extraídos de forma individualizada en cada fuente de origen, que se
adapta a un formato estándar y uniformado para poder gestionar más adelante los datos
resultantes.
Objetivos del trabajo

● Diseñar y crear un proceso de extracción de datos en Python que utiliza como datos
de prueba los archivos del proyecto de la asignatura. El proceso debe incluir todos los
pasos necesarios para la extracción de los datos.
● Crear el diseño del proceso de carga en un diagrama de flujo. El diagrama debe incluir
el control de los posibles errores al momento de cargar un archivo.
● Crear un conjunto de seis pruebas o validaciones que garanticen la calidad de la
extracción y permitan aplicar el proceso a diferentes conjuntos de datos. La
implementación de las validaciones se debe realizar en la clase de validaciones.
● Presentar una interpretación a partir de la exploración estadística descriptiva del
conjunto de datos obtenida mediante una herramienta de profiling.
Requerimientos
Funcionales
● El proceso recibe como entrada el nombre de un dataset alojado en kaggle.

● La salida del proceso es un conjunto de datos con los campos necesarios para realizar
un análisis descriptivo.
Regulatorios
● La fuente de datos corresponde al repositorio de fuente de datos de kaggle.

● Las fuentes de datos de los repositorios de kaggle utilizada para este caso, no presenta
ningún tipo de restricción legal para su uso y manipulación, para temas de academia y
trabajos pueden ser utilizada sin ningún inconveniente de tipo legal, moral o afines.
Habilidades técnicas disponibles
● Conocimiento básico en Python.

● Habilidades ofimáticas
● Pensamiento lógico
Descripción de los datos
La información contenida en la base de datos “Películas y programas de televisión de

Netflix“ en un detalle son 8.807 títulos audiovisuales los cuales el 70% de los datos
corresponden a películas y el restante a programas de televisión los cuales son continuos y
tienen episodios, pero si se tomaran los episodios de los programas serian una mayoría
absoluta respecto a las películas
La data contiene 12 columnas clasificadas a continuación
1. show_id: identificación única para cada película/programa de televisión

2. tipo: una película o un programa de televisión distribuidor (70% y 30% respectivamente)
3. título: Título de la película/programa de televisión sin datos nulos
4. director: Director de la película con un 30% de datos nulo
5. Reparto: Actores involucrados en la Película/Espectáculo con un 9% de datos nulos
6. país: país donde se produjo la película/espectáculo-sin datos nulos
7. date_added: fecha en que se agregó en Netflix-sin datos nulos
8. release_year: Año de lanzamiento real de la mudanza/espectáculo-sin datos nulos
9. calificación: calificación de TV de la película / programa-sin datos nulos
10. duración: Duración total - en minutos o número de temporadas-sin datos nulos
11. listado_en: Género de la película/programa de televisión-sin datos nulos
12. descripción: Resumen de la película/programa de televisión-sin datos nulos
Reglas de validación
Supuestos que se deben cumplir para garantizar la carga de los datos
● Conjuntos únicos de datos.
● Evitar el truncamiento en los datos.
Metodología
Para la implementación del proceso de almacenamiento se presentan una autenticación de

Kaggle
Para que el proceso de almacenamiento se pueda realizar es necesario que los procesos
anteriores hayan terminado correctamente, debido a que el proceso de transformación es
quien entrega el insumo necesario para poder realizar el almacenamiento en las dos
plataformas anteriormente mencionadas.
Con los insumos necesarios para iniciar el almacenamiento se realiza los siguientes pasos:
1. Realizar la conexión con la base de datos Kaggle creada por medio de una API, se
valida que la conexión es exitosa para continuar con el siguiente paso, en caso de
fallar el proceso se detiene con error.
2. Se crea una copia del archivo en csv.
3. Se procede a realizar el cargue de datos y usar las utilidades y realizar el

preprocesamiento.
4. Ejecutar los procesos principales y obtener los resultados

Diagrama del proceso
Ver anexo No. 4
Interpretación y análisis descriptivo
Este conjunto de datos consta de programas de televisión y películas disponibles en Netflix

del año 2015 a enero 2020.
El análisis descriptivo permite evidenciar un total de 8.807 películas y programas de

televisión contenidos en un periodo de 5 años; como se había mencionado en la sección de
descripción de la información, los tipos de variables y la cantidad de valores únicos se
presenta en la siguiente tabla:
Descripció Valores Tipo de

n únicos variables
show_id 8807 object
type 2 object
title 8807 object
director 4528 object
cast 7692 object
country 748 object
date_added 1767 object
release_yea
r 74 int64
rating 17 object
duration 220 object
listed_in 514 object
description 8775 object
De la información obtenida del paquete SweetVIZ se logra evidenciar que se cuenta con 8807
filas, 0 valores duplicados, 12 variables de las cuales 2 son categóricas, 1 numérica y 9 tipo
string.
En el anexo No. 1 se logra determinar que la mayor proporción de contenido corresponde a
películas con un porcentaje cercano a 70% y el restante a programas de televisión.
Así mismo se puede evidenciar que la variable Director tiene un 30% de la información
faltante.
El anexo No. 2 permite evidenciar que el 35% de los títulos contenidos en la base de datos
corresponde al país de origen EEUU; adicionalmente la mayor proporción de contenido fue
incluido en la vigencia 2019 con un total de 2016 títulos.
Finalmente en el anexo No. 3 se puede evidenciar que 1.793 programas (20%) tienen una
duración de 1 temporada.
Bibliografía
Ernest, S. M., Valone, T. J., & Brown, J. H. (2009). Long‐term monitoring and experimental
manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA: Ecological
Archives E090‐118. Ecology, 90(6), 1708-1708.
Anexos
Anexo No. 1
Anexo No. 2
Anexo No. 3
Anexo No. 4

ETL Extraccion

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ETL Extraccion

Cargado por

Copyright:

Formatos disponibles

Universidad Central

Maestría en Analítica de Datos

Objetivos del trabajo

● El proceso recibe como entrada el nombre de un dataset alojado en kaggle.

● La fuente de datos corresponde al repositorio de fuente de datos de kaggle.

Habilidades técnicas disponibles

● Conocimiento básico en Python.

Descripción de los datos

La información contenida en la base de datos “Películas y programas de televisión de

La data contiene 12 columnas clasificadas a continuación

1. show_id: identificación única para cada película/programa de televisión

Para la implementación del proceso de almacenamiento se presentan una autenticación de

2. Se crea una copia del archivo en csv.

3. Se procede a realizar el cargue de datos y usar las utilidades y realizar el

4. Ejecutar los procesos principales y obtener los resultados

Interpretación y análisis descriptivo

Este conjunto de datos consta de programas de televisión y películas disponibles en Netflix

El análisis descriptivo permite evidenciar un total de 8.807 películas y programas de

Descripció Valores Tipo de

También podría gustarte