Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ETL Extraccion
ETL Extraccion
Resumen
La etapa de extracción de datos. implica que la extracción de datos se tenga que realizar
adaptando los datos extraídos de forma individualizada en cada fuente de origen, que se
adapta a un formato estándar y uniformado para poder gestionar más adelante los datos
resultantes.
Requerimientos
Funcionales
Reglas de validación
Supuestos que se deben cumplir para garantizar la carga de los datos
● Conjuntos únicos de datos.
● Evitar el truncamiento en los datos.
Metodología
Para que el proceso de almacenamiento se pueda realizar es necesario que los procesos
anteriores hayan terminado correctamente, debido a que el proceso de transformación es
quien entrega el insumo necesario para poder realizar el almacenamiento en las dos
plataformas anteriormente mencionadas.
Con los insumos necesarios para iniciar el almacenamiento se realiza los siguientes pasos:
1. Realizar la conexión con la base de datos Kaggle creada por medio de una API, se
valida que la conexión es exitosa para continuar con el siguiente paso, en caso de
fallar el proceso se detiene con error.
De la información obtenida del paquete SweetVIZ se logra evidenciar que se cuenta con 8807
filas, 0 valores duplicados, 12 variables de las cuales 2 son categóricas, 1 numérica y 9 tipo
string.
En el anexo No. 1 se logra determinar que la mayor proporción de contenido corresponde a
películas con un porcentaje cercano a 70% y el restante a programas de televisión.
Así mismo se puede evidenciar que la variable Director tiene un 30% de la información
faltante.
El anexo No. 2 permite evidenciar que el 35% de los títulos contenidos en la base de datos
corresponde al país de origen EEUU; adicionalmente la mayor proporción de contenido fue
incluido en la vigencia 2019 con un total de 2016 títulos.
Finalmente en el anexo No. 3 se puede evidenciar que 1.793 programas (20%) tienen una
duración de 1 temporada.
Bibliografía
Ernest, S. M., Valone, T. J., & Brown, J. H. (2009). Long‐term monitoring and experimental
manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA: Ecological
Archives E090‐118. Ecology, 90(6), 1708-1708.
Anexos
Anexo No. 1
Anexo No. 2
Anexo No. 3
Anexo No. 4