Está en la página 1de 9

1

ACTIVIDAD PRACTICA APLICADA NO. 2


EXTRACCIÓN Y LIMPIEZA DE DATOS
TRABAJO COLABORATIVO

Jaime Fabian Bejarano León

Carlos José Jiménez García

Jhon Alexander Morales Gaitán

Profesor:

Camilo Alfonso Salamanca Guaque

Fundación Universitaria Compensar

Ingeniería De Sistemas

Extracción Transformación Y Carga De Datos

Modalidad De Formación Virtual

2022
2

TABLA DE CONTENIDOS

1. Introducción …………………………………………………………………… 3
2. Objetivos ………………………………………………………………………. 4
3. Justificación …………………………………………………………………… 5
4. Contextualización ………………………………………………………..……. 6
5. Discusión del análisis hecho en grupo …………………………………..…. 7
6. Conclusiones …………………………………………………………………...8
7. Bibliografía ……………………………………………………………………...9
3

INTRODUCCION

Dada la cantidad de datos que se pueden encontrar en la base de datos de la página


web www.datos.gov.co y como consecuencia de poder diligenciar la actividad
correspondiente en la materia Extracción, Transformación y Carga de datos, ETL, Teniendo
en cuenta lo planteado en la guía de trabajo se realizó la consulta de diferentes conjuntos
de datos, el grupo decidió entre todos los accesos posibles, identificar para ello el enlace
https://www.datos.gov.co/Educaci-n/Estudiantes-Matriculados-y-Graduados-CEFIT/a3jg-
j674.
La idea principal en base a nuestra elección de este conjunto de datos es manipular
y gestionar los datos suficientes con el objetivo de una mejor transformación y resultados
de lo que se requiera cuando se necesite el análisis correspondiente para las actividades a
desarrollar en las próximas semanas.
Esperamos con ellos el poder cumplir con las acciones requeridas y mantener el
aprendizaje de nuestra materia saliendo avante en los aspectos requeridos de nuestras
próximas actividades.
4

OBJETIVOS

• Conocer las diferentes técnicas para modelado y diseño de los procesos de


Extracción, transformación y Carga de datos.
• Conocer los orígenes y aspectos importantes de ETL durante el tiempo desde
su creación, los cuales han generado su evolución como proceso fundamental.
• Establecer, conocer y determinar la estructura de los datos en los procesos ETL.
• Conocer y tener presente las reglas de los modelos Relacionales o Modelos
SQL.
• Establecer la importancia de os Modelos NoSQL en los procesos SQL.
• Reconocer la importancia de los procesos ETL en la toma de decisiones
Empresariales o de negocios.
• Conocer la estructuración y no estructuración de la informacion requerida para
las bases de datos.
• Tener un acercamiento en el contexto social-laboral donde se desempeñe o se
necesite.
• Verificar que los datos obtenidos sean confiables y provengan a la vez de una
fuente confiable.
• Enriquecer las experiencias vividas en la realización de la toma de los datos y
por ende del resultado final de estos.
5

JUSTIFICACION

Mediante el acceso a las diferentes bases de datos, obtenemos de ellos los


necesarios para poder entender y clasificar en el mismo nivel del aprendizaje continuo de
los datos fiables y verificables, aunque debemos tener en cuenta la veracidad de los mismos
y poder obtener una fiabilidad del cien por ciento en todo lo que necesitemos filtrar, con el
fin de trabajar sobre hechos y números reales, sin dejar al azar interpretaciones o resultados
sin fundamento o que sean de invención de alguno de los participantes.

Es necesario para lograr los objetivos propuestos no solo la intención de encontrar datos
en cualquier lugar o base de datos, sino verificar que estos sean reales y fiables y poder
contener la interpretación a la realidad, no solo por el aprendizaje directo de los mismos,
sino por la interpretación y el tener una base real y tener como finalidad una nueva
estructuración acorde a las necesidades que veamos o que nos exijan, su interpretación y
dejar esta nueva estructuración o una nueva base de datos para otros que deseen o
necesiten terminar con algún requerimiento especifico.
6

CONTEXTUALIZACION

En nuestro grupo decidimos entrar a la pagina web, www.datos.gov.co y después


de realizar la correspondiente afiliación e ingresar a las bases de datos, datos abiertos
Colombia, encontramos una base de datos correspondiente a los Estudiantes Matriculados
y Graduados CEFIT , pertenecientes al sector educativo colombiano, actualizado a fecha
22 de marzo de 2022.

Esta tabla de datos ha sido creada con fecha 16 de marzo de 2022, ofrecido para su
visualización por Jaider Velásquez Agudelo.

Encontramos entre otras, las siguientes columnas sobre los estudiantes graduados y
matriculados, Genero, Municipio de nacimiento, Pais, Municipio de residencia, Barrio
Direccion, Estrato, Estado civil, EPS, Grupo Sisbén, Zona, Nivel de formación, Ocupación,
Medio de transporte, Multiculturalidad, estado, Fecha de matrícula, Jornada, Programa,
periodo, nivel, Edad, para un total de 21 columnas.

Diferenciamos entonces Los datos del estudiante, tales como género, donde nació, pais
donde nació, municipio donde vive, cual barrio, la direccion y el estrato, del estudiante
conoceremos su estado civil, en cual EPS se encuentra activo, que grupo de Sisbén tiene,
que zona, su nivel de formación y su ocupación, cual medio de transporte utiliza, que
multiculturalidad tiene, su estado de estudio, si es graduado, si cancelo o si esta inactivo,
la fecha en que se matriculo, en qué jornada estudio, que programa estudio y en qué periodo
del año estaba, en que nivel de estudios se encontraba y la edad en años.

Obtenemos también los datos están en idioma español, la cobertura de estos datos es
municipal, se debe actualizar anualmente, así como los datos de información de la entidad
que los entrega, dentro del ámbito del departamento académico, como Centro de
Formación Integral para El Trabajo.

Este sitio donde se toman los datos para la tabla, esta ubicado en Envigado en el
Departamento de Antioquia en Colombia, dentro del sector territorial correspondiente al
CEFIT, dado también por la parte de educación.
7

DISCUSION DEL ANALISIS HECHO EN EL GRUPO

Se evidencio la entrega de tres tablas diferentes por parte de cada uno de los
integrantes del grupo, pero al revisar se obtuvo que alguna de las tablas por ejemplo la del
puntaje del icfes por departamento, se encontraba desactualizada al año 2020, mientras
que evidenciamos que la tablahttps://www.datos.gov.co/Educaci-n/Estudiantes-
Matriculados-y-Graduados-CEFIT/a3jg-j674, se encontraba actualizada a marzo de 2022.

Otro de los puntos que se discutió es que la tabla tiene una cantidad de 21 columnas con
diferentes datos, los cuales parecen mas interesantes a tratar y manejar, pues sabemos
que, sobre esta tabla, buscaremos diferentes filtros y obtendremos informacion.
Por otro lado, se discutió sobre la fiabilidad de los datos encontrados en la tabla ya
mencionada, y consideramos que se observó una trasparencia y fiabilidad del cien por
ciento, así que decidió el grupo dejar la tabla del CEFIT.
De igual manera este conjunto de datos fácilmente representa ejemplo de la vida real y
laboral en cual debe manejar y ejecutar los procesos ETL. Ya que sus diferentes columnas
y datos ya ingresados pueden ser replanteados o formateados según se requiera en la
unidad de negocio y actividad nos afianzara capacidades y conocimientos los cuales son
objetivos del curso ETL.
8

CONCLUSIONES

Podemos concluir con seguridad que se logran los objetivos y se mantiene nuestra
tabla de datos, con la seguridad plena que servirá para posibles acciones dentro de la
materia ETL, teniendo la certeza que estos datos son fiables en un cien por ciento, sin temor
a obtener errores en las mediciones que hagamos de ellos.

Se logra la identificación de una base de datos, como fue solicitada en nuestra actividad
dos, y se hace un consentimiento en el grupo sobre la utilización de esta tabla como
representativa dentro de nuestro trabajo y que cumple con los parámetros para su
utilización, así que decidimos dejar nuestra tabla como bandera de nuestro grupo.
9

BIBLIOGRAFIA

• Conjunto de Datos: Estudiantes Matriculados y Graduados CEFIT (Enero


22 del 2022), Publicado el 22 de Enero del 2022.
https://www.datos.gov.co/Educaci-n/Estudiantes-Matriculados-y-Graduados-
CEFIT/a3jg-j674

• Aprender Big Data. (2019, May 5). Top 5 herramientas ETL empresariales
2019 en 1 minuto - Aprender BIG DATA #14 [Video].YouTube.
https://www.youtube.com/watch?v=ly2O_I3stls.

• Paquete SCORM curso EXTRACCION TRANSFORMACION Y CARGA DE


DATOS, 2022.
https://virtual.ucompensar.edu.co/mod/scorm/player.php?a=33828&currentorg=Ge
stionredes-
Recon_ORG&scoid=80052&sesskey=xAwMc75GQD&display=popup&mode=norm
al

• ETL: todo sobre el proceso de Extract, Transform and Load, Emanuele


Carisio, https://blog.mdcloud.es/que-es-etl-extraccion-transformacion-y-carga/

• Historia de las herramientas ETL, Daniel Ciruelo, https://blog.bi-


geek.com/historia-las-herramientas-etl/

También podría gustarte