Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Trabajo Colaborativo AP 2 - Extraccion y Limpieza de Datos
Trabajo Colaborativo AP 2 - Extraccion y Limpieza de Datos
Profesor:
Ingeniería De Sistemas
2022
2
TABLA DE CONTENIDOS
1. Introducción …………………………………………………………………… 3
2. Objetivos ………………………………………………………………………. 4
3. Justificación …………………………………………………………………… 5
4. Contextualización ………………………………………………………..……. 6
5. Discusión del análisis hecho en grupo …………………………………..…. 7
6. Conclusiones …………………………………………………………………...8
7. Bibliografía ……………………………………………………………………...9
3
INTRODUCCION
OBJETIVOS
JUSTIFICACION
Es necesario para lograr los objetivos propuestos no solo la intención de encontrar datos
en cualquier lugar o base de datos, sino verificar que estos sean reales y fiables y poder
contener la interpretación a la realidad, no solo por el aprendizaje directo de los mismos,
sino por la interpretación y el tener una base real y tener como finalidad una nueva
estructuración acorde a las necesidades que veamos o que nos exijan, su interpretación y
dejar esta nueva estructuración o una nueva base de datos para otros que deseen o
necesiten terminar con algún requerimiento especifico.
6
CONTEXTUALIZACION
Esta tabla de datos ha sido creada con fecha 16 de marzo de 2022, ofrecido para su
visualización por Jaider Velásquez Agudelo.
Encontramos entre otras, las siguientes columnas sobre los estudiantes graduados y
matriculados, Genero, Municipio de nacimiento, Pais, Municipio de residencia, Barrio
Direccion, Estrato, Estado civil, EPS, Grupo Sisbén, Zona, Nivel de formación, Ocupación,
Medio de transporte, Multiculturalidad, estado, Fecha de matrícula, Jornada, Programa,
periodo, nivel, Edad, para un total de 21 columnas.
Diferenciamos entonces Los datos del estudiante, tales como género, donde nació, pais
donde nació, municipio donde vive, cual barrio, la direccion y el estrato, del estudiante
conoceremos su estado civil, en cual EPS se encuentra activo, que grupo de Sisbén tiene,
que zona, su nivel de formación y su ocupación, cual medio de transporte utiliza, que
multiculturalidad tiene, su estado de estudio, si es graduado, si cancelo o si esta inactivo,
la fecha en que se matriculo, en qué jornada estudio, que programa estudio y en qué periodo
del año estaba, en que nivel de estudios se encontraba y la edad en años.
Obtenemos también los datos están en idioma español, la cobertura de estos datos es
municipal, se debe actualizar anualmente, así como los datos de información de la entidad
que los entrega, dentro del ámbito del departamento académico, como Centro de
Formación Integral para El Trabajo.
Este sitio donde se toman los datos para la tabla, esta ubicado en Envigado en el
Departamento de Antioquia en Colombia, dentro del sector territorial correspondiente al
CEFIT, dado también por la parte de educación.
7
Se evidencio la entrega de tres tablas diferentes por parte de cada uno de los
integrantes del grupo, pero al revisar se obtuvo que alguna de las tablas por ejemplo la del
puntaje del icfes por departamento, se encontraba desactualizada al año 2020, mientras
que evidenciamos que la tablahttps://www.datos.gov.co/Educaci-n/Estudiantes-
Matriculados-y-Graduados-CEFIT/a3jg-j674, se encontraba actualizada a marzo de 2022.
Otro de los puntos que se discutió es que la tabla tiene una cantidad de 21 columnas con
diferentes datos, los cuales parecen mas interesantes a tratar y manejar, pues sabemos
que, sobre esta tabla, buscaremos diferentes filtros y obtendremos informacion.
Por otro lado, se discutió sobre la fiabilidad de los datos encontrados en la tabla ya
mencionada, y consideramos que se observó una trasparencia y fiabilidad del cien por
ciento, así que decidió el grupo dejar la tabla del CEFIT.
De igual manera este conjunto de datos fácilmente representa ejemplo de la vida real y
laboral en cual debe manejar y ejecutar los procesos ETL. Ya que sus diferentes columnas
y datos ya ingresados pueden ser replanteados o formateados según se requiera en la
unidad de negocio y actividad nos afianzara capacidades y conocimientos los cuales son
objetivos del curso ETL.
8
CONCLUSIONES
Podemos concluir con seguridad que se logran los objetivos y se mantiene nuestra
tabla de datos, con la seguridad plena que servirá para posibles acciones dentro de la
materia ETL, teniendo la certeza que estos datos son fiables en un cien por ciento, sin temor
a obtener errores en las mediciones que hagamos de ellos.
Se logra la identificación de una base de datos, como fue solicitada en nuestra actividad
dos, y se hace un consentimiento en el grupo sobre la utilización de esta tabla como
representativa dentro de nuestro trabajo y que cumple con los parámetros para su
utilización, así que decidimos dejar nuestra tabla como bandera de nuestro grupo.
9
BIBLIOGRAFIA
• Aprender Big Data. (2019, May 5). Top 5 herramientas ETL empresariales
2019 en 1 minuto - Aprender BIG DATA #14 [Video].YouTube.
https://www.youtube.com/watch?v=ly2O_I3stls.