Está en la página 1de 2

CURSO DE GOBERNABILIDAD DE DATOS

ESPECIALIZACIN EN INTELIGENCIA DE NEGOCIOS

GUA PARA LA REALIZACIN DEL TRABAJO FINAL

Cada grupo conformado mximo por tres estudiantes, debe realizar un diagnstico de la calidad
de unos datos. Debe contarse con al menos un archivo con datos (en cualquier formato: archivo
Excel, csv, tabla(s) de bases de datos), los cuales pueden ser datos reales de una de las empresas
de los integrantes del equipo. En su defecto se puede trabajar con datos provenientes de un
censo o cualquier otro tipo de datos que puedan conseguir.

Aunque no importa la cantidad de registros del archivo, se recomienda que tenga mnimo 100
registros. El nmero de columnas o atributos debe ser mnimo de cinco.

Contexto empresarial tambin. Datos que por naturaleza no deban ser duplicados.

Para cada una de las columnas se debe incluir una breve explicacin acerca de la columna, un
resumen de los hallazgos realizados mediante el perfilamiento de datos con DQAnalyzer y una
cuantificacin porcentual de los datos con problemas detectados para esa columna mediante la
herramienta (usando los diferentes anlisis como mscaras, frecuencias, valores extremos, ).
Asimismo, se debe realizar una deteccin de duplicados mediante la herramienta FRIL y explicar
los hallazgos realizados.

Llegar a un valor de problemas por cada columna. A cada una (al menos 5) se le debe hacer el
anlisis con todas las pestaas. C

Luego debe llegarse a una cifra nica de datos con problemas en la totalidad de los datos tomando
como base los problemas de cada columna y los duplicados encontrados. Ejemplo: Los datos
analizados tienen 18% de datos con problemas. Se deja a libertad de los estudiantes el mtodo
para llegar a esta cifra nica (explicarlo dentro del informe).

Cada columna su porcentaje y sacar el valor de nivel de problemas. Promedio o darle pesos,
inventarse como y explicar.

Adicionalmente, debe plantearse las posibles causas para que se presenten los problemas de
calidad de datos encontrados y sugerir posibles soluciones. (Para cada problema,). Se utiliz q
grams por esto y esto.

En el informe no deben incluirse los datos. Si se desea se pueden anexar pantallazos de lo


realizado con las herramientas.
El plazo mximo para la entrega del trabajo final es la convenida en el saln de clase a las 12 pm.

El informe debe ser enviado al correo ivan.amon@upb.edu.co.

También podría gustarte