Está en la página 1de 11

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/273945947

Limpieza de datos: aplicación al sistema de gestión de proyectos GESPRO

Article · September 2013

CITATION READS
1 1,375

4 authors, including:

Mailen Edith Escobar Pompa Surayne Torres


University of Information Sciences University of Information Sciences
1 PUBLICATION   1 CITATION    29 PUBLICATIONS   103 CITATIONS   

SEE PROFILE SEE PROFILE

Pedro Y. Piñero
University of Information Sciences
132 PUBLICATIONS   296 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Algoritmos para el cálculo del indicador IRRH del Sistema Xedro-GESPRO mediante un modelo basado en grafos View project

Soft computing in project management View project

All content following this page was uploaded by José Lugo on 24 March 2015.

The user has requested enhancement of the downloaded file.


Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

Tipodeartículo: Artículo original


Temática: Gestión de Proyectos
Recibido:30/05/2013 | Aceptado:13/09/2013 | Publicado: 15/09/2013

Limpieza de datos: aplicación al sistema de gestión de proyectos


GESPRO

Data Cleaning: application to a project management system:


GESPRO
Mailen Edith Escobar Pompa1*, Surayne Torres López2, José Alejandro Lugo García2, Pedro Piñero Pérez2

1
Centro de Informatización de Entidades, Facultad 3, Universidad de las Ciencias Informáticas, La Habana, Cuba.
CP.: 19370
2
Laboratorio de Investigaciones de Gestión de Proyectos, Facultad 5, Universidad de las Ciencias Informáticas, La
Habana, Cuba. CP.: 19370

*Autor para la correspondencia: meescobar@uci.cu

Resumen: En la Universidad de las Ciencias Informáticas se utiliza la suite de herramientas GESPRO para la gestión
de los proyectos productivos. Los datos recolectados son utilizados en el descubrimiento de conocimientos
Knowledge Data Discovery. Sin embargo, se detectan anomalías en los datos, los cuales hacen que el proceso de
Knowledge Data Discovery no se ejecute con la calidad requerida. Para solucionar este problema se define un
procedimiento que ejecuta la limpieza de datos, se explican cada una de sus fases y finalmente se analizan los
resultados obtenidos después de haber ejecutado el proceso.
Palabras clave: Calidad de los datos, datos sucios, limpieza de datos, procedimiento, sistema de gestión de
proyectos.

Abstract: At the University of Informatics Sciences is used a suite of tools GESPRO for managing production
projects. The data collected by the tool are used in Knowledge Data Discovery are however the same anomalies that
make the process KKD not have the required quality. To solve this problem we define a procedure for data cleansing,
explaining each of the steps and analyzing the results obtained after the process have been made.
Keywords: Data cleansing, dirty data, data quality, procedure, project management system.

Introducción
Una premisa para el descubrimiento de conocimientos en las bases de datos KDD (del inglés, Knowledge Data
Discovery) de los sistemas es la coherencia en los valores almacenados, por lo que el análisis y aseguramiento de la
calidad de los datos constituye el primer paso o procesamiento en esta área (Brachman and Tej, 1996; Guyon et al.,
1996). La calidad de los datos está determinada por el grado de contenido, forma y características temporales, lo que
le proporciona el valor al dato como materia prima para generar un producto de información (Brien 1991).

Grupo Editorial Ediciones Futuro 1


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

Diferentes estudios refieren que el nivel de errores en los datos o datos sucios, ha crecido junto con el avance del uso
de las tecnologías en las organizaciones. En (Redman 1998) se plantea que a pesar de los esfuerzos de las
organizaciones la tasa de error en los datos es del 5%. Según (Damerau, 1964; Dasu et al., 2003) se puede afirmar:
es bastante común que las bases de datos tengan del 40% al 90% de problemas de calidad en los datos . En el
mismo sentido, una investigación más reciente realizada por la consultora (Gartner, 2007), plantea que más del 25%
de los datos críticos de las compañías presentan errores y en muchas ocasiones las organizaciones no tienen
conciencia de ello. Se identifican también como algunas de las manifestaciones que más se reiteran al manejar
grandes volúmenes de datos a la presencia de valores ausentes y la falta de estandarización en cadenas de texto
(López, 2011).

La Universidad de las Ciencias Informáticas (UCI) es un pilar importante de la industria cubana de software, donde se
desarrollan un número significativo de proyectos nacionales y de exportación. Teniendo en cuenta el tamaño de la
organización y el volumen de datos manejados, se identifican como una necesidad el uso de herramientas
informáticas que ayuden al control y seguimiento de los proyectos que se desarrollan. Se pretende además que estas
herramientas beneficien a la toma de decisiones en los diferentes niveles: nivel de persona, nivel de proyecto, nivel de
centro de producción y nivel de alta gerencia UCI (Piñero et al., 2011).
Como parte de las herramientas utilizadas para potenciar el control y seguimiento de los proyectos de la universidad y
la implantación de un modelo de desarrollo tecnológico, se crea por la Dirección Técnica de la UCI, el Paquete de
Gestión de Proyectos GESPRO v1.0 (No Registro CENDA Cuba paquete GESPRO v1.0: 1540-2010)(Piñero et al.,
2010). Este paquete de herramientas recoge información sobre las principales áreas de la gestión de proyectos
guardando información sobre las tareas, los proyectos, los recursos humanos, otros tipos de recursos, los riesgos, las
no conformidades, entre otros.
El objetivo de esta investigación es desarrollar un procedimiento que ejecute la limpieza y estandarización de los
datos colectados por el paquete GESPRO, con el propósito de mejorar la calidad de los mismos y facilitar su posterior
utilización para el descubrimiento de conocimiento.
2. Materiales y métodos.
Análisis documental sobre las principales metodologías y procedimientos utilizados en el mundo para la limpieza de
datos, se hace énfasis en los pasos a seguir durante el proceso, con la calidad y rapidez que requiere. Se definen las
principales etapas a tener en cuenta durante la ejecución del proceso, así como las actividades a realizar en cada una.
Análisis de los datos para abordar los problemas de errores en los datos, se realiza un proceso previo que implica una
planeación y un conocimiento sobre los datos, y los tipos de problemas que se buscan en ellos (Paniagua et al. 2010).
Por lo que es necesario definir un procedimiento para la realización del proceso de limpieza en el GESPRO.
Aunque (Oliveira et al. 2005) propone una serie de pasos para realizar el proceso de limpieza, los autores de
la investigación consideran que este es un acercamiento más técnico y no un proceso formalizado sobre cómo realizar
este análisis, si debe hacerse desde cero, sin previo conocimiento, e incluso si el repositorio de datos no está al
alcance inmediato.
Oracle (Rochnik and Dijcks, 2006) dispone de su herramienta Warehouse Builder para la construcción de almacenes
de datos, incluye un módulo previo para análisis de calidad y facilita un modelo completo de limpieza de datos en sus
procesos ETL (extracción, transformación y carga). Sin embargo, este modelo está sesgado a la herramienta.
Esta metodología puede ser adaptada para desarrollarse sin utilizar el Warehouse Builder, pues sugiere qué hacer sin
necesidad de tener sus especificaciones técnicas usando la herramienta.

Grupo Editorial Ediciones Futuro 2


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

Otra de las metodologías es la propuesta por (Van den Broeck et al., 2005) la cuál está orientada a la
investigación epidemiológica de enfermedades. Esta metodología aunque con pocos elementos técnicos, presenta un
acercamiento simple que puede ser interesante analizar.
En su distinción entre problemas de una única fuente y problemas de múltiples fuentes (Rahm and Do, 2000)
presentan una aproximación de cómo alcanzar la calidad de los datos en un proceso ETL. Aunque muy sujeta a su
clasificación se puede trabajar para adaptarla a las necesidades de la investigación.
Por otro lado (Tierstein, 2005) presenta una metodología especializada, enfocada en la transferencias de datos de uno
o varios sistemas hacia nuevas bases o almacenes de datos. Esta metodología es considerada una de las más
completas, aunque la cantidad de pasos y algunas actividades pueden ser omitidas para hacer el proceso de
limpieza más ágil.

Resultados y discusión
Teniendo en cuenta las metodologías y procedimientos analizados se definen para la realización del
proceso tres etapas fundamentales (ver Figura 1).
Fase 1. Análisis y diseño conceptual del proceso: se realiza la comprensión y contextualización de los
datos a los cuáles se les va a realizar el proceso. Se escoge una muestra de los datos para la identificación
de problemas en la calidad de los datos y se realiza el listado de las tablas a limpiar.
Fase 2. Proceso de limpieza de datos: se definen los métodos a realizar para erradicar los problemas
identificados, y se realiza el proceso de limpieza.
Fase 3. Generación de resultados y análisis: se analizan los resultados obtenidos después de realizado el
proceso y se identifican mejoras para el sistema y la organización que ayuden a mantener la calidad en
los datos.

Figura 1. Flujo de actividades por cada fase del proceso. (Elaboración propia).

Grupo Editorial Ediciones Futuro 3


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

Una vez definido el procedimiento, se puso en práctica utilizando 5 de las 14 bases de datos con las que
cuenta el GESPRO. La implementación de los métodos escogidos para la erradicación de los errores se
realiza mediante consultas SQL, dentro del mismo gestor que se utiliza para las bases de datos,
PostgreSQL.

Análisis y diseño conceptual del proceso


Para realizar el análisis de los datos almacenados como resultado de la gestión de proyectos de desarrollo
de software con GESPRO, e identificar las anomalías existentes en los registros de las tareas, se analizan
5 de las 14 bases de datos resultadas de la utilización del paquete. En la Tabla 1 se puede observar la
cantidad de tareas analizadas por cada centro escogido, así como la distribución por tipo de tareas. Lo
que representa una muestra de 35,7% tomando como población las bases de datos de los centros de
desarrollo de software.

Tabla 1. Resumen de los registros almacenados en las bases de datos analizadas (Elaboración propia).
Cantidad T. Est. Aus. Desll.-Prod. Anal.-Prod. Gest.-Prod.
Entren.-Form.
Tareas
BD Centro 1 48757 7855 29782 622 5021 5762
BD Centro 2 3261 589 2248 38 203 316
BD Centro 3 3986 1070 1997 26 343 414
BD Centro 4 22418 3121 14108 291 924 924
BD Centro 5 16392 1452 6268 290 2051 2051

A continuación se listan los principales problemas encontrados:


1. Tiempo estimado por encima del rango posible entre las fechas de inicio y fin. Inconsistencias en el tiempo
estimado (estimated_hours) con respecto a la fecha de inicio (start_date) y fecha de fin (due_date).
2. Valores de tiempo estimado ausentes (estimated_hours).
3. Tareas con valor de tiempo estimado igual a cero.
4. Tareas que no tienen registros asociados en la tabla time_entries por lo que el tiempo dedicado es igual a
cero.
5. Nombres de tareas muy generales que no permiten saber exactamente que se va a realizar.
6. Tareas que no están asignadas a ningún usuario.
7. Nombres de las tareas que indican un problema y no una tarea.
8. Tareas que son no conformidades.
9. Errores ortográficos de acentuación.
10. Utilización para las tareas de implementación indistintamente de: implementar, arreglar método, realizar
cambios, validar interfaz.
11. Utilización para las tareas de diseño y administración de bases de datos de: migrar, migración, analizar e
implementar, hacer script.
12. Utilización de siglas: NC y NCF para no conformidad, DCP para diseño de caso de prueba, IU para interfaz
de usuario y CU para caso de uso.
13. Utilización para las tareas de diseño de interfaz de usuario de: realizar diseño, diseñar.
14. Incorrecta clasificación de las tareas de Desarrollo-Producción. Clasificadas como tal tareas que realmente
son de gestión, formación etc.

Grupo Editorial Ediciones Futuro 4


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

15. Inclusión de caracteres extraños en los nombres de las tareas para separar distintas partes: comillas, signos de
comparación, paréntesis, corchetes entre otros.

Siendo los seis primeros problemas los que más afectan las bases de datos analizadas. En la Figura 1 se puede
observar la incidencia de los mismos en la muestra tomada.

Figura 2. Resumen de los problemas generales de las tareas en las bases de datos analizadas (Elaboración propia).

Los problemas identificados inciden principalmente en el módulo de Planificación, y específicamente en el


submódulo Peticiones, pues son las peticiones las que se ven afectadas por la totalidad de los problemas reconocidos.
Por tanto, el proceso de limpieza es realizado sobre la tabla Issues, la cual en sus 16 campos guarda todos los
datos correspondientes a las peticiones.

Proceso de limpieza de datos


En esta etapa dado el atributo que se quiera estandarizar y las anomalías que presente se determina la estrategia a
utilizar para la limpieza de datos.
Teniendo en cuenta el nivel de incidencia de los errores y las prioridades del cliente, para la realización del proceso
solo se toman en cuenta los 6 primeros errores. A continuación se muestran las acciones identificadas para solucionar
cada una de las anomalías identificadas:

Acción ante los problemas 1 y 3: Tiempo estimado por encima del rango posible entre las fechas de inicio y fin y
tareas con tiempo estimado igual a cero.
1. Si la tarea está en estado asignada: calcular las horas de trabajo diarias dado el fondo de tiempo semanal de la
persona. Multiplicar este valor por los días dedicados desde la fecha de inicio hasta la fecha de fin. El
resultado debe ser la cantidad de horas máximas estimadas para la tarea.
2. Si la tarea no está asignada: tomar la cantidad de horas máximas al día (8 horas). Multiplicar este valor por los
días dedicados desde la fecha de inicio hasta la fecha de fin. El resultado debería ser la cantidad de horas
máximas estimadas para la tarea.
3. Comprobar que el tiempo estimado no pueda ser igual a cero.

Acción ante el problema 2: Valores de tiempo estimado ausentes (estimated_hours).

Grupo Editorial Ediciones Futuro 5


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

Definición de una función que para los registros de tiempo estimado ausentes o cero lo calcule de la siguiente forma:
1. Si la tarea está asignada: calcular las horas de trabajo diarias dado el fondo de tiempo semanal. Multiplicar
este valor por los días dedicados desde la fecha de inicio hasta la fecha de fin. El resultado debe ser la
cantidad de horas máximas estimadas para la tarea.
2. Si la tarea no está asignada: tomar la cantidad de horas máximas al día (8 horas). Multiplicar este valor por los
días dedicados desde la fecha de inicio hasta la fecha de fin. El resultado debe ser la cantidad de horas
máximas estimadas para la tarea.

Acción ante el problema 4: Tareas que no tienen registros asociados en la tabla time_entries por lo que el tiempo
dedicado es igual a cero.
1. Definición de extensión al paquete que permita asegurar la entrada de los datos del tiempo dedicado
cerciorándose que si la tarea se actualiza entonces se debe establecer tiempo dedicado.

Acciones ante el problema 5: Nombres de tareas muy generales que no permiten saber exactamente que se va a
realizar.
1. Definición de forma estandarizada y centralizada, el nombre de las tareas debe escribirse de manera
sustantivada: definición, implementación, diseño, ejecución, confección, instalación, despacho, actualización,
registro, gestión, despacho, etc. Esta forma de definir las tareas acorde a lo establecido queda en las normas
de redacción de las investigaciones sobre gestión de proyectos.
2. Definición de función que permita estandarizar los nombres de las tareas escribiéndolas de forma
sustantivada: updateissues set subject = replace (issues.subject,'Diseñar','Diseño').

Acción ante el problema 6: Tareas que no están asignadas a ningún usuario.


1. Definición de extensión al paquete que permita asegurar la asignación de la tarea a un usuario, cerciorándose
que si la tarea no está asignada entonces no se puede crear.
Definidas las acciones se procede a realizar el proceso de limpieza de errores, erradicándose por completo estos seis
problemas.

Generación de resultados y análisis


En esta etapa se analizan los resultados obtenidos en el proceso de limpieza. Además se identifican acciones
dentro del sistema y de la organización que permitan mantener el nivel de calidad obtenido al realizar el proceso de
limpieza de datos.
Luego de realizado el proceso de limpieza de datos, los niveles de los seis principales errores identificados
bajaron a cero, como se puede observar en las Figuras 2 y 3.

Grupo Editorial Ediciones Futuro 6


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

Figura 3. Niveles de las tareas con tiempo estimado ausente antes y después de la limpieza de datos. (Elaboración propia).

Figura 4. Niveles de las tareas no asignadas antes y después de la limpieza de datos. (Elaboración propia).

A partir del proceso realizado, para complementar y mantener el nivel de calidad en los datos obtenidos,
se identifican y proponen algunas acciones para el sistema y la organización que permitan minimizar la
entrada de datos sucios al sistrema.

Acciones en el sistema:
1. Definición de extensión al paquete que permita validar la entrada de los datos del tiempo estimado, siendo
este campo obligatorio a la hora de crear una petición.
2. Definición de extensión al paquete que permita autocompletar los nombres de las tareas sugiriendo algunas
posibilidades de acuerdo al texto escrito.
3. Definición de extensión al paquete que permita asegurar la asignación de la tarea a un usuario, siendo este
campo obligatorio cuando se crea una petición.

Acciones en la organización:

Grupo Editorial Ediciones Futuro 7


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

1. Inclusión en las capacitaciones de GESPRO de talleres con orientaciones sobre la forma correcta de
definición de las tareas.
2. Inclusión de temas o espacios dentro de los cursos de gestión de proyectos sobre la forma correcta de
definición de las tareas: Curso básico de gestión de proyectos, Gestión de Alcance y Tiempo, Herramientas de
gestión de proyectos.

4. Conclusiones

Con el estudio de los procedimientos y metodologías utilizadas para la limpieza de datos se


identifican los pasos a tener en cuenta cuando se ejecute el procedimiento en el paquete GESPRO.

El procedimiento propuesto se puede utilizar como guía de trabajo para la realización de actividades de
limpieza de datos en entornos de gestión de proyectos similares.

La aplicación del procedimiento propuesto en la suite de herramientas GESPRO permite erradicar los
errores críticos identificados mediante la ejecución de algoritmos de limpieza de datos. Esto
contribuye a mantener los niveles de calidad requeridos por los procesos de KDD para su ejecución.

Referencias bibliográficas
BRACHMAN, R.J. AND TEJ, A. The process of knowledge discovery in databases, in Advances in
knowledge discovery and data mining. American Association for Artificial Inteligence, 1996, p. 37-57.
BRIEN, J.O. Introduction to Information Systems in Businees Management. Edtion ed. Boston, USA: Irwin,
1991.
DAMERAU, F.J. A technique for computer detection and correction of spelling errors. Commun. ACM,
1964, vol. 7, no. 3, p. 171-176.
DASU, T., VESONDER, G.T. AND WRIGHT, J.R. 2003. Data quality through knowledge engineering. In
Proceedings of the Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery
and data mining, Washington, D.C.2003 ACM, 956844, 705-710.
GARTNER. 'Dirty Data' is a Business Problem, Not an IT Problem. 2007 [Consultado el: 22 de abril de
2013]. Disponible en: [http://www.gartner.com/newsroom/id/501733].
GUYON, I., MATIC, N. AND VAPNIK, V. Discovering informative patterns and data cleaning, in Advances
in knowledge discovery and data miming. American Association for Artificial Inteligence, 1996, p. 181-203.
LÓPEZ, B. "Limpieza de Datos: Reemplazo de valores ausentes y Estandarización". Resumen de la tesis
presentada en opción al grado científico de Doctor en Ciencias Técnicas. In Facultad de Matemática y
Computación. Santa Clara: Universidad Central Marta Abreu de Las Villas, 2011, p. 45.
OLIVEIRA, P., RODRIGUES, F., HENRIQUES, P. AND GALHARDAS, H. A Taxonomy of Data Quality
Problems. In DIQ' 05- 2nd International worshop on data and information quality. Porto Portugal, 2005, p.
15.
PANIAGUA, J., MIRA , J.F. AND AMÓN, I. Elaboración de diagnostico de calidad de datos para una
empresa del sector salud. Universidad Pontificia Bolivariana (Type of Work) 2010. Disponible en:

Grupo Editorial Ediciones Futuro 8


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
Serie Científica de la Universidad de las Ciencias Informáticas
http://publicaciones.uci.cu/index.php/SC | seriecientifica@uci.cu
Vol. 6, No. 9, Año: 2013
ISSN: 2306-2495 | RNPS: 2343

[http://kosmos.upb.edu.co/web/uploads/articulos/%28A%29_Diagnostico_de_la_calidad_de_la_base_de_dat
os_De_la_Clinica_Universitaria_Bolivariana_NySsg.pdf].
PIÑERO PÉREZ, P. Y., PESTANO PINO, H., VÁZQUEZ ACOSTA, M., et al. Experiencias en el uso de
PostgreSQL en el sistema GESPRO, un enfoque práctico. Revista Cubana de Ciencias Informáticas (RCCI),
Septiembre 2011, p. 10.
PIÑERO, P.Y., TORRES, S., PESTANO, H., VAZQUEZ, M., IZQUIERDO , M. and JORRÍN , M. Paquete
de Herramientas para la Gestión de Proyectos. In C.N.D.R.D. AUTOR. Registro Centro Nacional de Registro
de Autor. Cuba, 2010, vol. 1, p. 100.
RAHM, E. AND DO, H.H. Data Cleaning: Problems and Current Approaches. Bulletin of the IEEE
Computer Society Technical Committee on Data Engineering, 2000, p. 11.
REDMAN, T.C. The impact of poor data quality on the typical enterprise. Commun. ACM, 1998, vol. 41,
no. 2, p. 79-82.
ROCHNIK, N. AND DIJCKS, J.-P. Oracle Warehouse Builder 10gR2 Transforming Data into Quality
Information. 2006, p. 16. [Consultado el: 6 de abril de 2013]. Disponible en:
[http://www.oracle.com/technetwork/developer-tools/warehouse/transforming-1.pdf].
TIERSTEIN, L.M. A Methodology for Data Cleansing and Conversion. W R Systems, Ltd. (Type of Work).
2005, [Consultado el: 6 de abril de 2013] p. 21. Disponible en:
[citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.113.2362&rep=rep1&type=pdf].

VAN DEN BROECK, J., ARGESEANU CUNNINGHAM, S., EECKELS, R. AND HERBST, K. Data
Cleaning: Detecting, Diagnosing, and Editing Data Abnormalities. PLoS Medicine, Octubre 2005, vol. 2, no.
10.

Grupo Editorial Ediciones Futuro 9


Universidad de las Ciencias Informáticas. La Habana, Cuba
seriecientifica@uci.cu
This document was created with Win2PDF available at http://www.daneprairie.com.
The unregistered version of Win2PDF is for evaluation or non-commercial use only.

View publication stats

También podría gustarte