Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ir a la navegaciónIr a la búsqueda
La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de descubrimiento y
corrección o eliminación de registros de datos erróneos de una tabla o base de datos. El proceso
de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes,
etc. y luego substituir, modificar o eliminar estos datos sucios ("data duty"). Después de la
limpieza, la base de datos podrá ser compatible con otras bases de datos similares en el sistema.
La limpieza de datos se diferencia de la validación de datos, que casi siempre cumple la función de
rechazar los registros erróneos durante la entrada al sistema y no en lotes de data. El proceso de
limpieza de datos incluye la validación y además la corrección de datos, para alcanzar datos de
calidad.
Índice
1 Motivación
2 Calidad de datos
6 Desafíos y Problemas
7 Véase también
8 Notas y referencias
9 Enlaces externos
Motivación
Datos que son falsos o incorrectos pueden crear conclusiones falsas y dirigir a inversiones. Si un
gobierno quiere analizar datos de un censo de población será muy importante que los datos sean
fiables para evitar tomar decisiones fiscales erróneas. En ámbitos laborales de forenses,
contabilidad e investigación de fraudes usan la limpieza de datos para preparar los datos y se hace
antes de mandarlos a un almacén de datos.1 Hay paquetes disponibles para poder limpiar o lavar
datos de direcciones, típicamente hecho por un interfaz de programación de aplicaciones (API del
inglés).2
Calidad de datos
Exactitud: Los datos deben cumplir los requisitos de integridad, consistencia y densidad.
Validez: Alcanzado por la cantidad de datos que satisfacen las restricciones de integridad.
Auditoría de Datos: Los datos son revisados con el empleo de métodos estadísticos de descubrir
anomalías y contradicciones. Esto tarde o temprano da una indicación de las características de las
anomalías y sus posiciones.
Definición de Workflow (Flujo de Trabajo): La detección y el retiro de anomalías son realizados por
una secuencia de operaciones sobre los datos sabidos como el workflow. Para alcanzar un
workflow apropiado, se debe identificar las causas de las anomalías y errores. Si por ejemplo
encontramos que una anomalía es un resultado de errores de máquina en etapas de entrada de
datos, la disposición del teclado puede ayudar en la solución de posibles problemas.
Post-Proceso y Control: Los datos que no podían ser corregidos durante la ejecución del workflow
deberán ser corregidos manualmente, de ser posible. El resultado es un nuevo ciclo en el proceso
de limpieza de datos donde los datos son revisados nuevamente para ajustarse a las
especificaciones de un workflow adicional y realizar un tratamiento automático.
Método Estadístico: Incluye analizar los datos usando promedios, desviación estándar, rangos, o
algoritmos de cluster, este análisis se realiza por expertos que identifican errores. Aunque la
corrección de datos sea difícil ya que no saben el valor verdadero, pueden ser resueltos poniendo
los valores a un promedio u otro valor estadístico. Los métodos estadísticos también pueden ser
usados para manejar los valores que fallan, que pueden ser substituidos por uno o varios valores
posibles que por lo general son obtenidos por algoritmos de aumento de datos extensos...
Hay muchas herramientas de limpieza de datos como3,4,5,6 y otros. También es común el uso de
bibliotecas como Pandas (software) para Python (lenguaje de programación), o Dplyr para R
(lenguaje de programación).
En este momento la única herramienta que permite la limpieza de datos de forma distribuida con
la tecnología y robustez de Apache Spark es Optimus.
Desafíos y Problemas
Limpieza de datos en el Framework: En muchos casos no será posible llegar a un completo mapa
de limpieza de datos, que guíe el proceso por adelantado. Esto hace que la limpieza de datos sea
un proceso iterativo que implica la exploración significativa y la interacción que puede requerir un
framework, es decir, un marco que incluya una colección de métodos para la detección de errores
y la eliminación además de la revisión de datos. Esto puede ser integrado con otras etapas
informáticas como la integración y el mantenimiento
Véase también
Validación XML
Pruebas de validación
Validación cruzada
Visión única del cliente
Notas y referencias
Nigrini, M. Forensic Analytics: Methods and Techniques for Forensic Accounting Investigations,
Wiley. 2011
Trifacta
OpenRefine
Paxata
Alteryx
Han, J., Kamber, M. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001. ISBN 1-
55860-489-8.
Kimball, R., Caserta, J. The Data Warehouse ETL Toolkit, Wiley and Sons, 2004. ISBN 0-7645-6757-
8.
Muller H., Freytag J., Problems, Methods, and Challenges in Comprehensive Data Cleansing,
Humboldt-Universitat zu Berlin, Germany.
Rahm, E., Hong, H. Data Cleaning: Problems and Current Approaches, University of Leipzig,
Germany.