Está en la página 1de 4

Limpieza de datos

De Wikipedia, la enciclopedia libre


Saltar a: navegacin, bsqueda
El data cleansing, data scrubbing o limpieza de datos, es el acto de descubrimiento,
correccin o eliminacin de datos errneos de una base de datos. El proceso de data
cleansing permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc.
y luego substituir, modificar o eliminar estos datos sucios ("data duty"). Despus de la
limpieza, la base de datos podr ser compatible con otras bases de datos similares en el
sistema.
Las inconsistencias descubiertas, modificadas o eliminadas pueden haber sido causado por:
las definiciones de diccionario de datos diferentes de entidades similares, errores de entrada
del usuario y corrupcin en la transmisin o el almacenaje.
La Limpieza de datos se diferencia de la validacin de datos ("data validation"), en que la
validacin de datos cumple la funcin de rechazar los registros errneos durante la entrada
al sistema. El proceso de data cleansing incluye la validacin y adems la correccin de
datos, para alcanzar datos de calidad ("Data quality").

ndice
[ocultar]

1 Calidad de datos

2 Proceso de Limpieza de Datos

3 Mtodos ms usados

4 Desafos y Problemas

5 Vase tambin

6 Notas y referencias

7 Enlaces externos

Calidad de datos[editar]
La calidad de datos debe cumplir con los siguientes requisitos:

Exactitud: Los datos deben cumplir los requisitos de integridad, consistencia y


densidad.

Integridad: Los datos deben cumplir los requisitos de Entereza y validez.


o Entereza: Alcanzado por la correccin de datos que contienen anomalas.
o Validez: Alcanzado por la cantidad de datos que satisfacen las restricciones
de integridad.

Consistencia: Alcanzado por la correccin de contradicciones y anomalas


sintcticas.

Uniformidad: Relacionado con irregularidades.

Densidad: Conocer el cociente de valores omitidos sobre el nmero de valores


totales.

Unicidad: Relacionado con datos duplicados.

Proceso de Limpieza de Datos[editar]

Auditora de Datos: Los datos son revisados con el empleo de mtodos estadsticos
de descubrir anomalas y contradicciones. Esto tarde o temprano da una indicacin
de las caractersticas de las anomalas y sus posiciones.

Definicin de Workflow (Flujo de Trabajo): La deteccin y el retiro de anomalas


son realizados por una secuencia de operaciones sobre los datos sabidos como el
workflow. Para alcanzar un workflow apropiado, se debe identificar las causas de
las anomalas y errores. Si por ejemplo encontramos que una anomala es un
resultado de errores de mquina en etapas de entrada de datos, la disposicin del
teclado puede ayudar en la solucin de posibles problemas.

Ejecucin de Workflow: En esta etapa, el workflow es ejecutado despus de que su


especificacin es completa y su correccin es verificada. The implementacin del
workflow debera ser eficiente an sobre los juegos grandes de los datos que
inevitablemente plantean una compensacin, porque la ejecucin de la operacin
limpiadora puede ser cara.

Post-Proceso y Control: Los datos que no podan ser corregidos durante la ejecucin
del workflow debern ser corregidos manualmente, de ser posible. El resultado es
un nuevo ciclo en el proceso de limpieza de datos donde los datos son revisados
nuevamente para ajustarse a las especificaciones de un workflow adicional y
realizar un tratamiento automtico.

Mtodos ms usados[editar]

Anlisis: El anlisis en la limpieza de datos, es realizado para la deteccin de


errores de sintaxis. Un analizador gramatical decide si una cuerda de datos es
aceptable dentro de la especificacin de datos permitida. Esto es similar al modo
que un analizador gramatical trabaja con gramticas y lenguas.

Transformacin de Datos: La Transformacin de Datos permite al trazar un mapa de


datos, en el formato esperado. Esto incluye conversiones de valor o funciones de
traduccin as como normalizacin de valores numricos para conformarse a valores
mnimos y mximos.

Eliminacin de duplicados: La deteccin de duplicados requiere un algoritmo para


determinar si los datos contienen representaciones dobles de la misma entidad. Por
lo general, los datos son ordenados por un dato "llave" o "pivote" que permite la
identificacin ms rpida.

Mtodo Estadstico: Incluye analizar los datos usando promedios, desviacin


estndar, rangos, o algoritmos de cluster, este anlisis se realiza por expertos que
identifican errores. Aunque la correccin de datos sea difcil ya que no saben el
valor verdadero, pueden ser resueltos poniendo los valores a un promedio u otro
valor estadstico. Los mtodos estadsticos tambin pueden ser usados para manejar
los valores que fallan, que pueden ser substituidos por uno o varios valores posibles
que por lo general son obtenidos por algoritmos de aumento de datos extensos...

Desafos y Problemas[editar]

Correccin de Error y prdida de informacin: El mayor desafo dentro de la


limpieza de datos es la correccin de valores, pues incluye el quitar duplicados y
entradas invlidas. En muchos casos, la informacin disponible sobre tales
anomalas es limitada e insuficiente de determinar las transformaciones necesarias o
correcciones abandonando la tachadura de tales entradas como la nica solucin. La
eliminacin de datos aunque, conduce a la prdida de informacin que puede ser en
particular costosa si hay una cantidad grande de datos suprimidos.

Mantenimiento de Datos Limpiados: La limpieza de datos es cara y el tiempo


consumido es grande. Despus de haber realizado la limpieza de datos y el alcanzar
una coleccin de datos sin errores, uno querra evitar la relimpieza de datos
ntegramente despus de que se realizan algunos cambios en la base de datos. El
proceso slo debera ser repetido sobre los valores que se han cambiado, esto
significa, que debemos guardar un linaje limpiador que requiere una eficiente
coleccin de datos y tcnicas de administracin de datos.

Limpieza de Datos en Entornos virtualmente Integrados: En Fuentes prcticamente


integradas como DiscoveryLink de la IBM, la limpieza de datos tiene que ser

realizada siempre con acceso de datos de diferentes fuentes, con una considerable
disminucin el tiempo de respuesta y la eficacia.

Limpieza de datos en el Framework: En muchos casos no ser posible llegar a un


completo mapa de limpieza de datos, que gue el proceso por adelantado. Esto hace
que la limpieza de datos sea un proceso iterativo que implica la exploracin
significativa y la interaccin que puede requerir un framework, es decir, un marco
que incluya una coleccin de mtodos para la deteccin de errores y la eliminacin
adems de la revisin de datos. Esto puede ser integrado con otras etapas
informticas como la integracin y el mantenimiento

También podría gustarte