Está en la página 1de 2

¿Qué errores podemos encontrarnos en un conjunto de datos?

✅ Datos inconsistentes. Las cadenas de caracteres (palabras) son la parte más


complicada de la limpieza de datos porque suelen ser generadas por humanos y, por lo
tanto, son propensas a errores tipográficos. Por ejemplo, Manzanas, manzanas,
MANZANAS, el software de cálculo pensará que estas 3 opciones se refieren a 3 cosas
diferentes.
✅ Datos no válidos. De manera similar existen datos ilógicos. E.g. usuarios que pasan -2
horas en nuestra aplicación, una persona cuya edad es 999. a diferencia de los datos
dañados, los datos no válidos no son el resultado de procesos de recopilación
defectuosos, sino de problemas con el procesamiento de datos (generalmente durante
la preparación de funciones o la limpieza de datos).

✅ Datos perdidos. Pueden ser celdas vacías (o a menudo mal identificada con ceros) o
con "no aplicable", "NA", NAN, NULL, Inf. Hay 3 enfoques principales para limpiar los
datos que faltan: 1. recodificar los datos que faltan en un formato diferente. Por ejemplo
"fechadepago" por "pagado: sí o no"; 2. Completar o rellenar los valores que faltan: por
ejemplo, usar promedios móviles y rellenar para estimar los valores más probables de
los datos en ese punto; 3. eliminar filas y/o columnas con datos faltantes si no son
valiosos.

✅ Datos atípicos: son puntos de datos con un comportamiento extremo. Suelen tener
valores muy altos o muy bajos. los valores atípicos generalmente significan un
comportamiento muy interesante o un proceso de recopilación interrumpido, pero en
algunos casos se deben a errores que deben chequearse. Hay varios enfoques para
tratar con valores atípicos, por ejemplo: 1. eliminar los valores atípicos del análisis. tener
valores atípicos puede estropear su análisis al subir o bajar los promedios y, en general,
distorsionar sus estadísticas, por lo que se pueden en algunos casos eliminar según el
percentil X superior e inferior de sus datos; 2. segmentar los datos para que los valores
atípicos estén en grupos separados; 3. mantener valores atípicos, pero usar diferentes
métodos estadísticos para el análisis y evaluar su influencia.

✅ Datos duplicados. significa los mismos valores que se repiten desde un punto de
observación. Esto puede desinflar/inflar nuestros números (por ejemplo, contamos más
encuestados de los que hay o la media cambia porque algunos valores están más
representados). Para evitarlos es importante utilizar un identificador del caso ID.

Puedes ver más ejemplos en la imagen adjunta.

También podría gustarte