Documentos de Académico
Documentos de Profesional
Documentos de Cultura
✅ Datos perdidos. Pueden ser celdas vacías (o a menudo mal identificada con ceros) o
con "no aplicable", "NA", NAN, NULL, Inf. Hay 3 enfoques principales para limpiar los
datos que faltan: 1. recodificar los datos que faltan en un formato diferente. Por ejemplo
"fechadepago" por "pagado: sí o no"; 2. Completar o rellenar los valores que faltan: por
ejemplo, usar promedios móviles y rellenar para estimar los valores más probables de
los datos en ese punto; 3. eliminar filas y/o columnas con datos faltantes si no son
valiosos.
✅ Datos atípicos: son puntos de datos con un comportamiento extremo. Suelen tener
valores muy altos o muy bajos. los valores atípicos generalmente significan un
comportamiento muy interesante o un proceso de recopilación interrumpido, pero en
algunos casos se deben a errores que deben chequearse. Hay varios enfoques para
tratar con valores atípicos, por ejemplo: 1. eliminar los valores atípicos del análisis. tener
valores atípicos puede estropear su análisis al subir o bajar los promedios y, en general,
distorsionar sus estadísticas, por lo que se pueden en algunos casos eliminar según el
percentil X superior e inferior de sus datos; 2. segmentar los datos para que los valores
atípicos estén en grupos separados; 3. mantener valores atípicos, pero usar diferentes
métodos estadísticos para el análisis y evaluar su influencia.
✅ Datos duplicados. significa los mismos valores que se repiten desde un punto de
observación. Esto puede desinflar/inflar nuestros números (por ejemplo, contamos más
encuestados de los que hay o la media cambia porque algunos valores están más
representados). Para evitarlos es importante utilizar un identificador del caso ID.