Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Depuración de datos:
1. Identificación de errores:
o Análisis visual:
▪ Histogramas, diagramas de caja y bigotes, diagramas de dispersión.
▪ Detectar valores fuera de rango, puntos inconsistentes o patrones
inusuales.
o Análisis estadístico:
▪ Pruebas de detección de outliers (Dixon, Grubbs, Q-Q plot).
▪ Identificar valores que se desvían significativamente de la
distribución normal.
2. Corrección de errores:
o Eliminación de datos:
▪ Eliminar valores atípicos que no se pueden corregir.
▪ Eliminar registros incompletos o inconsistentes.
o Imputación de datos:
▪ Rellenar valores faltantes utilizando técnicas como la media, la
mediana o la regresión.
▪ Seleccionar la técnica de imputación más adecuada para cada
variable.
o Corrección de valores inconsistentes:
▪ Verificar la fuente de los datos y corregir errores de entrada.
▪ Aplicar técnicas de transformación para corregir valores
inconsistentes.
Los datos atípicos son valores que se encuentran significativamente alejados del resto del
conjunto de datos. Estos valores pueden distorsionar los resultados del análisis y afectar
la precisión de las conclusiones.
• Criterios estadísticos:
o Prueba de Dixon: Elimina valores que se encuentran a una distancia
específica de la media.
o Prueba de Grubbs: Elimina valores que se encuentran fuera de un rango
determinado.
o Q-Q plot: Visualiza la distribución de los datos y permite identificar
valores atípicos.
• Criterios intercuartílicos (IQR):
o Elimina valores que se encuentran por encima del percentil 75 + 1.5 * IQR
o por debajo del percentil 25 - 1.5 * IQR.
• Análisis visual:
o Eliminar valores que se observen como puntos fuera de la tendencia
general en gráficos y diagramas.