Está en la página 1de 2

1.

Depuración de datos:

La depuración de datos es el proceso de identificar y corregir errores, inconsistencias y


valores incompletos en un conjunto de datos. Este proceso es crucial para garantizar la
calidad y precisión de los análisis posteriores.

Pasos de la depuración de datos:

1. Identificación de errores:
o Análisis visual:
▪ Histogramas, diagramas de caja y bigotes, diagramas de dispersión.
▪ Detectar valores fuera de rango, puntos inconsistentes o patrones
inusuales.
o Análisis estadístico:
▪ Pruebas de detección de outliers (Dixon, Grubbs, Q-Q plot).
▪ Identificar valores que se desvían significativamente de la
distribución normal.
2. Corrección de errores:
o Eliminación de datos:
▪ Eliminar valores atípicos que no se pueden corregir.
▪ Eliminar registros incompletos o inconsistentes.
o Imputación de datos:
▪ Rellenar valores faltantes utilizando técnicas como la media, la
mediana o la regresión.
▪ Seleccionar la técnica de imputación más adecuada para cada
variable.
o Corrección de valores inconsistentes:
▪ Verificar la fuente de los datos y corregir errores de entrada.
▪ Aplicar técnicas de transformación para corregir valores
inconsistentes.

2. Eliminación de datos atípicos:

Los datos atípicos son valores que se encuentran significativamente alejados del resto del
conjunto de datos. Estos valores pueden distorsionar los resultados del análisis y afectar
la precisión de las conclusiones.

Métodos para eliminar datos atípicos:

• Criterios estadísticos:
o Prueba de Dixon: Elimina valores que se encuentran a una distancia
específica de la media.
o Prueba de Grubbs: Elimina valores que se encuentran fuera de un rango
determinado.
o Q-Q plot: Visualiza la distribución de los datos y permite identificar
valores atípicos.
• Criterios intercuartílicos (IQR):
o Elimina valores que se encuentran por encima del percentil 75 + 1.5 * IQR
o por debajo del percentil 25 - 1.5 * IQR.
• Análisis visual:
o Eliminar valores que se observen como puntos fuera de la tendencia
general en gráficos y diagramas.

Precauciones al eliminar datos atípicos:

• Eliminar solo los valores que se consideren realmente atípicos y no representen


información importante.
• Considerar el tamaño del conjunto de datos y el impacto de la eliminación en el
análisis.
• Documentar los criterios utilizados para la eliminación de datos atípicos

También podría gustarte