PRE-PROCESAMIENTO DE DATOS
Docente : Orlando Belli Hesse
+51992705887
https://www.facebook.com/DSProfessional/
https://www.linkedin.com/in/orlando-belli/
OBJETIVOS
● Eliminar datos duplicados.
● Manejar valores faltantes.
● Corregir inconsistencias y errores en
los datos.
● Normalizar y estandarizar los datos.
ICEBERG DE DATA CLEANING
NaN
● Identificación y eliminación de duplicados: Es importante detectar y eliminar filas duplicadas en los datos, ya que
pueden sesgar los resultados y causar problemas durante el entrenamiento del modelo.
● Manejo de valores faltantes: Los valores faltantes en los datos deben ser tratados adecuadamente, ya sea eliminando las
filas con valores faltantes, imputando valores basados en otras observaciones o utilizando técnicas más avanzadas como
la predicción con modelos de aprendizaje automático.
● Corrección de inconsistencias y errores: Es fundamental identificar y corregir valores incorrectos o inconsistentes en los
Valores
datos, como errores de codificación o valores atípicos, para evitar que afecten inconsistentes
negativamente el rendimiento del modelo.
● Normalización y estandarización: Asegurarse de que los datos estén en un formato consistente y comparable,
normalizando las unidades de medida y estandarizando las variables, paraErrores de tipeo
que puedan ser utilizados de manera efectiva en
algoritmos de aprendizaje automático.
Varias unidades en un
● Selección de características relevantes: Identificar y eliminar características irrelevantes o altamente correlacionadas
mismo campo
para reducir la complejidad del modelo y mejorar su rendimiento, utilizando técnicas de análisis de correlación o selección
de características. Comas y puntos
decimales numéricos
RESTRICCIONES EN EL DATA ENTRY
• Descartar las observaciones con
valores NA (Not available)
• Reemplazarlo por media, mediana o
moda
TRATAMIENTO
DATOS FALTANTES • Reemplazarlo por algún valor constante
• Reemplazarlo utilizando algún
algoritmo de machine learning para que
tome los valores más probables
TRANSFORMACIONES – ESCALAMIENTO DE DATOS
Escala una variable entre los valores de 0 y 1
TRANSFORMACIONES DE DATOS
Transformaciones : Normalización y Estandarización de datos
Escala una variable a una distribución normal de media = 0 y desv.std = 1
Conclusiones
● La limpieza de datos es un paso crítico en cualquier proyecto de análisis de datos, ya que los datos sucios o inexactos pueden
conducir a decisiones erróneas o conclusiones incorrectas.
● La limpieza de datos implica identificar y corregir datos incompletos, inconsistentes, duplicados o incorrectos. Esto implica realizar
tareas como eliminar registros duplicados, corregir errores de formato, solucionar valores faltantes o eliminar datos atípicos que
puedan distorsionar los resultados.
● La limpieza de datos puede requerir una combinación de métodos automáticos y manuales. Las técnicas automatizadas, como el uso
de algoritmos de limpieza de datos, pueden ser efectivas para identificar patrones comunes de errores o anomalías. Sin embargo, la
intervención humana también es esencial para comprender el contexto de los datos y tomar decisiones informadas sobre cómo
corregir los problemas identificados.
● La limpieza de datos es un proceso iterativo y continuo. A medida que se realizan nuevos descubrimientos o se obtienen datos
adicionales, es posible que sea necesario volver a evaluar y ajustar las técnicas de limpieza utilizadas. Además, la implementación
de medidas preventivas, como la validación de los datos en el punto de entrada y la implementación de controles de calidad, puede
ayudar a reducir la necesidad de futuras tareas de limpieza.
● La calidad de los datos es crucial para la toma de decisiones efectiva. Una vez que los datos se han limpiado y se ha garantizado su
integridad, es más probable que los análisis y las conclusiones basadas en esos datos sean precisos y confiables. La limpieza de
datos, por lo tanto, juega un papel fundamental en el éxito de los proyectos de análisis y en la generación de información confiable y
valiosa para las organizaciones.
Bibliografía
● Ganesan, P. (2018). Data Cleaning Techniques: A Survey. Journal of Big Data, 5(28).
https://doi.org/10.1186/s40537-018-0137-y
● Rahm, E., & Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering
Bulletin, 23(4), 3-13. https://ieeexplore.ieee.org/document/857935
● Dasu, T., & Johnson, T. (2003). Exploratory Data Mining and Data Cleaning. Wiley Interdisciplinary Reviews:
Data Mining and Knowledge Discovery, 2(3), 286-301. https://doi.org/10.1002/widm.90