0% encontró este documento útil (0 votos)
59 vistas9 páginas

2 Preprocesamiento de Datos

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
59 vistas9 páginas

2 Preprocesamiento de Datos

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

PRE-PROCESAMIENTO DE DATOS

Docente : Orlando Belli Hesse

+51992705887

https://www.facebook.com/DSProfessional/

https://www.linkedin.com/in/orlando-belli/
OBJETIVOS

● Eliminar datos duplicados.


● Manejar valores faltantes.
● Corregir inconsistencias y errores en
los datos.
● Normalizar y estandarizar los datos.
ICEBERG DE DATA CLEANING

NaN
● Identificación y eliminación de duplicados: Es importante detectar y eliminar filas duplicadas en los datos, ya que
pueden sesgar los resultados y causar problemas durante el entrenamiento del modelo.

● Manejo de valores faltantes: Los valores faltantes en los datos deben ser tratados adecuadamente, ya sea eliminando las
filas con valores faltantes, imputando valores basados en otras observaciones o utilizando técnicas más avanzadas como
la predicción con modelos de aprendizaje automático.

● Corrección de inconsistencias y errores: Es fundamental identificar y corregir valores incorrectos o inconsistentes en los
Valores
datos, como errores de codificación o valores atípicos, para evitar que afecten inconsistentes
negativamente el rendimiento del modelo.

● Normalización y estandarización: Asegurarse de que los datos estén en un formato consistente y comparable,
normalizando las unidades de medida y estandarizando las variables, paraErrores de tipeo
que puedan ser utilizados de manera efectiva en
algoritmos de aprendizaje automático.
Varias unidades en un
● Selección de características relevantes: Identificar y eliminar características irrelevantes o altamente correlacionadas
mismo campo
para reducir la complejidad del modelo y mejorar su rendimiento, utilizando técnicas de análisis de correlación o selección
de características. Comas y puntos
decimales numéricos
RESTRICCIONES EN EL DATA ENTRY
• Descartar las observaciones con
valores NA (Not available)

• Reemplazarlo por media, mediana o


moda
TRATAMIENTO
DATOS FALTANTES • Reemplazarlo por algún valor constante

• Reemplazarlo utilizando algún


algoritmo de machine learning para que
tome los valores más probables
TRANSFORMACIONES – ESCALAMIENTO DE DATOS

Escala una variable entre los valores de 0 y 1


TRANSFORMACIONES DE DATOS
Transformaciones : Normalización y Estandarización de datos

Escala una variable a una distribución normal de media = 0 y desv.std = 1


Conclusiones

● La limpieza de datos es un paso crítico en cualquier proyecto de análisis de datos, ya que los datos sucios o inexactos pueden
conducir a decisiones erróneas o conclusiones incorrectas.

● La limpieza de datos implica identificar y corregir datos incompletos, inconsistentes, duplicados o incorrectos. Esto implica realizar
tareas como eliminar registros duplicados, corregir errores de formato, solucionar valores faltantes o eliminar datos atípicos que
puedan distorsionar los resultados.

● La limpieza de datos puede requerir una combinación de métodos automáticos y manuales. Las técnicas automatizadas, como el uso
de algoritmos de limpieza de datos, pueden ser efectivas para identificar patrones comunes de errores o anomalías. Sin embargo, la
intervención humana también es esencial para comprender el contexto de los datos y tomar decisiones informadas sobre cómo
corregir los problemas identificados.

● La limpieza de datos es un proceso iterativo y continuo. A medida que se realizan nuevos descubrimientos o se obtienen datos
adicionales, es posible que sea necesario volver a evaluar y ajustar las técnicas de limpieza utilizadas. Además, la implementación
de medidas preventivas, como la validación de los datos en el punto de entrada y la implementación de controles de calidad, puede
ayudar a reducir la necesidad de futuras tareas de limpieza.

● La calidad de los datos es crucial para la toma de decisiones efectiva. Una vez que los datos se han limpiado y se ha garantizado su
integridad, es más probable que los análisis y las conclusiones basadas en esos datos sean precisos y confiables. La limpieza de
datos, por lo tanto, juega un papel fundamental en el éxito de los proyectos de análisis y en la generación de información confiable y
valiosa para las organizaciones.
Bibliografía

● Ganesan, P. (2018). Data Cleaning Techniques: A Survey. Journal of Big Data, 5(28).
https://doi.org/10.1186/s40537-018-0137-y

● Rahm, E., & Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering
Bulletin, 23(4), 3-13. https://ieeexplore.ieee.org/document/857935

● Dasu, T., & Johnson, T. (2003). Exploratory Data Mining and Data Cleaning. Wiley Interdisciplinary Reviews:
Data Mining and Knowledge Discovery, 2(3), 286-301. https://doi.org/10.1002/widm.90

También podría gustarte