2 Preprocesamiento de Datos

Cargado por

planeamiento.molino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

59 vistas9 páginas

2 Preprocesamiento de Datos

Cargado por

planeamiento.molino

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

PRE-PROCESAMIENTO DE DATOS

Docente : Orlando Belli Hesse

+51992705887

https://www.facebook.com/DSProfessional/

https://www.linkedin.com/in/orlando-belli/
OBJETIVOS

● Eliminar datos duplicados.

● Manejar valores faltantes.
● Corregir inconsistencias y errores en
los datos.
● Normalizar y estandarizar los datos.
ICEBERG DE DATA CLEANING

NaN
● Identificación y eliminación de duplicados: Es importante detectar y eliminar filas duplicadas en los datos, ya que
pueden sesgar los resultados y causar problemas durante el entrenamiento del modelo.

● Manejo de valores faltantes: Los valores faltantes en los datos deben ser tratados adecuadamente, ya sea eliminando las
filas con valores faltantes, imputando valores basados en otras observaciones o utilizando técnicas más avanzadas como
la predicción con modelos de aprendizaje automático.

● Corrección de inconsistencias y errores: Es fundamental identificar y corregir valores incorrectos o inconsistentes en los
Valores
datos, como errores de codificación o valores atípicos, para evitar que afecten inconsistentes
negativamente el rendimiento del modelo.

● Normalización y estandarización: Asegurarse de que los datos estén en un formato consistente y comparable,
normalizando las unidades de medida y estandarizando las variables, paraErrores de tipeo
que puedan ser utilizados de manera efectiva en
algoritmos de aprendizaje automático.
Varias unidades en un
● Selección de características relevantes: Identificar y eliminar características irrelevantes o altamente correlacionadas
mismo campo
para reducir la complejidad del modelo y mejorar su rendimiento, utilizando técnicas de análisis de correlación o selección
de características. Comas y puntos
decimales numéricos
RESTRICCIONES EN EL DATA ENTRY
• Descartar las observaciones con
valores NA (Not available)

• Reemplazarlo por media, mediana o

moda
TRATAMIENTO
DATOS FALTANTES • Reemplazarlo por algún valor constante

• Reemplazarlo utilizando algún

algoritmo de machine learning para que
tome los valores más probables
TRANSFORMACIONES – ESCALAMIENTO DE DATOS

Escala una variable entre los valores de 0 y 1

TRANSFORMACIONES DE DATOS
Transformaciones : Normalización y Estandarización de datos

Escala una variable a una distribución normal de media = 0 y desv.std = 1

Conclusiones

● La limpieza de datos es un paso crítico en cualquier proyecto de análisis de datos, ya que los datos sucios o inexactos pueden
conducir a decisiones erróneas o conclusiones incorrectas.

● La limpieza de datos implica identificar y corregir datos incompletos, inconsistentes, duplicados o incorrectos. Esto implica realizar
tareas como eliminar registros duplicados, corregir errores de formato, solucionar valores faltantes o eliminar datos atípicos que
puedan distorsionar los resultados.

● La limpieza de datos puede requerir una combinación de métodos automáticos y manuales. Las técnicas automatizadas, como el uso
de algoritmos de limpieza de datos, pueden ser efectivas para identificar patrones comunes de errores o anomalías. Sin embargo, la
intervención humana también es esencial para comprender el contexto de los datos y tomar decisiones informadas sobre cómo
corregir los problemas identificados.

● La limpieza de datos es un proceso iterativo y continuo. A medida que se realizan nuevos descubrimientos o se obtienen datos
adicionales, es posible que sea necesario volver a evaluar y ajustar las técnicas de limpieza utilizadas. Además, la implementación
de medidas preventivas, como la validación de los datos en el punto de entrada y la implementación de controles de calidad, puede
ayudar a reducir la necesidad de futuras tareas de limpieza.

● La calidad de los datos es crucial para la toma de decisiones efectiva. Una vez que los datos se han limpiado y se ha garantizado su
integridad, es más probable que los análisis y las conclusiones basadas en esos datos sean precisos y confiables. La limpieza de
datos, por lo tanto, juega un papel fundamental en el éxito de los proyectos de análisis y en la generación de información confiable y
valiosa para las organizaciones.
Bibliografía

● Ganesan, P. (2018). Data Cleaning Techniques: A Survey. Journal of Big Data, 5(28).
https://doi.org/10.1186/s40537-018-0137-y

● Rahm, E., & Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering
Bulletin, 23(4), 3-13. https://ieeexplore.ieee.org/document/857935

● Dasu, T., & Johnson, T. (2003). Exploratory Data Mining and Data Cleaning. Wiley Interdisciplinary Reviews:
Data Mining and Knowledge Discovery, 2(3), 286-301. https://doi.org/10.1002/widm.90

También podría gustarte

Técnicas de Limpieza de Datos
Aún no hay calificaciones
Técnicas de Limpieza de Datos
7 páginas
Limpieza de Datos: Proceso ETL Efectivo
Aún no hay calificaciones
Limpieza de Datos: Proceso ETL Efectivo
11 páginas
Guía Completa sobre Limpieza de Datos
Aún no hay calificaciones
Guía Completa sobre Limpieza de Datos
5 páginas
Pid 00265704
Aún no hay calificaciones
Pid 00265704
68 páginas
Preprocesamiento de Datos en Minería
Aún no hay calificaciones
Preprocesamiento de Datos en Minería
31 páginas
Calidad de Datos
Aún no hay calificaciones
Calidad de Datos
6 páginas
Guía Completa sobre Análisis de Datos
Aún no hay calificaciones
Guía Completa sobre Análisis de Datos
18 páginas
Guía de Preprocesamiento de Datos
Aún no hay calificaciones
Guía de Preprocesamiento de Datos
4 páginas
Apunte Academico 4
Aún no hay calificaciones
Apunte Academico 4
17 páginas
Manual de Limpieza de Datos
100% (1)
Manual de Limpieza de Datos
10 páginas
Proceso ETL y Limpieza de Datos en MATLAB
0% (1)
Proceso ETL y Limpieza de Datos en MATLAB
13 páginas
Documento Enfocado A La Metodología ABP
Aún no hay calificaciones
Documento Enfocado A La Metodología ABP
9 páginas
Tema2 1 Preparacion Datos Limpieza
Aún no hay calificaciones
Tema2 1 Preparacion Datos Limpieza
33 páginas
Introduccion A La Limpieza de Datos
Aún no hay calificaciones
Introduccion A La Limpieza de Datos
3 páginas
Organización y Limpieza de Datos Tidy
Aún no hay calificaciones
Organización y Limpieza de Datos Tidy
13 páginas
Manipulacion de Datos
Aún no hay calificaciones
Manipulacion de Datos
4 páginas
Tema05 Preprocesamiento de Datos 2015 16
Aún no hay calificaciones
Tema05 Preprocesamiento de Datos 2015 16
171 páginas
03 Limpieza y Preprocesamiento
Aún no hay calificaciones
03 Limpieza y Preprocesamiento
1 página
Minería de Datos en Ferreterías
Aún no hay calificaciones
Minería de Datos en Ferreterías
6 páginas
Articulo de Revisión Sobre Data Cleansing en Entornos BigData
Aún no hay calificaciones
Articulo de Revisión Sobre Data Cleansing en Entornos BigData
5 páginas
Actividades Previas A La Limpieza Coursera
Aún no hay calificaciones
Actividades Previas A La Limpieza Coursera
3 páginas
Importancia de Limpiar Datos en Empresas
Aún no hay calificaciones
Importancia de Limpiar Datos en Empresas
37 páginas
Preprocesamiento de Datos en Minería
Aún no hay calificaciones
Preprocesamiento de Datos en Minería
185 páginas
Preparación y Limpieza de Datos en Análisis
Aún no hay calificaciones
Preparación y Limpieza de Datos en Análisis
43 páginas
Guía para la Limpieza de Bases de Datos
Aún no hay calificaciones
Guía para la Limpieza de Bases de Datos
34 páginas
Taller Semana 2
Aún no hay calificaciones
Taller Semana 2
5 páginas
Módulo 3 Martes
Aún no hay calificaciones
Módulo 3 Martes
20 páginas
Ev2 Decisiones
Aún no hay calificaciones
Ev2 Decisiones
10 páginas
Limpieza y Transformación de Datos en Python
Aún no hay calificaciones
Limpieza y Transformación de Datos en Python
70 páginas
Importancia de la Limpieza de Datos
Aún no hay calificaciones
Importancia de la Limpieza de Datos
1 página
Procesos de Limpieza e Integración de Datos
Aún no hay calificaciones
Procesos de Limpieza e Integración de Datos
33 páginas
Preprocesamiento y Limpieza de Datos
Aún no hay calificaciones
Preprocesamiento y Limpieza de Datos
68 páginas
Curso 4 Analisis de Datos
100% (1)
Curso 4 Analisis de Datos
189 páginas
Clase 4. Selección, Limpieza y Transformación - Compressed
Aún no hay calificaciones
Clase 4. Selección, Limpieza y Transformación - Compressed
50 páginas
Clase 4. Selección, Limpieza y Transformación PDF
Aún no hay calificaciones
Clase 4. Selección, Limpieza y Transformación PDF
50 páginas
U2 ProcesamientoDeDatos
Aún no hay calificaciones
U2 ProcesamientoDeDatos
54 páginas
Actividad Practica ETL 3 Individual
Aún no hay calificaciones
Actividad Practica ETL 3 Individual
14 páginas
Temas
Aún no hay calificaciones
Temas
1 página
Limpieza Bases de Datos
Aún no hay calificaciones
Limpieza Bases de Datos
33 páginas
Ev2.1 Anlisis de Datos Eq6
Aún no hay calificaciones
Ev2.1 Anlisis de Datos Eq6
20 páginas
Limpieza y Transformación de Datos
Aún no hay calificaciones
Limpieza y Transformación de Datos
9 páginas
Formato de Presentación para Entregar Tarea
Aún no hay calificaciones
Formato de Presentación para Entregar Tarea
14 páginas
Limpieza y Normalización de Datos
Aún no hay calificaciones
Limpieza y Normalización de Datos
31 páginas
Mejora de la Calidad de Datos Empresariales
Aún no hay calificaciones
Mejora de la Calidad de Datos Empresariales
11 páginas
CLASE 4 - Data Analytics
Aún no hay calificaciones
CLASE 4 - Data Analytics
9 páginas
Preparación y Depuración de Datos
Aún no hay calificaciones
Preparación y Depuración de Datos
5 páginas
Descargable M4
Aún no hay calificaciones
Descargable M4
15 páginas
Tarea2 ANALITICA DE DATOS PARA TOMA DE DECISIONES KEVIN, ANDRES, GERSON
Aún no hay calificaciones
Tarea2 ANALITICA DE DATOS PARA TOMA DE DECISIONES KEVIN, ANDRES, GERSON
14 páginas
Limpieza de Datos y Procesos ETL en BI
Aún no hay calificaciones
Limpieza de Datos y Procesos ETL en BI
22 páginas
Secuencia de Diapositivas U2
Aún no hay calificaciones
Secuencia de Diapositivas U2
16 páginas
Limpieza y Transformación de Datos (ETL)
Aún no hay calificaciones
Limpieza y Transformación de Datos (ETL)
16 páginas
Análisis y Limpieza de Datos en LinkedIn
Aún no hay calificaciones
Análisis y Limpieza de Datos en LinkedIn
3 páginas
Importancia de la Preparación de Datos
Aún no hay calificaciones
Importancia de la Preparación de Datos
3 páginas
Qué Errores Podemos Encontrarnos en Un Conjunto de Datos
Aún no hay calificaciones
Qué Errores Podemos Encontrarnos en Un Conjunto de Datos
2 páginas
Funciones del Procesamiento de Datos
Aún no hay calificaciones
Funciones del Procesamiento de Datos
9 páginas
Recolección y Limpieza de Datos en SEO
Aún no hay calificaciones
Recolección y Limpieza de Datos en SEO
10 páginas
LIMPIEZA Y TRANSFORMACIÓN DE DATOS - Base Trabajo - Limpieza I - Excel
Aún no hay calificaciones
LIMPIEZA Y TRANSFORMACIÓN DE DATOS - Base Trabajo - Limpieza I - Excel
7 páginas
Proceso de Análisis y Filtrado de Datos
Aún no hay calificaciones
Proceso de Análisis y Filtrado de Datos
9 páginas
Texto de Wright Mills, Sobre Artesanía Intelectual
Aún no hay calificaciones
Texto de Wright Mills, Sobre Artesanía Intelectual
2 páginas
Visita a la Central Hidroeléctrica Tullma
Aún no hay calificaciones
Visita a la Central Hidroeléctrica Tullma
9 páginas
Metodología Ágil
Aún no hay calificaciones
Metodología Ágil
4 páginas
CRONOGRAMA
Aún no hay calificaciones
CRONOGRAMA
5 páginas
Soldadora Inverter MIG 350 BT Profesional
Aún no hay calificaciones
Soldadora Inverter MIG 350 BT Profesional
1 página
Matriz FODA de la empresa Specel
Aún no hay calificaciones
Matriz FODA de la empresa Specel
5 páginas
Crosby G-2160
Aún no hay calificaciones
Crosby G-2160
1 página
Protocolo Simplex: Comunicación Unidireccional
Aún no hay calificaciones
Protocolo Simplex: Comunicación Unidireccional
4 páginas
Encuadre y Ángulos en Fotografía
Aún no hay calificaciones
Encuadre y Ángulos en Fotografía
26 páginas
Estatuto Academico UNAD
Aún no hay calificaciones
Estatuto Academico UNAD
45 páginas
Eficacia Jurídica de la Firma Digital
Aún no hay calificaciones
Eficacia Jurídica de la Firma Digital
4 páginas
Plan de Trabajo: Comunicación Organizacional
Aún no hay calificaciones
Plan de Trabajo: Comunicación Organizacional
6 páginas
King Pin R-57893
Aún no hay calificaciones
King Pin R-57893
1 página
Postes de fibra dental: evolución y futuro
Aún no hay calificaciones
Postes de fibra dental: evolución y futuro
17 páginas
Análisis FMEA Bomba Hidráulica
100% (1)
Análisis FMEA Bomba Hidráulica
10 páginas
Signos del Lenguaje: Naturales y Artificiales
Aún no hay calificaciones
Signos del Lenguaje: Naturales y Artificiales
4 páginas
Practicum III - Impuestos Indirectos - 2da. Edición - 2022
Aún no hay calificaciones
Practicum III - Impuestos Indirectos - 2da. Edición - 2022
208 páginas
Propiedades y Análisis de Sedimentos
Aún no hay calificaciones
Propiedades y Análisis de Sedimentos
18 páginas
Silabo Realidad Nac y Mund 2021 I
Aún no hay calificaciones
Silabo Realidad Nac y Mund 2021 I
18 páginas
Problemas Epistemológicos en Ciencia
Aún no hay calificaciones
Problemas Epistemológicos en Ciencia
9 páginas
Ejemplo de Informe Manejo de La Conducte Estudiantil
Aún no hay calificaciones
Ejemplo de Informe Manejo de La Conducte Estudiantil
29 páginas
Diagnóstico Grupal Preescolar 2
Aún no hay calificaciones
Diagnóstico Grupal Preescolar 2
11 páginas
Precotización Drywall Cielo Raso
Aún no hay calificaciones
Precotización Drywall Cielo Raso
2 páginas
Desigualdades e Inecuaciones Algebraicas
100% (1)
Desigualdades e Inecuaciones Algebraicas
2 páginas
Datos Estándar en Maquinado y Fórmulas
Aún no hay calificaciones
Datos Estándar en Maquinado y Fórmulas
20 páginas
Automatización y Desafíos Laborales
Aún no hay calificaciones
Automatización y Desafíos Laborales
12 páginas
Guía de Matemáticas y Ética Séptimo Grado
Aún no hay calificaciones
Guía de Matemáticas y Ética Séptimo Grado
9 páginas
Negociación Empresarial
100% (2)
Negociación Empresarial
15 páginas
Esquema de Seleccion de Personal y de Socializacion de Los Trabajadores Que Van A Ser Contratados
Aún no hay calificaciones
Esquema de Seleccion de Personal y de Socializacion de Los Trabajadores Que Van A Ser Contratados
2 páginas
Frecuencia mínima en puentes peatonales
100% (1)
Frecuencia mínima en puentes peatonales
10 páginas