Qué Errores Podemos Encontrarnos en Un Conjunto de Datos

Cargado por

Richard Gacitúa

0% encontró este documento útil (0 votos)

9 vistas2 páginas

Título original

Qué errores podemos encontrarnos en un conjunto de datos

Derechos de autor

Formatos disponibles

DOCX, PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

9 vistas2 páginas

Qué Errores Podemos Encontrarnos en Un Conjunto de Datos

Cargado por

Richard Gacitúa

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 2

Buscar dentro del documento

¿Qué errores podemos encontrarnos en un conjunto de datos?

✅ Datos inconsistentes. Las cadenas de caracteres (palabras) son la parte más

complicada de la limpieza de datos porque suelen ser generadas por humanos y, por lo
tanto, son propensas a errores tipográficos. Por ejemplo, Manzanas, manzanas,
MANZANAS, el software de cálculo pensará que estas 3 opciones se refieren a 3 cosas
diferentes.
✅ Datos no válidos. De manera similar existen datos ilógicos. E.g. usuarios que pasan -2
horas en nuestra aplicación, una persona cuya edad es 999. a diferencia de los datos
dañados, los datos no válidos no son el resultado de procesos de recopilación
defectuosos, sino de problemas con el procesamiento de datos (generalmente durante
la preparación de funciones o la limpieza de datos).

✅ Datos perdidos. Pueden ser celdas vacías (o a menudo mal identificada con ceros) o
con "no aplicable", "NA", NAN, NULL, Inf. Hay 3 enfoques principales para limpiar los
datos que faltan: 1. recodificar los datos que faltan en un formato diferente. Por ejemplo
"fechadepago" por "pagado: sí o no"; 2. Completar o rellenar los valores que faltan: por
ejemplo, usar promedios móviles y rellenar para estimar los valores más probables de
los datos en ese punto; 3. eliminar filas y/o columnas con datos faltantes si no son
valiosos.

✅ Datos atípicos: son puntos de datos con un comportamiento extremo. Suelen tener
valores muy altos o muy bajos. los valores atípicos generalmente significan un
comportamiento muy interesante o un proceso de recopilación interrumpido, pero en
algunos casos se deben a errores que deben chequearse. Hay varios enfoques para
tratar con valores atípicos, por ejemplo: 1. eliminar los valores atípicos del análisis. tener
valores atípicos puede estropear su análisis al subir o bajar los promedios y, en general,
distorsionar sus estadísticas, por lo que se pueden en algunos casos eliminar según el
percentil X superior e inferior de sus datos; 2. segmentar los datos para que los valores
atípicos estén en grupos separados; 3. mantener valores atípicos, pero usar diferentes
métodos estadísticos para el análisis y evaluar su influencia.

✅ Datos duplicados. significa los mismos valores que se repiten desde un punto de
observación. Esto puede desinflar/inflar nuestros números (por ejemplo, contamos más
encuestados de los que hay o la media cambia porque algunos valores están más
representados). Para evitarlos es importante utilizar un identificador del caso ID.

Puedes ver más ejemplos en la imagen adjunta.

También podría gustarte

Métodos Econométricos para El Análisis de Políticas Públicas
Documento59 páginas
Métodos Econométricos para El Análisis de Políticas Públicas
Richard Gacitúa
Aún no hay calificaciones
Clase 4. Econometría Financiera en R
Documento43 páginas
Clase 4. Econometría Financiera en R
LUIS MIGUEL VASQUEZ QUEZADA
Aún no hay calificaciones
Econometría Financiera: Clase 1. Modelos Lineales de Series Financieras
Documento82 páginas
Econometría Financiera: Clase 1. Modelos Lineales de Series Financieras
Richard Gacitúa
Aún no hay calificaciones
Econometría Financiera: Clase 2. Modelos de Volatilidad Condicional
Documento78 páginas
Econometría Financiera: Clase 2. Modelos de Volatilidad Condicional
Richard Gacitúa
Aún no hay calificaciones
Econometría Financiera: Clase 5. Modelos de Vectores Autoregresivos (VAR)
Documento57 páginas
Econometría Financiera: Clase 5. Modelos de Vectores Autoregresivos (VAR)
Richard Gacitúa
Aún no hay calificaciones
Econometría Financiera: Clase 3. Fases de La Investigacón y Redacción de Informes
Documento39 páginas
Econometría Financiera: Clase 3. Fases de La Investigacón y Redacción de Informes
Richard Gacitúa
Aún no hay calificaciones
Proyecto Reciclaje Maipú V (1) .Inacap 2006 Desarrollo Proyectos.
Documento51 páginas
Proyecto Reciclaje Maipú V (1) .Inacap 2006 Desarrollo Proyectos.
Richard Gacitúa
Aún no hay calificaciones
Sitios para Aprender Gratis Microsoft Power BI
Documento7 páginas
Sitios para Aprender Gratis Microsoft Power BI
Richard Gacitúa
Aún no hay calificaciones
Apalancamiento Operativo
Documento5 páginas
Apalancamiento Operativo
Jesus Angulo
Aún no hay calificaciones
STD - Soportes Normalizados de Tuberías
Documento158 páginas
STD - Soportes Normalizados de Tuberías
Richard Gacitúa
Aún no hay calificaciones
Introducción Al Cálculo Estructural
Documento134 páginas
Introducción Al Cálculo Estructural
Richard Gacitúa
Aún no hay calificaciones
Apuntes Explotacion de Minas - U.de Chile
Documento338 páginas
Apuntes Explotacion de Minas - U.de Chile
Ricardo Salas Iparraguirre
Aún no hay calificaciones
Julio Ibarra Maldonado, Ciudad Traicionera
Documento67 páginas
Julio Ibarra Maldonado, Ciudad Traicionera
Richard Gacitúa
Aún no hay calificaciones
Guia de La Energia Geotermica (Dtor Gral Minas CAM)
Documento178 páginas
Guia de La Energia Geotermica (Dtor Gral Minas CAM)
ADGARCIAGARCIA
100% (1)
Cimentaciones
Documento12 páginas
Cimentaciones
Richard Gacitúa
Aún no hay calificaciones
Diseño de Minas A Cielo Abierto - U. de Chile
Documento228 páginas
Diseño de Minas A Cielo Abierto - U. de Chile
Joan Irvin
80% (5)
Study 1 Inf HIDROGEOLGICA PDF
Documento95 páginas
Study 1 Inf HIDROGEOLGICA PDF
Richard Gacitúa
Aún no hay calificaciones
LibroEE Printv2
Documento244 páginas
LibroEE Printv2
Tinoro
100% (1)
Documentos Muro Cortina
Documento185 páginas
Documentos Muro Cortina
Cristhian Jose
100% (2)
Im MX275 59 Im MX275S
Documento7 páginas
Im MX275 59 Im MX275S
Donovan Villar
Aún no hay calificaciones
Nivel 2 Leccion 3
Documento4 páginas
Nivel 2 Leccion 3
FullfilmerHd rodriguez
67% (6)
Catalogo Cygnus Online-1
Documento20 páginas
Catalogo Cygnus Online-1
QuickTech MDQ
Aún no hay calificaciones
Qyt Surecom
Documento4 páginas
Qyt Surecom
Francisco P
Aún no hay calificaciones
Trabajo Del Programa Metalurgico
Documento5 páginas
Trabajo Del Programa Metalurgico
Miyaray Lecaros
Aún no hay calificaciones
Python - Resumen de Teoria Introduccion A La Informatica
Documento11 páginas
Python - Resumen de Teoria Introduccion A La Informatica
Antonella Vilca
Aún no hay calificaciones
UF0319
Documento43 páginas
UF0319
Amaya Muñoz
Aún no hay calificaciones
Diseño de Sujetadores (Ejm)
Documento7 páginas
Diseño de Sujetadores (Ejm)
Victor Jesús Aguirre Aviles
Aún no hay calificaciones
Ejercicios Sobre Ecuaciones de Las Rectas Tangentes y Normales
Documento4 páginas
Ejercicios Sobre Ecuaciones de Las Rectas Tangentes y Normales
Matías Romero Armas
Aún no hay calificaciones
Pentax W 800 Espanol Catalogo Caracteristicas Ficha Tecnica
Documento2 páginas
Pentax W 800 Espanol Catalogo Caracteristicas Ficha Tecnica
Arley Ospina Marin
Aún no hay calificaciones
Matriz de Riesgo
Documento6 páginas
Matriz de Riesgo
Wiliam Leonardo Reyes Gonzalez
Aún no hay calificaciones
Análisis de Series de Tiempo Univariadas: Mg. Heber Baldeón Paucar
Documento30 páginas
Análisis de Series de Tiempo Univariadas: Mg. Heber Baldeón Paucar
Adrian Pedraza Aquije
Aún no hay calificaciones
Endress-Hauser Levelflex FMP51 ES
Documento6 páginas
Endress-Hauser Levelflex FMP51 ES
bandaemet
Aún no hay calificaciones
6 Características de Zotero
Documento4 páginas
6 Características de Zotero
Nicol Huaman Vilcarima
Aún no hay calificaciones
Servidor RADIUS
Documento23 páginas
Servidor RADIUS
Manuel Monzón Pérez
Aún no hay calificaciones
NETIQUETA
Documento12 páginas
NETIQUETA
Luis Angel Salcedo Sanabria
Aún no hay calificaciones
Parcal 2 UdeA 2020 1 Supletorio
Documento1 página
Parcal 2 UdeA 2020 1 Supletorio
Daniel Lorenzo Claros Peña
0% (1)
ApOf-I UT2 P2 Belguenani-Soulaimane2
Documento11 páginas
ApOf-I UT2 P2 Belguenani-Soulaimane2
Soulaimane Belguenani Boutaleb
Aún no hay calificaciones
Teoria y Ejercicios Propuestos (Modulo II) Word
Documento42 páginas
Teoria y Ejercicios Propuestos (Modulo II) Word
Noldi Mauro
Aún no hay calificaciones
Sistema Mecatrónico de Manipulación y Selección de Huevos Por Peso y Ausencia de Grietas en Cáscara para Una Planta de Incubación
Documento106 páginas
Sistema Mecatrónico de Manipulación y Selección de Huevos Por Peso y Ausencia de Grietas en Cáscara para Una Planta de Incubación
Kentner Chavez Correa
Aún no hay calificaciones
Guía de Proyectos de Sistemas de Información de Administración Financiera (Siaf)
Documento344 páginas
Guía de Proyectos de Sistemas de Información de Administración Financiera (Siaf)
Estefania Murga Quentasi
Aún no hay calificaciones
Tema 3 BBDD
Documento32 páginas
Tema 3 BBDD
Cristina León
Aún no hay calificaciones
Manual Rtu5024 Español PDF
Documento11 páginas
Manual Rtu5024 Español PDF
Patricio Ulloa
100% (1)
Curso de MDB en Java
Documento9 páginas
Curso de MDB en Java
Robert Ramirez
Aún no hay calificaciones
Aplicaciones RA, RV Y RM
Documento2 páginas
Aplicaciones RA, RV Y RM
Brayan Rosero
Aún no hay calificaciones
2.2 Procedimientos Almacenados Ejemplo
Documento3 páginas
2.2 Procedimientos Almacenados Ejemplo
nestor quijada
Aún no hay calificaciones
SIMATIC S7-1500, CPU 1513-1 PN - Datasheet - Es
Documento8 páginas
SIMATIC S7-1500, CPU 1513-1 PN - Datasheet - Es
Bj Payo
Aún no hay calificaciones
Preoperacional Mezcladora Electrica
Documento1 página
Preoperacional Mezcladora Electrica
Karen Lizeth Bermudez
100% (1)
Temario PLC
Documento12 páginas
Temario PLC
Steven Ramos
Aún no hay calificaciones
Inteligencia Artificial PDF
Documento20 páginas
Inteligencia Artificial PDF
Daniel Zavaleta
Aún no hay calificaciones