datdata.com
Me
Hey
LIMPIEZA DE DATOS
@ datdata
Roddatdata.com
/ 4
SABEMOS QUE LOS DATOS SOLIDOS GUIAN LAS MEJORES DECISIONES
Esto es cierto independientemente de la industria en
que operes.
Y asi como hay datos buenos para ayudarnos a tomar
acciones, también es estan los datos malos que nos
imposibilitan proceder.
Es por ello que hoy te hablaremos de algunas técnicas para
limpiar estos datos malos o sucios.
Desliza para ver post completo.
—
Se
<
>Recuerda —> datdata.com
Cuando recopilas datos de una variedad de lugares
diferentes, es probable que tengas entradas duplicadas.
Estos duplicados podrian originarse por
un error humano donde la persona que
ingresé los datos o completé un
formulario cometié un error.
Los duplicados inevitablemente sesgarén
LUM lo le BY AoMeoda ieee Ico (MC TSU (elo
También pueden hacer que los datos
sean dificiles de leer cuando desees
visualizarlos, por lo que es mejor
eliminarlos de inmediato.
Los datos irrelevantes ralentizaran y
confundirdn cualquier andlisis que
desees realizar. Por lo tanto, descifrar lo
que es relevante y lo que no es necesario
antes de comenzar la limpieza de datos.
Por ejemplo, si estas analizando el rango
de edad de tus clientes, no necesitas incluir
sus direcciones de correo electrénico.Guardalo para
eal N datdata.com
Otros elementos que deberds eliminar, que podrian no agregar
nada a tu analisis, incluyen:
* Datos de identificacién personal
aa 0] es
* Etiquetas HTML.
* Texto repetitivo (por ejemplo, en correos electrénicos).
* Cédigos de seguimiento.
* Espacio en blanco excesivo entre el texto.
RATT APA LeU
Dentro de tus datos, debes asegurarte de que el
texto sea coherente. Si tienes una
combinacién de mayusculas, esto
podria dar lugar a la creacién de
diferentes categorias erréneas.
Si ademas de la limpieza de datos,
estas limpiando texto para poder
procesar tus datos con un modelo
informatico, es mucho mds sencillo
fXelat-Um cols (OMT Mnal iLO e0] (olsDale like si te esta
gustando el contenido, datdata.com
CHU EU
Los némeros son el tipo de datos mds comUn que necesitards
convertir cuando limpies tus datos. A menudo, los numeros se
categorizan como texto; sin embargo, para poder procesarlos,
deben aparecer como nimeros.
Si aparecen como texto, se clasifican como una cadena y sus
algoritmos de andlisis no pueden realizar ecuaciones
matematicas en ellos.
Lo mismo es cierto para las fechas que se almacenan como texto.
Todo esto debe cambiarse a nimeros. Por ejemplo, si tienes una
entrada que dice 24 de septiembre de 2022, deberds cambiarla
para que la reconozca como tipo fecha: 24/09/2022.
SU EL
Los modelos de aprendizaje automatico no pueden procesar la
informacién si esta muy formateada. Si estés tomando datos de
una variedad de fuentes, es probable que haya varios formatos
de documentos diferentes. Esto puede hacer que sus datos sean
confusos e incorrectos.
Debes eliminar cualquier tipo de formato que se haya aplicado a
sus documentos, para que pueda comenzar desde cero.
Normalmente, este no es un proceso dificil, tanto Excel como
Google Sheets, por ejemplo, tienen una funcién de
estandarizacién simple para hacer esto.Comparte a alguien
que lo necesite,
datdata.com
CRU aaa ay
Probablemente no hace falta decir que
deberds eliminar cuidadosamente
cualquier error de tus datos.
Los errores tan evitables como los
errores tipogrdficos podrian hacer que
se pierda hallazgos clave de tus datos.
Algunos de estos pueden evitarse con
algo tan simple como un corrector
ortogrdfico rapido.
Los errores ortogrdficos 0 la
puntuacién adicional en datos como
una direccién de correo electrénico
pueden significar que se pierda la
comunicacién con los clientes.
También podria llevar a enviar correos
electrénicos no deseados a personas
que no se registraron para recibirlos.
Otros errores pueden ser inconsistencias en el
formato. Por ejemplo, si tienes una columna de
montos en délares estadounidenses, deberdés
convertir cualquier otro tipo de moneda a délares
estadounidenses para conservar una moneda estaéndar
uniforme. Lo mismo ocurre con cualquier otra forma de
medida, como gramos, onzas, etc.Ma eae) a) datdata.com
los comentarios.
Tr aa ae WES
Cuando se trata de valores faltantes, tienes dos opciones:
1) Eliminar las observaciones que tienen este valor faltante.
2) Ingresar los datos que faltan.
Lo que elijas hacer dependerd de tus objetivos de
andlisis y de lo que quieras hacer a después con
tus datos.
Eliminar el valor que falta por completo podria
eliminar informacién Util de tus datos. Después
de todo, habja una razén por la que querias
obtener esta informacién en primer lugar.
Por lo tanto, podria ser mejor ingresar los
datos que faltan investigando qué
® deberia ir en ese campo. Si no sabes
qué es, puedes reemplazarlo con la
palabra que falta. Si es numérico,
puedes colocar un cero en el
campo que falta.
Sin embargo, si faltan tantos
valores que no hay suficientes datos
para usar, debes considerar
eliminar toda la seccién.Rerickty
ARS STH Uy
DY -selareM UM coLan Tale] see
@ datdata
<