Está en la página 1de 8
datdata.com Me Hey LIMPIEZA DE DATOS @ datdata Rod datdata.com / 4 SABEMOS QUE LOS DATOS SOLIDOS GUIAN LAS MEJORES DECISIONES Esto es cierto independientemente de la industria en que operes. Y asi como hay datos buenos para ayudarnos a tomar acciones, también es estan los datos malos que nos imposibilitan proceder. Es por ello que hoy te hablaremos de algunas técnicas para limpiar estos datos malos o sucios. Desliza para ver post completo. — Se < > Recuerda —> datdata.com Cuando recopilas datos de una variedad de lugares diferentes, es probable que tengas entradas duplicadas. Estos duplicados podrian originarse por un error humano donde la persona que ingresé los datos o completé un formulario cometié un error. Los duplicados inevitablemente sesgarén LUM lo le BY AoMeoda ieee Ico (MC TSU (elo También pueden hacer que los datos sean dificiles de leer cuando desees visualizarlos, por lo que es mejor eliminarlos de inmediato. Los datos irrelevantes ralentizaran y confundirdn cualquier andlisis que desees realizar. Por lo tanto, descifrar lo que es relevante y lo que no es necesario antes de comenzar la limpieza de datos. Por ejemplo, si estas analizando el rango de edad de tus clientes, no necesitas incluir sus direcciones de correo electrénico. Guardalo para eal N datdata.com Otros elementos que deberds eliminar, que podrian no agregar nada a tu analisis, incluyen: * Datos de identificacién personal aa 0] es * Etiquetas HTML. * Texto repetitivo (por ejemplo, en correos electrénicos). * Cédigos de seguimiento. * Espacio en blanco excesivo entre el texto. RATT APA LeU Dentro de tus datos, debes asegurarte de que el texto sea coherente. Si tienes una combinacién de mayusculas, esto podria dar lugar a la creacién de diferentes categorias erréneas. Si ademas de la limpieza de datos, estas limpiando texto para poder procesar tus datos con un modelo informatico, es mucho mds sencillo fXelat-Um cols (OMT Mnal iLO e0] (ols Dale like si te esta gustando el contenido, datdata.com CHU EU Los némeros son el tipo de datos mds comUn que necesitards convertir cuando limpies tus datos. A menudo, los numeros se categorizan como texto; sin embargo, para poder procesarlos, deben aparecer como nimeros. Si aparecen como texto, se clasifican como una cadena y sus algoritmos de andlisis no pueden realizar ecuaciones matematicas en ellos. Lo mismo es cierto para las fechas que se almacenan como texto. Todo esto debe cambiarse a nimeros. Por ejemplo, si tienes una entrada que dice 24 de septiembre de 2022, deberds cambiarla para que la reconozca como tipo fecha: 24/09/2022. SU EL Los modelos de aprendizaje automatico no pueden procesar la informacién si esta muy formateada. Si estés tomando datos de una variedad de fuentes, es probable que haya varios formatos de documentos diferentes. Esto puede hacer que sus datos sean confusos e incorrectos. Debes eliminar cualquier tipo de formato que se haya aplicado a sus documentos, para que pueda comenzar desde cero. Normalmente, este no es un proceso dificil, tanto Excel como Google Sheets, por ejemplo, tienen una funcién de estandarizacién simple para hacer esto. Comparte a alguien que lo necesite, datdata.com CRU aaa ay Probablemente no hace falta decir que deberds eliminar cuidadosamente cualquier error de tus datos. Los errores tan evitables como los errores tipogrdficos podrian hacer que se pierda hallazgos clave de tus datos. Algunos de estos pueden evitarse con algo tan simple como un corrector ortogrdfico rapido. Los errores ortogrdficos 0 la puntuacién adicional en datos como una direccién de correo electrénico pueden significar que se pierda la comunicacién con los clientes. También podria llevar a enviar correos electrénicos no deseados a personas que no se registraron para recibirlos. Otros errores pueden ser inconsistencias en el formato. Por ejemplo, si tienes una columna de montos en délares estadounidenses, deberdés convertir cualquier otro tipo de moneda a délares estadounidenses para conservar una moneda estaéndar uniforme. Lo mismo ocurre con cualquier otra forma de medida, como gramos, onzas, etc. Ma eae) a) datdata.com los comentarios. Tr aa ae WES Cuando se trata de valores faltantes, tienes dos opciones: 1) Eliminar las observaciones que tienen este valor faltante. 2) Ingresar los datos que faltan. Lo que elijas hacer dependerd de tus objetivos de andlisis y de lo que quieras hacer a después con tus datos. Eliminar el valor que falta por completo podria eliminar informacién Util de tus datos. Después de todo, habja una razén por la que querias obtener esta informacién en primer lugar. Por lo tanto, podria ser mejor ingresar los datos que faltan investigando qué ® deberia ir en ese campo. Si no sabes qué es, puedes reemplazarlo con la palabra que falta. Si es numérico, puedes colocar un cero en el campo que falta. Sin embargo, si faltan tantos valores que no hay suficientes datos para usar, debes considerar eliminar toda la seccién. Rerickty ARS STH Uy DY -selareM UM coLan Tale] see @ datdata <

También podría gustarte