• Es un enfoque desarrollado por Hadley Wickham [Chief
Scientist en Rstudio] que facilita el desarrollo de modelos. Tidy Data Problemas comunes en la estructuración de datos:
• Los encabezados de las columnas son valores y no nombres
de variables.
• Se guardan varias variables en una sola columna.
• Las variables se almacenan en filas y columnas.
• En una misma tabla se guardan distintos tipos de unidades de
observación.
• Una unidad de observación se guarda en varias tablas.
Tidy Data Tidy
Untidy Tidy Data Tidy Preparación de los datos Preparación de los datos
• En los proyectos la mayor parte del tiempo (>80% del mismo)
se gasta en limpiar y preparar los datos de una forma adecuada para el análisis.
• El preprocesamiento y la limpieza de datos son tareas
importantes que normalmente se deben llevar a cabo para que el conjunto de datos se pueda usar de forma eficaz para el aprendizaje automático. Preparación de los datos
• Los datos sin procesar son a menudo ruidosos no confiables y
es posible que les falten valores.
• El uso de estos datos para el modelado puede producir
resultados engañosos. ¿Por qué preprocesar y limpiar datos?
• Se recopilan datos del mundo real de varios orígenes y
procesos y pueden contener irregularidades o datos dañados que comprometen la calidad del conjunto de datos. • Los problemas de calidad de datos más habituales que surgen son: • Incompletos: en los datos no hay atributos o contienen valores que faltan. • Ruidosos: los datos contienen registros erróneos o valores atípicos. • Incoherentes: los datos contienen discrepancias o registros en conflicto. ¿Cuáles son algunas de las tareas principales de preprocesamiento de datos?
• Limpieza de datos: rellene los valores que faltan, detecte y
quite los valores atípicos y los datos con ruido.
• Transformación de datos: normalice datos para reducir el ruido
y las dimensiones.Reducción de datos: atributos o registros de datos de ejemplo para un control de datos más sencillo. ¿Cuáles son algunas de las tareas principales de preprocesamiento de datos?
• Discretización de datos: convierta atributos continuos en
atributos de categorías para facilitar su uso con determinados métodos de aprendizaje automático.
• Limpieza de texto: quite caracteres incrustados que puedan
ocasionar errores en la alineación de los datos, por ejemplo, pestañas incrustadas en un archivo de datos separado por tabulaciones, nuevas líneas incrustadas que pueden dividirse en registros, etc. ¿Cómo tratar los valores que faltan?
• Para tratar los valores que faltan, es mejor identificar el motivo
por el que faltan los valores para controlar mejor el problema.
• Los métodos de control de valores que faltan típicos son:
• Eliminación: quite los registros con los valores que faltan
• Sustitución ficticia: reemplace los valores que faltan por un
valor ficticio; por ejemplo, desconocido para categorías o 0 para valores numéricos. ¿Cómo tratar los valores que faltan?
• Los métodos de control de valores que faltan típicos son:
• Sustitución media: si los datos que faltan son numéricos,
reemplace los valores que faltan por la media.
• Sustitución frecuente: si los datos que faltan son de
categoría, cambie los valores que faltan por el elemento más frecuente.
• Sustitución de regresión: utilice el método de regresión
para reemplazar los valores que faltan por valores con regresión.