Está en la página 1de 13

Sesión 3

Tidy Data

• La idea es organizar los datos de forma que:

• Cada atributo (variable) sea una columna

• Cada ejemplo (observación) sea una fila.

• Es un enfoque desarrollado por Hadley Wickham [Chief


Scientist en Rstudio] que facilita el desarrollo de modelos.
Tidy Data
Problemas comunes en la estructuración de datos:

• Los encabezados de las columnas son valores y no nombres


de variables.

• Se guardan varias variables en una sola columna.

• Las variables se almacenan en filas y columnas.

• En una misma tabla se guardan distintos tipos de unidades de


observación.

• Una unidad de observación se guarda en varias tablas.


Tidy Data
Tidy

Untidy
Tidy Data
Tidy
Preparación de los datos
Preparación de los datos

• En los proyectos la mayor parte del tiempo (>80% del mismo)


se gasta en limpiar y preparar los datos de una forma
adecuada para el análisis.

• El preprocesamiento y la limpieza de datos son tareas


importantes que normalmente se deben llevar a cabo para que
el conjunto de datos se pueda usar de forma eficaz para el
aprendizaje automático.
Preparación de los datos

• Los datos sin procesar son a menudo ruidosos no confiables y


es posible que les falten valores.

• El uso de estos datos para el modelado puede producir


resultados engañosos.
¿Por qué preprocesar y limpiar datos?

• Se recopilan datos del mundo real de varios orígenes y


procesos y pueden contener irregularidades o datos dañados
que comprometen la calidad del conjunto de datos.
• Los problemas de calidad de datos más habituales que surgen
son:
• Incompletos: en los datos no hay atributos o contienen
valores que faltan.
• Ruidosos: los datos contienen registros erróneos o valores
atípicos.
• Incoherentes: los datos contienen discrepancias o registros
en conflicto.
¿Cuáles son algunas de las tareas principales
de preprocesamiento de datos?

• Limpieza de datos: rellene los valores que faltan, detecte y


quite los valores atípicos y los datos con ruido.

• Transformación de datos: normalice datos para reducir el ruido


y las dimensiones.Reducción de datos: atributos o registros de
datos de ejemplo para un control de datos más sencillo.
¿Cuáles son algunas de las tareas principales
de preprocesamiento de datos?

• Discretización de datos: convierta atributos continuos en


atributos de categorías para facilitar su uso con determinados
métodos de aprendizaje automático.

• Limpieza de texto: quite caracteres incrustados que puedan


ocasionar errores en la alineación de los datos, por ejemplo,
pestañas incrustadas en un archivo de datos separado por
tabulaciones, nuevas líneas incrustadas que pueden dividirse
en registros, etc.
¿Cómo tratar los valores que faltan?

• Para tratar los valores que faltan, es mejor identificar el motivo


por el que faltan los valores para controlar mejor el problema.

• Los métodos de control de valores que faltan típicos son:

• Eliminación: quite los registros con los valores que faltan

• Sustitución ficticia: reemplace los valores que faltan por un


valor ficticio; por ejemplo, desconocido para categorías o 0
para valores numéricos.
¿Cómo tratar los valores que faltan?

• Los métodos de control de valores que faltan típicos son:

• Sustitución media: si los datos que faltan son numéricos,


reemplace los valores que faltan por la media.

• Sustitución frecuente: si los datos que faltan son de


categoría, cambie los valores que faltan por el elemento
más frecuente.

• Sustitución de regresión: utilice el método de regresión


para reemplazar los valores que faltan por valores con
regresión.

También podría gustarte