Está en la página 1de 3

Anatomía de un Dataset

Sergio Morales, Universidad Cenfotec Lenguajes de Análisis de Datos

¿Qué es un dataset?

Un Dataset consiste en cualquier conjunto de datos que sea utilizado como entrada de un
proceso de análisis. Estos pueden ser señales emitidas por un sistema de monitoreo, datos
historicos de transacciones, información de usuarios o productos, imágenes provenientes de
sistemas de captura, entre muchas otras.

Para este curso, se va a estar trabajando con datasets bidimensionales en la forma de


una tabla con dos ejes.

Figure 1: Dataset Iris, describiendo medidas de plantas y su especie.

Se puede pensar en un dataset como el equivalente de un documento sencillo de Excel, o


una tabla de una base de datos.

Componentes de un dataset

Todos los datasets con los que se van a trabajar cuentan con los siguientes componentes:

• Observaciones: Cada fila en un dataset es una observación, y corresponde de manera


semántica a una unidad de información observada. Puede corresponder a los datos de un
usuario, una transacción o un evento. Todas las observaciones en un dataset contienen
el mismo aspecto, unicamente variando semanticamente.

Material Adicional Page 1


• Atributos: Cada columna corresponde a un atributo o variable, representando a un as-
pecto específico de cada observación. Cada atributo tiene una etiqueta o nombre que lo
describe, y un único tipo:

– Categórico: Un atributo categórico se refiere a aquel cuya variabilidad es discreta.


Por ejemplo, una columna que contenga valores de verdad (Falso o Verdadero) es
categórica y posee un nivel de 2. Una que contenga la provincia de Costa Rica en la
que reside un usuario también es categórica, con un nivel de 7. Una que contenga
nombres de usuarios también es categórica, sin embargo tiene un nivel muy alto
debido a que pueden existir mucha variabilidad en los nombres. Estas columnas se
prestan para generar conteos, agrupaciones, y actuar como separadores semánticos
en el análisis.
– Numérico: Un atributo numérico se refiere a aquel cuyos valores existen en un espa-
cio lineal, ya sea continuo o discreto. Por ejemplo, el precio pagado por un artículo,
la cantidad de ganancias generadas por una inversión, la medida del largo o ancho
de una propiedad, la duración de un evento, etc. Estos atributos se prestan para
hacer análisis estadísticos: medidas de promedios, máximos y mínimos, división en
cuantiles, procesos de regresión, entre otros.

Figure 2: Visualización generada usando datos categóricos para la agrupación y numéricos


para la extracción de medidas estadísticas.

Material Adicional Page 2


– Híbridos: En algunos escenarios, un atributo puede presentar características o
prestarse para procesos de los dos tipos mencionados anteriormente. Por ejem-
plo, si se tiene un atributo categórico que refleja niveles socioeconomicos de un
habitante con los niveles [bajo, medio, alto], al estos implicar un orden pueden ser
parte de procesos estadísticos. Por otro lado, si se tiene un atributo numérico que
refleje la clase de tiquete aéreo que un pasajero compro con los valores 1, 2 y 3,
este puede ser usado como atributo categórico de 3 niveles.
– Otros: Otros atributos pueden tener características especiales que los permita ser
parte de procesos y visualizaciones especializadas. Por ejemplo, con valores tem-
porales se pueden generar lineas de tiempo, hacer agrupaciones temporales (días,
meses, años), obtener diferencias de tiempo, entre otros. Atributos geográficos
pueden utilizarse para generar visualizaciones sobre mapas, como mapas de calor,
seccionales o de puntos.

Figure 3: Ejemplo de una visualización geográfica.

• Indice: Corresponde a un identificador único de cada observación, y no se considera


parte de los atributos. Por defecto, un dataset contiene un indice que va desde 0 hasta
el número de observaciones menos 1. Si se cuenta con un dataset sin un índice explici-
tamente provisto como parte de sus atributos, entonces el software de análisis de datos
le asignará uno. Un índice debe ser un identificador único, esto es, no debe contener
valores repetidos puesto que cada uno identifica de manera exclusiva una única obser-
vación. Este puede corresponder a números de cédula de clientes, una fecha o timestamp
de un evento, un número de registro, entre otros.

Material Adicional Page 3