Está en la página 1de 28

IntroducciónBloque 1Bloque 2Bloque 3Bloque 4Bloque 5Bloque 6Referencias

Descripción estadística y técnicas


de visualización
Introducción

En las aplicaciones prácticas, los datos no se presentan aislados sino en conjuntos,


que pueden ser muy grandes; tanto, que sea imposible siquiera verlos manualmente.
En estas condiciones existen técnicas matemáticas y gráficas que permiten resumir
y visualizar adecuadamente los datos. Esto permite no solamente conocerlos, sino
también interpretarlos y comunicarlos mejor. La pertinencia de distintos métodos
depende, fundamentalmente, del tipo de dato que tengamos enfrente. En esta
lectura aprenderemos a seleccionar y aplicar el método más apropiado para resumir
y visualizar datos, lo cual es esencial para la etapa de exploración en un proyecto de
ciencia de datos.

1. Representación matemática de datos

En la lectura anterior revisamos con cierto detalle cuál es la estructura básica de los
datos y los tipos que pueden existir, teniendo en cuenta el tipo de variables y valores
relacionados con ellos. Asimismo, exploramos distintas fuentes y formatos,
considerando las diferencias entre información estructurada y no estructurada y su
importancia para el análisis de datos. Finalmente, dimos algunas indicaciones
respecto del proceso de obtener los datos y fusionarlos, tanto en el modelo CRISP-
DM como en el modelo MADAP-SP. Sin embargo, tal como hicimos notar a propósito
de nuestro tratamiento de la aplicación Gasto Público Bahiense (en la tercera lectura
del primer módulo), solo disponer de los datos, incluso en forma consolidada, no es
suficiente. Consideremos la siguiente situación:

Sabina acaba de entrar a trabajar como analista de datos en el área de


Inteligencia de Negocios (BI) de una empresa multinacional de primera
línea. Ella tiene a su cargo el análisis de las bases de datos de
transacciones realizadas en cada uno de los distintos puntos de venta
que la compañía tiene desplegados a lo largo y ancho del territorio
nacional. Cada punto de venta consolida y envía información sobre cada
una de las ventas que realiza, de modo tal que su base de datos registra
las siguientes variables, para todas las transacciones: nombre y apellido
del cliente, sexo, edad, estado civil, nivel de formación, domicilio, número
de teléfono celular, e-mail, producto comprado, color, precio, medio de
pago, ID del punto de venta, localización del punto de venta, ID del
vendedor. Esta base de datos incorpora, todos los meses, alrededor de
500.000 nuevos registros de transacciones.

Sabina ha ingresado a la compañía con la misión de desarrollar algún


producto analítico o reporte que agregue valor para la toma de
decisiones. Para eso, deberá trabajar con la base de datos antes
mencionada. Además, todos los meses deberá realizar una presentación
frente a directivos de la compañía, los cuales desean conocer datos
específicos sobre el avance del negocio. Esto incluye conocer mejor el
perfil de los clientes, los productos más exitosos, el desempeño de los
distintos puntos de venta y sus empleados, y otros aspectos similares.
Ella tiene 20 minutos para exponer los resultados obtenidos a partir de la
base de datos antes mencionada.

Puesto que Sabina acaba de entrar a la empresa, no conoce muy bien


los datos con los que va a trabajar, lo cual supone una desventaja a la
hora de diseñar un producto analítico, pero también a la hora de elaborar
una presentación. ¿Cómo debería ella aproximarse a un conjunto muy
grande de datos que le resultan desconocidos? Por otra parte, el número
promedio de transacciones mensuales que Sabina debe considerar es
inmenso. Es evidente que no puede simplemente presentar una base de
datos tan grande en una presentación de 20 minutos. Además, una tabla
con números, incluso si no fuera tan grande, resultaría difícil de entender.
¿De qué manera podría presentar los datos de la base para que sean
entendibles y, al mismo tiempo, no ocupen el mismo espacio que una
tabla de 500.000 registros?

En una ocasión vi un informe, elaborado en el sector público, en el cual se realizaba


un análisis sobre la composición de una droga ilícita incautada en el contexto de un
operativo policial. El informe estaba basado en el análisis de composición de
aproximadamente 3.000 unidades de una sustancia. El documento constaba de dos
partes. La primera de ellas tenía una extensión de una o dos páginas y contenía una
explicación del trabajo realizado y sus principales conclusiones. La segunda parte
constaba de alrededor de 100 páginas y era una tabla que contenía el peso de cada
una de las unidades que se habían analizado.

Ignoro si quien lo confeccionó tenía algún tipo de obligación de colocar los datos al
final del reporte. En cualquier caso, es evidente que una tabla de 100 páginas con
números y más números, en el contexto de un informe escrito, no agrega
absolutamente nada. Por el contrario, resulta tan improcedente como que Sabina
llegara a la reunión con una presentación de 10.000 diapositivas de PowerPoint con
los datos de cada una de las transacciones realizadas. La información contenida en
ese anexo era valiosa y relevante, pero no estaba presentada de una manera
adecuada. Si lo hubiera estado, se hubiera resumido fácilmente en media página.
Esta es la cuestión clave que abordaremos durante esta lectura: cómo hacer para
resumir cantidades muy grandes de datos en un espacio pequeño, de manera tal
que sean fácilmente interpretables para quien necesite consultar la información.
Veremos que esto mismo también resuelve en buena medida la aproximación a
grandes volúmenes de datos desconocidos que necesita Sabina.

Un determinado conjunto de datos se puede resumir a través de dos formas básicas.


Por un lado, se puede realizar una representación matemática del conjunto a partir
de unos pocos parámetros bien elegidos. Por otro lado, es factible graficar los datos
de alguna manera que los torne más entendibles. Empezaremos, como lo indica el
título de esta sección, analizando distintas estrategias para representar
matemáticamente los datos. El tipo de representación depende esencialmente de si
los datos son cualitativos o cuantitativos.

2. Representación de datos cuantitativos

Los datos cuantitativos, como ya hemos mencionado, son aquellos que asumen
valores numéricos, los cuales guardan relaciones matemáticas entre sí. Por
consiguiente, son particularmente fáciles de representar a partir de parámetros
obtenidos matemáticamente. Dado un conjunto de datos cuantitativos, podemos
evaluar esencialmente dos cosas: cuán juntos están los datos unos con relación a
otros, y dónde se encuentran, aproximadamente, con relación a toda la gama de
valores posibles. Esto define dos tipos de medidas: medidas de centralidad y
medidas de dispersión (Peck, Olsen y Devore, 2012). Las abordaremos
brevemente a continuación. Si bien aquí daremos definiciones conceptuales,
encontrarán las definiciones matemáticas en la bibliografía del curso (Han, Kamber y
Pei, 2012). Asimismo, todas ellas se pueden calcular, en la práctica, a partir de
funciones de Microsoft Excel.

Medidas de centralidad

Imaginemos un conjunto de datos cuantitativos. Por ejemplo, los valores de la


variable “estatura”, medida en centímetros, para un conjunto de estudiantes de
secundaria, que serán nuestras unidades de análisis. En principio, la estatura
medida en centímetros puede asumir cualquier valor real entre cero e infinito, si bien,
en la práctica, sabemos que no hay personas que midan más de 251 cm (ese es el
récord Guinness). Dado un conjunto de mediciones de estatura, podríamos querer
saber si existe algún valor que caracterice la posición de toda la distribución de datos
dentro de la escala de posibles valores. Esta, precisamente, es la tarea de una
medida de centralidad. Veremos algunos ejemplos clásicos a continuación.

Media aritmética: la media aritmética o promedio es el parámetro estadístico más


conocido de todos. Lo usamos permanentemente en nuestra vida cotidiana para
realizar estimaciones y tomar decisiones de todo tipo. Por ejemplo, en diversas
instituciones educativas los profesores usan la nota promedio entre un conjunto de
exámenes para decidir si un alumno ha aprobado un curso y con qué calificación.
También se usa para determinar si un equipo de fútbol debe mantenerse en una
dada categoría o si le corresponde descender o ascender.

Esencialmente, el promedio de un conjunto de datos es aquel valor que está lo más


cerca posible de todos los valores en el conjunto y, por esa razón, los representa
muy bien (Sosa Escudero, 2019). En términos matemáticos se calcula sumando
algebraicamente todos los valores del conjunto y luego dividiendo la cantidad de
valores dentro de él. También es posible calcular promedios ponderados, donde los
distintos valores tienen distinta importancia, y medias recortadas, donde ciertos
valores extremos son eliminados. En el próximo módulo veremos que es un
parámetro extraordinariamente importante para ciertos algoritmos de aprendizaje
automático (Sosa Escudero, 2019).

Moda: la moda es el valor que más se repite dentro de una distribución de datos. Si
ella corresponde a valores de una variable continua, puede que ningún valor como
tal se repita. En ese caso, la variable se puede discretizar partiéndola en rangos y
tomar como moda aquel rango de valores que más se repite. Como veremos luego,
este parámetro es mucho más relevante en relación con los datos cualitativos.

Mediana: el promedio es la medida de centralidad más usada de todas. Sin


embargo, no es todo ventajas; tiene un punto débil que puede ser muy perjudicial en
ciertas circunstancias: es muy sensible a la presencia de valores extremos.
Imaginemos que estamos midiendo la distribución de los sueldos dentro de una
empresa que tiene 100 empleados. El Ministerio de Trabajo quiere saber si la
empresa paga buenos o malos salarios, de manera que calcula el salario promedio
de todos los empleados. Ahora imaginemos que todos ellos ganaran entre 2000 y
3000 dólares; digamos que la mitad de ellos gana 2000 y la otra mitad gana 3000.
Entonces, el salario promedio de la empresa sería de 2500 dólares.

Supongamos ahora que se ha contratado a un nuevo gerente general, que tiene un


salario de 200.000 dólares. Ahora, el salario promedio de la compañía ha subido
hasta aproximadamente 4.700 dólares. Que es un valor mayor al de cualquiera de
los empleados individuales del 99% de los empleados. Esto muestra que, si bien uno
esperaría que una buena medida de centralidad estuviera cerca de la mayoría de los
datos, dado que el promedio debe estar lo más cerca de TODOS los datos, aquí se
aparta de la mayoría de ellos para acercarse a uno que es extremo.

La mediana, por su parte, es un parámetro que mide la posición de una distribución


de una manera completamente insensible a la presencia de valores extremos. Se
define como aquel valor que divide al conjunto de datos en dos partes iguales. Para
calcularla hay que tomar todos los valores, ordenarlos de manera creciente o
decreciente y tomar el valor que quede en el medio. Por ejemplo, supongamos que
los valores son: 23, 25, 60, 45, 46, 67, 12000. El valor promedio da 1752,29, que
está completamente fuera de escala respecto del grupo mayoritario de valores. Para
calcular la mediana los ponemos en orden, por ejemplo: 23, 25, 45, 46, 60, 67, 1200.
La mediana es 46, ya que divide al conjunto en dos grupos de tres valores cada uno.
Nótese que este valor está mucho más cerca del grupo mayoritario. En el caso en
que haya una cantidad par de datos, en lugar del valor central se toma el promedio
entre los dos valores centrales.

Una opción intermedia consiste en calcular la media recortada, que se calcula
eliminando la misma cantidad de valores a ambos lados de la distribución, de
manera que se eliminen los valores extremos pero el valor de la mediana no cambie.
Por ejemplo, en el caso anterior, si eliminamos los valores 23 y 12000, la mediana no
cambia, pero la nueva media es 48,6 que está dentro de la distribución mayoritaria
de datos, como se pretendía. Al porcentaje de valores que hay que eliminar para
obtenerla se le denomina grado de recorte (Peck, Olsen y Devore, 2012).

Medidas de dispersión

Las medidas de centralidad vistas en el apartado anterior sirven para localizar la


posición aproximada de toda una distribución de datos. Sin embargo, una
distribución que se localiza aproximadamente en el mismo lugar puede estar muy
dispersa o muy concentrada. Por ejemplo, en el caso de la empresa y sus salarios,
hay 101 empleados, con un salario promedio de 4.700 dólares (aproximadamente),
con un extremo en 2.000 dólares y otro en 200.000 dólares. Sin embargo, se
obtendría el mismo valor promedio si todos los empleados ganaran 4.700 dólares.
Así, mientras la primera distribución está formada por valores dispersos, los valores
de la segunda están completamente concentrados. Por ende, para caracterizar un
conjunto de datos no alcanza con un parámetro que mida la posición de la
distribución, sino que se necesita un parámetro que mida cuán concentrados o
dispersos están los datos alrededor de ese valor. También a este respecto hay varias
opciones y estudiaremos las más frecuentes.

Rango: la forma más fácil de medir la dispersión de una distribución de datos


consiste en medir la diferencia entre el más grande y el más pequeño de sus
valores. Mientras que su gran ventaja radica en que es fácil de calcular, su principal
desventaja consiste en que es extremadamente sensible a valores extremos, que
pueden no reflejar la dispersión real de la mayoría de los datos.

Desviación estándar: al tratar las medidas de centralidad vimos que el promedio


era un valor que estaba lo más cerca posible de todos a la vez. Por lo tanto, la
dispersión de los valores dentro de una distribución puede pensarse a partir de
cuánto varía la distancia de los distintos puntos a ese valor promedio. Si la distancia
es pequeña y varía poco, los valores están concentrados y si es grande y/o varía
mucho, están muy dispersos. ¿Cómo medir si la distancia es grande o pequeña y si
varía mucho o poco? ¡Calculando un promedio! La desviación estándar es un
coeficiente que mide una especie de distancia promedio entre los valores
individuales de una distribución y su valor promedio. Insistimos en que no es
exactamente un promedio, pero la idea es análoga. Este parámetro es, por lejos, la
medida de dispersión más utilizada. Por ejemplo, se utiliza como estimación del
margen de error de una medición.

Cuantiles: así como la mediana parte a una distribución de datos en dos grupos con
igual cantidad de integrantes, es posible encontrar n valores enteros que parten la
distribución en n+1 grupos iguales. A cada uno de estos n+1 grupos de valores se le
denomina un cuantil. Los valores de los cuantiles indican cuán grande es la
dispersión de los datos. El tipo de cuantiles más famosos son, con diferencia, los
percentiles. Estos son valores que dividen a la distribución en 100 grupos de igual
cantidad de integrantes. Estos parámetros son muy usados, por ejemplo, para medir
el ingreso de los habitantes de un país y el crecimiento de los niños. El segundo
grupo más conocido de cuantiles son los cuartiles, que consisten en dividir la
distribución en cuatro partes iguales. El rango intercuartil es una medida de
dispersión que se calcula como la diferencia entre el valor del tercer y el primer
cuartil (Han, kamber y Pei, 2012).

Veamos cómo aplicar estos conceptos al problema de Sabina. En su base de datos


ella tiene esencialmente dos variables cuantitativas de importancia: la edad de los
compradores y el precio de los productos. El domicilio de las personas involucradas
puede ser una variable cualitativa o cuantitativa, según como se la codifique. Lo
mismo ocurre con la localización de los puntos de venta. Entonces, con relación a
las variables definitivamente cuantitativas, Sabina podría indicar la edad promedio de
los compradores y cuál es el rango total de edades. También podría determinar cuál
es el grupo etario más significativo entre los clientes. Algo parecido podría hacer con
el precio de los productos. El análisis no tiene por qué limitarse a las variables
individuales, sino que puede incluir dos o más variables simultáneas. Por ejemplo,
puede ser útil analizar la distribución de edad de los compradores en función del tipo
de producto o de la zona geográfica. Así, Sabina podría encontrar que la edad
promedio para la compra de ciertos productos es de 34 años, en tanto que para
otros la edad es de 56 años.

3. Representación de datos cualitativos

Las medidas de centralidad y dispersión utilizadas para variables cuantitativas eran


operaciones matemáticas que requerían introducir valores numéricos. Dado que las
variables cualitativas no los tienen (y si los tienen son solo etiquetas sin significado
matemático), no se pueden emplear parámetros cuantitativos tan ligeramente en
estos casos. Por ende, hay que optar por otras opciones, o bien, hacer un pequeño
rodeo. Las variables cualitativas tienen valores conceptuales, sin relaciones
matemáticas entre ellos. Dada una distribución, la cosa más simple que se puede
hacer es contar cuántas veces aparece cada uno de los valores posibles de la
variable. Así, por ejemplo, si se tiene 100 suéteres de colores rojo, azul y verde, lo
más simple que puede hacerse es contar cuántos hay de cada color.

Al número de veces que aparece un valor de una determinada variable en un


conjunto de datos se le denomina frecuencia absoluta de ese valor dentro del
conjunto. Cada valor tendrá su propia frecuencia. Por lo tanto, una manera de
describir a una distribución de datos cualitativos consiste en reportar las frecuencias
de cada uno de los valores o, al menos, el valor que tiene la máxima frecuencia.
Nótese que esta frecuencia máxima es completamente equivalente a la moda para
valores cuantitativos. Una vez que se tienen valores de frecuencia, dado que estos
son parámetros cuantitativos, se pueden calcular la media, la desviación estándar,
etc. Si bien este segundo parámetro tendría sentido como una medida de la
dispersión que tienen las distintas frecuencias, no es tan utilizado.

Un punto importante de las frecuencias absolutas es que dependen de la cantidad


de datos que haya en el conjunto. Esto hace difícil comparar las frecuencias de un
mismo conjunto de valores para dos conjuntos de datos, si la cantidad de datos es
distinta. Por el contrario, lo que realmente interesa al analizar las frecuencias no son
las cantidades absolutas sino la distribución. Para eliminar este problema, suele
definirse la frecuencia relativa como el resultado de dividir la frecuencia absoluta
por el total de datos. Por ejemplo, supongamos que de los 100 suéteres 20 son
rojos, 70 son verdes y 10 son azules. Entonces, la frecuencia relativa del color verde
será de 0,7, la del color azul, de 0,1 y la del color rojo, de 0,2. Muchas veces estos
valores se reportan como números porcentuales (en nuestro ejemplo, 70%, 10% y
20%, respectivamente).

El caso de Sabina está repleto de variables cualitativas para trabajar. De hecho, la


mayoría de ellas lo son. Desde el punto de vista de sus intereses, puede ser
relevante considerar la moda de distintas variables. Por ejemplo, saber cuál es el
producto más vendido o cuál es el punto de venta con mayor cantidad de ventas
diarias. También podría querer saber cuánta diferencia hay entre el producto más
vendido y el menos vendido, o si determinado producto es comprado más por
hombres o por mujeres, etc. Este tipo de cosas pueden mostrarse fácilmente a partir
de cálculos de frecuencia.

4. Representación gráfica de datos

La representación numérica de los datos es muy útil a distintos efectos. Al margen


de su utilidad para dar una idea de dónde se encuentra ubicado un conjunto de
datos y cuán concentrados están ellos, resulta indispensable cuando los datos
quieren utilizarse para realizar cálculos. Por ejemplo, supongamos que los datos son
un conjunto de mediciones de velocidad realizadas sobre un mismo objeto. El
resultado de la medición suele reportarse como un valor medio y una desviación
estándar. Si la velocidad se quiere utilizar luego para realizar cálculos de posición en
función del tiempo, el conjunto de datos se puede reemplazar por el valor medio y la
desviación estándar.

Ahora bien, en otras ocasiones, puede que una serie de valores numéricos no sean
lo suficientemente ilustrativos respecto de un fenómeno, aun cuando resumieran
muy bien las propiedades de la distribución. En diversas situaciones un recurso
gráfico puede ser irremplazable. Por ejemplo, una distribución de puntos en un mapa
puede indicar mejor que nada las regiones peligrosas dentro de una ciudad y cómo
esas distintas regiones están distribuidas en el espacio y las distancias que las
separan entre sí. Por lo tanto, en esta sección analizaremos algunas formas clásicas
de representación gráfica. Existen muchísimas otras que el lector podrá encontrar en
la literatura (Wexler, 2021).

Nuevamente, las formas de representación gráfica dependen de si los datos son


cualitativos o cuantitativos, tal como ocurría con las representaciones matemáticas.
Un caso especial es la representación de variables espaciales, de manera que lo
trataremos por separado, aun cuando las variables involucradas puedan ser
englobadas como cualitativas o cuantitativas. Finalmente, daremos algunas
sugerencias para que Sabina, la analista del ejemplo con que inicia esta sección,
pueda resumir gráficamente los datos e incorporarlos a su presentación.

Representación de datos cuantitativos

Los datos cuantitativos se pueden representar por medio de distintos tipos de


gráficos, dependiendo de lo que se quiera mostrar y de la cantidad de variables que
quieran mostrarse de forma simultánea. Uno de los gráficos más comúnmente
utilizados para variables cuantitativas es el histograma. Un histograma no es más
que un gráfico de barras que muestra la distribución de frecuencias de los distintos
valores o intervalos de valores de una variable. En el caso de las variables discretas,
el intervalo es simple de encontrar, ya que cada uno de los valores funciona como un
intervalo en sí mismo.

En el caso de las variables continuas, la situación es menos obvia. Como sus


valores posibles son infinitos, si cada intervalo estuviera formado por un solo valor,
podríamos encontrar una distribución donde cada valor tuviera frecuencia 1. Esa
situación, en lugar de mostrar una distribución, equivaldría a una línea horizontal. En
tal caso, es necesario fraccionar la escala en intervalos de valores, cuyo tamaño
puede ser elegido a voluntad. Se puede probar con distintos “anchos de intervalo”
hasta lograr una distribución que se considere suficientemente buena. Incluso
existen histogramas de intervalos distintos, donde el ancho de cada intervalo puede
variar, aunque no son los más frecuentes (Peck, Olsen y Devore 2012).

Por ejemplo, en la figura n° 1 puede ver un histograma de la concentración de ozono


en la atmósfera, medida en distintas ciudades de los Estados Unidos entre los años
2000 y 2016. Nótese que el ancho es lo bastante fino como para que el contorno sea
una curva casi suave. Los histogramas tienen una utilidad muy grande en términos
estadísticos, porque sirven para analizar distribuciones de probabilidad en términos
experimentales. Cuando el histograma dibuja una silueta lo bastante suave, se
puede analizar si una cierta variable sigue determinada distribución de probabilidad.
Por ejemplo, se puede analizar si la concentración de ozono sigue una distribución
gaussiana o no.

Figura 1: Histograma de la concentración de ozono

Fuente: elaboración propia.

Descripción: distribución de la concentración de ozono en la atmósfera, medida en


distintas ciudades de los Estados Unidos, entre los años 2000 y 2016.
Ahora bien, dado que se grafican frecuencias, un histograma tiene el mismo
problema que el cálculo de frecuencias absolutas para las variables cualitativas.
Según la cantidad de datos, dos distribuciones que son iguales en términos relativos
pueden tener tamaños muy diferentes, lo cual dificulta la comparación entre ellas.
Por esta razón, una práctica usual consiste en normalizar el histograma. A
diferencia de lo que pasaba con las frecuencias, no se divide por la suma de todos
los casos, sino por el área del histograma, que se obtiene de multiplicar cada barra
del histograma por el ancho del intervalo correspondiente y luego sumar todo. Si el
histograma es de anchos iguales, todo lo que hay que hacer es multiplicar la
cantidad total de datos por el ancho de un intervalo.

Por ejemplo, en este caso, el valor por el cual hay que dividir es de 0,01 (ancho de
cada intervalo) multiplicado por 1.036.713 (número total de datos). El histograma de
la figura n° 1, normalizado por el área total, se puede apreciar en la figura n° 2.
Nótese que la forma del histograma no ha cambiado en absoluto; solo se ha
modificado el máximo. La normalización de un histograma por su área total parece
caprichosa, pero tiene un significado probabilístico. En la teoría de las
probabilidades, el área de un histograma normalizado, entre dos valores es igual a la
probabilidad de que, durante una medición, se obtenga un valor comprendido dentro
de ella. Por eso, el área total del histograma debe ser 1, ya que se debe obtener
algún valor dentro de la distribución.

Figura 2: Histograma normalizado de la concentración de ozono

Fuente: elaboración propia.

Descripción: distribución normalizada de la concentración de ozono en la


atmósfera, medida en distintas ciudades de los Estados Unidos, entre los años 2000
y 2016.
Otro tipo de gráfico muy útil para representar variables cuantitativas son los gráficos
de puntos. Estos gráficos se pueden usar para representar la distribución de los
valores de una sola variable o para representar la distribución conjunta de los
valores de dos variables. La primera variante es una alternativa al histograma, que
sirve para estudiar cuán concentrados están los datos en ciertas regiones de la
escala de valores de la variable en cuestión. Si bien pueden usarse para cualquier
variable cuantitativa, son útiles especialmente cuando hay pocos datos y asociados
con variables continuas, sobre todo la variante empleada para una sola variable.

Cuando se trabaja con una única variable continua, se puede hacer un gráfico en
que cada valor se representa como un punto sobre una recta, de manera que la
cercanía entre los puntos muestra cuán concentrados o dispersos están los datos en
cierta región de la escala. Por ejemplo, véase la figura n° 3 (a), donde se muestra la
prevalencia de diabetes en los distintos países del mundo, durante el año 2011. La
prevalencia en cuestión mide el porcentaje de población entre 20 y 79 años que
padece diabetes en cada país. Sin embargo, la gran superposición de puntos puede
hacer que el gráfico sea difícil de leer. En esos casos, se puede optar por separar un
poco los puntos en la dirección transversal (figura n° 3 (b)). Ahora la distribución se
ve de manera mucho más clara. El orden en esa dirección suele elegirse de manera
aleatoria, ya que el único rol que cumple es separar un poco los puntos para mejorar
la visualización (Wexler, 2021).

Figura 3: Gráfico de puntos para prevalencia de diabetes por país

Fuente: elaboración propia sobre la base de Banco Mundial, s. f.,


https://data.worldbank.org/indicator/SH.STA.DIAB.ZS

Descripción: distribución de prevalencia de diabetes, medida como porcentaje de la


población entre 20 y 79 años afectada por la diabetes.

Notas: (a) Distribución colapsada sobre una línea vertical. (b) Distribución expandida
lateralmente para mejorar la visualización.
Cuando se trabaja con dos variables, cada punto representa un par ordenado,
correspondientes a una combinación de valores de las dos variables. La figura n° 4
muestra un gráfico de puntos para dos variables, que son: la diferencia de
temperatura anual terrestre con relación al promedio del periodo 1951-1980, en el
eje vertical, y el tiempo medido en años, en el eje horizontal. Es decir, tenemos aquí
un gráfico de temperatura en función del tiempo. Nótese que el gráfico muestra una
clara relación entre la diferencia de temperatura y el tiempo transcurrido. En términos
estadísticos, es lo que se denominaría una correlación positiva, ya que el coeficiente
de correlación de Pearson da 0,87. Como veremos más adelante, la construcción de
un modelo de regresión está a solo un paso, pero no entraremos aquí en detalles al
respecto. En la literatura, este tipo de gráfico suele ser designado como scatter plot
(Wexler, 2021).

Figura 4: Diferencia anual media de temperatura terrestre

Fuente: elaboración propia.

Descripción: gráfico de la diferencia anual media de temperatura terrestre, con


relación al promedio del período 1951-1980, en función del tiempo medido en años.

Una última variante que mencionaremos aquí es el uso de tablas destacadas. Una
tabla de valores puede ser difícil de interpretar, especialmente debido a que los
seres humanos no somos hábiles para extraer conocimiento a partir de números
colocados unos junto a otros. Con todo, algunos datos presentes en una tabla, tales
como valores máximos y mínimos, así como zonas de la tabla con valores grandes o
pequeños se pueden realzar mediante un uso inteligente de los colores. Si a cada
valor dentro de una tabla se le asigna un color en una escala de color proporcional a
su magnitud, entonces los valores extremos se verán de un color más intenso que el
resto. Comparen la facilidad con que se pueden visualizar los datos de la tabla (b)
con relación a la tabla (a),

Tabla 1: Tabla de ganancias por región y subcategoría


Fuente: elaboración propia sobre la base de Wexler, 2021.

Tabla 2. Destacada con una escala de colores en función de la magnitud de


cada guarismo.

Fuente: elaboración propia sobre la base de Wexler, 2021.

Descripción: tabla de ganancias de una empresa, divididas por región del país y por
categoría y subcategoría de productos.

Representación de datos cualitativos

Los datos cualitativos también pueden ser representados gráficamente, pero


teniendo en cuenta las limitaciones propias del hecho de que sus valores no son
numéricos. La forma más universalmente conocida es la de los gráficos de barras.
Un gráfico de barras es un diagrama que representa cada una de las frecuencias de
los distintos valores de una variable, por medio de una barra cuya longitud es
proporcional a dicha frecuencia (figura n° 6 (a)). Como ya hemos planteado a
propósito de los cálculos de frecuencia en la sección 1.2, a efectos de comparar
distribuciones puede ser más apropiado el uso de frecuencias relativas (figura n° 5
(b)).

Figura 5: Gráfico de barras

Fuente: elaboración propia.

Descripción: gráfico de barras elaborado a partir de frecuencias absolutas (a) y


relativas (b), para los valores de la variable “género” para un conjunto de víctimas de
homicidio en los Estados Unidos durante el año 2020.

El gráfico de barras puede revestir muchas variantes. Las barras pueden dibujarse
en forma horizontal en lugar de hacerlo de manera vertical. También pueden
graficarse varias barras juntas en el mismo gráfico, correspondientes a la frecuencia
de un mismo valor para distintos grupos de unidades de análisis o en distintos
momentos en el tiempo. Este tipo de gráficos es muy útil para comparar distintas
distribuciones de datos. Asimismo, las barras pueden sustituirse por líneas o puntos
finales que marquen su longitud. Lo más importante a la hora de realizar un buen
gráfico de barras es graficar las barras desde una misma línea de base y no abusar
del color ni sobrecargar la figura con datos.

Existen otros gráficos comunes para datos cualitativos, tales como los gráficos de
burbujas o los gráficos de torta (también llamados gráficos de pie). Estos gráficos no
son particularmente aconsejables, salvo que se desee destacar la frecuencia de
algún valor puntual con relación al resto. En cualquier situación en que se quieran
hacer comparaciones precisas de magnitud o proporción entre valores cercanos,
debe preferirse el gráfico de barras.

Representación de datos espaciales

Los datos espaciales son aquellos cuyos valores corresponden a alguna de las
formas de codificar una ubicación en el espacio. Esto quiere decir que pueden ser
cualitativos o cuantitativos, según la forma que se elija para codificarlos.
Esencialmente, un lugar sobre la Tierra puede ser indicado con máximo detalle en
términos de sus coordenadas de latitud y longitud. Solo en algunas aplicaciones
resulta importante incluir, además, la ubicación sobre el nivel del mar. Esta forma de
codificar la posición, en forma de dos o tres variables cuantitativas continuas y
mutuamente independientes, es la forma que permite la mayor granularidad posible,
precisamente debido al carácter continuo de esas variables.

Por otra parte, hay otras clasificaciones con niveles decrecientes de granularidad,
que se logran dividiendo el territorio en zonas, sea que tengan nombres propios o
no. En cualquiera de estos casos, la división de un territorio en zonas equivale a la
generación de una escala nominal, de manera que la localización se transforma en
una variable cualitativa. Por ejemplo, la división en municipios, provincias, estados,
regiones, países, etc., corresponde a una codificación de este tipo.

Más allá de esto, la razón por la cual hemos elegido tratarlos por separado es que
admiten una representación especial, asociada precisamente con el hecho de que
los distintos valores de una variable espacial pueden ser situados en un mapa a
escala del territorio correspondiente. Este hecho permite utilizar mapas para
visualizar cómo se distribuyen espacialmente los valores de distintas variables. Así,
un mapa puede mostrar cómo es la distribución de frecuencias de los valores de
cierta variable. Por ejemplo, qué fracción de la población objetivo se encuentra
vacunada dentro de cada provincia de la República Argentina. Para eso, se puede
utilizar un mapa de color. Este consiste simplemente en tomar una escala de color y
asignar a cada división del territorio un color según la fracción de población
vacunada. Véase un ejemplo de esto en la figura n° 6.

Figura 6: Fracción de población vacunada contra el COVID-19 en Argentina


Fuente: elaboración propia a partir de datos del Ministerio de Salud de la Nación y de la proyección de población
para 2020, estimada por el INDEC.

Descripción: mapa de la fracción de población vacunada con primera dosis de la


vacuna contra el COVID-19, por provincia, en la República Argentina.

Otra aplicación usual de los mapas de color es para mostrar cómo se distribuyen
espacialmente los valores de una variable que solo puede asumir un único valor por
cada valor de la variable espacial, es el caso de las variables cuyos valores se
distribuyen espacialmente. Por ejemplo, un mapa así permite mostrar en qué
estados o provincias de un país ha ganado cada partido político. Es típico de las
elecciones de los Estados Unidos, mostrar un mapa con mayor o menor nivel de
detalle, donde se muestra qué Estados han ganado los republicanos y cuáles han
ganado los demócratas.

Además de utilizar los mapas para mostrar la distribución espacial de los valores de
una determinada variable o sus frecuencias, un mapa puede utilizarse para
representar la localización geográfica de un conjunto de entidades, tales como
eventos, personas, objetos, etc. Esto es lo que se denomina un mapa de puntos
simples, ya que cada evento u objeto de interés es representado como un punto
dentro del mapa. Por ejemplo, se utilizan mapas de puntos para construir los
llamados mapas del delito. Al situar cada hecho delictivo como un punto se puede
estudiar la concentración de crímenes en distintas áreas y mejorar la respuesta de
las fuerzas policiales y de seguridad. A su vez, los puntos pueden dibujarse de
distintas formas y/o pintarse de distintos colores para codificar los valores de otras
variables, tales como el tipo de delito o el sexo de las víctimas. Por ejemplo, la figura
n° 7 muestra una distribución de hechos calificados como “ataques terroristas” en el
territorio de Sudamérica, para el período 1970-2020, de acuerdo con datos
atribuídos al Institute for Economics and Peace (ItsSuru, 2021).

Figura 7: Distribución de Homicidios en Guatemala

Fuente: elaboración propia sobre la base de ItsSuru, 2021.


Descripción: mapa de puntos que representa la distribución de un conjunto de
“ataques terroristas” perpetrados en el territorio de Sudamérica.

Antes de abandonar esta sección, vamos a ayudar a Sabina a preparar su


presentación para sus jefes. Ahora que ya disponemos de algunas herramientas,
podemos sugerir a Sabina, en principio, que elabore un gráfico de cada una de las
variables de su base de datos, para ver cómo se distribuyen sus valores. Conviene
que haga un histograma para las variables de edad y precio, ya que son variables
cuantitativas. En el caso de la edad, suele codificarse como una variable discreta,
pero el número de valores posibles es lo bastante grande como para que valga la
pena ver si hay algo de interés allí. La edad de los compradores es un parámetro de
interés desde el punto de vista del marketing y la publicidad, pero también el nivel de
precios de los productos más vendidos puede decir algo acerca de la situación
económica de los consumidores.

Por otra parte, para las variables cualitativas bastará con que haga gráficos de
barras considerando frecuencias relativas. Es el caso de las variables: sexo, edad,
estado civil, nivel de formación, producto comprado, color, medio de pago, ID del
punto de venta, e ID del vendedor. Esto permitirá, a un golpe de vista, identificar si
hay distribuciones proporcionadas o desproporcionadas y cuáles son los valores con
máxima y mínima frecuencia. Entre las variables disponibles habrá algunas que no
tiene mucho sentido analizar, dado que su dispersión será notable. Por ejemplo, el
nombre y apellido del comprador, su número de documento, e-mail, y número de
teléfono.

En cuanto a la localización geográfica de los puntos de venta y de los domicilios de


los clientes, pueden revestir algún interés. En tal caso, lo más adecuado sería
graficarlos por medio de mapas. Por ejemplo, relacionar los domicilios de los clientes
con cada uno de los puntos de venta podría ayudar a establecer un área efectiva de
influencia territorial de cada punto de venta. Asimismo, distintos factores tales como
el número de ventas y el género o rango de edad dominantes de los clientes se
podrían graficar territorialmente.
Para algunos parámetros, tales como la edad de los compradores o el precio de los
productos, podría serle útil a Sabina calcular algunas medidas de centralidad como
el valor promedio. En cambio, para las variables de tipo cualitativo, sería una buena
idea hacer hincapié en los valores con mayor frecuencia. De todas maneras, es
importante tener en cuenta que no hay una única manera de elaborar la
presentación. Más allá de cuestiones generales, muchos detalles específicos
dependerán de qué necesite mostrar Sabina a sus jefes. Por ejemplo, tal vez le
interese mostrar la relación entre los domicilios de los clientes y los puntos de venta
a los cuáles concurren, en cuyo caso tendrá que hacer un mapa combinado de sus
localizaciones. O tal vez quiera saber cuál es el producto más vendido en cada uno
de los puntos de venta y entonces deberá desagregar los datos de ventas para cada
uno de los puntos. Por otro lado, habrá datos tales como el nombre y apellido del
cliente, que resultarán superfluos y no será necesario comentar en su reunión.

Lo importante es que todas las herramientas mencionadas están a su disposición y


permiten reducir millones de datos a un gráfico de menos de media página o a unos
pocos números. De hecho, cada gráfico entrará perfectamente en una diapositiva de
PowerPoint. En el caso del informe que he mencionado al inicio de la lectura, el cual
contenía 100 páginas de datos del peso de distintos paquetes de una sustancia
estupefaciente, hubiera correspondido realizar un histograma de la distribución y
reportar los parámetros de centralidad y dispersión del conjunto. Eso hubiera sido
mucho más instructivo y entendible que una tabla de 100 páginas.

5. Exploración de datos

Ahora que hemos visto distintas técnicas para resumir y representar los datos, tanto
matemática como gráficamente, estamos en condiciones de conversar con más
detalle acerca de cómo es un proceso de exploración de datos en el contexto de un
proyecto de ciencia de datos. Una vez que se ha recolectado y consolidado la
información necesaria en una única base de datos, o a veces antes de consolidarla,
es necesario explorarla para ver de qué se trata. Es decir, de qué datos se dispone y
en qué condiciones se encuentran. Para esta tarea, tanto las técnicas de
representación gráfica como las medidas de centralidad y dispersión son
fundamentales.

Es imposible tener una idea clara de la información contenida en una base de datos
simplemente mirando uno por uno todos sus registros de manera mecánica. No
solamente porque llevaría demasiado tiempo, sino también, y, sobre todo, porque no
nos permitiría tener una idea global. Esto último sí puede hacerse con las técnicas
de representación y visualización estudiadas en esta lectura.

Cuando se recibe información que no se conoce, sea en el formato que sea, la


primera cosa que se debe hacer es entender a qué tipo de entidades describe y
mediante qué variables. Por ejemplo, en el caso de una base de datos: ¿qué
entidades son los registros de la base?, ¿qué parámetros usa para caracterizarlos?
En general, un análisis de los valores presentes en la primera columna es una
indicación apropiada acerca de cuáles son las unidades de análisis. Por ejemplo,
nombres de personas. Sin embargo, la base podría tener un enfoque más específico
que esta deducción no puede discernir. Por ejemplo, ¿estas personas forman algún
subgrupo que sea de interés? Es decir, ¿estamos frente a una base de datos de
personas en general o de un subgrupo de personas que cumplen alguna
característica concreta?

Por ejemplo, podría ser una base de datos de empleados de una compañía, o de
personas condenadas por delitos, o de consumidores de un determinado producto o
comercio, alumnos de una escuela, etc. A veces las variables ayudan a restringir el
universo de unidades de análisis. Por ejemplo, si en la base de personas
aparecieran las variables “pena” y “fecha de la condena”, podríamos conjeturar que
se trata de una base de datos de personas convictas. Pero incluso si fuera el caso,
no podríamos saber si se trata de una base de todas las personas convictas o solo
de aquellas condenadas por ciertos delitos o en cierta región, etc.

Con relación a las variables usadas para describir a las unidades de análisis ocurre
algo parecido. Muchas veces las variables se entienden por sí mismas. Por ejemplo,
las variables “edad” o “sexo” se entienden sin mayores problemas. Otras veces, las
variables no se entienden a partir de su nombre, sea porque el nombre puede
representar distintas cosas o porque tiene algún tipo de codificación extraña y difícil
de interpretar (por ejemplo: VP03). En algunas ocasiones, la duda se puede
despejar observando los valores de la variable. Pero a veces, incluso esa estrategia
falla. Por ejemplo, una variable llamada RST0053, cuyos valores son “alto”, “medio”
y “bajo” es imposible de interpretar, ya que esa escala ordinal podría representar
muchísimas cosas.

Las observaciones anteriores respecto de los nombres de variables parecen tontas y


artificiales, pero no lo son. Es muy común que organizaciones y organismos que
realizan procedimientos estandarizados de construcción y almacenamiento de
información codifiquen los nombres de las variables e incluso de sus valores, de esta
forma. Por ejemplo, asignan una nomenclatura a las variables y reemplazan los
valores por un valor numérico entero. Esto posiblemente facilite los procesos de
carga y revisión de la información. Por ejemplo, la encuesta permanente de hogares
que realiza trimestralmente el INDEC sigue este tipo de metodología. También
algunas bases de datos del programa de datos criminales de EEUU. Cuando ocurren
estas situaciones es necesario analizar la documentación complementaria que suele
acompañar a la base. En ella, el creador de la base da indicaciones metodológicas
sobre el proceso de construcción, incluyendo un diccionario que permite traducir las
distintas codificaciones numéricas y alfanuméricas en valores con sentido.

Luego de entender cuáles son las unidades de análisis y las variables que
configuran la base de datos, es el momento de entender la distribución de valores de
las distintas variables. Aquí es donde entran los métodos que hemos estudiado en
esta lectura. Según el tipo de variable calcularemos medidas de centralidad y
dispersión o analizaremos frecuencias relativas; elaboraremos histogramas y
gráficos de dispersión, o bien, elaboraremos gráficos de barras, o mapas, etc. Esto
nos dará una idea de las propiedades de los datos con los que contamos. Por
ejemplo, cuántos valores tiene cada variable, cuán proporcionada es la distribución
de frecuencia de cada uno de ellos, qué tan concentrados están, etc. En la próxima
lectura hablaremos con cierto detalle de algunas sorpresas que podemos encontrar
durante la exploración. Pero por el momento, lo dejaremos hasta aquí.

Veamos ahora qué pasa con el problema de Sabina. Armar una presentación donde
resumiera los datos más importantes presentes en la base era solo una parte de la
tarea. Ella también necesitaba proponer un nuevo producto analítico, a partir de los
datos de la base. Nótese que, en términos de lo que hemos visto en el primer
módulo, ella tiene un objetivo bien definido, pero a la vez abierto a su propia
inventiva. En tal sentido, la limitación principal viene impuesta por los datos, que son
los que constan en su base.

En cuanto a la recolección y fusión de datos, el trabajo ya ha sido realizado por


alguien más. La información de las transacciones reportadas por los distintos puntos
de venta ya ha sido unificada y colocada en una base de datos a la que Sabina
tendrá acceso. No obstante, dado que ella acaba de ingresar a la empresa, estará
trabajando con datos que todavía no conoce. Por ende, corresponde que realice una
exploración de la información de la base.

En primer lugar, requerirá a sus superiores información acerca del proceso de


construcción. En las compañías que tienen procesos sofisticados de generación de
información, suelen existir metodologías estandarizadas, de modo que la información
general de las variables de la base y sus posibles valores estarán a disposición de
los analistas. Esto le permitirá conocer de antemano qué tipo de información se
encontrará y eso le servirá para empezar a pensar en el producto analítico que
deberá proponer. Entre otras cosas, podrá saber si las variables se construyen con
valores abiertos o cerrados y cuáles son cualitativas y cuantitativas, así como sus
distintos subtipos.

En segundo término, una vez que haya realizado las consultas anteriores, procederá
a la exploración de la base real y concreta. Lo primero que conviene hacer es contar
la cantidad de registros, para darse una idea del tamaño de la base, pero también
para determinar si la computadora tiene suficiente memoria para algunas
operaciones matemáticas que necesite realizar. Luego habrá que estudiar las
distintas variables y sus valores. Aquí prestará atención a la cantidad de valores que
cada variable tenga. En caso de que tuviera manual de instrucciones, sabrá cuántos
valores puede tener una variable en teoría, pero eso no quiere decir que todos ellos
aparezcan en la práctica.

Por otro lado, aquellas variables que sean abiertas, no tendrán un conjunto
predefinido de valores posibles. En ambos casos, el análisis de frecuencia de cada
uno de los valores será muy instructivo, así como la elaboración de gráficos de
barras e histogramas. En este sentido, la exploración le permitirá a Sabina no solo
entender mejor los datos, sino también empezar a seleccionar gráficos interesantes
para su presentación. En la próxima lectura veremos qué cosas interesantes podría
encontrar tanto Sabina como cualquier analista al momento de explorar los datos.

6. Consideraciones finales

En esta lectura hemos estudiado distintos métodos para resumir y representar


conjuntos de datos, tanto matemática como gráficamente. Dentro de cada tipo de
representación existen distintas variantes, cuya pertinencia depende del tipo de
variable que se pretende representar. Para las variables cualitativas, encontramos
que la frecuencia, tanto absoluta como relativa, y la moda o valor con máxima
frecuencia, son los parámetros esenciales. Como medida de dispersión puede
tomarse la cantidad de valores, pero eso no implica ninguna noción clara de
distancia. En términos gráficos, hay distintas variantes, de las cuales la más común y
eficaz es el gráfico de barras.

Las variables cuantitativas pueden analizarse matemáticamente a través de las


llamadas medidas de centralidad y dispersión. Entre las primeras hemos descripto la
media aritmética (y mencionado sus variantes ponderada y recortada), la mediana y
la moda. En cuanto a las segundas, mencionamos el rango, la desviación estándar y
los cuantiles. Por otra parte, los recursos gráficos incluyen, en primer término, al
histograma. Este es análogo al gráfico de barras, pero para variables cuantitativas y
permite analizar el comportamiento estadístico de una distribución de datos.
Segundo, tenemos los gráficos de puntos, tanto para una variable como para dos
variables simultáneas. Por último, vimos las tablas destacadas, donde se utiliza una
escala coloreada para destacar los valores más extremos.

También vimos el caso especial de los mapas, que son una forma de representación
gráfica aplicable, con sus variantes, tanto a datos cualitativos como cuantitativos.
Cuando una variable o sus valores pueden hacerse corresponder con características
espaciales, sus variaciones pueden representarse por medio de un mapa. Hay
distintas variantes de mapas, de los cuales hemos visto los mapas de color y los
mapas de puntos simples.

Por último, estudiamos el proceso de exploración de datos, que es una de las etapas
de un proyecto, según vimos al final del módulo anterior. En el modelo CRISP-DM,
forma parte de la etapa de compresión de datos, en tanto que en el modelo de
MADAP-SP es parte tanto de la recolección y fusión de datos como del
preprocesamiento operacionalmente relevante. Aquí vimos que la exploración
aprovecha los métodos de representación usados en esta lectura, así como detalles
disponibles de la construcción de los datos, para conocer cuál es la información
disponible, sin importar el volumen de datos de los que se disponga.

En cuanto al material bibliográfico de esta lectura, recomiendo comenzar por las


secciones 3.3.2, 3.3.3 y 3.3.4, correspondientes al capítulo 3 del libro de C. Shah
(2020). Estas servirán como base para leer luego la sección 2.2. del capítulo 2 del
libro de Han, Kamber y Pei (2012), que es parte de la bibliografía obligatoria del
módulo. Finalmente, aunque no es obligatorio, recomiendo la consulta de Peck,
Olsen y Devore (2012) para la parte estadística, y de Wexler (2021) para la parte de
representaciones gráficas.

Referencias

Banco Mundial. (S. f.). Diabetes prevalence (% of population ages 20 to 79). The
World Bank Data. Recuperado de
https://data.worldbank.org/indicator/SH.STA.DIAB.ZS

Han, J., Kamber, M. y Pei, J. (2012). Data Mining: Concepts and techniques (3ra
Ed.). Waltham, US: Morgan Kaufmann.

ItsSuru. (2021). Global Terrorism [data file]. Recuperado de


https://www.kaggle.com/itssuru /global-terrorism

Peck, R., Olsen, C., y Devore, J. (2012). Introduction to Statistics & Data Analysis
(4ta Ed.). Boston, US: Cengage Learning.

Shah, C. (2020). A Hands-on Introduction to Data Science. SG: Cambridge


University Press.

Sosa Escudero, W. (2019). Big data. Breve manual para conocer la ciencia de datos
que ya invadió nuestras vidas. Ciudad Autónoma de Buenos Aires, AR: Siglo XXI
Editores Argentina.

Wexler, S. (2021). The Big Picture: How to Use Data Visualization to Make Better
Decisions—Faster. New York, US: McGraw Hill.

También podría gustarte