Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En la lectura anterior revisamos con cierto detalle cuál es la estructura básica de los
datos y los tipos que pueden existir, teniendo en cuenta el tipo de variables y valores
relacionados con ellos. Asimismo, exploramos distintas fuentes y formatos,
considerando las diferencias entre información estructurada y no estructurada y su
importancia para el análisis de datos. Finalmente, dimos algunas indicaciones
respecto del proceso de obtener los datos y fusionarlos, tanto en el modelo CRISP-
DM como en el modelo MADAP-SP. Sin embargo, tal como hicimos notar a propósito
de nuestro tratamiento de la aplicación Gasto Público Bahiense (en la tercera lectura
del primer módulo), solo disponer de los datos, incluso en forma consolidada, no es
suficiente. Consideremos la siguiente situación:
Ignoro si quien lo confeccionó tenía algún tipo de obligación de colocar los datos al
final del reporte. En cualquier caso, es evidente que una tabla de 100 páginas con
números y más números, en el contexto de un informe escrito, no agrega
absolutamente nada. Por el contrario, resulta tan improcedente como que Sabina
llegara a la reunión con una presentación de 10.000 diapositivas de PowerPoint con
los datos de cada una de las transacciones realizadas. La información contenida en
ese anexo era valiosa y relevante, pero no estaba presentada de una manera
adecuada. Si lo hubiera estado, se hubiera resumido fácilmente en media página.
Esta es la cuestión clave que abordaremos durante esta lectura: cómo hacer para
resumir cantidades muy grandes de datos en un espacio pequeño, de manera tal
que sean fácilmente interpretables para quien necesite consultar la información.
Veremos que esto mismo también resuelve en buena medida la aproximación a
grandes volúmenes de datos desconocidos que necesita Sabina.
Los datos cuantitativos, como ya hemos mencionado, son aquellos que asumen
valores numéricos, los cuales guardan relaciones matemáticas entre sí. Por
consiguiente, son particularmente fáciles de representar a partir de parámetros
obtenidos matemáticamente. Dado un conjunto de datos cuantitativos, podemos
evaluar esencialmente dos cosas: cuán juntos están los datos unos con relación a
otros, y dónde se encuentran, aproximadamente, con relación a toda la gama de
valores posibles. Esto define dos tipos de medidas: medidas de centralidad y
medidas de dispersión (Peck, Olsen y Devore, 2012). Las abordaremos
brevemente a continuación. Si bien aquí daremos definiciones conceptuales,
encontrarán las definiciones matemáticas en la bibliografía del curso (Han, Kamber y
Pei, 2012). Asimismo, todas ellas se pueden calcular, en la práctica, a partir de
funciones de Microsoft Excel.
Medidas de centralidad
Moda: la moda es el valor que más se repite dentro de una distribución de datos. Si
ella corresponde a valores de una variable continua, puede que ningún valor como
tal se repita. En ese caso, la variable se puede discretizar partiéndola en rangos y
tomar como moda aquel rango de valores que más se repite. Como veremos luego,
este parámetro es mucho más relevante en relación con los datos cualitativos.
Medidas de dispersión
Cuantiles: así como la mediana parte a una distribución de datos en dos grupos con
igual cantidad de integrantes, es posible encontrar n valores enteros que parten la
distribución en n+1 grupos iguales. A cada uno de estos n+1 grupos de valores se le
denomina un cuantil. Los valores de los cuantiles indican cuán grande es la
dispersión de los datos. El tipo de cuantiles más famosos son, con diferencia, los
percentiles. Estos son valores que dividen a la distribución en 100 grupos de igual
cantidad de integrantes. Estos parámetros son muy usados, por ejemplo, para medir
el ingreso de los habitantes de un país y el crecimiento de los niños. El segundo
grupo más conocido de cuantiles son los cuartiles, que consisten en dividir la
distribución en cuatro partes iguales. El rango intercuartil es una medida de
dispersión que se calcula como la diferencia entre el valor del tercer y el primer
cuartil (Han, kamber y Pei, 2012).
Ahora bien, en otras ocasiones, puede que una serie de valores numéricos no sean
lo suficientemente ilustrativos respecto de un fenómeno, aun cuando resumieran
muy bien las propiedades de la distribución. En diversas situaciones un recurso
gráfico puede ser irremplazable. Por ejemplo, una distribución de puntos en un mapa
puede indicar mejor que nada las regiones peligrosas dentro de una ciudad y cómo
esas distintas regiones están distribuidas en el espacio y las distancias que las
separan entre sí. Por lo tanto, en esta sección analizaremos algunas formas clásicas
de representación gráfica. Existen muchísimas otras que el lector podrá encontrar en
la literatura (Wexler, 2021).
Por ejemplo, en este caso, el valor por el cual hay que dividir es de 0,01 (ancho de
cada intervalo) multiplicado por 1.036.713 (número total de datos). El histograma de
la figura n° 1, normalizado por el área total, se puede apreciar en la figura n° 2.
Nótese que la forma del histograma no ha cambiado en absoluto; solo se ha
modificado el máximo. La normalización de un histograma por su área total parece
caprichosa, pero tiene un significado probabilístico. En la teoría de las
probabilidades, el área de un histograma normalizado, entre dos valores es igual a la
probabilidad de que, durante una medición, se obtenga un valor comprendido dentro
de ella. Por eso, el área total del histograma debe ser 1, ya que se debe obtener
algún valor dentro de la distribución.
Cuando se trabaja con una única variable continua, se puede hacer un gráfico en
que cada valor se representa como un punto sobre una recta, de manera que la
cercanía entre los puntos muestra cuán concentrados o dispersos están los datos en
cierta región de la escala. Por ejemplo, véase la figura n° 3 (a), donde se muestra la
prevalencia de diabetes en los distintos países del mundo, durante el año 2011. La
prevalencia en cuestión mide el porcentaje de población entre 20 y 79 años que
padece diabetes en cada país. Sin embargo, la gran superposición de puntos puede
hacer que el gráfico sea difícil de leer. En esos casos, se puede optar por separar un
poco los puntos en la dirección transversal (figura n° 3 (b)). Ahora la distribución se
ve de manera mucho más clara. El orden en esa dirección suele elegirse de manera
aleatoria, ya que el único rol que cumple es separar un poco los puntos para mejorar
la visualización (Wexler, 2021).
Notas: (a) Distribución colapsada sobre una línea vertical. (b) Distribución expandida
lateralmente para mejorar la visualización.
Cuando se trabaja con dos variables, cada punto representa un par ordenado,
correspondientes a una combinación de valores de las dos variables. La figura n° 4
muestra un gráfico de puntos para dos variables, que son: la diferencia de
temperatura anual terrestre con relación al promedio del periodo 1951-1980, en el
eje vertical, y el tiempo medido en años, en el eje horizontal. Es decir, tenemos aquí
un gráfico de temperatura en función del tiempo. Nótese que el gráfico muestra una
clara relación entre la diferencia de temperatura y el tiempo transcurrido. En términos
estadísticos, es lo que se denominaría una correlación positiva, ya que el coeficiente
de correlación de Pearson da 0,87. Como veremos más adelante, la construcción de
un modelo de regresión está a solo un paso, pero no entraremos aquí en detalles al
respecto. En la literatura, este tipo de gráfico suele ser designado como scatter plot
(Wexler, 2021).
Una última variante que mencionaremos aquí es el uso de tablas destacadas. Una
tabla de valores puede ser difícil de interpretar, especialmente debido a que los
seres humanos no somos hábiles para extraer conocimiento a partir de números
colocados unos junto a otros. Con todo, algunos datos presentes en una tabla, tales
como valores máximos y mínimos, así como zonas de la tabla con valores grandes o
pequeños se pueden realzar mediante un uso inteligente de los colores. Si a cada
valor dentro de una tabla se le asigna un color en una escala de color proporcional a
su magnitud, entonces los valores extremos se verán de un color más intenso que el
resto. Comparen la facilidad con que se pueden visualizar los datos de la tabla (b)
con relación a la tabla (a),
Descripción: tabla de ganancias de una empresa, divididas por región del país y por
categoría y subcategoría de productos.
El gráfico de barras puede revestir muchas variantes. Las barras pueden dibujarse
en forma horizontal en lugar de hacerlo de manera vertical. También pueden
graficarse varias barras juntas en el mismo gráfico, correspondientes a la frecuencia
de un mismo valor para distintos grupos de unidades de análisis o en distintos
momentos en el tiempo. Este tipo de gráficos es muy útil para comparar distintas
distribuciones de datos. Asimismo, las barras pueden sustituirse por líneas o puntos
finales que marquen su longitud. Lo más importante a la hora de realizar un buen
gráfico de barras es graficar las barras desde una misma línea de base y no abusar
del color ni sobrecargar la figura con datos.
Existen otros gráficos comunes para datos cualitativos, tales como los gráficos de
burbujas o los gráficos de torta (también llamados gráficos de pie). Estos gráficos no
son particularmente aconsejables, salvo que se desee destacar la frecuencia de
algún valor puntual con relación al resto. En cualquier situación en que se quieran
hacer comparaciones precisas de magnitud o proporción entre valores cercanos,
debe preferirse el gráfico de barras.
Los datos espaciales son aquellos cuyos valores corresponden a alguna de las
formas de codificar una ubicación en el espacio. Esto quiere decir que pueden ser
cualitativos o cuantitativos, según la forma que se elija para codificarlos.
Esencialmente, un lugar sobre la Tierra puede ser indicado con máximo detalle en
términos de sus coordenadas de latitud y longitud. Solo en algunas aplicaciones
resulta importante incluir, además, la ubicación sobre el nivel del mar. Esta forma de
codificar la posición, en forma de dos o tres variables cuantitativas continuas y
mutuamente independientes, es la forma que permite la mayor granularidad posible,
precisamente debido al carácter continuo de esas variables.
Por otra parte, hay otras clasificaciones con niveles decrecientes de granularidad,
que se logran dividiendo el territorio en zonas, sea que tengan nombres propios o
no. En cualquiera de estos casos, la división de un territorio en zonas equivale a la
generación de una escala nominal, de manera que la localización se transforma en
una variable cualitativa. Por ejemplo, la división en municipios, provincias, estados,
regiones, países, etc., corresponde a una codificación de este tipo.
Más allá de esto, la razón por la cual hemos elegido tratarlos por separado es que
admiten una representación especial, asociada precisamente con el hecho de que
los distintos valores de una variable espacial pueden ser situados en un mapa a
escala del territorio correspondiente. Este hecho permite utilizar mapas para
visualizar cómo se distribuyen espacialmente los valores de distintas variables. Así,
un mapa puede mostrar cómo es la distribución de frecuencias de los valores de
cierta variable. Por ejemplo, qué fracción de la población objetivo se encuentra
vacunada dentro de cada provincia de la República Argentina. Para eso, se puede
utilizar un mapa de color. Este consiste simplemente en tomar una escala de color y
asignar a cada división del territorio un color según la fracción de población
vacunada. Véase un ejemplo de esto en la figura n° 6.
Otra aplicación usual de los mapas de color es para mostrar cómo se distribuyen
espacialmente los valores de una variable que solo puede asumir un único valor por
cada valor de la variable espacial, es el caso de las variables cuyos valores se
distribuyen espacialmente. Por ejemplo, un mapa así permite mostrar en qué
estados o provincias de un país ha ganado cada partido político. Es típico de las
elecciones de los Estados Unidos, mostrar un mapa con mayor o menor nivel de
detalle, donde se muestra qué Estados han ganado los republicanos y cuáles han
ganado los demócratas.
Además de utilizar los mapas para mostrar la distribución espacial de los valores de
una determinada variable o sus frecuencias, un mapa puede utilizarse para
representar la localización geográfica de un conjunto de entidades, tales como
eventos, personas, objetos, etc. Esto es lo que se denomina un mapa de puntos
simples, ya que cada evento u objeto de interés es representado como un punto
dentro del mapa. Por ejemplo, se utilizan mapas de puntos para construir los
llamados mapas del delito. Al situar cada hecho delictivo como un punto se puede
estudiar la concentración de crímenes en distintas áreas y mejorar la respuesta de
las fuerzas policiales y de seguridad. A su vez, los puntos pueden dibujarse de
distintas formas y/o pintarse de distintos colores para codificar los valores de otras
variables, tales como el tipo de delito o el sexo de las víctimas. Por ejemplo, la figura
n° 7 muestra una distribución de hechos calificados como “ataques terroristas” en el
territorio de Sudamérica, para el período 1970-2020, de acuerdo con datos
atribuídos al Institute for Economics and Peace (ItsSuru, 2021).
Por otra parte, para las variables cualitativas bastará con que haga gráficos de
barras considerando frecuencias relativas. Es el caso de las variables: sexo, edad,
estado civil, nivel de formación, producto comprado, color, medio de pago, ID del
punto de venta, e ID del vendedor. Esto permitirá, a un golpe de vista, identificar si
hay distribuciones proporcionadas o desproporcionadas y cuáles son los valores con
máxima y mínima frecuencia. Entre las variables disponibles habrá algunas que no
tiene mucho sentido analizar, dado que su dispersión será notable. Por ejemplo, el
nombre y apellido del comprador, su número de documento, e-mail, y número de
teléfono.
5. Exploración de datos
Ahora que hemos visto distintas técnicas para resumir y representar los datos, tanto
matemática como gráficamente, estamos en condiciones de conversar con más
detalle acerca de cómo es un proceso de exploración de datos en el contexto de un
proyecto de ciencia de datos. Una vez que se ha recolectado y consolidado la
información necesaria en una única base de datos, o a veces antes de consolidarla,
es necesario explorarla para ver de qué se trata. Es decir, de qué datos se dispone y
en qué condiciones se encuentran. Para esta tarea, tanto las técnicas de
representación gráfica como las medidas de centralidad y dispersión son
fundamentales.
Es imposible tener una idea clara de la información contenida en una base de datos
simplemente mirando uno por uno todos sus registros de manera mecánica. No
solamente porque llevaría demasiado tiempo, sino también, y, sobre todo, porque no
nos permitiría tener una idea global. Esto último sí puede hacerse con las técnicas
de representación y visualización estudiadas en esta lectura.
Por ejemplo, podría ser una base de datos de empleados de una compañía, o de
personas condenadas por delitos, o de consumidores de un determinado producto o
comercio, alumnos de una escuela, etc. A veces las variables ayudan a restringir el
universo de unidades de análisis. Por ejemplo, si en la base de personas
aparecieran las variables “pena” y “fecha de la condena”, podríamos conjeturar que
se trata de una base de datos de personas convictas. Pero incluso si fuera el caso,
no podríamos saber si se trata de una base de todas las personas convictas o solo
de aquellas condenadas por ciertos delitos o en cierta región, etc.
Con relación a las variables usadas para describir a las unidades de análisis ocurre
algo parecido. Muchas veces las variables se entienden por sí mismas. Por ejemplo,
las variables “edad” o “sexo” se entienden sin mayores problemas. Otras veces, las
variables no se entienden a partir de su nombre, sea porque el nombre puede
representar distintas cosas o porque tiene algún tipo de codificación extraña y difícil
de interpretar (por ejemplo: VP03). En algunas ocasiones, la duda se puede
despejar observando los valores de la variable. Pero a veces, incluso esa estrategia
falla. Por ejemplo, una variable llamada RST0053, cuyos valores son “alto”, “medio”
y “bajo” es imposible de interpretar, ya que esa escala ordinal podría representar
muchísimas cosas.
Luego de entender cuáles son las unidades de análisis y las variables que
configuran la base de datos, es el momento de entender la distribución de valores de
las distintas variables. Aquí es donde entran los métodos que hemos estudiado en
esta lectura. Según el tipo de variable calcularemos medidas de centralidad y
dispersión o analizaremos frecuencias relativas; elaboraremos histogramas y
gráficos de dispersión, o bien, elaboraremos gráficos de barras, o mapas, etc. Esto
nos dará una idea de las propiedades de los datos con los que contamos. Por
ejemplo, cuántos valores tiene cada variable, cuán proporcionada es la distribución
de frecuencia de cada uno de ellos, qué tan concentrados están, etc. En la próxima
lectura hablaremos con cierto detalle de algunas sorpresas que podemos encontrar
durante la exploración. Pero por el momento, lo dejaremos hasta aquí.
Veamos ahora qué pasa con el problema de Sabina. Armar una presentación donde
resumiera los datos más importantes presentes en la base era solo una parte de la
tarea. Ella también necesitaba proponer un nuevo producto analítico, a partir de los
datos de la base. Nótese que, en términos de lo que hemos visto en el primer
módulo, ella tiene un objetivo bien definido, pero a la vez abierto a su propia
inventiva. En tal sentido, la limitación principal viene impuesta por los datos, que son
los que constan en su base.
En segundo término, una vez que haya realizado las consultas anteriores, procederá
a la exploración de la base real y concreta. Lo primero que conviene hacer es contar
la cantidad de registros, para darse una idea del tamaño de la base, pero también
para determinar si la computadora tiene suficiente memoria para algunas
operaciones matemáticas que necesite realizar. Luego habrá que estudiar las
distintas variables y sus valores. Aquí prestará atención a la cantidad de valores que
cada variable tenga. En caso de que tuviera manual de instrucciones, sabrá cuántos
valores puede tener una variable en teoría, pero eso no quiere decir que todos ellos
aparezcan en la práctica.
Por otro lado, aquellas variables que sean abiertas, no tendrán un conjunto
predefinido de valores posibles. En ambos casos, el análisis de frecuencia de cada
uno de los valores será muy instructivo, así como la elaboración de gráficos de
barras e histogramas. En este sentido, la exploración le permitirá a Sabina no solo
entender mejor los datos, sino también empezar a seleccionar gráficos interesantes
para su presentación. En la próxima lectura veremos qué cosas interesantes podría
encontrar tanto Sabina como cualquier analista al momento de explorar los datos.
6. Consideraciones finales
También vimos el caso especial de los mapas, que son una forma de representación
gráfica aplicable, con sus variantes, tanto a datos cualitativos como cuantitativos.
Cuando una variable o sus valores pueden hacerse corresponder con características
espaciales, sus variaciones pueden representarse por medio de un mapa. Hay
distintas variantes de mapas, de los cuales hemos visto los mapas de color y los
mapas de puntos simples.
Por último, estudiamos el proceso de exploración de datos, que es una de las etapas
de un proyecto, según vimos al final del módulo anterior. En el modelo CRISP-DM,
forma parte de la etapa de compresión de datos, en tanto que en el modelo de
MADAP-SP es parte tanto de la recolección y fusión de datos como del
preprocesamiento operacionalmente relevante. Aquí vimos que la exploración
aprovecha los métodos de representación usados en esta lectura, así como detalles
disponibles de la construcción de los datos, para conocer cuál es la información
disponible, sin importar el volumen de datos de los que se disponga.
Referencias
Banco Mundial. (S. f.). Diabetes prevalence (% of population ages 20 to 79). The
World Bank Data. Recuperado de
https://data.worldbank.org/indicator/SH.STA.DIAB.ZS
Han, J., Kamber, M. y Pei, J. (2012). Data Mining: Concepts and techniques (3ra
Ed.). Waltham, US: Morgan Kaufmann.
Peck, R., Olsen, C., y Devore, J. (2012). Introduction to Statistics & Data Analysis
(4ta Ed.). Boston, US: Cengage Learning.
Sosa Escudero, W. (2019). Big data. Breve manual para conocer la ciencia de datos
que ya invadió nuestras vidas. Ciudad Autónoma de Buenos Aires, AR: Siglo XXI
Editores Argentina.
Wexler, S. (2021). The Big Picture: How to Use Data Visualization to Make Better
Decisions—Faster. New York, US: McGraw Hill.