Está en la página 1de 8

3.

Trabajar con los datos a visualizar

Conocer los datos a visualizar

Uno de los problemas más habituales que existen cuando se abordan


estrategias de Big Data, y analítica de datos, reside en transformar todo lo que
se recaba en información clara que ayude al rendimiento del negocio, sin tener
que echar mano de un experto en la materia, para interpretar esos datos. Los
datos no suelen venir en la forma en que los necesitamos. 
A veces, no están limpios ni filtrados adecuadamente. Aun cuando los datos
lleguen limpios, pueden tener un formato, agrupación o clasificación que
cumple con sus propósitos en el origen de datos, pero puede no ser útil para la
visualización. 
Al crear visualizaciones de datos, la mayor parte de nuestro tiempo, digamos del
80 al 90 % del tiempo, será con los datos y no con las visualizaciones. Debes
comprobar que los datos contienen todo lo que tenga sentido para tu historia. 
Por parte del modelo de datos se necesita que cada consulta al origen esté
debidamente preparada, con datos limpios y transformados según las
necesidades. Así como crear un modelo de datos mejorado, empleando para
ello funcionalidades integradas, y propiedades de campos, enriquecidos con
medidas, columnas calculadas y tablas calculadas, con la herramienta o lenguaje
de programación que estás utilizando. 
Tenemos que entender los datos para poder visualizarlos, es decir, conocer bien
a fondo el modelo de datos, la lógica de negocios aplicada en todos los casos, y
en el modelo enriquecido, y así como las relaciones entre tablas del modelo. No
hay que ser un experto en estadística o matemáticas para hacer este
trabajo, pero sí necesitamos comprender algunos conceptos muy
básicos, reducir errores, y aumentar la precisión para crear contenidos más
atractivos. Puede que no seas el experto en datos de tu proyecto. 
Puede que necesites apoyo para conocer mejor los datos y poder trabajar con
ellos. Hay que conocer los datos suficientemente bien como para detectar
errores, ausencias y anomalías en ellos. 
Es muy importante conocer el tamaño de la muestra, y algunas habilidades
matemáticas básicas, como distinguir entre media y mediana. 
La media es cuando se toman todos los valores de la lista, y se divide por el
número total de elementos en la lista. Es el verdadero promedio estadístico. 
La mediana, por otro lado, es el número que se encuentra en el medio de la lista
ordenada. 
Es importante que veas en tus datos la diferencia entre correlación y
causalidad. lo que significa que, a veces, cuando una cosa sube, la otra sube o
baja en la misma proporción, o parece moverse en la misma dirección, al mismo
tiempo. Pero eso no significa, necesariamente, que uno cause al otro. 
El profundo conocimiento de los datos permitirá definir cómo se debe
mostrar, ya sean, resumidos o detallados, la parte de un todo, utilizando una
serie de tiempo, o analizando, mediante comparativas, relaciones o
distribuciones. o analizando, mediante comparativas, relaciones o
distribuciones.

Descubrir lo que esconden los datos

Aunque parezca obvio, necesitamos conocer los datos antes de poder diseñar su


visualización. 

Los conjuntos de datos son cada vez más grandes y complejos. La visualización de
datos ayuda a los científicos de datos a comprender qué técnicas utilizar para descubrir
ideas o patrones ocultos y les ayuda a entender los resultados de la aplicación de estas
técnicas guiando así el proceso de análisis para la obtención de los resultados
deseados. Necesitamos explorar, que es la forma de profundizar en ellos para poder
encontrar patrones y valores atípicos, solo así veremos lo que esconden los
datos. Analiza visualmente tus datos desde diferentes perspectivas, intenta descubrir
algunos patrones en tus datos. 

Cuando se trata de explorar tus datos no hay razón para dudar. Aunque en un inicio no
sepas qué significan los patrones, al menos ya sabes que existen. Puedes empezar a
relacionar la subida de unos índices con la bajada de otros, o las subidas y las bajadas
con días específicos de la semana. 

Antes de pensar en estética y antes de aplicar algunos principios básicos de


diseño, puedes utilizar gráficos que no vas a mostrar en tu informe final, pero que te
pueden ayudar a distinguir alguna anomalía si algo surge, a encontrar y, sobre todo, a
explicar los patrones. 

Al explorar los datos, podrás distinguir, además, los datos que son incorrectos o los que
directamente están ausentes. Es un buen ejercicio que explores tus datos utilizando
varios tipos diferentes para que descubras de ellos lo que cada tipo de gráfico te puede
llegar a revelar. Este es sin duda un gran experimento para ejecutar, te puedes apoyar
en tablas dinámicas de Excel, por ejemplo; toma tus datos, intercambia filas y
columnas, filtra, ordena por campos diferentes y en diferentes direcciones, sigue
explorando hasta que los datos hablen por sí mismos. 

Cuando trabajes con gráficos, experimenta con diferentes escalas, te ayudará a


distinguir algunos aspectos en tus datos que no habías visto. 

Por otra parte, no te quedes atascado en un análisis de datos que no cuenta nada. No
manipules los datos para demostrar una teoría. Asegúrate de entender
completamente la pregunta que estás tratando de responder. Infórmate, pregunta todo
lo que haga falta y deja que las respuestas salgan en el análisis y si no salen, igual
habrá que reformular. 
Analizar datos lleva tiempo y esfuerzo; cuanto más profundices y te ensucies con los
datos más limpios estarán tus informes, gráficos, imágenes o historias.

Dar forma y simplificar datos

En el mundo en que vivimos, caracterizado por la rapidez de la información nos hemos


empezado a acostumbrar a términos como Big Data o el Internet de las cosas. Esto nos
hace pensar en muchas cifras y datos que están interconectados para producir a su vez
más y más datos. 

La función de la visualización de datos es agrupar una gran cantidad de información en


un espacio muy pequeño, al hacerlo, crear visualizaciones no consiste en tomar
conjuntos de datos y presionar un botón mágico con la esperanza de que el resultado
transmita lo que desees. 

Si estás analizando o simplificando datos, necesitas limpiarlos y prepararlos para


poderlos presentar correctamente según las necesidades del análisis más detallado que
vas a exponer a tu audiencia. 

Si el análisis de datos es el proceso de convertir datos en información útil, entonces


necesitamos datos útiles. Muchas veces los datos que recibimos son en bruto y no
están listos para ser presentados en forma visual. Veamos entonces algunas de las
tantísimas transformaciones que se pueden aplicar a los conjuntos de datos. 

La transposición de datos es una de las transformaciones más comunes a


aplicar. Significa cambiar la posición  de vertical a horizontal o viceversa para crear
estructuras más sencillas que se ajusten mejor al modelo de datos que necesitamos
analizar. 

Para simplificar la estructura y en aras de garantizar la calidad de los datos, es


importante corregir los problemas de espaciado innecesario  delante o detrás de
los textos; ajustar el texto y la posición de los títulos así como eliminar toda aquella
información  que resulte evidente o repetitiva. 

Lo mismo ocurre con el ajuste de formatos en números, por ejemplo, pasarlos a


moneda, ajustar los decimales, convertirlos a por ciento y definir el valor a asignar al
valor nulo o espacio en blanco que por lo general resulta ser cero. 

Habrá ocasiones en que te encuentres mirando filas llenas de datos, separados por


tabulaciones o comas, lo deseado es crear una estructura tipo tabla donde cada fila
muestre cada uno de los elementos que contiene en su propia celda de tabla; la lectura
se realiza de forma más simple y natural. 

Se pueden calcular índices, ratios y percentiles, agregar y reagrupar datos para


comparar números entre sí como parte de un todo. Crear estos cálculos es una tarea
realmente útil para transformar los datos y que dejen ver toda su esencia. 
Podemos hacer cualquier agregación, clasificación y filtrado de los datos, lo mejor es
obtener los datos sin procesar, lo más granulares posible para que los puedas moldear
a tus necesidades. 

Al crear agregaciones, puedes disminuir, considerablemente, el número de filas por lo


que es mucho más cómodo de trabajar con ellos para ti y mucho más fácil de manejar
para el servidor cuando se trata de crear la visualización. 

Verás que en unos pocos pasos tu conjunto de datos estará suficientemente limpio y
los más simplificado para ser visualizado en los informes.

Acumular o no acumular, esa es la cuestión

Elegir el gráfico correcto es muy importante, pero está lejos de ser tu última decisión al
visualizar los datos. Hay sutilezas y matices que deben considerarse más allá del tipo de
gráfico que utilizas como puede ser la decisión de acumular o no los datos en un
gráfico. 

En un gráfico de líneas, podemos ver cómo los valores aumentan y disminuyen con el


tiempo, pero no vemos el impacto general con esta visión. 
En un gráfico acumulativo podemos ver los valores totales a medida que crecen o
disminuyen con el tiempo. Esto enfatiza claramente el resultado final y elimina los
valores periódicos. 

Y si queremos lo mejor de ambos mundos, pues podemos pensar en crear un gráfico


combinado de doble eje, un gráfico de líneas acumulativo con un gráfico de barras con
los valores de cada período nos permite comunicar dos cosas a la vez. 

Los gráficos de doble eje con escalas muy dispares no siempre dan buen resultado, por
lo que podemos considerar mostrar dos gráficos o crear una proporción en los datos
dividiendo unos entre otros. 
Cuando hablamos de acomodados, se plantea además la necesidad de elegir entre
gráficos de barras apiladas y barras apiladas proporcionales. Con las barras
apiladas, nos surge el reto de calcular el tamaño de cada sección que se verá claro solo
en la categoría pegada al eje. Con las barras cien por ciento apiladas es más fácil de
comparar las proporciones, ya que el tamaño de todas las columnas es comparable
entre sí. 

Es posible utilizar, además, gráficos tipo cascada en los que se muestre el aumento o
disminución del dato en cada momento. Estos gráficos suelen acompañarse de
colores con formato condicional que ilustran rápidamente la evolución del indicador
concreto que se muestra. 
Como hemos visto, existen suficientes opciones gráficas que ofrecen la posibilidad de
representar valores sin acumular o acumulados. 

La visualización de datos es un enfoque importante del mundo Big Data ya que permite
obtener una visión completa y descubrir el valor de los datos. va a depender de las
respuestas que necesitemos dar a los requisitos de negocio que se planteen para el
informe que estamos elaborando. que se planteen para el informe que estamos
elaborando.

Tipos de datos a distinguir en una visualización

Los conjuntos de datos de hoy son más grandes, se generan y cambian con más
rapidez, y son más diversos que los conjuntos de datos del pasado. Las tecnologías Big
Data nos permiten manejar el volumen, la velocidad y la variedad que conllevan estos
conjuntos de datos modernos. 

Una vez tratados, al elegir el tipo de visualización a utilizar, tenemos que saber


diferenciar los distintos tipos de datos que existen. 

Resultaría difícil que no contáramos con datos de tipo fecha o fecha/hora. Estos tipos
de datos nos garantizan el análisis en el tiempo, y dan un enorme juego a los informes
que vamos a crear con ellos. Esto se debe a que, por lo general, existe mucho interés en
analizar las distribuciones, relaciones, correlaciones y comparativas en el tiempo. 

Si se trata de procesos con inicio y fin o fechas que se comparan dinámicamente con la
fecha actual, podríamos encontrar datos de tipo duración que se componen por una
estructura de días, horas, minutos y segundos. Este formato se puede convertir, según
sea la necesidad, en años, meses y semanas. 

Como es de suponer, podemos contar con datos de tipo cadena de caracteres o


textos que suelen emplearse para describir atributos que se utilicen para acompañar las
métricas del informe. Estas métricas, por su parte, suelen ser de tipo numérico, aunque
suelen tener matices de formato, ya sea de tipo entero, decimal o porcentaje. 

Los datos numéricos, además, pueden ser representados utilizando diferentes


escalas, es decir, tratarlos como millones, miles, unidades y otros. 

La utilización de una forma u otra, en este caso, va a depender del nivel de exactitud


que sea necesario reflejar en el informe, y la magnitud de los valores a mostrar. 

Conocer con certeza la magnitud de los valores que estamos manejando en el proceso
de creación del informe es de gran importancia. Podríamos trabajar con otros tipos de
datos como pueden ser, booleanos, 
los tan conocidos como verdadero o falso, tan útiles para conseguir definir estados. 

Hay otra clasificación relativa a los datos que tienen que ver más con el contenido que
con el formato en sí. 

Existen datos cuantitativos que pueden ser medidos. Datos discretos que se basan en
recuentos y dejan ver un solo punto cada vez o datos continuos que nos permiten ver
los puntos y las conexiones entre ellos. Existen, además, datos categóricos que son los
que se pueden agrupar. Estos datos se pueden categorizar de dos formas:  Ordinal y
nominal. Ordinal significa categorizar de forma ordenada, pequeño, mediano y
grande, primero, segundo y tercero. Es un dato que técnicamente se puede
clasificar. Nominal, simplemente, significa nombre. El nombre lo es todo al utilizar
categorías como rojo, verde, azul, coches, camiones o barcos. 

Es muy importante poder distinguir lo que se conoce como datos de cola larga. Es el
caso de cuando existe gran cantidad de valores muy grandes o muy pequeños, en los
extremos de la muestra que contribuyen a expandir todo el conjunto de datos; afectan
la escala y la forma en la que decidamos representarlos. 

Según sea el tipo de datos, así serán las opciones de visualización más recomendada


para cada uno de ellos.

También podría gustarte