Documentos de Académico
Documentos de Profesional
Documentos de Cultura
© ADR Infor SL
Indice
Competencias y Resultados de Aprendizaje desarrollados en esta unidad 3
Visualización y toma de decisiones 4
Smart Data y Smart Visual Data 4
Tecnologías y herramientas de visualización 5
Tecnología R 5
Notebooks y Zeppelin 6
Herramientas comerciales 8
Otras herramientas de visualización 9
Casos de uso con Visualización 11
Mobile First 16
Hemos aprendido 17
Actividades prácticas 18
Recursos 20
Videos complementarios 20
Enlaces de Interés 20
Preguntas Frecuentes 20
Glosario. 21
2/22
Visualización y toma de decisiones
3/22
Visualización y toma de decisiones
Al final de esta unidad, sabremos en qué consiste el Smart Data y cuáles son las
tecnologías más empleadas para la visualización de datos en ecosistemas de Big Data.
También conoceremos algunos casos de uso con explotación intensiva de visualización
enriquecida de datos. Asumiremos la importancia de la visualización final del análisis de
los datos, las posibilidades de visualización con las herramientas disponibles a día de hoy,
y conoceremos las distintas variantes existentes: mapas de calor, realidad virtual, cuadros
de mando, etc.
Smart Data es dar un paso más, es una evolución del Big Data. Ya no se trata de
almacenar todos los datos disponibles, sino seleccionar aquellos que aporten el valor que
la empresa necesita para llevar a cabo sus objetivos en el mínimo tiempo posible.
Tengamos en cuenta que a pesar de los avances, la capacidad de procesamiento no siempre está a la altura
de la cantidad de datos de los que se dispone; y a mayor cantidad, más procesamiento, más tiempo y más
coste para ello. Por eso se habla de Smart Data, como la respuesta a seleccionar sólo aquellos datos que
verdaderamente importan y son de valor dentro de las organizaciones.
Tras una selección inteligente de los datos que más valor aportan, lo interesante es poder
mostrarlos de una forma visual y comprensible, como se viene haciendo desde siempre en
los sistemas de BI, con los datos que se han tenido disponibles en cada momento. Y aquí
nace el concepto de Smart Visual Data.
Siguen siendo dashboards o paneles de datos, como ocurre con Big Data (y desde mucho antes con
Business Intelligence), pero ahora enfocado a los datos de valor, aunque con el mismo objetivo: que las
personas que los manejen entiendan e interpreten mejor y más rápido los resultados que se obtienen.
Y siguen incluyendo algo que surgió en los informes con la aparición de Big Data: la
posibilidad de actualización de estos datos en tiempo real.
4/22
Visualización y toma de decisiones
Sin embargo, no nos equivoquemos pensando en los típicos informes tediosos y aburridos que se hacen
desde hace años. Ahora hablamos de informes gráficos, con llamativos diseños y formados principalmente
de gráficos / imágenes que son mucho más simples de entender a pesar de que tienen mucha
más información.
No hablamos sólo del usuario interno que necesita analizar la información disponible para llevar a cabo
decisiones estratégicas del negocio, sino también de los clientes, a quienes se les puede mostrar lo que
necesiten de un modo más amigable. Esto se traslada también en una mejor experiencia de usuario que
puede traducirse en más ventas y una mejor opinión de la empresa.
Tecnología R
R es un entorno y un lenguaje de programación con un enfoque al análisis estadístico. Parte de una
implementación libre del lenguaje S, desarrollado por Robert Gentleman y Ross Ihaka del Departamento de
Estadística de la Universidad de Auckland en 1993. Este lenguaje forma parte de GNU y se distribuye bajo
licencia GNU GLP. Sus principales características son:
Orientado a estadística
Al estar orientado a las estadísticas, proporciona un amplio abanico de herramientas, y se visualizan las
tendencias y agrupaciones de datos al mismo tiempo que se trabaja con ellos:
5/22
Visualización y toma de decisiones
Capacidad gráfica
Permite generar gráficos con alta calidad, con sólo utilizar las funciones que incluye para generar
gráficos, como el siguiente:
Riqueza de recursos
Otros lenguajes de programación muy utilizados en Big Data son Python y Scala; pero en
este apartado de visualización hablamos de R, que en este sentido es el lenguaje más
utilizado para visualizar los datos de forma gráfica mientras se trabaja con ellos.
Notebooks y Zeppelin
Los "notebook" son herramientas que utiliza un científico de datos, o cualquier persona que utiliza
programación para el análisis de datos, que necesita ir "probando y visualizando" el resultado de su
programación en tiempo real.
6/22
Visualización y toma de decisiones
Es decir, en un Notebook tenemos el código fuente que estamos escribiendo y que implementa algún
algoritmo o transformación de datos, y al mismo tiempo el resultado de ejecutar dicho código sobre algún
subconjunto de datos:
Ejemplo: Notebook
Por ejemplo, si quiere presentar visualmente el resultado de aplicar cierto algoritmo o
patrón sobre los datos.
Esta visualización de datos no se lanza a producción, es decir, los usuarios finales del sistema de Big Data
no los utilizan; pero sirven para hacerse una idea de qué tipo de visualización se puede diseñar para estos
usuarios (además de que se validan los cálculos, algoritmos, transformaciones...).
El notebook es una "herramienta de trabajo" para las personas que hacen minería,
transformación y/o análisis de datos.
Dentro del ecosistema Hadoop podemos encontrar su propio notebook llamado Zeppelin. Zeppelin es una
implementación del concepto de web notebook, centrado en la analítica de datos interactivo mediante
lenguajes y tecnologías como Shell, Spark, SparkSQL, Hive, Elasticsearch, R, etc:
7/22
Visualización y toma de decisiones
R, Notebooks y Zeppelin
Herramientas comerciales
Muchas de las herramientas analíticas del mercado permiten conectar con Hadoop y realizar analítica y
visualización de datos, entre ellas destacan las siguientes:
8/22
Visualización y toma de decisiones
Tableau
Tableau es una herramienta fácil de usar y muy potente, seguramente la más utilizada actualmente.
Qlik
QlikView aporta versatilidad y funcionalidad de cara a los usuarios, consiguiendo que construyan
cuadros de mando, informes, métricas, gráficas con un clic o arrastrando y soltando ítems
determinados en la aplicación (tablas, mapas, filtros...).
9/22
Visualización y toma de decisiones
A parte de las anteriores herramientas ad-hoc, que tienen integraciones específicas para facilitar el acceso a
los datos almacenados en Hadoop, siempre podremos realizar una integración propia con cualquier
herramienta libre (gratuita) existente, como son:
D3js
D3.js (o simplemente D3 por las siglas de Data-Driven Documents) es una librería de JavaScript para
producir, a partir de datos, infogramas dinámicos e interactivos en navegadores web. Hace uso de
tecnologías bien sustentadas como SVG, HTML5, y CSS.
TimelineJS
Timeline JS es una herramienta de código abierto que nos permite crear líneas del tiempo muy atractivas
e interactivas siguiendo unos pasos muy sencillos.
10/22
Visualización y toma de decisiones
Viajes y turismo
Una empresa de viajes quiere ver a qué lugares del mundo se viaja más, la distribución por edades y por
sexo de las personas que viajan, la cantidad de dinero que gastan en los viajes, coste medio del vuelo y
de la estancia, las épocas del año en que se viaja más y menos a cada lugar, regiones con más retrasos
en los vuelos, etc.
11/22
Visualización y toma de decisiones
Inspecciones petrolíferas
Una empresa petrolífera quiere saber en qué lugares extrae más crudo, y sobre esos lugares, en cuáles
extrae mayores cantidades de crudo, dónde tiene mejor y peor calidad el producto, en qué lugares
se generan más incidencias, coste medio de la extracción de cada barril según la localización (en el mar,
en tierra, según la región...), cantidad total, etc.
Plagas en agricultura
Una compañía que se dedica a la agricultura ha detectado algún tipo de plaga de insectos sobre sus
cultivos. Requiere visualizar en qué zonas existe un mayor volumen de estos insectos, en qué lugares se
reproducen, las rutas que toman para conseguir su alimento (perjudicando los cultivos), y si hay alguna
relación con las condiciones orográficas de cada zona, por lo que requiere un mapa en 3D.
12/22
Visualización y toma de decisiones
Un banco quiere ver fácilmente el comportamiento de sus clientes; para ello, se construye un mapa de
calor donde las zonas "más iluminadas" son aquellas en las que el gasto es mayor; se puede hacer zoom
sobre una zona concreta; y ver los datos desglosados por la nacionalidad de las personas, por ejemplo.
Una compañía que vende sus productos a través de internet quiere saber en qué países se produce un
mayor tráfico en su página web, y además cómo se reparte este tráfico a lo largo del tiempo, y si hay
alguna variación en el tiempo de respuesta al usuario según su localización geográfica.
13/22
Visualización y toma de decisiones
El equipo técnico de un equipo de fútbol de élite quiere saber qué zonas del campo cubren con más
intensidad, en base al movimiento de sus jugadores; además, quieren verlo según el equipo completo, y
también por cada jugador. De esta forma pueden diseñar y optimizar sus estrategias de juego.
14/22
Visualización y toma de decisiones
Una compañía maneja un conjunto muy amplio de variables de negocio, pero desconoce la relación
exacta entre ellas; quiere saber qué variables afectan y son afectadas más por otras, de forma que se
implementa un mapa donde se señalan en color oscuro las relaciones más intensas entre las variables
existentes.
Usuarios en Facebook
Facebook quiere visualizar en todo momento el tráfico que se genera en su sistema, en qué zonas del
mundo viven sus usuarios, y las comunicaciones entre sus usuarios; para ello, construye un mapa de
calor donde las zonas "iluminadas" son las que generan la mayor cantidad de tráfico en su plataforma.
15/22
Visualización y toma de decisiones
La ciudad de Copenhague está luchando contra la contaminación ambiental generada por el tráfico
rodado; para ello, implementa un mapa en 3D donde quiere ver en qué zonas, calles y avenidas existe
una mayor concentración de NOx, con lo cual podrá conocer qué ruta siguen los vehículos y por tanto
en qué zonas se genera la contaminación.
Mobile First
Se denomina "Mobile First" a una forma de diseñar soluciones visuales, que consiste en pensar que el
usuario las utilizará a través de un dispositivo móvil, y que además, deben funcionar correctamente en una
pantalla de ordenador (monitor).
En la siguiente gráfica podemos ver muy claramente la explosión de los teléfonos móviles como
herramienta habitual para la visualización de aplicaciones de usuario:
16/22
Visualización y toma de decisiones
Es decir, cualquier aplicativo de usuario tiende cada vez más a ser utilizado con pantallas de pequeño
formato (tables, y muy especialmente teléfonos móviles), mucho más sobre monitores de gran superficie.
Por lo tanto, el diseño visual se dirige hacia estos pequeños dispositivos, y que además
sea responsive: que los gráficos y el texto cambien de tamaño si el usuario hace "zoom"
con los dedos, o si cambia de dispositivo.
Hemos aprendido
Smart Data es la tendencia existente en pensar que, para ahorrar costes, debemos
almacenar sólo los datos que realmente servirán para tomar decisiones relevantes.
La tecnología R incluye un lenguaje de programación y herramientas que permiten
visualizar los datos al mismo tiempo que se implementan algoritmos de análisis
sobre ellos.
Los analistas o científicos de datos utilizan los "notebooks" como Zeppelin para
visualizar los insights existentes en los datos al tiempo que trabajan con los
mismos.
SAS Visual Analytics, Tableau y Qlick son 3 herramientas comerciales muy
utilizadas actualmente para la visualización enriquecida de datos.
D3js y TimelineJS son frameworks de desarrollo Open Source que se pueden
utilizar para construir soluciones de visualización enriquecidas.
Cualquier ecosistema de big data incluye una solución de visualización; si no se
visualizaran los datos, el esfuerzo de obtener los datos y procesarlos resultaría
inútil.
Existen multitud de casos de uso donde se aplica visualización enriquecida de
datos: mapas en 3D, mapas de calor, gráficos y cuadros de mando.
Estos casos de uso se aplican en cualquier mercado y para multitud de problemas
de negocio diferentes. Desde la estrategia de un equipo de fútbol, hasta la
contaminación en una ciudad.
"Mobile First" es el concepto de diseño que implica pensar que los usuarios
explotarán una aplicación desde su dispositivo móvil de pequeño tamaño, además
de en una tablet y un monitor de ordenador.
17/22
Visualización y toma de decisiones
Actividades prácticas
Casos de uso impactantes
Hoy en día, la aplicación de Big Data y cualquier tecnología de este ecosistema está generalizada.
Existen problemas de negocio (y por tanto, casos de uso donde se aplica) en todos los sectores, y con
posibilidades casi infinitas; algunas impactantes, muy conocidas, o que han tenido alguna repercusión muy
importante para las personas (por ejemplo, cómo se venció la expansión del virus N1H1).
La toma de decisiones sobre cualquier sistema de BI y/o Big Data se basa en que las personas puedan visualizar
las tendencias o "insights" existentes en los datos que se analizan.
Visualización de información
Para cada problema de negocio, existe una solución de visualización apropiada para tomar las decisiones
correctas para ese problema. Veamos cómo las aplicamos.
No tenemos claros los horarios de compra más habituales de compra de nuestros clientes; esta
información sería muy útil para programar adecuadamente los turnos de las personas que están en
caja, evitar excesivas colas, y al mismo tiempo no tener demasiados empleados sin ocupación,
porque no tienen clientes a los que cobrar su compra.
Se observa que, en algunos pasillos del supermercado, se aglomeran los clientes... mientras que
otros pasillos permanecen casi siempre vacíos. Seguramente tenga que ver con que la distribución
de los productos no sea la adecuada, y los clientes caminan por el supermercado siguiendo "rutas"
que nos resultan desconocidas. Esta información sería muy útil para distribuir mejor los productos
en el espacio disponible, para facilitar las compras y que la experiencia de usuario sea más
agradable.
18/22
Visualización y toma de decisiones
1.
Lee el enunciado y toma conciencia de los problemas de negocio existentes.
En base a dichos problemas de negocio, analiza qué necesidades de información existen.
Si ese diseño visual de la solución es correcto, ¿se podrían tomar las decisiones de negocio
que son necesarias?
19/22
Visualización y toma de decisiones
Recursos
Videos complementarios
https://youtu.be/sqILcEwlHSI: Qlikview es un buen ejemplo de herramienta comercial para
visualización de datos.
https://youtu.be/yoSqojO2-CQ: En este vídeo sobre un caso de uso de Big Data de Vodafone,
vemos muchos ejemplos de interfaces de usuario con visualización enriquecida.
Enlaces de Interés
Visualización en Big Data
http://www.tuataratech.com/2016/10/sera-la-visualizacion-la-nueva-y-gran-v.html
Buen post sobre si la Visualización es una "V" más del Big Data.
Preguntas Frecuentes
En cuanto a la tecnología sí, es gratuita (basta con descargarse las librerías para desarrollo).
Pero evidentemente, el desarrollo (la construcción de las interfaces gráficas, es decir de las
aplicaciones) tiene que ser llevado a cabo por personas, cuyas horas de trabajo cuestan dinero.
Además, deberíamos pensar, en general, que cada caso de negocio requiere unos indicadores
(KPIs) y una forma de mostrar la información propias. El mismo cuadro de mando seguramente no
sirva para dos empresas distintas, para empezar porque, aunque tengan los mismos KPIs,
seguramente se calculen de forma distinta, o los umbrales para indicar si se muestran verdes, rojos
etc. sean distintos.
Y ni que decir tiene que, si mostramos mapas, diagramas... tienen que ser propios de cada
negocio, cada empresa, cada caso de uso, y por tanto desarrollados ad-hoc.
20/22
Visualización y toma de decisiones
Es un término que quiere decir que, trabajando con Big Data, hay que prestar atención para no
llevar a soluciones de "fuerza bruta", es decir, almacenar y procesar "todos los datos que se
puedan". Esa aproximación suele salir cara, necesita mucho espacio en disco, se dedica mucho
tiempo a analizar datos que después no conducen a mejores decisiones...
Se trata por lo tanto de economizar, si es posible, la cantidad de datos con los que se trabaja, y
obtener aquéllos "datos inteligentes", o dicho de otra forma, obtener los datos de "forma más
inteligente", para centrarse únicamente en los que apoyen la toma de las decisiones que son
necesarias.
No, pero sí debe tenerlo si su objetivo es ser utilizado por humanos para la toma de decisiones.
Podemos tener un sistema de procesamiento masivo de datos, que sirva por ejemplo para que un
robot se mueva en alguna dirección o tome alguna acción, o para que un ordenador decida detener
una cadena de producción... en este caso, hablamos de sistemas de inteligencia artificial basados
en big data (puesto que se basan en el almacenamiento y procesamiento de cantidades masivas de
datos).
O un sistema que decide, en función del precio instantáneo de las acciones y el estado del
mercado, comprar o vender en bolsa de forma automática.
Pero un sistema dirigido a que los seres humanos tomen decisiones, necesita una interfaz visual
para que las personas puedan "observar" los datos y tomar decisiones.
Glosario.
GNU: El proyecto GNU es un proyecto colaborativo de software libre con el objetivo de crear un
sistema operativo completamente libre: el sistema GNU. Fue anunciado por Richard Stallman en
1983.
21/22
Visualización y toma de decisiones
Licencia GNU GLP: La Licencia Pública General de GNU o más conocida por su nombre en
inglés GNU General Public License (o simplemente sus siglas en inglés GNU GPL) es la licencia
de derecho de autor más ampliamente usada en el mundo del software libre y código abierto,6? y
garantiza a los usuarios finales (personas, organizaciones, compañías) la libertad de usar, estudiar,
compartir (copiar) y modificar el software.
22/22