Está en la página 1de 5

Traducido del inglés al español - www.onlinedoctranslator.

com

Visualización de Big Data: herramientas y desafíos


Syed Mohd Ali, Noopur Gupta, Gopal Krishna Nayak, Rakesh Kumar Lenka
Departamento de Informática e Ingeniería
Instituto Internacional de Tecnología de la Información, Bhubaneswar, India
{syedmohdali121, noopur2827}@gmail.com
{gopal, rakeshkumar}@iiit-bh.ac.in

Resumen—En el mundo actual, donde todo se registra digitalmente,


desde nuestros patrones de navegación web hasta nuestros registros
médicos, generamos y procesamos petabytes de datos todos los días. Los
grandes datos serán transformadores en todas las esferas de la vida. Pero
solo procesar y analizar esos datos no es suficiente, el cerebro humano
tiende a encontrar patrones de manera más eficiente cuando los datos se
representan visualmente. La visualización y análisis de datos juega un
papel importante en la toma de decisiones en varios sectores. También
conduce a nuevas oportunidades en el dominio de la visualización que
representa la ideación innovadora para resolver el problema de los
grandes datos a través de medios visuales. Es todo un desafío visualizar
una cantidad tan gigantesca de datos en tiempo real o en forma estática.
En este documento, discutimos por qué la visualización de big data es de
suma importancia,
Términos del Índice—Grandes Datos; visualización; panel; visualización
interactiva;

YO.INTRODUCCIÓN
En los últimos años, Big Data se ha convertido en un tema de interés
para todas las industrias, incluidas las académicas, las empresas de TI y los
gobiernos [1]. La tasa de crecimiento de los datos ha aumentado
exponencialmente en pocos años debido a varios factores como el Internet
de las cosas (IoT), los sensores en nuestro entorno y la digitalización de Fig. 1. Beneficios de la visualización de big data

todos los registros fuera de línea, como nuestro historial médico, etc. Big
Data ha demostrado su importancia para este mundo. en tan poco tiempo
que hoy en día casi todas las empresas de TI y no TI almacenan todos los Big Data se caracteriza por 5V, es decir, gran volumen, alta velocidad, alta

datos que producen. variedad, baja veracidad y alto valor. El desafío real no es solo procesar
esta gran cantidad de datos, sino también procesar datos con una gran
diversidad. La alta diversidad e incertidumbre en los datos reduce el
Hoy en día, las empresas luchan por almacenar la gran cantidad de
tiempo de respuesta de la aplicación, ya que tiene que lidiar no solo con
datos, mientras que analizarlos, interpretarlos y presentarlos de manera
datos estructurados tradicionales sino también con datos
significativa es una idea para más adelante [2]. El principal desafío de Big
semiestructurados y no estructurados [1].
Data radica en capturar, almacenar, analizar, compartir, buscar y visualizar
datos. Uno de los aspectos principales del análisis de Big Data es que
II.RETOS
podemos encontrar patrones interesantes en un gran conjunto de datos,
Las herramientas de visualización tradicionales han llegado a sus
pero en realidad el resultado del análisis suele ser números sin procesar y,
límites cuando se encuentran con conjuntos de datos muy grandes y
según esos números, es muy difícil interpretar algo. Pero si esos números
estos datos evolucionan continuamente. Aunque hay algunas
se representan visualmente, se vuelve mucho más fácil para nuestro
extensiones de los enfoques de visualización tradicionales, se quedan
cerebro encontrar patrones significativos y tomar decisiones en
atrás por millas. La herramienta de visualización debería poder
consecuencia. La Fig. 1 muestra los beneficios de la visualización de Big
proporcionarnos una visualización interactiva con la menor latencia
data [3].
posible. Para reducir la latencia, podemos hacer lo siguiente: [5]

La visualización de datos ciertamente no es algo nuevo; Ha existido durante • Usar los datos precalculados
siglos. La visualización de datos es una forma fácil y rápida de transmitir • Paralelizar el procesamiento y la representación de datos
mensajes y representar cosas complejas [4]. Los humanos estamos adaptados • Usar un middleware predictivo
para encontrar patrones en todo lo que vemos. Dado que los datos se acumulan La herramienta de visualización de Big Data debe ser capaz de manejar
a un ritmo tan masivo, las formas tradicionales de presentar los datos están datos semiestructurados y no estructurados porque los big data suelen
obsoletas [1]. En comparación con los datos tradicionales, tener este tipo de formato. Se da cuenta de que para hacer frente

978-1-5090-5256-1/16/$31.00© c 2016 IEEE 656


con una cantidad tan grande de datos, se necesita una inmensa • Alta tasa de cambio de imagen: si la tasa de cambio de imagen es
paralelización, lo cual es un desafío en la visualización. El desafío demasiado alta, se vuelve imposible reaccionar al número.
en el algoritmo de paralelización es desglosar el problema en una • Requisitos de alto rendimiento: durante la visualización estática,
tarea tan independiente que puedan ejecutarse de forma este factor puede ignorarse en comparación con la visualización
independiente [6]. dinámica, que exige más, es decir, un alto rendimiento.

terceroHERRAMIENTAS DE VISUALIZACIÓN
La tarea de la visualización de big data es reconocer patrones y
correlaciones interesantes. Necesitamos elegir cuidadosamente las Han surgido varias herramientas para ayudarnos a salir de los problemas
dimensiones de los datos que se visualizarán, si reducimos las dimensiones señalados anteriormente. La característica más importante que debe tener
para que nuestra visualización sea baja, entonces podemos terminar una visualización es que debe ser interactiva, lo que significa que el usuario
perdiendo patrones interesantes, pero si usamos todas las dimensiones, debe poder interactuar con la visualización. La visualización debe mostrar
podemos terminar teniendo una visualización demasiado densa para ser útil información relevante cuando se pasa el cursor sobre ella, el panel de
para el usuario. usuarios Por ejemplo: “Dadas las pantallas convencionales acercamiento y alejamiento debe estar allí, la visualización debe adaptarse en
(1,3 millones de píxeles), la visualización de cada punto de datos puede dar tiempo de ejecución si seleccionamos un subconjunto o un superconjunto de
lugar a un exceso de trazado, superposición y puede abrumar las datos. Revisamos algunas de las herramientas de visualización más
capacidades perceptivas y cognitivas del usuario [7]”. populares.

A. Herramientas
Debido al gran volumen y la gran magnitud de big data, se vuelve
difícil de visualizar. La mayoría de las herramientas de visualización 1) Cuadro:Tableau es una herramienta de visualización de datos
actuales tienen bajo rendimiento en escalabilidad, funcionalidad y interactiva que se centra en Business Intelligence. Tableau ofrece una
tiempo de respuesta [8]. Se han propuesto métodos que no solo amplia gama de opciones de visualización. Proporciona la opción de
visualizan datos sino que procesan al mismo tiempo. Estos métodos crear una visualización personalizada. Es rápido y flexible. Admite
utilizan Hadoop y la solución de almacenamiento y el lenguaje de principalmente todos los formatos de datos y la conexión a varios
programación R [9] como entorno de compilación en el modelo [10]. La servidores, desde Amazon Aurora hasta Cloudera Hadoop y Salesforce.
figura 2 muestra el contorno de dicho modelo. La interfaz de usuario es intuitiva, hay una amplia variedad de gráficos
disponibles. Para cálculos y estadísticas simples, no se requieren
habilidades de codificación, pero para análisis pesados, podemos
ejecutar modelos en R y luego importar los resultados a Tableau. Esto
requiere bastante habilidad de programación basada en la tarea que
debemos realizar.

Fig. 2. El modelo integrado de análisis del algoritmo de visualización de big data.


Fig. 3. Ganancias y pérdidas de ventas de muebles en todo el mundo (visualización de mapa completo).

Algunos otros problemas importantes de visualización de big data son los


2) Microsoft Power BI:Power BI es un potente servicio de análisis
siguientes [11]
empresarial basado en la nube. La visualización es interactiva y rica.
• Ruido visual: la mayoría de los objetos en el conjunto de datos son Power BI consta de 3 elementos, Power BI Desktop, Servicio (SaaS),
demasiado relativos entre sí. Se vuelve muy difícil separarlos. Aplicaciones. Cada servicio está disponible para nosotros, por eso hace
que Power BI sea flexible y persuasivo. Con más de 60 tipos de
• Pérdida de información: para aumentar el tiempo de respuesta podemos reducir la integración de fuentes, puede comenzar a crear visualizaciones en
visibilidad del conjunto de datos, pero esto conduce a la pérdida de información. cuestión de minutos. Power BI combina las herramientas familiares de
Microsoft como Office, SharePoint y SQL Server. La característica que lo
• Percepción de imagen grande: incluso después de lograr el distingue de otras herramientas es que puede usar lenguaje natural
resultado mecánico deseado, nuestra percepción física nos limita. para consultar los datos. tu no

2016 2a Conferencia Internacional sobre Computación e Informática Contemporánea (ic3i) 657


requiere habilidades de programación para esta herramienta, pero hay una El servicio local de Plotly también está disponible, es como la nube de
opción disponible para ejecutar su script R. Puede fusionar varias fuentes de plot.ly pero usted aloja los datos en su nube privada detrás de su propio
datos y crear modelos, lo que resulta útil. La Fig. 4 representa 3 firewall. Esto para aquellos a quienes les preocupa la privacidad de sus
visualizaciones en 3 coordenadas, es decir, izquierda, abajo y derecha. La datos. Las API de Python, R, MATLAB y Julia están disponibles para lo
izquierda representa el beneficio por condado y mercado, la parte inferior mismo.
representa el beneficio por región y la coordenada derecha representa todas
las ventas y el beneficio. 4) Gefos:Gephi es una herramienta de análisis de red de código
abierto escrita en Java y OpenGL. Se utiliza para manejar conjuntos de
datos muy grandes y complejos. El análisis de red incluye

• Análisis de redes sociales


• Análisis de enlaces
• Análisis de redes biológicas

Con su exploración dinámica de datos, Gephi se destaca del resto de su


competencia para el análisis de gráficos. No se requieren habilidades de
programación para ejecutar herramientas delgadas, pero es necesario un
buen conocimiento de gráficos. Utiliza el motor de renderizado 3D GPU para
acelerar el rendimiento y brindar análisis en tiempo real [14].

Fig. 4. Informe de análisis de mercado.

3) trama:Plotly también se conoce como Plot.ly y está construido


usando python y Django framework. Las acciones que puede realizar
son analizar y visualizar datos. Es gratis para los usuarios pero con
funciones limitadas, para todas las funciones que necesitamos para
comprar la membresía profesional. Crea gráficos y paneles en línea,
pero se puede usar como un servicio fuera de línea dentro del cuaderno
Ipython, el cuaderno jupyter y panda. Hay disponible una variedad
diferente de gráficos, como gráficos estadísticos, gráficos científicos,
gráficos 3D, ejes múltiples, tableros, etc. Plotly utiliza una herramienta
llamada "Web Plot Digitizer (WPD)" que captura automáticamente los
datos de la imagen estática [12].

Fig. 6. Red ponderada de coapariciones de personajes en la novela “los


miserables” de Víctor Hugo.

5) Excel 2016:Microsoft Excel es una hoja de cálculo desarrollada por


Microsoft. No solo se puede usar para Big Data y análisis estadístico,
sino que también es una poderosa herramienta de visualización. El uso
de power query excel puede conectarse a la mayoría de los servicios
como HDFS, SaaS, etc. y es capaz de administrar datos
semiestructurados. Combinado con técnicas de visualización como
"Formato condicional" y gráficos interactivos, Excel 2016 es un buen
competidor en el océano de herramientas de visualización de Big Data.
Figura 5. Esperanza de vida frente al PIB per cápita, 2007 (gráfico de burbujas) [13].

658 2016 2a Conferencia Internacional sobre Computación e Informática Contemporánea (ic3i)


• Si compra la versión profesional, obtendrá gráficos ilimitados,
pero el tamaño de carga de los archivos será de solo 5 MB.
• No hay disponible un cliente oficial sin conexión para Plotly, se requieren
muchas habilidades de codificación si queremos trabajar con Plotly sin
conexión.

4) Gefos:La principal ventaja de Gephi es su desventaja, es decir,


Gephi solo se especializa en la visualización de gráficos, no puede
usarlo para otros tipos de visualizaciones.

5) Excel 2016:

• API solo disponible con la suscripción a Office 365.


• Excel no es gratis.

Fig. 7. : Cuenta de resultados del ejercicio[15].


D. Comparaciones de técnicas de visualización
B. Comparación de herramientas
No todas las visualizaciones son aplicables en todos los
Hemos comparado las herramientas anteriores sobre la base de varios
lugares, debemos elegir sabiamente qué técnicas usar y cuándo.
atributos. Estos atributos son los siguientes:
La Tabla 2 [8] representa algunas de las técnicas de visualización
• Código Abierto: Si nuestra herramienta es de código abierto [16] o no. populares y cuándo o no usarlas. La Tabla 3 [17] representa las
• Integración con fuentes de datos populares: estas clasificaciones de los métodos de visualización según las clases
incluyen MapR Hadoop Hive, Salesforce, Google de big data.
Analytics, Cloudera Hadoop, etc.
• Visualización Interactiva: Son visualizaciones creadas por 1) Diagrama de árbol: se basa en la visualización de datos jerárquicos que

herramientas interactivas o no. llenan el espacio.

• Tipo de cliente: ¿Cuáles son los diferentes tipos de clientes disponibles para la 2) Empaquetado de círculos: es lo mismo que en el diagrama de árbol, pero en lugar de

herramienta, es decir, escritorio, en línea o aplicación móvil? rectángulos, usamos círculos. Esto no es tan eficiente en cuanto al espacio como la

• MOOCS: si hay tutoriales disponibles en línea para aprender la visualización de mapas de árbol.

herramienta. 3) Sunburst: la jerarquía se muestra en la disposición circular.


• API: si hay API disponibles para incrustar los servicios de la Diferentes capas en sunburst representan diferentes
herramienta. niveles de jerarquía.
4) Coordenada paralela: Representa numerosos elementos de datos
Estos factores deben tenerse en cuenta al elegir la herramienta adecuada
para objetos distintos.
según los requisitos. La Tabla 1 representa la comparación de varias
5) Gráfico de flujo: es el desplazamiento del área apilada alrededor
herramientas de visualización de big data sobre la base de los factores
del eje central que parece una forma fluida.
discutidos anteriormente.
6) Diagrama de red circular: diferentes objetos se
C. Límites/Deméritos colocan en forma de círculo y se vinculan entre sí
según la relación.
1) Cuadro:Aunque Tableau public está disponible de forma gratuita,
ofrece su servicio en línea con 1 GB de almacenamiento. Para la versión de
escritorio hay que comprar una licencia. Además, debe comprar la licencia
TABLA II
de las versiones de servidor y escritorio por separado. Se requiere UNATRIBUTOS DE LAS TÉCNICAS DE VISUALIZACIÓN
habilidad de codificación si necesita trabajar con el script R para un análisis
Método Grandes datos Variedad de datos Datos
en profundidad.
Nombre Volumen Dinámica
2) Microsoft Power BI:
Mapa de árbol Y norte norte
• La versión de escritorio del software está disponible de forma gratuita,
pero surge un gran inconveniente cuando intentamos acceder a los Círculo Y norte norte

embalaje
servicios en la nube. Para eso, necesitamos tener una cuenta de trabajo
rayos de sol Y norte Y
para iniciar sesión, la cuenta pública no funcionará aquí.
• El tamaño del libro de trabajo está limitado solo a 250 MB. Paralelo Y Y Y
coordinar
• Es lento en comparación con Tableau.
Gráfico de flujo Y norte Y
3) trama:
Circular Y Y norte

• Los usuarios profesionales tienen funciones limitadas, como el tamaño de carga de los red
diagrama
archivos, solo hasta 500 KB.

2016 2a Conferencia Internacional sobre Computación e Informática Contemporánea (ic3i) 659


TABLA I
CCOMPARACIONES DE HERRAMIENTAS DE VISUALIZACIÓN DE BIG DATA

Abierto Integración Interactivo Escritorio En línea Móvil MOOCS API


Fuente con Visualiza- Cliente Cliente Solicitud
popular ción
fuentes
Cuadro norte Y Y Y Y Y Y Y

BI de energía norte Y Y Y Y Y Y Y

trama Y norte Y norte Y norte Y Y

Gefi Y norte Y Y norte norte Y norte

excel 2016 norte Y Y Y Y Y Y Y

TABLA III UNRECONOCIMIENTO


CLASIFICACIÓN DE TÉCNICAS DE VISUALIZACIÓN
Esta investigación fue apoyada por el Instituto Internacional de
Nombre del método Grandes clases de datos Tecnología de la Información, Bhubaneswar.
Solo se puede aplicar a datos jerárquicos.
Mapa de árbol
RFERENCIAS
Embalaje circular Solo se puede aplicar a datos jerárquicos.
[1] Jin X, Wah BW, Cheng X y Wang Y, "Importancia y desafíos de la investigación de
rayos de sol Volumen + Velocidad big data", Big Data Research, 30 de junio de 2015;2(2):59-64.
[2] Centro de TI de Intel, "Visualización de Big Data: convertir Big Data en grandes
Coordenada paralela Volumen + Velocidad + Variedad conocimientos", White Paper, marzo de 2013, pp.1-14
[3] SAS, “Visualización de datos: Cómo hacer que Big Data sea accesible y valioso,
Gráfico de flujo Volumen + Velocidad
White Paper”, enero de 2013, pp.1-4
Diagrama de red circular Volumen + Variedad [4] SAS, visualización de datos: qué es y por qué es importante,
www.sas.com/en sg/insights/big-data/data-visualization.html
[5] Agrawal R, Kadadi A, Dai X y Andres F, “Desafíos y oportunidades con la
visualización de big data”, 7.ª Conferencia internacional sobre gestión de
inteligencia computacional y colectiva en ecosistemas digitales, 25 de
IV. CONCLUSIÓN octubre de 2015 (págs. 169-173) . ACM.
[6] Childs H, Geveci B, Schroeder W, Meredith J, Moreland K, Sewell
C, Kuhlen T y Bethel EW, "Desafíos de investigación para el software de
En el mundo de los grandes datos, donde cada información es crucial visualización", Computer, 1 de mayo de 2013 (5) pp: 34-42.
[7] Tavel, P. “modelado y diseño de simulación”, AK Peters Ltd. Natick, MA,
de una forma u otra, confiamos en la información visual para encontrar
2007.
patrones útiles. Pero los métodos tradicionales de visualización no se [8] Lidong Wang, Guanghui Wang y Cheryl Ann Alexander, "Grandes
mantienen al día con el ritmo y el volumen de datos, requerimos datos y visualización: métodos, desafíos y progreso tecnológico",
Tecnologías digitales, vol. 1, no. 1 (2015), págs. 33-38. doi:10.12691/
herramientas de este tipo que manejen todas las características de big
dt-1-1-7.
data y nos brinden resultados sin renunciar al rendimiento y al tiempo de [9] El Diario R, http://journal.r-project.org/
respuesta. En este documento, identificamos por qué es importante la [10] Cai L, Guan X, Chi P, Chen L y Luo J, "Algoritmo de filtrado colaborativo de
visualización de big data basado en RHadoop", International Journal of
visualización de big data y cuáles son los desafíos y problemas
Distributed Sensor Networks, 1 de enero de 2015; 2015: 3.
relacionados con esto. También notamos que la interactividad de la [11] Gorodov EY y Gubarev VV, "Revisión analítica de los métodos de visualización de
visualización es de suma importancia y que las buenas herramientas de datos en aplicación a big data", Journal of Electrical and Computer Engineering, 1
de enero de 2013; 2013:22.
visualización deberían producir una visualización interactiva. También
[12] Plotly, toma automáticamente datos de una imagen con WebPlot-Digitizer,
estudiamos cómo las personas están proponiendo nuevos sistemas para http://blog.plot.ly/post/70293893434/automatically-grab-datafrom-
hacer frente a estos desafíos. animage-with
[13] Plotly, Haz un gráfico de burbujas, http://help.plot.ly/make-a-bubble-chart/
[14] Bastian, Mathieu, Sébastien Heymann y Mathieu Jacomy. "Gephi: un
Revisamos algunas de las herramientas de visualización populares software de código abierto para explorar y manipular redes". ICWSM 8
y observamos sus ventajas y desventajas. Estas herramientas son (2009): 361-362.
[15] Presentamos tipos de gráficos nuevos y modernos ahora disponibles en Office
bastante prometedoras, generan visualizaciones ricas e interactivas, 2016 Preview, https://blogs.office.com/2015/07/02/introducing-new-andmodern-
la mayoría de ellas abordan el gran volumen de datos y responden en chart-types-now-disponible-in-office- 2016-vista previa/
una cantidad de tiempo aceptable. Queda claro del análisis de [16] Iniciativa de código abierto, definición de código abierto, https://
opensource.org/osd-annotated
estas herramientas que no puede haber un ganador entre ellos. Uno debe [17] EY Gorodov y VV Gubarev, "Revisión analítica de los métodos de
elegirlos de acuerdo a su requerimiento. Por ejemplo, es posible que una visualización de datos en la aplicación de Big Data", Journal of Electrical
pequeña empresa no quiera usar Tableau debido a su alto costo. Antes de and Computer Engineering, 2013, 1 de enero; 2013: 22

elegir cualquiera de las herramientas de visualización, las empresas


quieren revisar cuáles son todos sus requisitos y qué herramientas son las
mejores para ellos. Este documento les ayudará a elegir la herramienta de
su interés.

660 2016 2a Conferencia Internacional sobre Computación e Informática Contemporánea (ic3i)

También podría gustarte