Documentos de Académico
Documentos de Profesional
Documentos de Cultura
visualizacin de
datos
Desde anlisis bsico a Big Data con
SAS Visual Analytics
Contenidos
Introduccin.2
Mviles.....24
Conclusin.....25
1
Introduccin
Una imagen vale ms que mil palabras- especialmente cuando ests tratando de entender
y obtener conocimiento a travs de datos. Es particularmente relevante cuando se est
tratando de encontrar relacin entre cientos, o incluso miles, de variables para determinar
su importancia relativa.
Organizaciones de todos tipos y tamaos generan datos a cada minuto, hora y da. Cada
una incluyendo a los ejecutivos, tomadores de decisiones departamentales, los
trabajadores de call center y empleados de lneas de produccin esperan aprender cosas
a partir de datos recogidos que puedan ayudar a tomar mejores decisiones. Tomar acciones
ms inteligentes y operar de manera ms eficiente.
Para crear visiones significativas de sus datos, hay ciertos puntos bsicos que debe
considerar. El tamao de los datos y la composicin de las columnas juegan un importante
rol cuando se selecciona grficos para representar los datos. Este documento discute
algunos de los conceptos bsicos concernientes a la visualizacin de datos y provee
sugerencias para hacerles frente. Adems, big data trae un set de desafos nicos para
visualizaciones creativas. Este trabajo cubre algunos de esos desafos y potenciales
soluciones tambin.
Si est trabajando con big data, un desafo es cmo mostrar los resultados de la exploracin
de datos y analizarlos de una manera que no resulte abrumadora. Usted puede necesitar
una nueva forma de mirar los datos una que colapse y condense los resultados en una
manera intuitiva, pero que an muestre grficos y tablas como estn acostumbrados a ver
quienes toman decisiones. Y, en la sociedad on-the-go de hoy, usted puede necesitar
tambin obtener los resultados con rapidez por medio de dispositivos mviles, y proveer a
los usuarios la habilidad de explorar los datos fcilmente por ellos mismos en tiempo real.
SAS Visual Analytics es una solucin de Business Intelligence que utiliza autocharting
inteligente para ayudar a los analistas de negocio y a los usuarios no tcnicos a visualizar
datos. Se crea la mejor visual posible basada en los datos seleccionados. Las
visualizaciones hacen ms fcil ver patrones y tendencias e identificar oportunidades para
anlisis posteriores.
El corazn y alma de SAS Visual Analytics es la SAS LASR Analytic Server, que puede
ejecutar y acelerar los clculos analticos a travs del procesamiento in-memory. La
combinacin de anlisis de alto rendimiento y una interfaz de exploracin fcil de usar
permite a diferentes tipos de usuarios crear e interactuar con grficos para que as ellos
pueden entender y obtener valor de sus datos ms rpido que nunca. Esto crea una
2
habilidad sin precedentes para resolver problemas difciles, mejorar el rendimiento del
negocio y reducir los riesgos rpidamente y con confianza.
Hay algunos conceptos bsicos que pueden ayudarle a generar las mejores imgenes para
la visualizacin de sus datos:
Usar una visual que transmita la informacin en la mejor y ms simple manera para su
audiencia.
Esta es una gua rpida para ayudarle a decidir qu tipo de tabla (o grfico) usar para sus
datos.
Grficos de lnea
Un grfico de lneas, muestra la relacin de una variable respecto a otra. Estos son los ms
utilizados para rastrear los cambios o tendencias en el tiempo (ver Figura 1). Los grficos
de lneas son tambin tiles al comparar varios elementos en el mismo perodo de tiempo
(ver Figura 2). Las lneas apiladas son utilizadas para comparar la tendencia o valores
individuales para varias variables.
Es posible utilizar grficos de lnea cuando el cambio en una variable o variables necesita
visualizarse claramente y/o cuando hay tendencia o la tasa de cambio de la informacin es
significativa. Tambin es importante tener en cuenta que no se debe elegir un grfico de
lneas simplemente por tener datos que son representados por puntos, ms bien, el nmero
de puntos con los que se trabaja puede determinar la mejor presentacin a usar. Por
3
ejemplo, si slo se tienen 10 puntos de datos para mostrar, la forma ms fcil de entenderlos
podra ser simplemente hacer una lista en un orden particular usando una tabla.
Cuando se decide utilizar un grfico de lneas, usted debe considerar si lo que quiere
obtener es la relacin entre los puntos de datos. Si es as, y los valores del eje X son
continuos, un simple grfico de lneas puede ser lo que se necesita.
4
Grficos de Barras
Los grficos de barras son comnmente utilizados para comparar las cantidades de
diferentes categoras o grupos. Los valores de una categora se representan utilizando las
barras, y estas pueden ser configuradas con barras verticales u horizontales, con la longitud
o la altura de cada barra, representando el valor.
Cuando los valores son lo suficientemente distintos, tal que las diferencias en las barras
puede ser detectada por el ojo humano, se puede utilizar un simple grfico de barra. Sin
embargo, cuando los valores (barras) estn muy juntos o hay un gran nmero de valores
(barras) que necesitan ser mostradas, se hace ms difcil comparar las barras entre s
Para ayudar a proporcionar diferencia visual, las barras pueden tener diferentes colores Los
colores se pueden utilizar para indicar ciertas cosas como una posicin o rango en
particular. Colorear las barras funciona mejor cuando la mayora de estas estn en una
posicin o rango diferente. Cuando todas las barras estn en el mismo rango o posicin, el
color se vuelve irrelevante, y es ms til visualmente mantener el color constante o no tener
coloracin en absoluto.
5
Grficos de dispersin
Un diagrama de dispersin (o X-Y plot), es un grfico de bi-dimensional que muestra la
variacin conjunta de dos tems de datos. En un diagrama de dispersin, cada marcador
(smbolo como puntos, cuadrados y signo +), representan una observacin. La posicin del
marcador indica el valor de cada observacin. Los diagramas de dispersin tambin
permiten agrupacin. Cuando se asignan ms de dos medidas, se produce una matriz de
diagrama de dispersin. Una matriz de diagrama de dispersin es una serie de grficos de
dispersin que muestra cada posible pareamiento de las medidas que se asignan a la
visualizacin.
Los diagramas de dispersin son tiles para examinar relaciones, y correlaciones, entre las
variables X e Y. Las variables se correlacionan si existe dependencia entre ellas, o si de
alguna forma son influenciadas entre s. Por ejemplo, utilidades por lo general se relaciona
con ingresos- y la relacin que existe puede ser de tal forma que si aumento los ingresos,
la utilidad tambin aumenta (correlacin positiva). Un diagrama de dispersin es una buena
manera de visualizar estas relaciones en los datos.
En un diagrama de dispersin, se puede aplicar anlisis estadstico con la correlacin y
regresin. La correlacin identifica el grado de correlacin estadstica entre las variables en
el grfico. La regresin traza un modelo de relacin entre las variables en el grfico.
Una vez que se han representado todos los puntos de los datos mediante un diagrama de
dispersin, es posible determinar visualmente si los datos estn relacionados. Los
diagramas de dispersin pueden ayudan a tener una idea de que tan dispersos estn los
datos, o el grado de proximidad entre los puntos de datos, as como a identificar
rpidamente los patrones presentes en la distribucin de los datos (ver Figura 4). Los
diagrama de dispersin son tiles cuando se tienen muchos puntos de datos. Si ests
trabajando con un pequeo conjunto de datos un grfico de barras o tabla puede ser una
manera ms efectiva para mostrar la informacin.
Los diagramas de dispersin pueden ayudan a tener una idea de cmo los datos pueden
expresarse, o el grado de comparacin de los datos, as como a identificar rpidamente
los patrones presentes en la distribucin de los datos
6
Figura 4: Un diagrama de dispersin es una buena manera de visualizar relaciones en la
data.
7
Grficos de Torta
Hay mucho debate en torno al valor de los grficos de torta, los cuales son usados para
comparar las partes de uno todo. Sin embargo, pueden ser difciles de interpretar debido a
que el ojo humano tiene dificultad para estimar reas y comparar ngulos visuales. Otro
desafo al usar grficos de torta para anlisis, es la dificultad al comparar trozos de la torta,
los cuales son similares en tamao pero no se encuentran uno al lado del otro. Si decides
usar grficos de torta, estos son ms efectivos cuando existen componentes limitados y
cuando el texto y los porcentajes estn incluidos para describir el contenido. Al proveer
informacin adicional, los consumidores no tienen que adivinar el significado y el valor de
cada trozo en el pie. Si escoges usar un grfico de torta, los trozos deberan ser un
porcentaje del total. (Ver figura 6).
8
paneles para pantallas ms pequeas o dispositivos mviles. Otros grficos pueden proveer
una mejor forma para representar la misma informacin en un espacio ms reducido. (Ver
figura 7)
Los grficos de tortas son ms efectivos cuando tienen componentes limitados y cuando los
textos y porcentajes estn incluidos al describir el contenido.
Por su puesto, hay muchos otros tipos de grficos que pueden ser usados para presentar
datos y resultados de analtica. La seleccin del grfico, usualmente, depender del nmero
de categoras y medidores (o dimensiones) que desea visualizar. Siguiendo las
recomendaciones presentadas aqu y comprendiendo los ejemplos, puede intentar
diferentes tipos de visualizaciones y probarlas con su audiencia, para asegurarse de
transmitir la informacin correcta.
9
Visualizando Big data
El visualizar una gran cantidad de informacin trae nuevos desafos, debido a la velocidad,
tamao y diversidad de los datos que debe tomarse en cuenta. La cardinalidad de las
columnas que estas intentando visualizar debera ser considerada tambin. Una de las
definiciones ms comunes de Big Data, es que es de tal volumen, variedad y velocidad que
una organizacin debe moverse ms all de su zona de comodidad, tecnolgicamente, para
derivar en inteligencia que lleve a tomar decisiones efectivas.
Un desafo, cuando se trabaja con big data, es el cmo se muestran los resultados de la
exploracin de datos y anlisis de una forma entendible y que no sea abrumadora. Quizs
necesitars una nueva forma de mirar los datos que se colapsan y condensan los resultados
en una forma intuitiva pero que siga mostrando los grficos y tablas que los tomadores de
decisiones estn acostumbrados a ver. Quizs tambin necesitars los resultados
disponibles rpidamente en dispositivos mviles, y dar a los usuarios la habilidad de
explorar fcilmente los datos en tiempo real.
Un desafo, cuando se trabaja con big data, es el cmo se muestran los resultados de
la exploracin de datos y anlisis de una forma entendible y que no sea abrumadora.
Cuando trabajamos con cantidades masivas de datos, puede ser difcil elegir
inmediatamente cul es la mejor manera de visualizarlos. La capacidad de autocharting en
SAS Visual Analytics revisa los datos que quieres examinar y luego, basndose en la
cantidad y tipo de datos, los presenta en la visualizacin ms apropiada. Esta inteligencia
de autocharting ayuda a los analistas de negocios y usuarios no tcnicos a visualizar
fcilmente sus datos. Ellos pueden armar jerarquas durante el proceso, explorar datos de
forma interactiva y mostrar los datos de distintas maneras para responder a preguntas
especficas o resolver problemas sin tener que estar dependiendo de asistencias tcnicas
constantes, desde el equipo de tecnologa, que cambien las formas de ver la informacin.
10
Adems, las explicaciones "Qu significa eso" de SAS Visual Analytics muestra informacin
acerca del anlisis que ha sido ejecutado, e identifica y explica las relaciones entre las
variables que son mostradas (ver figura 8). Esto hace fcil los anlisis y la creacin de
visualizacin de datos, incluso para aquellos sin experiencia tcnica o analtica.
La capacidad de autocharting en SAS Visual Analytics revisa los datos que quieres examinar y
luego, basndose en la cantidad y tipo de datos, los presenta en la visualizacin ms apropiada
Por ejemplo, qu sucede si tienes un billn de filas en un set de datos y quieres crear un
grfico de dispersin de dos medidas? El usuario que trate de ver un billn de puntos en un
grfico tendr un grave problema de visualizacin, al intentar ver tantos puntos. Y la
aplicacin que crea este grfico no ser capaz de graficar un billn de puntos de una
manera apropiada o eficiente. Una solucin en potencia es usar "binning" (la agrupacin
total de datos) en ambos ejes para que as puedas visualizar efectivamente grandes
volmenes de datos (ver figura 8).
Las box plots son otro ejemplo de cmo los volmenes de datos pueden afectar el cmo la
visualizacin es mostrada. Una box plot es una muestra grfica de cinco estadgrafos (El
mnimo, el cuartil ms bajo, media, el cuartil superior, y el mximo) que resume la
distribucin de un set de datos. El cuartil ms bajo est representado por el borde inferior
de la caja, y el cuartil superior est representado por el borde superior de la caja. La
mediana est representada por una lnea central que divide la caja en secciones. Los
valores ms extremos estn representados por lneas que se extienden fuera de los lmites
de la caja. Normalmente, esto se muestra de manera correcta cuando existen grandes
volmenes de datos (ver figura 9)
A menudo, las cajas de puntos son usadas para entender los valores atpicos en los datos.
Generalmente, la cantidad de valores atpicos pueden ser representados de 1 a 5% de la
cantidad total de datos. Con set de datos de tamaos tradicionales, ver esta proporcin de
datos no es difcil de hacer. Sin embargo, cuando ests trabajando con masivas cantidades
de datos, ver de 1 a 5% es un gran desafo.
Por ejemplo, si estuvieras trabajando con un billn de filas de datos, los valores atpicos
representaran 10 millones de puntos de datos, y visualizar 10 millones de puntos de datos
puede ser dificultoso. En la figura 9, se encuentra una categora y dos medidas. Para
11
visualizar los valores atpicos significara graficar 20 millones de puntos de valores atpicos.
Si juntas los resultados, y los muestras en una caja de puntos con lneas, puedes ver la
distribucin de los datos y ver los valores atpicos - todos calculados en big data.
Figura 8: SAS Visual Analytics provee autocharting y avisos de que significan para ayudar a
usuarios no especializados a crear y entender la visualizacin de datos. El aviso que significan
muestra que la correlacione mostrada en la box plot vertical indica una fuerte relacin lineal en el
ratio entre el representante de ventas y la satisfaccin del vendedor.
12
Variedades Diferentes de Datos (semi-estructurada y no estructurada)
SAS Visual Analytics lleva el concepto de nubes de palabras un paso ms adelante. Toma
ventaja de la taxonoma y ontologas para crear asociaciones y as organizar palabras en
temas basados en cmo sern usadas las palabras. SAS Visual Analytics y su nube de
palabras muestra los temas ms mencionados en el da, extrados de este anlisis del texto.
Los usuarios finales pueden hacer drill down con un click en un tema para ver exactamente
que palabras o frases abarcan un tema en particular.
Figura 10: la nube de palabras muestra palabras o frases asociadas con un tema.
Por ejemplo, puedes usar el tema nube para categorizar los comentarios en twitter de los
consumidores sobre tus productos o servicios y luego hacer click en un tema para hacer
drill down y as ver los comentarios reales en el texto.
13
Otra tcnica de visualizacin que puede ser usada para datos semi estructurados y no
estructurados son los diagramas de redes. Los diagramas de redes muestran relaciones en
forma de nodos (que muestran los actores individuales en la red) y las cuerdas (que
representan relaciones entre los individuos como amistad, parentesco, organizaciones,
relaciones de negocios, etc.).Estas redes son usualmente representadas en un diagrama
donde los nodos, simbolizados como puntos y las cuerdas son representadas como lneas.
Los diagramas de redes pueden ser utilizados en muchas aplicaciones y disciplinas. Por
ejemplo, las empresas analizan las redes sociales para comprender sus interacciones con
los clientes, mientras que las organizaciones de contrainteligencia y el cumplimiento de la
ley pueden mapear una organizacin clandestina o encubierta como un anillo de espionaje,
una organizacin del crimen o una banda callejera. Tambin puedes superponer el
diagrama de redes sobre un mapa, por ejemplo, para mostrar la relacin o ventas de
productos a travs de las reas geogrficas (ver figura 11). Las nubes de palabras y los
diagramas de red estn actualmente disponibles en soluciones como SAS Text Miner y SAS
Social Media Analytics.
Velocidad de visualizacin
14
Figura 11: El diagrama de redes explora relaciones sin datos, incluyendo conexiones entre
reas geogrficas.
Figura 12: En esta matriz de correlacin los cuadros ms oscuros indican una fuerte
correlacin; los ms claros indican correlacin dbil. Usted puede hacer doble click en un
cuadro para obtener ms detalles.
15
Una matriz de correlacin combina Big Data con tiempo de respuesta rpido, identificando
rpidamente las millones o billones de variables que estn relacionadas. Tambin muestra
cuan fuerte es la relacin entre las variables.
Figura 13: Alta cardinalidad en un grfico de barras con Big Data puede dificultar la
comprensin.
La cardinalidad cobra importancia en el Big Data por que los datos pueden tener varios
valores nicos por columna. El ejemplo en la figura 13 muestra solo 128 ciudades nicas.
Sin embargo, como no se pueden ver las etiquetas de cada barra, el grfico se vuelve
menos significativo. Imagine si tuviera un milln de barras! Sera imposible de verlos todos.
SAS ha adoptado un mtodo para lidiar con la alta cardinalidad en SAS Visual Analytics,
los grficos de barras proveen
informacin y capacidad de hacer
zoom dentro de la barra y permite a
los consumidores de informacin
desplazarse a lo largo de todo el
grfico. El nivel de zoom tambin
puede ser controlado. Si compara la
figura 13 y 14, es fcil ver que la
figura 14 presenta la informacin
ms claramente.
Figura 14: Este grfico de barras de eje
de visin general muestra la
cardinalidad en esta Big Data ms
claramente. Usted puede desplazarse
fcilmente por todo el grafico.
16
Filtrado Big Data
Cuando trabajamos sobre grandes cantidades de datos, ser capaz de filtrarla fcilmente es
importante. Qu pasara si usted solo quisiera ver informacin sobre cierta regin, lnea
de producto u otra variable? SAS Visual Analytics tiene capacidades de filtrado que hace
fcil refinar la informacin que uno ve. Simplemente se agrega una medida al panel de filtros
o se selecciona una que ya est all y luego se selecciona o deselecciona los tems que uno
quiera filtrar.
17
La incorporacin de una segunda medida resulta en un mapa de calor (figura 16) o en un
grfico de dispersin. (Figura 4).
Figura 16: Con autocharting, dos mediciones resultan reflejadas en un mapa de calor
(izquierda) o en un grfico de dispersin.
18
Una categora de datos se puede clasificar en una de tres tipos diferentes: standard, por
fecha o geogrfica. Cuando la categora es standard, mostrar un recuento de la frecuencia
de la informacin (Figura 17). Si la categora es por fecha, entonces ser requerida tambin
una medida y se mostrar un grfico de lneas (Figuras 1 y 2). Si la categora es geogrfica,
entonces se mostrar un mapa (Figure 18).
19
En SAS Visual Analytics, el autocharting inteligente produce la mejor visual basada en
qu informacin se arrastra y suelta en la paleta visual. Cuando se est primero
explorando un nuevo conjunto de datos, los autocharts son tiles porque proporcionan
una vista rpida de ellos.
El autocharting en SAS Visual Analytics tiene en cuenta la cardinalidad de los datos y ajusta
las imgenes en consecuencia a ello. Utilizando la capa visual, en la Figura 19 como
ejemplo, la cardinalidad de la columna " tipo de producto " era 355. Autocharting comprueba
la cardinalidad de la columna seleccionada y automticamente provee de un eje de barra
de resumen porque la cardinalidad se consider alta. El eje de visin es una opcin que se
puede activar y desactivar cuando se desee.
rboles de decisin
Los rboles de decisin intentan encontrar relaciones robustas entre los valores de entrada
y los valores establecidos como objetivo en un grupo de observaciones que forman un
conjunto de datos. Cuando el anlisis identifica un conjunto de valores de entrada teniendo
una fuerte relacin con un valor objetivo, a continuacin, todos estos valores se agrupan en
un contenedor que se convierte en una rama del rbol de decisin. Una relacin fuerte se
20
define como aquella donde el conocimiento del valor de una entrada mejora la capacidad
de predecir el valor objetivo.
Digamos que Ud. quiere entender mejor lo que impulsa la satisfaccin de sus proveedores
y tal vez incluso la forma de influir en ella en el futuro. Al seleccionar la visualizacin del
rbol de decisin, slo tiene que arrastrar y soltar de satisfaccin de proveedores, y luego
aadir cualquier otra variable que cree que podra influir en l, como: Clasificacin de
representante de ventas, Inversin en Marketing y Rating de proveedores, como se muestra
en la Figura 20 y 21.
Figura 20: Parte de un rbol de decisin. En la parte superior, podemos ver que el "Rating
de representante de ventas" parece ser la mejor variable explicativa para describir el
impacto de Satisfaccin de los proveedores.
El algoritmo del rbol de decisin indicara inmediatamente cual variable tiene la mayor
influencia en la satisfaccin de los proveedores (en este caso es el Rating de representante
de ventas) y qu valor tiene el mayor impacto (57%). El siguiente punto de ramificacin (ver
la Figura 21) muestra el segundo factor ms importante (Inversin en Marketing) y as
sucesivamente a medida que va bajando el rbol.
Cada rama del rbol incrementalmente refina los diversos elementos que afectan a nuestro
anlisis, y segmentamos que nuestros datos de acuerdo a los distintos puntos de
21
ramificacin, hasta que nos encontramos con el siguiente segmento potencial que
queremos investigar ms a fondo (ver Figura 21).
Mientras que los usuarios de negocios sin experiencia en anlisis avanzados pueden utilizar
esta poderosa herramienta, los usuarios avanzados tambin tienen acceso a muchos
parmetros para que puedan as, afinar an ms este anlisis (Lado derecho de la Figura
21)
Figura 21: Muestra una parte de un rbol de decisin. En la seccin inferior, podemos ver
los datos segmentados de acuerdo a los diferentes puntos de ramificacin, y en el lado
izquierdo podemos ver los diferentes ajustes para los parmetros, disponibles en modo
experto.
22
Cuando se agregan medidas adicionales al forecast (como se muestra en la figura 23),
ocurren 3 cosas en SAS Visual Analytics:
1. Cada variable es evaluada para determinar si influencia el forecast o no. Las variables
que presuntamente puedan ser influyentes, son agregadas a la parte inferior de la pantalla
para propsitos de simulacin.
2. Cuando se encuentran las variables influyentes, se recalcula el forecast y se refina. Como
puede ver, el intervalo de confianza (lneas celestes) alrededor del forecast en la figura 23
es mucho ms delgado que en la figura 22.
3. Los usuarios pueden manipular los valores de las variables influyentes para ver el
impacto potencial en el forecast, realizando simulaciones.
Figura 22: con las capacidades automticas del forecasting, SAS Visual Analytics elige los
algoritmos de forecasting ms apropiados para los datos seleccionados. El botn qu
significa? le provee explicaciones de las funciones analticas y las correlaciones de los
datos, as los usuarios no especializados pueden entender qu significan los datos.
23
Figura 23: adicionando mediciones, esos factores delineados son evaluados por su
potencial impacto en el forecast, el forecast es recalculado acorde a esto y los usuarios
pueden usar estos valores adicionales para realizar simulaciones.
Mviles
El creciente uso de dispositivos mviles por parte de los empleados significa que las
empresas necesitan entregar informacin de la compaa hacia esos dispositivos en todo
momento y desde cualquier parte. SAS Virtual Analytics viene con SAS Mobile BI para
permitirle a las empresas dar a sus empleados acceso mvil y de vanguardia a la
inteligencia de negocios. Con SAS Mobile BI, los empleados pueden ver una amplia gama
de reportes de la empresa generados por Business Intelligence en sus dispositivos mviles,
como indicadores claves de rendimiento y cuadros de mando. En lugar de tener que esperar
hasta volver a la oficina, los usuarios de dispositivos mviles pueden obtener de forma fcil
y rpida una comprensin ms profunda y analtica del rendimiento del negocio.
24
Conclusin
Con SAS Visual Analytics, un gran nmero de usuarios (incluyendo aquellos con limitado
conocimiento de anlisis de datos) pueden ver e interactuar rpidamente con reportes a
travs de la web o de dispositivos mviles, mientras que IT mantiene el control de los datos
subyacentes y la seguridad.
El efecto neto es la habilidad de acelerar el ciclo de vida del anlisis y realizar el proceso
en forma ms frecuente y con ms datos. Los usuarios pueden rpidamente ver ms
opciones, hacer ms preguntar, tomar decisiones ms precisas y tener xito ms rpido
que nunca.
25