Está en la página 1de 19

0

Anlisis con Big


Data

2-1-2016

HDC BPO Services


Integrantes:
De la Cruz Reyes Steven
Sanchez Calancha Katherine
Zamudio Martinez Luis Orlando
Docente:
Retegui Morales Juan Carlos
Curso:
Auditoria y Seguridad de la Informacin

UNIVERSIDAD NACIONAL TECNOLOGICA


DE LIMA
SUR
ANLISIS
CON BIG
DATA | HDC BPO Services

CONTENIDO
INTRODUCCIN ........................................................................................................................................ 2
ANLISIS .................................................................................................................................................... 3
1.1.

QUE ES BIG DATA? ................................................................................................................ 3

1.2.

RESEA HISTRICA ................................................................................................................. 3

1.3.

TIPOS DE DATOS ..................................................................................................................... 4

1.4.

LAS CINCO V ............................................................................................................................ 5

1.5.

TIPOS DE INFORMACIN ....................................................................................................... 6

1.6.

COMPONENTES DE UNA PLATAFORMA BIG DATA ............................................................. 6

1.7.

BIG DATA Y EL CAMPO DE INVESTIGACIN....................................................................... 10

1.8.

ARQUITECTURA BIG DATA ................................................................................................... 11

ANLISIS APLICATIVO ............................................................................................................................ 13


2.1.

EMPRESA ................................................................................................................................ 13

2.2.

HERRAMIENTA MICROSTRATEGY ....................................................................................... 13

2.3.

ANALISIS DE BIG DATA CON LA HERRAMIENTA MICROSTRATEGY ................................. 14

CONCLUSIONES ...................................................................................................................................... 18

Ilustracin 1- Tipos de datos de Big Data ...................................................................................... 4


Ilustracin 2- Ejemplo de HDFS ..................................................................................................... 7
Ilustracin 3- Ejemplo de MapReduce .......................................................................................... 7
Ilustracin 4- Flujo de trabajo en Oozie ........................................................................................ 9
Ilustracin 5- Arquitectura Big Data por capas ........................................................................... 12

ANLISIS CON BIG DATA | HDC BPO Services

INTRODUCCIN
El primer cuestionamiento que posiblemente llegue a su mente en este momento es Qu
es Big Data y porqu se ha vuelto tan importante? pues bien, en trminos generales
podramos referirnos como a la tendencia en el avance de la tecnologa que ha abierto las
puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es
utilizada para describir enormes cantidades de datos (estructurados, no estructurados y
semi-estructurados) que tomara demasiado tiempo y sera muy costoso cargarlos a un
base de datos relacional para su anlisis. De tal manera que, el concepto de Big Data aplica
para toda aquella informacin que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales.
Adems del gran volumen de informacin, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin,
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal forma que
las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo
demasiado rpida para lograr obtener la informacin correcta en el momento preciso.
Estas son las caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante
y relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se
usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en especfico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la otra
para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas sin
embargo, el resultado no ser el ms ptimo.

ANLISIS CON BIG DATA | HDC BPO Services

ANLISIS
1.1. QUE ES BIG DATA?
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas.

1.2. RESEA HISTRICA


Los seres humanos estamos creando y almacenando informacin constantemente y cada
vez ms en cantidades astronmicas. Se podra decir que si todos los bits y bytes de datos
del ltimo ao fueran guardados en CD's, se generara una gran torre desde la Tierra hasta
la Luna y de regreso.
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas
industrias, las compaas mantienen grandes cantidades de datos transaccionales,
reuniendo informacin acerca de sus clientes, proveedores, operaciones, etc., de la
misma manera sucede con el sector pblico. En muchos pases se administran enormes
bases de datos que contienen datos de censo de poblacin, registros mdicos, impuestos,
etc., y si a todo esto le aadimos transacciones financieras realizadas en lnea o por
dispositivos mviles, anlisis de redes sociales (en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y
videos), ubicacin geogrfica mediante coordenadas GPS, en otras palabras, todas
aquellas actividades que la mayora de nosotros realizamos varias veces al da con
nuestros "Smartphone", estamos hablando de que se generan alrededor de 2.5
quintillones de bytes diariamente en el mundo.
1 quintilln = 10^30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco, entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el
planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5 billones
para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos conectados a la
red a escala mundial, esto conllevara a que el trfico global de datos mviles alcance 10.8
Exabytes mensuales o 130 Exabytes anuales. Este volumen de trfico previsto para 2016
equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a mquina
(M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades de datos
tambin es muy importante. Sensores digitales instalados en contenedores para
determinar la ruta generada durante una entrega de algn paquete y que esta
informacin sea enviada a las compaas de transportacin, sensores en medidores
elctricos para determinar el consumo de energa a intervalos regulares para que sea
enviada esta informacin a las compaas del sector energtico.

ANLISIS CON BIG DATA | HDC BPO Services

Se estima que hay ms de 30 millones de sensores interconectados en distintos sectores


como automotriz, transportacin, industrial, servicios, comercial, etc. y se espera que este
nmero crezca en un 30% anualmente.

1.3. TIPOS DE DATOS


Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se
debe analizar?, sin embargo, el cuestionamiento debera estar enfocado hacia qu
problema es el que se est tratando de resolver?
Si sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificacin nos ayudara a entender mejor su representacin, aunque es muy probable
que estas categoras puedan extenderse con el avance tecnolgico.
Ilustracin 1- Tipos de datos de Big Data

Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.

Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten


conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores
que capturan algn evento en particular (velocidad, temperatura, presin, variables
meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a
travs de redes almbricas, inalmbricas o hbridas a otras aplicaciones que traducen
estos eventos en informacin significativa.

Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones


registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn
disponibles en formatos tanto semi-estructurados como no estructurados.

Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo de


la retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia,
los datos biomtricos han sido informacin importante para las agencias de
investigacin.

Human Generated: Las personas generamos diversas cantidades de datos como la


informacin que guarda un call center al establecer una llamada telefnica, notas de
voz, correos electrnicos, documentos electrnicos, estudios mdicos, etc.
ANLISIS CON BIG DATA | HDC BPO Services

1.4. LAS CINCO V


Es comn que cuando se hable de Big Data se haga referencia a grandes cantidades de
datos. Pero es ms que eso. Para describir mejor lo que representa, frecuentemente se
habla de las cinco V -IBM fue la que empez definiendo tres V y luego se han aadido
las otras dos dependiendo de la fuente que definen perfectamente los objetivos que
este tipo de sistemas buscan conseguir:
Volumen: un sistema Big Data es capaz de almacenar una gran cantidad de datos

mediante infraestructuras escalables y distribuidas. En los sistemas de


almacenamiento actuales empiezan a aparecer problemas de rendimiento al tener
cantidades de datos del orden de magnitud de petabytes o superiores. Big Data est
pensado para trabajar con estos volmenes de datos.
Velocidad: una de las caractersticas ms importantes es el tiempo de procesado y

respuesta sobre estos grandes volmenes de datos, obteniendo resultados en


tiempo real y procesndolos en tiempos muy reducidos. Y no slo se trata de
procesar sino tambin de recibir, hoy en da las fuentes de datos pueden llegar a
generar mucha informacin cada segundo, obligando al sistema receptor a tener la
capacidad para almacenar dicha informacin de manera muy veloz.
Variedad: las nuevas fuentes de datos proporcionan nuevos y distintos tipos y

formatos de informacin a los ya conocidos hasta ahora -como datos no


estructurados-, que un sistema Big Data es capaz de almacenar y procesar sin tener
que realizar un pre-proceso para estructurar o indexar la informacin.
Variabilidad: las tecnologas que componen una arquitectura Big Data deben ser

flexibles a la hora de adaptarse a nuevos cambios en el formato de los datos -tanto


en la obtencin como en el almacenamiento- y su procesado. Se podra decir que la
evolucin es una constante en la tecnologa de manera que los nuevos sistemas
deben estar preparados para admitirlos.
Valor: el objetivo final es generar valor de toda la informacin almacenada a travs

de distintos procesos de manera eficiente y con el coste ms bajo posible.


De esta manera, un sistema Big Data debe extraer valor -en forma de nueva
informacin, por ejemplo- sobre grandes volmenes de datos, de la manera ms rpida
y eficiente posible, adaptndose a todos los formatos -estructurados o no- existentes y
futuros.

ANLISIS CON BIG DATA | HDC BPO Services

1.5. TIPOS DE INFORMACIN


Se puede hablar de una clasificacin de los tipos de datos segn sea su naturaleza u
origen que tambin ayuda a entender mejor el porqu de la evolucin de los sistemas
de explotacin de la informacin hacia Big Data:

Datos estructurados: es informacin ya procesada, filtrada y con un formato


estructurado. Es el tipo de datos que ms se usan hoy en da.

Datos semi-estructurados: es informacin procesada y con un formato definido


pero no estructurado. De esta manera se puede tener la informacin definida
pero con una estructura variable.
Dos ejemplos son las bases de datos basadas en columnas y los ficheros con
informacin en un lenguaje de etiquetas (HTML o XML).

Datos no estructurados: es informacin sin procesar y que puede tener cualquier


estructura.
Se puede encontrar cualquier formato: texto, imagen, vdeo, cdigo, etc. Los
directorios de logs de aplicaciones o la informacin colgada en las redes sociales
son buenos ejemplos de datos no estructurados.

La manera de trabajar hoy en da implica almacenar solamente datos de tipo


estructurado o semi- estructurado, obligando a pasar por un proceso de filtrado y
transformacin los datos no estructurados.
Este proceso radica en un coste y en una prdida inevitable de datos que cada vez es
ms difcil ignorar, ya que va totalmente en contra de las cinco V comentadas
anteriormente y que un sistema de explotacin de la informacin busca obtener especialmente de la variedad, variabilidad y velocidad de recoleccin de informacin.

1.6. COMPONENTES DE UNA PLATAFORMA BIG DATA


Las organizaciones han atacado esta problemtica
desde diferentes ngulos. Todas esas montaas de
informacin han generado un costo potencial al no
descubrir el gran valor asociado.
Desde luego, el ngulo correcto que actualmente tiene el liderazgo en trminos de
popularidad para analizar enormes cantidades de informacin es la plataforma de cdigo
abierto Hadoop.
Hadoop est inspirado en el proyecto de Google File System (GFS) y en el paradigma de
programacin MapReduce, el cual consiste en dividir en dos tareas (mapper reducer)
para manipular los datos distribuidos a nodos de un clster logrando un alto paralelismo
en el procesamiento, Hadoop est compuesto de tres piezas:

ANLISIS CON BIG DATA | HDC BPO Services

A. Hadoop Distributed File System (HDFS)


Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques
y distribuidas a travs del clster; de esta manera, las funciones map y reduce pueden
ser ejecutadas en pequeos subconjuntos y esto provee de la escalabilidad necesaria
para el procesamiento de grandes volmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS.
Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena
en un diferente rack para lograr redundancia.
Ilustracin 2- Ejemplo de HDFS

B. Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a
dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un
conjunto de datos y lo bueno convierte en otro conjunto, donde los elementos
individuales son separados en tuplas (pares de llave/valor).
El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas
en un conjunto ms pequeo de las mismas. Una fase intermedia es la denominada
Shuffle la cual obtiene las tuplas del proceso map y determina que nodo procesar
estos datos dirigiendo la salida a una tarea reduce en especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Ilustracin 3- Ejemplo de MapReduce

ANLISIS CON BIG DATA | HDC BPO Services

C. Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan varios
subproyectos de Hadoop, proyectos relacionados:
- Avro

Es un proyecto de Apache que provee servicios de serializacin. Cuando se guardan


datos en un archivo, el esquema que define ese archivo es guardado dentro del
mismo; de este modo es ms sencillo para cualquier aplicacin leerlo
posteriormente puesto que el esquema est definido dentro del archivo.
- Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un modelo de
almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes
volmenes de datos en forma distribuida. Twitter es una de las empresas que utiliza
Cassandra dentro de su plataforma.
- Chukwa

Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit para
desplegar los resultados del anlisis y monitoreo.
- Flume

Es la tarea principal es dirigir los datos de una fuente hacia alguna otra localidad,
en este caso hacia el ambiente de Hadoop. Existen tres entidades principales:
sources, decorators y sinks.
Un source es bsicamente cualquier fuente de datos, sink es el destino de una
operacin en especfico y un decorator es una operacin dentro del flujo de datos
que transforma esa informacin de alguna manera, como por ejemplo comprimir o
descomprimir los datos o alguna otra operacin en particular sobre los mismos.
- HBase

Es una base de datos columnar (column-oriented database) que se ejecuta en HDFS.


HBase no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada
tabla contiene filas y columnas como una base de datos relacional.
HBase permite que muchos atributos sean agrupados llamndolos familias de
columnas, de tal manera que los elementos de una familia de columnas son
almacenados en un solo conjunto. Facebook utiliza HBase en su plataforma desde
Noviembre del 2010.
- Hive

Es una infraestructura de data warehouse que facilita administrar grandes


conjuntos de datos que se encuentran almacenados en un ambiente distribuido.
Hive tiene definido un lenguaje similar a SQL llamado Hive Query Language(HQL),
estas sentencias HQL son separadas por un servicio de Hive y son enviadas a
procesos MapReduce ejecutados en el cluster de Hadoop.

ANLISIS CON BIG DATA | HDC BPO Services

Fue donado por IBM a la comunidad de software libre. Query Language for
Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que
permite la explotacin de datos en formato JSON diseado para procesar grandes
volmenes de informacin. Para explotar el paralelismo, Jaql reescribe los queries
de alto nivel (cuando es necesario) en queries de "bajo nivel" para distribuirlos
como procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y reduce para
reducir el tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql
posee de una infraestructura flexible para administrar y analizar datos
semiestructurados como XML, archivos CSV, archivos planos, datos relacionales,
etc.
- Lucene

Es un proyecto de Apache bastante popular para realizar bsquedas sobre textos.


Lucene provee de libreras para indexacin y bsqueda de texto.
Ha sido principalmente utilizado en la implementacin de motores de bsqueda
(aunque hay que considerar que no tiene funciones de "crawling" ni anlisis de
documentos HTML ya incorporadas).
El concepto a nivel de arquitectura de Lucene es simple, bsicamente los
documentos son dividos en campos de texto (fields) y se genera un ndice sobre
estos campos de texto. La indexacin es el componente clave de Lucene, lo que le
permite realizar bsquedas rpidamente independientemente del formato del
archivo, ya sean PDFs, documentos HTML, etc.
- Oozie

Oozie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la


coordinacin entre cada uno de los procesos. Permite que el usuario pueda definir
acciones y las dependencias entre dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico
llamado Directed Acyclical Graph (DAG), y es acclico puesto que no permite ciclos
en el grafo; es decir, solo hay un punto de entrada y de salida y todas las tareas y
dependencias parten del punto inicial al punto final sin puntos de retorno.
Un ejemplo de un flujo de trabajo en Oozie se representa de la siguiente manera:
Ilustracin 4- Flujo de trabajo en Oozie

ANLISIS CON BIG DATA | HDC BPO Services

10

Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop
enfocarse ms en analizar todos los conjuntos de datos y dedicar menos
tiempo en construir los programas MapReduce. Tal como su nombre lo indica
al igual que cualquier cerdo que come cualquier cosa, el lenguaje PigLatin fue
diseado para manejar cualquier tipo de dato y Pig es el ambiente de ejecucin
donde estos programas son ejecutados, de manera muy similar a la relacin
entre la mquina virtual de Java (JVM) y una aplicacin Java.
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por
aplicaciones para asegurarse de que los procesos a travs de un cluster sean
serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se
persiste en memoria en los servidores ZooKeeper llamado znode. Este archivo
znode puede ser actualizado por cualquier nodo en el cluster, y cualquier nodo
puede registrar que sea informado de los cambios ocurridos en ese znode; es
decir, un servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a travs de un
cluster distribuido actualizando su estatus en cada znode, el cual informar al
resto del cluster sobre el estatus correspondiente de algn nodo en especfico.
Una plataforma de Big Data consiste de todo un ecosistema de proyectos que
en conjunto permiten simplificar, administrar, coordinar y analizar grandes
volmenes de informacin.

1.7. BIG DATA Y EL CAMPO DE INVESTIGACIN


Los cientficos e investigadores han analizado datos desde ya hace mucho tiempo, lo que
ahora representa el gran reto es la escala en la que estos son generados.
Esta explosin de "grandes datos" est transformando la manera en que se conduce una
investigacin adquiriendo habilidades en el uso de Big Data para resolver problemas
complejos relacionados con el descubrimiento cientfico, investigacin ambiental y
biomdica, educacin, salud, seguridad nacional, entre otros.
De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de
una solucin de Big Data se encuentran:
El Language, Interaction and Computation Laboratory (CLIC) en conjunto con la
Universidad de Trento en Italia, son un grupo de investigadores cuyo inters es el
estudio de la comunicacin verbal y no verbal tanto con mtodos computacionales
como cognitivos.
Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase
para analizar datos producidos por los investigadores de The Cancer Genome
Atlas(TCGA) para soportar las investigaciones relacionadas con el cncer.

ANLISIS CON BIG DATA | HDC BPO Services

11

El PSG College of Technology, India, analiza mltiples secuencias de protenas para


determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del
algoritmo y el paralelismo computacional de Hadoop mejora la velocidad y exactitud de
estas secuencias.
El Instituto de Tecnologa de la Universidad de Ontario (UOIT) junto con el Hospital de
Toronto utilizan una plataforma de big data para anlisis en tiempo real de IBM (IBM
InfoSphere Streams), la cual permite monitorear bebs prematuros en las salas de
neonatologa para determinar cualquier cambio en la presin arterial, temperatura,
alteraciones en los registros del electrocardiograma y electroencefalograma, etc., y as
detectar hasta 24 horas antes aquellas condiciones que puedan ser una amenaza en la
vida de los recin nacidos.
Los laboratorios Pacific Northwest National Labs PNNL) utilizan de igual manera IBM
InfoSphere Streams para analizar eventos de medidores de su red elctrica y en tiempo
real verificar aquellas excepciones o fallas en los componentes de la red, logrando
comunicar casi de manera inmediata a los consumidores sobre el problema para
ayudarlos en administrar su consumo de energa elctrica.
La esclerosis mltiple es una enfermedad del sistema nervioso que afecta al cerebro y la
mdula espinal. La comunidad de investigacin biomdica y la Universidad del Estado
de Nueva York (SUNY) estn aplicando anlisis con big data para contribuir en la
progresin de la investigacin, diagnstico, tratamiento, y quizs hasta la posible cura
de la esclerosis mltiple.
Con la capacidad de generar toda esta informacin valiosa de diferentes sistemas, las
empresas y los gobiernos estn lidiando con el problema de analizar los datos para dos
propsitos importantes: ser capaces de detectar y responder a los acontecimientos
actuales de una manera oportuna, y para poder utilizar las predicciones del aprendizaje
histrico.
Esta situacin requiere del anlisis tanto de datos en movimiento (datos actuales) como
de datos en reposo (datos histricos), que son representados a diferentes y enormes
volmenes, variedades y velocidades.

1.8. ARQUITECTURA BIG DATA


La arquitectura Big Data est compuesta generalmente por cinco capas: recoleccin
de datos, almacenamiento, procesamiento de datos, visualizacin y administracin.
Esta arquitectura no es nueva, sino que ya es algo generalizado en las soluciones de
Business Intelligence que existen hoy en da. Sin embargo, debido a las nuevas
necesidades cada uno de estos pasos ha ido adaptndose y aportando nuevas
tecnologas a la vez que abriendo nuevas oportunidades.

ANLISIS CON BIG DATA | HDC BPO Services

12

En la Ilustracin 5, se puede observar el flujo que la informacin tendra en una


arquitectura Big Data, con orgenes de datos diversos -bases de datos, documentos o
datos recibidos en streaming que se reciben y almacenan a travs de la capa de
recoleccin de datos, con herramientas especficamente desarrolladas para tal
funcin. Los datos recibidos pueden procesarse, analizarse y/o visualizarse tantas
veces como haga falta y lo requiera el caso de uso especfico.
Ilustracin 5- Arquitectura Big Data por capas

ANLISIS CON BIG DATA | HDC BPO Services

13

ANLISIS APLICATIVO
2.1. EMPRESA
Hdc es una empresa multinacional con diecisiete aos de
experiencia en el campo de la consultora de negocios e IT y
que cuenta con ms de 10.000 profesionales de distintos
sectores. Fundada en Per el ao 1996, actualmente opera
en pases de Latinoamrica.
Est dedicada a ofrecer soluciones de negocio, estrategia y
desarrollo, mantenimiento de aplicaciones tecnolgicas y
outsourcing; cubriendo los sectores de telecomunicaciones,
entidades financieras, industria, utilities & energa, seguros,
administraciones pblicas, media y sanidad.
Hdc cuenta con cinco lneas o unidades de negocio:
Business consulting: se encarga de los proyectos de estrategia corporativa, consultora de
negocio e ingeniera de procesos. Su actividad se centra en el conocimiento sectorial, en la
innovacin de servicios y en la especializacin.
Solutions: se enfoca en la definicin, diseo e implantacin de soluciones tecnolgicas y a
la gestin y operacin de aplicaciones, infraestructuras y procesos de outsourcing. Se busca
el uso de metodologas para aumentar la calidad, traspaso de produccin a centros de alto
rendimiento y para la especializacin funcional y tecnolgica.
Centers: se basa en la utilizacin de alto rendimiento. Gracias a los ms de cuatro aos de
experiencia ya cuenta con la estructura y las capacidades para realizar actividades de forma
industrializada. Tiene centros en Sevilla, Murcia, Alicante, Temuco, San Miguel de Tucumn
y Uberlandia.
Business Process Outsourcing (BPO): se orienta a ofrecer servicios de externalizacin de
procesos de negocio bajo acuerdos de nivel de servicios, facilitando a sus clientes disponer
de mayor capacidad interna para realizar funciones que le aporten ms valor a su negocio.
Initiatives: investiga las posibilidades que ofrece el mercado para abrir nuevos negocios en
los que invertir con sus clientes.
Tambin cuenta con una divisin especializada en el asesoramiento financiero, la FAS
(Financial Advisory Services).

2.2. HERRAMIENTA MICROSTRATEGY


MicroStrategy es el nico gran proveedor de software Business Intelligence que no ha
participado en el festn de adquisiciones y fusiones de los ltimos aos. Gracias a ello, se ha
convertido en el primer proveedor independiente de software Business Intelligence, y sigue
focalizado totalmente en este sector. Por este motivo, y por las funcionalidades de su
plataforma, se trata de una opcin a tener muy en cuenta en cualquier nuevo proyecto
Business Intelligence.

MicroStrategy se fund en 1989, antes incluso que BO, y desde entonces ha construido una
plataforma que cubre todas las necesidades BI empresariales, desde el clsico reporting

ANLISIS CON BIG DATA | HDC BPO Services

14

hasta elaborados y vistosos dashboards, pasando por el anlisis OLAP. Se diferencia de los
grandes proveedores en que su arquitectura es ms clara y homognea. Su plataforma es
realmente una plataforma BI (y no un conglomerado de productos diversos). Bsicamente,
el catlogo de productos de la plataforma Micrstrategy v9 incluye:
Microstrategy Intelligence Server. Se trata del "servidor analtico" que centraliza las
peticiones de los clientes. A este servidor se le pueden aadir funcionalidades a travs de
una serie de mdulos de la plataforma (Microstrategy Report Services, Microstrategy OLAP
Services, Microstrategy Distribution Services, etc.)
Microstrategy Web. Es el entorno interactivo de la plataforma para realizar reporting y
anlisis desde un entorno web.
Microstrategy Desktop. Es la aplicacin Windows que ofrece la funcionalidad BI de la
plataforma, incluyendo el desarrollo, ejecucin y administracin de los proyectos BI (se
complementa con otros productos para las funcionalidades ms tcnicas y administrativas:
Microstrategy Architect, Microstrategy Enterprise Manager, etc.)
Esta plataforma incluye productos y funcionalidades para cubrir cualquier necesidad BI, que
ellos dividen en los que denominan los "5 estilos de BI":
1.
2.
3.
4.
5.

Scorecards y dashboards
Reporting corporativo
Anlisis OLAP
Anlisis avanzado y predictivo
Alertas y notificaciones proactivas

Desde mi punto de vista, las fortalezas fundamentales de Microstrategy son el anlisis OLAP
y sus nuevos e impactantes dashboards.
El anlisis OLAP se realiza a partir de unos "cubos ROLAP virtuales", es decir, que en lugar de
utilizar cubos (tipo Cognos Powerlay), atacan directamente a una base de datos relacional
(tipo BO Web Intelligence). Adems, disponen de una tecnologa de "cubos en-memoria"
para mejorar significativamente el rendimiento y la escalabilidad. De esta manera, consiguen
lo mejor de cada arquitectura. Resumindolo mucho, podramos decir que se trata de un
anlisis OLAP tan sencillo y gil como el de Cognos Powerplay, aunque con la potencia de
una arquitectura ROLAP como la de BO.
Los scorecards y dashboards de Microstrategy emplean la tecnologa flash, y consiguen unos
resultados realmente atractivos. Lo mejor es verlos directamente.
El anlisis OLAP de Microstrategy nicamente permite trabajar con un bloque de
informacin, por lo que si se quieren informes ms elaborados ya se tiene que trabajar con
"documentos". La elaboracin de estos "documentos" (y de los "dashboards") est enfocada
a un usuario algo ms tcnico.

2.3. ANALISIS DE BIG DATA CON LA HERRAMIENTA MICROSTRATEGY


Creacin de Cubos
Tanto SQL definido por el usuario como el Generador de consultas son herramientas de
MicroStrategy que se utilizan como mtodos alternativos para obtener acceso a sus datos
empresariales y crear informes.
SQL definido por el usuario
Es una herramienta de MicroStrategy que le permite escribir sus propias sentencias SQL y
ejecutarlas directamente en un warehouse o almacn de datos operativos, lo que le permite

ANLISIS CON BIG DATA | HDC BPO Services

15

controlar plenamente el acceso a los datos. Tradicionalmente, MicroStrategy Engine se


utiliza para generar cdigo SQL que se ejecute en una base de datos relacional especfica y
obtener resultados para un informe deseado.
Adems de elaborar informes de la manera tradicional, tambin puede utilizar sus propias
sentencias SQL personalizadas para generar informes desde sistemas operacionales
incluidos en un proyecto de MicroStrategy.
Esta capacidad puede ahorrarle tiempo, puesto que no tendr que incluir previamente los
datos en un data mart o en un warehouse. La funcin de SQL definido por el usuario permite
utilizar sus propias sentencias SQL para acceder a los datos de varios orgenes de datos ODBC,
lo que incluye bases de datos relacionales, archivos de Excel y archivos de texto, siempre que
se incluyan en el entorno de MicroStrategy.
Puesto que deber crear sus propias sentencias SQL para elaborar informes con SQL definido
por el usuario, se requiere un conocimiento amplio de cmo crear y usar sentencias SQL.
Para obtener ms informacin sobre la creacin de informes de SQL definido por el usuario,
consulte el captulo sobre consultas de SQL personalizadas de la Gua avanzada de
elaboracin de informes de MicroStrategy.
Generador de consultas
El Generador de consultas le proporciona una interfaz grfica de usuario que le gua en la
generacin de consultas SQL capaces de adaptarse a distintos modelos de datos. El
Generador de consultas le permite ejecutar consultas en orgenes de datos ODBC que no
permiten acomodar con facilidad el modelo de esquema de atributos y hechos. Esto incluye
las bases de datos que consisten en una coleccin de tablas sin formato, en lugar de estar
definidas en tablas de hechos y lookup.
El Generador de consultas es una forma rpida de obtener acceso fcil a los orgenes de
datos ODBC sin tener que escribir cdigo SQL, que es necesario con la herramienta SQL
definido por el usuario. Puede crear consultas para ejecutarlas en tablas de bases de datos
importadas, lo que permite comenzar a elaborar informes y anlisis con MicroStrategy sin
tener que llevar a cabo el paso de creacin del proyecto en el que se modelan esquemas de
atributos y hechos. (Este paso es necesario para el motor ROLAP de MicroStrategy para
definir esquemas de atributos y hechos). Tambin puede importar tablas al Catlogo de
Warehouse de un proyecto mediante el Generador de consultas.
El Generador de consultas permite disponer de un mayor control del cdigo SQL generado
para consultar los sistemas de bases de datos sin tener que poseer conocimientos profundos
sobre cmo crear sentencias SQL. Es fundamental tener un conocimiento bsico de cmo se
utilizan las tablas, las columnas y los joins en las sentencias SQL para crear consultas.

Visualizacin de Estructura de proyecto HDEC

ANLISIS CON BIG DATA | HDC BPO Services

16

Visualizacin de todos los cubos pertenecientes al Proyecto HDEC

Data Set Reporte Pendientes donde se visualiza la cantidad de ventas pendientes por
agencia

Visualizacin de Data Set para el Tablero de Calidad

ANLISIS CON BIG DATA | HDC BPO Services

17

Visualizacin de Tablero de Calidad en el Proyecto HDEC

ANLISIS CON BIG DATA | HDC BPO Services

18

CONCLUSIONES
La naturaleza de la informacin hoy es diferente a la informacin en el pasado. Debido a
la abundancia de sensores, micrfonos, cmaras, escneres mdicos, imgenes, etc. en
nuestras vidas, los datos generados a partir de estos elementos sern dentro de poco el
segmento ms grande de toda la informacin disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podran haber
tomado aos en descubrir por si mismos sin el uso de estas herramientas, debido a la
velocidad del anlisis, es posible que el analista de datos pueda cambiar sus ideas
basndose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta
encontrar el verdadero valor al que se est tratando de llegar.
Como se pudo notar en el presente artculo, implementar una solucin alrededor de Big
Data implica de la integracin de diversos componentes y proyectos que en conjunto
forman el ecosistema necesario para analizar grandes cantidades de datos.
Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente cdigo que
permita administrar cada uno de esos componentes como por ejemplo: manejo de
eventos, conectividad, alta disponibilidad, seguridad, optimizacin y desempeo,
depuracin, monitoreo, administracin de las aplicaciones, SQL y scripts personalizados.
IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM
InfoSphere BigInsights e IBM InfoSphere Streams, adems de su reciente adquisicin
Vivisimo, los cuales estn diseados para resolver este tipo de problemas. Estas
herramientas estn construidas para ser ejecutadas en sistemas distribuidos a gran escala
diseados para tratar con grandes volmenes de informacin, analizando tanto datos
estructurados como no estructurados.
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo recolectadas
del trabajo que se ha realizado internamente en la empresa para casos de uso e industrias
especficas. Estos aplicativos estn implementados dentro de la solucin de manera que
las organizaciones puedan dedicar su tiempo a analizar y no a implementar.

ANLISIS CON BIG DATA | HDC BPO Services

También podría gustarte