Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2-1-2016
CONTENIDO
INTRODUCCIN ........................................................................................................................................ 2
ANLISIS .................................................................................................................................................... 3
1.1.
1.2.
1.3.
1.4.
1.5.
1.6.
1.7.
1.8.
EMPRESA ................................................................................................................................ 13
2.2.
2.3.
CONCLUSIONES ...................................................................................................................................... 18
INTRODUCCIN
El primer cuestionamiento que posiblemente llegue a su mente en este momento es Qu
es Big Data y porqu se ha vuelto tan importante? pues bien, en trminos generales
podramos referirnos como a la tendencia en el avance de la tecnologa que ha abierto las
puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es
utilizada para describir enormes cantidades de datos (estructurados, no estructurados y
semi-estructurados) que tomara demasiado tiempo y sera muy costoso cargarlos a un
base de datos relacional para su anlisis. De tal manera que, el concepto de Big Data aplica
para toda aquella informacin que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales.
Adems del gran volumen de informacin, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin,
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal forma que
las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo
demasiado rpida para lograr obtener la informacin correcta en el momento preciso.
Estas son las caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante
y relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se
usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en especfico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la otra
para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas sin
embargo, el resultado no ser el ms ptimo.
ANLISIS
1.1. QUE ES BIG DATA?
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas.
Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
B. Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a
dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un
conjunto de datos y lo bueno convierte en otro conjunto, donde los elementos
individuales son separados en tuplas (pares de llave/valor).
El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas
en un conjunto ms pequeo de las mismas. Una fase intermedia es la denominada
Shuffle la cual obtiene las tuplas del proceso map y determina que nodo procesar
estos datos dirigiendo la salida a una tarea reduce en especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Ilustracin 3- Ejemplo de MapReduce
C. Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan varios
subproyectos de Hadoop, proyectos relacionados:
- Avro
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit para
desplegar los resultados del anlisis y monitoreo.
- Flume
Es la tarea principal es dirigir los datos de una fuente hacia alguna otra localidad,
en este caso hacia el ambiente de Hadoop. Existen tres entidades principales:
sources, decorators y sinks.
Un source es bsicamente cualquier fuente de datos, sink es el destino de una
operacin en especfico y un decorator es una operacin dentro del flujo de datos
que transforma esa informacin de alguna manera, como por ejemplo comprimir o
descomprimir los datos o alguna otra operacin en particular sobre los mismos.
- HBase
Fue donado por IBM a la comunidad de software libre. Query Language for
Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que
permite la explotacin de datos en formato JSON diseado para procesar grandes
volmenes de informacin. Para explotar el paralelismo, Jaql reescribe los queries
de alto nivel (cuando es necesario) en queries de "bajo nivel" para distribuirlos
como procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y reduce para
reducir el tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql
posee de una infraestructura flexible para administrar y analizar datos
semiestructurados como XML, archivos CSV, archivos planos, datos relacionales,
etc.
- Lucene
10
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop
enfocarse ms en analizar todos los conjuntos de datos y dedicar menos
tiempo en construir los programas MapReduce. Tal como su nombre lo indica
al igual que cualquier cerdo que come cualquier cosa, el lenguaje PigLatin fue
diseado para manejar cualquier tipo de dato y Pig es el ambiente de ejecucin
donde estos programas son ejecutados, de manera muy similar a la relacin
entre la mquina virtual de Java (JVM) y una aplicacin Java.
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por
aplicaciones para asegurarse de que los procesos a travs de un cluster sean
serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se
persiste en memoria en los servidores ZooKeeper llamado znode. Este archivo
znode puede ser actualizado por cualquier nodo en el cluster, y cualquier nodo
puede registrar que sea informado de los cambios ocurridos en ese znode; es
decir, un servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a travs de un
cluster distribuido actualizando su estatus en cada znode, el cual informar al
resto del cluster sobre el estatus correspondiente de algn nodo en especfico.
Una plataforma de Big Data consiste de todo un ecosistema de proyectos que
en conjunto permiten simplificar, administrar, coordinar y analizar grandes
volmenes de informacin.
11
12
13
ANLISIS APLICATIVO
2.1. EMPRESA
Hdc es una empresa multinacional con diecisiete aos de
experiencia en el campo de la consultora de negocios e IT y
que cuenta con ms de 10.000 profesionales de distintos
sectores. Fundada en Per el ao 1996, actualmente opera
en pases de Latinoamrica.
Est dedicada a ofrecer soluciones de negocio, estrategia y
desarrollo, mantenimiento de aplicaciones tecnolgicas y
outsourcing; cubriendo los sectores de telecomunicaciones,
entidades financieras, industria, utilities & energa, seguros,
administraciones pblicas, media y sanidad.
Hdc cuenta con cinco lneas o unidades de negocio:
Business consulting: se encarga de los proyectos de estrategia corporativa, consultora de
negocio e ingeniera de procesos. Su actividad se centra en el conocimiento sectorial, en la
innovacin de servicios y en la especializacin.
Solutions: se enfoca en la definicin, diseo e implantacin de soluciones tecnolgicas y a
la gestin y operacin de aplicaciones, infraestructuras y procesos de outsourcing. Se busca
el uso de metodologas para aumentar la calidad, traspaso de produccin a centros de alto
rendimiento y para la especializacin funcional y tecnolgica.
Centers: se basa en la utilizacin de alto rendimiento. Gracias a los ms de cuatro aos de
experiencia ya cuenta con la estructura y las capacidades para realizar actividades de forma
industrializada. Tiene centros en Sevilla, Murcia, Alicante, Temuco, San Miguel de Tucumn
y Uberlandia.
Business Process Outsourcing (BPO): se orienta a ofrecer servicios de externalizacin de
procesos de negocio bajo acuerdos de nivel de servicios, facilitando a sus clientes disponer
de mayor capacidad interna para realizar funciones que le aporten ms valor a su negocio.
Initiatives: investiga las posibilidades que ofrece el mercado para abrir nuevos negocios en
los que invertir con sus clientes.
Tambin cuenta con una divisin especializada en el asesoramiento financiero, la FAS
(Financial Advisory Services).
MicroStrategy se fund en 1989, antes incluso que BO, y desde entonces ha construido una
plataforma que cubre todas las necesidades BI empresariales, desde el clsico reporting
14
hasta elaborados y vistosos dashboards, pasando por el anlisis OLAP. Se diferencia de los
grandes proveedores en que su arquitectura es ms clara y homognea. Su plataforma es
realmente una plataforma BI (y no un conglomerado de productos diversos). Bsicamente,
el catlogo de productos de la plataforma Micrstrategy v9 incluye:
Microstrategy Intelligence Server. Se trata del "servidor analtico" que centraliza las
peticiones de los clientes. A este servidor se le pueden aadir funcionalidades a travs de
una serie de mdulos de la plataforma (Microstrategy Report Services, Microstrategy OLAP
Services, Microstrategy Distribution Services, etc.)
Microstrategy Web. Es el entorno interactivo de la plataforma para realizar reporting y
anlisis desde un entorno web.
Microstrategy Desktop. Es la aplicacin Windows que ofrece la funcionalidad BI de la
plataforma, incluyendo el desarrollo, ejecucin y administracin de los proyectos BI (se
complementa con otros productos para las funcionalidades ms tcnicas y administrativas:
Microstrategy Architect, Microstrategy Enterprise Manager, etc.)
Esta plataforma incluye productos y funcionalidades para cubrir cualquier necesidad BI, que
ellos dividen en los que denominan los "5 estilos de BI":
1.
2.
3.
4.
5.
Scorecards y dashboards
Reporting corporativo
Anlisis OLAP
Anlisis avanzado y predictivo
Alertas y notificaciones proactivas
Desde mi punto de vista, las fortalezas fundamentales de Microstrategy son el anlisis OLAP
y sus nuevos e impactantes dashboards.
El anlisis OLAP se realiza a partir de unos "cubos ROLAP virtuales", es decir, que en lugar de
utilizar cubos (tipo Cognos Powerlay), atacan directamente a una base de datos relacional
(tipo BO Web Intelligence). Adems, disponen de una tecnologa de "cubos en-memoria"
para mejorar significativamente el rendimiento y la escalabilidad. De esta manera, consiguen
lo mejor de cada arquitectura. Resumindolo mucho, podramos decir que se trata de un
anlisis OLAP tan sencillo y gil como el de Cognos Powerplay, aunque con la potencia de
una arquitectura ROLAP como la de BO.
Los scorecards y dashboards de Microstrategy emplean la tecnologa flash, y consiguen unos
resultados realmente atractivos. Lo mejor es verlos directamente.
El anlisis OLAP de Microstrategy nicamente permite trabajar con un bloque de
informacin, por lo que si se quieren informes ms elaborados ya se tiene que trabajar con
"documentos". La elaboracin de estos "documentos" (y de los "dashboards") est enfocada
a un usuario algo ms tcnico.
15
16
Data Set Reporte Pendientes donde se visualiza la cantidad de ventas pendientes por
agencia
17
18
CONCLUSIONES
La naturaleza de la informacin hoy es diferente a la informacin en el pasado. Debido a
la abundancia de sensores, micrfonos, cmaras, escneres mdicos, imgenes, etc. en
nuestras vidas, los datos generados a partir de estos elementos sern dentro de poco el
segmento ms grande de toda la informacin disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podran haber
tomado aos en descubrir por si mismos sin el uso de estas herramientas, debido a la
velocidad del anlisis, es posible que el analista de datos pueda cambiar sus ideas
basndose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta
encontrar el verdadero valor al que se est tratando de llegar.
Como se pudo notar en el presente artculo, implementar una solucin alrededor de Big
Data implica de la integracin de diversos componentes y proyectos que en conjunto
forman el ecosistema necesario para analizar grandes cantidades de datos.
Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente cdigo que
permita administrar cada uno de esos componentes como por ejemplo: manejo de
eventos, conectividad, alta disponibilidad, seguridad, optimizacin y desempeo,
depuracin, monitoreo, administracin de las aplicaciones, SQL y scripts personalizados.
IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM
InfoSphere BigInsights e IBM InfoSphere Streams, adems de su reciente adquisicin
Vivisimo, los cuales estn diseados para resolver este tipo de problemas. Estas
herramientas estn construidas para ser ejecutadas en sistemas distribuidos a gran escala
diseados para tratar con grandes volmenes de informacin, analizando tanto datos
estructurados como no estructurados.
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo recolectadas
del trabajo que se ha realizado internamente en la empresa para casos de uso e industrias
especficas. Estos aplicativos estn implementados dentro de la solucin de manera que
las organizaciones puedan dedicar su tiempo a analizar y no a implementar.