Está en la página 1de 6

Analítica de inteligencia de negocios de big data

Peter J. Jamack 04-02-2013


Big Data Analytics Consultant
Peter J Jamack

El mundo de los clientes y de las empresas está cambiando. Ya no se trata sólo de datos de ventas del
cliente. La meta de una plataforma integrada de inteligencia de negocios y analítica de big data es
profundizar en el por qué, el dónde, el qué y el cómo de un cliente, un producto y una compañía. Este
artículo aborda la integración de la inteligencia de negocios y la analítica de big data.

El mundo empresarial está cambiando. La dinámica del cliente está cambiando. Los clientes están
cambiando. Y todos se encuentran en una carrera para descubrir el por qué en lugar de sólo el quién o
el cómo. Ya no está bien simplemente entender cómo una compañía llegó del punto A al punto B. Las
empresas están en una lucha competitiva en tiempo real por saber cuándo compran algo los clientes, dónde
lo compran y qué están pensando antes de siquiera entrar a la tienda o visitar un sitio web. El poder de los
big data, la analítica de big data y una plataforma integrada de inteligencia de negocios (BI) y analítica de
big data puede ayudar.

La analítica de big data es joven, y una BI ágil es un concepto nuevo. ¿Cómo integra estos conceptos
similares pero distintos? No se trata solo de datos o tecnología, sino de todo—redes sociales,
comportamientos del cliente y segmentación de clientes, por nombrar algunos. No es posible conectar una
aplicación de big data y esperar ver el futuro. La BI, la gestión de datos maestros (MDM), big data y la
analítica deben integrarse en una plataforma y agruparse en una solución visualmente innovadora.

Similitudes y diferencias de la BI y la analítica de big data


La BI no es un concepto nuevo. Los depósitos de datos, la minería de datos y las tecnologías de base de
datos han existido en diversas formas durante años. "Big data" como término puede ser algo nuevo, pero
muchos profesionales de TI han trabajado con grandes cantidades de datos en diversas industrias durante
años.

Sin embargo, ahora big data no se tratan solo de grandes cantidades de datos. La exploración y el análisis
de datos semiestructurados y sin estructura es algo nuevo. Hace quince años, no analizábamos los mensajes
de email, los archivos PDF o los videos. Internet era solo una moda; la informática distribuida no se creó
ayer, pero la posibilidad de distribuir y escalar un sistema en solo un momento—y con presupuestos más
pequeños—es nuevo. En forma similar, querer predecir el futuro no es un concepto nuevo, pero poder
acceder a todos los datos creados y almacenarlos sí es algo nuevo.

© Copyright IBM Corporation 2013 Marcas


Analítica de inteligencia de negocios de big data Pagina 1 de 6
developerWorks® ibm.com/developerWorks/ssa/

Diversas fuentes aseguran que el 90 por ciento de los datos que existen hoy tienen solo dos años de
antigüedad. Y esos datos están creciendo rápidamente. Si el 90 por ciento de todos los datos en el mundo
fueron creados en los últimos dos años, ¿qué dice eso sobre los datos?

Muchas empresas tienen múltiples bases de datos y múltiples proveedores de bases de datos, con terabytes
o incluso petabytes de datos. Algunos de estos sistemas acumularon datos durante 30 o 40 años. Muchas
empresas desarrollaron plataformas enteras de depósitos de datos y analítica a partir de estos datos antiguos.
Grandes corporaciones de comercio minorista, como Wal-Mart, se convirtieron en compañías de billones
de dólares mucho antes de que existieran big data. Por lo tanto, no fueron los datos los que impulsaron su
empresa.

Sin embargo, los datos como un servicio pueden impulsar a una empresa. Piense en Amazon. Era una
compañía de productos de e-commerce online. Ahora, las personas ven a Amazon como una plataforma
de servicios, como software de servicios, como big data de servicios y como una compañía de centro de
datos de la nube. Amazon desarrolló un motor de recomendación increíble con el paso de los años a partir
de diversas tecnologías de código abierto. Zynga, la compañía de videojuegos de Facebook, conocida por
éxitos como Farmville, utilizó los servicios de nube de Amazon para escalar sus propias bases de datos y su
analítica.

Para que los datos sean útiles para los usuarios, deben integrar a clientes con datos financieros y de ventas,
con datos de productos, con datos de marketing, con redes sociales, con datos demográficos, con datos de la
competencia, y más.

Desafíos en el desarrollo de un sistema de BI y de analítica de big data


Diseñar una plataforma integrada nunca es fácil. La extracción, la transferencia y la carga (ETL) siempre son
la fase más larga en proyectos de depósito de datos. Existen diversas buenas prácticas de ETL, que algunas
veces funcionan y otras no. Si la ETL no se realiza correctamente, de repente recibirá datos incorrectos y
poco confiables. Los datos poco confiables se convierten en un sistema poco confiable y no utilizado. Nadie
quiere eso.

Usted podría pensar que algo como una base de datos de productos es algo sencillo. Pero se convierte en un
juego de versiones, errores, actualizaciones, distintos releases, distintos ciclos de release, distintas licencias y
distintas licencias basadas en la ubicación. Y eso es en una compañía con solo algunos productos. Se vuelve
más complicado para las compañías de comercio minorista que tienen miles de productos distintos.

Las plataformas integradas de BI y big data pueden tener datos no estructurados de mensajes de email.
Pueden incluir datos semi-estructurados de registros. Los sistemas de email pueden estar distribuidos entre
diversas bases de datos en múltiples datacenters en todo el mundo. Añada algunos firewalls, y de repente el
traslado de datos de un lugar a otro se convierte en una pesadilla de logística, un proyecto en sí mismo. Los
registros de sistema pueden carecer de formato, tener semi-formato o ser un desastre—otro proyecto en sí
mismo.

Existe una razón por la que las tecnologías de big data como Apache Hadoop fomentan el traslado del
sistema hacia donde están los datos en lugar de llevar los datos hacia el sistema. Se requiere tiempo para

Analítica de inteligencia de negocios de big data Pagina 2 de 6


ibm.com/developerWorks/ssa/ developerWorks®

mover los datos a través de líneas de red, entre firewalls. Se pierden datos, paquetes, archivos. La confianza
se convierte en un gran problema.

Un concepto central de noSQL y Hadoop es el traslado de la aplicación hacia los datos, pero esto no es
tan sencillo. Si tiene 100 sistemas distintos, ¿añade 100 instancias de la misma aplicación a cada sistema?
Aunque muchas personas pueden asumir que han dominado la MDM, ninguna lo ha hecho realmente.
Cuando cuenta con una MDM de productos, una MDM de ventas y una MDM de clientes que no se integran
ni unen fácilmente, añadir una aplicación a cada sistema no hace que ninguno de ellos se integre o se una
repentinamente. Sigue siendo un sistema con muchos silos que nadie puede conectar.

Aun si una empresa instaló una aplicación de big data en una plataforma perfecta que integró y conectó
todas las formas de datos distintas, habría problemas importantes. La verdad es que no puede ejecutar
repentinamente algoritmos complicados en un sistema en vivo que los usuarios están utilizando. Podría
fallar. Podría disminuir el rendimiento. Podría dañar los datos. Podría haber problemas de seguridad. La
instalación de una aplicación que requiere una gran cantidad de espacio, memoria y velocidad podría hacer
que un sistema viejo falle. Podría incluso no funcionar apropiadamente en estos sistemas viejos. Si lo
hiciera, ¿tiene alguna diferencia respecto a sistemas existentes y no conectados de MDM o BI?

Una plataforma de BI y analítica de big data debe ser innovadora. Debe ser de última generación. Debe
utilizar tecnologías en memoria o configurar un sistema para utilizar herramientas como Hadoop y Apache
Cassandra como área de transferencia, recinto de seguridad, sistema de almacenamiento y ser un sistema
nuevo y mejorado de ETL. Debe integrar datos estructurados, sin estructura y semiestructurados. Hay
muchas piezas en el rompecabezas.

Soluciones
Una plataforma integrada de BI y analítica de big data es un sistema distinto. Tiene opciones de desarrollo
y de compra entre las cuales puede elegir. Debe considerar los sistemas existentes, los casos de uso y los
niveles de experiencia y competencia de su personal. Algunas compañías tal vez quieran desarrollar un
sistema completo de código abierto utilizando solo vanilla Hadoop (el Sistema de Archivos Distribuidos
de Hadoop [HDFS] y MapReduce), Zookeeper, Solr, Sqoop, Hive, HBase, Nagios y Cacti, por cuanto
que alguien más tal vez esté buscando más soporte e intente desarrollar un sistema utilizando IBM®
InfoSphere® BigInsights™ e IBM Netezza. Otras compañías tal vez quieran separar datos estructurados y
sin estructura, y desarrollar una capa de interfaz gráfica de usuario (GUI) para usuarios, usuarios avanzados
y aplicaciones.

Realmente depende de la compañía. Y no es simplemente un sistema de enchufe y listo. Ya sea que decida
desarrollar o comprar, existen múltiples piezas en todos los niveles.

ETL
ETL, la ingestión de datos y todos los procesos que están involucrados son siempre una significativa primera
etapa, segunda etapa, tercera etapa y más. No puede volcar una aplicación de big data en un sistema de
transacciones y esperar que las cosas funcionen sin degradar ese sistema original, o esperar que se integre
bien con cualquier cosa que no sea el sistema en uso. Por lo tanto, es necesario contar con alguna ingestión
de datos en Hadoop o cualquier otro sistema de noSQL o depósito de datos de procesamiento paralelo

Analítica de inteligencia de negocios de big data Pagina 3 de 6


developerWorks® ibm.com/developerWorks/ssa/

masivo (MPP). Existen diversas herramientas y metodologías para seguir, y mucho de esto depende de los
sistemas, los orígenes, los datos, el tamaño y el personal.

Tal vez quiera comenzar con algo como Sqoop. Es una gran herramienta para ingerir datos de sistemas
de gestión de base de datos relacionales. Añadir otras herramientas de código abierto como Flume o
Scribe puede ayudar con los registros. También hay herramientas de ETL como Talend o IBM InfoSphere
DataStage®, ambas tienen ahora integradores de big data. Estas herramientas son más visuales y
no requieren un doctorado en ciencias de la computación para desarrollar la infraestructura. Ambas
herramientas proporcionan documentación técnica, actualizaciones y herramientas visuales de GUI; siempre
están siendo mejoradas y son utilizadas en muchas industrias y empresas.

Algunas compañías prefieren únicamente el código abierto. Otras compañías pueden tener muchos sistemas
desarrollados en diversos productos de IBM. Obviamente, integrar lo que ya está en uso con nuevas
tecnologías es una consideración significativa.

Desarrollar su propio sistema de ETL requiere de mucho tiempo, y hacerlo puede ser un desconsuelo si el
resultado no hace lo que usted necesita que haga. Hadoop tiene muchas piezas, y tal vez necesite más que
Sqoop. Integrar y añadir múltiples piezas puede ser doloroso, especialmente si carece de la experiencia
y el conocimiento o si desea desarrollar su propia herramienta de ETL. El proceso requiere de tiempo y
paciencia. También puede encontrarse con interrupciones. Es posible usar una herramienta de código abierto
que después la comunidad deseche. También puede configurar y desarrollar su propia herramienta de ETL
con diversas aplicaciones internas y herramientas de código abierto. Luego, la comunidad del código abierto
cambia algunas cosas o algunos de sus desarrolladores se van y de repente tiene un sistema que nadie sabe
cómo mantener o arreglar.

Las empresas inteligentes se enfocan en su propio personal, en sus experiencias, en los presupuestos y en
el potencial, y son realistas. Por ejemplo, si una empresa tiene un personal de TI relativamente pequeño,
observar la forma en que Google o Facebook desarrollan sus sistemas no es una buena idea. No compare su
pequeño taller de TI con compañías que tienen varios servidores y graduados en ciencias computacionales
trabajando en esas infraestructuras y sistemas particulares. Algunas veces, utilizar servicios de nube o
personal externo puede ser la única opción. Otras, las aplicaciones de big data como Netezza son la mejor
opción.

Almacenamiento
El almacenamiento de datos es un factor enorme y puede requerir que use diversas tecnologías. En el sistema
de Hadoop, se encuentra HBase. Pero algunas compañías utilizan Cassandra, Neo4j, Netezza, HDFS y otras
tecnologías, dependiendo de lo que se necesite. HDFS es un sistema de almacenamiento de archivos. HBase
es un almacén por columnas similar a Cassandra. Muchas compañías utilizan Cassandra para analíticas más
cercanas al tiempo real. Pero HBase está mejorando.

Podría considerar a HBase o Cassandra cuando desee utilizar un sistema de gestión de base de datos de
código abierto para analítica de big data. En lo que se refiere a plataformas de depósitos de datos, Netezza es
una de las principales tecnologías en la industria de la analítica y la BI. La mejor opción para la integración
de big data es utilizar una plataforma integrada que consista en Hadoop y Cassandra para datos sin estructura
o semiestructurados y Netezza para datos estructurados.

Analítica de inteligencia de negocios de big data Pagina 4 de 6


ibm.com/developerWorks/ssa/ developerWorks®

IBM Netezza Customer Intelligence Appliance combina unas cuantas tecnologías distintas en una
plataforma. En la capa superior, que es la capa del usuario, se apoya en el software de BI IBM Cognos® , un
producto de inteligencia de negocios y presentación de informes. Cognos BI es un producto impresionante
que muchas empresas utilizan para diversas necesidades de BI y depósito de datos. En la capa de
almacenamiento de depósito de datos, Netezza es una gran opción para su sistema de base de datos de MPP.
Este sistema está equipado para los datos estructurados, pero cuando usa Hadoop o Cassandra para datos sin
estructura o semiestructurados es posible crear una plataforma integrada de BI y analítica de big data.

La GUI
En la capa de la GUI y de front-end de usuario, existen muchas otras piezas para el sistema. Los usuarios
avanzados pueden utilizar herramientas como IBM SPSS® Statistics, o R, para minería de datos, modelado
predictivo, aprendizaje de máquina y desarrollo de algoritmos y modelos complejos. Su personal habitual
de ventas puede utilizar algo como Cognos para la presentación de informes de BI, informes de big data,
paneles de instrumentos y cuadros de mando. Una herramienta como Cognos es genial para proporcionar a
diversos tipos de usuarios la oportunidad de explorar los datos o ver informes simples.

Existen otras piezas de la capa de la GUI y front-end, como herramientas de aprendizaje de máquina
(por ejemplo, Apache Mahout) o Apache Hive (para Lenguaje de Consulta Estructurado), pero esas
herramientas también pueden ser parte de la infraestructura. El factor más importante es la integración de
datos estructurados y datos sin estructura como parte de la BI y la infraestructura del depósito de datos y la
analítica de big data. ¿Es esto un servicio? ¿Quiénes son los usuarios?

A los usuarios no les importa la infraestructura. No les importa si está integrada. Solo les importa si pueden
obtener los datos correctos en el momento correcto.

Conclusión
La integración de la BI y la analítica de big data no es una tarea fácil. La meta para cualquier sistema de
datos o analítico es hacer que los datos sean útiles y que estén disponibles para tantos usuarios como sea
posible. Las aplicaciones de big data son una forma de lograrlo. Un sistema de Hadoop de código abierto es
otra. Ambas requieren tiempo, paciencia e innovación.

Un sistema de código abierto es mucho más rápido y menos costoso de implementar, pero necesita personal
con experiencia para ello. Si no tiene experiencia en el trabajo con big data, una aplicación de proveedor
de big data puede ser la mejor opción, aunque esto es más costoso. Recuerde que no todos desean ser una
compañía de software o hardware. Algunas veces, desarrollar una plataforma integrada de BI y big data
requiere de un poco de desarrollo y compras para poder alcanzar sus objetivos.

Analítica de inteligencia de negocios de big data Pagina 5 de 6


developerWorks® ibm.com/developerWorks/ssa/

Sobre el autor
Peter J. Jamack

Peter J. Jamack es un consultor de analítica de big data que tiene más de 13 años de
experiencia en inteligencia de negocios, depósito de datos, analítica, big data y gestión de
información. Ha integrado datos estructurados y no estructurados en soluciones innovadoras
de analítica integradas, mediante el trabajo con diversas plataformas de datos granes y MPP
para entregar plataformas de analítica integradas y a gran escala para clientes en industrias
tales como seguros, gobierno, medios, finanzas, comercio minorista, redes sociales, marketing
y software. Es posible contactar a Peter escribiendo a info@peterjamack.com.

© Copyright IBM Corporation 2013


(www.ibm.com/legal/copytrade.shtml)
Marcas
(www.ibm.com/developerworks/ssa/ibm/trademarks/)

Analítica de inteligencia de negocios de big data Pagina 6 de 6

También podría gustarte