Está en la página 1de 75

Libro blanco:

Business Intelligence Soluciones Open source

C/ Sancho de vila, 52, 6. 3. 08018 - Barcelona Tel. 902 88 77 71 | www.cometatech.com

NDICE
1 SMILE PREMBULO ____________________________________________________________________ 5
1.1 Algunas referencias de Smile en Espaa ___________________________________________________________________________ 6 1.2 Referencias de Smile en el mundo ________________________________________________________________________________ 8 1.2.1 Gestin documental ________________________________________________________________________________________ 8 1.2.2 Pginas web _____________________________________________________________________________________________ 8 1.2.3 Portales, Intranets y Sistemas de informacin____________________________________________________________________ 8 1.2.4 Comercio electrnico _______________________________________________________________________________________ 8 1.2.5 ERP & Sistema de apoyo a las decisiones ______________________________________________________________________ 8 1.2.6 Infraestructura y Alojamiento _________________________________________________________________________________ 8 1.3 Este libro blanco ______________________________________________________________________________________________ 9 1.4 Versin 2011 _________________________________________________________________________________________________ 9

2 PRINCIPIOS ____________________________________________________________________________ 10
2.1 Ayuda para la toma de decisiones _______________________________________________________________________________ 10 2.2 Generador de informes o Reporting ______________________________________________________________________________ 10 2.3 Anlisis de la demanda o Ad hoc ________________________________________________________________________________ 11 2.4 El anlisis multidimensional u OLAP ______________________________________________________________________________ 12 2.5 La consolidacin de los datos ___________________________________________________________________________________ 16 2.5.1 Principios _______________________________________________________________________________________________ 16 2.5.2 Organizacin ____________________________________________________________________________________________ 17 2.6 Los principios del ETL _________________________________________________________________________________________ 18 2.7 La tabla de tendencias ________________________________________________________________________________________ 19 2.8 El data mining _______________________________________________________________________________________________ 20 2.9 Tendencias _________________________________________________________________________________________________ 20

3 LOS ELEMENTOS DEL BUSINESS INTELLIGENCE ___________________________________________ 22


3.1 Pentaho Data Integration: PDI (Ex Kettle) __________________________________________________________________________ 22 3.1.1 Presentacin ____________________________________________________________________________________________ 22 3.1.2 Caractersticas ___________________________________________________________________________________________ 23 3.1.3 Las aplicaciones _________________________________________________________________________________________ 24 3.1.4 Planificacin _____________________________________________________________________________________________ 25 3.1.5 Utilizacin_______________________________________________________________________________________________ 25 3.1.6 Ejemplo ________________________________________________________________________________________________ 25 3.1.7 Conclusin ______________________________________________________________________________________________ 26 3.2 Talend _____________________________________________________________________________________________________ 27 3.2.1 Presentacin ____________________________________________________________________________________________ 27 3.2.2 Definicin de los procesos __________________________________________________________________________________ 27 3.2.3 Modelos de empresa ______________________________________________________________________________________ 29 3.2.4 Gestin de contextos ______________________________________________________________________________________ 29 3.2.5 Aplicacin de los procesos _________________________________________________________________________________ 29 3.2.6 Conclusin ______________________________________________________________________________________________ 30 3.3 BIRT ______________________________________________________________________________________________________ 30 3.3.1 Presentacin ____________________________________________________________________________________________ 30

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.3.2 Generador de informes ____________________________________________________________________________________ 31 3.3.3 Diseo de informes _______________________________________________________________________________________ 32 3.3.4 Pblico de destino ________________________________________________________________________________________ 33 3.3.5 Tablas cruzadas__________________________________________________________________________________________ 33 3.3.6 Conclusin ______________________________________________________________________________________________ 34 3.4 Jasper Reports ______________________________________________________________________________________________ 34 3.4.1 Presentacin ____________________________________________________________________________________________ 34 3.4.2 Generador de informes ____________________________________________________________________________________ 34 3.4.3 Diseo de informes _______________________________________________________________________________________ 35 3.4.4 Interfaz grfica: iReport ____________________________________________________________________________________ 36 3.4.5 Conclusin ______________________________________________________________________________________________ 37 3.5 Pentaho Report Designer ______________________________________________________________________________________ 38 3.5.1 Presentacin ____________________________________________________________________________________________ 38 3.5.2 Realizacin de informes____________________________________________________________________________________ 38 3.5.3 Conclusin ______________________________________________________________________________________________ 41 3.6 Pentaho Analysis o Mondrian ___________________________________________________________________________________ 41 3.7 JPivot ______________________________________________________________________________________________________ 42 3.8 Palo _______________________________________________________________________________________________________ 44 3.9 JPalo ______________________________________________________________________________________________________ 46 3.10 Weka _____________________________________________________________________________________________________ 48 3.10.1 Presentacin ___________________________________________________________________________________________ 48

4 LAS SUITES DE BUSINESS INTELLIGENCE _________________________________________________ 50


4.1 Pentaho BI Suite _____________________________________________________________________________________________ 50 4.1.1 Presentacin ____________________________________________________________________________________________ 50 4.1.2 Caractersticas ___________________________________________________________________________________________ 51 4.1.3 Interfaz usuario __________________________________________________________________________________________ 51 4.1.4 Motor de workflow ________________________________________________________________________________________ 53 4.1.5 Planificador _____________________________________________________________________________________________ 55 4.1.6 Metadata _______________________________________________________________________________________________ 56 4.1.7 Analyzer ________________________________________________________________________________________________ 56 4.1.8 Dashboard designer_______________________________________________________________________________________ 57 4.1.9 Comunidad______________________________________________________________________________________________ 59 4.1.10 Conclusin _____________________________________________________________________________________________ 59 4.2 SpagoBI ____________________________________________________________________________________________________ 60 4.2.1 Presentacin ____________________________________________________________________________________________ 60 4.2.2 Caractersticas ___________________________________________________________________________________________ 60 4.2.3 Interfaz usuario __________________________________________________________________________________________ 61 4.2.4 Workflow de publicacin ___________________________________________________________________________________ 62 4.2.5 Componentes utilizados____________________________________________________________________________________ 63 4.2.6 Integracin de los datos ____________________________________________________________________________________ 63 4.2.7 SpagoBI Studio y Meta ____________________________________________________________________________________ 63 4.2.8 SpagoBI Meta ___________________________________________________________________________________________ 64 4.2.9 Comunidad______________________________________________________________________________________________ 65 4.2.10 Conclusin _____________________________________________________________________________________________ 65 4.3 JasperSoft BI Suite ___________________________________________________________________________________________ 65

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.3.1 Presentacin ____________________________________________________________________________________________ 65 4.3.2 Caractersticas ___________________________________________________________________________________________ 65 4.3.3 Componentes utilizados____________________________________________________________________________________ 67 4.3.4 Dominios _______________________________________________________________________________________________ 67 4.3.5 Anlisis ad hoc para los usuarios finales _______________________________________________________________________ 68 4.3.6 Creacin de tablas de tendencias ____________________________________________________________________________ 69 4.3.7 Jasper WorkBench________________________________________________________________________________________ 70 4.3.8 Conclusin ______________________________________________________________________________________________ 71 4.4 Palo BI Suite ________________________________________________________________________________________________ 71 4.4.1 Palo para XL ____________________________________________________________________________________________ 71 4.4.2 Palo Web _______________________________________________________________________________________________ 72 4.4.3 Conclusin ______________________________________________________________________________________________ 73

5 SERVICIOS PROPUESTOS POR LOS FABRICANTES _________________________________________ 74 6 CONCLUSIN __________________________________________________________________________ 75

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

1 SMILE PREMBULO
Nacido en 1991, Smile es el primer integrador europeo en soluciones Open Source. Especialista en mltiples tecnologas y ofreciendo una gama de 18 lneas de servicios, Smile explora las mejores soluciones del mercado en reas tales como: Gestin de Contenidos (CMS), portales, ERP, Business Intelligence, CRM, Gestin Documental, eCommerce, monitorizacin y sistemas, todas ellas desarrolladas con una gran variedad de herramientas Open Source.

Smile ha generado una cifra de negocio de 25.5 millones de euros en 2010, con un crecimiento anual de ms del 30%. Smile emplea a ms de 500 personas en 6 pases y 15 ciudades (Barcelona, Pars, Lyon, Grenoble, Montpellier, Poitiers, Bordeaux, Lille, Aix, Nantes, Amsterdam, Ginebra, Casablanca, Kiev, Kharkov).

Nuestros expertos integran ms de 50 soluciones Open Source. Por ello, Smile est asociada con una treintena de partners tecnolgicos y comerciales para ofrecer a sus clientes los mejores productos as como desarrollar sinergias constructivas. Smile fomenta una excelencia operacional que le permite frecuentemente ser reconocido y destacado (Partner europeo del ao de Magento, Partner del ao de eZ Publish, Gold Partner de Jahia, Liferay, Alfresco, Nuxeo, Partner Platinum de Talend, etc).

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

1.1 ALGUNAS REFERENCIAS DE SMILE EN ESPAA

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

1.2 REFERENCIAS DE SMILE EN EL MUNDO


1.2.1 Gestin documental Serimax, Goservices, Pierre Audoin Consultant, Alstom Power services, NetasQ, Packetis, CS informatique, Corep, SNCF - Direccin del material, Mazars, EDF R&D y nuclear, Consejo Regional de Picardie, Leroy Merlin, Primagaz, Renault F1, INRIA, Centro de informacin de la juventud (CIDJ), Unin de la Cooperacin Forestal Francesa, Ministerio belga de la Comunidad Francesa, INRIA, APAVE Sur de Europa, UCFF, Volia Propret, Ecureuil Gestion.

1.2.2 Pginas web EMI Music, Saln de la Agricultura, Mazars, Areva, Socit Gnrale, Gtes de France, Patrice Pichet, Groupama, Eco-Emballage, CFnews, CEA, Prisma Pub, Volia, NRJ, JCDecaux, 01-Informatique, Spie, PSA, Boiron, Larousse, Dassault-Systmes, Accin contra el Hambre, BNP Paribas, Air Pays de Loire, Forum des Images, IFP, BHV, ZeMedical, Gallimard, Cheval Mag, Afssaps, CNIL 1.2.3 Portales, Intranets y Sistemas de informacin HEC, Bouygues Telecom, Prisma, Veolia, Arjowiggins, INA, Primagaz, Croix Rouge, Eurosport, Invivo, Faceo, Castillo de Versailles, Eurosport, Ipsos, VSC Technologies, Sanef, Explorimmo, Bureau Veritas, Rgion Centre, Dassault Systmes, Fondation dAuteuil, PagesJaunes Annonces

1.2.4 Comercio electrnico De Dietrich, Adenclassifieds, Macif, Furet du Nord, Gtes de France, Camif Collectivit, GPdis, Longchamp, Projectif, ETS, Bain & Spa, Yves Rocher, Bouygues Immobilier, Nestl, Stanhome, AVF Primdical, CCI, Pompiers de France, Comisara para la Energa Atmica

1.2.5 ERP & Sistema de apoyo a las decisiones Groupe Accueil, Anevia, Projectif, Xinek, Companeo, Advans, Point P, Le Figaro, Bureau Veritas, Mindscape, Loyalty Experts, Cecim, Espace Loggia, Nouvelles Frontires, La Poste, HomeCineSolutions, Vocatis, Skyrock, Lafarge, France Domicile, Polyexpert, Cadremploi, Cmonjob, Meilleurmobile.com

1.2.6 Infraestructura y Alojamiento Agencia Nacional de Cheques de Vacaciones, Pierre Audoin Consultants, Rexel, Motor Presse, OSEO, Sport24, Eco-EmBallage, Institut Mutualiste Montsouris, ETS, Ionis, Osmoz, SIDEL, Cadremploi, SETRAG, Instituto Francs del Petrleo, Mutualit Franaise...

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

1.3 ESTE LIBRO BLANCO


Despus de tomar la delantera en mercados como el de la gestin de contenidos, los portales o los frameworks de desarrollo, el open source est ganando cuota de mercado en las soluciones para la toma de decisiones, gracias a aplicaciones que resultan muy competitivas hoy en da.

En lnea con los otros libros publicados por Smile, esta obra ofrece:

Un enfoque general sobre el Business Intelligence, sus conceptos, sus campos de aplicacin y sus necesidades especficas. Una lista de las mejores herramientas de open source en el campo del Business Intelligence. Una presentacin completa de las herramientas, sus puntos fuertes, sus limitaciones, su madurez y su capacidad para satisfacer las necesidades operativas. Una presentacin que ofrece a los profesionales los medios de comunicacin como apoyo a estas herramientas ya existentes.

Este estudio se basa en aos de trabajo de investigacin, en un desarrollo y se optimiza de forma permanente gracias a los proyectos que vamos realizando con nuestros clientes.

1.4 VERSIN 2011


La primera versin de este libro blanco se remonta a junio de 2006.

Desde entonces, cada ao ha aparecido una nueva versin, fruto del trabajo en los proyectos y del seguimiento de las herramientas.

Esta versin de 2011 permite conocer las novedades en las soluciones open source actuales. De este modo, contamos con una versin 2.4 de SpagoBI, una versin 3.5.2 del conjunto Pentaho y una versin 3.7 de JasperSoft.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

2 PRINCIPIOS
2.1 AYUDA PARA LA TOMA DE DECISIONES
La cifra de ventas ha descendido durante el mes de octubre. Para remediar esta situacin, es necesario tomar una serie de decisiones. Pero para tomar la decisin adecuada, es necesario saber por qu ha bajado la cifra de ventas y, en primer lugar, cmo ha disminuido. En qu gama de productos? En qu pas o regiones? En el portafolio de clientes, de qu comerciales? En qu segmento de distribucin? Existe un descenso similar cada ao en octubre? Las preguntas que se plantean son muchas y es necesario saber responder a todas ellas antes de tomar una decisin adecuada. Es lo que denominamos ayuda para la toma de decisiones, la Business Intelligence, cuyo sinnimo en ingls Business intelligence es el trmino ms usado, se trata de un conjunto de soluciones informticas que permiten analizar los datos de la empresa con el fin de extraer informacin nueva de calidad sobre la que fundamentar las decisiones, ya sean de carcter tctico o estratgico.

Una empresa moderna gestiona en su sistema informtico grandes volmenes de datos, pero a menudo, por culpa de esta gran cantidad de datos, resulta muy complicado dar un sentido a la informacin, comprender lo que expresa: tendencias subyacentes, puntos dbiles o puntos fuertes ocultos, todos aquellos aspectos que debemos conocer para tomar buenas decisiones.

De este modo, las herramientas de ayuda para la toma de decisiones, facilitan el anlisis de los datos con el fin de identificar las informaciones macroscpicas pertinentes que se encuentran ocultas entre los grandes volmenes de datos.

2.2 GENERADOR DE INFORMES O REPORTING


Un informe (report en ingls) es la presentacin de datos de forma sintetizada y legible, normalmente para su impresin.

En el informe aparecen tablas de cifras que gestionan encabezados, pies de pgina, subtotales, etc.

Un generador de informes es un programa que permite definir un informe en funcin de las necesidades con una programacin mnima, simplemente a travs de una interfaz interactiva. Una vez definido, el informe puede generarse de forma regular.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Un informe puede depender de los siguientes parmetros: el ao, el mes, la regin, la rama de actividad, etc. De este modo, un mismo informe que haya sido definido una vez, podr ser generado con distintas variantes segn los valores tomados por determinados parmetros.

Los parmetros del informe podrn ser establecidos por el usuario segn desee y tambin los podrn variar para afinar la bsqueda.

En otros casos, los parmetros vienen definidos automticamente por reglas de gestin; por ejemplo, para enviar a cada comercial la relacin de sus ventas del mes. En este caso, hablamos de informes en rfaga o bursting. De este modo, podemos distinguir dos fases en la generacin de un informe:

Una fase de concepcin inicial que, a menudo, exige una experiencia especfica y que no est en manos del usuario final. Una fase de configuracin y de produccin que ya no exige una experiencia determinada y a la que puede acceder el usuario final.

Es cierto que sera ideal limitar la primera fase, que es la ms costosa, y poner directamente a disposicin de los usuarios finales las herramientas de creacin. Pero la experiencia demuestra que normalmente no resulta posible: si bien es posible aprender, los usuarios tienen en realidad otras prioridades.

En 2007, aparecieron en el campo del Business Intelligence de open source herramientas de reporting destinadas a los usuarios finales y denominadas ad hoc. Permiten a los usuarios finales realizar de forma rpida y simple informes sencillos sin que sea necesario disponer de conocimientos tcnicos.

2.3 ANLISIS DE LA DEMANDA O AD HOC


Se pueden distinguir dos modos de trabajo en Business intelligence: el modo informe esttico y el modo interactivo, con un anlisis que responde interactivamente a las solicitudes de los usuarios. Corresponden a distintas necesidades y, en ocasiones, son complementarias: Obtener informacin recurrente que corresponde a un anlisis predefinido; por ejemplo, la descomposicin de las ventas por regin. Buscar una informacin realizando distintos anlisis sucesivos; los resultados de uno conllevan nuevas consultas que solicitan una nueva restitucin de datos.

En parte, las herramientas pueden ser iguales, pero existen diferencias de fondo:

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Los anlisis recurrentes se preparan ms arriba. Su ajuste puede necesitar la intervencin de expertos. Una vez preparados, se pueden realizar de forma regular de un modo casi automtico. Por el contrario, los anlisis interactivos deben estar bajo control del usuario final; este ya no es simplemente un consumidor de anlisis, sino que se convierte en el actor principal sin que necesariamente sea un experto en herramientas de Business Intelligence. Esto implica que las herramientas que intervienen en estos anlisis deben ser muy sencillas de utilizar, tanto en los conceptos funcionales como en la configuracin tcnica. Deben permitir, sobre todo, abstraerse totalmente de la tcnica y, en particular, del lenguaje SQL de consulta de las bases de datos que no podemos suponer que los usuarios no conocen. Por ltimo, el anlisis interactivo o ad hoc exige, asimismo, unos tiempos de respuesta excelentes para permitir al usuario tantear en tiempo real afinando su anlisis.

2.4 EL ANLISIS MULTIDIMENSIONAL U OLAP


El anlisis multidimensional es una de las formas de anlisis ms habituales en el campo de el Business Intelligence.

Vamos a intentar ofrecer los principios fundamentales de esta modalidad.

Se dispone de unos conjuntos bsicos de informacin, generalmente en grandes volmenes, siendo cada lnea de informacin un evento caracterizado por: Un identificador nico Atributos que caracterizan la informacin Magnitudes que conllevan una informacin cuantitativa

De forma ms concreta, analicemos el ejemplo siguiente, muy clsico incluso si est muy simplificado.

Consideremos la entidad bsica que es la lnea de factura. Normalmente, se trata de una entidad clave en una empresa: la informacin ms precisa de la que disponemos con respecto a los procesos de venta.

La lnea de factura pertenece a una factura y se refiere a la venta de un producto, en una cantidad determinada, por un precio determinado y a un cliente determinado.

Presenta distintos atributos: una indicacin de producto, una cantidad, un precio unitario, un precio total.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

A travs de la factura a la que la lnea pertenece, disponemos de otro tipo de informacin: una referencia del cliente, una fecha (ao, mes, da).

Sobre el propio cliente, disponemos tambin de otro tipo de informacin: pas, regin, tipo de cliente, sector de la profesin, etc. Adems, el cliente posiblemente es asignado a un colaborador comercial.

Nos detendremos aqu para este ejemplo, pero est claro que podemos extraer muchos datos de esta recopilacin de informacin que gira en torno a la entidad ms bsica, que es la lnea de factura.

Por lo tanto, la primera etapa consiste en reunir toda la informacin necesaria para nuestros anlisis. Por ejemplo, en este caso, la informacin es: Fecha (ao, mes, da) Producto Familia de productos Cliente Pas del cliente Comercial Cantidad CA

Los primeros datos constituyen los ejes de anlisis potenciales; los dos ltimos constituyen las magnitudes.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

En el anlisis multidimensional, la modelizacin de las relaciones de partida no es la ms pertinente ni la ms eficaz. Normalmente, preferimos desnormalizar la base, es decir, trabajar sobre una tabla nica en la que hemos reunido toda la informacin considerada til.

En nuestro caso, obtenemos la siguiente informacin:

Fecha 31/03/2007 31/03/2007 31/04/2007 Etc.

Producto 12030991 14030952 12030993

Segmento Cortacsped Taladradora Cortacsped

Familia Jardinera Herramientas Jardinera

Cliente Castorama Castorama LeroyMerlin

Pas Francia Francia Italia

Ccal Lepaul Lepaul Legrand

Cantidad 50 120 250

Importe 50.000 11.000 230.000

Sin duda, se advierte que existe una gran redundancia en esta tabla, pero al final resulta ms til aqu gestionar la informacin redundante pero simple. De este modo, no nos ocupamos de problemas de coherencia y de integridad, que son del dominio de los sistemas de informacin.

La siguiente etapa consiste en crear un primer nivel de agregacin, es decir, reunir determinadas lneas.

En nuestro caso, por ejemplo, podemos establecer la hiptesis de que los datos no se utilizarn en el mbito de la referencia del producto, sino solamente por segmento. En este caso, reuniremos todas las lneas idnticas por la clave (fecha, segmento, familia, cliente, pas, comercial) y acumularemos tambin las magnitudes cantidad y importe.

La ltima etapa es la del anlisis multidimensional propiamente dicho, que consiste en seleccionar los ejes de anlisis.

Entre estos ejes, podemos distinguir los siguientes: Ejes de valores discretos o discontinuos, es decir, que llevan un nmero determinado de valores; por ejemplo, un cdigo postal, un segmento CSP (categoras socio-profesionales). Ejes de valores continuos; normalmente, una fecha, un precio. Podemos reducirlos a un nmero discreto de valores, definiendo tramos: tramos de precio, tramos de edades.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Asimismo, distinguimos tambin: Magnitudes acumulables; por ejemplo, un importe, un nmero de artculos. Magnitudes no acumulables; por ejemplo, la edad o la fecha.

Las magnitudes acumulables son aquellas magnitudes a las que se les puede agregar, es decir, de las que se puede calcular la suma (o la media u otras funciones matemticas) para un subconjunto de lneas; por ejemplo, para cada temtica.

Por lo tanto, el anlisis multidimensional consiste en:

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Definir los ejes de anlisis que vamos a utilizar y el orden en el que los vamos a utilizar. Por ejemplo, por regin, despus por ao, despus por vendedor, despus por gama de productos. No siempre utilizaremos todos los ejes posibles. Definir las magnitudes que se van a estudiar y, posteriormente, la funcin que se aplica a estas magnitudes.

Cada jerarquizacin de los ejes de los anlisis corresponde a una pregunta que planteamos. Por ejemplo, un anlisis por ao, por vendedor pretende representar la evolucin de la cifra de ventas y, a continuacin, comparar la labor de los vendedores cada ao transcurrido. Un anlisis por vendedor, por ao pretende, sobre todo, comparar a los vendedores ().

2.5 LA CONSOLIDACIN DE LOS DATOS


2.5.1 Principios La informacin y los datos que constituirn la base del sistema de Business Intelligence provienen normalmente de varios sistemas de informacin de la empresa. Una aplicacin de Business Intelligence normalmente constituye un almacn de datos, un datawarehouse, y extrae los datos de varias fuentes de la empresa.

En esta etapa de consolidacin existen numerosas razones:

La centralizacin: resultara muy difcil y, en ocasiones, imposible acceder en tiempo real a los datos en los distintos sistemas donde se encuentran: problemas de interconexin entre las redes, de rendimiento, pero tambin de discordancias entre protocolos e interfaces. La unificacin: el datawarehouse rene los datos en un sistema nico con un referente comn, una modelizacin unificada y con interfaces de acceso idnticas. Permite crear vnculos entre los datos que, en principio, resultaban heterogneos. Los recursos informticos: las aplicaciones de Business Intelligence pueden necesitar mucha CPU, disco, memoria, y los sistemas instalados pueden no estar preparados para soportar estos nuevos procesamientos. La especializacin: las aplicaciones de Business Intelligence tienen necesidades especficas que no podrn ser satisfechas por los sistemas instalados en la empresa. El datawarehouse es una base de datos de consolidacin, normalmente con una base relacional relativamente estndar, pero que debe albergar y manipular grandes volmenes de informacin.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Puede ser una base de datos de open source (MySql, PostgreSql, etc.) o privativo (Oracle, SQLServer).

El datawarehouse concentra la informacin de Business Intelligence emitida por diferentes sistemas de informacin de la empresa.

2.5.2 Organizacin Como hemos abordado anteriormente, esta nueva base de datos de la empresa no ha sido creada para beneficio de una aplicacin operativa directamente vinculada a la actividad de la empresa (p. ej.: sistema contable, base de datos RR.HH., base de datos de los comerciales, etc.). El datawarehouse solo va a almacenar la informacin clave de la empresa y se utilizar nicamente para consultas de anlisis y de reporting.

Adems, la empresa podr analizar sus datos sin reducir el rendimiento de las herramientas de produccin corrientes.

Se establecer un modelo para la base de datos de Business Intelligence, con el fin de facilitar las consultas. Se habla de modelo de Business Intelligence en copo o en estrella.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Las tablas solo van a estar relacionadas por un nico campo clave para ayudar al rendimiento de las consultas; adems, determinadas informaciones del tipo lista de valores se repetirn varias veces en las tablas de dimensin.

Como cualquier modelo de base de datos, esta etapa resulta crucial en la consecucin del proyecto. El modelo debe ser evolutivo para recibir de forma sencilla los nuevos datamarts en lo sucesivo y garantizar una sostenibilidad real a la empresa, creando un historial de un gran nmero de datos.

El datawarehouse debe tener una duracin de vida ms larga que las herramientas de produccin. De hecho, estas pueden evolucionar, incluso ser reemplazadas. En este caso, el datawarehouse garantiza la memoria de la empresa y solo se actualizarn las interfaces de carga de este datawarehouse.

2.6 LOS PRINCIPIOS DEL ETL


Para alimentar el datawarehouse de las distintas aplicaciones de la empresa, utilizamos una gama de herramientas denominadas ETL, es decir, Extract, Transform, Load. Tal y como indica el nombre, estas herramientas permiten extraer datos a partir de distintas fuentes, transformarlos (formato, denominacin) y cargarlos en la base de datos meta; en este caso, el datawarehouse.

Las transformaciones que normalmente son destinadas a un ETL son sencillas, pero en algunos casos pueden incluir tratamientos de procedimiento, verdaderos programas especficos. Un ETL permite evitar la creacin de programas batch repetitivos normalmente similares de los que habr que garantizar, asimismo, el mantenimiento. El principio es que la integracin de un nuevo flujo de datos no requiere ningn desarrollo y se produce por una simple configuracin interactiva: se eligen los elementos de los datos del referencial fuente, se indican las transformaciones simples que deben experimentar y se precisa el destino del dato en el datawarehouse.

El ETL puede manejar distintos tipos de fuentes de datos, tanto de entrada como de salida; los principios es el SGBD relacionales y los flujos XML, pero tambin puede tratarse de archivos de formatos fijos o con separadores (CSV).

Una vez que un flujo de extraccin-transformacin-carga ha sido definido, normalmente se activa de forma regular bajo el control de una herramienta de planificacin de tareas o a travs de una programacin. ()

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Un ETL trata normalmente flujos de punto a punto, es decir, entre una fuente nica y un destino nico.

El ETL suele trabajar en diferido, normalmente por la noche. Un datawarehouse registra por origen una serie de fotografas de la actividad de la empresa; el ETL permitir alimentar el datawarehouse con una fotografa adicional. Una vez que se ha aadido, los datos cargados de esta forma se convierten en datos estticos y estn a disposicin de los usuarios.

2.7 LA TABLA DE TENDENCIAS


Una tabla de tendencias no es otra cosa que una forma determinada de informe.

Denominamos tabla de tendencias a un informe que es: Especialmente sinttico: todo debe caber en una hoja A4 o sobre una pantalla de ordenador. Muy a menudo, heterogneo, es decir, presenta distintos indicadores que, en conjunto, ofrecen una representacin completa de la actividad de la empresa. A menudo, tambin personalizado, es decir, cada usuario consulta una tabla de tendencias relativa a su actividad.

Hablamos de Key Performance Indicators (KPI), indicadores clave de rendimiento. Son los indicadores que estn presentes a partir de la pgina de inicio de un portal de Business Intelligence.

Segn el caso, la tabla de tendencias puede bastarse por s misma o ser el punto de entrada para conseguir anlisis ms afinados, tablas de tendencias secundarias o incluso accesos en drill-down.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

En ocasiones, tambin utilizamos el trmino Executive Information System, o EIS, para hacer referencia a un sistema de Business Intelligence, destinado especficamente a la Direccin General y que, por lo tanto, presenta informacin estratgica muy consolidada.

2.8 EL DATA MINING


El data mining consiste en buscar informacin esttica til, oculta en grandes volmenes de datos.

En el reporting del anlisis multidimensional, el usuario sabe lo que est buscando: busca, por ejemplo, la descomposicin de la cifra de ventas por regin. Todava no sabe cmo es esta descomposicin, pero sabe de cuntos meses est compuesta y que es un dato pertinente para su trabajo.

En el data mining, el usuario busca informacin esttica oculta que todava no est identificada: tendencia, correlacin, similitud, etc. Normalmente, un anlisis de los tiques de caja de un hipermercado puede hacer aparecer correlaciones entre las distintas compras de productos. Algunas tendrn una explicacin sencilla (maquinillas de afeitar y espuma de afeitar), pero otras resultarn insospechadas.

Resulta muy conveniente validar estos resultados, puesto que la correlacin observada puede no traducirse en una relacin de causa y efecto, sino ser fortuita o resultar de una causa oculta, contando uno y otro con fenmenos como consecuencias conjuntas.

Por lo tanto, las herramientas de data mining buscan, de forma semiautomatizada, correlaciones, reglas estticas a travs de grandes volmenes de datos. Se ayudan en ocasiones de una restitucin grfica de estas reglas, que har aparecer, por ejemplo, nubes de puntos en una representacin axial de los datos.

2.9 TENDENCIAS
Hasta 2006, los programas de Business Intelligence de open source estaban constituidos por elementos creados en Java, dedicados a funciones especficas: edicin de informes, anlisis OLAP, ETL, etc. Estos elementos de open source estaban escritos y mantenidos por comunidades que se han ido profesionalizando progresivamente.

Hoy en da, la tendencia se dirige claramente a la profesionalizacin del Business Intelligence open source.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

El enfoque open source se ha convertido en un business model ya instalado y, adems, prometedor; por l, los inversores apuestan con la posibilidad, gracias al open source, de crear rpidamente actores de carcter internacional. Resulta cuanto menos notable observar que en 2008 y 2009 aos econmicamente afectados en los que las finanzas se han convertido en un asunto extrao y exigente, tanto Pentaho como Jaspersoft han sido capaces de obtener importantes ingresos. Estos fabricantes proponen suites de Business Intelligence completos sobre los que tienen un control absoluto de la tecnologa: el merdaco de los programas de Business Intelligence de open source est compuesto por grandes conjuntos que analizamos a continuacin.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3 LOS ELEMENTOS DEL BUSINESS INTELLIGENCE


Antes de pasar a la creacin de soluciones completas de Business Intelligence, los proyectos de open source se concentran cada uno sobre un mbito concreto del Business Intelligence.

De este modo, los proyectos BIRT o JasperReports permiten generar informes, y los proyectos Mondrian y JPivot permiten presentar los datos de forma multidimensional. Estos proyectos estaban y estn todava destinados a ser integrados como elementos dentro de desarrollos especficos.

Determinadas plataformas de Business Intelligence de open source se basan en elementos ya experimentados y los integran para crear una solucin homognea, en la que todas las funcionalidades estn disponibles en un marco nico y se vuelven interoperables.

En esta seccin, vamos a presentar los principales elementos del Business Intelligence disponibles en el open source y que podemos reagruparlos en las siguientes categoras:

ETL: Pentaho Data Integration (Kettle), Talend Open Studio Generador de informes: BIRT, JasperReports y Pentaho Report Designer. Anlisis: Mondrian, JPivot, Palo y JPalo. Data mining: Weka.

3.1 PENTAHO DATA INTEGRATION: PDI (EX KETTLE)


3.1.1 Presentacin PDI es un ETL de open source que permite concebir y ejecutar operaciones de manipulacin y transformacin de datos.

Gracias a un modelo grfico basado en etapas, es posible crear sin programacin procesos compuestos por importaciones y exportaciones de datos, adems de las distintas operaciones de transformacin como las conversiones, uniones, aplicaciones de filtros o incluso la ejecucin de funciones JavaScript.

El PDI con el nombre de Kettle ha convertido en open source a partir de la versin 2.2 y se ha integrado rpidamente en el proyecto de plataforma de Business Intelligence Pentaho (consultar ms adelante en este libro blanco) que, desde entonces, lo ha renombrado como Pentaho Data Integration.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

A da de hoy, el Pentaho Data Integration est disponible en la versin 3.1. Se ha mejorado en gran medida la ergonoma y han aparecido nuevas etapas.

3.1.2 Caractersticas PDI permite crear dos tipos de procesos: Las transformaciones: tratamientos realizados en el mbito de una o varias bases de datos que comprenden operaciones de lectura, manipulacin y escritura. Las tareas: tratamientos en un mbito ms alto, que combinan acciones como la ejecucin de una transformacin PDI, el envo de un correo electrnico, la descarga de un archivo o el lanzamiento de una aplicacin. Es posible realizar acciones diferentes en funcin del xito o fracaso de cada etapa.

PDI tambin se puede utilizar con un referencial compartido. De este modo, varios desarrolladores pueden utilizar objetos comunes. Este referencial est almacenado en una base de datos relacionada y el desarrollador puede conectarse de forma regular a varios referenciales sucesivamente.

PDI puede conectarse a un gran nmero de bases de datos, entre las que se incluyen Oracle, Sybase, MySQL, PostgreSQL, Informix, SQLServer y otras; tambin puede utilizar datos procedentes de archivos de texto, XML y Excel.

PDI dispone de: Un detector de presencia de archivos y lectura de directorio. Conector en lectura y escritura con cubos Molap PALO. Conector LDAP y lectura de archivos LDIF Conector SalesForce (lectura) Lista de plug-in disponibles en

http://wiki.pentaho.com/display/EAI/List+of+Available+Pentaho+Data+Integration+Plug-Ins

Las transformaciones y las tareas se crean a travs de la accin de arrastrar-soltar de las distintas etapas de los procesos. En cada etapa hay diferentes asistentes disponibles que permiten, por ejemplo, generar automticamente las consultas de lectura y de creacin de tablas.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Ejemplo de transformacin

3.1.3 Las aplicaciones PDI se compone de 3 aplicaciones: Spoon: entorno grfico de creacin y ejecucin de transformaciones y tareas. Pan: aplicacin de lnea de comando que permite poner en marcha la ejecucin de una transformacin determinada. Kitchen: aplicacin de lnea de comando que permite poner en marcha la ejecucin de una tarea determinada.

Pan y Kitchen se utilizan para planificar la ejecucin de las transformaciones y tareas. Si se instala nicamente la herramienta Pan es muy ligera en varios servidores, las interfaces que se lanzan a travs de PDI podrn ejecutarse en varios servidores de forma simultnea. En este caso, hablamos de ejecucin en modo racimo. De este modo, se dispone del medio para controlar el tiempo de funcionamiento de las interfaces cuando las ventanas de noche se reducen.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.1.4 Planificacin Normalmente, resulta aconsejable que las transformaciones o las tareas creadas con PDI se ejecuten de forma peridica. Principalmente, es el caso de las tareas de sincronizacin o de creacin de almacenes de datos.

PDI no integra directamente un planificador de tareas. Por lo tanto, la ejecucin se basa en un sistema externo, como los planificadores de tareas de Windows o Unix.

En asociacin con la plataforma Pentaho y a travs de la consola de gestin de Pentaho, resulta posible planificar y seguir la ejecucin de tratamientos PDI.

3.1.5 Utilizacin En el contexto del soporte para la toma de decisiones, PDI se utiliza para crear un datawarehouse, realizando la importacin de los datos desde distintas fuentes, su consolidacin y edicin.

El uso de PDI presenta varias ventajas con respecto a las soluciones basadas en scripts: La creacin de flujos de datos complejos es muy sencilla. El mantenimiento es mucho ms fcil porque todos los flujos de datos son visibles de una sola vez en una interfaz nica y centralizada.

PDI tambin encontrar su sitio en todos aquellos proyectos que no estn relacionados con el Business Intelligence y que tengan la necesidad de realizar de forma peridica tratamientos sobre determinados datos y sincronizaciones entre distintas bases.

3.1.6 Ejemplo Analicemos las etapas necesarias para la creacin y lanzamiento de una sincronizacin entre dos tablas contenidas en bases diferentes: 1. Soltar un objeto extraccin desde tabla en el espacio de trabajo. 2. Editar el objeto extraccin desde tabla, elegir la fuente de datos y la tabla pertinentes. Se genera automticamente una consulta SQL, pero puede ser modificada con total libertad. 3. Soltar un objeto insercin en tabla en el espacio de trabajo. 4. Unir estos dos objetos.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

5. Editar el objeto insercin en tabla, elegir la fuente de datos y el nombre de la tabla. Kettle se encarga de la creacin de una tabla nueva o de la modificacin de una tabla existente utilizando la informacin transmitida a travs de las etapas anteriores. 6. Iniciar la sincronizacin.

***traduir*** EXECUTION D'UNE TRANSFORMATION DANS SPOOL

3.1.7 Conclusin PDI es una herramienta eficaz para realizar de forma rpida todo tipo de tratamientos sobre las bases de datos. Necesario en la mayora de los proyectos de Business Intelligence, tambin resultar til en todos los proyectos que utilicen bases de datos y que necesiten operaciones de sincronizacin o de exportacin.

PDI tiene la ventaja de que es competente, fcil de utilizar, completamente de open source y est conectado con la suite de Business Intelligence Pentaho, que se presentar ms adelante.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.2 TALEND
3.2.1 Presentacin Talend es un ETL de open source, desarrollado por la empresa Talend con sede en Francia. Talend es un ETL de tipo generador de cdigo, es decir, que permite crear de forma grfica procesos de manipulacin y transformacin de datos y, despus, generar el ejecutable correspondiente en forma de programa Java o Perl. Este programa Java o Perl debe abrirse en el servidor de ejecucin y ejecutarse.
1

Talend es el ETL utilizado por las soluciones SpagoBI y JasperSoft (donde cambia de nombre y pasa a ser JasperETL).

3.2.2 Definicin de los procesos Los procesos de manipulacin de datos se crean utilizando un modelo grfico basado en la accin arrastrarsoltar. Existen numerosos tipos de etapas para conectarse a las principales bases de datos, as como para tratar distintos tipos de archivos (CSV, Excel, XML).

Talend dispone de funcionalidades nicas para un ETL de open source: Las etapas ETL (Extract Transform Load ), que sacan partido de la base de datos meta para las distintas operaciones, lo que mejora enormemente el rendimiento a costa de las posibilidades ms limitadas. Conectores para determinadas aplicaciones de CRM (SugarCRM, SalesForces y CentricCRM), lo que evita manipular los modelos relacionales de estas herramientas.

Hay que tener en cuenta que Talend facilita la creacin de consultas en las bases de datos, detectando las relaciones entre las tablas gracias a las claves exteriores y proponiendo una interfaz al acceso. Tambin es posible aadir simplemente nuevas funciones y elementos para realizar procesos ms complejos.

http://www.talend.com/

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

PROCESO

MODIFICACIN DE VALORES

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.2.3 Modelos de empresa Talend tambin permite crear un modelo de empresa (Business Model) para mejorar las interacciones entre los distintos sistemas y bases de datos. La informacin de conexin, los metadatos y los documentos pueden estar asociados a cada elemento. Por lo tanto, el modelo constituye una verdadera documentacin del sistema de informacin.

MODELO DE EMPRESA A partir de aqu, este modo es completado con un generador de documentacin tcnica que permite a los desarrolladores ganar tiempo en la etapa de las especificaciones tcnicas a menudo olvidada.

3.2.4 Gestin de contextos Talend permite gestionar los contextos y aplicarlos a las transformaciones. Por lo tanto, se puede ejecutar el mismo proceso en el entorno de desarrollo, de prueba o de produccin, cada vez con el uso de buenas conexiones a las bases de datos y metadatos correctos.

3.2.5 Aplicacin de los procesos Se produce una vez que se ha generado el programa, es instalado por un administrador en la mquina y su ejecucin se planifica utilizando el servicio cron de Unix o las tareas planificadas de Windows, segn sea el caso.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Con la versin TIS (Talend Integration Suite), se propone una funcin Distant Run y CPU Balancer que permite a Talend integrarse perfectamente en entornos profesionales industrializados.

A travs de su consola de supervisin en modo cliente Java o en modo Web, las personas encargadas de la explotacin de las interfaces cuentan con tablas de tendencias que sintetizan la buena o mala ejecucin de los tratamientos.

3.2.6 Conclusin Talend es un producto completo. Talend ha colaborado con numerosas empresas fabricantes de soluciones de Business Intelligence o de bases de datos, lo que refuerza su posicin en el mercado. En 2008, Talend complet su oferta con una nueva herramienta Talend Open Profiler que permite completar la actividad ETL con una gestin de la calidad de los datos entrantes. Esto permite, por ejemplo, controlar de forma ms sencilla la unificacin de los datos y reconocer automticamente los datos pertenecientes a la misma familia.

Observamos que Talend propone un conjunto Talend Integration Suite (TIS) de acuerdo a una suscripcin anual, que comprende funcionalidades muy avanzadas como la gestin de aplicaciones complejas, la supervisin de ejecuciones y la gestin de referenciales compartidos.

Al igual que PDI, Talend ser utilizado de forma favorable en los proyectos de Business Intelligence; aunque encontrar un lugar ms oportuno en los proyectos de urbanizacin de los sistemas de informacin, permitindole unificar los modos de intercambio entre las distintas aplicaciones de la empresa.

3.3 BIRT
3.3.1 Presentacin BIRT
2

(The Business Intelligence and Reporting Tool) es un proyecto de la comunidad Eclipse que rene un

generador de grficos, un generador de informes y un entorno de diseo.

http://www.eclipse.org/birt

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

El proyecto fue iniciado por la empresa Actuate

que comercializa una oferta de Business Intelligence que

integra BIRT y que ha adoptado la licencia de open source para BIRT.

3.3.2 Generador de informes El motor de BIRT es una biblioteca que permite generar informes (con parmetros o no) en formato HTML, PDF, XLS, DOC o PPT. Estos informes pueden ser complejos y contener varias tablas, grficos e imgenes. Los datos que se muestran pueden proceder de bases y de consultas diferentes. El motor de BIRT puede estar integrado en cualquier aplicacin desarrollada con lenguaje Java, tanto si se trata de una aplicacin web como si es una aplicacin de tipo cliente servidor.

EJEMPLO DE INFORME DE BIRT

http://www.actuate.com

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.3.3 Diseo de informes

CREACIN DE INFORME DE BIRT

BIRT dispone de una herramienta de diseo de informes que permite crear y modificar los informes de forma grfica, colocando elementos (tablas, grficos) en un informe vaco. Esta herramienta se integra en forma de plug-in en la herramienta de desarrollo Eclipse autnoma.
4

pero tambin se puede utilizar como una aplicacin

Tambin es posible la definicin de un informe que sea simplemente un archivo XML, pero resulta mucho ms largo y poco aconsejable, pudindose crear informes sin pasar con esta herramienta.

La creacin de un informe comprende varias etapas: La definicin de las fuentes de datos: se pueden aadir una o varias fuentes de datos (bases de datos compatibles JDBC o archivos de texto) al informe. La definicin de los juegos de datos: un juego de datos es un conjunto de informacin destinado a ser editado por una tabla o grfico. Se trata del resultado de una consulta SQL ms o menos compleja sobre una fuente de datos. El usuario dispone de un asistente para facilitar la creacin de

http://www.eclipse.org

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

esta consulta y, adems, puede combinar diferentes fuentes de datos heterogneas vinculndolas a travs de una clave comn. La colocacin de los elementos: los elementos bsicos (tablas, listas, grficos, imgenes, etc.) se insertan en el informe a travs de la accin arrastrar-soltar. La configuracin: un juego de datos se asocia a cada elemento y los parmetros del proyecto grfico se modifican. La previsualizacin: la opcin de previsualizacin permite iniciar la generacin del informe.

3.3.4 Pblico de destino La herramienta de diseo de informes de BIRT se destina en primer lugar a los desarrolladores, puesto que resulta necesario crear juegos de datos utilizando consultas SQL.

Sin embargo, resulta posible hacer accesible BIRT a los usuarios finales que tengan un perfil menos tcnico, utilizando determinadas funcionalidades que permitan evitar las etapas ms complejas:

En un primer lugar, es posible crear bibliotecas de recursos que contengan elementos bsicos para crear un nuevo informe: las fuentes de datos, la hoja de estilo de la empresa y un conjunto de juegos de datos. Estos elementos pueden incorporarse en un nuevo informe a travs, simplemente, de una accin de arrastrarsoltar.

Adems, el usuario podr crear sus propios juegos de datos realizando uniones de juegos de datos existentes. Por ejemplo, si la biblioteca contiene los juegos de datos clientes (lista detallada de clientes) y ventas (lista de ventas que incluye una referencia del cliente, el producto, etc.), el usuario podr crear fcilmente un juego de datos ventas por cliente (lista detallada de las ventas de cada cliente). A continuacin, podr aadir columnas con clculos y filtrar los resultados a travs de un asistente.

3.3.5 Tablas cruzadas Hace ya unos meses, se le poda reprochar a BIRT que no pudiese soportar determinados tipos de grficos y tablas cruzadas; hoy en da, ya se ha subsanado este defecto. No solamente estn disponibles los diagramas de Gantt, de burbujas o diferencias, sino que BIRT permite actualmente crear de forma intuitiva y sencilla cubos y tablas cruzadas a partir de cualquier juego de datos.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.3.6 Conclusin BIRT es una herramienta de reporting muy completa que permite crear de forma rpida informes complejos y controlar su maquetacin. Se beneficia del apoyo de la comunidad Eclipse, que es muy activa.

3.4 JASPER REPORTS


3.4.1 Presentacin JasperReports source.
5

es un motor de informes desarrollado por JasperSoft

y distribuido con licencia de open

Los informes que se generan son archivos XML y pueden ser creados y modificados tambin de forma manual.

Este tipo de informes existe desde el ao 2001 y ya son muy utilizados por numerosas aplicaciones profesionales como parte de su funcin de reporting.

3.4.2 Generador de informes El motor JasperReports permite la creacin de informes en formato PDF, HTML, XML, CSV, RTF, XLS y TXT. Utiliza JFreeChart para crear los grficos y puede ser integrado en cualquier aplicacin desarrollada con lenguaje Java.

Adems de las bases de datos clsicas, soporta servidores de anlisis multidimensional, lo que le permite aprovechar las posibilidades que ofrece el servidor Mondrian directamente en un informe JasperReport.

5 6

http://jasperreports.sourceforge.net http://www.jaspersoft.com

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Informe realizado con Jasper Report

3.4.3 Diseo de informes El diseo de los estados se realiza tanto por descripcin XML como a travs de una herramienta grfica. En nuestro caso, recomendamos el uso de la interfaz grfica.

Los informes se descomponen en franjas, en las que se colocan los elementos grficos. Cada franja tiene un comportamiento determinado y aparece una o varias veces.

Un informe realiza una iteracin sobre un juego de datos principal. Determinadas franjas se muestran antes o despus del conjunto de datos del informe, mientras se muestran una vez para cada elemento del juego de datos.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Las diferentes franjas disponibles son: Ttulo del informe, mostrado al inicio de la primera pgina. Encabezado de la pgina, mostrado al inicio de cada pgina. Encabezado de las columnas, mostrado antes de los datos. Detalles, repetidos para cada elemento de los datos. Fin de las columnas, mostrado despus del conjunto de datos. Pie de pgina, mostrado al final de cada pgina. ltima pgina, mostrado en la ltima pgina. Pgina de resumen, cierre del informe.

Para crear informes ms ricos, es posible utilizar juegos de datos secundarios en determinados elementos, como los grficos o las tablas o introducir informes secundarios.

3.4.4 Interfaz grfica: iReport Anteriormente, existan varias herramientas de diseo grfico para los informes JasperReports; no obstante, despus de que el fabricante JasperSoft desarrollase la suite de Business Intelligence, la herramienta del fabricante iReport ha sustituido al resto de las herramientas, que eran Jasper Assistant y JasperPal.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

iReport

es, por lo tanto, la herramienta oficial de diseo de informes de JasperReports y se presenta en

forma de aplicacin Java dedicada.

Soporta la totalidad de funcionalidades de JasperReports y cuenta tambin con una extensin dedicada a la administracin de la plataforma de Business Intelligence de JasperSoft.

La interfaz y el modo de funcionamiento de los informes de JasperReports le hace una herramienta indicada principalmente para especialistas.

IREPORT

3.4.5 Conclusin JasperReports es el motor de diseo de informes ms extendido en el mundo del open source.

Hay que observar que todas las plataformas de Business Intelligence permiten el uso de esta herramienta. Su principal defecto es la falta de intuicin en los distintos fabricantes grficos, lo que limita su uso por parte de los usuarios finales.

http://ireport.sourceforge.net

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.5 PENTAHO REPORT DESIGNER


3.5.1 Presentacin JFreeReport se uni al proyecto Pentaho a comienzos de 2006. El nombre de JFreeReport se ha ido abandonando en beneficio del Pentaho Report Designer (PRD).

PRD permite desarrollar informes complejos y, en colaboracin con la plataforma Pentaho, publicarlos directamente en el servidor de Business Intelligence.

3.5.2 Realizacin de informes PRD soporta los formatos PDF, HTML, CSV, Excel y Texto.

Hay que tener en cuenta que los informes tan solo se difunden y ejecutan en modo web, mostrando necesariamente datos actualizados. Los usuarios finales nunca ejecutan ni publican los informes con el cliente pesado; por lo tanto, no puede existir ningn problema de actualizacin de datos, como podra observar en otras soluciones propietarias.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Los informes son definidos en XML, legibles y pueden ser incluso manipulados por una programacin simple.

Informe realizado con Pentaho Report Designer

Pentaho Report Designer es una herramienta de diseo grfico de un estilo similar a iReport o incluso a Crystal Reports, con el concepto de franjas para las zonas repetidas de la pgina (encabezado, encabezado de grupo, lnea, fin de pgina, etc.). Desde la versin 1.7, PRD actualmente, est en la versin 3.8 se ha enriquecido considerablemente y se integra de forma simple en la suite con una publicacin simplificada en la web de los informes creados.

Desde que se abre el programa, una pgina de inicio gua al usuario a travs de las etapas necesarias para la creacin del informe:

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Un asistente permite establecer una nueva conexin, pero, sobre todo, conectarse tambin a un metamodelo (diccionarios de datos) de Pentaho.

Se trata de un importante avance en las herramientas de reporting de open source. PRD ha sido la primera, a finales de 2007, en permitir a un usuario crear un informe sin que sea necesario disponer de conocimientos de SQL.

Tambin estn disponibles varias funciones para realizar operaciones corrientes, como el recuento de ocurrencias en una reagrupacin o funciones de conversin de formato. Estas funciones se presentan en una biblioteca por temas.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.5.3 Conclusin Pentaho Report Designer es una herramienta fcil de manipular, bien integrada en la suite Business Intelligence Pentaho para la gestin de parmetros o la publicacin en la plataforma web. de

Sin embargo, lamentamos algunas limitaciones por parte de PRD a la hora de gestionar tablas cruzadas, salvo las que existen en un esquema Mondrian ya concebido. Una posible alternativa para resolver esta problemtica pasa por integrar informes generados con BIRT (vase apartado 3.3).

3.6 PENTAHO ANALYSIS O MONDRIAN


Mondrian es un servidor OLAP (On Line Analytical Processing) o motor OLAP disponible con licencia de open source EPL (Eclipse Public Licence). Forma parte de la categora de servidores R-OLAP, es decir, de los que acceden a los datos contenidos en una base relacional.
8

Mondrian realiza consultas utilizando el lenguaje MDX, tambin utilizado por otros motores OLAP como el de Microsoft SQL Server. Este lenguaje permite crear consultas cuyo equivalente en lenguaje SQL necesitara un gran nmero de consultas y tiempos de ejecucin mucho ms largos.

http://mondrian.sourceforge.net/

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Mondrian es especialmente potente y permite optimizar el tiempo de respuesta utilizando tablas agregadas, creadas de antemano; no obstante, tambin permite realizar clculos complejos, comparando elementos sobre una dimensin temporal o gestionando jerarquas de recursos asimtricas.

Mondrian es utilizado con los clientes JPivot, JPalo o Pentaho Analyzer (presentados a continuacin), herramientas que proponen una interfaz grfica web de consulta y manipulacin de datos.

El proyecto Mondrian, as como su fundador Julian Hyde se han unido al proyecto Pentaho con el nombre de Pentaho Analysis. Mondrian es utilizado por Pentaho y JasperSoft, y est mantenido principalmente por Pentaho con la participacin de JasperSoft.

Hay que tener en cuenta que Pentaho ha adquirido recientemente una nueva interfaz de navegacin OLAP en Mondrian denominado Analyzer, desmarcndose claramente del punto de ergonoma de la antigua interfaz JPivot utilizada todava por JasperSoft y SpagoBI.

3.7 JPIVOT
JPivot es un cliente OLAP que dispone de una interfaz web. Permite representar un cubo OLAP en forma de tabla cruzada multidimensional y realizar las operaciones clsicas de anlisis (drill down, drill up, rotaciones, filtros, etc.) de forma interactiva.
9

JPivot permite tambin mostrar un grfico que corresponda a los datos presentados en la tabla, que se actualiza conforme se va explorando.

Permite exportar la tabla y el grfico en forma de archivo PDF o de documento Excel para imprimir con el fin de volver a utilizar los datos obtenidos.

La interfaz del usuario puede modificarse fcilmente a travs del uso de hojas de estilo (CSS y XSL).

http://jpivot.sourceforge.net/

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Tabla JPivot (web)

JPivot permite a los usuarios explorar los cubos, pero tambin realizar un drill-through, es decir, mostrar las lneas de datos al inicio de una cifra consolidada (por ejemplo, las N lneas de facturas de enero del producto A en la regin R, etc.).

Drill through en JPivot

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

JPivot es una interfaz eficaz, fcil de utilizar y que no necesita ningn ajuste determinado.

El grupo Mondrian/JPivot est disponible en as suites Pentaho Community Edition, JasperSoft y SpagoBI.

3.8 PALO
Palo
10

es una base de datos multidimensional y en memoria desarrollada en C y distribuida con licencia GPL.

Palo pertenece a la categora M-OLAP: todos los datos se cargan en la memoria y se calculan sobre la marcha, lo que le permite disponer de un buen tiempo de respuesta.

Se puede acceder a la base Palo desde la hoja de clculo Microsoft Excel u OpenOffice Calc mediante un plugin, lo que permite navegar en los datos multidimensionales directamente en las hojas de clculo, muy apreciadas entre nuestros usuarios.

NAVEGACIN EN UN CUBO PALO EN EXCEL

Esta integracin permite sacar partido a las funcionalidades nativas de la hoja de clculo y los grficos de Excel para la capa de presentacin, mostrndose los datos almacenados siempre en la base Palo y nunca en Excel.

10

10 http://www.palo.net

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Tabla de tendencias en MsExcel, creada con Palo

Sin embargo, Palo no se limita a Excel y dispone de API hacia los lenguajes Java y PHP. Tambin puede ser interrogado desde otras aplicaciones como Palo Eclipse Client (JPalo prrafo siguiente) o, por supuesto, otros elementos del conjunto Palo, como Palo Web, una hoja de clculo en modo web.

En el marco de un proyecto de Business Intelligence, Palo deber utilizar los datos de la empresa. A diferencia de Mondrian, que trabaja directamente sobre una base relacional, los datos deben importarse en la base de datos de Palo. Se proporcionan API y permiten escribir en el cubo M-OLAP desde los lenguajes C, Java, PHP y .NET. Adems, se proporciona un ETL por parte de Jedox para alimentar esta base y los ETL de open source Pentaho Data Integration y Talend disponen de conectores hacia PALO.

Hay que tener en cuenta que tambin es posible desde Excel importar datos a partir de un archivo de texto o de una conexin ODBC. No obstante, esta solucin no est adaptada, evidentemente, a la importacin automatizada de un gran nmero de datos.

Palo propone, adems, una funcionalidad diferenciada y muy interesante: la posibilidad de modificar los valores de un cubo. Los valores pueden gestionarse segn distintos estados: valor presupuestado, valor real, valor revisado, etc., lo que permite crear una aplicacin de introduccin de datos descentralizada y consolidar todo al final; o a la inversa: introducir datos globales y clasificarlos posteriormente.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

En su versin empresarial, Palo permite, adems, cambiar a modo web en tres clics una plantilla de introduccin o de restitucin MsExcel. Esta funcionalidad, gestionada por el Worksheet Server, est basada en un motor de conversin Excel/.Net hacia PHP, una funcionalidad nica en el mercado. Presenta en lneas/columnas (como en Excel) una plantilla de introduccin sin que exista la posibilidad de realizar una rotacin o drill. Adems, permite gestionar originalmente el modo Read Only en determinados indicadores y el modo Read-Write en otros.

Por lo tanto, esta funcionalidad permite administrar en modo web un workflow de introduccin controlado: muy til no solamente para la elaboracin de presupuestos, sino tambin para centralizar de forma controlada todo tipo de informacin de Business Intelligence a travs de la web. Palo no es una herramienta profesional off the shelf de elaboracin de presupuestos, pero estn presentes todas las funciones para ello. Hemos tenido la oportunidad de comprobarlo realizando varias aplicaciones de este tipo.

3.9 JPALO
El proyecto JPalo
11

propone herramientas para el servidor Palo, desarrolladas en Java y especialmente el cliente

OLAP Palo Eclipse Client.

Palo Eclipse Client es una aplicacin de tipo cliente complejo que se integra en el entorno de desarrollo Eclipse. Permite presentar los datos en un cubo Palo en forma de tabla cruzada. El usuario puede entonces realizar las operaciones clsicas del anlisis multidimensional.

11

http://www.jpalo.net/

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Cliente Palo Eclipse

En la versin actual, Palo Eclipse Client no propone la representacin de datos en forma de grficos.

JPalo dispone de una interfaz web relativamente sencilla de utilizar, pudiendo interactuar con distintos servidores OLAP, entre los se incluye Mondrian.

JPALO INTERFAZ WEB

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

3.10 WEKA
3.10.1 Presentacin Weka
12

es una herramienta que permite ejecutar algoritmos de data-mining sobre un conjunto de datos.

Tambin es posible, de este modo, aislar poblaciones o extraer reglas a partir de los datos contenidos en el datawarehouse.

Se presenta en forma de una aplicacin independiente que dispone de una interfaz de usuario grfica y otra en lnea de comando.

El usuario puede aplicar uno a uno los diferentes algoritmos o crear, de una forma similar a PDI, un workflow de tratamientos que podr ser utilizado, por ejemplo, en una plataforma de Business Intelligence para analizar de forma peridica los datos.

El uso de Weka implica disponer de un buen conocimiento de data-mining y de los distintos algoritmos estadsticos utilizados.

WEKA - PRETRATAMIENTO

12

http://www.cs.waikato.ac.nz/~ml/index.html

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

WEKA VISUALIZACIN DE LOS DATOS

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4 LAS SUITES DE BUSINESS INTELLIGENCE


Desde hace 4 aos, hemos estudiado e implantado las principales plataformas de Business Intelligence de open source.

Cada solucin es un paquete de programas completo, compuesto por los mdulos que se presentan a continuacin y con una lgica conjunta.

Si al principio los paquetes compartan los determinados elementos de open source que acabamos de presentar y si todava comparten algunos, las soluciones de Business Intelligence de open source tienen ahora tendencia a diferenciarse para aportar cada una respuesta adaptada a las necesidades de los proyectos.

4.1 PENTAHO BI SUITE


4.1.1 Presentacin Pentaho
13

es un paquete de programas que permite la distribucin de funcionalidades y documentos de

Business Intelligence a un gran nmero de personas a travs de una interfaz web.

Pentaho se presenta en versin Community y en versin Enterprise con una suscripcin anual y con mdulos adicionales, as como soporte al proyecto y garantas sobre el producto.

Pentaho es un actor claro e implicado en el mundo open source que ha reunido desde el inicio productos de open source como Kettle o Mondrian. Adems, sabe gestionar su comunidad, dirigirla y al final basarse en sus desarrollos para completarlos e integrarlos en su versin Enterprise.

El dashboard designer es un buen ejemplo de este anclaje en la comunidad de open source. Este mdulo se basa en el CDF (Community Dashboard Framework), desarrollado por la comunidad y que se destina a perfiles tcnicos. Basndose en este framework, el equipo Pentaho ha desarrollado una interfaz wysiwyg de configuracin en modo web, destinada en esta ocasin a usuarios profesionales. El mdulo end-user se integra ahora en la versin Enterprise.

13

http://www.pentaho.com

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.1.2 Caractersticas Pentaho permite, a travs de una interfaz nica, el acceso a distintos elementos de Business Intelligence del suite.

Tambin es posible consultar informes (creados con BIRT o Pentaho Report Designer), utilizar las funciones de exploracin multidimensional de Mondrian y crear tablas de de tendencias.

Desde que se abre un documento, el usuario tiene la posibilidad de modificar los parmetros de ejecucin; por ejemplo, eligiendo el periodo concerniente o los productos representados.

La plataforma permite tambin enviar automticamente por correo electrnico un conjunto de informes a sus destinatarios respectivos. Este envo se puede realizar peridicamente o de forma aislada.

4.1.3 Interfaz usuario Es posible utilizar las funcionalidades de la plataforma Pentaho en una aplicacin web, un portal o mediante la solicitud de web-services.

Pentaho incluye dos interfaces para la presentacin y ejecucin de las distintas acciones disponibles.

Aplicacin web La interfaz de Pentaho por defecto permite el acceso de forma muy sencilla al conjunto de acciones disponibles, as como a las funciones de administracin.

Existe un alto nivel de seguridad implantado en todos los niveles: acceso a los documentos, derechos de actuacin sobre los documentos y tambin seguridad sobre los datos en funcin de la persona conectada, consiguiendo que el responsable de un pas no vea, por ejemplo, ms que los datos de su pas y no los de otros pases.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

APLICACIN WEB PENTAHO 2.0

Esta interfaz constituye la forma ms sencilla de aplicar la plataforma Pentaho y, por lo tanto, se utilizar a menudo de forma prioritaria.

Portal Desde la versin 2.0 y la disponibilidad de una consola de usuario muy ergonmica y multipestaas, la integracin de Pentaho en un portal resulta mucho menos pertinente, incluso intil. La gran utilizacin de iframes en Pentaho funcionamiento que se puede duplicar para la integracin en un portal y, por la disponibilidad de portlets estndar que permiten mostrar listas de informes y despus ejecutarlas, facilitan mucho esta tarea.

La integracin de Pentaho en un portal supone tambin la implantacin de un sistema Single Sign On con la gestin de usuarios en un referencial externo; en general, un anuario LDAP y el reparto de paquetes a travs, por ejemplo, de la solucin de open source CAS.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Figura 2 : Informe Pentaho ejecutado en un portal Liferay

De este modo, la seguridad y la personalizacin de la interfaz son gestionadas por el portal. Por ejemplo, es posible elegir qu portlets se van a mostrar para cada usuario. Como con la interfaz clsica, la informacin del usuario se difunde hasta las acciones de Pentaho, lo que permite devolver documentos adaptados y personalizados. Los portlets proporcionados por Pentaho se utilizarn cuando se desee integrar la plataforma en los portales o intranets de empresa existentes.

4.1.4 Motor de workflow El motor de workflow utilizado es Enhydra Shark procesos de Business Intelligence:
14

Su papel consiste en estructurar la ejecucin de los

Cada funcionalidad (generacin de informes, anlisis) es exigida por la ejecucin de una Accin (xaction en el lenguaje Pentaho).

Un xaction es la sucesin de etapas simples, como la ejecucin de una consulta en una base de datos, la generacin de un estado, el envo de un correo electrnico o la ejecucin de un trabajo de PDI. Los

14

http://www.enhydra.org/workflow/shark/index.htm

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

tratamientos realizados en estas acciones pueden estar bastante impulsados, puesto que es posible tratar de forma separada cada elemento de un conjunto de resultados o realizar clculos especficos a travs de la ejecucin de un programa JavaScript.

El motor de workflow gestiona el encadenamiento de las distintas etapas.

ENVO DE UN ESTADO POR EMAIL

Cada xaction est descrita por un simple archivo XML. Pentaho dispone de la herramienta Pentaho Design Studio, que se integra en el entorno de desarrollo Eclipse y que permite crear grficamente estos archivos.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Pentaho Design Studio

Hay que tener en cuenta que todos los elementos de Business Intelligence soportados por Pentaho constituyen una etapa del workflow. Este hecho permite combinar sus funcionalidades y ampliar muy fcilmente las posibilidades de la plataforma, desarrollando nuevas etapas para conseguir, si se desea, una verdadera aplicacin profesional.

4.1.5 Planificador El planificador utilizado es Quartz


15

Permite planificar cualquier accin de Pentaho.

Tambin es posible crear una accin que genere y enve por correo electrnico un estado, y planificarla para una ejecucin peridica.

El control del planificador (adicin, suspensin y supresin de las acciones) puede realizarse manualmente o utilizando las etapas correspondientes en una accin.

Pentaho permite, por lo tanto, no solamente utilizar herramientas de Business Intelligence con una interfaz nica, sino tambin combinar sus funcionalidades y enriquecerlas gracias a los tratamientos realizados antes y despus de su ejecucin.

15

http://www.opensymphony.com/quartz/

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.1.6 Metadata Una de las principales caractersticas del paquete Pentaho reside en el Pentaho Metadata Editor, que permite crear vistas profesionales de las bases de datos, comprensibles para los usuarios finales.

El usuario no observa ya directamente las tablas bsicas, sino las reagrupaciones de informacin transcritas de nuevo en francs (o en ingls, o en varios idiomas segn los usuarios), resultantes de varias tablas y mostradas en conjunto. Una vez estn definidas estas vistas profesionales, una interfaz web Web Adhoc Query les permite crear consultas sin necesidad de pasar por lenguaje SQL, seleccionando en la pantalla los campos que se deben mostrar y los reagrupamientos que se deben hacer. El Metadata Editor registra el modelo en formato Common Warehouse Model estndar abierto por desgracia, poco dividido de descripcin de almacenamiento.

Pentaho Metadata Editor

4.1.7 Analyzer Analyzer es una nueva interfaz web de navegacin multidimensional para el servidor Mondrian. Los equipos de Pentaho no lo han desarrollado; no obstante, Pentaho lo ha adquirido del fabricante LucidEra, que propona su programa en SaaS pero que ha resultado un fracaso. La operacin financiera resulta bastante excepcional en la medida en que la herramienta de LucidEra funcionaba ya con el servidor Mondrian de Pentaho, lo que ha permitido una integracin de la versin GA en menos de un mes y, oportunamente, ha permitido a Pentaho recuperar los desarrolladores del producto.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Analyzer permite construir su vista multidimensional con el ratn, arrastrando-soltando las dimensiones e indicadores, y a continuacin filtrando y excluyendo valores. Permite a los usuarios profesionales crear campos calculados, apropindose de la frmula sin que exista, por lo tanto, un lmite de complejidad.

Pentaho Analyzer Con este Analyzer, Pentaho se dirige decididamente hacia los usuarios finales y les proporciona una herramienta de anlisis que es, a la vez, de fcil acceso y muy potente.

4.1.8 Dashboard designer Pentaho propone desde la versin 2 un dashboard designer que permite crear pginas compuestas en modo web. Pentaho ha elegido una implantacin con modelos predefinidos en los que las zonas pueden contener informes existentes o nuevas consultas ad hoc.

En cada zona, el usuario puede elegir mostrar una tabla, un grfico, un cubo, un informe, etc. Las tablas y los grficos pueden crearse a partir del solicitante ad hoc y se apreciar la calidad de los grficos propuestos, creados en Flash.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

El usuario tambin puede definir filtros que se aplicarn a todas las zonas y obtener una tabla de tendencias del siguiente modo:

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.1.9 Comunidad El proyecto Pentaho es actualmente muy activo y demuestra la actividad de un gran fabricante de software.

Varios proyectos de Business Intelligence de open source como Kettle, Mondrian, Weka y JFreeReport se han unido al proyecto Pentaho, lo que garantiza una perfecta integracin y una evolucin coherente del conjunto.

La comunidad que rodea al proyecto tambin es dinmica como lo demuestra la actividad del foro de Pentaho, as como las distintas contribuciones realizadas por los usuarios al proyecto.

4.1.10 Conclusin En su versin 3.5, Pentaho es una plataforma de Business Intelligence muy completa y autosuficiente.

Permite no solo utilizar las distintas herramientas de Business Intelligence de open source desde una interfaz nica y sencilla de utilizar, sino tambin ampliar y combinar sus funcionalidades gracias a la utilizacin de un motor de workflow.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.2 SPAGOBI
4.2.1 Presentacin SpagoBI
16

es una plataforma de Business Intelligence desarrollada por la empresa italiana Engineering


17

Ingegneria Informatica

Esta plataforma se distribuye nicamente con licencia de open source GPL.

4.2.2 Caractersticas SpagoBI permite ejecutar los informes Jasper Report y BIRT. SpagoBI permite tambin el anlisis de datos con Mondrian/JPivot.

SpagoBI est compuesto por un elemento de ayuda para la creacin de consultas (Query By Example), que permite al usuario seleccionar grficamente los datos para mostrar la base de produccin (no obligatoriamente de un almacn de datos), despus realizar clasificaciones, agrupaciones, selecciones y exportar el resultado.
18

La interfaz grfica de SpagoBI utilizaba en su versin 1.x el portal eXo portal

, lo que le aportaba una carga

adicional en la administracin de la plataforma; no obstante, la versin 2.x permite deshacerse de sta incluso si la integracin a un portal sigue siendo posible.

16 17 18

http://spagobi.eng.it http://www.eng.it/ http://www.exoplatform.com/

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.2.3 Interfaz usuario

JPIVOT EN SPAGOBI La solucin se encarga de la seguridad, con una gestin de los papeles de los usuarios para las pginas y los grupos de documentos de Business Intelligence. Existen perfiles diferentes para los usuarios, los desarrolladores y los administradores.

Informe BIRT en SpagoBI

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

NAVEGACIN EN EL RBOL DE DIRECTORIOS DE LOS DOCUMENTOS

4.2.4 Workflow de publicacin SpagoBI integra la gestin del ciclo de creacin, pruebas y validacin de los documentos de Business Intelligence (informes, cubos, multidimensionales, etc.). Todas estas operaciones se realizan directamente desde la interfaz de administracin. Es posible crear estados borrador que solo los desarrolladores podrn ver y comprobar, sin que aparezcan en el entorno de los usuarios.

Las distintas versiones de cada estado y de los archivos adjuntos (plantillas, imgenes, etc.) se registran; es posible, adems, recuperar en cualquier momento una versin antigua.

Esta funcionalidad permite actualizar los documentos de Business Intelligence sin tener acceso al propio servidor y comprobarlos en condiciones reales antes de su publicacin.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.2.5 Componentes utilizados SpagoBI utiliza varios componentes de Business Intelligence de open source: Informes: JasperReports, BIRT Anlisis: Mondrian, JPivot, JPalo Data mining: Weka ETL: Talend Open Studio La funcin de creacin de consultas SQL (Query By Example) es desarrollada especficamente por SpagoBI, del mismo modo que el motor de muestra de KPI.

MOTOR KPI

4.2.6 Integracin de los datos SpagoBI ha seleccionado Talend como el ETL de referencia para esta plataforma. Es posible activar y planificar tratamientos de datos directamente desde el portal.

4.2.7 SpagoBI Studio y Meta A finales de 2009, los equipos de SpagoBI crearon una versin de SpagoBI Studio: un entorno de desarrollo de informes y de configuracin de los distintos motores disponibles en SpagoBI.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Integrado en Eclipse, el Studio permite crear un informe con BIRT o JasperReport y mostrarlo despus en una plataforma web SpagoBI en un simple clic. Antes era necesario cargar el archivo generado en la plataforma web y despus crear las listas de valores.

Studio permite tambin crear ms fcilmente tablas de tendencias heterogneas, mapas geogrficos, cubos, etc.

Se trata, innegablemente, de una importante aportacin que va a aligerar considerablemente el trabajo de creacin/configuracin de los documentos de Business Intelligence en SpagoBI.

4.2.8 SpagoBI Meta Meta es la capa semntica sobre la que se apoya SpagoBI v3.1 para sus motores de reporting. Meta permite crear ya business models a travs de un entorno Eclipse, sobre los que la interfaz QbE permitir a los usuarios despus hacer consultas y crear informes.

Es un componente todava en desarrollo, pero que va a evolucionar rpidamente en los prximos meses y que va a paliar las faltas funcionales de SpagoBI y permitir a los usuarios realizar su propio reporting con toda la autonoma.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.2.9 Comunidad La comunidad que rodea al proyecto SpagoBI es menos importante que la de Pentaho, pero su pertenencia a OW2
19

permite crear una dinmica y un reparto con otros mdulos y fabricantes de open source.

4.2.10 Conclusin SpagoBI es una plataforma de Business Intelligence completa que rene componentes de Business Intelligence desarrollados de forma propia: KPI, Maps, QbE, o de terceros: Mondrian/JPivot, BIRT, JasperReport, Weka, Microsoft SSRS Existe incluso un conector para los informes Business Objects.

SpagoBI ha sabido proponer desde sus comienzos funcionalidades de gestin en el sistema de Business Intelligence con el versionning, los workflows, los comentarios, la contextualizacin y la gestin de usuarios y derechos. Esto la convierte en una herramienta muy interesante y prctica en produccin.

4.3 JASPERSOFT BI SUITE


4.3.1 Presentacin JasperServer
20

es la plataforma de Business Intelligence de JasperSoft, empresa que desarrolla el

generador de estados JasperReport disponible desde 2001.

Esta plataforma propone funcionalidades de reporting y de anlisis y est disponible en dos licencias: GPL y comercial.

4.3.2 Caractersticas En JasperServer encontramos todas las caractersticas de JasperReport y JPivot/Mondrian ya presentes en este documento. Los usuarios tienen la posibilidad de planificar ellos mismos la creacin de informes y recibir el documento por correo electrnico o almacenarlo en un repertorio del referencial.

19 20

http://www.ow2.org http://www.jaspersoft.com/

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

A diferencia de otras plataformas, la interfaz no utiliza un portal de terceros. Disponemos aqu de una aplicacin web desarrollada especficamente que permite crear nuevos anlisis, publicar nuevos documentos, gestionar las cuentas de los usuarios, sus roles, as como los derechos de acceso a los distintos repertorios y archivos del referencial.

VISTA DE UN INFORME DE JASPERSERVER

Para tener en cuenta: para los administradores, la publicacin y la modificacin de los distintos informes es posible directamente desde iReport, aplicacin de creacin de informes de JasperReport.

VISUALIZACIN DEL REFERENCIAL DE BUSINESS INTELLIGENCE EN JASPERSOFT

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.3.3 Componentes utilizados Informes: JasperReports Anlisis: Mondrian y JPivot, bajo el nombre de JasperAnalysis Planificador: Quartz ETL: Talend Open Studio, bajo el nombre de Jasper ETL Es poco probable que esta plataforma soporte otros generadores de estados en el futuro. En efecto, JasperSoft tiene inters en sacar adelante su propia herramienta de reporting.

4.3.4 Dominios JasperSoft propone la creacin de dominios, capas semnticas y tcnicas por encima de las bases SQL relacionales, permitiendo a la vez definir un lxico profesional y abstraerse de la tcnica y del SQL.

Una de las particularidades de JasperSoft es que propone una herramienta de creacin de dominios en modo web, por lo que es muy fcilmente accesible. Si esta herramienta no es grfica, sigue siendo muy prctica y permite varias funciones muy avanzadas, como la creacin de tablas derivadas o de campos calculados complejos.

Creacin de un dominio

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.3.5 Anlisis ad hoc para los usuarios finales JasperServer, versin profesional y enterprise, comprende varias funcionalidades adicionales con respecto a la versin open source.

Una diferencia fundamental es la herramienta de creacin de informes ad hoc (listas, grficos o tablas cruzadas) en lnea, accesible para todos los usuarios.

Los usuarios finales tienen, de este modo, la posibilidad de crear en modo web nuevos documentos en pocos minutos gracias a una interfaz visual basada en asistentes y en acciones arrastrar-soltar.

El fabricante de tablas cruzadas resulta especialmente interesante. Sobre todo, permite crear cubos de memoria en cualquier base relacional sin pasar por un servidor OLAP. A continuacin, permite a los usuarios crear sus filtros, valores calculados y otras manipulaciones clsicas. Por ltimo, es posible programar la ejecucin peridica de este cubo con, por ejemplo, el envo de un correo electrnico. No hay que olvidar que para simplificar la manipulacin, Jasper propone trabajar nicamente con una muestra de valores, es decir, 100 lneas en lugar de toda la tabla.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Tablas cruzadas con JasperServer ad hoc Los lmites con respecto a un verdadero cubo son reducidos, pero se pueden encontrar todava en el mbito de la gestin de agregados no gestionados por Jasper por el momento o en el mbito de los clculos de los indicadores, que son difciles de implantar si se trata de clculos temporales.

La interfaz web de creacin de informes es, en este caso, un valor aadido con la posibilidad para los usuarios finales de construir su anlisis a partir de los datos que se tienen a disposicin, con total autonoma y sin ningn conocimiento informtico.

4.3.6 Creacin de tablas de tendencias JasperSoft dispone tambin de una herramienta de creacin de tablas de tendencias, accesible para cualquier perfil de usuario.

La disposicin es libre y se realiza mediante acciones de arrastrar-soltar con los informes o anlisis ya realizados. La adicin de filtros se facilita a travs de la herramienta que propone los filtros posibles para los elementos seleccionados.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.3.7 Jasper WorkBench Jaspersoft proporciona una aplicacin de concepcin de cubos Mondrian. La aplicacin es una subcapa simple con respecto a la edicin manual de los archivos XML: cada etiqueta se puede modificar con la ayuda de un formulario bsico.

Esta aplicacin no tiene un gran valor aadido, pero har ganar un poco de tiempo a los desarrolladores, evitndoles cualquier posible error de etiquetas XML y proponindoles en el momento adecuado los nombres de las tablas de la base de datos y sus columnas asociadas.

Schema Workbench

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.3.8 Conclusin JasperSoft no ha desarrollado un ETL y distribuye el de Talend. Lo mismo ocurre con las soluciones de datamining. En cambio, Jasper se ha concentrado en la usabilidad de su solucin para los usuarios finales. El resultado es excelente, con una ergonoma 2.0 y para los usuarios no tcnicos, con una gran autonoma para la creacin de nuevos informes y nuevas tablas de tendencias.

4.4 PALO BI SUITE


Jedox, una empresa alemana, es la responsable de la base multidimensional PALO, as como de los diferentes componentes que lo convierten en un paquete de programas completo.

4.4.1 Palo para XL De este modo, Jedox pone a disposicin un plug-in para Microsoft Excel que funciona en lectura pero tambin en escritura.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

Tambin existe el supervision server, que permite el seguimiento de las modificaciones realizadas por los usuarios en los cubos Excel y la generacin de una accin, la worksheet server, que permite difundir las vistas realizadas con Excel directamente en modo web.

4.4.2 Palo Web En su versin 3.0, Jedox ha desarrollado en un tiempo rcord una hoja de clculo en modo web, con un resultado impresionante de sencillez y similitud con Excel.

Palo Web Las ventajas de la hoja de clculo web son mltiples. Por una parte, la difusin de la tabla de tendencias a sus destinatarios se simplifica y es inmediata; por otra parte, se superan las limitaciones de Excel, como, por ejemplo, el bloqueo de las frmulas de las celdas para las zonas de introduccin de datos o incluso el formato repetido de las tablas cruzadas.

En torno a la hoja de clculo web, encontraremos funciones importantes que podran faltar al cliente simple de Excel, como un referencial de informes y de plantillas.

Uno de los puntos fuertes de Palo es que, exceptuando la interfaz Excel, la plataforma web sigue siendo compatible con MsExcel y permite importar archivos trabajados en MsExcel en la web.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

4.4.3 Conclusin La cobertura funcional de Palo y las elecciones tecnolgicas asociadas son muy diferenciadas y no responden a los mismos proyectos que los dems paquetes de open source. Si bien Palo puede ser, a menudo, la nica herramienta de proyectos de Business Intelligence en una empresa, tambin puede ser complementaria a las soluciones como Pentaho o Jasper con sus caractersticas de reporting ad hoc.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

5 SERVICIOS PROPUESTOS POR LOS FABRICANTES


Si en el seno de una comunidad el desarrollo de una herramienta tcnica especfica tiene sentido, cada uno puede utilizar la herramienta en cuestin y aportar sus propias contribuciones. El desarrollo de un paquete de Business Intelligence por parte de una comunidad no existe todava, si bien el esfuerzo es importante.

En este documento se ha expuesto la labor de verdaderas empresas comerciales que estn a la cabeza en los distintos paquetes de Business Intelligence de open source.

Adems, estas empresas, aparte de compartir (o de arrebatarse) los componentes desarrollados por determinadas comunidades, intentan encontrar el mejor medio para rentabilizar su inversin en esta nueva labor de fabricantes de soluciones open source.

Adems de SpagoBI, que difunde su programa completo con licencia GPL, los dems fabricantes (Pentaho, Jasper, Palo, Talend) han decidido poner a disposicin de los usuarios una versin gratuita de uso limitada y reservar para la versin de enterprise los mdulos adicionales.

Adems de estos mdulos complementarios, las versiones de empresa proporcionan un soporte por parte del fabricante que, adems del clsico soporte para solucionar anomalas, ofrece una asistencia para la implantacin de la solucin. En todos los casos, el soporte propuesto por parte del fabricante es una garanta de que, en caso de problemas, no estar solo y dispondr de la ayuda del fabricante para no quedarse bloqueado ni en modo proyecto ni en modo explotacin. En general, los contratos de soporte incluyen tambin una clusula de Intellectual Property protection, es decir, una garanta legal que protege al cliente frente a posibles acciones realizadas por posibles poseedores de patentes. Esta clusula est muy valorada en Estados Unidos y en Inglaterra.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.

6 CONCLUSIN
Hoy en da, las plataformas de Business Intelligence de open source son alternativas completas y de gran credibilidad frente a las soluciones de Business Intelligence comerciales. Los distintos componentes utilizados existen desde hace varios aos y son muy fiables y probados. La web es el soporte predilecto de las plataformas de open source, que proponen la visualizacin, creacin de informes y anlisis de los datos bajo esta forma. Si las soluciones como Pentaho, Jasper o SpagoBI permiten implantar un portal de Business Intelligence completo, tambin es posible aadir fcilmente funcionalidades de Business Intelligence a una aplicacin existente, utilizando por separado los componentes sobre los que se basan estas plataformas. Desde la primera versin de este libro blanco, las herramientas han evolucionado de forma continua e integran en la actualidad funcionalidades interactivas potentes, apreciadas por los usuarios y administradores. Numerosas empresas se decantan en la actualidad por las herramientas de Business Intelligence de open source, sacando provecho de su rendimiento, su escalabilidad, su capacidad de adaptacin y su reducido coste.

Copyright Smile Iberia, S.L.U. Soluciones Open Source Queda prohibida cualquier publicacin sin autorizacin.