Pentaho Business Intelligence (BI) es una iniciativa en curso por la comunidad de Open Source que
provee organizaciones con mejores soluciones para las necesidades de Business Intelligence (BI) a
las empresa (ver g. 7.2)
La plataforma Open Source Pentaho Business Intelligence cubre amplias necesidades de anlisis de los
datos y de los informes empresariales.
Las soluciones de Pentaho estn desarrolladas en Java y tienen un ambiente de implementacin
tambin basado en Java. Eso hace que Pentaho es una solucin muy exible para cubrir una amplia
gama de necesidades empresariales tanto las tpicas como las sosticadas y especcas del
negocio (ver g.7.3).
Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una
infraestructura de herramientas de anlisis e informes integrados con un motor de workow de
procesos de negocio.
La plataforma ser capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de
procesos y actividades y de presentar y entregar la informacin adecuada en el momento
adecuado, mediante analisis OLAP, Cuadros de Mando, etc.
La solucin Business Intelligence OpenSource Pentaho pretende ser una
alternativa a las soluciones propietarias tradicionales ms completas: Business
Objects, Cognos, Microstrategy, Microsoft, etc por lo que incluye todos
aquellos componentes que nos podemos encontrar en las soluciones BI
propietarias ms avanzadas:
Reporting
Anlisis
Dashboards
Workflow
Data Mining
ETL
Single Sign-On. Ldap
Auditora de uso y rendimiento
Planificador
Notificador
Seguridad. Perfiles
El siguiente esquema nos muestra la arquitectura estructurada de las
diferentes componentes que forman parte de pentaho:
HARDWARE:
Requerimientos Mnimos
Procesador
CPUs : 4 cores
RAM
8gb. (4 gb para Pentaho Data Integration Dedicado, 4 Servidor Apache
Tomcat)
Espacio en
Disco
80gb
SOFTWARE:
Servidor de
Aplicacin
Sistema
Operativo
Linux RedHat
JRE
Java Runtime
Environment
Java 7
JDK
Java Developer
Java 7
RedHat Server
7.0
*Puede ser un
servidor
Virtualizado
Kit
Driver bd
Driver jdbc
Oracle
ojdbc5.jar y
ojdbc6.jar
Conexin de
Pentaho con
Bases de datos
Oracle
Pentaho BI-Server
Pentaho BI Suite
CE
biserver-ce5.4.0.1-130
Contenedor Web
Apache Tomcat
6.0.43
Procesamiento de
Datos (ETLs)
Pentaho Data
Integration CE
pdi-ce-5.4.0.1130
Repositorio de
Datos
Almacn de datos
para tablero de
control
Oracle
11gR2
BD Metadatos de
Pentaho BI-Suite
CE
Oracle
11gR2
Base de Datos
hibernate,
quartz,
jackrabbit
Front-End
Browsers
Mozilla Firefox,
Google Chrome o
Internet Explorer
Incluido en
Pentaho BI Suite
CE
Componentes del Pentaho
Business Intelligence Pentaho es una solucin realizada en Java de cdigo abierto exible y muy
potente que cubre prcticamente todas las necesidadesde una empresa.
Como la misma fue creada con el 100% J2EE, asegurando de esta forma la escalabilidad,
integracin y portabilidad.
Componentes Soportados
Servidor: Pentaho puede correr en servidores compatibles con J2EE como JBOSS AS, IBM WebSphere,
Tomcat, WebLogic y Oracle AS.
Base de datos: Va JDBC, IBM DB2, Microsft SQL Server, MySQL, Oracle, PostgreSQL, NCR Teradata,
Firebird.
Sistema operativo: No existe dependencia; lenguaje interpretado.
Lenguaje de programacin: Java, Javascript, JSP, XSL (XSLT / XPath / XSL-FO).
Interfaz de desarrollo: Java SWT, Eclipse, Web-based.
Todos los componentes estn expuestos va Web Services para facilitar la integracin
con Arquitecturas Orientadas a Servicios (SOA) .
Tambin todos los repositorios de datos del Business Intelligence Pentaho estn basados en XML.
La g. 7.5 visualiza la interaccin entre los diferentes componentes de Pentaho.
Pentaho Business Intelligence abarca las siguientes areas de reporte:
Pentaho Reporting
La solucin proporcionada por la plataforma Business Intelligence OpenSource Pentaho e integrada en
su suite para el desarrollo de informes se llama Pentaho Reporting (ver g. 7.6).
Existen tres productos con diferentes enfoques y dirigidos a diferentes tipos de usuarios:
Pentaho Report Designer
Es un editor basado en Eclipse con prestaciones profesionales con capacidad de personalizacin
de informes a las necesidades de los negocios destinado a desarrolladores.
Esta herramienta est estructurada de forma que los desarrolladores puedan acceder a sus
prestaciones de forma rpida.
Incluye un editor de consultas para facilitar la confeccin de los datos que sern utilizados en un
informe.
Pentaho Report Design Wizard
Es una herramienta de diseo de informes, que facilita el trabajo y permite a los usuarios obtener
resultados de forma inmediata. Est destinada a usuarios con menos conocimientos tcnicos.
Web ad-hoc reporting
Es el similar a la herramienta Pentaho Report Design Wizard, pero via web.
Esta herramienta extiende la capacidad de los usuarios nales para la creacin de informes a partir
de plantillas preconguradas y siguiendo un asistente de creacin.
La g. 7.7 permite visualizar los distintos tipos de reportes desarrollados con cualquiera de las
harramientas de Pentaho Reporting.
Pentaho Anlisis
Ayuda a operar con mxima efectividad para ganar perspicacia y entender lo necesario para tomar
optimas decisiones.
Las caractersticas generales son:
Vista dimensional de datos (por ventas, por perodo, por empleados, etc.).
Navegar y explorar (Anlisis Ad Hoc, Drill-down, etc.).
Interactuar con alto rendimiento mediante tecnologas optimizadas para la rpida respuesta
interactiva.
La g. 7.8 y la g. 7.9 nos permite visualizar las distintas formas de anlisis e interpretacin de los
datos que posee el Pentaho Anlisis.
Figura 7.8: Visualizacin de los diferentes paneles de analisis con el Pentaho Anlisis.
Figura 7.9: Pentaho Anlisis permitira a el ususario nal realizar diferentes
analisis de las variables o de los campos de la bases de datos de estudio.
Pentaho Dashboards
Esta solucin provee inmediata perspicacia en un rendimiento individual, departamental o
empresarial. Pentaho Dashboards facilita a los usuarios de los negocios informacin crtica que
necesitan para entender y mejorar el rendimiento organizacional.
El Pentaho Dashboards es una potente herramienta que cuenta con las siguientes caractersticas:
Identicacin de mtricas clave (KPIs, Key Performance Indicators), mediante la generacin
de Monitoreo/Mtricas.
Realizacin de investigaciones de detalles subyacentes, con reportes de soportes.
Ejecucin de seguimientos de excepciones, permitiendo pre-establecer alertas basadas en
reglas del negocio.
Como se puede apreciar en la g. 7.10, se ovservan todas las caractersticas antes mencionadas.
Figura 7.10: El Pentaho Dashboards es una potente herramienta que permite
la incorporacin de mltiples tipos
de grcos, tablas y velocmetros a un
determinado proyecto de Business
Intelligence.
Pentaho Data Integration
Los datos que alimentan a un sistema data warehouse (DW) proviene de diferentes fuentes, estas
fuentes son los distintos sistemas operacionales que la empresa posee, generalmente ni son
homogneos entre s ni concuerdan exactamen con lo que se necesita, por lo que ser necesario
realizar todas las adaptaciones pertinentes.
Tambin muchas organizaciones tienen informacin disponible en aplicaciones y base de datos
separadas.
Pentaho Data Integration abre, limpia e integra esta valiosa informacin y la pone en manos del
usuario. Provee una consistencia, una sola versin de todos los recursos de informacin, que es
uno de los ms grandes desafos para las organizaciones TI hoy en da.
Pentaho Data Integration permite una poderosa ETL (Extract, Transform, Load) Extraccin,
Transformacin y Carga.
El uso de la solucin Kettle permite evitar grandes cargas de trabajo manual frecuentemente difcil
de mantener y de desplegar.
La arquitectura de Pentaho Data Integration viene representada por el esquema de la g. 7.11.
Figura 7.11: Visualizacin del esquema de Pentaho Data Integration.
Data Mining
La plataforma Business Intelligence OpenSource Pentaho ofrece diferentes soluciones para el
desarrollo de un proyecto deBusiness Intelligence.
En este caso se har referencia a la solucin integrada al paquete Business Intelligence Pentaho para
el desarrollo de proyectos de Data Mining.
El Weka (Waikato Enviroment for Knowledge Analysis) es un conjunto de libreras JAVA para la
extraccin de conocimientos desde bases de datos (ver g. 7.12).
Figura 7.12: Weka (Waikato Enviroment for Knowledge Analysis)
http://www.cs.waikato.ac.nz.
Es un software que ha sido desarrollado bajo licencia GPL lo cual ha impulsado que sea una de las
suites ms utilizadas en el rea en los ltimos aos.
Caractersticas Generales del Weka Esta herramienta Open Source incluye las siguientes
caractersticas:
Diversas fuentes de datos (ASCII, JDBC).
Interfaz visual basada en procesos / ujos de datos (rutas).
Distintas herramientas de minera de datos:
Reglas de asociacin (a priori, Tertius, etc.).
Agrupacin / segmentacin / conglomerado (cobweb, EM y k-medias).
Clasicacin (redes neuronales, reglas y rboles de decisin, aprendizaje
bayesiano).
Regresin (regresin lineal, SVM, etc.).
Manipulacin de datos (pick & mix, muestreo, combinacin, separacin, etc.).
Combinacin de modelos (bagging, boosting, etc.).
Entorno de experimentos, con la posibilidad de realizar pruebas estadsticas (Ttest).
Entorno de Trabajo del Weka En la g. 7.13 se visualizar el ambiente de trabajo del weka y
posteriormente se podr analizar en detalle cada entornos de trabajo que esta potente herramienta
onpen source posee.
Figura 7.13: Visualizacin de la ventana principal del Weka.
Como se puede ver en la parte inferior de la g. 7.13, Weka dene cuatro entornos de trabajo
diferentes.
Estos entornos son los siguientes:
Simple CLI : Es un entorno consola que permite la invocacin directa mediante Java a todos
los paquetes de weka.
Explorer : Es un entorno visual que ofrece una interfaz grca para el uso de los paquetes
de weka.
Experimenter : Entorno centrado en la automatizacin de tareas de manera que se facilite
la realizacin de experimentos a gran escala.
KnowledgeFlow: Permite generar proyectos de minera de datos mediante la generacin de
ujos de informacin oworkow.
En este apartado se tratar nicamente el entorno Explorer, ya que permite el acceso a la mayora
de las funcionalidades integradas en Weka de una manera ms sencilla.
La siguiente imagen permiten visualizar el entorno de trabajo que posee Explorer (ver g. 7.14).
Figura 7.14: Visualizacin de la ventana del Explorador.
Como se puede observar en la g. 7.14, existen seis subentornos de ejecucin:
Preprocess: Incluye las herramientas y ltros para cargar y manipular los datos.
Classication: Acceso a las tcnicas de clasicacin y regresin.
Cluster: Integra varios mtodos de agrupamiento.
Associate: Incluye una pocas tcnicas de reglas de asociacin.
Select Attributes: Permite aplicar diversas tcnicas para la reduccin del nmero de
atributos.
Visualice: En este apartado podemos estudiar el comportamiento de los datos mediante
tcnicas de visualizacin.
Ventajas
Software Libre / Open Source:
Pentaho es un software libre bajo varias licencias, entre ellas la licencia GPLv2.
Esta licencia implica que se puede usar, copiar, distribuir y modificar
gratuitamente. Esto es un punto a favor de este software ya que posibilita la
implantacin de un sistema BI bajo un desembolso nulo en licencias de
software. Hay que tener en cuenta que los precios de licencias de software
privativo para este tipo de soluciones de Business Intelligence son caras debido
a su complejo desarrollo. No cualquier empresa se puede permitir la
adquisicin de este tipo de licencias al empezar su actividad en este campo del
anlisis de datos.
Adems de ofrecer la versin gratuita, Pentaho Community Edition, los
creadores de Pentaho ofrecen una versin de pago llamada Pentaho BI Suite
Enterprise Edition. Esta versin es ms completa que la que ofrece con licencia
OpenSource, y destaca por tener un servicio de soporte al usuario para
resolver cualquier tipo de incidencia con el software. Puedes informarte ms
aqu: LINK
ltimas tecnologas:
Pentaho ha sido creado bajo las plataformas libres de Java y MySQL. Ambas
plataformas estn en auge y cada vez ms gente hace uso de ellas. Son fciles
de usar, compilar y programar, lo que posibilita un fcil desarrollo e integracin
en otros sistemas ya creados o a desarrollar. Segn el ranking de los lenguajes
de programacin de 2011 elaborada por el portal de tecnologa Eweek , el
lenguaje de programacin JAVA es el lenguaje ms usado en la actualidad.
Comunidad:
La comunidad de Pentaho es muy amplia. Todo software antes de ser liberado
oficialmente, cuando an est en la fase beta, pasa por una serie de pruebas
realizadas por la comunidad de Pentaho de forma altruista. Usuarios de la
aplicacin que reportan fallos y ponen a prueba todo tipo de opciones
disponibles del software.
Adems, se cuenta con una wiki en constante actualizacin que orienta a los
usuarios en posibles problemas o dudas que pudieran tener a la hora del uso o
implantacin del software.
Software por piezas:
Pentaho no es una sola aplicacin, sino es una recopilacin de programas
especficos segn las funciones ofertadas. Pentaho oferta una serie de
programas para realizar las siguientes funciones:
Informes: permite crear a los usuarios y personalizar informes adems de
exportar en multitud de formatos.
Anlisis: a travs de las potentes herramientas ayuda al usuario a ampliar la
perspectiva y mejorar la toma de decisiones en el negocio.
Cuadros de mando: ofrece al usuario final opciones de visualizacin en tiempo
real de los datos, gestinanos por 'displays' interactivos y ltimas tecnologas
multimedia para facilitar la interaccin con la herramienta y manejo de datos.
Integracin de datos: dispone de aplicaciones potentes para la extraccin,
transformacin y carga de datos en diversas plataformas de bases de datos.
Todos los programas desarrollados por Pentaho son creados y diseados con
independencia del resto y en esquema modular. Con ello se logra descargar,
instalar o hacer uso de algunas de las aplicaciones con independencia del
resto, haciendo posible una posible integracin con otros programas ajenos a la
Suite.
Instalacin de Pentaho BI Suite Community
Edition 1.7.0
Introduccin
Pentaho BI Suite es una herramienta open source perteneciente a la familia de
aplicaciones de Business Intelligence. Por su amplia difusin en el sector, vamos a
conocerlo a travs de algunos tutoriales. En este primero procedemos a su instalacin.
Instalacin de Pentaho BI Suite Community Edition
1.7.0 (aka Pentaho Open BI Suite)
El tutorial se ha realizado con la siguiente plataforma:
Equipo C2Duo 1.5Gz, 3GB Ram
Windows Vista Home Premium SP1
JDK 1.5.0_16, MySQL Server 5.1
Veremos que la base de datos MySQL no es un requisito previo (esta distribucin de
Pentaho la incluye) pero, en el caso presentado, ya disponemos de ella.
1.- Seleccin y descarga de los componentes de la suite de Pentaho
Accedemos a la pgina de descarga http://www.pentaho.com/download/ y
seleccionamos todos los productos:
BI Server/Platform
Reporting
Analysis (mondrian)
Dashboards
Data Integration (kettle)
Data Mining (Weka)
a continuacin, el sistema operativo (windows); y en la ltima pantalla disponemos del
enlace de la suite para su descarga. Dejo indicado que si en el momento de leer este
tutorial ya no se ofrece la descarga directa de la versin 1.7.0.1062, puede obtenerse
desde la pgina del proyecto en sourceforge en:
http://sourceforge.net/project/showfiles.php?
group_id=140317&package_id=160028
bajo la release 1.7.0 (stable) en su versin i386: pentaho-1.7GA-windowsopensource-installer.exe.
2.- Pasos de la instalacin
Esta versin se instala mediante wizard, y el paquete incluye tanto el servidor y
contenedor de portlets (JBoss Portal 2.6.1) como una base de datos (MySQL Server
5.0.24), que pueden o no ser utilizados. Comencemos:
Pantalla de introduccin al wizard de instalacin de Pentaho BI
Seleccionamos todos los componentes de la suite
Instalacin de Pentaho BI con el servidor JBoss Portal incorporado y
configurado. La instalacin avanzada permite desplegar y
configurar Pentaho BI manualmene en un servidor de nuestra
eleccin.
Ruta de instalacin de la suite. En Windows Vista debe tenerse
precaucin con los directorios protegidos a procesos sin privilegios
En el caso
de este tutorial, ya se dispone de una base de
de administracin (\,\Program
Files).
datos MySQL Server 5.1 instalada en el equipo, por lo tanto
seleccionamos la opcin intermedia para integrar Pentaho con ella.
Tambin se puede instalar MySQL junto con Pentaho (1 opcin) o
bien usar un esquema existente (ltima opcin).
La instalacin crear un usuario y tablas y las poblar con
datos de configuracin y de ejemplo. En los siguientes pasos
configuraremos la conexin con el repositorio.
Resolvemos la ruta de binarios y configuracin de conexin de MySQL
Introducimos las credenciales del usuario administrador de la base de datos
Podemos registrar JBoss como servicio de Windows para que sea
levantado automticamente en cada inicio del sistema operativo.
Escogemos un nombre para el esquema del repositorio con Hibernate
Escogemos un nombre para el esquema del repositorio del planificador de
procesos Quartz
Escogemos un nombre para el esquema del repositorio con una carga inicial de datos
para ejecutar los ejemplos en Pentaho
Datos para la creacin de un nuevo usuario en la base de datos
asociado a nuestra instalacin de Pentaho. Por ejemplo:
Usuario: pentaho_user
Contrasea: pentaho
El proceso de copia de ficheros y configuracin tuvo una duracin de 10 minutos
Al finalizar podemos registrarnos en Pentaho.com o bien omitir el paso (en este caso
seleccionar la tercera opcin)
Finalizada la instalacin, podemos iniciar la aplicacin directamente desde el asistente
Primera ejecucin de Pentaho Open BI Suite
Bien iniciemos el servidor al finalizar la instalacin, o bien desde el Men Inicio
| Pentaho | Pentaho Open BI Suite |Start Open BI Server:
debemos asegurarnos que el puerto 8080 queda abierto. Para ello debe configurarse
los programas de seguridad o firewall instalados en el equipo. En Windows Vista
aparece la ventana habitual del cortafuegos propio del sistema operativo, en la cual
pulsaremos sobre Desbloquear:
Abrir el cortafuegos a la aplicacin del servidor de Pentaho, o el puerto 8080.
Sin ms contratiempos, se iniciar JBoss Portal. Observamos la evolucn en su
ventana de log:
La traza INFO [STDOUT] Pentaho BI server listo. indica el inicio correcto del
servidor
En este punto ya podemos usar la aplicacin. Accedemos a la pantalla de login en:
http://localhost:8080/pentaho/:
Seleccionamos un usuario, por ejemplo Joe e iniciamos la sesin:
Informes de ejemplo incluidos con Pentaho
Examen de la base de datos
Antes de finalizar vamos a examinar la base de datos creada por el proceso de
instalacin. Podemos iniciar la sesin en MySQL con alguna herramienta visual, como
por ejemplo MySQL Query Browser de las MySQL GUI Tools. Iniciamos la sesin con
las credenciales que introdujimos en el proceso de instalacin:
Podemos observar el esquema pentaho_sampledata, que contiene las tablas de
donde Pentaho obtiene la informacin para los informes, minera de datos, grficas,
etc. Esto es lo que se denomina la fuente de datos, y es de donde se alimenta la
herramienta de BI:
Conclusin
El procedimiento de instalacin mostrado no implica ninguna dificultad mas all de
una correcta configuracin de las conexiones. En la versin presentada se dispone de
un bundle con servidor y base de datos, aunque la manera ms habitual de instalarlo
e integrarlo con aplicaciones terceras es descargarse directamente los paquetes para
su despliegue en un servidor.