Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE PENTAHO
PDI PENTAHO DATA
INTEGRATION
PREVIOUS KETTLE
ANTECENDENTES
Pentaho es un suite de herramientas de inteligencia de negocios que tiene dos
versiones, la versin comercial y la versin de cdigo abierto.
Para el caso de la materia Data warehouse que estamos cursando, solo utilizaremos la
herramienta PDI (Pentaho Data Integration) el cual es una ETL que nos permitir extraer
la informacin de una base de datos OLTP, transformar la informacin a travs de un
modelo dimensional y cargar los resultados de la transformacin en una base de datos
destino tipo Data warehouse, para que luego pueda ser consultada (consultas ad-hoc) y
analizada a travs de herramientas para desarrollar reportes especializados las cuales
Pentaho tambin posee.
Requisitos de software
Descargar el archivo .zip del sitio Web de Pentaho que contiene el PDI: pdi-open3.1.0-826.zip
Descomprimir el archivo en cualquier ubicacin dentro de C:
mysqld --console
mysql -u root
create database repositorio;
Cabe sealar que repositorio es el nombre que le pusimos a la base de datos del
repositorio.
Para crear el repositorio entramos a la carpeta donde descomprimimos el archivo pdiopen-3.1.0-826.zip del PDI y ejecutamos el archivo:
spoon.bat o de manera alternativa
kettle.exe
Se nos presentara una nueva ventana, la cual llenamos con los datos encerrados en
cuadrados. Luego de llenar los datos realizamos un test de la conexion.
Si la conexin est bien definida y la base de datos a la cual nos conectamos existe
entonces luego de presionar el botn de Test debemos obtener:
Al presionar este botn, el PDI crea en nuestra base repositorio una tablas que el
usara para poder almacenar la metadata de las transformaciones.
Si hacemos doble click sobre la carpeta input se nos abrir la lista desplegable de opciones.
De la lista desplegable seleccionamos Table Input.
Hacemos doble click sobre table input y seleccionamos Connection en la opcin New, se nos
presentara lo siguiente:
Pero esta tabla que estamos creando debe obtener datos de MSAccess para lo cual debemos
crear una conexin a la base de datos. Para esto vamos a Panel de Control, luego a
Herramientas Administrativas y hacemos doble click sobre Data Sources (ODBC).
Como vemos, seleccionamos MS Access Database y presionamos el botn Configure:
Ahora volvemos al cuadro de dialogo del Table Input en el que colocaremos una
sentencia SQL para poder agrupar todas las tablas de la base Access en una sola
tabla:
SELECT paralelo.*, materia.*, paralelo_estudiante.*, ingreso_carrera.*
Para la creacin de las Tablas de Dimensiones hago doble click sobre la carpeta Data
warehouse y selecciono el icono de Combination lookup/update y lo arrastramos
sobre la zona de diseo.
Ahora para conectar los dos iconos presionamos la tecla SHIFT y hacemos el proceso
de arrastrar desde el icono de Table Input hacia el destino que es el icono de
Combination lookup/update (drag and drop).
Para esto hacemos click en el botn New y llenamos los campos como se muestra en
la figura:
Realizamos los mismos pasos para crear las dems tablas de dimensin: materias,
estudiante y tiempo con sus respectivo campos primarios (PK): id_materias,
id_estudiante, id_tiempo.
Para la tabla de dimensin estudiante se seleccionan por medio del botn Get
Fields los campos cedula_estudiante, matricula de la Tabla Input para conformarla.
Para la tabla de dimensin tiempo se seleccionan por medio del botn Get
Fields los campos anio, termino de la Tabla Input para conformarla.
Luego presionamos el botn Get fields to select para obtener los campos de la
tabla input,
solo debemos dejar las claves primarias (ID) de cada tabla de
dimensiones.
Ahora en la carpeta Transform utilizamos la funcin Sort rows que permite sortear
filas/ordenar datos basados en los valores de los campos. Luego damos click en el
botn Get fields para obtener los ID de cada tabla dimensional.
Luego damos click en el botn SQL aparecern las sentencias que se ejecutaran al
presionar el botn Execute.