Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual de Pentaho Etl Transformacion
Manual de Pentaho Etl Transformacion
DE PENTAHO
PDI PENTAHO DATA
INTEGRATION
PREVIOUS KETTLE
INTEGRANTES:
Collaguazo Adriana
Cornejo Grace
Pesantez Joffre
Solis Galo
01/05/2009
ANTECENDENTES
Para el caso de la materia Data warehouse que estamos cursando, solo utilizaremos la
herramienta PDI (Pentaho Data Integration) el cual es una ETL que nos permitir extraer
la informacin de una base de datos OLTP, transformar la informacin a travs de un
modelo dimensional y cargar los resultados de la transformacin en una base de datos
destino tipo Data warehouse, para que luego pueda ser consultada (consultas ad-hoc) y
analizada a travs de herramientas para desarrollar reportes especializados las cuales
Pentaho tambin posee.
Requisitos de software
Descargar el archivo .zip del sitio Web de Pentaho que contiene el PDI: pdi-open-
3.1.0-826.zip
Descomprimir el archivo en cualquier ubicacin dentro de C:
Como era de suponer, antes de crear el repositorio debemos crear la base de datos que
lo contenga. Para esto ejecutamos MySQL, ingresando a la carpeta bin de MySQL y
ejecutamos:
mysqld --console
mysql -u root
create database repositorio;
Cabe sealar que repositorio es el nombre que le pusimos a la base de datos del
repositorio.
Se nos presentara una nueva ventana, la cual llenamos con los datos encerrados en
cuadrados. Luego de llenar los datos realizamos un test de la conexion.
Si la conexin est bien definida y la base de datos a la cual nos conectamos existe
entonces luego de presionar el botn de Test debemos obtener:
Al presionar este botn, el PDI crea en nuestra base repositorio una tablas que el
usara para poder almacenar la metadata de las transformaciones.
Si hacemos doble click sobre la carpeta input se nos abrir la lista desplegable de opciones.
De la lista desplegable seleccionamos Table Input.
Seleccionamos Table input y lo arrastramos a la zona de Diseo:
Hacemos doble click sobre table input y seleccionamos Connection en la opcin New, se nos
presentara lo siguiente:
Pero esta tabla que estamos creando debe obtener datos de MSAccess para lo cual debemos
crear una conexin a la base de datos. Para esto vamos a Panel de Control, luego a
Herramientas Administrativas y hacemos doble click sobre Data Sources (ODBC).
Como vemos, seleccionamos MS Access Database y presionamos el botn Configure:
Ahora volvemos al cuadro de dialogo del Table Input en el que colocaremos una
sentencia SQL para poder agrupar todas las tablas de la base Access en una sola
tabla:
Para la creacin de las Tablas de Dimensiones hago doble click sobre la carpeta Data
warehouse y selecciono el icono de Combination lookup/update y lo arrastramos
sobre la zona de diseo.
Ahora para conectar los dos iconos presionamos la tecla SHIFT y hacemos el proceso
de arrastrar desde el icono de Table Input hacia el destino que es el icono de
Combination lookup/update (drag and drop).
Luego hacemos doble sobre el icono de Combination lookup/update y se nos
presenta la siguiente pantalla:
Definimos la conexin a la base destino que albergara la tabla de dimensin
resultante (solo se crea la estructura, no esta cargada con datos).
Para esto hacemos click en el botn New y llenamos los campos como se muestra en
la figura:
Para la tabla de dimensin estudiante se seleccionan por medio del botn Get
Fields los campos cedula_estudiante, matricula de la Tabla Input para conformarla.
Para la tabla de dimensin tiempo se seleccionan por medio del botn Get
Fields los campos anio, termino de la Tabla Input para conformarla.
Luego presionamos el botn Get fields to select para obtener los campos de la
tabla input, solo debemos dejar las claves primarias (ID) de cada tabla de
dimensiones.
Ahora en la carpeta Transform utilizamos la funcin Sort rows que permite sortear
filas/ordenar datos basados en los valores de los campos. Luego damos click en el
botn Get fields para obtener los ID de cada tabla dimensional.
Luego damos click en el botn SQL aparecern las sentencias que se ejecutaran al
presionar el botn Execute.
Al presionar el botn Execute se presentaran los resultados de las sentencias SQL en
una ventana, damos click en OK.