Está en la página 1de 23

MANUAL DEL ETL

DE PENTAHO
PDI PENTAHO DATA
INTEGRATION
PREVIOUS KETTLE
INTEGRANTES:
Collaguazo Adriana
Corneo Gra!e
Pe"an#ez $o%re
Soli" Galo
&'(&)(*&&+
ANTECENDENTES
Pentaho es un suite de herramientas de inteligencia de negocios que tiene dos
versiones, la versin comercial y la versin de cdigo abierto.
Para el caso de la materia Data warehouse que estamos cursando, solo utilizaremos la
herramienta PDI (Pentaho Data Integration) el cual es una E! que nos "ermitir# e$traer
la in%ormacin de una base de datos &!P, trans%ormar la in%ormacin a trav's de un
modelo dimensional y cargar los resultados de la trans%ormacin en una base de datos
destino ti"o Data warehouse, "ara que luego "ueda ser consultada (consultas ad(hoc) y
analizada a trav's de herramientas "ara desarrollar re"ortes es"ecializados las cuales
Pentaho tambi'n "osee.
RE,UISITOS PREVIOS A LA INSTALACIONDEL PDI
Requisitos mnimos de hardware
Procesador de arquitectura Pentium de ).* +,-
./0 12 de memoria 341
Disco Duro con al menos ) +2 libres
Requisitos de software
5ava run ime Enviroment 6 o "osteriores
1y78! version 6 o "osteriores
PASOS PARA LA INSTALACION
!os siguientes son los "asos "ara instalar el PDI en un com"utador9
Descargar el archivo .zi" del sitio :eb de Pentaho que contiene el PDI9 "di(o"en(
;.<.*(0)/.zi"
Descom"rimir el archivo en cualquier ubicacin dentro de =9
PASOS PARA LA IMPLEMENTACION DE NUESTRO ETL
De manera resumida los "asos "ara la im"lementacin de nuestro E! son9
=reacin de la base de datos que contendr# el re"ositorio
=reacin del re"ositorio
E$traccin de los datos desde 1icroso%t 4ccess
=reacin de una tabla I>P?
De@nicin de las tablas de dimensiones
De@nicin de la tabla de hecho
=arga o e$"ortacin de la tabla de hecho
Aamos a detallar cada uno de "asos mencionados.
CREACION DE LA -ASE DE DATOS DEL REPOSITORIO
=omo era de su"oner, antes de crear el re"ositorio debemos crear la base de datos que
lo contenga. Para esto eBecutamos 1y78!, ingresando a la car"eta bin de 1y78! y
eBecutamos9
mysqld ((console
mysql (u root
create database re"ositorioC
=abe seDalar que Ere"ositorioF es el nombre que le "usimos a la base de datos del
re"ositorio.
CREACION DEL REPOSITORIO
Para crear el re"ositorio entramos a la car"eta donde descom"rimimos el archivo "di(
o"en(;.<.*(0)/.zi" del PDI y eBecutamos el archivo9
s"oon.bat o de manera alternativa
Gettle.e$e
7e "resentar# un cuadro de di#logo E7elecciona un cat#logoF, donde "resionaremos
el botn E>ewF.

7e nos "resentara una nueva ventana donde "resionaremos el botn E>ewF.

7e nos "resentara una nueva ventana, la cual llenamos con los datos encerrados en
cuadrados. !uego de llenar los datos realizamos un test de la cone$ion.
7i la cone$in est# bien de@nida y la base de datos a la cual nos conectamos e$iste
entonces luego de "resionar el botn de est debemos obtener9
Presionamos el botn de 4ce"tar y en la "arte in%erior de la ventana "resionamos el
botn de &H adicional. 7e ha creado de esta manera la cone$in.
7e nos "resenta nuevamente la ventana anterior y debemos "resionar E=reate or
?"gradeF "ara de esa manera terminar de de@nir nuestro re"ositorio.
4l "resionar este botn, el PDI crea en nuestra base Ere"ositorioF una tablas que el
usara "ara "oder almacenar la metadata de las trans%ormaciones.
!uego de "resionar este botn debemos obtener la siguiente ventana de anuncio9
!uego "resionamos el botn de 4ce"tar.
Podemos observar que es necesario "onerle un nombre a nuestro re"ositorio, el
nombre su"erior tan solo es el nombre de la cone$in a nuestra base de datos. En
nuestro eBem"lo colocaremos el nombre Ere"ositorioF.
!uego "resionamos &H, se nos "resentara la ventana inicial donde seleccionamos
nuestro re"ositorio y nos logoneamos con las credenciales9
o !ogin9 admin
o Password9 admin
En hora buena, hemos com"letado la de@nicin y creacin de nuestro re"ositorio.
E.TRACCION DE LOS DATOS DESDE MSACCESS
!uego de que terminamos el "aso anterior inmediatamente se nos abrir# la siguiente
ventana9
,acemos doble clicG sobre la car"eta trans%ormacin y se nos "resentara la siguiente
"antalla9
7i hacemos doble clicG sobre la car"eta in"ut se nos abrir# la lista des"legable de o"ciones.
De la lista des"legable seleccionamos able In"ut.
7eleccionamos able in"ut y lo arrastramos a la zona de DiseDo9
,acemos doble clicG sobre table in"ut y seleccionamos =onnection en la o"cin >ew, se nos
"resentara lo siguiente9
Pero esta tabla que estamos creando debe obtener datos de 174ccess "ara lo cual debemos
crear una cone$in a la base de datos. Para esto vamos a Panel de =ontrol, luego a
,erramientas 4dministrativas y hacemos doble clicG sobre Data 7ources (&D2=).
=omo vemos, seleccionamos 17 4ccess Database y "resionamos el botn =on@gure9
4l "resionar el botn =on@gure y cambiamos el >ombre del &D2= a 4ccessDatos, luego
"resionamos el botn 7eleccionar.
!uego seleccionamos la ruta donde se encuentra la base de Datos 4ccess.
4l cambiar el nombre de la =one$in a 4ccessDatos en la cone$in, ese nombre le
colocamos en la "antalla de la de@nicin de la cone$in de la able In"ut9
,acemos un test "ara "robar la cone$in y luego "resionamos &H.
4hora volvemos al cuadro de dialogo del able In"ut en el que colocaremos una
sentencia 78! "ara "oder agru"ar todas las tablas de la base 4ccess en una sola
tabla9
SELECT "aralelo.I, materia.I, "araleloJestudiante.I, ingresoJcarrera.I
/ROM ingresoJcarrera INNER $OIN (("aralelo INNER $OIN "araleloJestudiante
ON "aralelo.idJ"aralelo K "araleloJestudiante.idJ"aralelo) INNER $OIN materia
ON "aralelo.codigoJmateria K materia.codigoJmateria)
ON ingresoJcarrera.cedulaJest K "araleloJestudiante.cedulaJestudianteC
En la siguiente @gura se muestra la sentencia 78! colocada9
DE/INICION DE LAS TA-LAS DE DIMENSIONES
Para la creacin de las ablas de Dimensiones hago doble clicG sobre la car"eta Data
warehouse y selecciono el icono de E=ombination looGu"Lu"dateF y lo arrastramos
sobre la zona de diseDo.
4hora "ara conectar los dos iconos "resionamos la tecla 7,IM y hacemos el "roceso
de arrastrar desde el icono de able In"ut hacia el destino que es el icono de
=ombination looGu"Lu"date (drag and dro").

!uego hacemos doble sobre el icono de Combination lookup/update y se nos
"resenta la siguiente "antalla9
De@nimos la cone$in a la base destino que albergara la tabla de dimensin
resultante (solo se crea la estructura, no esta cargada con datos).
Para esto hacemos clicG en el botn New y llenamos los cam"os como se muestra en
la @gura9
!uego de "resionar el botn Aceptar volvemos a la ventana anterior y "resionamos el
botn E+et MieldsF "ara obtener los cam"os de la abla in"ut y en el caso de la
dimensin unidades, solo escogemos el cam"o codigoJunidad y eliminamos el resto.
4hora colocamos el "rimary Gey de nuestra tabla de dimensin que se llamara
id0unidad
En el mismo cuadro de dialogo e$iste la o"cin 78! la seleccionamos y se nos
"resentara la siguiente "antalla9
Minalmente "resionamos el botn E$ecute, se corre el scri"t que crea la estructura de
la nueva tabla de dimensin en nuestra base de datos destino Ere"ositorioF, damos
clicG en &H.
7e nos "resenta la "antalla anterior y debemos "resionar &H.
3ealizamos los mismos "asos "ara crear las dem#s tablas de dimensin9 materias,
estudiante y tiem"o con sus res"ectivo cam"os "rimarios (PH)9 idJmaterias,
idJestudiante, idJtiem"o.
Para de@nir la tabla de dimensin materias usamos el botn E+et MieldsF
seleccionamos los cam"os cdigoJmateria, idJunidad de la abla In"ut.
Para la tabla de dimensin estudiante se seleccionan "or medio del botn E+et
MieldsF los cam"os cedulaJestudiante, matricula de la abla In"ut "ara con%ormarla.
Para la tabla de dimensin tiempo se seleccionan "or medio del botn E+et
MieldsF los cam"os anio, termino de la abla In"ut "ara con%ormarla.
7eleccionamos la car"eta Tran"1or2 se des"legaran varias o"ciones, escogemos la
%uncin Select Values que "ermite seleccionar cam"os en una @la.
!uego "resionamos el botn E+et @elds to selectF "ara obtener los cam"os de la
tabla in"ut, solo debemos deBar las claves "rimarias (ID) de cada tabla de
dimensiones.
4hora en la car"eta Tran"1or2 utilizamos la %uncin Sort rows que "ermite sortear
@lasLordenar datos basados en los valores de los cam"os. !uego damos clicG en el
botn +et @elds "ara obtener los ID de cada tabla dimensional.
Es im"ortante de@nir la %uncin 7ort rows antes de la %uncin +rou" by que
"osteriormente utilizamos.
7eleccionamos de la car"eta Tran"1or2 la %uncin Group by que "ermite agru"ar
los ID haciendo re%erencia a los %or#neos de las tablas de dimensiones.
7e crea el cam"o con el nombre de EhechoF y de ti"o >umber o% values que es la
funcin de agregacin ya que los registros son "or unidad, y solo "uede e$istir un
registro en una materia "or cada estudiante, entonces siem"re se tendr# el valor de
<.

7eleccionamos en la car"eta Ou#3u# seleccionamos la %uncin Table output que
"ermite escribir in%ormacin a una tabla de base de datos.
!uego damos clicG en el botn 78! a"arecer#n las sentencias que se eBecutaran al
"resionar el botn E$ecute.
4l "resionar el botn E$ecute se "resentaran los resultados de las sentencias 78! en
una ventana, damos clicG en &H.
>uestro 1odelo Dimensional resultante serNa el que "resentamos a continuacin9
En la 2ase de Datos 1ysql Ere"ositorioF se crearon las siguientes tablas9
Para eBecutar la trans%ormacin hacemos clicG en el botn E3e"lay this
trans%ormationF y se mostraran los resultados.

También podría gustarte