Está en la página 1de 22

Pentaho Data Integration

BÚSQUEDAS
Búsquedas. Pentaho

Búsquedas - Lookups
 Las búsquedas proveen la facilidad de unir fuentes o flujos de datos a partir de un
atributo clave.
Pasos cubiertos en esta sección

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 2


Búsquedas. Pentaho

Unión de flujos - Merge Join


Une dos flujos ordenados de datos
mediante la igualdad de llaves
 INNER arroja resultados cuando la llave

se encuentra en ambos flujos


 LEFT OUTER arroja resultados aun y

cuando no se obtenga una igualdad en la


llave del segundo paso
 RIGHT OUTER arroja resultados aun y

cuando no se obtenga una igualdad en la


llave del primer paso
 FULL OUTER la salida arroja todos los

resultados posibles (tengan o no


igualdad)

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 3


Búsquedas. Pentaho

Unión con BD - Database Join


Une uno o más flujos de datos
mediante la comparación de
parámetros pasados a la sentencia
SQL con una tabla en la base de
datos.
 Puede utilizar como parámetros tanto

a los campos de un registro que viene


en el flujo de datos como variables de
ambiente de la transformación.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 4


Búsquedas. Pentaho

Búsqueda en BD - Database Lookup


Busca en base de datos
mediante la comparación
de parámetros
 Utilizar como parámetros

los campos de un
registro que viene en el
SELECT flujo de datos.
atrib AS “atributo”
FROM tabla  La consulta puede ser
WHERE
tablaID = flujoID guardada en memoria
(cache).
 Es el paso más eficiente

de todos para la
búsqueda en BD.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 5


Búsquedas. Pentaho

Búsqueda en Flujo - Stream Lookup


Une uno o más flujos de datos mediante la
comparación de parámetros contra un flujo
informativo

Flujo informativo

Campo del flujo informativo


Campo clave del flujo de
datos principal

Campo retornado del flujo


informativo en caso de
encontrar coincidencia

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 6


Búsquedas. Pentaho

Búsq. en dimensiones - Dim Lookups


Es el mismo paso explicado anteriormente para la actualización de las
dimensiones con un pequeño cambio:
 El paso debe utilizarse para la búsqueda y no para la actualización. Logramos esto

desmarcando la opción Update the dimention?


 Se ha de seleccionar un campo fecha que represente la creación del registro en los

datos de origen en la opción Stream Datefield (fecha proveniente del flujo). Esta
opción permite al paso devolver el identificador del registro en la dimensión que se
encuentre entre la fecha efectiva (date_from) y la fecha de expiración (date_to)

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 7


Moldeando los datos. Pentaho Data Integration

TRANSFORMACIONES
CAMPOS
Moldeando los datos. Pentaho

Transformaciones en campos
 Son pasos que operan a nivel de campo dentro de un registro de flujo

Pasos cubiertos en esta sección


 Seleccionar Valores - Select Values

 Calculadora - Calculator

 Agregar Constantes - Add Constants

 Nulo si… - Null If…

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 9


Moldeando los datos. Pentaho

Seleccionar Valores - Select Values


Este paso provee 3 funciones divididas agrupadas por pestañas
 Seleccionar y Alterar: Especificar el orden exacto y nombre en el cual los campos

deben ser colocados en las filas de salida.


 Remover: Especifica los campos que tienen que ser removidos de las filas de salida.

 Meta-data: Cambiar el nombre, tipo, longitud y precisión (la meta-data) de uno o más

campos.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 10


Moldeando los datos. Pentaho

Calculadora - Calculator
 Provee una lista de funciones: matemáticas,
cálculos con fecha, concatenación de caracteres,
conversión de datos tipo enteros a caracteres, etc.
 Utiliza hasta un máximo de tres parámetros por
función: Campo A, Campo B y Campo C)
 Puede definir campos temporales para ser usados
únicamente en los cálculos

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 11


Moldeando los datos. Pentaho

Agregar Constantes - Add Constants


Agregar constantes a un flujo. Su uso es muy simple:
 Especificar el nombre del campo a agregar

 Especifique el tipo de dato

 Especifique un formato de ser necesario. Al colocar el formato se convierte el valor al

tipo de dato escogido.


 Especifique el valor del campo.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 12


Moldeando los datos. Pentaho

Nulo si… - Null If…


Convierte el campo a Nulo si la condición de valor encontrado es cierta
 Acepta todo tipo de datos.

 El tipo de dato resultante para el nulo es igual al tipo de datos entrante (no cambia la

metadata).

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 13


Búsquedas y transformaciones
de campos. Cargar DIM_SALESREP

LABORATORIO

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 14


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


Objetivo
 Crear la dimensión para los representantes de ventas.

Actividades
 Cree una nueva transformación y en ella coloque los pasos Table input, Calculator,

Select value, Database lookup, Dimension lookup/update y conecte los pasos


entre ellos en el mismo orden mencionado.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 15


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


 Configure el paso de Table input para cargar todos los registros con todos sus
campos de la tabla EMPLOYEES de la bases de datos pentaho_oltp.

SELECT
employeenumber
, lastname
, firstname
, extension
, email
, officecode
, reportsto
, jobtitle
FROM employees

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 16


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


 Utilice el paso Calculator para crear el campo salesrepname concatenando el
nombre (firstname) y el apellido (lastname) del empleado.

 Utilice el paso Select value para remover del


flujo de datos los campos firstname y
lastname.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 17


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


 Utilice el paso Database lookup para obtener la ciudad, estado, país y territorio
(city, state, country y territory) de la tabla OFFICES.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 18


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


 Almacene los registros en la
dimensión DIM_SALESREP en
la bases de datos pentaho_olap.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 19


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


Campos a registrar en la
dimensión
 extension

 email

 officecode

 reportsto

 jobtitle

 salesrepname

 city

 state

 country

 territory

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 20


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


 Presione el botón de SQL para generar y ejecutar la sentencia SQL necesaria para
crear la tabla DIM_SALESREP en la base de datos pentaho_olap.

CREATE TABLE "public".dim_salesrep


(
salesrepid BIGSERIAL , employeenumber INTEGER
, salesrepname VARCHAR(101)
, email VARCHAR(100)
, extension VARCHAR(10)
, officecode VARCHAR(10), reportsto INTEGER, jobtitle VARCHAR(50)
, city VARCHAR(50), state VARCHAR(50), country VARCHAR(50)
, territory VARCHAR(10)
, version INTEGER, date_from TIMESTAMP, date_to TIMESTAMP
CONSTRAINT idx_dim_salesrep_tk PRIMARY KEY (salesrepid)
);

CREATE INDEX idx_dim_salesrep_lookup ON dim_salesrep(employeenumber);

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 21


Lab. Busq.y trans.de campos

Cargar la dimensión representante de ventas


 Guarde todos los cambios realizados, ejecute la transformación y verifique la tabla
destino.

© 2014, UCV. Inteligencia de Negocios. Prof. Wilfredo Rangel : wilfredorangel.ucv@gmail.com 22

También podría gustarte