Está en la página 1de 6

UNIVERSIDAD CATÓLICA SEDES

SAPIENTIAE

Ingeniería de Sistemas

Pentaho Data Integration


(PDI)

Docente:
SANCHEZ VILCARINO JORGE

Curso:
INTELIGENCIA DE NEGOCIOS Y ANALISIS DE DATOS

Integrantes:
 Urs Pio
 Lister Cadillo
 Katherine Vergara

2019
Contenido

PENTAHO DATA INTEGRATION (PDI) ............................................................................................ 3


1. DEFINICIÓN............................................................................................................................ 3
1.1. UTILIDAD ....................................................................................................................... 4
1.2. DESARROLLO DE PROYECTO DE TRANSFORMACIÓN .................................................... 5
2. CREACIÓN DE CUBOS OLAP CON SCHEMA WORKBENCH ..................................................... 5
2.1. DESARROLLO DE PROYECTO DE APLICACIÓN................................................................ 5
PENTAHO DATA INTEGRATION (PDI)
1. DEFINICIÓN
Pentaho Data Integration, nombre clave es Kettle, es una herramienta de la suite de
Pentaho de las que se denomina ETL (Extract – Transform – Load), es decir, una
herramienta de Extracción de datos de una fuente, Transformación de esos datos y
Carga de esos datos en otro sitio. El uso de Kettle permite evitar grandes cargas de
trabajo manual frecuentemente difícil de mantener y de desplegar.

Estas tareas son típicas en procesos de migración, integración con terceros, explotación
de Big Data,etc, y en general se podría decir que son necesarias en casi cualquier
proyecto mediano o grande.

Nace con la intención de facilitarnos este trabajo, de forma que no tengamos que entrar
en el detalle de la implementación de como se hace cada una de estas tareas, sino que
simplemente especificamos qué es lo que queremos hacer.

Por eso en muchos sitios se califica a este tipo de herramientas, herramientas de


metadatos, ya que trabajan a nivel de definición diciendo qué hay que hacer, pero no el
detalle del cómo se hace, éste queda oculto a nuestros ojos, lo cual resulta muy
interesante en la mayoría de los casos.

Spoon

Spoon es una Interfaz Gráfica de Usuario (GUI), que permite diseñar transformaciones
y trabajos que se pueden ejecutar con las herramientas de Kettle.

Módulos de Kettle Pentaho

Dentro de la herramienta Kettle Pentaho se pueden diferenciar cuatro grandes grupos


de procesos de trabajo:

 Reporting: Este es el módulo de Kettle Pentaho destinado a realizar informes,


los cuales se adaptan a las distintas necesidades del usuario final. Estos
informes, pueden ser exportados fácilmente a pdf, xls, html o texto. Además,
pueden automatizarse procesos de generación de informes según la ejecución
de diferentes acciones o mediante una periodicidad estipulada.

 Análisis: Mediante la utilización de tablas dinámicas, el módulo de analítica de


Kettle Pentaho permite al usuario navegar por los datos extraídos, ajustando los
filtros, campos… Estos datos puros, pueden ser extraídos a su vez en formato
SVG, Flash e incluso Excel para su tratamiento fuera de la herramienta.

 Dashboards: Otra de las ventajas de emplear Kettle Pentaho, es la posibilidad


de crear dashboards personalizados en base a las necesidades de la empresa, ya
que todos los módulos de la herramienta pueden integrarse dentro de estos
dashboards. Así de un simple vistazo podremos ver gráficos, tablas o cualquier
otro dato que se desee.

 Integración de datos: Este módulo trabaja mediante ETL y juega un papel


crucial dentro del entramado sistema de Business Intelligence de la empresa.
Este proceso es el responsable de aprovisionar los datos sobre los que
posteriormente se trabajarán.
1.1. UTILIDAD

 permite que se utilicen técnicas ETL, es decir, poder implementar procesos


de extracción, transformación y carga de datos. Kettle, además, ofrece datos
analíticos muy precisos, eliminando las complejidades involucradas en la
codificación al proporcionar bibliotecas en profundidad para el mismo.
 Permite tomar información de diferentes fuentes, consolidarla y cargarla en un
repositorio analítico.
 Su entorno de trabajo visual y drag & drop se traduce en un menor tiempo de
desarrollo y un mantenimiento más sencillo y agilidad para incorporar nuevas
fuentes de información e indicadores.
 Plug-in de Agile BI:

Data Discovery: Análisis y visualización de información en tiempo real

Data Modeling: Modelado y publicación de cubos OLAP para prototipado y


validación de requerimientos

 + de 150 steps para manipulación, enriquecimiento de datos y generación de


reportes.
 Repositorio integrado: control de versiones para trabajo colaborativo y scheduling
de procesos.
 Conectividad nativa contra:

 Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL,
PostgreSQL, etc.
 No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce,
Google Analytics, etc.

 Nuevos Features:

 Soporte para MongoDB, Cassandra, Hbase.


 Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos
en Hadoop.
 ElasticSearch.
 Archivos HL7.
 Capacidad de documentación automática.
 Cliente REST.

 Usos comunes de PDI

 Carga de Data warehouse y Data Marts: Soporte para slowly changing


dimensions, cargas bulk, merge, sincronización y otros conceptos de
Data Warehousing
 Exports de bases de datos a archivos planos, XML u otras bases de datos.
 Import de datos a bases de datos, desde diversas fuentes como archivos
planos, hojas de Excel, datos alojados en la nube
 Migración de datos de sistemas Legacy.
 Exploración de datos de diversas fuentes.
 Enriquecimiento de datos mediante la integración de diversas fuentes.
 Procesos de Data Quality y Data Cleansing mediante transformación de
datos.
 Usos comunes de PDI (continuación)
 Generación de reportes batch.
 Envío de alertas vía e-mail.
 Integración de aplicaciones (middleware).
 Implementación de procesos a nivel SO (transferencia de archivos,
limpieza de file system).

1.2. DESARROLLO DE PROYECTO DE TRANSFORMACIÓN


1.2.1. INPUT: TABLAS DE EXCEL

1.2.2. INPUT: ACCESS

1.2.3. INPUT: MYSQL

1.2.4. OUTPUT: ARCHIVO DE TEXTO

1.2.5. OUTPUT: TABLA ACCESS O MYSQL

2. CREACIÓN DE CUBOS OLAP CON SCHEMA WORKBENCH

2.1. DESARROLLO DE PROYECTO DE APLICACIÓN

Aplicar Arquitectura: Copo de Nieve


Una Tabla de Hechos y cuatro dimensiones.

También podría gustarte