PDI Universidad Católica Sedis Sapientiae

UNIVERSIDAD CATÓLICA SEDES
SAPIENTIAE
Ingeniería de Sistemas
Pentaho Data Integration

(PDI)
Docente:
SANCHEZ VILCARINO JORGE
Curso:
INTELIGENCIA DE NEGOCIOS Y ANALISIS DE DATOS
Integrantes:
 Urs Pio
 Lister Cadillo
 Katherine Vergara
2019
Contenido
PENTAHO DATA INTEGRATION (PDI) ............................................................................................ 3

1. DEFINICIÓN............................................................................................................................ 3
1.1. UTILIDAD ....................................................................................................................... 4
1.2. DESARROLLO DE PROYECTO DE TRANSFORMACIÓN .................................................... 5
2. CREACIÓN DE CUBOS OLAP CON SCHEMA WORKBENCH ..................................................... 5
2.1. DESARROLLO DE PROYECTO DE APLICACIÓN................................................................ 5
PENTAHO DATA INTEGRATION (PDI)
1. DEFINICIÓN
Pentaho Data Integration, nombre clave es Kettle, es una herramienta de la suite de
Pentaho de las que se denomina ETL (Extract – Transform – Load), es decir, una
herramienta de Extracción de datos de una fuente, Transformación de esos datos y
Carga de esos datos en otro sitio. El uso de Kettle permite evitar grandes cargas de
trabajo manual frecuentemente difícil de mantener y de desplegar.
Estas tareas son típicas en procesos de migración, integración con terceros, explotación
de Big Data,etc, y en general se podría decir que son necesarias en casi cualquier
proyecto mediano o grande.
Nace con la intención de facilitarnos este trabajo, de forma que no tengamos que entrar
en el detalle de la implementación de como se hace cada una de estas tareas, sino que
simplemente especificamos qué es lo que queremos hacer.
Por eso en muchos sitios se califica a este tipo de herramientas, herramientas de

metadatos, ya que trabajan a nivel de definición diciendo qué hay que hacer, pero no el
detalle del cómo se hace, éste queda oculto a nuestros ojos, lo cual resulta muy
interesante en la mayoría de los casos.
Spoon
Spoon es una Interfaz Gráfica de Usuario (GUI), que permite diseñar transformaciones
y trabajos que se pueden ejecutar con las herramientas de Kettle.
Módulos de Kettle Pentaho
Dentro de la herramienta Kettle Pentaho se pueden diferenciar cuatro grandes grupos

de procesos de trabajo:
 Reporting: Este es el módulo de Kettle Pentaho destinado a realizar informes,

los cuales se adaptan a las distintas necesidades del usuario final. Estos
informes, pueden ser exportados fácilmente a pdf, xls, html o texto. Además,
pueden automatizarse procesos de generación de informes según la ejecución
de diferentes acciones o mediante una periodicidad estipulada.
 Análisis: Mediante la utilización de tablas dinámicas, el módulo de analítica de

Kettle Pentaho permite al usuario navegar por los datos extraídos, ajustando los
filtros, campos… Estos datos puros, pueden ser extraídos a su vez en formato
SVG, Flash e incluso Excel para su tratamiento fuera de la herramienta.
 Dashboards: Otra de las ventajas de emplear Kettle Pentaho, es la posibilidad

de crear dashboards personalizados en base a las necesidades de la empresa, ya
que todos los módulos de la herramienta pueden integrarse dentro de estos
dashboards. Así de un simple vistazo podremos ver gráficos, tablas o cualquier
otro dato que se desee.
 Integración de datos: Este módulo trabaja mediante ETL y juega un papel

crucial dentro del entramado sistema de Business Intelligence de la empresa.
Este proceso es el responsable de aprovisionar los datos sobre los que
posteriormente se trabajarán.
1.1. UTILIDAD
 permite que se utilicen técnicas ETL, es decir, poder implementar procesos

de extracción, transformación y carga de datos. Kettle, además, ofrece datos
analíticos muy precisos, eliminando las complejidades involucradas en la
codificación al proporcionar bibliotecas en profundidad para el mismo.
 Permite tomar información de diferentes fuentes, consolidarla y cargarla en un
repositorio analítico.
 Su entorno de trabajo visual y drag & drop se traduce en un menor tiempo de
desarrollo y un mantenimiento más sencillo y agilidad para incorporar nuevas
fuentes de información e indicadores.
 Plug-in de Agile BI:
Data Discovery: Análisis y visualización de información en tiempo real
Data Modeling: Modelado y publicación de cubos OLAP para prototipado y

validación de requerimientos
 + de 150 steps para manipulación, enriquecimiento de datos y generación de

reportes.
 Repositorio integrado: control de versiones para trabajo colaborativo y scheduling
de procesos.
 Conectividad nativa contra:
 Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL,
PostgreSQL, etc.
 No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce,
Google Analytics, etc.
 Nuevos Features:
 Soporte para MongoDB, Cassandra, Hbase.

 Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos
en Hadoop.
 ElasticSearch.
 Archivos HL7.
 Capacidad de documentación automática.
 Cliente REST.
 Usos comunes de PDI
 Carga de Data warehouse y Data Marts: Soporte para slowly changing

dimensions, cargas bulk, merge, sincronización y otros conceptos de
Data Warehousing
 Exports de bases de datos a archivos planos, XML u otras bases de datos.
 Import de datos a bases de datos, desde diversas fuentes como archivos
planos, hojas de Excel, datos alojados en la nube
 Migración de datos de sistemas Legacy.
 Exploración de datos de diversas fuentes.
 Enriquecimiento de datos mediante la integración de diversas fuentes.
 Procesos de Data Quality y Data Cleansing mediante transformación de
datos.
 Usos comunes de PDI (continuación)
 Generación de reportes batch.
 Envío de alertas vía e-mail.
 Integración de aplicaciones (middleware).
 Implementación de procesos a nivel SO (transferencia de archivos,
limpieza de file system).
1.2. DESARROLLO DE PROYECTO DE TRANSFORMACIÓN

1.2.1. INPUT: TABLAS DE EXCEL
1.2.2. INPUT: ACCESS
1.2.3. INPUT: MYSQL
1.2.4. OUTPUT: ARCHIVO DE TEXTO
1.2.5. OUTPUT: TABLA ACCESS O MYSQL
2. CREACIÓN DE CUBOS OLAP CON SCHEMA WORKBENCH
2.1. DESARROLLO DE PROYECTO DE APLICACIÓN
Aplicar Arquitectura: Copo de Nieve

Una Tabla de Hechos y cuatro dimensiones.

PDI Universidad Católica Sedis Sapientiae

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PDI Universidad Católica Sedis Sapientiae

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD CATÓLICA SEDES

Pentaho Data Integration

PENTAHO DATA INTEGRATION (PDI) ............................................................................................ 3

Por eso en muchos sitios se califica a este tipo de herramientas, herramientas de

Módulos de Kettle Pentaho

Dentro de la herramienta Kettle Pentaho se pueden diferenciar cuatro grandes grupos

 Reporting: Este es el módulo de Kettle Pentaho destinado a realizar informes,

 Análisis: Mediante la utilización de tablas dinámicas, el módulo de analítica de

 Dashboards: Otra de las ventajas de emplear Kettle Pentaho, es la posibilidad

 Integración de datos: Este módulo trabaja mediante ETL y juega un papel

 permite que se utilicen técnicas ETL, es decir, poder implementar procesos

Data Discovery: Análisis y visualización de información en tiempo real

Data Modeling: Modelado y publicación de cubos OLAP para prototipado y

 + de 150 steps para manipulación, enriquecimiento de datos y generación de

 Soporte para MongoDB, Cassandra, Hbase.

 Usos comunes de PDI

 Carga de Data warehouse y Data Marts: Soporte para slowly changing

1.2. DESARROLLO DE PROYECTO DE TRANSFORMACIÓN

1.2.2. INPUT: ACCESS

1.2.3. INPUT: MYSQL

1.2.4. OUTPUT: ARCHIVO DE TEXTO

1.2.5. OUTPUT: TABLA ACCESS O MYSQL

2. CREACIÓN DE CUBOS OLAP CON SCHEMA WORKBENCH

2.1. DESARROLLO DE PROYECTO DE APLICACIÓN

Aplicar Arquitectura: Copo de Nieve

También podría gustarte