M2 Procesos ETL PDF

Procesos ETL
Jordi Conesa i Caralt

Isabel Guitart Hormigo
Índice
 Componentes del proceso ETL

 Obtención de datos
 Transformación, depuración e integración de datos
 Carga de datos
 Herramientas ETL
 Ejemplo
Componentes del Proceso ETL
ETL = Extract / Transform / Load
La misión de los componentes de integración y transformación es obtener los

datos para los diferentes almacenes de datos de la organización.
Proceso: Obtención de datos
• El primer paso consiste en determinar, de entre todas las
fuentes de datos posibles, cual es la más adecuada para cada
uno de los datos requeridos.
• En la obtención de los datos se distinguen dos fases:

a) Obtención de los datos para la imagen inicial.
b) Obtención de los datos para las actualizaciones.
• Clasificación de los datos:

a) Datos estructurados
b) Datos semiestructurados
c) Datos no estructurados
Proceso : Transformación,
Depuración e Integración
TRANSFORMACIÓN DEPURACIÓN INTEGRACION
• Cambiar formato o tipo de datos • Detectar y corregir valores • El proceso de integración

(ejemplo formato fecha). inconsistentes. dependerá si realizamos la carga
inicial del almacén de datos o una
• Reestructurar campos (fusionar • Añadir valores por defecto a los actualización.
o dividir campos). campos con valores no definidos
• Principal problema: Detectar
• Cambiar las unidades o códigos • Detectar y corregir información datos que representan el mismo
de transformación (cambios de duplicada. concepto.
moneda).
• Se transforman los datos para
• Cambiar el grado de agregación homogeneizar la representación y
(calcular las vendas mensuales a eliminar la información duplicada.
partir de las diarias).
• Añadir información temporal

(período validez de los datos).
Proceso: Carga de datos
El proceso ETL también se encarga de transportar los

datos entre las diferentes plataformas y cargarlas en
las bases de datos correspondientes.
Herramientas ETL
• Control y automatización de la extracción de los datos, disminuyendo el
tiempo empleado en el descubrimiento de procesos no documentados,
minimizando el margen de error y permitiendo mayor flexibilidad.
• Acceso a diferentes tecnologías, haciendo un uso efectivo del

hardware, software, datos y recursos humanos existentes.
• Proporcionar la gestión integrada del Data Warehouse y los Data Marts

existentes, integrando la extracción, transformación y carga para la
construcción del Data Warehouse corporativo y de los Data Marts.
• Uso de la arquitectura de metadatos, facilitando la definición de los

objetos de negocio y las reglas de consolidación.
• Acceso a una gran variedad de fuentes de datos diferentes.
• Manejo de excepciones.
• Planificación, logs, interfaces a schedulers de terceros, que nos

permitirán llevan una gestión de la planificación de todos los procesos
necesarios para la carga del DW.
• Interfaz independiente de hardware.
• Soporte en la explotación del Data Warehouse.

EJEMPLO ETL:
Basado en …
EJEMPLO ETL:
Sistema de análisis de estadísticas
Web
Recopilar la información de los
logs de la web de la empresa
en un único repositorio de
datos que permita el análisis
de las visitas web.
Kettle – Pentaho Data Integration
Basado en el desarrollo de dos tipos
de objetos:
•Transformaciones: permiten
definir las operaciones de
transformación de datos.
•Trabajos: permiten gestionar y

administrar procesos ETL a alto
nivel.
Kettle – Pentaho Data Integration
Formado por cuatro componentes:
•Spoon: entorno gráfico para el desarrollo de
transformaciones y trabajos.
•Pan: permite ejecutar transformaciones.
•Kitchen: permite ejecutar trabajos.
•Carte: es un servidor remoto que permite la

ejecución de transformaciones y trabajos.
Caso Práctico – Datos de Origen
El archivo log contiene los siguientes campos:
• IP desde la que se accede

• RFC 1413: identificador de la máquina en la red
• Usuario remoto: identificador del usuario.
• Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].
• Recurso: aquello a lo que se accede.
• Resultado.
• Tiempo: segundos que se tarda en acceder al recurso.
• Referente: desde donde se accede al recurso.
• User-agent: información del sistema operativo y del
navegador usados para acceder al recurso.
Caso Práctico – Datos de Origen
El archivo log contiene los siguientes campos:
• IP desde la que se accede
• RFC 1413: identificador de la máquina en la red
• Usuario remoto: identificador del usuario.
• Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].
• Recurso: aquello a lo que se accede.
• Resultado.
• Tiempo: segundos que se tarda en acceder al recurso.
• Referente: desde donde se accede al recurso.
• User-agent: información del sistema operativo y del
navegador usados para acceder al recurso.
Caso Práctico – Más Datos de Origen
Se han preparado otros ficheros con
información adicional:
• access.log: contiene la información de acceso a
nuestra aplicación web.
• navegador.csv: contiene un listado de avegadores base.
• protocolo.csv: contiene los protocolos de acceso
estándar.
• resultado.csv: contiene el resultado que puede
proporcionar el servidor a un acceso.
• so.cv: contiene un listado de sistemas operativos base.
Planificación de Procesos ETL
La estrategia que se seguirá será:
1. Cargar las dimensiones navegador, protocolo,
resultado y so a partir de los ficheros
anteriores.
2. Alimentar la tabla de hecho de visitas.
3. Crear un trabajo para lanzar todas las
transformaciones de una manera única.
Procesos ETL: Vídeo

M2 Procesos ETL PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

M2 Procesos ETL PDF

Cargado por

Copyright:

Formatos disponibles

Procesos ETL

Jordi Conesa i Caralt

 Componentes del proceso ETL

La misión de los componentes de integración y transformación es obtener los

• En la obtención de los datos se distinguen dos fases:

• Clasificación de los datos:

• Cambiar formato o tipo de datos • Detectar y corregir valores • El proceso de integración

• Añadir información temporal

El proceso ETL también se encarga de transportar los

• Acceso a diferentes tecnologías, haciendo un uso efectivo del

• Proporcionar la gestión integrada del Data Warehouse y los Data Marts

• Uso de la arquitectura de metadatos, facilitando la definición de los

• Acceso a una gran variedad de fuentes de datos diferentes.

• Planificación, logs, interfaces a schedulers de terceros, que nos

• Interfaz independiente de hardware.

• Soporte en la explotación del Data Warehouse.

•Trabajos: permiten gestionar y

•Pan: permite ejecutar transformaciones.

•Kitchen: permite ejecutar trabajos.

•Carte: es un servidor remoto que permite la

• IP desde la que se accede

También podría gustarte