Está en la página 1de 28

Sistemas de Información Gerencial

Tema 8: Inteligencia de Negocios. ETL

Ing. Francisco Rodríguez Novoa

1
1. Herramientas ETL
2. Plan de diseño y desarrollo ETL
3. Desarrollo del plan ETL
4. Mapeo de datos
Herramientas ETL
Plan de diseño y desarrollo ETL
Desarrollar la extracción, transformación y carga (ETL) de datos es la parte oculta del iceberg para la mayoría de
proyectos de DW/BI. Para ello se debe seguir ciertos pasos:

Paso 1: Dibujar o Paso 2: Elegir una Paso 3: Desarrollar


diseñar el plan de herramienta para crear estrategias
alto nivel el sistema ETL predeterminadas

Paso 4 Realizar la carga histórica de Paso 5 Realizar la carga histórica


las tablas de dimensión de la tabla de hecho
Plan de diseño y desarrollo ETL
Desarrollar la extracción, transformación y carga (ETL) de datos es la parte oculta del iceberg para la mayoría de
proyectos de DW/BI. Para ello se debe seguir ciertos pasos:

Paso 6: Paso 7: Paso 8: Agregar Paso 9:


Procesamiento Procesamiento tablas y cargas Operación y
incremental de incremental de OLAP automatización
las tablas de la tabla de del sistema ETL
dimensiones hechos
Desarrollo del plan ETL
PASO 1 - Dibujar o diseñar el plan de alto nivel
El desarrollo de ETL comienza con el plan de alto nivel, que es independiente de cualquier tecnología o enfoque
específico.

PASO 2 - Elegir una herramienta


Se elige una herramienta que nos permitirá crear el sistema ETL. Para ello se ha determinado el uso de SQL Server
Integration Services - SSIS, que es un componente de Microsoft SQL Server.
Características
✓ Integration Services es más que un asistente para mover datos, está basado en Visual Studio y se pueden
crear paquetes con flujos de trabajo y tareas tan complejas como se quiera.
✓ Cargar datos desde diferentes fuentes de datos.
▪ Archivos planos.
▪ Diferentes motores de bases de datos.
▪ XML
▪ Excel
✓ Limpiar y estandarizar datos.
✓ Aplicar lógica deseada a los datos antes de cargarlos.
✓ Automatizar tareas administrativas de bases de datos.
Desarrollo del plan ETL
PASO 3 – DESARROLLAR ESTRATEGIAS
Desarrollar las estrategias predeterminadas, implica establecer la forma como hacer la carga de datos, esto va a
depender del volumen de información con el que se cuente. Puede ser:
Extracto de cada sistema fuente principal en una sola carga, es decir, todo en un solo bloque.
Archivar datos extraídos y en etapas.
De forma incremental : el 1er año, luego el 2do año y así sucesivamente.
Asegúrese de que el almacén de datos y el sistema ETL cumplan con los requisitos de disponibilidad del sistema

Criterios de carga
Puede ser de forma anual, semestral, trimestral.
Por sucursal
Por áreas

PASO 4 - LA CARGA HISTÓRICA DE LAS DIMENSIONES


Después de crear la especificación ETL, suelen centrarse en el desarrollo del proceso ETL para la carga de una sola
vez de datos históricos. Para ello trabajaremos como ejemplo con la dimensión: Dim_Empleado
Desarrollo del plan ETL

Extracción

Transformación

Carga

Extracción, transformación y carga para una dimensión


Fuente: Elaboración Propia
Desarrollo del plan ETL
Creación del datamart
Mapeo de datos
FUENTE DE DATOS
DIMENSIÓN CÓDIGO T-SQL
TRANSACCIONAL
Dim_empleado Empleado select idempleado, apeempleado+space(1)+nomempleado nombres
from comercializacion.dbo.empleado
Dim_empresa Empresa select idempresa, nomempresa from comercializacion.dbo.empresa

Dim_linea Linea select idlinea, deslinea from comercializacion.dbo.línea

Dim_articulo Articulo select a.idarticulo, a.desarticulo, a.stock, a.preventa-a.precosto, l.idlinea


from comercializacion.dbo.articulo a, comercializacion.dbo.linea l
where a.idlinea=l.idlinea
Dim_tiempo Documento select fecha, day(fecha) dia, month(fecha) mes, year(fecha) año
from comercializacion.dbo.documento
Mapeo de datos
FUENTE DE DATOS
HECHO CÓDIGO T-SQL
TRANSACCIONAL
Fact_ventas Documento select r.empresa_skey, e.empleado_skey, a.articulo_skey,
Detalle_doc t.tiempo_skey, d.fecha, d.numero, dd.subtotal * (1-
d.dscto)+dd.subtotal*0.18, dd.cantidad
from comercializacion.dbo.documento d,
comercializacion.dbo.detalle_doc dd, dim_empleado e,
dim_empresa r, dim_articulo a, dim_tiempo t
where d.iddocumento=dd.iddocumento and
e.idempleado=d.idempleado and r.idempresa=d.idempresa
and d.fecha=t.tiempo_fechaactual and
dd.idarticulo=a.articulo_idarticulo
Data Conversion
Los procesos ETL deben leer información de múltiples tipos de fuentes, y transferirla a
diversos destinos. Es muy posible, por tanto, que sea necesario efectuar conversiones de
datos.
SSIS incorpora una transformación llamada Data Conversion, cuya labor es efectuar
conversiones de tipos de datos. De esta forma, es posible convertir información de texto de un
formato a otro (por ejemplo, convertir cadenas de formato UNICODE a no-UNICODE),
convertir tipos de datos de fecha, o establecer la precisión de información numérica.
En el siguiente ejercicio, se usará la transformación Data Conversion para transformar tipos de
datos.
Mapear datos. Usar los datos convertidos
Mapear datos. Usar los datos convertidos
Creación de Cubos
1. Crear un
proyecto analysis
services
2. Crear nuevo
origen de datos
Previamente a
la creación del
cubo, debe
procesarlo
CONCLUSIONES

Las herramientas ETL extraen datos, los filtra para seleccionar los registros
relevantes y los empaqueta en el formato correcto para ser agregados al
componente del almacén de datos..
SSIS puede extraer y transformar datos de diversos orígenes tal como archivos
de datos XML, archivos planos y orígenes de datos relacionales, para luego
cargarlos en uno o más destinos de almacenamiento.
FIN

28

También podría gustarte