Está en la página 1de 13

ESPECIALIZACION TECNOLOGICA EN GESTION Y SEGURIDAD

EN BASE DE DATOS

VALIDACION DE KAS HERRAMIENTAS ETCL

PRESENTADO POR:
CESAR AUGUSTO SERNA GIRALDO

MODULO EJECUCION

SENA

2016

INTRODUCCION

Las herramientas ETL no tienen por qu utilizarse slo en entornos de Data


Warehousing o construccin de un DW, sino que pueden ser tiles para multitud
de propsitos, como por ejemplo:

Tareas de Bases de datos: Tambin se utilizan para consolidar, migrar y


sincronizar bases de datos operativas.

Migracin de datos entre diferentes aplicaciones por cambios de versin


o cambio de aplicativos.

Sincronizacin entre diferentes sistemas operacionales (por ejemplo,


nuestro entorno ERP y la Web de ventas).

Consolidacin de datos: sistemas con grandes volmenes de datos que


son consolidados en sistemas paralelos para mantener histricos o para
procesos de borrado en los sistemas originales.

Interfaces de datos con sistemas externos: envi de informacin a


clientes, proveedores. Recepcin, proceso e integracin de la informacin
recibida.

Interfaces con sistemas Frontoffice: interfaces de subida/bajada


con sistemas de venta.

Otros cometidos: Actualizacin de usuarios a sistemas paralelos,


preparacin de procesos masivos (mailings, newsletter), etc.

Definicin de ETL
ETL son

las

siglas

en

ingls

de Extraer, Transformar y Cargar (Extract,

Transform and Load). Es el proceso que permite a las organizaciones mover datos
desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de
datos, data mart, o data warehouse para analizar, o en otro sistema operacional
para apoyar un proceso de negocio.
Los procesos ETL tambin se pueden utilizar para la integracin con sistemas
heredados (aplicaciones antiguas existentes en las organizaciones que se han de
integrar con los nuevos aplicativos, por ejemplo, ERPs. La tecnologa utilizada en
dichas aplicaciones puede hacer difcil la integracin con los nuevos programas).
Cuando

hablbamos

las herramientas

ETL,

de Data

Warehousing,

considerndolas

un

pasamos

elemento

por

encima

fundamental

construccin, explotacin y evolucin de nuestro Data Warehouse (DW).


Esquema Tipico de Herramienta ETL

en

de
la

Decamos que las herramientas ETL, deberan de proporcionar, de forma general,


las siguientes funcionalidades:
Control de la extraccin de los datos y su automatizacin, disminuyendo el
tiempo empleado en el descubrimiento de procesos no documentados,
minimizando el margen de error y permitiendo mayor flexibilidad.
Acceso a diferentes tecnologas, haciendo un uso efectivo del hardware,
software, datos y recursos humanos existentes.
Proporcionar la gestin integrada del Data Warehouse y los Data Marts
existente,

integrando

la

extraccin,

transformacin

carga para

la

construccin del Data Warehouse corporativo y de los Data Marts.


Uso de la arquitectura de metadatos, facilitando la definicin de los objetos de
negocio y las reglas de consolidacin.
Acceso a una gran variedad de fuentes de datos diferentes.
Manejo de excepciones.

Planificacin, logs, interfaces a schedulers de terceros, que nos permitirn


llevan una gestin de la planificacin de todos los procesos necesarios para la
carga del DW.
Interfaz independiente de hardware.
Soporte en la explotacin del Data Warehouse.

Proceso de Extraccin con Software ETL


La primera parte del proceso ETL consiste en extraer los datos desde los
sistemas de origen.
La mayora de los proyectos de almacenamiento de datos fusionan datos
provenientes de diferentes sistemas de origen. Cada sistema separado puede
usar una organizacin diferente de los datos o formatos distintos. Los formatos de
las fuentes normalmente se encuentran en bases de datos relacionales o ficheros
planos,

pero

pueden

incluir bases

de

datos no

relacionales

otras

Estructuras diferentes. La extraccin convierte los datos a un formato preparado


para iniciar el proceso de transformacin.
Una parte intrnseca del proceso de extraccin es la de analizar los datos
extrados, de lo que resulta un chequeo que verifica si los datos cumplen la pauta
o estructura que se esperaba. De no ser as los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extraccin es que
sta cause un impacto mnimo en el sistema origen. Si los datos a extraer son
muchos, el sistema de origen se podra ralentizar e incluso colapsar, provocando
que ste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razn,
en sistemas grandes las operaciones de extraccin suelen programarse en
horarios o das donde este impacto sea nulo o mnimo.

Interfaz Grafico herramienta ETL

Proceso de Transformacin con una Herramienta ETL


La fase de transformacin de un proceso de ETL aplica una serie de reglas de
negocio o funciones sobre los datos extrados para convertirlos en datos que
sern

cargados. Algunas

fuentes

de

datos

requerirn

alguna

pequea

manipulacin de los datos. No obstante en otros casos pueden ser necesarias


aplicar algunas de las siguientes transformaciones:

Seleccionar slo ciertas columnas para su carga

Traducir cdigos

Codificar valores libres

Obtener nuevos valores calculados

Unir datos de mltiples fuentes

Calcular totales de mltiples filas de datos

Generacin de campos clave en el destino.

Transponer o pivotar (girando mltiples columnas en filas o viceversa).

Dividir una columna en varias

La aplicacin de cualquier forma, simple o compleja, de validacin de datos,


y la consiguiente aplicacin de la accin que en cada caso se requiera:

Proceso de Carga con Software de ETL


La fase de carga es el momento en el cual los datos de la fase anterior
(transformacin) son cargados en el sistema de destino. Dependiendo de los
requerimientos de la organizacin, este proceso puede abarcar una amplia
variedad de acciones diferentes. En algunas bases de datos se sobrescribe la
informacin antigua con nuevos datos. Los data warehouse mantienen un
historial de los registros de manera que se pueda hacer una auditora de los
mismos y disponer de un rastro de toda la historia de un valor a lo largo del
tiempo.

Existen dos formas bsicas de desarrollar el proceso de carga:

Acumulacin simple: La acumulacin simple es la ms sencilla y comn, y


consiste en realizar un resumen de todas las transacciones comprendidas
en el perodo de tiempo seleccionado y transportar el resultado como una
nica transaccin hacia el data warehouse, almacenando un valor calculado
que consistir tpicamente en un sumatorio o un promedio de la magnitud
considerada.

Rolling: El proceso de Rolling por su parte, se aplica en los casos en que


se opta por mantener varios niveles de granularidad. Para ello se almacena
informacin resumida a distintos niveles, correspondientes a distintas
agrupaciones de la unidad de tiempo o diferentes niveles jerrquicos en
alguna o varias de las dimensiones de la magnitud almacenada (por
ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

La fase de carga interacta directamente con la base de datos de destino. Al


realizar

esta

operacin

se

aplicarn

todas

las

restricciones

y triggers

(disparadores) que se hayan definido en sta (por ejemplo, valores nicos,


integridad referencial, campos obligatorios, rangos de valores). Estas restricciones
y triggers (si estn bien definidos) contribuyen a que se garantice la calidad de los
datos en el proceso ETL, y deben ser tenidos en cuenta.

Procesamiento en Herramientas ETL


Un desarrollo reciente en el software ETL es la aplicacin de procesamiento
paralelo. Esto ha permitido desarrollar una serie de mtodos para mejorar el
rendimiento general de los procesos ETL cuando se trata de grandes volmenes
de datos. Hay 3 tipos principales de paralelismos que se pueden implementar en
las aplicaciones ETL:

De datos: Consiste en dividir un nico archivo secuencial en pequeos


archivos de datos para proporcionar acceso paralelo.

De segmentacin (pipeline): Permitir el funcionamiento simultneo de


varios componentes en el mismo flujo de datos. Un ejemplo de ello sera
buscar un valor en el registro nmero 1 a la vez que se suman dos campos
en el registro nmero 2.

De

componente: Consiste

en

el

funcionamiento

simultneo

de

mltiples procesos en diferentes flujos de datos en el mismo puesto de


trabajo.
Estos tres tipos de paralelismo no son excluyentes, sino que pueden ser
combinados para realizar una misma operacin ETL.
Una dificultad adicional es asegurar que los datos que se cargan sean
relativamente consistentes. Las mltiples bases de datos de origen tienen
diferentes ciclos de actualizacin (algunas pueden ser actualizadas cada pocos
minutos, mientras que otras pueden tardar das o semanas). En un sistema de
ETL ser necesario que se puedan detener ciertos datos hasta que todas las
fuentes estn sincronizadas. Del mismo modo, cuando un almacn de datos tiene
que ser actualizado con los contenidos en un sistema de origen, es necesario
establecer puntos de sincronizacin y de actualizacin.

Desafos para los procesos y Herramientas de ETL


Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseado
puede provocar importantes problemas operativos.
En un sistema operacional el rango de valores de los datos o la calidad de stos
pueden no coincidir con las expectativas de los diseadores a la hora de
especificarse las reglas de validacin o transformacin. Es recomendable realizar
un examen completo de la validez de los datos (Data profiling) del sistema de
origen durante el anlisis para identificar las condiciones necesarias para que los
datos puedan ser tratados adecuadamente por las reglas de transformacin
especificadas. Esto conducir a una modificacin de las reglas de validacin
implementadas en el proceso ETL.
Normalmente los data warehouse son alimentados de manera asncrona desde
distintas fuentes, que sirven a propsitos muy diferentes. El proceso ETL es clave
para lograr que los datos extrados asncronamente de orgenes heterogneos se
integren finalmente en un entorno homogneo.

La escalabilidad de un sistema de ETL durante su vida til tiene que ser


establecida durante el anlisis. Esto incluye la comprensin de los volmenes de
datos que tendrn que ser procesados segn los acuerdos de nivel de servicio
(SLA:Service level agreement). El tiempo disponible para realizar la extraccin de
los sistemas de origen podra cambiar, lo que implicara que la misma cantidad de
datos tendra que ser procesada en menos tiempo. Algunos sistemas ETL son
escalados para procesar varios terabytes de datos para actualizar un data
warehouse que puede contener decenas de terabytes de datos. El aumento de los
volmenes de datos que pueden requerir estos sistemas pueden hacer que
los lotes que se procesaban a diario pasen a procesarse en micro-lotes (varios al
da) o incluso a la integracin con colas de mensajes o a la captura de datos
modificados (CDC: change data capture) en tiempo real para una transformacin y
actualizacin continua.

Algunas Herramientas ETL

Ab Initio

Benetl

BITool ETL Software

CloverETL

Cognos Decisionstream (IBM)

Data Integrator (herramienta de Sap Business Objects)

ETI*Extract (ahora llamada Eti Solution)

IBM Websphere DataStage (antes Ascential DataStage)

Microsoft Integration Services

Oracle Warehouse Builder

WebFocus-iWay DataMigrator Server

Pervasive

Informtica PowerCenter

Oxio Data Intelligence ETL full web

SmartDB Workbench

Sunopsis (Oracle)

SAS Dataflux

Sybase

Syncsort: DMExpress.

Opentext (antes Genio, Hummingbird).

Las caractersticas ms importantes que ha de incluir un software ETL segn son


las siguientes:

Conectividad / capacidades de Adaptacin (con soporte a origenes y


destinos de datos): habilidad para conectar con un amplio rango de tipos
de estructura de datos, que incluyen bases de datos relacionales y no
relacionales, variados formatos de ficheros, XML, aplicaciones ERP, CRM o

SCM, formatos de mensajes estndar (EDI, SWIFT o HL7), colas de


mensajes, emails, websites, repositorios de contenido o herramientas de
ofimtica.

Capacidades de entrega de datos: habilidad para proporcionar datos a


otras aplicaciones, procesos o bases de datos en varias formas, con
capacidades para programacin de procesos batch, en tiempo real o
mediante lanzamiento de eventos.

Capacidades

de

transformacin

de

datos:

habilidad

para

la

transformacin de los datos, desde transformaciones bsicas (conversin


de tipos, manipulacin de cadenas o clculos simples), transformaciones
intermedias

(agregaciones,

sumarizaciones,

lookups)

hasta

transformaciones complejas como anlisis de texto en formato libre o texto


enriquecido.

Capacidades de Metadatos y Modelado de Datos: recuperacin de los


modelos de datos desde los orgenes de datos o aplicaciones, creacin y
mantenimiento de modelos de datos, mapeo de modelo fsico a lgico,
repositorio de mtodos abierto (con posibilidad de interactuar con otras
herramientas), sincronizacin de los cambios en los metadatos en los
distintos componentes de la herramienta, documentacin, etc.

Capacidades de diseo y entorno de desarrollo: representacin grfica


de los objetos del repositorio, modelos de datos y flujos de datos, soporte
para test y debugging, capacidades para trabajo en equipo, gestin de
workflows de los procesos de desarrollo, etc.

Capacidades de gestin de datos (calidad de datos, perfiles y minera).

Adaptacin a las diferentes plataformas hardware y sistemas


operativos existentes: Mainframes (IBM Z/OS), AS/400, HP Tandem, Unix,
Wintel, Linux, Servidores Virtualizados, etc.

Las operaciones y capacidades de administracin: habilidades para


gestin, monitorizacin y control de los procesos de integracin de datos,
como gestin de errores, recoleccin de estadsticas de ejecucin,
controles de seguridad, etc.

La arquitectura y la integracin: grado de compactacin, consistencia e


interoperabilidad de los diferentes componentes que forman la herramienta
de integracin de datos (con un deseable mnimo nmero de productos, un
nico repositorio, un entorno de desarrollo comn, interoperabilidad con
otras herramientas o via API), etc.

También podría gustarte