Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ETLS
Un buen diseño de este proceso, permitirá cumplir con los estándares de calidad, eficiencia y
fiabilidad, por otro lado un mal diseño, influirá directamente en Datawarehouse, y este a su vez en
las decisiones tomadas por los directivos, debido a la información errónea generada por el proceso
ETL.
- Extracción
- Limpieza
- Transformación
- Integración
- Carga
- Extraer
Es la primera etapa de ETL, aquí es cuando se extraen los datos ubicados en los diferentes
repositorios de la empresas, normalmente nos encontramos con bases de datos relacionales o
ficheros planos, aunque también no relacionales y otros tipos de estructuras. En este paso los
datos son convertidos a un formato, quedando preparados para el proceso de transformación.
En esta fase, los datos deben de ser analizados, comprobando que cumplen con las
especificaciones en cuanto a formato son las requeridas, descartando los que no las cumplen.
Limpieza
El proceso de limpieza de datos nos ayudará a evitar errores que ensucian los datos, algunas de las
causas son las siguientes:
Ausencia de valor
Valores crípticos
Valores contradictorios
El proceso de limpieza, puede ser dividido a su vez en cinco procesos, comentados anteriormente
cuando se hablaba de la limpieza de datos.
Trasformar
Aquí se insertan reglas de negocio (Gobierno de datos) o funciones que preparan los datos para
ser cargados, algunas fuentes de datos sólo necesitaran pequeños cambios mientras que otras
pueden requerir alguna de las siguientes transformaciones:
Selección de ciertas columnas únicamente, descartando las que vayan a provocar fallos, contengan
datos nulos o que no sean de interés para el análisis.
Transformar campos, es decir asignar una regla que asigne a un campo concreto un valor
específico, perro=1.
Codificar valores.
Calcular sumatorios de filas de campos, en el caso de que no interesen los datos aislados, sino que
se requieran de forma conjunta, esto simplificará el proceso.
División de columnas en varias, esto normalmente se hace cuando los datos datos de dentro de la
columna son de gran interés, ya que realentizará el proceso.
Integración
Durante la fase de integración, se comprueba que la información que hemos carado, coincide con
la que teníamos en el sistema transaccional, además se debe comprobar que los valores de los
registros son iguales a los definidos en DataWarehouse.
Cargar
La fase de carga es la última de proceso, aquí es donde los datos transformados en el paso anterior
comienzan a cargarse en el Datawarehouse. No es raro, que este proceso se realice de forma
periódica, con lo que muchos de los datos serán sobrescritos sobre DataWarehouse. Cada vez que
se realiza una carga de datos sobre este repositorio central, son registrados, pudiéndose auditar
los mismos y teniendo siempre un histórico a lo largo del tiempo.
Acumulación simple: este método agrupa una serie de transacciones a lo largo del tiempo,
transportándolas como una única a DataWarehouse, normalmente genera de forma automática
un sumatorio o media de todas éstas transportándolas como valores únicos.
Rolling: es utilizado cuando las necesidades del negocio, requieren de una mayor granularidad de
la información, haciéndose divisiones por niveles jerárquicos temporales… Un ejemplo, podría ser
cargar los datos teniendo en cuenta semanas, meses…
La fase de carga interactúa de forma directa con la base de datos de destino, por lo que cuando los
datos entran en ésta, los disparadores y restricciones establecidas, se accionarán proporcionando
datos de calidad, siempre teniendo en cuanta que éstos hayan sido diseñados correctamente.
De datos: se divide un archivo en pequeños archivos para que de esta manera pueda ser
procesado en paralelo.
A continuación se van a mencionar cuáles son las características que una herramienta ETL, debería
tener.
Interface gráfico: donde se puedan visualizar las relaciones entre fuentes de datos,
transformaciones, procesos y tareas cuando se esta realizando la carga.
Extracción de la información: empleándose conectores como ODBC o SQL nativos de los distintos
motores de búsqueda o ficheros planos.
Transformación: se debería de contar con librerías de transformación para que transformara los
datos de origen en los de destino.
Carga: con adapatadores que permitieran insertar o modificar los datos de Datawarehouse.
Servicios de transporte: como FTP, para transportar los archivos de las diversas fuentes al lugar de
destino.
Esta solución está desarrollada por la empresa tecnológica SAP. Cuenta con el proceso de
extracción, transformación y carga de información para diferentes aplicaciones bases de datos u
otras fuentes de información. Permite la extracción de archivos con datos estructurados y
desestructurados. Se caracteriza por su agilidad y la fiabilidad de la integración de la información.
Sus principales características son:
Permite su integración con SAP HANA, que cuenta con tecnología inmemory, lo que permite el
análisis de grandes volúmenes de datos en periodos cortos de tiempo.
Permite sacar el máximo rendimiento de Big Data, ya que puede acceder a datos desestructurados
procedentes de sistemas Hadoop.
Gran productividad con una sóla herramienta que cuenta con una interface intuitiva para la
integración de datos de calidad.
Cognos Decisionstream
Organiza los datos por tema (ventas, finanzas…) y por categoría (producto, consumidor…)
Cuenta con una interface gráfica y muy intuitiva, que permite hacer el prceso de transformación
de una manera rápida y sencilla.
Herramientas gráficas que pueden utilizarse para desarrollar soluciones sin necesidad de recurrir
al código.
Se pueden programar tareas para la creación de paquetes, personalizar tareas y otros objetos del
paquete.
Oracle Warehouse builder, es una herramienta desarrollada por Oracle, destaca por la calidad de
la información recuperada, su sistema de auditoria, su perfecta integración con modelos
relacionales y dimensionales y un completo sistema de gestión del ciclo de vida de los datos y
metadatos. Entre sus principales características destaca:
Acceso a grandes cantidades de datos: estabilizando conexiones trasparentes con bases de datos,
aplicaciones, archivos y repositorios de datos de la empresa.
Habilidad para clasificar, transformar y limpiar los datos. Cuenta con una amplia librería para la
transformación de datos de diferentes tipos como texto, números, fechas y otros. Antes de
cargarse los datos en el Datawarehouse, proporciona un servicio de evaluación de la calidad de los
datos.
Auditar: tras haber consolidado los datos de las diversas bases de datos en un único repositorio,
permite ver los cambios realizados.
Jaspersoft
Es una herramienta ETL, que permite la extracción, transformación y carga de datos procedentes
de diversas fuentes, dejándolos listos para su inserción en Datawarehouse o Data Mart y su
posterior análisis. Entres sus principales características destacar:
Un entrono de diseño gráfico, que permite el diseño en colaboración de los procesos ETL, con
herramientas drag-and-drop que facilita la estructuración de procesos. También cuenta con un
panel donde monitoriza la ejecución de los diversos procesos y sus cambios.
Cuenta con conectores para ERP y CRM como Salesfoce Sap Y SugarCRM y entornos Bigdata como
Hive para Hadoop y MogoDB.