Está en la página 1de 10

UNIVERSIDAD NACIONAL

DE
HUANCAVELICA

 ING: RONY LAGOS


 ESTUDIANTES: VILLALBA CARDENAS, Rebeca
QUE ES ETL ..................................................................................................................................... 3
ETL ....................................................................................................................................................... 4
¿Para qué se utiliza un proceso de ETL? ............................................................................................ 4
Como funcionan los procesos de ETL y ELT........................................................................................ 5
Aplicaciones de los procesos ETL ....................................................................................................... 7
SSIS ...................................................................................................................................................... 9
Qué es SSIS? ........................................................................................................................................ 9
Qué podemos hacer con SSIS? ........................................................................................................... 9
Limpiar y estandarizar datos. ........................................................................................................... 10
QUE ES ETL
Mediante la jerarquía del conocimiento se permite relacionar datos con información,
conocimiento y sabiduría. En la siguiente figura se representa dicha jerarquía, en la que
podemos ver como se relacionan los distintos niveles.

Desde el punto de partida, formado por el conjunto de datos iniciales, se desarrollan los
procesos ETL que darán valor útil a estos datos, obteniendo información de los mismos. En
el siguiente paso, se explotan los datos, previamente cargados en un repositorio diseñado
para este fin, mediante las herramientas de reporting, obteniendo conocimiento de ellos.
Por último, y no siempre se incluye en la jerarquía del conocimiento, nos encontramos la
sabiduría, que consiste en la capacidad de tomar decisiones a través de la interpretación
del conocimiento obtenido a través de los informes generados.

Para alcanzar esta información es necesario diseñar correctamente los procesos ETL
correspondientes en cada caso. A continuación se detalla brevemente el proceso:
Esta fase consiste en la obtención de datos de las fuentes de origen. Los datos
extracción pueden tener diferentes orígenes, ya sean Bases de Datos Relacionales, Bases de
Datos No Relacionales, ficheros, etc.
Consiste en la realización de los cálculos necesarios. Si por ejemplo tenemos
como origen «número de clientes» y «número de mujeres», y necesitamos saber
Transformación el porcentaje de mujeres que son clientes, se necesita un cálculo para obtener la
métrica deseada. Si necesitamos adecuar el formato de un campo para su
posterior explotación, también se realiza aquí.
En esta parte del proceso se vuelcan los datos procedentes de la fase de
transformación al sistema de destino. En este punto se puede hacer un volcado
gCarga
directo, manteniendo un histórico de almacenaje con la fecha de inserción, o se
pueden sobrescribir los datos con la nueva información.

ETL
ETL - este termino viene de ingles de las siglas Extract-Transform-Load que significan
Extraer, Transformar y Cargar y se refiere a los datos en una empresa. ETL es el proceso
que organiza el flujo de los datos entre diferentes sistemas en una organización y aporta
los métodos y herramientas necesarias para mover datos desde múltiples fuentes a un
almacén de datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, data mart ó
bodega de datos. ETL forma parte de la Inteligencia Empresarial (Business Intelligence),
también llamado “Gestión de los Datos” (Data Management).

La idea es que una aplicación ETL lea los datos primarios de unas bases de datos de
sistemas principales, realice transformación, validación, el proceso cualitativo, filtración y al
final escriba datos en el almacén y en este momento los datos son disponibles para analizar
por los usuarios.

¿Para qué se utiliza un proceso de ETL?


En prácticamente cualquier operación empresarial los datos desempeñan un papel
importante; para que tengan valor, deben trasladarse y prepararse para su uso, y para ello
se necesitan procesos de ETL. Enumeramos algunos casos de aplicación de ETL:

 Migración de datos de una aplicación a otra


 Replicación de datos para copias de seguridad o análisis de redundancia
 Procesos operativos, como la migración de datos desde un CRM a un ODS
(almacén de datos operativos) para potenciar o enriquecer los datos y luego
devolverlos al CRM
 Depositar los datos en un almacén de datos para ingerir, clasificar y transformarlos
en business inteligente
 Migración de aplicaciones de infraestructuras locales a cloud, cloud híbrida o
multicloud
 Sincronización de sistemas clave

Como funcionan los procesos de ETL y ELT


Un proceso de ETL suele comprender 3 fases. Cada vez es más habitual extraer datos de
sus ubicaciones originales y luego cargarlos en un almacén de datos diana o transformarlos
después de cargarlos. Este proceso recibe el nombre de ELT, en lugar de ETL. Obtenga
más información sobre la diferencia entre ETL y ELT.

He aquí las tres fases del proceso de ETL:

Fase 1: Extracción

El objetivo de un proceso ETL es producir datos limpios y accesibles que puedan utilizarse
para analíticas u operaciones comerciales. Los datos en bruto deben extraerse de una
variedad de fuentes, por ejemplo:

Bases de datos existentes

Registros de actividad como el tráfico de red, informes de errores, etc.

Rendimiento y anomalías de aplicaciones

Incidencias de seguridad

Otras actividades transaccionales que deben comunicarse para dar cumplimiento normativo

Los datos extraídos en ocasiones se transfieren a otro destino como por ejemplo un data
lake o un almacén de datos.

Fase 2: Transformación
La fase de transformación de ETL es donde se produce la operación más crítica. El
resultado más destacado de la transformación pasa por aplicar las normas necesarias del
negocio a los datos para cumplir con los requisitos de notificación. La transformación
modifica los datos en bruto para que presenten los formatos de notificación correctos. Si
los datos no se limpian, resulta más complicado aplicar las normas comerciales de
notificación.

La transformación se efectúa mediante una serie de normas y reglamentos que se esbozan.


Estos son algunos de los estándares que garantizan la calidad de datos y su accesibilidad
durante esta fase:

Normalización: definir qué datos entrarán en juego, cómo se formatearán y almacenarán, y


otras consideraciones básicas que definirán las etapas sucesivas.

Eliminación de duplicados: notificar los duplicados a los administradores de datos;


excluyendo y/o eliminando los datos redundantes.

Verificación: ejecutar comprobaciones automatizadas para cotejar información similar,


como tiempos de transacción o registros de acceso. Las tareas de verificación permiten
seguir cribando los datos no utilizables y pueden alertar sobre anomalías en sus sistemas,
aplicaciones o datos.

Clasificación: maximizar la eficiencia de los almacenes de datos agrupando y clasificando


elementos como los datos en bruto, audios, archivos multimedia y otros objetos en
categorías. Las normas de transformación determinarán cómo se clasifica cada dato y
dónde se trasladará a continuación. A menudo el proceso de ETL se emplea para crear
tablas de agregación a efectos de informes resumidos. Para ello debemos clasificar y,
posteriormente, agregar.

Las demás tareas las define usted y las configura para que se ejecuten automáticamente.

Estas fases de transformación reducen lo que hasta ahora era un montaña de material sin
utilidad posible a un producto de datos que puede presentar en la última fase del ETL: la
fase de carga.

Fase 3: Carga
La última fase de un proceso de ETL típico es la carga de esos datos extraídos y
transformados a su nuevo destino. Existen dos vías habituales de cargar los datos a un
almacén de datos: la carga completa y la carga incremental.

La ejecución de un ciclo aislado de ETL o de una serie de ellos programada puede


realizarse ejecutando una tarea desde una línea de comando o una interfaz GUI. Sin
embargo, debemos estar atentos a varios frentes. Gestionar las excepciones, por ejemplo,
puede resultar un proceso muy farragoso. Muchas veces las extracciones de datos pueden
fallar cuando hay incidencias en uno o varios sistemas. La existencia de datos erróneos en
un sistema puede afectar a datos que estén siendo extraídos de otro, por lo que el
seguimiento y la gestión de errores son actividades fundamentales.

Aplicaciones de los procesos ETL


Gracias a los procesos ETL es posible que cualquier organización:

 Mueva datos desde una o múltiples fuentes.


 Reformatee esos datos y los limpie, cuando sea necesario.
 Los cargue en otro lugar como una base de datos, un data mart o un data
warehouse.
 Una vez alojados en destino, esos datos se analicen. O, cuando ya están
cargados en su ubicación definitiva, se empleen en otro sistema operacional, para
apoyar un proceso de negocio.

No obstante, las herramientas ETL no tienen por qué utilizarse sólo en entornos de
Data Warehousing o construcción de un Data Warehouse, sino que pueden ser útiles
para multitud de propósitos, como por ejemplo:

 Tareas de Bases de datos: que también se utilizan para consolidar, migrar y


sincronizar bases de datos operativas.
 Migración de datos entre diferentes aplicaciones por cambios de versión o cambio
de aplicativos.
 Sincronización entre diferentes sistemas operacionales (por ejemplo, entre
nuestro entorno ERP y la web de ventas).
 Consolidación de datos: sistemas con grandes volúmenes de datos que son
consolidados en sistemas paralelos, ya sea para mantener históricos o para llevar
a cabo procesos de borrado en los sistemas originales.
 Interfases de datos con sistemas externos: como el envío de información a
clientes o proveedores. También servirían para la recepción, proceso e integración
de la información recibida.
 Interfases con sistemas Frontoffice: serían interfases de subida/bajada con
sistemas de venta.
 Otros cometidos: como la actualización de usuarios a sistemas paralelos o la
preparación de procesos masivo
SSIS
Integration Services es mas que un asistente para mover datos, está basado en Visual
Studio y se pueden crear paquetes con flujos de trabajo y tareas tan complejas como se
quiera.

Qué es SSIS?
Integration Services es básicamente una poderosa herramienta de SQL Server para
realizar tareas tipo ETL (Extract Transform Load). Fue liberada por Microsoft por primera
vez junto con SQL server 2005 y fue el reemplazo de DTS (Data Transformation
Services). Ha estado presente desde entonces en todas las distribuciones de SQL Server.

SSIS ofrece una variedad de formas y utilidades para mover datos de un lugar a otro, por
ejemplo si se requiere mover datos de una forma rápida de alguna fuente de datos tipo
OLE DB (o compatible) SSIS ofrece el Asistente de Importación y Exportación con el cual
no solo se pueden mover datos si no realizar transformaciones sobre ellos tales como
convertir un tipo de datos en otro. Este asistente permite de forma rápida hacer revisiones
de las tablas de origen y escribir consultas para optimizar la forma y cantidad de los datos
que se quieren recuperar.

Pero SSIS es mas que un asistente para mover datos, usando el ambiente BIDS
(Business Intelligence Development Studio ) que esta basado en Visual Studio se pueden
crear paquetes (colecciones de elementos de trabajo) con flujos de trabajo y tareas tan
complejas como se quiera, ademas una de las ventajas que ofrece es que BIDS no esta
ligado a un servidor particular de SQL Server por lo que no se necesita estar conectado a
uno para diseñar un paquete. En otras palabras se puede diseñar el paquete en modo
desconectado y al terminar hacer la instalación de este en el servidor de SQL que se
quiera.

Qué podemos hacer con SSIS?


Cargar datos desde diferentes fuentes de datos.

 Archivos planos.
 Diferentes motores de bases de datos.
 XML
 Excel
Limpiar y estandarizar datos.
Qué podemos hacer con SSIS?

 Aplicar lógica desea a los datos antes de cargarlos.


 Resumir / Convertir datos.
 Distribuir / Descartar datos.
 Automatizar tareas administrativas de bases de datos.
 Respaldo y restauración de Bases de Datos.

 Copiar Objetos de una Base de Datos a otra.

También podría gustarte