Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE
HUANCAVELICA
Desde el punto de partida, formado por el conjunto de datos iniciales, se desarrollan los
procesos ETL que darán valor útil a estos datos, obteniendo información de los mismos. En
el siguiente paso, se explotan los datos, previamente cargados en un repositorio diseñado
para este fin, mediante las herramientas de reporting, obteniendo conocimiento de ellos.
Por último, y no siempre se incluye en la jerarquía del conocimiento, nos encontramos la
sabiduría, que consiste en la capacidad de tomar decisiones a través de la interpretación
del conocimiento obtenido a través de los informes generados.
Para alcanzar esta información es necesario diseñar correctamente los procesos ETL
correspondientes en cada caso. A continuación se detalla brevemente el proceso:
Esta fase consiste en la obtención de datos de las fuentes de origen. Los datos
extracción pueden tener diferentes orígenes, ya sean Bases de Datos Relacionales, Bases de
Datos No Relacionales, ficheros, etc.
Consiste en la realización de los cálculos necesarios. Si por ejemplo tenemos
como origen «número de clientes» y «número de mujeres», y necesitamos saber
Transformación el porcentaje de mujeres que son clientes, se necesita un cálculo para obtener la
métrica deseada. Si necesitamos adecuar el formato de un campo para su
posterior explotación, también se realiza aquí.
En esta parte del proceso se vuelcan los datos procedentes de la fase de
transformación al sistema de destino. En este punto se puede hacer un volcado
gCarga
directo, manteniendo un histórico de almacenaje con la fecha de inserción, o se
pueden sobrescribir los datos con la nueva información.
ETL
ETL - este termino viene de ingles de las siglas Extract-Transform-Load que significan
Extraer, Transformar y Cargar y se refiere a los datos en una empresa. ETL es el proceso
que organiza el flujo de los datos entre diferentes sistemas en una organización y aporta
los métodos y herramientas necesarias para mover datos desde múltiples fuentes a un
almacén de datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, data mart ó
bodega de datos. ETL forma parte de la Inteligencia Empresarial (Business Intelligence),
también llamado “Gestión de los Datos” (Data Management).
La idea es que una aplicación ETL lea los datos primarios de unas bases de datos de
sistemas principales, realice transformación, validación, el proceso cualitativo, filtración y al
final escriba datos en el almacén y en este momento los datos son disponibles para analizar
por los usuarios.
Fase 1: Extracción
El objetivo de un proceso ETL es producir datos limpios y accesibles que puedan utilizarse
para analíticas u operaciones comerciales. Los datos en bruto deben extraerse de una
variedad de fuentes, por ejemplo:
Incidencias de seguridad
Otras actividades transaccionales que deben comunicarse para dar cumplimiento normativo
Los datos extraídos en ocasiones se transfieren a otro destino como por ejemplo un data
lake o un almacén de datos.
Fase 2: Transformación
La fase de transformación de ETL es donde se produce la operación más crítica. El
resultado más destacado de la transformación pasa por aplicar las normas necesarias del
negocio a los datos para cumplir con los requisitos de notificación. La transformación
modifica los datos en bruto para que presenten los formatos de notificación correctos. Si
los datos no se limpian, resulta más complicado aplicar las normas comerciales de
notificación.
Las demás tareas las define usted y las configura para que se ejecuten automáticamente.
Estas fases de transformación reducen lo que hasta ahora era un montaña de material sin
utilidad posible a un producto de datos que puede presentar en la última fase del ETL: la
fase de carga.
Fase 3: Carga
La última fase de un proceso de ETL típico es la carga de esos datos extraídos y
transformados a su nuevo destino. Existen dos vías habituales de cargar los datos a un
almacén de datos: la carga completa y la carga incremental.
No obstante, las herramientas ETL no tienen por qué utilizarse sólo en entornos de
Data Warehousing o construcción de un Data Warehouse, sino que pueden ser útiles
para multitud de propósitos, como por ejemplo:
Qué es SSIS?
Integration Services es básicamente una poderosa herramienta de SQL Server para
realizar tareas tipo ETL (Extract Transform Load). Fue liberada por Microsoft por primera
vez junto con SQL server 2005 y fue el reemplazo de DTS (Data Transformation
Services). Ha estado presente desde entonces en todas las distribuciones de SQL Server.
SSIS ofrece una variedad de formas y utilidades para mover datos de un lugar a otro, por
ejemplo si se requiere mover datos de una forma rápida de alguna fuente de datos tipo
OLE DB (o compatible) SSIS ofrece el Asistente de Importación y Exportación con el cual
no solo se pueden mover datos si no realizar transformaciones sobre ellos tales como
convertir un tipo de datos en otro. Este asistente permite de forma rápida hacer revisiones
de las tablas de origen y escribir consultas para optimizar la forma y cantidad de los datos
que se quieren recuperar.
Pero SSIS es mas que un asistente para mover datos, usando el ambiente BIDS
(Business Intelligence Development Studio ) que esta basado en Visual Studio se pueden
crear paquetes (colecciones de elementos de trabajo) con flujos de trabajo y tareas tan
complejas como se quiera, ademas una de las ventajas que ofrece es que BIDS no esta
ligado a un servidor particular de SQL Server por lo que no se necesita estar conectado a
uno para diseñar un paquete. En otras palabras se puede diseñar el paquete en modo
desconectado y al terminar hacer la instalación de este en el servidor de SQL que se
quiera.
Archivos planos.
Diferentes motores de bases de datos.
XML
Excel
Limpiar y estandarizar datos.
Qué podemos hacer con SSIS?