Está en la página 1de 7

ETL Extracción, Transformación y Carga de Datos

1. ¿Qué es un proceso ETL?

Concepto

La idea de web 3.0 se refiere a una web capaz de interpretar e interconectar un mayor
número de datos, lo que permitirá un aumento de interactividad y significado.

Este proceso forma parte del conjunto de herramientas y procesos de Business Intelligence.

Extraer
Hace referencia al primer proceso de una ETL. Se trata de la extracción de los datos desde las diferentes
fuentes de datos. En la mayoría de los casos, lo normal es la fusión de diferentes orígenes para hacer una
transformación conjunta.
Cada fuente tiene una forma distinta de almacenar los datos y, por lo tanto, necesita una manera concreta
de tratarlos. El proceso más común es:

 Extraer los datos desde las fuentes de origen.

 Analizar los datos que se han obtenido.

 Interpretar el análisis para comprobar que cumplen la estructura esperada.

 Convertir los datos al formato adecuado para su posterior transformación.

Uno de los detalles más importantes a tener en cuenta es que la extracción cause un impacto mínimo en el
sistema de origen, para no realizar consultas de extracción innecesarias y ralentizar el sistema.

Transformación
En esta etapa se aplican una serie de “reglas de negocio” sobre los datos extraídos para aplicarles ciertas
transformaciones antes de ser cargados. Puedes encontrar fuentes de datos que no requieren casi
transformaciones y, por otro lado, fuentes de datos que requieren de mucho análisis antes de realizar la
carga.
Por ejemplo, algunas transformaciones comunes son:

 Selección de ciertas columnas.

 Traducir valores.

 Codificar valores.

 Hacer combinaciones de fuentes.

 Obtener nuevos valores calculados.

 Obtener totales.

 Dividir columnas en función de separadores.

 Transponer o pivotar.
ETL Extracción, Transformación y Carga de Datos

Cargar
En la última fase, se usan los datos que se han transformado en la fase anterior para cargarlos en el
sistema de destino. En función de los requisitos y características de cada organización, este proceso
puede abarcar más o menos acciones.
Hay procesos que sobrescriben la información antigua almacenada en el repositorio con los nuevos
datos transformados. En algunos casos, existen historiales de registros para poder comprobar los mismos
y disponer de un histórico a lo largo del tiempo. Se diferencian dos procesos de carga:

 Acumulación simple: se realiza un resumen de todas las transacciones del periodo seleccionado y

se transporta el resultado como una única transacción, como un sumatorio o un promedio.

 Rolling: este proceso se usa cuando se quiere mantener varios niveles de granularidad. De esta

manera, se almacena la información resumida a distintos niveles, según unidades de tiempo o niveles

jerárquicos en alguna o varias de las dimensiones.

2. Orígenes de datos disponibles en las


herramientas de Microsoft
Orígenes de datos disponibles en las herramientas de
Microsoft
2. Orígenes de datos disponibles en las herramientas de Microsoft
Microsoft ha estado apostando por el análisis de datos y la Inteligencia de Negocio en el entorno de la
organización, y así lo ha dejado patente a través de las novedades que ha ido incluyendo en sus
herramientas, orientadas a conseguir introducir esta tendencia en el día a día de la empresa, de una manera
accesible e intuitiva.
De esta manera, a nivel técnico, Microsoft ha adaptado sus propias herramientas a las
diferentes soluciones del mercado para crear sinergias entre ellas. En este sentido, tanto Excel como
Power BI son capaces de establecer conexiones a diferentes fuentes de datos para completar el proceso
de extracción.
A continuación, se plantean las conexiones más comunes que pueden hacerse con las herramientas de
Microsoft:
1. Conexiones estándar.

 Archivos de texto o ficheros .csv, delimitados por diferentes elementos. Se pueden importar de dos

formas: abrirlos directamente en Excel o importarlos como un rango de datos. Los formatos más

populares son los ficheros txt separados por tabuladores y los ficheros csv separados

por comas o punto y coma.

 Páginas web, donde se encuentren datos extraíbles en tablas. Lo más normal es que, si la página

consultada contiene datos estructurados en tablas (aunque, a simple vista, no lo parezca), Power
ETL Extracción, Transformación y Carga de Datos

Query lo identifique y muestre una opción para seleccionar la tabla a cargar. Si no, también está la

posibilidad de seleccionar “Vista web” y pulsar sobre la tabla a importar.

 Tablas o rangos de Excel. Se refiere a la conexión con tablas existentes en el libro de Excel que se

está usando en este momento, o bien, un rango de campos específico, por ejemplo, si quieres

seleccionar de la celda A1 a la C4, selecciona como rango: A1:C4.

2. Conexiones a un archivo.
ETL Extracción, Transformación y Carga de Datos

 Libros de Excel. Es posible conectarse a un libro de Excel diferente al que estés usando en ese

momento. Además, todos los cambios que se realicen en el libro de Excel al que estés conectado

aparecerán en el Excel cuando pulses sobre “Actualizar conexiones”.

 Archivos XML. Son ficheros que proporcionan una forma de almacenar datos para que otros

programas, como Excel, puedan leerlos fácilmente.

 Archivos JSON. Es un fichero con un formato estándar abierto, que se basa en texto para transmitir

datos estructurados.

 Carpetas. Es posible realizar conexiones a carpetas en nuestro propio equipo, las cuales pueden

contener más de un fichero, de diversos tipos.

 Carpetas de SharePoint. Esta herramienta se trata de una aplicación colaborativa que se encuentra

integrada en Office. Es posible crear grupos para compartir archivos entre usuarios. Funciona de una

manera similar a las carpetas locales, pero, en este caso, se encuentran alojadas en un

almacenamiento online o cloud.

3. Conexiones a Bases de Datos.

 SQL Server. Para conectarse, será necesario incluir una serie de datos, como nombre del servidor,

nombre de la base de datos y, en caso de que requiera usar credenciales, el usuario y la contraseña.

 Access. A través del asistente de importación, es fácil crear la conexión entre Access y Power Query.

 Analysis Services. Es una herramienta de minería de datos y procesamiento analítico de SQL Server.

De igual manera, pedirá una serie de datos, como nombre del servidor o nombre de la base de datos.
ETL Extracción, Transformación y Carga de Datos
Existen más aplicaciones para almacenar bases de datos que permiten realizar conexiones con Power
Query, entre ellas, destacan: Oracle, MySQL, PostgreSQL, Azure.
4. Conexiones a servicios online.

 SharePoint.

 Exchange.

 Dynamics.

 Facebook.

 Salesforce.

En la mayoría de estos servicios, será necesario iniciar sesión con las credenciales de una cuenta de
usuario o, por otro lado, tendrás que usar una dirección web del portal (como en SharePoint o Dynamics).
En el caso de Facebook, puedes probar iniciando sesión con tu propio usuario y explorar diversas opciones,
como “me gusta” a páginas, comentarios, amigos, etc.

3. Proceso de ETL en Power Query


Proceso de ETL en Power Query
3. Proceso de ETL en Power Query
Microsoft ha incluido diversos complementos para Excel que facilitan la extracción, transformación y
carga de datos en la herramienta, para proceder, tras esto, a realizar análisis sobre los datos y usar
visualizaciones, con el objetivo de sacar conclusiones valiosas para la toma de decisiones en la empresa.
ETL Extracción, Transformación y Carga de Datos

3. Proceso de ETL en Power Query


Conexión y extracción de datos desde distintos
orígenes
3.1. Conexión y extracción de datos desde distintos orígenes
En la herramienta Power Query, es posible realizar conexiones de datos a diferentes fuentes. Incluye unas
opciones predeterminadas que nos facilitan el proceso, gracias a su asistente de conexión.
A través del Editor de Consultas, también es posible realizar conexiones a fuentes de datos.

Al abrir la herramienta, en la pestaña “Inicio”, está la opción “Nueva Consulta”. Esta opción permite hacer
una serie de conexiones muy similar a las comentadas anteriormente, la diferencia es que la
conexión podrás hacerla directamente en Power Query (Editor de Consultas), para luego exportarlo
a la hoja de Excel.
Para acceder a esta opción, en la pestaña “Inicio”, en la esquina superior derecha, encontrarás la opción
“Nuevo origen”.
ETL Extracción, Transformación y Carga de Datos

También podría gustarte