0% encontró este documento útil (0 votos)
311 vistas2 páginas

Proceso de ETL

El proceso ETL incluye la extracción de datos de múltiples fuentes, su transformación para coincidir con el esquema del almacén de datos, y la carga de los datos transformados en el almacén de datos. La extracción requiere manejar diferentes plataformas y fuentes de datos, la transformación limpia y estandariza los datos, e integra múltiples fuentes, y la carga almacena los datos transformados en la estructura multidimensional del almacén de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
311 vistas2 páginas

Proceso de ETL

El proceso ETL incluye la extracción de datos de múltiples fuentes, su transformación para coincidir con el esquema del almacén de datos, y la carga de los datos transformados en el almacén de datos. La extracción requiere manejar diferentes plataformas y fuentes de datos, la transformación limpia y estandariza los datos, e integra múltiples fuentes, y la carga almacena los datos transformados en la estructura multidimensional del almacén de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Proceso de ETL

Las herramientas de Extraction–transformation–loading (ETL) son piezas de software


responsables de la extracci´on de datos desde varias fuentes, su limpieza, puesta a punto, re
formateo, integraci´on e inserci´on en un Data Warehouse. Construir el proceso de ETL es una
de las grandes tareas de la implementaci´on de un data warehouse. La construcci´on de un
data warehouse requiere enfocarse en entender tres cuestiones: las fuentes de datos, quienes
son los destinatarios y c´omo mapear esos datos (proceso de ETL).

Extraction, Transformation, and Loading (ETL)

Durante el proceso de ETL los datos son extraidos desde bases de datos OLTP, transformados
para que coincidan con el DW esquema y luego cargados en el DW. Muchos data warehouses
adem´as incorporan datos desde sistemas no-OLTP, tales como archivos de texto sistemas de
herencia y hojas de c´alculo. ETL es a menudo una compleja combinaci´on de procesos y
tecnolog´ıas que consumen una porci´on significativa del esfuerzo de desarrollo y requiere la
habilidad de an´alisis de negocio, dise˜no de bases de datos y desarrollo de aplicaciones. El
proceso de ETL no es una tarea de una sola vez. Como las fuentes de datos cambian, los data
warehouse deben ser actualizados periodicamente.

Extraction, Transformation, y Loading (ETL)

Extracci´on de datos Obtener datos de m´ultiples, heterog´eneos y fuentes externas Limpieza


de datos Detectar errores en los datos y rectificarlos cuando sea posible Transformaci´on de
datos Convertir datos de formato heredado o acogida al formato de almac´en Carga Clasificar,
resumir, consolidar, calcular puntos de vista, comprobar la integridad, y construir ´ındices del y
particiones Refrescar Propagar las actualizaciones de las fuentes de datos para el almacen.

Extraction

 El primer paso en un escenario de ETL es la extracción de datos


 Cada una de las fuentes de datos tiene sus propias características que se necesitan
manejar en orden para extraer los datos de forma efectiva.
 El proceso debe integrar eficazmente los sistemas que tienen diferentes plataformas,
como:
o los diferentes sistemas de gestión de bases de datos,
o sistemas operativos diferentes y
o diferentes protocolos de comunicación

Durante el proceso de extracción de datos de diferentes fuentes, el equipo de ETL debe ser
consciente de:

o (a) el uso de controladores que conectan a las fuentes de bases de datos,


o (b) comprender las estructuras de datos de las fuentes, y
o (c) saber cómo manejar las fuentes de diferente naturaleza tales como mainframes.
El proceso de extracción consta de dos fases, extracción inicial, y la extracción de datos
modificada.

 En la extracción inicial, es la primera vez que se obtienen los datos de las diferentes
fuentes operativas para ser cargados en el almacén de datos
 La extracción incremental se llama captura de datos modificados (CDC) donde los
procesos ETL actualizan el DW con el datos modificados y agregados en los sistemas de
origen desde la última extracción.

Este proceso es periódico según el ciclo de actualización y Necesidades del negocio. También
captura solo los datos modificados desde la última extracción mediante el uso de muchas
técnicas como columnas de auditoría, bases de datos log, fecha del sistema o técnica delta.

Transformation

El segundo paso en cualquier escenario ETL es la transformación de datos.

El paso de transformación tiende a hacer algo de limpieza y conforme a los datos entrantes
para obtener datos precisos que correcto, completo, coherente y sin ambigüedades.

Este proceso incluye limpieza, transformación e integración.

Define la granularidad de las tablas de hechos, las tablas de dimensiones, DW


esquema (mirada o copo de nieve), hechos derivados, que cambian lentamente
dimensiones, tablas de hechos sin hechos.

Todas las reglas de transformación y los esquemas resultantes se describen en


el repositorio de metadatos.

Load

La carga de datos en la estructura multidimensional de destino es la última


Paso ETL.

En este paso, los datos extraídos y transformados se escriben en el


estructuras dimensionales a las que realmente acceden los usuarios finales y
sistemas de aplicación.

El paso de carga incluye tablas de dimensiones de carga y carga


tablas de hechos.

Referencias
Han, J., & M, K. M. (2006). Data mining: Concepts and techniques, 2nd ed. Obtenido de
Concepts and techniques: http://hanj.cs.illinois.edu/bk2/.

Proceso de ETL
Las  herramientas  de  Extraction–transformation–loading  (ETL)  son  piezas  de  software
responsables de la
El proceso de extracción consta de dos fases, extracción inicial, y la extracción de datos
modificada.

En la extracción ini

También podría gustarte