Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Proceso de Extracción Transformacion y Carga de Datos en DW
Proceso de Extracción Transformacion y Carga de Datos en DW
ETL es un tipo de integración de datos que hace referencia a los tres pasos (extraer,
transformar, cargar) que se utilizan para mezclar datos de múltiples fuentes. Se
utiliza a menudo para construir un almacén de datos. Durante este proceso, los
datos se toman (extraen) de un sistema de origen, se convierten (transforman) en
un formato que se puede almacenar y se almacenan (cargan) en un data warehouse
u otro sistema. Extraer, cargar, transformar (ELT) es un enfoque alterno pero
relacionado diseñado para canalizar el procesamiento a la base de datos para
mejorar el desempeño.
Historia de ETL
Cuando se utiliza con un almacén de datos empresarial (datos en reposo), ETL provee
profundo contenido histórico para la empresa.
Proporcionando una vista consolidada, ETL facilita a los usuarios de negocios analizar y
generar reportes sobre datos relevantes para sus iniciativas.
ETL puede mejorar la productividad de los profesionales de los datos porque codifica y
reutiliza procesos que mueven datos sin requerir habilidades técnicas para escribir código
o scripts.
ETL ha evolucionado para satisfacer requisitos de integración emergentes para cosas como
los datos transmitidos por streaming.
Las organizaciones necesitan ETL y ELT para conjuntar datos, mantener la precisión y
proporcionar el recurso de auditoría que suele requerirse en los almacenes, reportes y
análisis de datos.
ETL es un método probado al que muchas organizaciones recurren todos los días
– como comerciantes detallistas que necesitan ver datos de ventas con
regularidad o proveedores de atención a la salud que buscan una descripción
precisa de solicitudes. ETL puede combinar y sacar a la superficie datos de
transacciones de un almacén de datos a otro de modo que estén listos para que
los vean personas de negocios en un formato que puedan entender. ETL se utiliza
también para migrar datos de sistemas heredados a sistemas modernos con
diferentes formatos de datos. Se utiliza a menudo para consolidar datos de
fusiones de negocios, y para recopilar y unir datos de proveedores o asociados
externos.
ETL ha evolucionado para dar soporte a la integración en mucho más que data
warehouses tradicionales. Herramientas ETL avanzadas pueden convertir y cargar
datos estructurados y no estructurados en Hadoop. Estas herramientas leen y
escriben múltiples archivos en paralelo en y desde Hadoop, simplificando la forma
en que se fusionan datos en un proceso de transformación común. Algunas
soluciones incorporan librerías de transformaciones ETL pre construidas para los
datos de transacciones e interacciones que se ejecutan en Hadoop. ETL permite
también la integración en sistemas transaccionales, almacenes de datos
operacionales, plataformas de inteligencia de negocios, concentradores de gestión
de datos maestros (MDM) y la nube.
ETL y metadatos
Los metadatos nos ayudan a entender el linaje de los datos (de dónde provienen)
y su impacto en otros activos de datos en la organización. Conforme las
arquitecturas de datos se vuelven más complejas, es importante dar seguimiento a
la forma en que se utilizan y se relacionan los diferentes elementos de datos en su
organización. Por ejemplo, si agrega un nombre de cuenta de Twitter a su base de
datos de clientes, necesitará saber qué se verá afectado, como tareas,
aplicaciones o reportes ETL.
Aquí hay algunas formas en que una herramienta ETL puede ayudar a su
negocio a crecer:
1. Eficiencia de tiempo
Con el tiempo, su empresa tendrá que trabajar con una gran cantidad de
datos complejos y diversos. Por ejemplo, puede ser una organización
multinacional con datos provenientes de 3 países diferentes con distintos
nombres de productos, ID de clientes, direcciones, etc.
Una herramienta ETL ayuda a garantizar que los datos que obtiene para el
análisis sean de la mejor calidad posible. Como resultado, puede utilizar estos
datos de alta calidad para tomar mejores decisiones y aumentar su ROI.
En las herramientas ETL en tiempo real, los datos se extraen, limpian, enriquecen y
cargan en el sistema de destino en tiempo real. Estas herramientas le ofrecen un
acceso más rápido a la información y mejoran el tiempo para obtener información.
Un gran número de empresas operan sistemas heredados que tienen tanto los datos
como el repositorio configurados localmente. La principal razón detrás de esta
implementación es la seguridad de los datos. Es por eso que las empresas prefieren
tener una herramienta ETL que se pueda implementar en el sitio.
Estos son los tres casos de uso más comunes del software ETL en el sector
empresarial, que explican cuándo usar ETL:
Almacenamiento de Datos
Migración de datos
Por otro lado, en un Proceso ELT, los datos se obtienen, se ingresan en la base de
datos y las transformaciones se realizan en la base de datos. Este proceso se
prefiere para conjuntos de datos de gran volumen. Reduce la tensión en el servidor
de la herramienta porque todo el procesamiento se lleva a cabo en la base de datos.
Ahora que sabe cuándo usar ETL, avancemos hacia lo que debe buscar al
seleccionar una herramienta ETL.
Para una empresa basada en datos, elegir la herramienta ETL adecuada puede ser
un aspecto insustituible de su pila de análisis de datos. Pero la pregunta es, ¿cómo
encuentras la herramienta adecuada? Muchos empresas de desarrollo de
software ofrecer software ETL que se adapte a las necesidades de su negocio.
Para ayudarlo a seleccionar la correcta, hemos compilado una lista de
características clave que pueden reducir su búsqueda:
· Conectividad
La herramienta ETL adecuada debe conectarse a todas las fuentes de datos que
utiliza su empresa. Idealmente, debería tener conectores incorporados para todos
sus sistemas necesarios, incluidas bases de datos, aplicaciones de ventas y
marketing, formatos de archivo y más, lo que facilita la obtención de datos desde y
hacia cualquier sistema.
Una interfaz libre de errores y fácil de usar proporciona una experiencia consistente
y confiable para manejar tareas relacionadas con datos. La configuración sencilla
es un beneficio adicional que puede ayudarlo a dar vida a sus canalizaciones de
datos en cuestión de minutos.
· Escalabilidad
· Manejo de errores
Obtener datos en tiempo real se está volviendo imprescindible para las empresas
que buscan obtener información oportuna. Una herramienta ETL debe poder
acceder a los datos de las aplicaciones web en tiempo real para garantizar un
tiempo de comprensión más rápido.
· Monitoreo incorporado