Está en la página 1de 7

Minería de Datos

Nombre:
Keury Alberto Lendof Diaz
Matricula:
2019-8871
Tema:
Proceso ETL
Asignatura:
Minería de Datos
Profesor:
Jorge R. Taveras G.
Fecha:
8/03/2021
Introducción

Bueno profesor en este trabajo estaré hablando sobre el proceso ETL


(Extracción, Transformación y Carga) que es aquel que permite extraer
masivamente datos de diversas fuentes, procesarlos, procesar su
transformación y finalmente lograr un objetivo de carga de archivos ,
una base de datos u otro.

Un ejemplo supongamos que tenemos una base de datos en la que


queremos almacenar información agregada. Digamos que esta
información proviene por ejemplo de archivos que recopilamos que son
de un tamaño enorme, la información que genera un tipo de sensor y que
un log deja en un archivo. Una posibilidad sería cargar los datos de los
archivos en algunas tablas de la base de datos y luego procesarlos en
ellas.

Los procesos ETL evitan sobrecargar los sistemas de destino de la


información con el procesamiento, este es solo un caso de uso, por
supuesto, pero creo que es bastante bueno tener una idea de hacia dónde
va el metraje.
El proceso ETL y sus Principales Características

En la mayoría de las organizaciones, los datos potencialmente útiles son


inaccesibles; Un estudio ha demostrado que dos tercios de las empresas
obtienen "resultados poco tangibles" o ninguno en absoluto de sus datos.
Los datos a menudo se aíslan en compartimentos estancos, sistemas
heredados o aplicaciones que se utilizan con poca frecuencia. ETL es el
proceso de hacer que estos datos estén disponibles extrayendolos de
múltiples fuentes (como lo ilustra el diagrama anterior) y
transformándolos en datos útiles para limpiar, transformar y, en última
instancia, obtener información comercial.

Algunas personas ejecutan procesos ETL mediante programación


manual en SQL o Java, pero existen herramientas que facilitan el
proceso. Este artículo describe varias aplicaciones ETL, los beneficios de
usar una herramienta ETL sobre la programación manual y los
beneficios que los clientes deben esperar de las herramientas ETL.

Los datos juegan un papel importante en prácticamente todas las


operaciones comerciales; Para que tengan algún valor, deben moverse y
prepararse para su uso, y esto requiere procesos ETL. Enumeramos
algunos casos de uso de ETL:

● Migrar datos de una aplicación a otra.


● Replicación de datos para copias de seguridad o análisis de
redundancia.
● Procesos operativos, como B. La migración de datos de un CRM a
un ODS (Operational Data Warehouse) para complementar o
enriquecer los datos y devolverlos al CRM.
● Almacene los datos en un almacén de datos para registrarlos,
clasificarlos y convertirlos en inteligencia empresarial.
● Migración de aplicaciones desde la infraestructura local a la nube,
nube híbrida o multi nube.
● Sincronización de sistemas clave.
Un proceso de ETL suele comprender 3 fases. Cada vez es más habitual
extraer datos de sus ubicaciones originales y luego cargarlos en un
almacén de datos diana o transformarlos después de cargarlos. Este
proceso recibe el nombre de ELT, en lugar de ETL. Las 3 fases que lo
componen son:

Fase 1: Extracción

El objetivo de un proceso ETL es producir datos limpios y accesibles que


puedan utilizarse para analíticas u operaciones comerciales. Los datos en
bruto deben extraerse de una variedad de fuentes, por ejemplo:

● Bases de datos existentes.


● Registros de actividad como el tráfico de red, informes de errores,
etc.
● Rendimiento y anomalías de aplicaciones.
● Incidencias de seguridad.
● Otras actividades transaccionales que deben comunicarse para dar
cumplimiento normativo.

Fase 2: Transformación

La fase de transformación de ETL es donde se produce la operación más


crítica. El resultado más destacado de la transformación pasa por aplicar
las normas necesarias del negocio a los datos para cumplir con los
requisitos de notificación. La transformación modifica los datos en
bruto para que presenten los formatos de notificación correctos. Si los
datos no se limpian, resulta más complicado aplicar las normas
comerciales de notificación.

Fase 3: Carga

La última fase de un proceso de ETL típico es la carga de esos datos


extraídos y transformados a su nuevo destino. Existen dos vías
habituales de cargar los datos a un almacén de datos: la carga completa y
la carga incremental.
La ejecución de un ciclo aislado de ETL o de una serie de ellos
programada puede realizarse ejecutando una tarea desde una línea de
comando o una interfaz GUI. Sin embargo, debemos estar atentos a
varios frentes. Gestionar las excepciones, por ejemplo, puede resultar un
proceso muy farragoso. Muchas veces las extracciones de datos pueden
fallar cuando hay incidencias en uno o varios sistemas.

Desafíos de los Procesos ETL

Los procesos ETL que se pongan en marcha a partir de ahora deben


tener la capacidad de:

● Manejar de forma simultánea datos tanto estructurados como no


estructurados.
● Poder leer, procesar y analizar datos provenientes de las redes
sociales: Facebook, Twitter, Linkedin, etc.
● Procesar datos en tiempo real, lo que se conoce también como
streaming de datos. Por ejemplo, poder consultar la cotización de
una moneda en tiempo real y añadirlo a la base de datos para
poder hacer análisis o reportes totalmente actualizados.
● Permitir la escalabilidad, Hoy en día, y en el futuro todavía más,
los datos de una organización crecen de forma exponencial. Esto
significa que si en el presente una empresa necesita 1TB de
memoria para manejar sus datos, el año que viene precisará 2TB y
al otro año 8 TB.
● Escalabilidad vertical. Es cuando a la carga de procesos ETL se le
añaden más recursos: discos, memoria, CPU. Existen dos grandes
tipos de escalabilidad:

Escalabilidad vertical. Es cuando a la carga de procesos ETL se le


añaden más recursos: discos, memoria, CPU.

Escalabilidad horizontal. Consiste en utilizar dos o tres servidores


en los que se instalan procesos ETC interconectados y procesando en
paralelo, de manera que se aprovecha la potencialidad de la suma de esos
equipos.
Qué debe buscarse en una herramienta de ETL

Las herramientas de ETL tienen el potencial de simplificar


considerablemente este proceso. Las prestaciones que deberían buscarse
en una herramienta de ETL son:

● Muchos conectores: son muchos los sistemas y aplicaciones


existentes en el mundo; cuantos más conectores preinstalados
tenga su herramienta de ETL, más tiempo se ahorrará su equipo.
● Código abierto: las arquitecturas de código abierto suelen ofrecer
más flexibilidad, contribuyendo a la vez a evitar la dependencia de
un solo proveedor.
● Portabilidad: es importante, puesto que cada vez más las empresas
se pasan a modelos de cloud híbrida, para poder crear sus
integraciones de datos una vez y ejecutarlas después en cualquier
ubicación.
● Facilidad de uso: las herramientas de ETL deberían ser fáciles de
aprender y utilizar con una interfaz GUI para facilitar la
visualización de sus canalizaciones de datos.
● Un modelo de precios transparente: su proveedor de herramientas
de ETL no debería machacarle por aumentar el número de
conectores o volúmenes de datos.
● Compatibilidad con cloud: su herramienta de integración de datos
debería funcionar de forma nativa en un entorno de una única
cloud, multi cloud o cloud híbrida.
Bibliografía

https://explodat.cl/Analytics/business-intelligence/ejemplo-de-procesos-etl-e
n-calidad-de-datos/

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/Proce
sos-ETL-Definici-n-Caracter-sticas-Beneficios-y-Retos

https://www.talend.com/es/resources/what-is-etl/

Conclusión

Bueno profesor en resumen los ETL son procesos que organizan los
flujos de datos entre distintos sistemas en una organización y aporta los
métodos y herramientas necesarias para movilizar los datos desde
múltiples fuentes a un almacén de datos, para transformarlos, limpiarlos
y cargarlos en otra base de datos.

Es posible mejorar la calidad de los datos aunque no sea una tarea fácil,
incluso si hay un programa de organizar los datos. Hay varios enfoques
que pueden tomar. Se puede mejorar la calidad de los datos no es solo
una tarea técnica, es un cambio cultural, pero ayudar a diagnosticar
problemas con los metadatos generados por los procesos ETL es un
excelente lugar para comenzar, por supuesto si necesita construir el caso
de uso negocio.

También podría gustarte