0% encontró este documento útil (0 votos)
51 vistas18 páginas

Procesos ETL y Tipos de Datos en BI

Este documento describe los conceptos clave del proceso ETL, incluyendo la extracción, transformación y carga de datos de diferentes fuentes. Explica los tipos de datos estructurados, semiestructurados y no estructurados, así como las etapas y objetivos del proceso ETL.

Cargado por

Fabio Pinto
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
51 vistas18 páginas

Procesos ETL y Tipos de Datos en BI

Este documento describe los conceptos clave del proceso ETL, incluyendo la extracción, transformación y carga de datos de diferentes fuentes. Explica los tipos de datos estructurados, semiestructurados y no estructurados, así como las etapas y objetivos del proceso ETL.

Cargado por

Fabio Pinto
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

UNIDAD 2:

PROCESOS
ETL
Variedad: una del características
de
los datos en BI
¿Variedad?
● De organización de datos
● De tipos y formatos de
datos
● Tipos de fuentes de datos
Tipos de datos

● Datos estructurados
Los datos estructurados tienen perfectamente definido la
longitud, el formato y el tamaño de sus datos.

Se almacenan en formato tabla, hojas de cálculo o en bases


de datos relacionales.
Tipos de datos

● Datos semiestructurados
Los datos semiestructurados no presenta una estructura
perfectamente definida una organización definida en sus
metadatos como por ejemplo los formatos HTML, XML o
JSON.
Tipos de datos

● Datos no estructurados
Los datos no estructurados se caracterizan por no tener un
formato específico.

Se almacenan en múltiples formatos como documentos PDF


o Word, correos electrónicos, ficheros multimedia de
imagen, audio o video…
Proceso ETL
El proceso de ETL es una tecnología que tiene la función de
integrar datos, para ofrecer una visión mejorada de los
mismos. ETL corresponde a las siglas en inglés:
• Extract: Extracción.
• Transform: Transformación.
• Load: Carga.

ETL es el proceso donde se ponen a disposición los datos


extraídos de múltiples fuentes, se limpian y/o transforman
en datos útiles, los cuales se cargan en diferentes
plataformas.
¿Para qué se utiliza un proceso ETL?
En prácticamente cualquier operación empresarial los datos desempeñan el
papel más importante, pero para que tengan su valor, deben prepararse
para su uso, y es donde se necesitan los procesos ETL. Algunos ejemplos
de aplicación de ETL:

● Migración de datos de una aplicación a otra.


● Replicación de datos para copias de seguridad o análisis de
redundancia.
● Procesos operativos.
● Construcción de almacenes de datos.
Extracción
Los datos en bruto deben extraerse de una variedad de
fuentes, por ejemplo:
● Bases de datos existentes.
● Registros de actividades.
● Rendimiento y anomalías de aplicaciones.
● Incidencias de seguridad.
● Actividades transaccionales.

Además, estos datos pueden estar en diversos ficheros con


formatos variados (pdf, word, csv, json, xml, jpg, etc.). Algunos de
ellos pueden tener formatos de datos antiguos y costosos de
tratar.
Fuentes de datos
● Archivos: en disco o
SFTP
● API (OData)
● Base de datos
Transformación
● Es donde se produce la operación más crítica. El resultado
más destacado de la transformación pasa por aplicar las
normas necesarias del negocio a los datos para cumplir con
los requisitos de notificación. La transformación modifica los
datos en bruto para que presenten los formatos de
notificación correctos. Si los datos no se limpian, podríamos
obtener resultados completamente erróneos.
Estos son algunos de los estándares que
garantizan la calidad de datos y su
accesibilidad durante esta fase:

● Verificación: ejecutar comprobaciones automatizadas


● Normalización: definir qué datos para cotejar información similar, como tiempos de
entrarán en juego, cómo se formatearán transacción o registros de acceso. Las tareas de
y almacenarán, y otras consideraciones verificación permiten seguir limpiando los datos no
básicas que definirán las etapas utilizables y pueden alertar sobre anomalías en sus
sucesivas. sistemas, aplicaciones o datos.

● Clasificación: maximizar la eficiencia de los almacenes de


● Eliminación de duplicados: notificar los datos agrupando y clasificando elementos como los
duplicados a los administradores de datos en bruto, audios, archivos multimedia y otros
datos; excluyendo y/o eliminando los objetos en categorías. Las normas de transformación
datos redundantes. determinarán cómo se clasifica cada dato y a dónde se
trasladará.

Las demás tareas: las define el científico de datos y las


configura para que se ejecuten automáticamente.
Carga
La última fase de un proceso de ETL típico es la carga de esos datos extraídos y
transformados a su nuevo destino. Existen dos vías habituales de cargar los datos a un
almacén de datos: la carga completa y la carga incremental.
● Históricamente estos procesos se han realizado codificando manualmente en lenguajes
tipo Cobol, RPG, SQL, SAS, etc., actualmente se estima que todavía el 40% del trabajo
sobre procesos ETL (nueva creación, mantenimiento) se realiza con herramientas de este
tipo.

● Si bien, las herramientas ETL clásicas tienen sus limitaciones, ya que no mapean todo tipo de
sistemas fuente o destino y no dan soporte a todo tipo de transformaciones. Estas limitaciones se
han ido mitigando en las últimas versiones de estas herramientas, sobre todo en lo relativo a
mapeo de fuentes origen y destino. Herramientas tales como Informática Power Center, SAS Data
Integration, Capa de integración Oracle B.I, SSIS sobre Microsoft SQL Server, Pentaho Kettle,
Business Objetcs Data Integrator, etc.
Preguntas

● Es un protocolo que sirve para la ● El origen del concepto de Odata parte


transferencia de archivos propio de la web de esta fuente de datos muy presente
en la web
a) API
a) SFTP
b) SMTP
b) Correo
c) SFTP
c) CSV
d) Drive
d) API
Preguntas

● Es un protocolo que sirve para la ● El origen del concepto de Odata parte


transferencia de archivos propio de la web de esta fuente de datos muy presente
en la web
a) API
a) SFTP
b) SMTP
b) Correo
c) SFTP
c) CSV
d) Drive
d) API
PREGUNTAS y RESPUESTAS
FIN DEL
BLOQUE

También podría gustarte