Está en la página 1de 42

Business Intelligence yAnalítica de Datos

Tema: Proceso de Gestión de la Demanda


de usuarios en Business Intelligence

III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)


IV. CALIDAD DE DATOS
LOGRODEL TEMA

Al finalizar el tema, el estudiante aprenderá c ó m o


g estionar adecuadamente la demanda de usuarios en
Business Intelligence para la atención de requerimientos y
proyectos.
Aprenderá a diseñar una arquitectura básica de BI y su
estrategia de ETL.
TEMARIO

1 Introducción

2 EXTRACCION, TRANSFORMACION Y CARGA (ETL)

3 CALIDAD DE DATOS

4 Conclusiones

5 Referencias
1. Introducción

¿Qué significa ETL?

ETL son las siglas de Extracción, Transformación y Carga. Es decir


extrae la data de la fuente de datos, la transforma y la carga en el
repositorio central Datawarehouse o Data Mart.

¿Siempre serán necesarios los procesos ETL?

Siempre son necesarios. La clave está en la complejidad y el nivel de


automatización de la solución a desarrollar.
Proceso de la Gestión de la demanda de usuarios en
Business Intelligence
Principales Procesos en Business Intelligence
9 y 10 Gestión de la Demanda de usuarios / Gestión de Proyectos

7 Gobierno de Información

Explotación de Información
1
Fuentes de Datos Base de Datos y Modelo de Datos IBM Cognos

Aplicaciones Analytics
Empresariales 2

Extracción
de Datos ETL Exploración de Datos
3

Data Warehouse y Teradata Studio

Fuentes Selección
Datamarts Entrega de Información a Aplicativos
4
externas Transformación
Validación
Integración App Host App C/S
Actualización
Text Mining, Social Analytics
5

6 Gestión de Calidad De Datos


8 Soporte y Continuidad Operativa (Back Office)
Gestión de la demanda de usuarios en Business Intelligence

Fases del ciclo de vida de un Proyecto BI

I. Análisis del requerimiento

II. Diseño del DataWarehouse

III. Extracción, Transformación y Carga (ETL)

IV. Calidad de datos

V. Explotación

VI. Pruebas integrales y de usuario

VII. Implementación
Gestión de la demanda de usuarios en Business Intelligence
Fases del ciclo de vida de un Proyecto BI

Source OLTP

Data
Warehouse

•ANÁLISIS •EXTRACCIÓN Carga de Datos • CALIDAD DE DATOS • PRUEBAS INTEGRALES


•DISEÑO Y TRANSFOR- Generación de • EXPLOTACIÓN • IMPLEMENTACIÓN
Estimación MACIÓN Sumarizaciones Cubos, Vistas, Reportes Despliegue, Scheduling, Accesos, Análisis

Ejecución

Proyecto BI
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Dimensionamiento del HW

➢ Diseño de Estrategia de Programas ETL

➢ Mapeo de Datos

➢ Desarrollo de Programas ETL

➢ Desarrollo de Programas Adicionales (Data Entries)

➢ Automatización de Procesos ETL

➢ Pruebas de Extracción
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Dimensionamiento de HW
o Cuanto va a crecer el DW?

o Requerimientos de procesos - Fuentes de datos.

o Características de la infraestructura actual y soluciones.

o Requerimientos de desarrollo – Desarrolladores trabajan


simultáneamente en periodos pico.
o Cantidad y tipos de usuarios.

o Cantidad de reportes.
III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
➢Diseño de Estrategia de programas ETL
o De dónde y cómo se van a obtener los datos?

o Perfilar los datos - Validar columnas

o Cantidad de datos históricos.

o Definir la herramienta que se va a utilizar para la extracción.

o Diseñar la estrategia de extracción de dimensiones y facts.

o Diseño de los procesos de tipo Carga Diaria.

o Diseño de la estrategia de Carga Inicial/Histórico.


2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Diseño de Estrategia de Extracción

o Modalidad de extracción para las dimensiones y para las facts:


✓ Dimensiones => normalmente es completa
✓ Facts => puede ser completa
=> deltas o incremental (fechas, meses, auditoría, etc.)
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Diseño de Estrategia de programas ETL


o Indicar la arquitectura de Extracción (stage, ods, bds)

ETL ETL ETL


STG ODS

OLTP ETL
ETL Data Cubo
Warehouse

ETL
External
Files
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢Mapeo de Datos
o Identificar por cada Dimensión y Fact las fuentes de los datos y sus
características a tomar en cuenta en la extracción.

o Indicar por cada atributo o medida la limpieza de datos.

o Indicar por cada atributo o medida la estandarización de datos o el


formato indicado en el análisis dimensional y el valor por defecto.

o Documento de Extracción.
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Desarrollo de Programas de ETL


◦ Se crearán los programas de extracción en base a la
estrategia considerada en la extracción.
◦ Pasos:
1. Realizar la Extracción de Datos. Indica el proceso que realiza
la captura de los datos necesarios de las fuentes.
Consideraciones:
◦ Minimizar la carga del proceso en la fuente (copia de datos al
ambiente STG).
◦ Cortar la relación con la fuente después de realizado el proceso.
◦ Los datos obtenidos se cargan a una(s) tabla(s) temporal(es) ,
sobre ellos luego se realizará la transformación respectiva.
◦ Por lo general, se realiza la primera estandarización de los datos
en esta etapa.
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

Estándares de Extracción
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Desarrollo de Programas de ETL


◦ Estandarización de Datos
◦ Se deben considerar las indicaciones dadas en el mapeo de los datos respecto
al formato de los datos.
◦ Por lo general, se realiza la estandarización durante el proceso de extracción.
Aunque hay otros autores que sugieren realizarlo en la transformación para
no recargar a la fuente o hay casos que las fuentes no tienen funciones que
permitan realizar la estandarización; como por ejemplo cualquier archivo
fuente.
◦ Indica el formato que va a tener el campo final. Por ejemplo:
◦ Sexo: F (Femenino) / M (Masculino)
◦ Año: “0000”
◦ Codigo y descripción: 6578-Grifo ABC
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Desarrollo de Programas de ETL


◦ Pasos:
2. Realizar la Transformación de los Datos. Indica el proceso que
realiza el cambio respectivo que se necesita para enviar los
datos a las tablas definitivas. Consideraciones:
◦ En base a la(s) tabla(s) temporal(es) obtenidas en la
extracción, se va a realizar el proceso de transformación de
los datos.
◦ La transformación por lo general se realiza utilizando
funciones o procedimientos propios de las herramientas de
extracción o de la base de datos del DW.
Estándares de Extracción
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Desarrollo de Programas de ETL


◦ Pasos:
3. Realizar la Carga de los Datos. Indica el proceso de enviar los
datos transformados a la tabla definitiva.
◦ Es la carga a las tablas finales dimensiones y facts del Data Mart o
del Datawarehouse, ya sean sumarizadas o a un nivel mayor de
detalle.
◦ Se pueden usar las áreas de la base de datos
◦ ODS para guardar información que cambia
◦ BDS para guardar información en los modelos finales
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Desarrollo de Programas Adicionales


(Data Entries)
o En caso que no existan programas transaccionales de
donde obtener los datos, se crean programas adicionales
llamados Data Entries que permiten de una manera
sencilla obtener los datos requeridos. Por lo general se
crean data entries para datos de la competencia como
ventas o productos o datos de pronósticos.
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Automatización de Procesos
◦ En base a la periodicidad de la carga, se debe indicar:

◦ Las dependencias de todos los programas de extracción para


colocar el orden en que se ejecutan los procesos.

◦ El tiempo de carga inicial (histórica) y el tiempo de cargas


diarias.

◦ Tiempo de la malla completa y de cada job.

◦ Calendariazación de Jobs.
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

Ejemplo de procesos – Data Stage


2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Automatización de Procesos
◦ Log de Eventos – Limpieza de Datos
◦ Todo proceso debe tener un Log de Eventos indicando la complejidad del
Evento:

◦ Error: En caso que el proceso no fuese exitoso y paralice el proceso.


◦ Advertencia: En caso que alguna data sea INCONSISTENTE; en este caso, el
proceso no se paraliza sino prosigue.
◦ Exitoso: En caso que el proceso no mostró Error alguno.

◦ En todo proceso de Extracción, considerar siempre en caso que la data que


se reciba es INCONSISTENTE. Por ejemplo:

◦ En el mapeo, se consideró que el Ruc no debe ser cero y en caso que lo sea, se
va a colocar el valor por defecto de “RUC ERRADO”. Por lo tanto, en caso que el
Ruc sea cero, se muestra un mensaje de advertencia.
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Automatización de Procesos
◦ Ejemplo: Malla Diaria del modelo comercial:
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
EXTRACCION, TRANSFORMACION Y CARGA (ETL)
➢ Automatización de Procesos
◦ Ejemplo: Malla Histórica del modelo comercial:
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
EXTRACCION, TRANSFORMACION Y CARGA (ETL)

➢ Pruebas de Extracción
◦ Se deben definir políticas para realizar las pruebas de
extracción. Por lo general, se realiza lo sgte:
◦ Se diseñan las Pruebas. Se toma la prueba de uno o dos meses y se realizan
las comparaciones con respecto a los reportes obtenidos del método actual
(que puede ser manual o automático).
◦ Se necesita que estipulen las políticas de análisis de diferencias en caso que
suceda.
◦ Se necesita que se defina los actores de la comprobación de las diferencias.
◦ Se cree un cronograma de pruebas.
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
Cuadrante de Gartner –
Data Integration Tools
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

Gartner - Plataforma de
integración empresarial como
servicio

Gartner define
la plataforma de
integración empresarial
como servicio (EiPaaS)
como una combinación de
funcionalidades de
tecnología
de integración en la nube
y que están diseñados
para apoyar las iniciativas
de integración de
clase empresarial.

https://www.informatica.com/solutions/power-cloud-analytics.html?cext=infasocial-youtube&Source=Social-youtube
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)

Data
Stage -
IBM
2. III. EXTRACCION, TRANSFORMACION Y CARGA (ETL)
Informatica – Power Center
Gestión de la demanda de usuarios en Business Intelligence

Fases del ciclo de vida de un Proyecto BI

I. Análisis del requerimiento

II. Diseño del DataWarehouse

III. Extracción, Transformación y Carga (ETL)

IV. Calidad de datos

V. Explotación

VI. Pruebas integrales y de usuario

VII. Implementación
3. IV. Calidad de Datos

➢Verificar que los resultados correspondan a las


especificaciones.
➢Acompañamiento del usuario en la validación de los
datos.

➢Adecuaciones del alcance en caso que sea


necesario.
3. IV. Calidad de Datos

Características de la calidad de datos en Business Intelligence

➢Cantidad. En muchos casos, las empresas captan más datos de los que
realmente requieren. No obstante, esta situación es preferible a contar con
escasez de información.
Debe ser relevante/pertinente
➢Consideran la información histórica. Los informes tienden a reflejar la
Debe ser actualizada
actualidad, sin embargo, lo más recomendable es contar con datos históricos Debe ser oportuna
para verificar la evolución de un proceso durante períodos más largos. Debe ser rápida/económica
Debe ser de calidad
➢Precisión y completitud. Los datos de calidad deben ser precisos, limpios y
Debe ser objetiva/exacta
veraces. De ello depende el acierto de las decisiones tomadas.
Debe ser comparable/verificable
➢Comprensibles. Los datos deben expresar los criterios del negocio y deben Debe ser completa
ser mostrados de forma que puedan ser comprendidos por los usuarios. Debe ser aplicable
3. IV. Calidad de Datos
6 Gestión de Calidad de Datos
El Proceso de Aseguramiento de Calidad de Datos consta de la validación de la información en cada punto en
donde la información es transformada para tu utilización. Para una validación optima es necesario que el
negocio (Owner) provea de las reglas del negocio que gobiernan al dato.

Data

Preparar Evaluación Presentar Resultados


Ejecutar Evaluación
Experto Valida
Requerimientos
Análisis

Perfilar Validar Validar Probar


Definir Alcance Datos Columnas Integridad Reglas de Preparación de
Estructural Negocio Resultados

Definir Reglas
Presentación y
de Negocio
Reporte
3. IV. Calidad de Datos
Principales Procesos
6 Gestión de Calidad de Datos
El Proceso de Aseguramiento de Calidad de Datos consta de la validación de la información en cada punto en
donde la información es transformada para su utilización. Para una validación optima es necesario que el
negocio (Owner) provea de las reglas del negocio que gobiernan al dato.

Usuarios
2 Unidad

Reporting
Datos de Datos de
Entrada Salida

Datamarts

Datos 2 4
1 de App Datos en DWH 5
3

AQ Leyenda

User 1 Controles y
Owner
Puntos de Validación

Consistencia
Unicidad
Integridad
Usabilidad
3. IV. Calidad de Datos

Consecuencias de la mala calidad de los datos de BI hacia el entorno

➢Pérdida de ventas y rentabilidad: La consultora Gartner ha revelado que un


gran número de empresas pierden desde miles hasta millones de euros al año
debido a la mala calidad de los datos.
➢Imprecisión en el análisis: Los registros duplicados, campos omitidos u otras
anomalías podrían generar como resultado planes de producción, estrategias
de ventas y de marketing equivocados. Por tanto, la compañía desperdiciará
recursos y tiempo en líneas de acción equivocadas.
➢Mala reputación y sanciones: Mala reputación a la marca. Los clientes
actuales y potenciales lo perciben como falta de eficiencia. Algunos fallos
expone al negocio a sanciones previstas en el Reglamento General de
Protección de Datos (RGPD) de la Unión Europea.
4. Conclusiones

Los procesos ETL siempre deben estar presentes porque son


los que trasladan los datos desde las fuentes hacia el destino
y los transforma en información a fin de que sea
comprensible para la generación del conocimiento.

La calidad de los datos es un factor crítico de éxito en los


proyectos de Business Intelligence y Analítica de Datos.
5. Referencias

Albattah, W. y Albahli, S. (2023). Big Data Analytics: Deep Content-Based Prediction with Sampling Perspective. Computer
Systems Science and Engineering, 45(1), 531–544. https://doi.org/10.32604/csse.2023.021548

También podría gustarte