Está en la página 1de 11

Pruebas ETL y Data Waterhouse 

 
 
 

 
 

 
Karen Andrea Herrera Betancur 
Juan Pablo Mejía Pérez 
Mateo González Bayer
 
 

 
 
Pruebas de software
Profesor: Andrés Alberto Restrepo Herrón
 
 
 
 

 
Ingeniería de Software 
Tecnológico de Antioquia 
Medellín 
2021 
Introducción

Uno de los valores más importantes en una organización es la información por lo tanto
actualmente se generan muchos más datos que hace unos seis años atrás. Estamos
constantemente consultando nuestras redes sociales y usando nuestro teléfono móvil,
ordenador o Tablet. Es por esta cantidad de datos que hay que tratar en la actualidad que
es tan importante el Proceso de ETL: éste se encarga de extraer, transformar y cargar los
datos, además de gestionar y asegurarse de su integración y coherencia. Todo ello nos
permite extraer unos datos de un entorno y cargarlos en el entorno destino, después de
haberlos analizado.
Data warehouse

Un Data Warehouse es según (Orfila X, s.f) “una base de datos que se caracteriza por integrar y

depurar información de una o más fuentes distintas, para luego procesarla. De esta manera, es

posible analizar dicha información desde diferentes puntos de vista y a gran velocidad. El data

warehouse es una de las partes más importantes de la inteligencia empresarial en el entorno actual

en el que operan las empresas ya que esta ayuda a mejorar la toma de decisiones y el rendimiento

de la empresa”

Las características:

 Orientados por temas: Los datos se organizan por temas, con el fin de facilitar su acceso

y entendimiento por parte de los usuarios.

 Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo

quedan registrados para que los informes que se puedan generar reflejen esas variaciones.

 No volátil: La información no se puede modificar ni eliminar una vez almacenados. Sólo

podrá ser usada como lectura o consulta en un futuro.

 Integrado: Los datos se organizan por temas para facilitar su acceso y entendimiento por

parte de los usuarios finales.

 Metadatos: El data warehouse cuenta con metadatos, es decir, datos sobre datos. Los

metadatos permiten simplificar y automatizar la obtención de la información de una

manera precisa, ayudando a localizar los datos que nos interesan.


ETL

El ETL es un elemento dentro de un data warehouse que según (cita) “es el proceso responsable

de la extracción de datos de los sistemas de origen y de colocarlo en un almacén de datos o data

warehouse.”

El ETL logra hacer esto por medio de 3 tareas que son:

 Extracción de datos: Esta fase consiste en la obtención de datos de las fuentes de origen.

Los datos pueden tener diferentes orígenes, ya sean Bases de Datos Relacionales, Bases

de Datos No Relacionales, ficheros, etc.

 Transformación: es el filtrado, limpieza, depuración, homogeneización y agrupación de

la información. Incluye la agrupación de los datos de las diferentes fuentes.

 Carga: es el proceso de escribir los datos en la date warehouse. La fase de carga es el

momento en el cual los datos de la fase anterior (transformación) son cargados en el

sistema de destino.

La arquitectura de un data warehouse se puede definir en niveles que son:

 Nivel inferior: es el servidor, donde se cargan y almacenan los datos.

 Nivel intermedio: contiene el motor de análisis que se utiliza para acceder a los datos.

 Nivel superior: es el cliente front-end que presenta los resultados de los análisis mediante

herramientas de visualización de datos.


¿Para qué sirve una Data Waterhouse?

 Para tener un mayor conocimiento del negocio

 Para tomar mejores decisiones y en un tiempo menor.

 Para mejorar y ser más efectivos.

¿Cuándo se utiliza?

Los data warehouse son una herramienta muy recomendable cuando se quiere garantizar que

usuarios inexpertos en el manejo de sistemas y bases de datos puedan poner en riesgo la

información de una empresa. Dada la arquitectura a tres niveles empleada en estas soluciones, los

usuarios finales de los DWH pueden hacer consultas sobre sus almacenes de datos sin tocar o

afectar en modo alguno la operación del sistema.

Pruebas ETL y Datawarehouse

Tipos de pruebas ETL

Hay nueve tipos de pruebas ETL y se clasifican en cuatro categorías generales: pruebas de

sistemas nuevos, pruebas de migración, pruebas de cambios y pruebas de informes. Sin embargo,

los nueve tipos de pruebas ETL se enumeran a continuación:

 Validación de producción: Este tipo de prueba ETL valida los datos en los sistemas de

producción y los compara con los datos de origen para encontrar cualquier lógica

defectuosa y procesos operativos fallidos, etc.

 Prueba de recuento de origen a destino: Verifica si el número de registros en la base de

datos de destino es consistente con el recuento de registros esperado.


 Prueba de datos de origen a destino: Este tipo de prueba ETL garantiza que los datos

proyectados se incluyan en el sistema de destino sin ninguna pérdida.

 Prueba de metadatos:  Realiza comprobaciones de índice, tipo y longitud de los

metadatos de la aplicación ETL.

 Pruebas de rendimiento: Garantiza que el almacén de datos tenga los datos cargados

dentro de los plazos previstos y que la respuesta individual del servidor de prueba sea

suficiente para el rendimiento y la escalabilidad requeridos.

 Prueba de transformación de datos: Ejecuta consultas SQL para comprobar que los

datos se transforman con precisión de acuerdo con las reglas comerciales esperadas.

 Prueba de calidad de datos: Realiza pruebas de sintaxis y pruebas de referencia para

garantizar que la aplicación ETL notifique datos no válidos y acepte el valor

predeterminado.

 Prueba de integración de datos: Garantiza que los datos de varias fuentes diferentes se

hayan cargado con precisión en el almacén de datos de destino.

 Prueba de informe: Revisa los datos para asegurarse de que el informe resumido, el

diseño y la funcionalidad sean los necesarios, y también realiza cálculos.

Clasificación de pruebas ETL

Integridad de los datos:

La ejecución de esta prueba garantiza que todos los datos necesarios se carguen desde el sistema

de origen al destino. Requiere comparar los valores de datos entre el sistema de origen y de

destino, y validar la información que se transfiere. Además, verifica los límites de cada campo
para el tipo de datos o las limitaciones de la columna de la base de datos para asegurarse de que

los datos se carguen sin esfuerzo.

Precisión de los datos:

Como su nombre lo indica, esta prueba verifica la precisión de los datos transformados y

cargados. Comparación de valor También es un paso esencial en este proceso que compara los

datos entre el sistema de origen y el de destino para mayor precisión.

Validación de datos

También conocido como la prueba de origen a destino, asegura que los datos se transformen

como se esperaba con respecto al formato de datos.

Desempeño

Pruebas de extremo a extremo que verifican que todas las etapas del proceso ETL se realizan

dentro del marco de tiempo requerido dado el volumen y la complejidad de los datos. El objetivo

principal de ejecutar esta prueba es averiguar si el sistema ETL puede manejar la carga esperada.

Regresión ETL

Las pruebas de regresión se realizan para verificar la funcionalidad del flujo ETL para una

entrada específica antes y después del cambio.

ETL incremental

Esta prueba verifica si las actualizaciones incrementales en el origen se están cargando en el

sistema de destino como se supone que deben hacerlo.


Metadatos

Las pruebas de metadatos aseguran que la integridad de los datos hasta metadatos Se conserva el

nivel. El proceso implica validar la estructura de la tabla de origen y destino con respecto a los

requisitos de mapeo.

Tareas por realizar

Aquí hay una lista de las tareas comunes involucradas en las pruebas ETL:

 Comprender los datos que se utilizarán para la elaboración de informes.

 Revisar el modelo de datos

 Mapeo de origen a destino

 Verificaciones de datos en datos de origen

 Validación de paquetes y esquemas

 Verificación de datos en el sistema de destino

 Verificación de cálculos de transformación de datos y reglas de agregación.

 Comparación de datos de muestra entre el sistema de origen y el de destino

 Comprobaciones de integridad y calidad de los datos en el sistema de destino

 Prueba de rendimiento en datos


Pruebas Data warehouse

Existen distintos tipos de pruebas que pueden aplicarse a la data warehouse y bases de

datos cuando se quiere garantizar que los procesos de predictive analytics se conducen en

términos de calidad total. algunas de las más interesantes son:

 Pruebas unitarias: consisten en validar cada uno de los componentes de una solución,

aunque este tipo de test ha de llevarse a cabo durante la etapa de desarrollo, nunca

después. Los elementos más críticos y que deben someterse a este tipo de prueba son, al

menos, la lógica ETL, reglas de negocio y cálculos implementados en la capa de OLAP

y la lógica de KPI. Este tipo de pruebas se realiza en varias ocasiones a lo largo del curso

de un proyecto y puede automatizarse.

 Pruebas del sistema de integración: depende del éxito obtenido en las pruebas unitarias

y debe lograr dos metas principales:

     a. Garantizar que se puede construir y desplegar con éxito: para lo que es necesario realizar

pruebas de acumulación del sistema

     b. Asegurar que no surgen problemas durante la ejecución del trabajo: con este objetivo, una

vez implementados y configurados, todos los trabajos deben ser ejecutados y los datos

procesados.

La adopción de este tipo de pruebas en el ciclo de desarrollo de la data warehouse y bases de

datos es un paso gigante hacia adelante, que sirve para confirmar que el sistema actúa del modo

esperado una vez que las partes constituyentes de la solución se ponen juntas.

 Pruebas de validación de datos: mediante este proceso se someten a test los datos

dentro de un data warehouse. Una forma habitual de realizar esta prueba es mediante el

uso de una herramienta de consulta ad hoc (Excel) que permita recuperar datos en un


formato similar a los informes operativos existentes. Cuando se detecta la existencia de

un vínculo entre el data warehouse y el informe operacional, se demuestra que los datos

son válidos (a menos que, por supuesto, el informe original sea defectuoso). Esta prueba

ha de ser llevada a cabo por un representante del negocio, ya que este perfil es quien

mejor conoce los datos y puede validarlos con mayores garantías de éxito.

 Pruebas de aceptación de usuario: su objetivo es asegurar que los datos que

se proporcionan al usuario final cumplen con sus expectativas y que lo mismo sucede con

las herramientas que se ponen a su disposición.

 Pruebas de rendimiento: se ocupan de validar adecuadamente el rendimiento de

la solución en condiciones de trabajo reales. Para ello, en el testing hay que considerar

factores como la arquitectura de datos, la configuración del hardware, la escalabilidad del

sistema o la complejidad de las consultas.

 Pruebas de regresión: este tipo de test es el proceso de volver a probar la

funcionalidad para garantizar que el desarrollo de la data warehouse y bases de datos no

ha causado desperfectos en otras funcionalidades y aplicaciones. Cada una de

las distintas categorías de pruebas definidas anteriormente debe quedar sujeta a pruebas

de regresión.

También podría gustarte