Está en la página 1de 10

Tema 4

Inteligencia de Negocios
Optimización y validación de datos
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Índice Pág.

Introducción 3
4.1 Elementos involucrados en la consulta a 3
la base de datos
4.2 Validación y limpieza de datos 6
4.3 Carga de datos 8
Recursos complementarios 9
Referencias 10

Introducción a la Inteligencia de Negocios


2
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Introducción
Para comenzar a identificar y comprender claramente lo que es la
optimización y validación de datos, es importante conocer sobre los conceptos
bajo los cuales se implementa la Analítica de Negocios (Business
Analytics).
La Analítica de Negocios (Business Analytics) comprende un
conjunto de técnicas y herramientas de software que realizan el análisis de
datos previamente preparados para producir informes que responden a las
consultas y cuestionamientos de la dirección de la empresa. En este contexto,
es importante que las fuentes de datos sean validadas y optimizadas a través
de procesos de estandarización o parametrización, de depuración de data y de
integridad.
Para poder llegar a tener datos validados, es importante considerar y
trabajar sobre el proceso ETL (Extract – Transform – Load / Extraer –
Transformar – Cargar)

4.1 ELEMENTOS INVOLUCRADOS EN LA CONSULTA A LA BASE DE


DATOS
El proceso ETL es uno de los componentes más predominantes en la
integración de datos ya que el resultado de su desarrollo permitirá desarrollar
posteriormente toda la interacción entre aplicaciones y sistemas.

Los principales elementos involucrados en la consulta a la base de datos


son los datos validados, verificados y optimizados; así como, la definición de
los resultados esperados, las dimensiones establecidas y las reglas de análisis.
En la figura expuesta a continuación se podrá observar cómo la técnica de ETL
integra todos los componentes a fin de conseguir los resultados esperados.

Figura 1

Introducción a la Inteligencia de Negocios


3
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

1 Fuente: https://www.cognodata.com/procesos-etl/

El proceso ETL permite que se ejecute todo el proceso de validación y


optimización de datos antes de la respectiva carga a la Base de datos. Los
datos con el activo más importante y predominante en el desarrollo
empresarial. Son elementos discretos que por sí solos no generan un valor
determinado sino más bien por la gestión que se hace con ellos o por el
impacto que causan durante los procesos de consulta.
Los datos tienen características bien definidas: su formato o estructura
de datos, su contenido o tipo de datos y la procedencia de origen. Estas
características han llevado a que varios autores consideren la necesidad
establecer la calidad de los datos, la cual es determinada según su nivel de
precisión, de completitud, de consistencia, de accesibilidad, de relevancia, de
concreción y de pertinencia. Según Laudon, uno de los recursos de la calidad
de datos, el objetivo de la gestión de datos es proporcional la infraestructura y
herramientas para transformar los datos en bruto (rawdata) en información
corporativa usable de la más alta calidad.
La gestión de los datos consiste en:
• Comprender los perfiles de datos

Introducción a la Inteligencia de Negocios


4
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

• Determinar la calidad de los datos y su mejora continua


• Integrar los datos combinando datos similares procedentes de
diversas fuentes
• Aumentar los datos con la mejora continua de su valor.
La gestión de datos es un enfoque estructurado que promueve la
captura, almacenamiento, procesamiento, integración, distribución,
aseguramiento y archivado de los datos, por lo que el ciclo de vida de los datos
se determina de acuerdo con las formas y condiciones en la que los datos
viajan a través de una organización.

Figura 2
Recolección,
Fuentes de Almacenami
Análisis de Soluciones /
datos / ento y Resultados
datos Aplicaciones
origen procesamie
nto

2 Ciclo de vida de los datos

Para la implementación de la Inteligencia de Negocios en una empresa


el gobierno de datos es una de las principales características de ejecución y
permanencia, ya que consiste no solo en el proceso de gestión de los datos y
la información, sino en la definición de políticas, procedimientos y recursos
necesarios para establecer un solo direccionamiento de instrumentar a la
información en toda la organización.
Para el proceso de extracción de datos, es importante que se tome en
cuenta:
- No todas las fuentes de datos tienen estandarizados sus formatos, por
lo que es importante generar una política de extracción clara
- Durante el proceso de conversión de datos tomar en cuenta que
muchos de esos datos vienen de fuentes de bases de datos relacionales o de
archivos planos, por lo que hay que tomar medidas y evitar inconvenientes o
incompatibilidad entre las fuentes.

Introducción a la Inteligencia de Negocios


5
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

4.2 VALIDACIÓN Y LIMPIEZA DE DATOS


La validación y limpieza de los datos o data cleasing consiste en un
proceso a través del cual se deben corregir y eliminar datos formateados
incorrectamente, que se encuentran duplicados o que simplemente están
incompletos dentro de la base de datos.
El datacleasing es un proceso que permite analizar, identificar y corregir
los datos en bruto que se encuentran desordenados o mal procesados. Para
realizar esta corrección se debe completar los valores faltantes, corregir errores
y determinar si la información que consta tanto en filas como en columnas es
correcta.
La limpieza de datos determina la eficiencia del proceso e impulsará la
ventaja competitiva de la Organización, por lo que es muy importante
desarrollar esta actividad antes de cargar los datos en la base.

Figura 3

3 Iterators, Crehana.com
Para poder aplicar la limpieza de datos o datacleasing, es importante
realizar los siguientes pasos:
1. Eliminar los datos duplicados o irrelevantes

Introducción a la Inteligencia de Negocios


6
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

2. Corregir los errores estructurales, esto por lo generar ocurre cuando


existen procesos de transferencia de datos (errores tipográficos o
nombres extraños o abreviaturas)
3. Filtrar valores no regulares no deseados. Esto sucede básicamente
cuando aparecen nombres, definiciones u observaciones que no
parecen encajar con los datos presentados.
4. Gestionar los datos faltantes, tales como eliminar observaciones
innecesarias, rellenar valores faltantes, por ejemplo el número inicial
0 de la cédula
5. Finalmente, algo muy importante es validar y controlar la calidad de
los datos, responder a las siguientes inquietudes:
a. ¿Existe una razón de ser de los datos?
b. ¿Existe una regla ajustada a cada campo?
c. ¿Los datos que se han obtenido prueban o cambian alguna
teoría importante?
d. ¿Es posible encontrar otra información relacionada a estos
datos?
En el mercado tecnológico actual y en el mercado de datos, existen
múltiples herramientas que realizan depuración de data, sin embargo, esta es
una actividad que también se puede ejecutar de forma híbrida o manual.
La validación de la data consiste en poder confirmar no solo la fuente u
origen de los datos, sino conocer si existe consistencia o no de los datos a
extraer o generar, recordar que cuando se hace referencia a la calidad de los
datos en la implementación de la Inteligencia de Negocios, se hace referencia a
validar no solo la extracción como tal sino la propuesta de resultados
esperados, con la finalidad de establecer una coherencia entre lo que se ha
procesado y lo que se va a visualizar.
Dentro del proceso de validación es importante tener claro también que
se debe resguardar completamente la integridad de los datos, es decir que a
pesar de todo el procesamiento realizado, los datos mantengan su naturaleza

Introducción a la Inteligencia de Negocios


7
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

de origen, que no sean modificados por los procesos relacionados con la


inteligencia de negocios.
Cuando se hace referencia a la validación y limpieza de los datos, es
importante considerar algunas condiciones establecidas por el proceso de
transformación, como son las reglas de negocio o funciones sobre los datos
extraídos. Estas directrices pueden ser declarativas o excepciones. Algunas de
las actividades más comúnmente utilizadas dentro del proceso de extracción
son:
- Seleccionar solo las columnas necesarias para obtener los resultados
esperados.
- Traducir códigos de práctico entendimiento
- Considerar fórmulas de cálculo para evitar resultados erróneos
- Generar campos destino que puedan recibir los resultados de
operaciones entre campos
- Transponer o pivotear los campos

4.3 CARGA DE DATOS


El proceso de carga puede incurrir en una serie de acciones,
dependiendo de las condiciones o requerimientos planteados por la Directiva
de la empresa.
El proceso de carga se puede realizar considerando dos formas básicas
de proceso:

Introducción a la Inteligencia de Negocios


8
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Acumulación simple Rolling

Este proceso almacena información


Resumir todas las transacciones que
resumida a distintos niveles,
se encuentran dentro del período de
correspondientes a distintas unides de
análisis definido y transportar un
tiempo o niveles jerárquicos. Se carga
único resultado al datawarehouse.
la información parcializada.

Este proceso es conveniente


principalmente ante procesos de
granularidad de los datos.

4 Procesos de carga. Fuente:


https://www.ecotec.edu.ec/material/material_2015D1_COM302_11_47212.pdf

El proceso de carga está directamente relacionado a la interacción con


la base de datos destino, por lo que es importante tomar en cuenta todas las
excepciones y restricciones que se puedan definir. Es importante considerar
valores únicos, campos obligatorios, rangos de valores o la integridad
referencial, entre otros.

Recursos complementarios

• Video: ¿Qué son los procesos ETL?


https://www.youtube.com/watch?v=jqZWYjubK3s
• Video: ¿Cómo hacer data cleasing?
https://www.youtube.com/watch?v=qxpKCBV60U4
• Vídeo: Creación de cubos OLAP
https://www.youtube.com/watch?v=WZw0OTgCBOY

Introducción a la Inteligencia de Negocios


9
Universidad de las Fuerzas Armadas ESPE Unidad de Educación a Distancia

Referencias

Aguilar, L. J. (2019). Inteligencia de Negocios y Analítica de Datos.


ALFAOMEGA. https://doi.org/978-958-778-541-8

Carranza, A. (18 de 05 de 2022). Crehana. https://www.crehana.com/blog/data-


analitica/data-cleansing/

Kaplan, R., & Norton, D. (1996). El cuadro de mando integral. Gestión 2000.
https://doi.org/13-53402-2008

Morales Cardoso, S. (03 de 2019). Universidad de Alicante.


https://rua.ua.es/dspace/bitstream/10045/92767/1/tesis_santiago_leonar
do_morales_cardoso.pdf

Power Data. (s.f.). Ecotec.


https://www.ecotec.edu.ec/material/material_2015D1_COM302_11_4721
2.pdf

Introducción a la Inteligencia de Negocios


10

También podría gustarte