Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arquitectyura y
diseño Construcción Poblamiento Optimización
Discretización de los
atributos
Índice
Introducción............................................................................................................................................................................................................ 4
Data Warehouse.................................................................................................................................................................................................... 5
1 Arquitectura y Diseño ............................................................................................................................................................................... 6
1.1 Metodología de Inmon ...............................................................................................................................................6
1.2 Metodología de Kimball .............................................................................................................................................6
1.3 Estructura del Data Warehouse ................................................................................................................................. 7
1.3.1 Estructura Operacional del Data Warehouse ........................................................................................................ 8
2 Construcción del Data Warehouse .................................................................................................................................................... 11
2.1 Tipo de usuarios finales ............................................................................................................................................11
2.2 Redundancia de información ................................................................................................................................... 12
2.3 Alcance del Data Warehouse ................................................................................................................................... 12
3 Poblamiento del Data Warehouse ..................................................................................................................................................... 13
3.1 Poblamiento por acumulación simple:.....................................................................................................................13
3.2 Poblamiento por Rolling: .......................................................................................................................................... 13
4 Optimización del Data Warehouse.................................................................................................................................................... 14
4.1 Limpieza de los datos ...............................................................................................................................................14
4.2 Metodologías de limpieza de los datos ....................................................................................................................17
4.2.1 Fases de la limpieza de los datos .........................................................................................................................17
4.3 Selección de atributos ..............................................................................................................................................18
4.4 Listar los atributos ....................................................................................................................................................19
4.5 Discretización de los atributos ................................................................................................................................. 20
4.6 Tipos de discretización .............................................................................................................................................21
4.6.1 Ciclo de Discretización ......................................................................................................................................... 22
Cierre ....................................................................................................................................................................................................................... 23
[Escriba texto]
Resultado de aprendizaje
Introducción
En el pasado módulo 2 analizamos los distintos componentes del almacén de datos en el ámbito de la
teoría de inteligencia de negocios, en este módulo 3 conoceremos el almacén de datos más importante
en este ámbito, llamado Data Warehouse, el cual es un elemento tecnológico importante para el
desarrollo y manejo de los datos. Su construcción se origina a partir de la optimización de los datos y el
posterior análisis de estos por parte de las empresas para mejorar sus procesos o resultados. La función
principal de este almacén de datos es servir como base de los sistemas transaccionales de la empresa, lo
que se refleja en la integración de las diferentes fuentes de datos (ERP, archivos planos, bases de datos,
etc.).
El Data Warehouse es un lugar donde es almacenada la información que resulta del procesamiento de
los datos diarios e históricos de una empresa, para poder lograr un mejor acceso a esta información, de
una forma más oportuna. En otras palabras, el Data Warehouse es un gran repositorio de datos, que nos
permite un libre, rápido y efectivo acceso a los datos y por otra parte la posibilidad infinita y totalmente
flexible de manipulación de grandes cantidades de datos de fuentes de distintas.
Estos sistemas de Data Warehouse, no solamente almacenan información, además cumple un rol muy
importante dentro de la integración de los diversos sistemas o fuentes de origen, de donde se toman
los datos, es capaz de seleccionarlos, historizarlos, limpiarlos y almacenarlos para la planificación,
control y toma de decisiones estratégicas a muy alto nivel. En este módulo (módulo 3) se expondrá el
Data Warehouse, desde las distintas visiones de este almacén de datos.
En la primera parte se expone el diseño y arquitectura del Data Warehouse, pasando además por las
distintas metodologías y estructuras. En la segunda parte se expone la forma de construir el Data
Warehouse, donde además revisamos temas tales como; tipos de usuarios, manejo de la redundancia de
la información y el alcance del Data Warehouse, que sin duda es muy importante para conocer los
límites de nuestro proyecto y finalmente la optimización del Data Warehouse, con el objetivo de
conocer respecto a la limpieza y las distintas metodologías de limpieza de los datos, ¿cómo y cuál es la
mejor forma de seleccionar los atributos? Y por último el proceso de discretización de estos, todo lo
anterior, con el objetivo de construir almacenes de datos de manera autónoma, para responder a
necesidades específicas de una organización en un contexto de análisis de datos.
Pág. 4
[Escriba texto]
Data Warehouse
Un Data Warehouse es un almacén, de datos en el que se integran de una a varias fuentes de datos.
Estas fuentes de datos pueden llegar a ser hetero u homo géneas y algunos ejemplos de fuentes de
datos pueden ser; bases de datos, archivos planos como CSV o documentos Excel, además de sistemas
transaccionales como los ERP, CRM, etc. Estos almacenes de datos poseen datos actuales e históricos
cuyo objetivo es ser explotados para poder obtener conocimiento mediante la analítica y los distintos
procesos orientados a la inteligencia de negocios.
[Escriba texto]
1 Arquitectura y Diseño
Actualmente existen dos arquitecturas muy importantes dentro del diseño inicial de un Data Warehouse.
Ambas metodologías tienen características propias que hacen que una y otra sean totalmente válidas en
inteligencia de negocio. Estas metodologías son la metodología Inmon y la metodología de Kimball.
• Datos integrados: el almacén de datos debe poseer datos desde todas las áreas y sistemas de la
empresa.
• No volátil: este término alude a los datos previamente almacenados en el Data Warehouse, en
este caso, estos datos se deben mantener siempre, aun así, se añadan o actualicen nuevos datos,
por otra parte, es importante destacar que los datos alojados son solamente de lectura, de
modo de tener esta información disponible para realizar análisis histórico de datos.
• Variante en el tiempo: todos los cambios que ocurren a través del tiempo se deben almacenar y
registrar, de modo de tener un inventario de estos cambios para poder generar informes que
muestren estas variaciones.
Esta metodología también se centra en el denominado ciclo de vida dimensional del negocio, este ciclo
se basa en cuatro puntos básicos fundamentales, los cuales son:
• Proceso centrado en el negocio: no se puede dejar de lado el negocio en todo el proceso. Es
muy importante concentrarse en identificar todos los requerimientos del negocio y utilizar estos
requerimientos para desarrollar sólidas relaciones con el negocio.
[Escriba texto]
• Incrementos significativos: cada una de las cargas o incrementos deben aportar mucho valor a
los procesos que se están actualizando.
• Solución completa: es importante entregar todos los elementos que los usuarios del
negocio van a necesitar al realizar inteligencia de negocios.
Además de la granularidad de un dato, también es muy importante mencionar que en la estructura del
Data Warehouse se incluyen metadatos o datos que describen a los datos, dicho de otra forma, toda la
información que le dé sentido, contenido y coherencia a los datos y que mejoren la posibilidad de hacer
análisis. Inmon representaba lo anterior de muy buena forma con el diseño representado en la imagen
1.
[Escriba texto]
Figura 1: estructura de Data Warehouse a partir de la representación de Inmon. Fuente: Gorbea S. (2017) Diseño de un
Data Warehouse para medir el desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica:
archivonomía, bibliotecología e información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
ib.unam.mx/ib/index.php/ib/article/view/57828/51839
Esta organización relacional muestra como la información fue integrada anteriormente desde sus
diversas fuentes de datos, esta información es muy útil en la construcción de un Data Warehouse
ya que determinará lo robusto o débil del diseño, considerando los contenidos del módulo
anterior de los modelos Inmon y Kimbal sobre la recuperación de hechos, dimensiones y
atributos.
En la imagen 2, podemos observar las relaciones que de forma implícita se integran entre los
distintos elementos que están presentes en esta base de datos operacional. En este caso, los
datos que se obtienen respecto a proyectos de investigación, RRHH y datos institucionales,
comparten ciertos elementos, como por ejemplo las tablas o dimensiones comunes, que se
relacionan entre sí a partir de distintas conexiones, que se encuentran identificadas en el atributo
con el nombre ID.
[Escriba texto]
Figura 2 : estructura de una base de datos operacional. Fuente: Gorbea S. (2017) Diseño de un Data Warehouse para
medir el desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica: archivonomía, bibliotecología
e información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
ib.unam.mx/ib/index.php/ib/article/view/57828/51839
Como parte fundamental del diseño, también tenemos elementos como los atributos (ya los
hemos nombrado anteriormente formando parte de cada una de las tablas de dimensiones o en
las relaciones que se dan al interior del flujo de los procesos) estos atributos los podemos
identificar y adoptar según alguno de los siguientes tipos:
• Atributos normales: corresponden comúnmente a valores estadísticos que tienen
pertenencia al usuario, dentro de este tipo de atributo podemos encontrar: nombre,
género, teléfono, dirección, apellidos, etc.
Por otra parte y también mencionado más arriba, nos encontramos con hechos y dimensiones,
los primeros (hechos) representan fielmente el proceso del negocio y a nivel más de diseño,
representa una tabla que sirve para guardar cada uno de los atributos, por otra parte, cuando
hablamos de dimensiones, estamos hablando de componentes que nos sirven para recoger las
características de análisis de un hecho, ejemplo de esto, podría ser las características de una
[Escriba texto]
venta, donde tenemos, entre otros, un análisis del día de venta, el trabajador de esta venta, el
cliente, el producto comercializado, etc.
En las imágenes 3 y 4 podemos observar los atributos de cada una de las dimensiones y
relaciones que se dan según los procesos.
Figura 3: estructura con atributos proceso institución. Fuente: Gorbea S. (2017) Diseño de un Data Warehouse para
medir el desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica: archivonomía, bibliotecología
e información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
ib.unam.mx/ib/index.php/ib/article/view/57828/51839
Figura 4: estructura con atributos proceso RRHH. Fuente: Gorbea S. (2017) Diseño de un Data Warehouse para medir el
desarrollo disciplinar en instituciones académicas. Investigación bibliotecológica: archivonomía, bibliotecología e
información por Universidad Nacional Autónoma de México. Recuperado de http://rev-
ib.unam.mx/ib/index.php/ib/article/view/57828/51839
[Escriba texto]
Los esquemas mostrados anteriormente en las imágenes 3 y 4, nos permiten observar las tablas
de hecho y dimensiones que forman parte de la base de datos relacional, cada una de las tablas
que se observan, están compuestas por dos secciones, una superior, que contiene todos los
campos que forman parte de la Primary key, (concepto que veremos más adelante), y por otro
lado la estructura inferior, contiene los elementos o atributos.
Respecto a las distintas interacciones que observamos en los esquemas y que están
representados por “líneas” se llevan a cabo a través de llaves llamadas Foreign Key o llaves
foráneas, concepto que veremos a continuación.
• Llave Primaria o Primary Key: es un atributo específico o conjunto de ellos que nos
sirve para hacer una identificación única del registro, ningún otro registro podría llegar a
tener esa Primary Key, por lo tanto, no puede haber duplicados de este mismo atributo o
valor.
• Llave Foránea o Foreign Key: es una limitación que sirve como referencia entre dos
tablas, esta llave foránea se encarga de identificar una columna o grupo de columnas en
alguna tabla que se refiera a esta misma columna o grupo de columna en otra tabla.
Saber más
La construcción del Data Warehouse, parte con la selección del modelo que queramos utilizar, entre
ellos tenemos los anteriores modelos Kimball e Inmon, recordar que ambos tienen características
específicas y se utilizan dependiendo de la situación de empresa que tengamos.
Figura 5: modelo dimensional obtenido a partir del proceso de Venta. Fuente: elaboración propia.
La imagen 4, corresponde al modelo dimensional obtenido a partir del proceso de ventas de una
empresa, en este caso, observamos la tabla de hecho “Venta”, acompañada de cuatro dimensiones
(Sucursal, Producto, Cliente, Tiempo) y que a su vez contiene los diferentes atributos que acompañan las
dimensiones.
Todo lo anterior descrito, lo obtenemos con los procesos de ETL, estos procesos se pueden construir
utilizando distintas herramientas o softwares del mercado, algunos gratuitos y otros pagados. Al
momento de construir los sistemas que nos servirán para poblar el Data Warehouse, es importante
considerar la opción de que los sistemas permitan el posible crecimiento y evolución de este, otorgando
la posibilidad de escalabilidad y soporte efectivo del sistema, las grandes cantidades de datos y las
posibles consultas complejas que podríamos llegar a realizar.
Este poblamiento, interactúa directamente con la base de datos de destino, lo que significa que al
realizar este proceso, se aplica en la data de salida todas las restricciones o reglas de negocio que se
aplican por ejemplo en ETL.
[Escriba texto]
Este proceso que también se denomina data Cleansing o Scrubbing, es algo totalmente necesario para
que los datos que nos llegan desde los sistemas transaccionales tengan una calidad adecuada para
posteriormente realizar el proceso de analítica.
Normalmente cuando tenemos fuentes de datos, nos encontramos con que los datos están sucios,
pueden poseer ciertos errores o discrepancias entre los diferentes datos que podamos tener. Ejemplo de
esto, podría ser la letra ñ o podríamos encontrar acentos con codificaciones diferentes entre las fuentes
de información. Algunas de las tareas o procesos más comunes de la limpieza de los datos son:
• Igualar formatos: un problema muy frecuente es que tengamos formatos diferentes en dos
bases de datos o fuentes de información distintas, por ejemplo, que de una base de datos una
fecha venga como número y de otra fuente de dato venga como fecha, debemos ser capaces de
unificar los formatos y mantener el que creamos será útil más adelante.
• Descartar campos: este proceso nos sirve principalmente para disminuir los tamaños de las
muestras, muchas veces cuando acudimos a las fuentes de datos, nos encontramos con xx
cantidades de filas y xx cantidades de columnas, las que en total dan un número xx de peso de
nuestra data. El proceso de descartar campos nos disminuye de gran manera ese xx de peso de
nuestra data, ya que solamente seleccionamos lo que nos servirá y el resto lo dejamos.
• Dar formato a fechas: en este tipo de limpieza consideramos los distintos formatos posibles de
las fechas, no es lo mismo trabajar con dd/mm/aaaa que con aaaa/dd/mm, se deben unificar los
formatos, como ya lo mencionamos más arriba.
• Identificar Dimensiones que Cambian con el Tiempo: Es importante identificar cada una de
las dimensiones que a través del tiempo podrían llegar a variar, esto con el objetivo de identificar
estos datos, para posteriormente tratarlo como valores no incrementales.
Figura 11: ejemplo “identificar dimensiones que cambian con el tiempo”. Fuente: elaboración propia.
[Escriba texto]
• Definición de reglas de mapeo o reglas de negocio: esta segunda fase, está fundamentada
con prever los problemas relacionados con la calidad de los datos. Cuando tenemos
problemas con la calidad, es importante determinar reglas de negocio que nos van a servir
para establecer ciertos parámetros que estructuran los datos, de modo de realizar mejoras en
la calidad de estos.
Para poder seleccionar los atributos es importante reconocer antes las dimensiones, después de
determinarlas nos debemos preguntar ¿qué características son fundamentales para cada una de las
dimensiones que tengo?, por ejemplo, una dimensión usuario, probablemente va a contener
información relacionada al usuario, como, por ejemplo, nombre, apellidos, sexo, dirección, teléfono, en
fin. Cada una de las características nombradas anteriormente para el usuario, se denominan atributos.
Alguna de las características para la selección de los atributos es definir por ciertas cualidades, como,
por ejemplo:
• Son o no significativos: es muy importante que los atributos sean lo más útil para los usuarios
de mi Data Warehouse.
• No deben ser derivados, deben ser directos: las características no deben ser características de
características, es importante que no existan derivados de atributos que ya existen.
En primera instancia, estos derivados no deberían estar presentes, sin embargo, más adelante
podemos añadir esos derivados en nuestras tablas.
• Atributos no se deben descomponer: una de las características de los atributos es que tengan
valores individualizados, no pueden ser compuestos, ya que en este caso los valores compuestos
deberían ser un atributo individual.
• Atributos del mismo tipo: es importante tener atributos que se relacionen con otros atributos,
por ejemplo, si necesitáramos solamente valores de tipo Fecha en el nacimiento de una persona,
no deberíamos tener nada más que fechas, no valores, ni números.
[Escriba texto]
Figura 12: atributos de proceso directorio telefónico. Fuente: IBM Knowledge center (s/f) recuperado
de https://www.ibm.com/support/knowledgecenter/es/SSGU8G_11.50.0/com.ibm.ddi.doc/ddi010.gif
Otra manera de listar los atributos es la que vemos en la imagen 6, que a continuación se presenta.
Dimensiones Atributos
d_f_ingreso año, mes, semana, día, hora, minuto, segundo
d_f_alta año, mes, semana, día, hora, minuto, segundo
d_f_adm Descripción
d_t_adm_posterior Descripción
d_t_alta Descripción
d_f_urg_post año, mes, semana, día, hora, minuto, segundo
d_f_hosp_ant año, mes, semana, día, hora, minuto, segundo
d_f_hosp_post año, mes, semana, día, hora, minuto, segundo
d_GRD Descripción
d_servicio Descripción
d_diagnostico Descripción
d_sexo Descripción
d_tipo_ep Descripción
Figura 13: Atributos relacionado con dimensiones. Fuente: Elaboración Propia.
[Escriba texto]
En este caso y como nuestra materia está relacionada con la minería de datos, se realiza la discretización
de los datos a partir del cubo OLAP, el cual, a través de una serie de algoritmos, es capaz de calcular los
depósitos que serán necesarios para almacenar todos los datos o atributos.
Esta metodología de discretización está hecha principalmente cuando tenemos variables cuantitativas
desde una columna o una cadena y queremos transformarla en valores de clase o variables cualitativas
ordinales.
Figura 14: ejemplo de discretización (conversión cuantitativo a cualitativo). Fuente: elaboración propia.
[Escriba texto]