Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Almacen de Datos
Almacen de Datos
Introducción a los
almacenes de datos
Introduction to Data Warehousing
Palabras clave: almacén de datos, Key words: Datawarehouse, Business
inteligencia de negocio, esquema en estrella Intelligence, Star schema, Snowflake schema
y esquema en copo de nieve
Resumen Abstract
Este artículo presenta una introducción al This article stands for an introduction to
concepto de almacén de datos (Data Ware- the Data Warehouse concept, by explaining
Jorge Moral Rubia house), explicando cuál ha sido su razón de what its origins were, and how it is built
Ingeniero del ICAI de la promoción ser, y cómo se construye. A continuación se and fed. Later, it explains the design
1997, en la rama de Gestión y Orga- describe más detalladamente el concepto de principles it involves and how it is used
nización Industrial. Su experiencia la- diseño que implica y sus usos habituales. Le si- frequently. It continues with a little outlook
boral ha estado íntegramente dedica- gue una breve descripción de las características of the applications that exploit it. And
da a los campos de Business de las aplicaciones que lo explotan. Por último, finally, it forecasts what its future
Intelligence y Datawarehouse. Es cer- vaticina cuál puede ser su desarrollo futuro. development may be.
tificado en Business Objects y Mi-
crostrategy y ha trabajado con las
tecnologías de SAS, Oracle e IBM. res de texto, se afrontaban los quehaceres
Actualmente trabaja como Consul- Introducción laborales de una forma muy distinta; por
tor Experto en Business Intelligence La aparición de los ordenadores persona- otro lado, las grandes infraestructuras de al-
para Fujitsu Services. les (PC) en la década de los 80 supuso un macenamiento y procesamiento de datos
cambio muy drástico en la gestión de la in- corporativos, que hasta entonces habían re-
formación corporativa. Por un lado, facilitó a sidido en mainframes, comenzaron a descen-
Comentarios a: los trabajadores un sopor te con el cual, y tralizarse para dar paso al procesamiento
comentarios@icai.es ayudados de hojas de cálculo y procesado- distribuido.
ZONA
cod_zona
desc_zona
MES
desc_provincia
cod_mes
desc_ccaa
desc_mes
desc_trimestre
desc_año
cod_dia
cod_servicio T
SERVICIO DIA
cod_zona I
cod_servicio cod_dia
num_inc E
desc_servicio desc_día
num_avisos M
responsable desc_mes
inc_res P
inc_pdt O
cod_mes
cod_servicio
cod_zona
presupuesto
Tabla 1. Enero 2009: cuadro resumen de zonas principales varias dimensiones y agilizan, por tanto, las
consultas al almacén. En nuestro ejemplo, el
Zona Nº incidencias recibidas Nº incidencias resueltas % actividad
indicador % de actividad podría almacenarse
Madrid-Retiro 325 100 30,77 agregado por mes si la Tabla 2 fuese un infor-
Madrid-Atocha 250 150 60,00 me muy demandado por los usuarios y/o el
Bcn-Ciutat Vella 200 125 62,5 volumen mensual de nuestra tabla de he-
Bcn-Poble Nou 300 100 33,33 chos inicial (por día, zona y servicio) fuera
del orden de millones de registros, se conse-
se habla de indicador no agregable. En este guiría una “compresión” aproximada de 1/30,
caso, sería mejor catalogarlo como semia- por lo que la creación de una tabla agregada
gregable, pues si bien el operador suma da- valdría mucho la pena.
ría un resultado correcto agregando por zo-
na o por ser vicio, por tiempo sería lógico Herramientas de análisis y consulta
utilizar un operador promedio. Para obtener resultados tabulares como
De este modo, la Tabla 1 utilizaría, para la los representados en las Tablas 1 y 2, u obte-
fórmula: suma (nº incidencias resueltas dia- ner resultados gráficos, existen actualmente
rias) * 100 / suma (nº incidencias recibidas en el mercado numerosas herramientas que
diarias), mientras que la tabla 2 emplearía la simplifican la labor al usuario en dos direc-
fórmula: promedio (nº incidencias resueltas ciones:
diarias) * 100 / promedio (nº incidencias reci- •Construyen objetos de consulta manipula-
bidas diarias). bles en un panel de consulta (atributos de
Obsérvese que el indicador 1.3 también dimensión, indicadores, filtros), de tal modo
es semiagregable en la dimensión tiempo, que cualquier usuario puede, en modo con-
porque no sirve con aplicarle simplemente currente, emplearlos mediante acciones de
un operador suma. Cuando se quiere saber arrastrar y soltar (drag and drop) para cons-
el número de incidencias pendientes para truir sus propios informes.
toda España en enero de 2009, es preciso •Dichos objetos son reutilizables y su com-
calcular el valor de las incidencias pendientes binación genera, de forma automática y
para toda zona y servicio el último día de transparente para el usuario, el código SQL
ese mes (es decir, el 31), y será este valor el (lenguaje de consulta de base de datos) que
que se sumarice. Es un problema análogo al se ha de ejecutar para extraer la información
que se puede tener para calcular los kg de del almacén.
producto semiterminado en una fábrica, o Estas herramientas están pensadas para
las existencias del almacén. satisfacer las necesidades de la gran mayoría
Hay situaciones, como la que plantea el in- de usuarios. Permiten navegar dentro del in-
dicador 1.4, en que a la dificultad de estable- forme, desagregando una o varias de las di-
cer un operador de sumarización único se mensiones, construir totales, implementar
une un volumen de registros considerable fórmulas que combinen indicadores, etc.
(es el caso de entidades financieras u opera- Por otro lado, suelen estar construidas de tal
dores de teléfono, que pueden registrar mu- modo que permiten su empleo por dos vías:
chos millones de transacciones en sus siste- •Cliente pesado (heavy client) o arquitectu-
mas operacionales). Para este tipo de ra 2 capas: denominada de este modo por-
situaciones suele plantearse la construcción que la aplicación está instalada en el PC del
de las llamadas tablas agregadas, que almace- usuario, y es éste quien ejecuta directamen-
nan la información sumarizada para una o te, desde su aplicación, las consultas al al-
macén.
•Cliente ligero (thin client) o arquitectura 3
Tabla 2. Semestre 2008: cuadro resumen de provincias principales
capas: el usuario emplea la aplicación me-
PROV ENE FEB MAR ABR MAY JUN diante un navegador web que abre sesión en
% act. % act. % act. % act. % act. % act. el servidor donde se encuentra instalada la
herramienta. Es por tanto el servidor quien
Madrid 63,50 62,25 67,13 64,28 61,12 60,57 soporta el proceso de creación de la consul-
ta y quien la envía y descarga los resultados
Barcelona 59,24 64,91 68,11 60,19 50,56 42,88
desde el almacén.
Sevilla 60,01 62,37 58,64 59,23 65,48 58,21
Un diagrama representativo de estos dos
Valencia 58,32 57,49 61,15 63,61 60,98 58,01 modos de funcionamiento se encuentra en
la figura 4.
SERVIDOR HERRAMIENTA
Existe otro tipo de usuarios, menos fre- surgen otros conceptos como BPM (Business
cuentes y de perfil más analítico, que utilizan Performance Management) o CPM (Corporate
técnicas de investigación operativa y estadísti- Performance Management), que introducen
ca avanzada con los datos del almacén (como ciertas diferencias con el original, pero que
la segmentación, la regresión logística o los ár- concuerdan, en cuanto al fin último, con el
boles de decisión, por citar algunos). Este tipo anteriormente descrito.
de análisis se denomina minería de datos (da- La Inteligencia de Negocio es un concepto
ta mining), puesto que, por lo general, preten- relativamente nuevo (menos de 10 años de
de extraer de los datos patrones ocultos que vida), y por tanto aún tiene un recorrido
permitan una mejora sustancial de la eficiencia muy interesante. Lo usual es que su implan-
en el área analizada. Para estos usuarios tam- tación en cualquier compañía se sustente so-
bién existen paquetes de software específicos bre un almacén de datos, aunque hay quien
(siempre con arquitectura cliente-servidor), sostiene que la tecnología posibilita ya acce-
cuyo uso a pleno rendimiento requiere de der a la información de los diferentes siste-
una buena base matemática y estadística. mas sin necesidad de almacén intermedio.
Sea como fuere, en mi opinión hay dos prin-
Perspectivas de futuro cipios inherentes a la Inteligencia de Negocio
Los almacenes de datos están bastante que son imprescindibles para su éxito en
desarrollados en sectores como el financie- cualquier empresa:
ro, el de telecomunicaciones, el de retail y •Tiene que implicar un cambio cultural en la
el energético. Son sectores en los que el organización.
volumen de transacciones, y la informatiza- •Todos los trabajadores pueden beneficiarse
ción de las mismas, favorece en gran medi- de su implantación.
da su construcción; además, su uso para in- Las reglas y técnicas de construcción de
formes corporativos y, en menor medida, un almacén están en la actualidad muy con-
en minería de datos, ha agilizado el repor- solidadas, y existe bibliografía en el mercado
ting corporativo en el primer caso y una para ponerlas en práctica correctamente. Sin
mejora de la eficiencia en el segundo. embargo, la Inteligencia de Negocio, repre-
Los almacenes de datos son –o han sido, sentada por los dos puntos que acabo de
cabría mejor decir- el primer estadio de un enunciar, permanece sin desarrollarse en ple-
concepto más amplio denominado Inteligen- nitud.
cia de Negocio (Business Intelligence). La idea Creo que será su puesta en práctica en los
que subyace detrás de este término es la de próximos años, urgidos por la crisis econó-
aprovechar el flujo de datos que existe en mica presente y la necesidad de aumentar la
cualquier empresa para, mediante su captura productividad en todas las organizaciones, lo
y análisis, tomar medidas y acciones que me- que favorecerá una mayor implantación de
joren la eficiencia y la rentabilidad de la mis- los almacenes de datos, y un uso más intensi-
ma. A par tir de la Inteligencia de Negocio vo de los mismos.