Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lectura Fundamental
Data warehouse,
Etapas de un plandata
de comunicación
mart
yestratégica
definición de cubo
Contenido
1 Introducción
2 Datawarehouse (DW)
3 Cubo
Palabras clave: Data warehouse, data mart, cubo, hecho, dimensiones, métricas.
1. Introducción
No es extraño que en la actualidad se haya escuchado hablar del concepto de data warehou-
sing, con referencia al almacenamiento de datos, pero para muchos es desconocido qué es, o
si su compañía requiere de esta herramienta. Es por esta razón que a lo largo de esta lectura se
quiere ayudar al estudiante a entender qué es y qué puede hacer, y cuáles son las razones para
utilizarlo y los beneficios que se obtienen al construir uno de estos, en un negocio, sin importar
la naturaleza del mismo.
Además, es bueno considerar que para que una empresa sea exitosa en el futuro, es vital la toma
de buenas decisiones, y esto requiere análisis de la información relevante. La importancia de un
buen data warehouse es que se convierte en la fuente de esa información tan fundamental.
Construir estas fuentes de información se ha hecho más fácil con el paso de los años gracias
a la evolución y mejoramiento de las herramientas, procesos, y a un mejor entendimiento de las
arquitecturas utilizadas para este fin.
POLITÉCNICO GRANCOLOMBIANO 2
¿Cómo se relaciona el DW con la inteligencia de negocios? El objetivo de todo negocio es
tomar mejores decisiones que sus competidores. Es en este punto donde entra la inteligencia
de negocios. BI convierte cantidades importantes de información proveniente de sistemas
operativos en formatos fáciles de entender, actuales y correctos, y permite tomar estas deci-
siones a partir de la información. Es en ese momento cuando realmente se pueden analizar
tendencias actuales y a largo plazo, detectar oportunidades y problemas y recibir realimenta-
ción continua de la efectividad de las decisiones tomadas. Debido a todo lo que se ha mencio-
nado, el ingrediente más importante de una solución de inteligencia de negocios es, sin lugar
a duda, la inclusión de data warehouses.
Cuando se evalúan las diferentes opciones tecnológicas con el objetivo de comenzar la cons-
trucción de un DW se deben considerar los siguientes aspectos:
• Cantidad de usuarios: es uno de los puntos más importantes para tener en cuenta
cuando se realiza la evaluación. Se debe definir la capacidad que va a tener el DW para
manejar usuarios simultáneos, y evitar que este tipo de comportamiento no ralentice el
sistema, y permitir que los usuarios especificados tenga acceso a la información de la
forma más rápida y eficiente.
POLITÉCNICO GRANCOLOMBIANO 3
Otra interrogante es ¿por qué utilizar un DW y no acceder de forma directa a la información de
la empresa si esta ya está consolidada? Hay varias formas de dar respuesta a esta inquietud: el
uso de DW permite integrar diversos tipos de información en tiempo real, lo cual facilita tomar
mejores decisiones de negocio ya que se tiene acceso a mayor cantidad de información y ade-
más evita que se pierda tiempo recopilando información a partir de diferentes fuentes; el uso
de DW permite organizar grandes cantidades de datos históricos útiles en un lugar accesible
con formatos, modelos y métodos comunes y accesibles; el DW puede alojarse en un servidor
construido específicamente para este fin, así su acceso es más rápido, permitiendo a su vez,
generar reportes más fácilmente; con el uso de DW se minimiza el riesgo de que el personal que
accede a información sensible pueda llegar a modificarla de alguna forma; el uso del DW per-
mite mejorar la calidad de la información, teniendo cuenta el proceso a la que esta es sometida
para entrar a formar parte del DW; se ha evidenciado de diversas formas que las compañías que
utilizan data warehouses son más propensas a aumentar sus utilidades en el tiempo. Aunque es
cierto que la implementación de DW supone inversiones adicionales en hardware y software, al
final, resulta ser más económico que mantener el funcionamiento del acceso a la información
de forma directa, porque reduce y optimiza los tiempos de búsqueda y acceso a la información y
también reduce los costos de su procesamiento y almacenamiento.
• Facilidad para que el usuario final pueda generar reportes, evitando que tenga que solicitar
apoyo de personal intermedio para acceder a la información o para que pueda entenderla.
• DW pueden ayudar a apoyar las necesidades de una compañía, tales como la habili-
dad de consolidad resultados financieros que son manejados por diferentes áreas del
mismo negocio.
POLITÉCNICO GRANCOLOMBIANO 4
W. Inmon señaló algunas características con las cuales describe de forma común los data ware-
house. Estas son:
• Orientado al tema (subject oriented): los DW están diseñados para ayudar al proceso de
análisis de información. Por ejemplo, para aprender más sobre el comportamiento de las
ventas en una compañía se puede construir un DW centrado en ellas, que permita identi-
ficar todos los aspectos relacionados con estas.
• No volatilidad (non volatile): significa que, una vez ingresada al DW, la información no
debe cambiar. Esto debería ser evidente, porque el propósito de un warehouse es permi-
tir el análisis de lo que ha ocurrido.
DW típicos tienen diversas áreas según el tema que alojan, y a partir de los DW se construyen
los datamarts, los cuales manejan individualmente los diferentes temas, como ventas o finan-
zas. Estos se explicaran con mayor detalle en la siguiente sección.
Un datamart es la parte de un DW que se utiliza para entregar información a los usuarios; co-
múnmente son consideradas como pequeños trozos del DW; albergan información de la totali-
dad de la empresa, y en general, la información pertenece a un departamento o equipo específi-
co de la compañía.
POLITÉCNICO GRANCOLOMBIANO 5
El objetivo primordial de los datamarts es entregar a cada usuario la información más relevan-
te en la menor cantidad de tiempo posible. De esta forma los usuarios están en capacidad de
desarrollar y seguir un tren de pensamiento, sin necesidad de esperar durante largos períodos
de tiempo a que se cumplan sus solicitudes. Las datamarts están diseñadas para satisfacer las
demandas de grupos específicos y tener, en comparación, un área de trabajo bastante reducida.
Sin embargo, el ser reducida no implica que sea pequeña en tamaño, pueden llegar a tener millo-
nes de datos y requerir gigabytes de espacio para un almacenamiento adecuado.
Para caracterizar adecuadamente un datamart se puede decir que: se utilizan por lo general, por
usuarios finales, están en un proceso constante de actualización, están conformados por infor-
mación de alto nivel de detalle y siempre están orientados a un tema específico.
Las ventajas que se pueden tener al utilizar datamarts son las siguientes:
• Mejorar el tiempo de respuesta que debe esperar un usuario, porque le da acceso al tipo
de información específica que este puede necesitar.
En resumen, un datamart es un subconjunto de un DW que ha sido diseñado para una línea parti-
cular de negocio, como puede ser ventas, mercadeo o finanzas. En un datamart dependiente,
la información puede provenir de un DW que alberga la información completa de una empresa;
por el contrario, en un datamart completamente independiente, la información pudo haber sido
obtenida directamente de diversas fuentes de acceso.
La creación y uso de datamarts lleva a un gran resumen de información. Los DW alojan un ma-
yor rango de información, que por lo general no ha sido resumida, lo cual hace que navegar por
ella, sea mucho más difícil y, a su vez, aumenta los tiempos requeridos para las consultas.
POLITÉCNICO GRANCOLOMBIANO 6
Cuando se utilizan datamarts se tiene en mente hacer análisis de áreas particulares, y se está
en capacidad de identificar cuáles son los factores realmente principales para el negocio, cuáles
son las áreas críticas, cuáles son los verdaderos roles de las personas que hacen parte del
negocio, cuáles son las limitaciones y restricciones asociadas con la actividad; también permite
revisar los planes estratégicos de la e identificar los diferentes indicadores de rendimiento.
3. Cubo
Un cubo en bodegas de datos, es una estructura de información que permite estudiar la información
de los elementos –dimensiones- que están relacionados con un hecho o factor de negocio de mane-
ra conjunta. Cada una de estas dimensiones describe con una magnitud o atributo el hecho.
La magnitud representa algún hecho (o número) tal como un costo o una unidad de servicio,
mientras que la dimensión representa categorías que describen de alguna u otra forma la
información, tal como son el tiempo o la ubicación, y, es importante aclarar, que cada dimensión
puede incluir diferentes niveles para cada categoría..
POLITÉCNICO GRANCOLOMBIANO 7
El cubo, a diferencia del datamart es una opción de implementación y no un concepto. El cubo
es almacenamiento de información no relacionada, que representa muchas “dimensiones” de
información con algún tipo de relación. Al pensar en su forma geométrica, se quiere mostrar que
este tipo de mecanismo tiene más de tres dimensiones de interacción.
Hecho: corresponde al evento, actividad o ítem que será el estudio del cubo en la bodega de da-
tos. Los hechos pueden ser conceptos simples que requieran toda la atención de un proceso en
el negocio, como por ejemplo, ventas, atención o cliente. Los hechos se almacenan en una tabla
llamada “tabla de hechos” (o fact table en inglés; el origen de la expresión es del latín factum:
hecho, acción, trabajo).
Dimensión: característica de un hecho para su estudio. Una medición puede tener una medida
asociada, por ejemplo, una persona ̶ como hecho-, tiene una característica de edad (como di-
mensión), y esta se presenta en años (como unidad de medida). La dimensión representa cate-
gorías descriptivas que califican de múltiples maneras la información que se está consolidando.
Medida: atributo o medida de hechos, métricas del negocio. Pueden ser discretas o continuas,
cualitativas (valoración descriptiva, por ejemplo, bueno, regular, malo) o cuantitativas (valores
numéricos, por ejemplo, 5.5-8.5). Las medidas son los valores reales de la información, que ocu-
pan las celdas de acuerdo con la forma como se define por las dimensiones seleccionadas.
POLITÉCNICO GRANCOLOMBIANO 8
Jerarquía: cuando se habla de dimensiones existe la posibilidad de definir jerarquías, éstas
constituyen grupos de características que obedecen a un orden previamente establecido. Una
jerarquía da a una dimensión, la organización de sus niveles, donde cada nivel representa la
totalidad de los datos que hacen parte del nivel inmediatamente inferior. Una jerarquía también
determina la forma en que se resume la información partiendo de los niveles inferiores y avan-
zando hacia los niveles más altos. Una dimensión típica soporta una o más jerarquías naturales.
Una jerarquía puede, pero no exige contener todos los valores existentes en la dimensión.
Relaciones: dependencia dentro de una dimensión, que permite agrupar distintas unidades de
medida. Por ejemplo, la edad como dimensión de una persona puede representar con mayor o
menor grado de exactitud de acuerdo con el uso de la jerarquía del tiempo. (Podemos decir que
una persona con 50 años 10 meses y 15 días ha vivido 50.874 años, 610.5 meses o 18565 días),
todos los valores son correctos, pero usamos distintas jerarquías para distintas necesidades.
Un ejemplo más claro es la jerarquía “región”, (dirección, barrio, ciudad, departamento, país,
continente).
Las jerarquías están asociadas con un orden de magnitud, y cada nivel está asociado con una
unidad de medida.
Granularidad: determina qué tan detallada será la información, especificando que a mayor nivel
de detalle se tiene una mayor capacidad de análisis, y ofrece a su vez mayor nivel de compleji-
dad en el mismo. En pocas palabras, la granularidad determina cuál es el grado de detalle que
será asociado con hechos particulares.
Uno de los factores que tiene más influencia sobre la granularidad, es el tiempo; es decir, si los
intervalos de tiempo en los cuales se define la información son más pequeños, se obtiene direc-
tamente un mayor grado de detalle
La granularidad depende directamente del número de dimensiones que se asocian con la tabla
de hechos.
Se deben considerar otros factores como la carga del procesador, espacio de almacenamiento y
satisfacción a cabalidad de los requerimientos del cliente.
POLITÉCNICO GRANCOLOMBIANO 9
Referencias
The Data Warehousing Institute (2010). TDWI data governance fundamentals. Disponible en:
http://download.101com.com/pub/tdwi/files/onsitecourseoutlines/preview_tdwi%20data%20
governance%20fundamentals_100411.pdf.
Inmon, W. (2005). Building the data warehouse. Indianápolis, USA: Wiley Publishing.
Larson D., M. (2016). The four components of BI governance. Disponible en: http://www.bi-bes-
tpractices.com/view/4681
POLITÉCNICO GRANCOLOMBIANO 10
INFORMACIÓN TÉCNICA
POLITÉCNICO GRANCOLOMBIANO 11
11