Está en la página 1de 11

Unidad 31 / Escenario 52

Lectura Fundamental

Data warehouse,
Etapas de un plandata
de comunicación
mart
yestratégica
definición de cubo

Contenido

1 Introducción

2 Datawarehouse (DW)

3 Cubo

Palabras clave: Data warehouse, data mart, cubo, hecho, dimensiones, métricas.
1. Introducción

No es extraño que en la actualidad se haya escuchado hablar del concepto de data warehou-
sing, con referencia al almacenamiento de datos, pero para muchos es desconocido qué es, o
si su compañía requiere de esta herramienta. Es por esta razón que a lo largo de esta lectura se
quiere ayudar al estudiante a entender qué es y qué puede hacer, y cuáles son las razones para
utilizarlo y los beneficios que se obtienen al construir uno de estos, en un negocio, sin importar
la naturaleza del mismo.

Además, es bueno considerar que para que una empresa sea exitosa en el futuro, es vital la toma
de buenas decisiones, y esto requiere análisis de la información relevante. La importancia de un
buen data warehouse es que se convierte en la fuente de esa información tan fundamental.

Con el fin de entender su importancia en los mercados actuales, a continuación se hablará en


mayor profundidad de los conceptos asociados con el data warehouse.

2. Data warehouse -DW-

El concepto de data warehouse es bastante simple: la información (data) se extrae periódica-


mente de sistemas fuente, que son aplicaciones tales como ERP (enterprise resource planning)
que contienen la información importante de una compañía. La información proveniente de estos
sistemas se lleva por lo general a un servidor dedicado que contiene el DR; se limpia, se forma-
tea, se valida, se reorganiza resumida y complementada con información de otras fuentes. Esta
data warehouse resultante se convierte en la principal fuente de información para la generación
de reportes y análisis a través de herramientas de reportes que se pueden utilizar para este fin,
como dashboards y otros similares.

Construir estas fuentes de información se ha hecho más fácil con el paso de los años gracias
a la evolución y mejoramiento de las herramientas, procesos, y a un mejor entendimiento de las
arquitecturas utilizadas para este fin.

POLITÉCNICO GRANCOLOMBIANO 2
¿Cómo se relaciona el DW con la inteligencia de negocios? El objetivo de todo negocio es
tomar mejores decisiones que sus competidores. Es en este punto donde entra la inteligencia
de negocios. BI convierte cantidades importantes de información proveniente de sistemas
operativos en formatos fáciles de entender, actuales y correctos, y permite tomar estas deci-
siones a partir de la información. Es en ese momento cuando realmente se pueden analizar
tendencias actuales y a largo plazo, detectar oportunidades y problemas y recibir realimenta-
ción continua de la efectividad de las decisiones tomadas. Debido a todo lo que se ha mencio-
nado, el ingrediente más importante de una solución de inteligencia de negocios es, sin lugar
a duda, la inclusión de data warehouses.

El concepto de data warehouse no es difícil de entender. Básicamente la idea consiste en crear


un espacio permanente de almacenamiento de información requerida para apoyar reportes,
análisis y otras funciones asociadas a la inteligencia de negocios. Aunque, mucha gente con-
sidera que es inútil y dispendioso mantener información almacenada en varias ubicaciones, en
este caso en sistemas fuente y en DW, las ventajas que surgen de hacerlo justifican con creces
el esfuerzo y el costo de esta actividad.

Cuando se evalúan las diferentes opciones tecnológicas con el objetivo de comenzar la cons-
trucción de un DW se deben considerar los siguientes aspectos:

• Tamaño: es importante determinar previamente la cantidad de datos que se van a


alojar en el DW.

• Complejidad de la información: si se decide manejar la información de forma demasiado


compleja, el proceso de optimización de esta se hace más difícil, y a su vez, se disminuye la
efectividad de la búsqueda de información particular en el momento en que esta se requiera.

• Cantidad de usuarios: es uno de los puntos más importantes para tener en cuenta
cuando se realiza la evaluación. Se debe definir la capacidad que va a tener el DW para
manejar usuarios simultáneos, y evitar que este tipo de comportamiento no ralentice el
sistema, y permitir que los usuarios especificados tenga acceso a la información de la
forma más rápida y eficiente.

• Complicación en el sistema de consultas: si dentro del DW la información se organiza


de forma complicada, y el sistema debe manejar demasiados subsistemas o debe hacer
operaciones demasiado confusas para acceder a la información, se crean problemas de
operación en el DW, que dificultan su uso y su funcionamiento.

POLITÉCNICO GRANCOLOMBIANO 3
Otra interrogante es ¿por qué utilizar un DW y no acceder de forma directa a la información de
la empresa si esta ya está consolidada? Hay varias formas de dar respuesta a esta inquietud: el
uso de DW permite integrar diversos tipos de información en tiempo real, lo cual facilita tomar
mejores decisiones de negocio ya que se tiene acceso a mayor cantidad de información y ade-
más evita que se pierda tiempo recopilando información a partir de diferentes fuentes; el uso
de DW permite organizar grandes cantidades de datos históricos útiles en un lugar accesible
con formatos, modelos y métodos comunes y accesibles; el DW puede alojarse en un servidor
construido específicamente para este fin, así su acceso es más rápido, permitiendo a su vez,
generar reportes más fácilmente; con el uso de DW se minimiza el riesgo de que el personal que
accede a información sensible pueda llegar a modificarla de alguna forma; el uso del DW per-
mite mejorar la calidad de la información, teniendo cuenta el proceso a la que esta es sometida
para entrar a formar parte del DW; se ha evidenciado de diversas formas que las compañías que
utilizan data warehouses son más propensas a aumentar sus utilidades en el tiempo. Aunque es
cierto que la implementación de DW supone inversiones adicionales en hardware y software, al
final, resulta ser más económico que mantener el funcionamiento del acceso a la información
de forma directa, porque reduce y optimiza los tiempos de búsqueda y acceso a la información y
también reduce los costos de su procesamiento y almacenamiento.

Además, el uso de DW como parte de la inteligencia de negocios da una serie de beneficios a


las compañías que lo implementan. Entre estos beneficios se pueden encontrar:

• Facilidad para que el usuario final pueda generar reportes, evitando que tenga que solicitar
apoyo de personal intermedio para acceder a la información o para que pueda entenderla.

• Presentación dinámica de la información por medio del uso de dashboards.

• DW pueden ayudar a apoyar las necesidades de una compañía, tales como la habili-
dad de consolidad resultados financieros que son manejados por diferentes áreas del
mismo negocio.

• El uso de DW facilita la protección de la información sensible para una compañía, porque se


da acceso protegido a quienes realmente tienen la necesidad de acceder a la información.

POLITÉCNICO GRANCOLOMBIANO 4
W. Inmon señaló algunas características con las cuales describe de forma común los data ware-
house. Estas son:

• Orientado al tema (subject oriented): los DW están diseñados para ayudar al proceso de
análisis de información. Por ejemplo, para aprender más sobre el comportamiento de las
ventas en una compañía se puede construir un DW centrado en ellas, que permita identi-
ficar todos los aspectos relacionados con estas.

• Integrado (integrated): estrechamente relacionada con la orientación por temas. Los DW


deben colocar información proveniente de cualquier tipo de fuente en formatos consis-
tentes, resolver problemas como conflictos en la denominación e inconsistencias entre
las unidades que se utilizan en los procesos de cuantificación.

• No volatilidad (non volatile): significa que, una vez ingresada al DW, la información no
debe cambiar. Esto debería ser evidente, porque el propósito de un warehouse es permi-
tir el análisis de lo que ha ocurrido.

• Variante en el tiempo (time variant): con el objetivo de poder identificar tendencias en


el negocio, los analistas deben estar en capacidad de manejar grandes cantidades de
información. Un DW debe enfocarse en los cambios que se presentan en el tiempo, esto
significa variante en el tiempo.

DW típicos tienen diversas áreas según el tema que alojan, y a partir de los DW se construyen
los datamarts, los cuales manejan individualmente los diferentes temas, como ventas o finan-
zas. Estos se explicaran con mayor detalle en la siguiente sección.

2.1 Introducción a datamarts

Un datamart es la parte de un DW que se utiliza para entregar información a los usuarios; co-
múnmente son consideradas como pequeños trozos del DW; albergan información de la totali-
dad de la empresa, y en general, la información pertenece a un departamento o equipo específi-
co de la compañía.

POLITÉCNICO GRANCOLOMBIANO 5
El objetivo primordial de los datamarts es entregar a cada usuario la información más relevan-
te en la menor cantidad de tiempo posible. De esta forma los usuarios están en capacidad de
desarrollar y seguir un tren de pensamiento, sin necesidad de esperar durante largos períodos
de tiempo a que se cumplan sus solicitudes. Las datamarts están diseñadas para satisfacer las
demandas de grupos específicos y tener, en comparación, un área de trabajo bastante reducida.
Sin embargo, el ser reducida no implica que sea pequeña en tamaño, pueden llegar a tener millo-
nes de datos y requerir gigabytes de espacio para un almacenamiento adecuado.

Para caracterizar adecuadamente un datamart se puede decir que: se utilizan por lo general, por
usuarios finales, están en un proceso constante de actualización, están conformados por infor-
mación de alto nivel de detalle y siempre están orientados a un tema específico.

Las ventajas que se pueden tener al utilizar datamarts son las siguientes:

• Mejorar el tiempo de respuesta que debe esperar un usuario, porque le da acceso al tipo
de información específica que este puede necesitar.

• Es una versión condensada y más enfocada de una DW.

• Cada datamart está dedicada a una función o unidad específica.

• Implica costos más bajos con respecto a la implementación de un DW completo.

• Aloja información detallada.

• Contiene únicamente información esencial del negocio y está menos saturada.

• Trabaja con el objetivo de integrar todas las fuentes de información.

En resumen, un datamart es un subconjunto de un DW que ha sido diseñado para una línea parti-
cular de negocio, como puede ser ventas, mercadeo o finanzas. En un datamart dependiente,
la información puede provenir de un DW que alberga la información completa de una empresa;
por el contrario, en un datamart completamente independiente, la información pudo haber sido
obtenida directamente de diversas fuentes de acceso.

La creación y uso de datamarts lleva a un gran resumen de información. Los DW alojan un ma-
yor rango de información, que por lo general no ha sido resumida, lo cual hace que navegar por
ella, sea mucho más difícil y, a su vez, aumenta los tiempos requeridos para las consultas.

POLITÉCNICO GRANCOLOMBIANO 6
Cuando se utilizan datamarts se tiene en mente hacer análisis de áreas particulares, y se está
en capacidad de identificar cuáles son los factores realmente principales para el negocio, cuáles
son las áreas críticas, cuáles son los verdaderos roles de las personas que hacen parte del
negocio, cuáles son las limitaciones y restricciones asociadas con la actividad; también permite
revisar los planes estratégicos de la e identificar los diferentes indicadores de rendimiento.

3. Cubo

Un cubo en bodegas de datos, es una estructura de información que permite estudiar la información
de los elementos –dimensiones- que están relacionados con un hecho o factor de negocio de mane-
ra conjunta. Cada una de estas dimensiones describe con una magnitud o atributo el hecho.

La magnitud representa algún hecho (o número) tal como un costo o una unidad de servicio,
mientras que la dimensión representa categorías que describen de alguna u otra forma la
información, tal como son el tiempo o la ubicación, y, es importante aclarar, que cada dimensión
puede incluir diferentes niveles para cada categoría..

Figura 1. Cubo en bodega de datos.

Fuente: Elaboración propia, 2017.

POLITÉCNICO GRANCOLOMBIANO 7
El cubo, a diferencia del datamart es una opción de implementación y no un concepto. El cubo
es almacenamiento de información no relacionada, que representa muchas “dimensiones” de
información con algún tipo de relación. Al pensar en su forma geométrica, se quiere mostrar que
este tipo de mecanismo tiene más de tres dimensiones de interacción.

El cubo, es un conjunto de datos organizado y estructurado en un arreglo jerárquico y multidi-


mensional. Por lo general, el cubo deriva de un subconjunto de un DW. Como ya se mencionó
en el párrafo anterior, el cubo es un modelo lógico multidimensional que puede llegar a tener
un sinnúmero de dimensiones y de niveles de información. Además, los cubos se utilizan para
representar información sobre algún tipo de medida que pueda llegar a ser de interés a una
compañía.

Los datamarts, por lo general, se implementan utilizando cubos.

3.1 Conjunto de tablas en una base de datos.

Hecho: corresponde al evento, actividad o ítem que será el estudio del cubo en la bodega de da-
tos. Los hechos pueden ser conceptos simples que requieran toda la atención de un proceso en
el negocio, como por ejemplo, ventas, atención o cliente. Los hechos se almacenan en una tabla
llamada “tabla de hechos” (o fact table en inglés; el origen de la expresión es del latín factum:
hecho, acción, trabajo).

Dimensión: característica de un hecho para su estudio. Una medición puede tener una medida
asociada, por ejemplo, una persona ̶ como hecho-, tiene una característica de edad (como di-
mensión), y esta se presenta en años (como unidad de medida). La dimensión representa cate-
gorías descriptivas que califican de múltiples maneras la información que se está consolidando.

Medida: atributo o medida de hechos, métricas del negocio. Pueden ser discretas o continuas,
cualitativas (valoración descriptiva, por ejemplo, bueno, regular, malo) o cuantitativas (valores
numéricos, por ejemplo, 5.5-8.5). Las medidas son los valores reales de la información, que ocu-
pan las celdas de acuerdo con la forma como se define por las dimensiones seleccionadas.

POLITÉCNICO GRANCOLOMBIANO 8
Jerarquía: cuando se habla de dimensiones existe la posibilidad de definir jerarquías, éstas
constituyen grupos de características que obedecen a un orden previamente establecido. Una
jerarquía da a una dimensión, la organización de sus niveles, donde cada nivel representa la
totalidad de los datos que hacen parte del nivel inmediatamente inferior. Una jerarquía también
determina la forma en que se resume la información partiendo de los niveles inferiores y avan-
zando hacia los niveles más altos. Una dimensión típica soporta una o más jerarquías naturales.
Una jerarquía puede, pero no exige contener todos los valores existentes en la dimensión.

Relaciones: dependencia dentro de una dimensión, que permite agrupar distintas unidades de
medida. Por ejemplo, la edad como dimensión de una persona puede representar con mayor o
menor grado de exactitud de acuerdo con el uso de la jerarquía del tiempo. (Podemos decir que
una persona con 50 años 10 meses y 15 días ha vivido 50.874 años, 610.5 meses o 18565 días),
todos los valores son correctos, pero usamos distintas jerarquías para distintas necesidades.

Un ejemplo más claro es la jerarquía “región”, (dirección, barrio, ciudad, departamento, país,
continente).

Las jerarquías están asociadas con un orden de magnitud, y cada nivel está asociado con una
unidad de medida.

Granularidad: determina qué tan detallada será la información, especificando que a mayor nivel
de detalle se tiene una mayor capacidad de análisis, y ofrece a su vez mayor nivel de compleji-
dad en el mismo. En pocas palabras, la granularidad determina cuál es el grado de detalle que
será asociado con hechos particulares.

Uno de los factores que tiene más influencia sobre la granularidad, es el tiempo; es decir, si los
intervalos de tiempo en los cuales se define la información son más pequeños, se obtiene direc-
tamente un mayor grado de detalle

La granularidad depende directamente del número de dimensiones que se asocian con la tabla
de hechos.

Se deben considerar otros factores como la carga del procesador, espacio de almacenamiento y
satisfacción a cabalidad de los requerimientos del cliente.

POLITÉCNICO GRANCOLOMBIANO 9
Referencias
The Data Warehousing Institute (2010). TDWI data governance fundamentals. Disponible en:
http://download.101com.com/pub/tdwi/files/onsitecourseoutlines/preview_tdwi%20data%20
governance%20fundamentals_100411.pdf.

Kriegel, A. (2009). Data warehousing for developers” en: http://agilitator.com/blog/wp-content/


uploads/2009/12/dw_developers.pdf.

Gómez, M. (2012). Ciclo de vida dimensional de un negocio. Disponible en: http://maribelgm.


wordpress.com

Rojas, A. (2014). Implementación de un data mart como solución de inteligencia de negocios,


bajo la metodología de Ralph Kimball para optimizar la toma de decisiones en el Departamento
de Finanzas de la Contraloría General de la República. Chiclayo, Perú

Oficina de Informática. Departamento Nacional de Planeación (2013). Guía metodológica para


la implementación de bodega de datos corporativa y soluciones de inteligencia de negocios.
Bogotá, Colombia.

Cano, J. Luis (2007). Business intelligence: competir con información. https://es.scribd.com/do-


cument/162811141/Business-Intelligence-Competir-Con-Informacion.

González, R. Impacto de la data warehouse e inteligencia de negocios en el desempeño de las


empresas: investigación empírica en Perú, como país en vías de desarrollo. Lima, Perú.

Inmon, W. (2005). Building the data warehouse. Indianápolis, USA: Wiley Publishing.

Morlas C. (2014). Estudio de factibilidad dirigido a la asesoría e implementación de sistemas de


inteligencia de negocios para concesionarios de vehículos. Disponible repositorio.ucsg.edu.ec/
bitstream/.../t-ucsg-pre-esp-cfi-16.pdf

Larson D., M. (2016). The four components of BI governance. Disponible en: http://www.bi-bes-
tpractices.com/view/4681

POLITÉCNICO GRANCOLOMBIANO 10
INFORMACIÓN TÉCNICA

Módulo: Implementación de Soluciones de Alta


Tecnología para BI

Unidad 3: Modelado de la bodega de datos

Escenario 5: Data warehouse, data mart y definición de


cubo

Autor: Juan Camilo Pérez Ríos

Asesor Pedagógico: Jeimy Lorena Romero Perilla

Diseñador Gráfico: Cesar Felipe Puentes Rojas

Asistente: Maria Elizabeth Avilan Forero

Este material pertenece al Politécnico Grancolombiano. Por


ende, es de uso exclusivo de las Instituciones adscritas a la
Red Ilumno. Prohibida su reproducción total o parcial.

POLITÉCNICO GRANCOLOMBIANO 11
11

También podría gustarte