Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DATAWAREHOUSE
DEFINICIONES PRELIMINARES
Para aquellos que desarrollan y mantienen los sistemas de datos haciéndolos disponibles para
los directivos de las empresas, el término Datawarehouse o también conocido como Almacén
de Datos, ofrece la solución como ubicación central para que todos puedan acceder a la
información con los reportes necesarios, dando respuesta a necesidades de diferentes tipos de
usuarios.
El DW organiza y orienta los datos desde la perspectiva del usuario final, mientras que los
sistemas operacionales organizan sus datos desde la perspectiva de la aplicación, para lograr
eficiencia en el acceso a datos.
1.1 DATAWAREHOUSE
1
Fig. 1.1: “Modelo de DW”
1.2 OBJETIVOS
• Comprender las necesidades de los usuarios por áreas dentro del negocio.
• Determinar qué decisiones se pueden tomar con la ayuda del DW
• Seleccionar un subconjunto del sistema de fuentes de datos que sea el más efectivo y
procesable para presentar el DW.
• Asegurar que los datos sean precisos, correctos y confiables y que mantengan la
consistencia.
• Monitorear continuamente la precisión y exactitud de los datos y el contenido de los
reportes generados.
• Publicar los datos.
1.3 CARACTERISTICAS DE UN DW
• Es orientado a sujetos:
2
• Los datos son integrados: Fig. 1.2: “DW orientada a sujetos”
El aspecto más importante del ambiente de un DW es que sus datos están integrados.
Cuando los datos son movidos del ambiente operacional, son integrados antes de entrar
en el DW. Por ejemplo, un diseñador puede representar el sexo como "M" y "F", otro
puede representarlo como "0" y "1", o "x" e "y", y otro usar las palabras completas
"masculino" y "femenino". No importa la fuente de la cual el sexo llegue al DW, debe
ser guardado en forma consistente; los datos deben ser integrados.
• Es variante en el tiempo
Los datos en el DW son precisos para un cierto momento, no necesariamente ahora; por
eso se dice son variantes en el tiempo. El Data DW contiene datos de un largo horizonte
de tiempo. Las aplicaciones operacionales, sin embargo, contienen datos de intervalos
de tiempo pequeños, por cuestiones de performance (tamaño chico de las tablas). Toda
estructura clave en un DW contiene implícita o explícitamente un elemento del tiempo.
3
Esto no necesariamente pasa en el ambiente operacional. Los datos de un DW, una vez
almacenados, no pueden ser modificados (no se permiten updates). En el ambiente
operacional, los datos, precisos al momento de acceso, pueden ser actualizados, según
sea necesario.
• Es simple de manejar
• No volátil
4
Generalmente, los sistemas transaccionales u OLTP usan estructuras normalizadas, en las
cuales se optimizan las inserciones y actualizaciones de artículos e incluso algunas
selecciones, pero es menos probable que el sistema se organice de forma tal que produzca
reportes eficientes para datos resumidos con cierta jerarquía. Y es aquí donde debería usarse
el DW, que usa los datos relevantes de fuentes existentes y los combinan en una estructura
que ha sido optimizada para las selecciones.
Esta es la razón por la cual se construye un DW para solucionar la problemática de tener un
sistema fuente transaccional corriendo sobre un servidor. Esta información se necesita que
esté consultable para los clientes de la empresa de forma remota y sin embargo, por
problemas de seguridad no puede estar directamente disponible desde el mismo sistema
fuente. El DW ha sido la solución propuesta para que la información sea utilizada por una
aplicación cliente de acceso remoto. De esta forma se aprovecha la forma en que se
organizan los datos en el almacén en el modelo dimensional y se brinda a la Gerencia un
grupo de informaciones organizadas en cubos multidimensionales que les permite
profundizar en el análisis de la información y ver su variación en el tiempo.
Los DW están en la categoría de los sistemas para el soporte de decisiones (DSS) que
tienen como objetivos medir y controlar el desarrollo de las variables importantes del
negocio, buscando identificar, proyectar y predecir tendencias a partir de los datos
acumulados.
Los datos que se manejan en el DW son informacionales, esto significa que son datos
resumidos y periódicos a diferencia de los datos operacionales.
1.5 DATAMART:
• Los Data Marts no contienen información almacenada como datos operacionales, pero
si la tienen los DWs.
• Como los Data Marts contienen menos información, son más fáciles de entender y
navegar, que los DWs corporativos. Un DW puede contener tanta información, que es
difícil de manejar por los usuarios.
5
• Las soluciones de Data Marts, requieren una arquitectura de 3 capas: Los DWs son la
primera capa (opcional), los Data Marts son la segunda capa, y las estaciones de trabajo
de usuarios son la tercera.
El reciente crecimiento de los Data Marts, ha generado también, muchos problemas a los
usuarios, para acceder a la información de la organización.
• Se pierde performance a medida que aumenta el tamaño de los Data Marts. Los usuarios
esperan mejor respuesta de los Data Marts, que de los DWs.
• Los usuarios requieren acceso a datos de muchos Data Marts. Los datos pueden ser
replicados entre los Data Marts, pero se requieren mejores soluciones.
• Las compañías no pueden administrar fácilmente muchos Data Marts. Mientras sólo se
tiene un DW, se pueden tener muchísimos Data Marts.
• Las organizaciones tienen dificultades para construir los Data Marts. Aunque es
aceptable que la construcción de un DW lleve varios años, los Data Marts requieren un
ciclo de desarrollo muy corto, para una inversión moderada.
En esta arquitectura los datos son cargados desde los sistemas de producción
hacia el data DW empresarial y entonces subdivididos en Data Marts. Se llaman
Data Marts dependientes porque utilizan los datos y metadatos del DW en lugar
de obtenerlos de los sistemas de producción.
Esta solución resuelve los problemas de performance, estrategia, finanzas e
incluso algunos de los problemas políticos. Aunque tiene esos puntos a favor,
sigue teniéndose que construir el DW global antes que los Data Marts sean
implementados.
1.5.1.1.1 VENTAJAS
6
• La gestión de los Data Marts es más cómoda ya que las reglas que
rigen la extracción, carga y transformación de los datos son
comunes.
1.5.1.1.2 INCONVENIENTES
7
1.5.1.2 DATAMART INDEPENDIENTES
Esta óptica es considerada por muchos como una alternativa del DW central.
Con ella es posible comenzar con un sistema pequeño, invirtiendo menos
dinero y obteniendo resultados limitados entre tres a seis meses. Los que
proponen esta arquitectura, argumentan que luego de comenzar con un Data
Mart pequeño, otros data marts pueden proliferar en otras líneas de negocio o
departamentos que tengan necesidades y que satisfaciendo las distintas
necesidades divisionales, una organización puede construir su camino para el
DW completo, de una manera bottom up. En este caso de Data Marts
múltiples también se tienen procesos de carga múltiples donde los datos son
extraídos desde sistemas de producción quizás en forma redundante.
1.5.1.2.1 VENTAJAS
1.5.1.2.2 INCONVENIENTES
• Redundancias indeseadas de datos. Cada Data Mart ha de ser
totalmente independiente por lo que habrá tablas y/o datos que
deberán estar repetidos, lo que conlleva un incremento de espacio
ocupado y graves problemas de coherencia.
• Lo anteriormente expuesto provoca la existencia de procesos de
extracción, manipulación y carga redundantes con el incremento
de recursos y complejidad que conlleva.
• Imposibilidad de asegurar la consistencia de los datos
almacenados.
• Dificultad para la realización de consultas que relacionen datos
situados en diferentes Data Marts. Depende de las herramientas
de Reporte/Análisis de Información utilizadas ya que algunas
8
permiten la realización de informes multiconsulta accediendo a
diferentes bases de datos relacionadas entre sí.
1.6 TERMINOLOGIA DW
• DIMENSIONES
Entidades que deseo monitorear
Clasificación por jerarquía
Ejemplo: Cliente, Producto, Región, Tiempo
• ATRIBUTO
Característica de la dimensión
Ejemplo: Sexo, Estado
• VARIABLE O MEDIDA
Valor que permite controlar el negocio
Ejemplo: Ventas, Costos, Unidades
• FACT TABLE
Registro de las transacciones
9
CAPITULO II
DATAWAREHOUSING
ALMACENES DE DATOS
10
operacionales). Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento
(visión tradicional). El Datawarehousing nos permite obtener estos datos e integrarlos en un
repositorio organizacional para luego acceder a ellos y hacer real la Gestión del Conocimiento.
Para conseguirlo será necesaria la aplicación de una Metodología, y la implantación de una
Arquitectura Tecnológica de la Gestión del Conocimiento.
2.1 DATAWAREHOUSING
2.2 CUBO
Lima
Arequipa
1999199 Huancayo
8
200
Producto1
Producto2
Producto
3
Ventas 11
Fig. 2.1: “Modelo de Cubo de 3” Dimensiones”
2.2.1 CONFORMACION
• Dimensiones
• Medida
Las medidas son un dato numérico que representa una actividad específica de un
negocio, mientras que una dimensión representa una perspectiva de los datos. Cada
dimensión está descrita por un conjunto de atributos (datos agregados). A su vez se
pueden intersectar estas dimensiones para obtener un valor, llamado medida.
Una medida contiene una propiedad numérica y una fórmula. Existen tres clases de
medidas:
12
o Medidas semi-aditivas: No pueden ser combinadas a lo largo de una o más
dimensiones.
o Medidas no aditivas: No pueden ser combinadas a lo largo de ninguna
dimensión.
La tabla de hechos contiene los valores de las medidas de negocios, por ejemplo:
ventas promedio en dólares, número de unidades vendidas, etc.
Es la tabla central en un esquema dimensional. Es en ella donde se almacenan las
mediciones numéricas del negocio. Estas medidas se hacen sobre el grano, o unidad
básica de la tabla.
El grano o la granularidad de la tabla queda determinada por el nivel de detalle que
se almacenará en la tabla. Por ejemplo, para el caso de producto, mercado y tiempo,
el grano puede ser la cantidad de madera vendida ‘mensualmente’. El grano revierte
las unidades atómicas en el esquema dimensional.
La clave de la tabla fact recibe el nombre de clave compuesta o concatenada debido
a que se forma de la composición (o concatenación) de las llaves primarias de las
tablas dimensionales a las que está unida.
Así entonces, se distinguen dos tipos de columnas en una tabla fact: columnas fact y
columnas key.
• Donde la columna fact es la que almacena alguna medida de negocio
• Una columna key forma parte de la clave compuesta de la tabla.
Estas tablas son las que se conectan a la tabla fact, son las que alimentan a la tabla fact.
Una tabla lock_up almacena un conjunto de valores que están relacionados a una
dimensión particular. Tablas lock_up no contienen hechos, en su lugar los valores en las
tablas lock_up son los elementos que determinan la estructura de las dimensiones. Así
entonces, en ellas existe el detalle de los valores de la dimensión respectiva.
Una tabla lock_up está compuesta de una primary key que identifica unívocamente una
fila en la tabla junto con un conjunto de atributos, y dependiendo del diseño del modelo
13
multidimensional puede existir una foreign key que determina su relación con otra tabla
lock_up.
Para decidir si un campo de datos es un atributo o un hecho se analiza la variación de la
medida a través del tiempo. Si varía continuamente implicaría tomarlo como un hecho,
caso contrario será un atributo.
Los atributos dimensionales son un rol determinante en un DW. Ellos son la fuente de
todas las necesidades que debieran cubrirse. Esto significa que la base de datos será tan
buena como lo sean los atributos dimensionales, mientras más descriptivos, manejables
y de buena calidad, mejor será el DW.
2.4 MODELAMIENTO DE DW
La técnica usada dependerá de la complejidad de los datos y las necesidades del usuario.
Existen dos tipos básicos de modelamiento y son:
o Modelo Estrella
o Modelo Copo de Nieve
2.4.1 MODELO ESTRELLA (STAR SCHEMA)
14
Identificar dimensiones para hechos (dim_product, dim_ubicación,
dim_tiempo)
Lista de columnas que describen cada dimensión (nombre de región, nombre
de marca, nombre de región)
Determinar el nivel mas bajo de resumen en la tabla de hechos (venta en
dólares)
15
Fig. 2.12: “Modelo Copo de Nieve”
16
CAPITULO III
INTELIGENCIA DE DATOS EN
LA EMPRESA DEXUR E.I.R.Ltda
17
a encontrar las claves para que los ejecutivos definan las estrategias en el
Área comercial posicionando a DEXUR en el liderazgo como empresa
distribuidora al por mayor y menor de productos en el centro de el Perú?
3.1.2.2PROBLEMAS ESPECIFICOS.
3.1.3 OBJETIVOS
18
3.1.4 JUSTIFICACION
19
3.2.3 PAQUETE DE TRANSFORMACIÓN DE DATOS DE LA BASE DE
DATOS EN ACCESS HACIA EL DATAWAREHOUSE EN SQL
20
Fig. 3.2: “DW DEXUR”
• ORIGEN_VENTA:
Valores:
ORI_ID ORI_NOMBRE
1 Venta Cruzada
2 Venta Directa
3 Tele-Venta
• MONEDAS:
21
Valores:
MON_ID MON_NOMBRE MON_CAMBIO
1 Reales 1,92
2 Peso Chileno 792
3 Peso Colombiano 2510
4 Bolivar 850
• PAISES:
Valores:
PAIS_ID MON_ID PAIS_NOMBRE
1 3 Colombia
2 2 Chile
3 1 Brasil
4 4 Venezuela
• TIPOS_CLIENTES:
Valores:
TIP_ID TIP_NOMBRE
1 Tarjeta ORO
2 Tarjeta PLATA
3 Tarjeta BRONCE
• CLIENTES:
22
CLI_BAJA: indica si el cliente ha sido baja
CLI_NOMBRE: Nombre del cliente
CLI_CIF: Identificador Fiscal del cliente
CLI_TELEFONO: Teléfono del cliente
Ejemplos:
1 3 0 cliente 1 1599.38 555-00-1
2 2 0 cliente 2 1600.38 555-00-2
• PRODUCTOS:
Valores:
PRO_ID PRO_NOMBRE PRO_CODIGO
1 Ladrillo 12x5 AL01
2 Teja interior AL02
3 Cera cubre arañazos LI01
4 Neumático 175R AU01
5 Liquido anticongelante LI02
6 Neumático 195R AU02
7 Ladrillo 10x10 AL05
8 Teja exterior AL03
9 Ladrillo 7x7 AL04
10 Neumático 165R AU03
• ESTADOS_CONTRATOS:
23
Valores:
EST_ID EST_NOMBRE
1 Edición
2 Revisión
3 Servicio
4 Cerrado
5 Anulado
6 Sustituido por nueva versión
7 Borrado
• CONTRATOS:
• PARTES_CONTRATOS:
24
PART_CON_CAMBIO_MONEDA: cambio a dólares de la moneda del
Contrato. Este valor se registra en el momento de añadir una nueva parte
del contrato al mismo.
- Importe de la venta
- Coste de la venta
- Unidades vendidas
- Número de ventas a fecha
- Ganancia Bruta = (Importe de la venta – Coste de la venta)
- Ventas Medias a Fecha = (Importe Venta / Número Ventas a Fecha)
- Coste Medio por Unidad = (Importe Venta / Unidades vendidas)
- Porcentaje de la venta según parámetros frente al resto de parámetros
- Crecimiento comparativo respecto al periodo paralelo anterior
- Crecimiento comparativo respecto al periodo inmediatamente anterior
- Importe de ventas acumulado dentro del mismo año
- Importe medio de las ventas realizadas en los últimos tres periodos
Para crear el Data Mart Ventas para la empresa DEXUR E.I.R.Ltda, necesitamos
hacer el modelamiento de la Fact Table (Tabla de Hechos). La clave de la Fact
Table_Ventas recibe el nombre de clave compuesta o concatenada debido a que se
forma de la composición (o concatenación) de las llaves primarias de las tablas
dimensionales Paises, Productos, Origen_Venta, Clientes, Tiempo a las que está
unida.
25
Origen_venta
Tiempo_dim Paises_dim
Bloques_Ventas_Fact
Productos_dim
Clientes_dim
- Tiempo_dim
- Origen_Venta_dim
- Pais_dim
- Clientes_dim
- Productos_dim
26
3.4.1.2 Detalle de las Dimensiones
a. Dimensión Tiempo
Año
Quarto
Mes
Semana
Día
27
Nombre Atributo Descripción Atributo Ejemplo
Fecha último día mes Fecha último día del mes 30/11/2001
Tabla 3.2: “Atributos de la Dimensión Tiempo”
c . Dimensión País
País
Emplea a la tabla país
d. Dimensión Cliente
28
Cliente
Categoría Cliente
e. Dimensión Producto
Producto
Tipo Producto
29
Nombre Atributo Descripción
Tabla 3.6: “Atributos de Atributo
la Dimensión Producto” Ejemplo
Producto Nombre del producto Cera cubre arañazos
Tipo Producto Categoría del producto Automoción
a. Ventas Facts
Regla de
Nombre del Hecho Descripción del Hecho Agregación
Venta Dólares Representa el importe de la Venta, Sum
previa transformación de la moneda
local a la moneda de consolidación
(dólares).
Coste Dólares Representa el importe del Coste Sum
generado internamente en la compañía,
previa transformación de la moneda
local a la moneda de consolidación
(dólares).
Unidades Número total de productos vendidos. Sum
Número de Ventas a Fecha Indica el número de ventas que han Count
ocurrido en un momento dado
Tabla
b. Miembros 3.7: “Hechos de la tabla Ventas_Fact”
Calculados
Regla de
Nombre del Medidas Descripción de las Medidas Agregación
Ganancia Bruta Ganancia que representa la Venta Venta - Coste
30
Regla de
Nombre del Medidas Descripción de las Medidas Agregación
Ventas Medias a Fecha Representa el número de ventas medias Venta / Num
realizadas hasta la fecha Ventas
Coste Medio por Indica el coste medio de las unidades Venta / Unidades
Unidad para una venta
Tabla 3.8: “Medidas de la tabla Ventas_Fact”
Recordemos que la tabla Fact tiene como clave primaria, las claves de las tablas
dimensionales y los hechos a evaluar en la empresa
En este diseño se puede observar que han sido necesarias las siguientes transformaciones
de los datos de la base de datos operacional:
31
categoriza a éstos según sean de Automoción, Limpieza o Albañilería.
Pues se pretende clasificar las ventas según su procedencia y es necesario crear una
dimensión.
4. Debido que aveces se fía, la fecha de la venta es la menor entre las fechas de firma
del contrato (con_firma_fecha) y la fecha de inicio del mismo (con_f_ini).
32
3.5.2 Tablas de Dimensión
33
d. Tabla Dimensión Clientes
34
3.6 CONSTRUCCIÓN DE LOS CUBOS OLAP
Construcción del cubo (cubos) de datos para dar respuesta a las consultas siguiente así como
respuesta a las siguientes preguntas:
o Tipología de producto más vendido en enero de 2000 y número de unidades
vendidas
o Producto más rentable en Colombia en el 2000
o Evolución de las ventas realizadas con el paso del tiempo en cada país
o Importe total de las ventas de todos los países consolidadas bajo una única moneda
(dólar americano)
o Ingresos por tipos de clientes y por años
o Ingresos según el origen de la venta
o Comparativas de ventas para los mismos periodos en distintos años.
Para construir Cubos OLAP se carga el Analysis Services de SQL Server y se ejecuta
el Analysis Manager del Analysis Services
35
Fig. 3.7: “Seleccionando Proveedor y Conexión”
2. Construimos el cubo
Recordemos que las medidas son los valores en los que se desea hacer la
consulta
36
Fig. 3.8: “Seleccionando la medidas a usar”
Las dimensiones son los hechos que deseo analizar. Por ejemplo: ventas al año,
venta en dólares, etc.
37
Fig. 3.10: “Seleccionando el Modelamiento”
38
e. Generamos el cubo y seleccionamos el tipo de Almacenamiento a Usar
Luego, para poder tener data en el cubo, primero debemos procesar el cubo
39
Fig. 3.15: “Procesamiento exitoso”
Aquí detallamos como se realizan las consultas y los reportes respectivos dentro de un
cubo en SQL Server, Una vez procesado el cubo podemos visualizar nuestros reportes.
Podremos analizar los reportes que nos da el SQL desde Microsoft Excel y poder
ayudar a la toma de decisiones llegando a un análisis gráfico como podemos ver en
el siguiente diagrama:
40
Fig.
Luego, tenemos que 3.17: “Eligiendo
seleccionar la baseeldeorigen
datosde la la
con conexión”
que se desea trabajar, para la
aplicación, debemos conectarnos a la base de datos EXPO_DW
41
Para generar un reporte gráfico, lo único que se tiene que hacer es buscar la
herramienta Insertar Gráfico. Aquí se le puede dar formato de presentación y escoger
el tipo de gráfico sea barras, radial, etc.
A continuación, se presenta un reporte gráfico sobre el cubo_ventas de DEXUR
E.I.R.Ltda.
Hasta aquí se realizo todos los pasos de Modelamiento de un Datawarehouse haciendo uso de la
herramienta OLAP.
De los cubos generados, se hará un análisis de Minería de Datos, si la empresa así lo establece,
pero ese es otro tema de investigación que no se desarrollará en el presente informe.
42
CONCLUSIONES
1. Las bases de datos operacionales por sus características propias y su rigidez en el diseño
y funcionalidad no permiten realizar con facilidad el análisis de los datos que esta
alberga.
2. El Datawarehouse usa un esquema mucho mas flexible, bajo esta concepción es posible
crear una arquitectura que se adecue a los requerimientos de información del individuo
que será usuario de este sistema, variando así su estructura de un usuario a otro,
corroborando que un sistema de estas características esta orientado al sujeto.
3. Para realizar análisis de tendencias, comparaciones, etc., es necesario contar con datos
que no estén siendo modificados constantemente pero si que sean incrementados, esta
es una peculiaridad del Datawarehouse, por ello es la herramienta precisa para realizar
este tipo de actividades.
43
RECOMENDACIONES
44
REFERENCIAS
a. BIBLIOGRAFICAS
b. ELECTRONICAS
45
• Carvajal, Jhon. ODBC (Open Database Connectivity) y su utilización en Excel.
2005[ fecha de acceso 21 de Agosto de 2005] URL disponible en
http://www.monografias.com
Guevara M, Flores C. AllFusion Edwin Data Modeler. 2002 [fecha de acceso 13 de Agosto de
2005] URL disponible en http://www.librosdigitales.com
46