Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Academia BI Unidad 2 PDF
Academia BI Unidad 2 PDF
Objetivos
Contenido de la unidad
3.1 Introduccin
3.2 Construyendo el data mart
3.3 Esquema Estrella
3.3.1 Tabla de Hechos
3.3.2 Dimensiones
3.3.2.1 Relaciones y Estructura de una dimensin
3.3.2.2 Esquema Estrella
3.3.2.3 Esquema Copo de Nieve
3.3.2.4 Padre Hijo (Parent- Child)
3.3.2.5 Dimensiones Virtuales
3.3.2.6 La dimensin Tiempo
3.4 Medidas
3.4.1 Medidas Naturales
3.4.2 Medidas Calculadas
Pgina 1 de 22
3.1. Introduccin
Pgina 2 de 22
Data Mart: son almacenes de datos con informacin de inters
particular para un determinado sector de la empresa
Data Warehousing: es el conjunto de almacenes de datos
particulares (Data Mart) con informacin de inters para la
empresa en general
Pgina 3 de 22
Las caractersticas de un esquema de estrella son:
Dimensin Dimensin
Servicio Paciente
Tabla de Hechos
Admisin Pacientes
Dimensin Dimensin
Tiempo Zona
Geogrfica
Pgina 4 de 22
Cada tabla de hechos contiene las claves externas, que se relacionan con sus
respectivas tablas de dimensiones, y las columnas con los valores que sern
analizados.
Ejemplos de Hechos
En un hospital: admisin de pacientes
En un operador telefnico: Trfico telefnico
3.3.2 Dimensiones
Disearemos y construiremos cada dimensin basados en los procesos de
negocio definidos por el cliente.
Las dimensiones organizan los datos en funcin de un rea de inters para los
usuarios.
Cada dimensin describe un aspecto del negocio y proporciona el acceso intuitivo
y simple a datos.
Una dimensin provee al usuario de un gran nmero de combinaciones e
intersecciones para analizar datos.
Las tablas de dimensiones son las compaeras de las tablas de hechos. Cada
dimensin se define por su clave primaria que sirve para mantener la integridad
referencial en la tabla de hechos a la que se relaciona.
Un cubo requiere que se defina al menos una dimensin en su esquema.
3.3.2.1 Relaciones y Estructura de una dimensin
Cada nivel de una dimensin debe corresponderse con una columna en la tabla
de la dimensin. Los niveles se ordenan por grado de detalle y se organizan en
una estructura jerrquica. Cada nivel contiene miembros, los miembros son los
valores de la columna que define el nivel.
Entre los miembros y entre los niveles de una dimensin existen relaciones, estas
se pueden comprender como las relaciones que existen en un rbol genealgico
Pgina 5 de 22
donde los trminos padre, hijo, hermano, primo, etc. indican una correspondencia
entre elementos del rbol; y los miembros de la dimensin se comportan como
familiares dentro del rbol genealgico.
Padre: Es el miembro del nivel inmediatamente superior que se relaciona
con el miembro seleccionado. Cada elemento tiene un solo padre.
Hijo: Son los elementos del siguiente nivel inferior que se relacionan con el
miembro seleccionado. Pueden existir varios hijos para un mismo miembro.
Hermano: Son los miembros que se encuentran en el mismo nivel que el
miembro seleccionado y poseen el mismo padre.
Primo: Son los miembros que se encuentran en el mismo nivel que el
miembro seleccionado, pero que tienen diferentes padres. Los primos tiene
padres que son hermanos.
Descendientes: Son todos los miembros que se encuentran debajo del
nivel del miembro seleccionado. independientemente de la cantidad de niveles
que los separen.
Ancestros: Son todos los miembros que se encuentran por encima del
nivel del miembro seleccionado.
Un miembro es independiente de las relaciones. Cada integrante de la dimensin
es miembro de ella.
Pgina 6 de 22
Ejemplos de dimensin
Dimensin zona geogrfica
Ejemplos de relaciones
En una dimensin zona geogrfica tendramos las siguientes
relaciones entres niveles y entre miembros:
Padre:
Argentina es padre de Buenos Aires y de Crdoba
Hijo:
Buenos Aires y Crdoba son hijos de Argentina
Hermano:
Buenos Aires y Crdoba son hermanos el uno al otro, tambin son
hermanos Argentina, Brasil y Uruguay.
Primo:
Mar del Plata es primo de Villa General Belgrano.
Descendiente:
Todos los miembros que estn por debajo de Argentina son sus
descendientes, por ejemplo Buenos Aires, Mar del Plata y Villa
General Belgrano son alguno de sus descendientes.
Ancestro:
Mar del Plata tiene dos antepasados Buenos Aires y Argentina.
Compartidas
Las dimensiones locales son las que se definen y se utilizan dentro de un mismo
cubo.
Las dimensiones compartidas son aquellas dimensiones que se definen
independientes de los cubos y pueden ser utilizadas por varios de ellos.
Ventajas de las dimensiones compartidas
Pgina 7 de 22
Evitamos duplicar dimensiones locales
Aseguramos que los datos analizados estn organizados de la misma forma
en todos los cubos, lo que implica un menor costo de mantenimiento.
Desventajas de las dimensiones compartidas
Deben emplearse del mismo modo en los cubos que las usen.
Un cambio implica que la dimensin deber ser modificada en todos los
cubos
Pgina 8 de 22
Este es un esquema donde las dimensiones tienen un esquema
estrella.
Dimensin Dimensin
Servicio Paciente
Tabla de Hechos
Admisin Pacientes
Dimensin Dimensin
Tiempo Zona
Geogrfica
Pgina 9 de 22
Se muestra un esquema donde la dimensin zona geogrfica
presenta un esquema copo de nieve.
Copo de nieve
Pas
Dimensin zona
Geografica
Provincia
Servicio
Ciudad
Admisin
Paciente
Paciente Tiempo
Normalizada Desnormalizada
Pas
ID_Pas Zona Geogrfica
Provincia
Pas
ID_ Provincia
Provincia Id _ Pas
ID_Pas Pas
ID_Provincia
Provincia
ID_Ciudad
Ciudad Ciudad
ID_ Ciudad
Ciudad
ID_Provincia
Pgina 10 de 22
Estrella Copo de nieve
Cantidad de tablas Menor Mayor
Pgina 11 de 22
Ejemplos de Dimensin Virtual
Podemos tener una dimensin Producto organizada de la
siguiente manera:
Producto (Dimensin real)
Fabricante
Marca
Calibre
Producto
Pgina 12 de 22
Semestre
Mes
3.4. Medidas
Las medidas son los valores de datos que se analizan.
Una medida es una columna cuantitativa, numrica, en la tabla de hechos. Las
medidas representan los valores que son analizados, como cantidad de pacientes
admitidos o llamadas efectuadas.
Las medidas son:
Valores que permiten analizar los hechos
Pgina 13 de 22
Valores numricos porque estos valores son las bases de las cuales el
usuario puede realizar clculos.
Si la medida fuera un valor no numrico debemos codificarla a un valor numrico
en el proceso de obtencin de datos, y luego cuando tengamos que exponer sus
valores decodificarla para mostrarla con el valor original.
Las siguientes son algunas de las caractersticas de las medidas:
Deben ser numricas.
Cruzan todas las dimensiones en todos los niveles.
Ejemplos de Medidas
En un hospital, donde el hecho es Admisin de
Pacientes las medidas pueden ser:
Pacientes Admitidos
Pacientes Atendidos
En un operador telefnico, donde el hecho es Trafico
Telefnico, las medidas pueden ser:
Llamadas Cantidad
Llamadas Duracin
Pgina 14 de 22
Cuando definimos una medida debemos tener en cuenta cual ser la forma de
agregacin (agrupacin de la misma) al subir por la estructura dimensional.
Estas formas de agregacin pueden ser:
Suma: es la operacin que suma los valores de las columnas
Cuenta: realiza un conteo de los valores
Mnima: devuelve un valor mnimo
Mxima: proporciona el mayor de los valores
Cuenta de Distintos: cuenta los valores diferentes
Pgina 15 de 22
Calculo Matemtico
En un sistema de RRHH, podemos querer medir el promedio
de horas extras por mes. Definimos la medida calculada
Promedio de Horas Extras que ser el resultado de hacer
Horas Extras dividido Dotacin.
Expresiones condicionales
Para la medida calculada anterior, Promedio de Horas Extras,
necesitaremos verificar la condicin de numerador diferente de
cero para evitar que la divisin nos arroje un error.
Si Dotacin es distinto de cero entonces Promedio de Horas
Extras ser igual a Horas Extras dividido Dotacin.
Si Dotacin es igual a cero entonces Promedio de Horas Extras
se mostrara vaci.
Alertas
En un hospital, podemos definir la medida calculada
Sobrecarga de Pacientes que tomara el valor 1 si los Pacientes
Admitidos (medida natural) es mayor a 100, de lo contrario
permanecer vaca.
Podemos construir una medida Cumplimiento de Ventas que
sea una alerta del tipo semforo y nos indique
Rojo: Si las unidades vendidas son menores a las unidades
presupuestadas dividido 5, es decir, vendimos menos que el 20
% de lo presupuestado.
Amarillo: Si el valor de las unidades vendidas est entre
unidades presupuestadas dividido 3 y unidades
presupuestadas dividido 5 (el valor vendido esta entre el 20 %
y el 80 % de lo presupuestado).
Verde: Si no se cumple ninguna de las condiciones
anteriores, es decir, vendimos ms del 80 % de lo
presupuestado.
Pgina 16 de 22
Caso de Estudio
Ilustraremos los conceptos que aprendimos en esta unidad con nuestro ejemplo
de La Distribuidora Latinoamericana de Alimentos (DLA).
Construiremos el modelo del data mart de ventas en tres etapas:
Etapa 1 Construccin de las Dimensiones
Etapa 2 Armado de la Tabla de Hechos
Etapa 3 Definicin de las Medidas
Construccin de las Dimensiones
Como primer paso definiremos las dimensiones porque estas nos darn las
aperturas del cubo.
En base a definiciones surgidas de los reuniones de trabajo con los
representantes de DLA, vimos que necesitan analizar sus datos segn el siguiente
cuadro:
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Pgina 17 de 22
niveles:
Ao
Semestre
Trimestre
Mes
Da
Dimensin Tiempo
* Ao
** Semestre
*** Trimestre
**** Mes
***** Da
Dimensin Sucursal
* Sucursal
** Tipo Sucursal
*** Pas
**** Provincia
***** Ciudad
Dimensin Vendedor
* Sucursal
** Seccin
*** Vendedor
Pgina 18 de 22
Dimensin Cliente
* Pas
** Provincia
*** Ciudad
**** Razn Social
Pgina 19 de 22
Fact_Ventas
ID_Fecha
ID_Producto
ID_Cliente
ID_Vendedor
Fact_Ventas
ID_Fecha
ID_Producto
ID_Cliente
ID_Vendedor
Ventas_Importe
Ventas_Costo
Ventas_Unidades
Pgina 20 de 22
Realizadas estas tres etapas, podemos ver el diseo completo de nuestro data
mart.
Lecciones Aprendidas
Un Data Mart adopta un esquema estrella para
maximizar la performance de las consultas.
Las dimensiones son categoras descriptivas por
las cuales las medidas se pueden separar para el
anlisis.
La dimensin Tiempo esta implcita en todo Data
Mart
Las medidas son los datos numricos de inters
primario para el cliente
Con las medidas calculadas se pueden construir
alertas
Pgina 21 de 22
Preguntas de Reflexin
Tenemos claramente definidos los requerimientos?
Conocemos los hechos que se quieren analizar, los
indicadores y las aperturas por las cuales se quiere hacer
el anlisis?
Concuerda esta definicin con las tablas auxiliares que
creamos y poblamos con datos de los sistemas OLTP?
Sabemos si los usuarios utilizarn las dimensiones para
navegar o para filtrar?
Cubren las dimensiones diseadas las necesidades de los
usuarios intuitivamente y con facilidad de manejo?
Se tienen todas las medidas naturales con las aperturas
requeridas?
Est definida la forma de agregacin, al salir de la
granularidad mnima, para todas las medidas naturales?
Estn definidas las frmulas o criterios de todas las
medidas calculadas?
Estn correctamente documentadas todas las definiciones?
Pgina 22 de 22