Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. ASPECTOS TEORICOS
Desde los inicios de la era de la computadora, las organizaciones ha usado los datos desde sus
sistemas operacionales para entender sus necesidades de informacin.
El data warehouse, es el centro de las grandes instituciones, por que provee un ambiente para que
las organizaciones hagan un mejor uso de la informacin que esta siendo administrada por diversas
aplicaciones operacionales. Data warehouse es una coleccin de datos en la cual se encuentra
integrada la informacin, no voltil de tiempo variante que se usa como soporte para la toma de
decisiones.
Al reunir los elementos de datos apropiados desde diversas fuentes, simplifica el proceso de anlisis
y consultas de esta informacin en menos tiempo.
Un data warehouse se crea al extraer la informacin desde una o ms bases de datos, esta
informacin es transformada para eliminar inconsistencias y luego es cargada en la data warehouse.
La innovacin que se brinda dentro de un ambiente data warehousing, puede permitir a cualquier
organizacin hacer un uso optimo de los datos, y hacer la toma de decisiones mas efectiva.
Conceptos
Bill H Immon
Conceptos
Ralph Kimball
Conceptos
en definitiva
Panel de
Consulta
Representacin de
Negocio
Base de Datos
Objetivos
ESTRUCTURA
Altamente
Altamenteresumido
resumido
Ligeramente
Ligeramenteresumido
resumido
Detalle
Detalleactual
actual
Detalle
Detallehistrico
histricode
delos
losdatos
datos
TECNICO-OPERATIVO
INTERINSTUCIONAL
TACTICOS.
Diseados para las actividades y manejo de la documentacin, para consultas en el
sistema, proporcionar informes, facilitar la gestin independiente por parte de los niveles
intermedios de la organizacin.
SISTEMAS TECNICO-OPERATIVOS.
Operaciones tradicionales de captura masiva de datos. Y servicios bsicos de tratamiento
de datos (contabilidad, presupuestos, almacenes, personal etc).
SISTEMAS INTERINSTITUCIONALES
Es el ultimo nivel de sistemas de informacin, son como consecuencia del mercado global
el cual obliga a implementar estructuras de comunicacin entre la organizacin y el
mercado. (Internet).
1.3. CARACTERISTICAS
Los datos de un Warehouse difieren de los datos operacionales usados por las
aplicaciones de produccin.
Datos operacionales.
Orientado a la aplicacin.
Actual.
Detallada
Cambia continuamente.
Data Warehouse
Datos del negocio para
informacin.
Orientado al sujeto.
Actual + histrico.
Detallada + resumida.
Estable.
Caractersticas
Orientado al tema
Integrado
Variante en el Tiempo
No voltil
Orientado al Tema
Una
primera
caracterstica del data
warehouse es que la
informacin se clasifica
en base a los aspectos
que son de inters para
la empresa.
Ejemplo:
Para
un
fabricante pueden ser
cliente, vendedor y
producto.
Proveedor
Proporciona
Orden de
Compra
Compuesta por
Pedido
Realiza
Cliente
Contiene
Producto
Recuperado
desde
Inventario
Integrado
La base de datos
contiene los datos de
todos los sistemas
operacionales de la
organizacin, y dichos
datos
deben
ser
consistentes.
Contiene
Convenciones de Nombres
Descripciones
Consistentes
Admin. Marketing
Operaciones
Datos
Ventas Cuentas
Variante en el Tiempo
Como la informacin en
el data warehouse es
solicitada en cualquier
momento (es decir, no
"ahora mismo"), los datos
encontrados
en
el
depsito se llaman
variante en el tiempo".
Entorno Operacional
Data Warehouse
Horizonte de 30 - 90 das
Id de cliente
nombre
direccin
telfono
ratio de crdito
Datos en fotos
Horizonte de 5 10 aos
Refleja la perspectiva desde un
momento en el tiempo
Id de cliente
fecha desde
fecha hasta
nombre
direccin
telfono
ratio de crdito
No voltil
La informacin no se
modifica ni se elimina,
una vez almacenado un
dato, ste se convierte
en informacin deslo
lectura, y se mantiene
para futuras consultas.
Beneficios
Los beneficios que un data warehouse puede aportar:
Flujo de datos de un DW
DEBILIDADES
FORTALEZAS
Falta de normalizacin
Alto costo
Reanalisis de modelo de datos,
objetos, transacciones,
almacenamiento,
Diseo complejo y multidisciplinar
Cambio dinmico de requerimientos
de informacin
Administracin y mantenimiento
Sistemas, aplicaciones y
almacenamiento especifico.
Integrador de sistemas.
Consistencia.
Accesibilidad.
Disponibilidad.
Menor costo de difusin y formacin.
Visin amplia de negocio.
Orientado a la toma de decisiones.
Modelizacin y simulacin.
Informacin consolidada.
Extraccin de informacin
conocimiento.
Ligeramente
Ligeramenteresumido
resumido
Detalle
Detalleactual
actual
Detalle
Detallehistrico
histricode
delos
losdatos
datos
El Modelo Dimensional es una tcnica dediseolgico que tiene comoobjetivopresentar los datos
dentro de un marco de trabajo estndar e intuitivo, para permitir su acceso con un alto rendimiento.
Cada Modelo Dimensional esta compuesta por una tabla con una llave combinada, llamada tabla de
hechos, y con un conjunto de tablas ms pequeas llamadas tablas de dimensiones. Los elementos de
estas tablas se pueden definir de la siguiente manera:
Hechos:es una coleccin de piezas de datos y datos de contexto. Cada hecho representa una parte del
negocio, una transaccin o un evento.
Bill Inmon ve la necesidad de transferir la informacin de los diferentes OLTP (Sistemas Transaccionales)
de las organizaciones a un lugar centralizado donde los datos puedan ser utilizados para el analisis (sera
el CIF o Corporate Information Factory). Insiste ademas en que ha de tener las siguientes
caractersticas:
Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s.
Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin,
y dichos datos deben ser consistentes.
No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte
en informacin de slo lectura, y se mantiene para futuras consultas.
Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados
para que los informes que se puedan generar reflejen esas variaciones.
La informacin ha de estar a los mximos niveles de detalle. Los Dw departamentales o datamarts son
tratados como subconjuntos de este Dw corporativo, que son construidos para cubrir las necesidades
individuales de analisis de cada departamento, y siempre a partir de este Dw Central (del que tambin
se pueden construir los ODS ( Operational Data Stores ) o similares).
Al tener este enfoque global, es mas dificil de desarrollar en un proyecto sencillo (pues
estamos intentando abordar el todo, a partir del cual luego iremos al detalle).
El Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa,
siendo una copia de los datos transaccionales estructurados de una forma especial para el
analisis, de acuerdo alModelo Dimensional (no normalizado), que incluye, como ya
vimos, las dimensiones de anlisis y sus atributos, su organizacin jerarquica, asi
como los diferentes hechos de negocio que se quieren analizar. Por un lado tenemos
tablas para las representar las dimensiones y por otro lado tablas para los hechos (las
facts tables). Los diferentes Data Marts estan conectados entre si por la llamadabus
structure, que contiene los elementos anteriormente citados a traves de las dimensiones
conformadas (que permiten que los usuarios puedan realizar querys conjuntos sobre los
diferentes data marts, pues este bus contiene los elementos en comn que los
comunican). Una dimensin conformada puede ser, por ejemplo, la dimensin cliente,
que incluye todos los atributos o elementos de analisis referentes a los clientes y que
puede ser compartida por diferentes data marts (ventas, pedidos, gestin de cobros, etc).
La metodologa para la construccin del Dw incluye las 4 fases que vimos en la entrada
anterior del blog, que son:Seleccin del proceso de negocio, definicin de la
granuralidad de la informacin, eleccin de las dimensiones de anlisis e
identificacin de los hechos o mtricas. Igualmente define el tratamiento de los
cambios en los datos a travs de lasDimensiones Lentamente Cambiantes (SCD).
ADMINISTRADOR DE CONSULTAS
Nos sirve para comprender como se
relacionan los componentes
involucrados en una estrategia de
Datawarehouse.
DATAWAREHOUSE
INTEGRADOR
EXTRACTOR / MONITOR
FUENTE
EXTRACTOR / MONITOR
FUENTE
ROLAP
Ventajas
Desventajas
Construccion cara
Estructura mas
dinamica
MOLAP
Ventajas
Desventajas
Mayor rendimiento en
el procesamiento
HOLAP
Comparacin
ROLAP
MOLAP
HOLAP
Mantiene los
volmenes de datos
mas grande en la base
de datos relacional y
las agregacionEs en
una base de datos
Molap separada
UTILIDADES DE OLAP
Involucran datos
Beneficios de OLAP
1. CUBE
2. ROLLUP
3. DRILLDOWN
4. GROUPING SETS
5. SLICE (Rebanada)
6. PIVOT
7. Dado
8. Ascenso
9. Descenso Operadores
Los cubos OLAP son vectores (subconjunto de datos organizados y condensados dentro de una estructura multidimensional) en los cuales se
dispone la informacin, y gracias a esta ordenada jerarqua es posible llevar
a cabo un anlisis rpido de los datos.
Una base de datos multidimensional puede contener varios cubos o
vectores que extendern las posibilidades del sistema OLAP con el cual se
trabaja.
Product
MS:
Regin
Territorio
Vendedor
Etc.
C u s to m e r
CUBO OLAP
Ejemplos de dimensiones :
Regin
Id Ciudad
Nombre
Direccin
Regin
Tiempo
Producto
Medida
Id Producto
Id Ciudad
Id Tiempo
unid vendidas
Id Tiempo
Fecha
ESQUEMA EN ESTRELLA
Id Producto
Descripcin
Marca
Grupo
Familia
Tipo
Precio
Para cada esquema estrella o esquema del copo de nieve en almacn de datos es posible
construir un esquema deconstelacin de hechos.
Este esquema es ms complejo que las otras arquitecturas debido al facto de que contiene
multiples tablas de hechos. Con este solucin las tablas de dimensiones pueden estar
compartidas entre mas que una tabla de los factos.
El esquema de constelacin de hechos tiene mucha flexibilidad y este facto es su grande virtud.
Sin embargo, el problema es que cuando el nmero de las tablas vinculadas aumenta, la
arquitectura puede llegar a ser muy compleja y difcil para mantener.
En una esquema de constelacin de factos las distintas tablas de los hechos estn asignadas a las
dimensiones relevantes para cada de los hechos. Esto puede ser util cuando los hechos estan
asignadas a un nivel de un dimensin y los otros hechos a otro nivel de detalle de un dimensin.
El modelo este puede ser una solucin adecuada cuando por ejemplo hay una tabla de hechos de
venta (con un nivel de detalle hasta un da y el numero de factura) y hay otra tabla de factos
con los Pronsticos (con los campos clave: mes, cdigo articulo, cdigo cliente).
Informacin
disponible
Condiciones
Extraccin
Servidores
Red
Limpieza de Datos
Bases de Datos
Transformacin
Middleware
Carga de Datos
IMPLEMENTACIN
En esta fase, el proyecto de data warehouse debe tener asignado el
liderazgo adecuado, as como, los recursos humanos, recursos
tecnolgicos y el presupuesto apropiado.
Sin embargo, deben evaluarse otros aspectos, como desarrollar un
proyecto en su totalidad o por fases y adems, diferenciar el tipo de
proyecto a realizar.
ESTRATEGIAS EN LA IMPLEMENTACION
Deben plantearse las siguientes:
1Definir el mejor diseo fsico para el modelo de datos. El diseo fsico debe
estar orientado a generar buen rendimiento en el procesamiento de consultas, a
diferencia del modelo lgico que est orientado al usuario y a la facilidad de
consulta.
ESTRATEGIAS EN LA IMPLEMENTACION
ESTRATEGIAS EN LA IMPLEMENTACION
ESTRATEGIAS EN LA IMPLEMENTACION
ESTRATEGIAS EN LA IMPLEMENTACION
ESTRATEGIAS EN LA IMPLEMENTACION
ESTRATEGIAS EN LA IMPLEMENTACION
Costos
Conclusiones
En resumen