Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MAESTRÍA EN INGENIERÍA DE
SISTEMAS CON MENCIÓN EN
TECNOLOGÍAS DE LA
INFORMACIÓN
01
Inteligencia de Negocios
• Ejecutivos • I nterrogantes
ü Requieren información ü¿Se ha cumplido cuota en
para toma de Decisiones. el trimestre pasado?
ü Herramientas Complejas ü ¿Cómo puedo reducir los
Estadísticas. costos en un 20%?
ü Análisis de Información ü ¿Cuál es el optimo Canal
ü Aplicaciones de consulta para el producto?
por Internet
Entrega de Información
Sistemas
Cliente Portal
Fuente Reportes
Data Marts Empresariales
CRM
App. de 3ros
Reportes & Análisis
ETL
LOB
Empresarial
Data Dispositivos
Análisis de Datos
Warehouse Data Visualization
(OLAP, Data Project management
Mining)
02
DataWareHouse
●
Sobre estas mismas bases de datos de trabajo
ya se puede extraer conocimiento (visión
tradicional).
●
Uso de la base de datos transaccional para:
– Se mantiene el trabajo transaccional diario
de los sistemas de información originales
(OLTP, On-Line Transactional Processing).
– Se hace análisis de los datos en tiempo
real sobre la misma base de datos (OLAP,
On-Line Analytical Processing).
●
Problemas:
– Perturba el trabajo transaccional
diario de los sistemas de información
originales (“killer queries”). Se debe
hacer por la noche o en fines de
semana.
– La base de datos está diseñada para
el trabajo transaccional, no para el
análisis de los datos. Generalmente
no puede ser en tiempo real (era
AP pero no OLAP).
●
Se desea operar eficientemente con esos
datos...
– Costes de almacenamiento y conectividad
se han reducido en últimos años,
●
Parece razonable recoger los datos
(información histórica) en un sistema
separado y específico.
– Data warehouses (Almacenes o Bodegas
de Datos)
– Nace Data-Warehousing.
José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse
●
El almacén de datos es ahora el “sistema de
información central” en todo este proceso.
●
Un almacén de datos es una colección de
datos:
– orientada a un dominio
– integrada
– no volátil
– variante en el tiempo
●
Para ayudar en la toma de decisiones.
José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse
Almacenes de Datos (AD) (data warehouse)
características
PAÍS GAMA
CURSO ... ...
...
VENTA Información
REUNION
... Necesaria
... PRODUCTO
PROTOTIPO ...
...
Fuente de Datos 3
Fuente de Datos 1
Fuente de Datos 2
texto
HTML
Base de Datos Transaccional 1
Fuentes Externas
Fuentes Internas
Almacén de Datos
Tiempo Datos
Carga
INSERT READ
READ
UPDATE
DELETE
El periodo de tiempo cubierto por un AD
varía entre 2 y 10 años.
José Vásquez Pereyra jvasquez@ascenda.pe
Data Warehouse
Almacenes de Datos
problemas
Privacidad de
los datos
Infravaloración del
Incremento continuo
esfuerzo necesario
de los requisitos de
para su diseño y
los usuarios
creación
Infravaloración de los recursos
necesarios para la captura,
transformación carga y
almacenamiento de los datos
Base de Datos
Transaccional
Herramientas
EIS
Almacén de Interfaz y
ETL Operadores
Datos
Fuente de
Datos 1 Herramientas
texto OLAP
Fuente de
Datos 3
HTML
Copiasde
Seguridad
Herramientas de
Fuente de
Fuentes Minería de Datos
Datos
Externas
Componentes:
Marca
Descripción
Semana
Categoría
Departamento Mes
Nro_producto Trimestre
Día
Tipo Año
importe
unidades
Almacén
Ciudad
Tipo
Región
Descripción Semana
Categoría
Departamento Mes
Día Trimestre
Nro_producto
Tipo Año
importe
unidades
Almacén
Ciudad
Almacén
Tipo
Actividad que es objeto de
análisis con los indicadores Región
que interesa analizar
Subconjunto de un almacén de
Data mart datos, generalmente en forma de estrella o
copo de nieve.
Diseño conceptual
Diseño físico
Implementación
● Altas/Bajas/Modificaciones/Consultas
● Consultas rápidas y escuetas
● Poco volumen de información
● Transacciones rápidas
● Gran nivel de concurrencia
● Sólo Consulta
● Consultas pesadas y no predecibles
● Gran volumen de información histórica
● Operaciones lentas
Datawarehouse de análisis
● Procesos de consolidación
● Cambio de tecnología de base de datos
● Sumarizan datos disgregados
● Transforman datos
● Consolidan datos de aplicaciones no integradas
● Consistencia de consolidación
● Comprobar la validez de los datos en el entorno
operacional
● Datos que no se usan
● Datos que no se mantienen
● Inconsistencia entre distintas aplicaciones dentro del
sistema
● Datos no igualmente mantenidos
● Codificaciones diferentes
● BD Relacional
● BD Multidimensional
● BD Híbrida
● BD OLAP (BD Relacional con funcionalidad OLAP)
●
Los almacenes de datos no son
imprescindibles para hacer extracción de
conocimiento a partir de datos.
– se puede hacer minería de datos sobre un
simple fichero de datos.
●
Las ventajas de organizar un almacén de
datos para realizar minería de datos se
amortizan sobradamente a medio y largo plazo
cuando:
– tenemos grandes volúmenes de datos, o
– éstos aumentan con el tiempo, o
– provienen de fuentes heterogéneas o
– se van a combinar de maneras arbitrarias y
no predefinidas.
●
La tecnología OLAP generalmente se asocia
a los almacenes de datos, aunque:
– Podemos tener almacenes de datos sin OLAP y
viceversa.
●
Todos en la empresa son responsables, no el
consultor. Todos lo implementan y todos lo
aseguran.
03
Construcción de un
DataWareHouse
José Vásquez Pereyra jvasquez@ascenda.pe
Contenido Informe
1. DEFINICION DEL PROBLEMA 8.GESTION DE COSTO
2. OBJETIVO GENERAL 8.1 Costos de Implementación
3. OBJETIVOS ESPECIFICOS 8.2 Viabilidad de la Propuesta
4. JUSTIFICACION DEL PROYECTO 9. GESTION DE LA CALIDAD
5. MARCO TEORICO 9.1 Calidad en tecnología usada
5.1.1 Antecedentes 9.2 Criterios de calidad de datos
5.1.2 Empresa 9.4 Criterios de calidad en Modelo de datos
5.1.3 Procesos y Cadena de Valor 9.5 Requerimientos de información
5.1.4 Organigrama 9.6 Requerimientos de desempeño
5.1.5 Sistemas actuales 10.DISEÑO DE MODELO DE DATOS
5.1.6 Software y herramientas BI 10.1 Métricas y dimensiones usadas
5.1.7 Criterios para las adquisiciones de software y 10.2 Modelo de estrella copo de nieve
hardware 11. IMPLEMENTACIÓN
6 METODOLOGÍA PARA LA PROPUESTA DE LA SOLUCIÓN 11.1 Orígenes y destino
DE BI 11.2 Proceso de Transformación
7. GESTIÓN DEL ALCANCE 11.3 Validación de transformación
7.1 Conversiones o transformaciones 11.4 Dashboard de indicadores.
7.2 Entregables que se construirán 11.5 Alineamiento de indicadores
7.3 Herramientas a utilizar 12 CONCLUSIONES
7.4 Indicadores
7.4 Definición del WBS
Recogida y análisis de
requisitos
Diseño conceptual
Diseño físico
Implementación
Diseño conceptual
Discernimiento de Requisitos de
las fuentes usuario (consultas
Diseño lógico necesarias del de análisis
sistema de necesarias, nivel de
información de la agregación, …)
organización (OLTP) y
Diseño físico
externas
Implementación
Diseño
Conceptual
p.ej. Entidad-Relación
José Vásquez Pereyra jvasquez@ascenda.pe
Diseño de un Almacén de Datos
Recogida y análisis de
requisitos Diseño
Lógico
Diseño conceptual
Modelado
Diseño lógico multidimensional (MR)
Diseño físico
Esquemas
Implementación
estrella
Diseño conceptual
Definición del
esquema ROLAP o
Diseño lógico
MOLAP
Diseño físico
Diseño del
Implementación ETL
Recogida y análisis de
requisitos
Implementación
Diseño conceptual
Carga del AD
Diseño lógico (ETL)
Diseño físico
Preparación de las
vistas de usuario
Implementación (herramienta OLAP)
Diseño lógico
Implementación
●
En un esquema multidimensional se representa
una actividad que es objeto de análisis (hecho)
y las dimensiones que caracterizan la actividad
(dimensiones).
●
La información relevante sobre el hecho
(actividad) se representa por un conjunto de
indicadores (medidas o atributos de hecho).
●
La información descriptiva de cada dimensión
se representa por un conjunto de atributos
(atributos de dimensión).
José Vásquez Pereyra jvasquez@ascenda.pe
Modelamiento multidimensional
El modelado multidimensional se
●
puede aplicar utilizando distintos
modelos de datos (conceptuales o
lógicos).
●
La representación gráfica del
esquema multidimensional
dependerá del modelo de datos
utilizado (relacional, ER, UML, OO,
...).
● Actividad: Ventas.
– La actividad a modelar son las ventas de
productos en los almacenes de la cadena.
tabla de
hechos
tabla tabla
Dimensión 1 id_dim1 Dimensión 3
id_dim2
id_dim3
tabla ...
Dimensión 2 id_dim n tabla
Dimensión n
....
(hechos)
producto
día
almacén
ventas
producto
día
almacén
ventas
tabla de id_producto
la clave primaria(*) está
hechos id_fecha formada por los
identificadores de las
id_almacén dimensiones básicas.
.....
..... datos (medidas) sobre las
ventas diarias de un
...... producto en un almacén.
tabla Dimensión 1
id_dim1
....
Dimensión Tiempo:
atributos frecuentes:
Dimensión Tiempo:
- día del mes (1..31): permite hacer comparaciones sobre el mismo día en
meses distintos (ventas el 1º de mes).
- marca de fin de mes, marca de fin de semana : permite hacer
comparaciones sobre el último día del mes o días de fin de semana en
distintos meses.
- trimestre del año (1..4): permite hacer análisis sobre un trimestre concreto
en distintos años.
- marca de día festivo: permite hacer análisis sobre los días contiguos a un
día festivo.
- estación (primavera, verano..)
- evento especial: permite marcar días de eventos especiales (final de futbol,
elecciones...)
jerarquía natural:
día - mes - trimestre -año
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos
Dimensión Producto:
la dimensión Producto se define a partir del fichero maestro
de productos del sistema OLTP.
las actualizaciones del fichero maestro de productos deben
reflejarse en la dimensión Producto (¿cómo?).
la dimensión Producto debe contener el mayor número
posible de atributos descriptivos que permitan un análisis
flexible. Un número frecuente es de 50 atributos.
atributos frecuentes: identificador (código estándar),
descripción, tamaño del envase, marca, categoría,
departamento, tipo de envase, producto dietético, peso,
unidades de peso, unidades por envase, fórmula, ...
jerarquías: producto-categoría-departamento
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos
tipo_envase ...
dietético ...
... ...
tipo_envase importe
dietético unidades
... nro_clientes
Evitar normalizar:
el ahorro de espacio no es significativo
se multiplican los JOIN durante las consultas.
José Vásquez Pereyra jvasquez@ascenda.pe
Pasos en el diseño del almacén de datos:
MAESTRÍA EN INGENIERÍA DE
SISTEMAS CON MENCIÓN EN
TECNOLOGÍAS DE LA
INFORMACIÓN