Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A. Resumen
B. Introducción
C. Descripción
1. ANÁLISIS DE REQUERIMIENTOS
1.1). Preguntas del Negocio
1.2) Indicadores y Perspectivas
1.3) Modelo Conceptual
4) INTEGRACIÓN DE DATOS
4.1) Carga Inicial
4.2) Actualización
Como ya se planteó en el apartado anterior, la metodología Hefesto, se
inicia con la recolección de las necesidades de información de los
usuarios y de esta manera se obtienen las preguntas claves del negocio.
Luego, se deben identificar los Indicadores resultantes de los
interrogantes realizados y sus respectivas Perspectivas de análisis, a
través de las cuales se construirá el modelo conceptual de datos del
DW.
Después, se analizarán los Data Sources en pos de determinar cómo se
construirán los Indicadores, señalando el mapeo correspondiente y
seleccionando los campos de estudio de cada Perspectiva.
D. CARACTERÍSTICAS
PASOS DE LA METOLOGÍA
1. Análisis de Requerimientos
Se analizarán los Data Sources para determinar cómo serán calculados los
Indicadores y para establecer el mapeo entre el Modelo Conceptual creado
en el paso anterior y los datos de la empresa.
4. Integración de Datos
DISEÑO DE LA METODOLOGÍA
1. Planificación
2. Performance
En el momento de diseñar los procesos de Integración de Datos, el
enfoque NO debe estar centrado en solucionar el problema en el
menor tiempo posible.
Los procesos de Integración de Datos insumen gran esfuerzo de
construcción ya que deben ser, eficaces y eficientes desde el inicio;
esto se debe a que con el transcurrir del tiempo se manejará un gran
volumen de datos, ergo, el espacio en disco se tornará un recurso
fundamental y los tiempos de procesamiento y acceso a los datos
serán esenciales, y más aún si el DW es tomado como un sistema de
misión crítica.
Resulta fundamental, entonces, la correcta selección y
configuración del SGBD que dará soporte al DW, y la elección de
las mejores estrategias para modelar las estructuras de datos.
En cuanto a la configuración del SGBD, los puntos más importantes
a tener en cuenta son:
Configuración y asignación de Buffers Caché
Indexación
Algoritmos de acceso
Particionamiento
Distribución
Para mejorar la performance del DW, se deben considerar las
siguientes acciones:
Seleccionar cuidadosamente los tipos de datos, por ejemplo, para
valores enteros pequeños conviene utilizar tinyint o smallint en lugar
de int, con el fin de NO desperdiciar espacio. Esto toma vital
importancia cuando se aplica en las claves primarias, debido a que
formarán parte de la tabla de Hechos que es la que conforma el
volumen del DW, además de que toda clave primaria tiene asociado
un índice que la implementa.
Utilizar Claves Subrogadas.
Utilizar técnicas de indexación.
Utilizar técnicas de particionamiento.
Crear diferentes niveles de agregación.
Utilizar técnicas de administración de datos en memoria
Caché.
Utilizar distribución de datos.
Utilizar técnicas de multiprocesamiento distribuido, con el
objetivo de agilizar la obtención de resultados, a través de la
realización de procesos en forma concurrente.
3. Elección de Columnas
5. Claves Subrogadas
Lo anterior, es solo una de las razones por las cuales utilizar claves
subrogadas en el DW, pero se pueden definir una serie de ventajas
más:
Ocupan menos espacio y son más performantes que las
tradicionales claves naturales, y más aún si estas últimas son
de tipo texto.
Son de tipo numérico entero (autonumérico o secuencial).
Permiten que la construcción y mantenimiento de índices sea
una tarea sencilla.
El Data Warehouse NO dependerá de la codificación interna
de los Data Sources.
Si se modifica el valor de una clave en el Data Source, el DW
lo tomará como un nuevo elemento, permitiendo de esta
manera, almacenar diferentes versiones del mismo dato.
Permiten la correcta aplicación de técnicas SCD (Dimensiones
lentamente cambiantes).
Esta clave subrogada debe ser el único campo que sea clave
principal de cada tabla de Dimensión.
7. Dimensiones Degeneradas
8. Impactos