Está en la página 1de 20

PAQUETE DE DATOS – ESTRATEGIAS / OPTIMIZACION / VALIDACIONES

Mg. Ing. Gómez Avila José


VIDEO MOTIVACIONAL
NECESIDADES DE RECURSOS

• Para determinar las necesidades de recurso de hardware que tiene un Data warehouse se debe analizar el tamaño
de la base de datos que va a construir.

• En particular, el crecimiento de un modelo dimensional se puede complicar debido a las necesidades de


almacenamiento.

• Con bases de datos grandes se necesita mantener una performance aceptable, a continuación se analiza las
necesidades de recursos del modelo estrella.
• En la mayoría de los casos, las dimensiones
son tablas que contienen un número
relativamente pequeño de registros, hay
dimensiones relativamente grandes como la
dimensión cliente en el caso que se esta
revisando.
• La Fact-table o tabla de hechos tiene muchos registros, en el peor caso tendría tanto registros como
combinaciones posibles de dimensiones haya, es decir en el caso de la figura tendría cantidad de productos x
cantidad de clientes x el número de registros de la tabla tiempo.

La Fact-table sea una tabla que puede crecer mucho por lo que hay que contemplar el espacio en disco
suficiente para almacenarla.
RECURSOS DE HARDWARE

• Para aprovechar los recursos de hardware se requiere revisar diferentes arquitecturas de los servidor para
utilizar en el DataWarehouse.
ARQUITECTURA DE HARDWARE - SMP
ARQUITECTURA DE HARDWARE - CLUSTER
ARQUITECTURA DE HARDWARE - MPP
COMPARATIVO ENTRE SMP VS MPP

El gráfico muestra una comparación entre la


arquitectura MPP y la SMP.

El comparativo se basa en un computador de menos de


32 procesadores que desempeña mejor que cuando es
de una arquitectura SMP. Y para mayores a 32
procesadores la arquitectura MPP tiene un mejor
rendimiento.
EL MANEJADOR DE BASE DE DATOS

• Los Manejadores de Bases de Datos deben utilizar los


recursos de hardware al máximo.

• Deben hacer dos tipos de operaciones:


• Consultas complejas (Volúmenes grandes).
• Cálculos complejos (batch) y Carga (lectura y
actualización)

• El motor de base de datos se debe afinar con la


finalidad de obtener el mejor rendimiento tanto en los
procesos de carga del Data Warehouse así como en
los procesos de explotación de la información.
EL MANEJADOR DE BASE DE DATOS: PARALELISMO EN DISCO

• Al acceso al disco es el principal problema de un


Manejador de Base de Datos.

• El paralelismo en disco, se puede implementar


incluso en máquinas que tengan un solo
procesador, incrementando el número de
controladores de disco.
EL MANEJADOR DE BASE DE DATOS: PARTICIONAMIENTO O FRAGMENTACION

• Proceso de dividir una tabla en unidades más


pequeñas.

• Ventajas.
• Mejora en el tiempo de respuesta de los
querys.
• El proceso de backup y de recuperación es
incremental y se acelera.
• Disminuye el tiempo requerido para la carga
en tablas indexadas.
EL MANEJADOR DE BASE DE DATOS: PARTICIONAMIENTO O FRAGMENTACION

• Desventajas
• El particionamiento no es gratuito.
• Se requiere querys más “inteligentes” para
determinar en que partición donde esta la
data consultada.
• Se requiere metadata adicional para saber
en que partición esta la data
CONSIDERACIONES ADICIONALES

• Las principales tipos de llaves en una base de


datos operacional son las siguientes:
• Llave primaria, identificador único de un
registro
• Llave foránea, garantiza la integridad
referencial
• Llave compuesta, constituida por varias
columnas.
• Llave concatenada, una sola columna con
valores concatenados.
EN EL MODELAMIENTO DIMENSIONAL

• En el modelo estrella se deben utilizar llaves


artificiales, pues mejorar la performance de los
querys, facilitan el manejo del cambio y permiten
reutilizar las llaves de los sistemas
operacionales.

• Así mismo permiten reducir el espacio en disco


utilizado por la tabla de hechos, y es obligatorio
utilizarlas cuando se va a integrar fuentes
distintas.
CONSIDERACIONES ADICIONALES
VALIDACIONES DE DATOS DE CAMPOS

También podría gustarte