Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNIDAD 2
Es una colección de datos volátil, actualizada y orientada al tema, utilizada para apoyar el proceso
táctico de toma de decisiones para la empresa. Es el punto central de la integración de datos para la
gestión empresarial, ofreciendo una visión común de los datos empresariales.
Características Generales:
Contiene datos al más bajo nivel.
Posee una historia limitada y actualizada en tiempo real o cerca al tiempo real.
Consolida datos de múltiples fuentes.
Da acceso a los usuarios para soportar la toma de decisiones.
Conserva los recursos de los sistemas transaccionales.
Extiende las capacidades de reporteo de la organización.
Diseño para soportar actualizaciones (desnormalización moderada)
Características Generales:
Usa esquemas de estrella: Tablas de hechos + Tablas dimensionales
Alto rendimiento en las consultas.
Registra información como eventos que ocurren a través del tiempo.
Orientado a recibir siempre inserciones de nuevos registros
Originalmente diseñados para almacenar información resumida, con el paso del tiempo hoy
soportan modelos detallados.
El modelo estrella o dimensional facilita la adopción de la Inteligencia de Negocios en una
organización, iniciando con modelos pequeños asociados a áreas de análisis que empiezan a
compartir dimensiones con otros modelos permitiendo llegar poco a poco al concepto general de
Bodega de Datos.
Tablas Dimensionales
Su comportamiento es equivalente a los filtros que se aplicarán a la información, también se les
denomina ámbito de análisis, y operan sobre las métricas o medidas.
Incluyen columnas altamente correlacionadas y descriptivas.
Deben tener una clave primaria.
Evite columnas con códigos o abreviaciones y el uso de valores nulos.
Cree columnas útiles para establecer niveles de agregación.
Minimice el número de columnas que cambien con el tiempo.
En lo posible se deben tratar de compartir entre múltiples datamarts.
Algunas de sus clasificaciones son: Dimensiones convencionales (Tiempo, Producto, Cliente y
Geografía); Dimensiones degeneradas (Útiles para hacer reportes consolidados a nivel de evento) y
Dimensiones chatarra (útiles para capturar información sin aumentar el tamaño de la tabla de
hechos).
Tablas de Hechos
Se componen de Medidas y Hechos.
Un hecho es un concepto de interés primario para el proceso de toma de decisiones,
Las medidas son los valores de datos que se analizan.
Una medida es una columna cuantitativa, numérica, en la tabla de hechos.
Las medidas representan los valores que son analizados.
Se debe establecer la granularidad y el nivel de agregación previo.
Usar valores numéricos aditivos como medidas.
Se sugiere minimizar el tamaño de la tabla debe ser un objetivo fundamental, sin perder la
capacidad de análisis.
Se deben evitar datos redundantes y columnas no requeridas para el análisis.
Se deben emplear claves subrogadas y campos de longitud variable para optimizar el espacio
usado.
En la actualidad la aparición de tecnologías como HADOOP que han traído consigo el concepto de
Data Lake que pretenden llevar la data cruda sin transformaciones a dicha tecnología para su
explotación depara nuevos retos para los modelos de Inteligencia de Negocios.
TEMA 2: Estrategias ETL
Para que todo el proceso de almacenamiento de datos se realice, previamente debieron ejecutarse
actividades propias del proceso ETL, proceso que se encarga inicialmente de la extracción de los
datos.
Características Importantes.
Hay dos elementos no triviales en su diseño y proceso de carga, los cuales afectan directamente las
capacidades de la solución ETL:
Granularidad: Nivel de detalle de la información en el modelo. A mayor nivel de detalle mayor
esfuerzo de la solución ETL, por lo tanto, el tamaño de la información se incrementa, haciendo
que el desarrollador de ETL´s deba buscar alternativas para procesar eficientemente la
información.
Periodicidad: Tiempo o calendarización para cargue de los datos al modelo, es decir, data al corte
del día anterior, a la hora anterior, al mes pasado, o NRT (Cerca de tiempo real).
Existe otro concepto que se denomina Nivel de Agregación: Es el nivel con el cual reducimos los
datos por medio de agregaciones para llegar a información resumida para la Toma de Decisiones.
TEMA 3: Modelos OLAP y en Memoria
Para que todo el proceso de almacenamiento de datos se realice, previamente debieron ejecutarse
actividades propias del proceso ETL, proceso que se encarga inicialmente de la extracción de los
datos.