Está en la página 1de 7

INTELIGENCIA DE NEGOCIOS

UNIDAD 2

TEMA 1: Modelo de Datos

Modelo ODS (Almacenamiento de Datos Operacionales)

Es una colección de datos volátil, actualizada y orientada al tema, utilizada para apoyar el proceso
táctico de toma de decisiones para la empresa. Es el punto central de la integración de datos para la
gestión empresarial, ofreciendo una visión común de los datos empresariales.

Características Generales:
 Contiene datos al más bajo nivel.
 Posee una historia limitada y actualizada en tiempo real o cerca al tiempo real.
 Consolida datos de múltiples fuentes.
 Da acceso a los usuarios para soportar la toma de decisiones.
 Conserva los recursos de los sistemas transaccionales.
 Extiende las capacidades de reporteo de la organización.
 Diseño para soportar actualizaciones (desnormalización moderada)

¿Qué debes tener en cuenta para modelar un ODS?


Sólo se debe centralizar en una sola base de datos todos los conceptos de negocio de la compañía,
por ejemplo, si en tu empresa existen tablas diferentes en sistemas diferentes para la información de
“Empleados”, “Clientes”, “Proveedores” y “Prospectos”, se sugeriría llevar toda esa información a una
sola tabla. Todo debe estar modelado en mínimo tercera forma normal.
DM (Modelo Dimensional o Estrella)
Es una técnica de diseño lógico que busca presentar los datos en un marco estándar e intuitivo que
permite un acceso de alto rendimiento. Cada modelo dimensional está compuesto por una tabla con
una clave compuesta, llamada tabla de hechos, y un conjunto de tablas más pequeñas denominadas
tablas de dimensiones. Cada tabla de dimensiones tiene una clave primaria de una sola pieza que
corresponde exactamente a uno de los componentes de la clave compuesta en la tabla de hechos.

Características Generales:
 Usa esquemas de estrella: Tablas de hechos + Tablas dimensionales
 Alto rendimiento en las consultas.
 Registra información como eventos que ocurren a través del tiempo.
 Orientado a recibir siempre inserciones de nuevos registros
 Originalmente diseñados para almacenar información resumida, con el paso del tiempo hoy
soportan modelos detallados.
El modelo estrella o dimensional facilita la adopción de la Inteligencia de Negocios en una
organización, iniciando con modelos pequeños asociados a áreas de análisis que empiezan a
compartir dimensiones con otros modelos permitiendo llegar poco a poco al concepto general de
Bodega de Datos.

Tablas Dimensionales
Su comportamiento es equivalente a los filtros que se aplicarán a la información, también se les
denomina ámbito de análisis, y operan sobre las métricas o medidas.
 Incluyen columnas altamente correlacionadas y descriptivas.
 Deben tener una clave primaria.
 Evite columnas con códigos o abreviaciones y el uso de valores nulos.
 Cree columnas útiles para establecer niveles de agregación.
 Minimice el número de columnas que cambien con el tiempo.
 En lo posible se deben tratar de compartir entre múltiples datamarts.
Algunas de sus clasificaciones son: Dimensiones convencionales (Tiempo, Producto, Cliente y
Geografía); Dimensiones degeneradas (Útiles para hacer reportes consolidados a nivel de evento) y
Dimensiones chatarra (útiles para capturar información sin aumentar el tamaño de la tabla de
hechos).

Tablas de Hechos
 Se componen de Medidas y Hechos.
 Un hecho es un concepto de interés primario para el proceso de toma de decisiones,
 Las medidas son los valores de datos que se analizan.
 Una medida es una columna cuantitativa, numérica, en la tabla de hechos.
 Las medidas representan los valores que son analizados.
 Se debe establecer la granularidad y el nivel de agregación previo.
 Usar valores numéricos aditivos como medidas.
 Se sugiere minimizar el tamaño de la tabla debe ser un objetivo fundamental, sin perder la
capacidad de análisis.
 Se deben evitar datos redundantes y columnas no requeridas para el análisis.
 Se deben emplear claves subrogadas y campos de longitud variable para optimizar el espacio
usado.

Copo de Nieve (Snow Flake)


Se emplea cuando es necesario “Normalizar” una dimensión del modelo de datos, esto sucede
normalmente en la evolución de los modelos, cuando se adicionan otras tablas de hechos que tienen
por dimensión un nivel de granularidad diferente al existente. Este modelamiento reduce el
desempeño de las consultas, pero en algunos casos es necesaria su implementación para satisfacer
necesidades particulares del negocio.
Método para Modelamiento Dimensional
1. Obtener la narrativa del negocio.
2. Identificar el evento o hecho que se desea medir (Ventas de la Compañía, Colocación de
Productos, Cumplimiento de Presupuesto…).
3. Identificar los “Filtros” de la información. (Ejemplo. Yo quiero ver mis ventas de productos por
segmento, sucursal…).
4. Identificar el nivel de detalle de la información. (Ejemplo. Me gustaría que los informes llegarán a
nivel de cada producto en la factura…). Esto les debe recordar la definición de “Granularidad”.
5. Iniciar a modelar, se puede emplear la técnica del análisis semántico, el cual también es de gran
valor para este tipo de modelos (Se sugiere primero en papel, esto obliga a analizar con mayor
detenimiento el caso de estudio).
6. Establecer niveles de agregación o resumen donde sean realmente valiosos. (Ejemplo. Adicionar
año, semestre, trimestre a la dimensión Tiempo…).

En la actualidad la aparición de tecnologías como HADOOP que han traído consigo el concepto de
Data Lake que pretenden llevar la data cruda sin transformaciones a dicha tecnología para su
explotación depara nuevos retos para los modelos de Inteligencia de Negocios.
TEMA 2: Estrategias ETL

Para que todo el proceso de almacenamiento de datos se realice, previamente debieron ejecutarse
actividades propias del proceso ETL, proceso que se encarga inicialmente de la extracción de los
datos.

En general los ETL´s se dividen en las siguientes tareas:


1. Extracción: Obtiene datos de las diferentes fuentes y los ubica en un área de Staging. Se trata de
evitar cualquier transformación en esta etapa para generar el menor impacto en las fuentes de
modelo de datos.
2. Transformación: Realiza sobre el área de staging todos los procesos de validación, limpieza,
transformación y estandarización de los datos antes de ser cargados al datamart. Algunos
arquitectos de BI direccionan a sus desarrolladores a realizar la etapa de transformación en el
mismo momento de la extracción.
3. Final: Se toman los datos validados, estandarizados y homologados, para ser cargados a la
bodega de datos o al datamart, dando lugar al insumo fundamental del proceso de explotación de
la información.
Al proceso de ETL también se le conoce como el proceso EIM (Administración de la Información
Corporativa).

Los modelos de extracción se dividen en Push, Pull e Híbrido.

Características Importantes.
Hay dos elementos no triviales en su diseño y proceso de carga, los cuales afectan directamente las
capacidades de la solución ETL:
 Granularidad: Nivel de detalle de la información en el modelo. A mayor nivel de detalle mayor
esfuerzo de la solución ETL, por lo tanto, el tamaño de la información se incrementa, haciendo
que el desarrollador de ETL´s deba buscar alternativas para procesar eficientemente la
información.
 Periodicidad: Tiempo o calendarización para cargue de los datos al modelo, es decir, data al corte
del día anterior, a la hora anterior, al mes pasado, o NRT (Cerca de tiempo real).

Existe otro concepto que se denomina Nivel de Agregación: Es el nivel con el cual reducimos los
datos por medio de agregaciones para llegar a información resumida para la Toma de Decisiones.
TEMA 3: Modelos OLAP y en Memoria

Para que todo el proceso de almacenamiento de datos se realice, previamente debieron ejecutarse
actividades propias del proceso ETL, proceso que se encarga inicialmente de la extracción de los
datos.

En general los ETL´s se dividen en las siguientes tareas:


Extracción: Obti

También podría gustarte