Está en la página 1de 8

INTELIGENCIA DE NEGOCIO

ARTICULO : Empresa de Tecnologas de la Informacin y Servicios Telemticos Avanzados

INTRODUCCIN
En la actualidad, en cualquier organizacin se hace necesario la toma decisiones, en ocasiones muy
estratgicas para lograr un desarrollo satisfactorio. Generalmente estas decisiones, estn basadas en
enormes volmenes de informacin registrada en bases de datos operacionales o de otros tipos de
fuentes de datos. La recopilacin y anlisis de esta informacin, dado su carcter heterogneo y su
volumen se convierten usualmente en un problema para las organizaciones y es aqu donde
interviene la Inteligencia de Negocio (BI por sus siglas en ingls: Business Intelligence), mediante los
Sistemas de Apoyo a la Toma de Decisiones.
Hoy existen dismiles soluciones de BI, siendo la plataforma Open Source Pentaho Business
Intelligence una de las ms utilizadas actualmente. Esta plataforma de manera general cubre
operaciones de Anlisis de Datos y de Informes empresariales, haciendo esto entre otras cosas que
sea una solucin muy flexible para cubrir una amplia gama de necesidades empresariales, tanto
tpicas como las sofisticadas y especficas al negocio.
INTELIGENCIA DE NEGOCIO
Se define por Inteligencia de Negocio o Business Intelligence (BI) a la transformacin de los datos de
la compaa en conocimiento para obtener una ventaja competitiva. Desde un punto de vista ms
pragmtico, y asocindolo directamente a las tecnologas de la informacin, podemos definir Business
Intelligence como el conjunto de metodologas, aplicaciones y tecnologas que permiten reunir,
depurar y transformar datos de los sistemas transaccionales e informacin desestructurada (interna y
externa a la compaa) en informacin estructurada, para su explotacin directa (reporting, anlisis
OLAP...) o para su anlisis y conversin en conocimiento soporte a la toma de decisiones sobre el
negocio.
Este conjunto de herramientas y metodologas tienen en comn las siguientes caractersticas:
Accesibilidad a la informacin.
Los datos son la fuente principal de este concepto. Lo primero que debe garantizar este tipo de
herramientas y tcnicas ser el acceso de los usuarios a los datos con independencia de la
procedencia de estos.
Apoyo en la toma de decisiones.
Se busca ir ms all en la presentacin de la informacin, de manera que los usuarios tengan
acceso a herramientas de anlisis que les permitan seleccionar y manipular slo aquellos datos
que les interesen.
Orientacin al usuario final.
Se busca independencia entre los conocimientos tcnicos de los usuarios y su capacidad para
utilizar estas herramientas.
El trmino inteligencia empresarial se refiere al uso de los datos de una empresa para facilitar la toma
de decisiones a las personas que deciden, es decir, la comprensin del funcionamiento actual y la
anticipacin de acciones para dar una direccin bien informada a la empresa.
Las herramientas de inteligencia se basan en la utilizacin de un sistema de informacin de
inteligencia que se forma con distintos datos extrados de los datos de produccin, con informacin
relacionada con la empresa o sus mbitos y con datos econmicos.
Mediante las herramientas y tcnicas ETL (extraer, transformar y cargar) se extraen los datos de
distintas fuentes, se depuran y preparan (homogeneizacin de los datos) para cargarlos en un
almacn de datos.
Por ltimo, las herramientas de inteligencia analtica posibilitan el modelado de las representaciones
en base a consultas para crear tablas; esto se conoce como presentacin de informes.

1
De acuerdo a su nivel de complejidad se pueden clasificar las soluciones de Business Intelligence en:
Consultas e informes simples (Queries y reports).
Cubos OLAP (On-Line Analytic Processing).
Data Mining o minera de datos.
Sistemas de previsin empresarial; prediccin mediante estudio de series temporales (ejemplo:
Previsin de ventas).
La figura 1 muestra las etapas por la que transitan los datos que forman parte del proceso de
informacin en una organizacin, pero con los roles involucrados en este proceso de toma de
decisiones.

Fig.1 Etapas por las que transitan los datos en un proceso de toma de decisiones
Desde un punto de vista ms pragmtico, y asocindolo directamente con las tecnologas de la
informacin, podemos definir Business Intelligence como el conjunto de metodologas, aplicaciones y
tecnologas que permiten reunir, depurar y transformar datos de los sistemas transaccionales e
informacin desestructurada (interna y externa a la compaa) en informacin estructurada, para su
explotacin directa (reporting, anlisis OLTP / OLAP, alertas...) o para su anlisis y conversin en
conocimiento, dando as soporte a la toma de decisiones sobre el negocio.
SISTEMAS DE APOYO A LA TOMA DE DECISIONES
Los Sistemas de Apoyo a la Toma de Decisiones, o en ingls: Decision Support Systems (DSS) como
sistemas informticos, consisten habitualmente en varios componentes: bases de datos fuentes,
sistemas de Extraccin-Transformacin-Carga de datos, Data Warehouse (DW) o Almacenes de
Datos, herramientas de Procesamiento Analtico en Lnea (OLAP), bases de datos multidimensionales
y otras herramientas de anlisis de informacin.
El apoyo para la toma de decisiones, no es parte de la tecnologa de base datos por si misma, sino
que resulta de la combinacin de varias aplicaciones de esta tcnica (Figura 2). Las aplicaciones
reciben los nombres de Data Warehouse, Datamart o Mercado de datos, OLAP (Procesamiento
Anlitico en Lnea), Minera de Datos, entre otros.

2
Fig.2 Apoyo para la toma de decisiones

DATA WAREHOUSE
Un Data Warehouse (DW) o Almacn de datos es una base de datos corporativa que se caracteriza
por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo
su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un
datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista
tcnico, para implantar una solucin completa y fiable de Business Intelligence.
Los "almacenes de datos" son una tecnologa relativamente reciente, encaminada a proporcionar
metodologas para recopilar e integrar los datos histricos de una organizacin, cuyo fin es el anlisis,
la obtencin de resmenes e informes complejos y la extraccin de conocimiento. Esta tecnologa
est diseada especialmente para organizar grandes volmenes de datos de procedencia
generalmente estructurada (por ejemplo bases de datos relacionales).
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena
la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales, etc). Este tipo de
persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento
jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).
La siguiente tabla describe las diferencias que se deben tener en cuenta para estructurar y disear
almacenes de datos en comparacin con las bases de datos transaccionales.

3
Parmetros Base de Datos Transaccional Almacn de Datos

Operaciones diarias. Soporte a Recuperacin de informacin, informes,


Propsito
las aplicaciones. anlisis y minera de datos.

Datos de funcionamiento de la Datos tiles para el anlisis, la


Tipo de datos
organizacin. sumarizacin, etc.
Datos de funcionamiento,
Caractersticas de Datos histricos, datos internos y
cambiantes, internos,
los datos externos, datos descriptivos.
incompletos.
Datos en estrella, en copo de nieve,
Modelo de datos Datos normalizados. parcialmente desnormalizados,
multidimensionales.
Cientos/miles: aplicaciones,
Nmero y tipo de Decenas: directores, ejecutivos,
operarios, administrador de la
usuarios analistas.
base de datos.
SQL y herramientas propias (slice &
Acceso SQL. Lectura y escritura.
dice, drill, roll, pivot). Lectura.

Tabla 1. Diferencias entre las bases de datos transaccionales y los almacenes de datos.

Principales aportes de un data warehouse:


Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose
en informacin integrada y global del negocio.
Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones
ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha
informacin.
Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras
en diversos escenarios.
Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con
el cliente.
Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin,
estadstica o de generacin de informes con retornos de la inversin espectaculares.
Existen dos paradigmas en el campo del Data Warehousing, el paradigma de Bill Inmon y el
paradigma de Ralph Kimball, ambos conocidos como los padres del Data Warehouse.
El paradigma de Inmon:
La tecnologa de data warehouse, forma parte de los sistemas de inteligencia de negocio. Una
empresa debe tener un Data Warehouse y varios Data Marts que se nutran de la informacin del Data
Warehouse. En un Data Warehouse la informacin puede estar almacenada en 3 ra Forma Normal.
Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser:
Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura
consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales
deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle
para adecuarse a las distintas necesidades de los usuarios.
Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio
se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su
acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre
clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las
peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la
informacin reside en el mismo lugar.

4
Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los
sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el
momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre
otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los
distintos valores que toma una variable en el tiempo para permitir comparaciones.
No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no
modificado. La informacin es por tanto permanente, significando la actualizacin del
datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables
contenidas en l sin ningn tipo de accin sobre lo que ya exista.
El paradigma de Kimball:
Un Data Warehouse es la unin de todos los Datamarts de las diferentes reas de una empresa. La
informacin se almacena siguiendo un modelo dimensional.
Ambos paradigmas son vlidos pero se considera al de Ralph Kimball como el ms ajustado a la
evolucin de esta tecnologa dado que la mayora de las organizaciones por diversos motivos, casi
siempre tiempo y costo de produccin, comienzan por la implementacin de varios Data Marts que
posteriormente se integran en un Data Warehouse, y el modelo dimensional se ha convertido en un
patrn de diseo muy difundido en esta tecnologa.
Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos.
Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su
fiabilidad, forma de clculo... etc.
Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde
los sistemas operacionales a los sistemas informacionales.
Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son:
Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de
negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas,
informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.
Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin
de la informacin histrica, administracin del datawarehouse, elaboracin de programas de
extraccin de la informacin, especificacin de las interfaces para la realimentacin a los
sistemas operacionales de los resultados obtenidos... etc.
Para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el
proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir
de los sistemas operacionales de una compaa:
Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas.
Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin.
Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.
El desarrollo de los sistemas de informacin sustentados sobre bases de datos, ha trado como
consecuencia la proliferacin de herramientas de consultas cada vez ms complejas. Por tanto, es
necesario distinguir los diferentes tipos de procesamiento existentes: el procesamiento transaccional y
el procesamiento analtico.
PROCESAMIENTO ANALTICO
Los datawarehouse soportan el procesamiento analtico en lnea, conocido como OLAP (On-Line
Analytical Processsing), El procesamiento OLAP rene un gran nmero de operaciones (solamente
de consulta), en las se cruzan gran cantidad de informacin con el objetivo final de crear informes y
resmenes que sean tiles en la toma de decisiones. Los algoritmos que utiliza estn implementados
para optimizar los tiempos de respuesta a las consultas, logrando eficiencia y almacenando los datos
en estructuras especializadas.
OLAP fue creado bajo las siguientes ideas:
Lograr rapidez de respuesta: entregar la informacin a los usuarios finales en el menor tiempo
posible, de 0 a 5 segundos.

5
Posibilitar el anlisis: Ofrecer anlisis numrico y estadstico de los datos, con valores agregados.
Esto permite analizar tendencias, causas, detectar variables de inters y descender hasta los
niveles ms bajos de la informacin, lo que se complementa con la ayuda de los motores de
reportes y grficos que se incluyen. Tambin incluye vistas personalizadas.
Compartir Datos: Incluye los mecanismos de seguridad necesarios para compartir la informacin
entre los usuarios que se definan.
Basado en un Estructura Multidimensional: Haciendo sencilla la seleccin y navegacin de los
datos.
Recuperacin de Informacin: Acceso a los datos y recuperacin de informacin valiosa (solo
lectura) para las diferentes aplicaciones clientes.
Existen tres tipos de OLAP:
Sistemas M-OLAP
En un sistema M-OLAP los datos se encuentran almacenados en archivos con estructura
multidimensional, los cuales reservan espacio para todas las combinaciones de todos los posibles
valores de todas las dimensiones de cada una de las variables, incluyendo los valores de dimensin
que representan acumulados. Es decir, un sistema M-OLAP contiene precalculados (almacenados)
los resultados de todas las posibles consultas a la base de dato]. M-OLAP consigue consultas muy
rpidas a costa de mayores necesidades de almacenamiento, y retardos en las modificaciones (que
no deberan producirse salvo en casos excepcionales), y largos procesos batch de carga y clculo de
acumulados.
MOLAP es la forma clsica de OLAP. Se construye el almacn de datos directamente sobre
estructuras matriciales multidimensionales. Se almacenan las agregaciones y una copia de los datos
bases. Una vez realizada la carga, el motor de MOLAP se encarga de brindar la informacin detallada
y agregada. Solo se requiere la participacin del servidor de bases de datos cuando se vuelvan a
procesar los datos.
El sistema M-OLAP utiliza una arquitectura de dos niveles: La bases de datos multidimensionales y el
motor analtico.
Sistemas R-OLAP (Relational OLAP)
Se construye el almacn de datos directamente sobre un gestor de base de datos relacional, todas
las tablas (hechos y dimensiones) son almacenadas en tablas relacionales.
En R-OLAP, al contener solo las combinaciones de valores de dimensin que representan detalle, es
decir, al no haber redundancia, el archivo de base de datos es pequeo. Los procesos batch de carga
son rpidos (ya que no se requiere agregacin), y sin embargo, las consultas pueden ser muy lentas,
por lo que se aplica la solucin de tener al menos algunas consultas precalculadas.
El sistema R-OLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los
requerimientos de almacenamiento de datos, y el motor R-OLAP proporciona la funcionalidad
analtica. El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y
obtencin del dato. El nivel de aplicacin es el motor que ejecuta las consultas multidimensionales de
los usuarios. El motor R-OLAP se integra con niveles de presentacin, a travs de los cuales los
usuarios realizan los anlisis OLAP.
HOLAP (Hybrid OLAP): usa tablas relacionales para almacenar la informacin base y estructuras
multidimensionales para las agregaciones, o sea, es una combinacin de los dos anteriores.
Cada uno de los tipos de OLAP tienen beneficios en dependencia del problema en que se aplique.
MOLAP requiere de menor espacio de almacenamiento y es ms rpido calculando las agregaciones
y devolviendo las respuestas, aunque se recomienda emplear para pequeos volmenes de datos.
ROLAP es considerado el ms escalable, pero es ms lento en el pre procesamiento y rendimiento de
las consultas. HOLAP es rpido en el pre procesamiento y rendimiento de las consultas, aunque ms
lento que MOLAP y es escalable. HOLAP es ideal para grandes fuentes de datos.

6
R-OLAP vs. M-OLAP
M-OLAP R-OLAP
Consulta rpidas debido a la Las herramientas R-OLAP tienen menor
optimizacin del rendimiento de rendimiento que las herramientas M-
almacenamiento, la indexacin OLAP.
multidimensional y la memoria cach.
Con una gran variedad disponible de
La etapa de procesamiento (carga de herramientas de carga de datos, y la
datos) puede ser bastante larga, sobre posibilidad de ajustar el cdigo
todo para grandes volmenes de datos. ETL(Extract, Transform, Load) a un
Normalmente, esto se puede evitar con modelo de datos particular, los tiempos
un procesamiento incremental, es decir, de carga son generalmente mucho
solo el procesamiento de los datos que menores que con las cargas M-OLAP
han cambiado (por lo general, los nuevos automatizadas.
datos) en lugar de volver a procesar de
todo el conjunto de datos. R-OLAP se considera ms escalable
para manejar grandes volmenes de
Las herramientas M-OLAP datos, especialmente modelos con
tradicionalmente tienen dificultades para dimensiones de gran cardinalidad.
consultar con modelos con dimensiones
muy altas (del orden de millones de La carga de tablas agregadas debe ser
miembros). gestionado por cdigo personalizado
ETL. Las herramientas R-OLAP no
Eficaz extraccin de datos lograda ayudan con esta tarea. Esto significa
gracias a la pre-estructuracin de los que se necesita ms tiempo de
datos agregados. desarrollo de cdigo.
El modelo de almacenamiento en R-OLAP se basa en una base de datos
vectores/matrices proporciona una de propsito general para consultar y
indexacin natural. cachear, y por lo tanto hay varias
tcnicas especiales empleadas por las
herramientas M-OLAP que no estn
disponibles (tales como el indexado
jerrquico especial). Sin embargo, las
herramientas modernas R-OLAP toman
ventaja de las ltimas mejoras en el
lenguaje SQL tales como los
operadores CUBE y ROLLUP, Vistas de
Cubo DB2, as como tambin otras
extensiones SQL OLAP. Estas mejoras
SQL pueden mitigar los beneficios de
las herramientas M-OLAP.

MODELO MULTIDIMENSIONAL
El modelo multidimensional dentro del entorno de las bases de datos, es una disciplina de diseo que
se sustenta en el modelo entidad relacin y en las realidades de la ingeniera de texto y datos
numricos. [9]
Dadas las caractersticas de los almacenes de datos es ideal la utilizacin en su diseo de un Modelo
Multidimensional (MMD). Este tipo de diseo tiene como ventajas sobre el Modelo Entidad-Relacin
(MER), que es muy flexible, est desnormalizado y orientado a los intereses de un usuario final,
aunque esto no significa que existan inconsistencias en los datos. Mediante la utilizacin de un MMD
se disminuye la cantidad de tablas y relaciones entre ellas, lo que agiliza el acceso a los datos. [18]
El modelo multidimensional se representa a travs de la definicin de las tablas de hechos y
dimensiones.
Tablas de Hechos: Representan la ocurrencia de un determinado proceso dentro de la organizacin
y no tienen relacin entre s. Generalmente, almacenan medidas numricas, las que representan

7
valores de las dimensiones, aunque en ocasiones estas no estn presentes y se les denominan
tablas de hechos sin hechos. La llave de la tabla de hecho, es una llave compuesta, debido a que se
forma de la composicin de las llaves primarias de las tablas dimensionales a las que est unida.
Existen tablas de hechos que no contienen medidas, a estas tablas se les denomina tablas de hechos
sin hechos, es decir, la relacin entre las dimensiones que definen la llave de esta tabla de hecho
implica por si sola la ocurrencia de un evento.
Tablas de Dimensiones: Contienen, generalmente, una llave simple y atributos que la describen. En
dependencia del esquema de diseo que se asuma pueden contener llaves forneas de otras tablas
de dimensin. Existe una dimensin fundamental en todo DW, la dimensin tiempo. Esto ocurre
porque todo registro que se incluya constituye la ocurrencia de un fenmeno en un instante de tiempo
definido. Dicha dimensin es la que establece uno de los objetivos fundamentales de la construccin
de un DW, la conservacin de un histrico. Los atributos dimensionales son fundamentalmente
textos descriptivos, estos juegan un papel determinante porque son la fuente de gran parte de todas
las necesidades que deben cubrirse, adems, sirven de restricciones en la mayora de las consultas
que realizan los usuarios. Esto significa, que la calidad del modelo multidimensional, depender en
gran parte de cuan descriptivos y manejables, sean los atributos dimensionales escogidos. La
dimensin ms importante de un Data Warehouse, es la dimensin tiempo, ya que esta ser la
encargada de decir en que momento ocurri este hecho.
Existen varios esquemas para el modelado de los datos en un Data Warehouse siendo los ms
utilizados:
Esquema de Estrella: La tabla de hechos est en el centro de la estrella y estn relacionadas con
ella de forma radial todas las tablas de dimensiones, las cuales no se relacionan entre s. No existen
caminos alternativos en las dimensiones.
Esquema de Copo de Nieve: Es parecido al de estrella pero existen jerarquas en las dimensiones.
Las tablas de dimensiones pueden estar relacionadas, o sea, existen caminos alternativos en ellas.
La ventaja fundamental que proporciona este esquema, es que se ocupa menor espacio de
almacenamiento, sin embargo, aumenta el nmero de tablas con las que el usuario debe interactuar e
incrementa la complejidad de las consultas a realizar. El esquema estrella proporciona mayor
compresin, navegabilidad, es ms cercano a como el usuario final refleja la visin de una consulta
empresarial. Se recomienda que de ser posible se emplee un esquema estrella antes que un copo de
nieve, justificndose la utilizacin de mayor espacio de almacenamiento, en la disminucin del tiempo
de obtencin de la informacin que se necesita.
Preguntas para el Grupo:
1. Explique que es inteligencia de Negocio.
2. Que entiende como Sistema de Apoyo a la Toma de decisiones.
3. Explique que es Data Warehouse (DW).
4. Cual cree Uds. Que son los principales aportes de un Data Warehouse (DW) para las
Organizaciones.
5. Segn Bill Inmon cuales son las caractersticas de un Data Warehouse (DW).
6. Explique el paradigma de Kimball.
7. Explique el proceso de construccin de un Data Warehouse (DW).
8. Explique el Procesamiento analtico y sus tipos.
9. Explique el Modelo multidimensional

También podría gustarte