Está en la página 1de 4

Ingeniera Civil Industrial, Tecnologa& Sistemas

Universidad de La Serena, Chile

DATA WAREHOUSE & ON-LINE ANALITYCAL PROCESSING (OLAP)


Diego Pizarro Pacha*,1, Allison Gmez Arabia1, Luis Echegaray, Edgar Espinoza
(1) Estudiantes, Ingeniera Civil Industrial, Universidad de La Serena, Chile
Informacin Artculo
Publicacin
Septiembre de 2015
Palabras Clave
Almacn de datos
OLAP
OLTP
Minera de datos
Autor de Correspondencia *
Benavente N 980
La Serena, Chile
1720170
Allison_katte@hotmail.com

Resumen

El almacenamiento de datos y de procesamiento analtico en lnea (OLAP) son


elementos esenciales de apoyo a las tomas de decisiones, tema que se ha convertido
cada vez ms en un foco muy importante en las industrias que gestionan bases de
datos. Es por esto que en el presente trabajo se dar a conocer que es un almacn de
datos, considerada el mejor tipo de base de datos para la toma de decisiones y cul es
su proceso de construccin que explica como el almacn de datos se realiza en base a
otras fuentes de datos internas o externas a la empresa. Adems de definir en qu
consiste la herramienta de procesamiento analtico en lnea (OLAP), como se clasifican
y cules son sus principales operaciones de anlisis de datos. Adems de mencionar
cul es su principal problema respecto a la privacidad de datos de los proveedores, el
llamado problema de inferencia. Tambin se darn a conocer otras herramientas de
anlisis que son: Procesamiento de transacciones en lnea (OLTP) y minera de datos.
Finalizando con una comparacin entre OLAP y su predecesor OLTP. Para finalizar se
darn algunos ejemplos de donde podran ser aplicadas estas herramientas de anlisis.

1. Introduccin
En este trabajo nos enfocaremos a saber sobre los sistemas
de Soporte de Decisiones (DSS) que es cualquier
herramienta que se utiliza para mejorar el proceso de
toma de decisiones. (Saagari et al., 2013). Y como se
menciona en el trabajo de (Vijay et Al., 2014) este
concepto fue desarrollado a inicios de los 70 por Morton,
Sprage y Whinston y marc el inicio de los sistemas de
informacin especficamente para soporte de decisiones
complejas. Luego en los 90 las nuevas tecnologas, tales
como almacenamiento de datos, OLAP y minera de
datos consecutivamente surgieron para el desarrollo de
DSS; en el que el concepto de almacenamiento de datos
surgi por primera vez.
Hoy en da, casi todas las empresas utilizan una base de
datos para almacenar sus datos vitales y la informacin,
tanto como para llevar un registro, as como poder
enfrentarse a sus competencias. Es por esto que en la
actualidad se llevan a cabo anlisis de datos de las bases
de datos de las empresas, para derivar estrategias
empresariales ms eficaces y descubrir mejores maneras
en la realizacin de negocios, basada en un punto en el
tiempo histrico (Bassil, 2012). Para realizar esto, la base
es que: Los datos que vienen de unos pocos sistemas
deberan ser juntados y almacenados en un marco de
modo que las referencias pasadas sean accesibles de
antemano. Estos datos deberan ser organizados y
mejorados para referencias futuras, cuestionando la
investigacin de datos. Esto estructura es una parte
crucial de un Almacn de Datos. (Kumar, 2014).
En este ltimo punto los almacenes de datos pueden ser
enriquecidos con la analtica de avance utilizando
aplicaciones como OLAP (Procesamiento analtico en

lnea) y minera de datos. (Abdellatif et al., 2011). Tambin


existe otras como OLTP (procesamiento de transacciones
en lnea), pero estas aplicaciones tradicionalmente
apoyan a las bases de datos operacionales. (Sethi, 2012).
Pero de todas estas, la herramienta ms habitual que se
utiliza con el almacn de datos en la consulta es OLAP.
(Hamoudl y Obaid, 2014).
Todo esto sirve a usuarios o trabajadores del conocimiento
en el papel de anlisis de datos y toma de decisiones,
incluyendo Gerentes, Ejecutivos y Analistas. Estos sistemas
pueden organizar y presentar datos en varios formatos
con el fin de dar cabida a las diversas necesidades de los
diferentes usuarios. (Sethi, 2012).
2. Data Warehouse (Almacn de datos)
El almacenamiento de datos es un conjunto de tcnicas
para producir un nico repositorio con esquema unificado
para contener todos los datos de fuentes heterogneas.
Tambin lleva a cabo las operaciones de actualizacin
del almacn de datos con el fin de cargar los nuevos
datos. (Hamoudl y Obaid, 2014). Sus cuatro conceptos
claves para describirlo son ser un objeto orientado,
integrado, variable en el tiempo y no voltil. Distinguen a
un almacn de datos de otros sistemas de repositorios de
datos, tales como sistemas de bases de datos
relacionales, sistemas de procesamiento de transacciones
y sistemas de archivos. (Sethi, 2012).
Su arquitectura es construida mediante la integracin de
datos de mltiples fuentes heterogneas. Respecto a esto
los almacenes se pueden clasificar como independiente
o dependiente, dependiendo de la fuente de los sistemas
operativos de datos o proveedores de informacin
externos, o de los datos generados a nivel local dentro de

Diego et al. Data Warehouse y On-line analitycal processing (OLAP), Septiembre del 2015.

un departamento en particular. Pero, data marts


(mercado de datos) son dependientes y sus datos se
obtienen directamente de los almacenes de datos
empresariales. (Saagari et al., 2013).
2.1 Almacn de datos y base de datos operacionales
Primero hay que aclarar que las bases de datos operativas
son una base de datos normal significativa para manejar
el negocio sobre una base actual y apoyar las
operaciones y procesos cotidianos (Bassil, 2012). Soporta
el procesamiento simultneo de mltiples transacciones.
Se requieren mecanismos de control y recuperacin de
concurrencia, tales como el bloqueo y el registro para
asegurar la consistencia y solidez de las transacciones. No
suelen mantener datos histricos como los almacenes de
datos (Saagari et al., 2013), por otro lado, las consultas de
almacn de datos son a menudo complejas. Implican el
cmputo de gran cantidad de datos a niveles que se
resumen y pueden requerir el uso de mtodos especiales
de organizacin de datos, de acceso y de ejecucin
basado en vistas multidimensionales. (Sethi, 2012).
2.2 Construccin de un almacn de datos
Un almacn de datos se puede construir utilizando un
enfoque de arriba hacia abajo que comienza con el
diseo general y la planificacin, til cuando la
tecnologa est madura y el negocio es bien conocido,
no as el enfoque de abajo hacia arriba que comienza
con experimentos y prototipos. O un enfoque combinado
explotando la naturaleza planificada y estratgica,
manteniendo la rpida implementacin y aplicacin
oportunista del enfoque de abajo hacia arriba. (Sethi,
2012).
Los datos son importados desde varias fuentes y se
transforman o corrigen dentro de un rea de ensayo,
antes de que se integren y se almacenen en el almacn
de datos para su posterior anlisis. Para esto se requieren
herramientas para extraccin de datos, limpieza de
datos, integracin de datos y carga de datos. A estos
pasos se les llama proceso ETL (proceso de extraccin,
transformacin y carga de los datos). Finalmente los datos
se almacenan y gestionan en el almacn que presenta
vistas multidimensionales de datos a una variedad de
herramientas front-end: herramientas de consulta,
redactores de informes, herramientas de anlisis y
herramientas de minera de datos. (Osama y Nour, 2013).
Sistemas de almacenamiento de datos utilizan tambin
herramientas de back-end, tiles para rellenar y actualizar
sus datos. (Sethi, 2012).

Imagen 1, Arquitectura DW (Hamoudl & Obaid, 2014)


2.2.1 Modelos multidimensionales para almacn de datos

Un modelo de datos multidimensional se organiza


normalmente en torno a un tema central, representado
por una tabla de hechos y cada dimensin tiene una
tabla asociada llamada tabla de dimensiones, que la
describe.
(Sethi,
2012).
El
modelo de
datos
multidimensional se basa en los conceptos claves,
dimensin y jerarqua. El cubo es el concepto que
describe la totalidad de los datos que se presentan a lo
largo de bordes marcados de ese cubo, las dimensiones.
Considerando Jerarquas la forma en que se agrupan
dimensiones. Hay dos tcnicas de modelado para
representar esto Esquema estrella y Esquema de copo
de nieve. (Osama y Nour, 2013). La diferencia entre
esquema estrella y copo de nieve es que en el ltimo, las
tablas estn normalizadas y se disminuye la redundancia,
sin embargo, ya que este mtodo requiere ms clculos
al realizarse las consultas tiene una eficiencia reducida.
(Mirabedini y Fatameh Nourani, 2014). Pero segn (Saxena
y Patrad, 2012), el modelo multidimensional del almacn
de datos que se asigna en la mayora de los casos es, a
travs de esquemas de estrella.
3. Procesamiento analtico en lnea (OLAP)
Es una tcnica de anlisis con funcionalidades como el
resumen, la consolidacin y la agregacin. (Saagari et al.,
2013). Para facilitar el anlisis complejo y visualizacin de
los datos en una base de datos, estos se hacen en base a
un modelo multidimensional, que ofrece a los usuarios la
flexibilidad para ver los datos desde diferentes
perspectivas. (Sethi, 2012). Los llamados Cubos o
Hipercubos (C) y las funciones aplicadas a estos se
dividen en 2 categoras, funciones agregadas (MAX, MIN,
AVG, COUNT, SUM, etc) y no agregadas (PEAK y NADIR).
(Suri, 2014).
OLAP ofrece un conjunto de operaciones para analizar
datos en el cubo: Roll-up, Drill-down, Slice y Dice.
(Abdellatif et al., 2011). Donde Slice y Dice restringen al
cubo formando un sub-cubo, Slice restringe los atributos
de una dimensin y Dice elige solo algunas de todas las
dimensiones de un cubo. Por otra parte, las operacin
Roll-up se define como el movimiento en la estructura
jerrquica de la dimensin partir de los datos ms
detallados a los ms resumidos (Suri, 2014), pero para Drilldown es el caso contrario va de lo resumido a lo
detallado.
3.1 Clasificacin de sistemas OLAP
La implementacin de sistemas OLAP deben tener en
cuenta los problemas de almacenamiento de datos.
(Sethi, 2012). Estos sistemas tienen dos categoras
principales
son
Relational
OLAP
(ROLAP)
y
multidimensionales
OLAP
(MOLAP).
Su
enfoque
combinado es un OLAP hbrido. (Saxena y Patrad, 2012).
Las consultas ROLAP toman muchos tiempo por la gran
cantidad de datos y propiedades de la consulta. Por otro
lado, MOLAP tiene respuestas rpidas, pero con un lmite
de espacio fsico para materializar todas las celdas de las
combinaciones posibles. (Hun Park y Hong Joo, 2014). Por
otro lado, el enfoque OLAP hbrido combina la tecnologa
ROLAP y MOLAP, beneficindose de la mayor

Ingeniera Civil Industrial, Tecnologa &Sistemas, Universidad de La Serena, Chile

Diego et al. Data Warehouse y On-line analitycal processing (OLAP), Septiembre del 2015.

escalabilidad de ROLAP y el clculo ms rpido de


MOLAP. (Sethi, 2012).
3.2 OLAP y enfoques de privacidad
Respecto a la proteccin de informacin privada en los
sistemas de procesamiento analtico en lnea (OLAP), la
principal preocupacin es la inferencia de informacin
privada respecto de las respuestas entregadas por
consultas OLAP. Se busca garantizar que el nivel de
divulgacin de privacidad no sobrepase los umbrales
predeterminados por los propietarios de los datos. Para
eso hay 2 mtodos para controlar las inferencias y son el
enfoque de control de inferencias, trata que cuando se
hace una consulta el sistema la recibe pero este
determina si la responde o no. Por ltimo est el enfoque
de perturbacin de entrada y salida que puede perturbar
los datos almacenados en el servidor o aade ruido
aleatorio a las respuestas de salida. (Goel y Kumar, 2014).
3.3 Otras herramientas de anlisis de datos
Procesamiento de transacciones en lnea (OLTP): Son
aplicaciones que se desarrollan para satisfacer las
necesidades transaccionales de bases de datos del da a
da y las necesidades de recuperacin de datos
operacionales de toda la comunidad de usuarios.
(Abdellatif et al., 2011). Gestiona datos actuales que, por
lo general, son muy detalladas para ser utilizados
fcilmente para la toma de decisiones. (Sethi, 2012).
Minera de datos: Es la combinacin de muchas disciplinas
como sistemas de gestin de bases de datos (DBMS),
Estadstica, Inteligencia Artificial (IA) y Aprendizaje
Automtico (ML). Permitindole extraer patrones
significativos comprensibles desde grandes bases de
datos y convertirlos en conocimiento, obtenidos por el
proceso KDD (descubrimiento de conocimientos de bases
de datos) que ayuda en la toma de decisiones cruciales.
(Guleria y Sood, 2014). Adems no tiene un lenguaje de
consulta estndar, las consultas no estn bien definidas.
(Saagari et al., 2013).
3.3.1 Comparacin OLAP y OLTP
OLAP es completamente diferente a su predecesor, el
sistema de procesamiento de transacciones en lnea
(OLTP), ya que este se centra en la automatizacin del
procedimiento de recogida de datos, mantener los datos
detallados, coherentes y actualizados. Pero tiene una
desventaja, la gran cantidad de datos requiere mucho
tiempo de respuesta incluso a preguntas sencillas. OLAP
supera este problema. Mientras tablas OLTP utilizan dos
dimensiones, OLAP utiliza unas tablas de datos
multidimensionales llamadas cubos, incluye optimizacin
de consultas por sobre OLTP y se pueden predecir estados
futuros basado en sus anlisis. Su desventaja es no
responde a problemas especficos. (Qassim, 2012).
Caractersticas

OLAP

OLTP

Operacin
Nivel de detalle
Tiempo
Orientacin

Analizar
Resumido
Histrico, actual, proyectado
Atributos

Actualizar
Detallado
Actual
Registros

4. Aplicacin de estas herramientas


La aplicacin de estas herramientas tienen un amplio
campo de industrias en las que se puede trabajar, tal es
el caso de los siguientes ejemplos:
Puede ser aplicado al campo de la medicina, ya que
como dice (Qassim, 2012). La medicina ha tomado una
nueva misin: prevenir, diagnosticar y medicar
enfermedades utilizando OLAP con la minera de datos.
Para apoyar la toma de decisiones de los cuidadores y los
gestores clnicos.
Pero en general las tecnologas de almacenamiento de
datos se han desplegado con xito en muchas industrias:
manufactura (para su envo el orden y la atencin al
cliente), comercio minorista (para gestin de inventario),
servicios financieros (para el anlisis de la tarjeta de
crdito, anlisis de riesgos y deteccin de fraudes),
servicios pblicos (para el anlisis de consumo de
energa), y la asistencia sanitaria (para el anlisis de los
resultados). (Sethi, 2012).
5. Conclusiones
De esta investigacin se ha visto que todas las empresas
o industrias, guardan sus datos con el fin de tomar buenas
decisiones para sus estrategias actuales o futuras. Y para
ello se ayudan usando tecnologas como los almacenes
de datos, donde guardan todos los datos de una
institucin que pueden residir de dentro o fuera de la
organizacin, normalizndolas y creando una base de
datos multidimensional, para poder aplicar as
herramientas de anlisis como OLAP y minera de datos,
que son capaces de generar informes y grficas para
tomar decisiones y generar retroalimentacin.
Hay distintas bases de datos en las que se pueden generar
anlisis pero la mejor es el almacn de datos, ya que
contiene datos histricos, no as las bases de datos
operativas que contienen datos actuales y por lo tanto sus
decisiones pueden tener ms de algn vaco. Tambin
vimos que hay diferencias entre las herramientas de
anlisis de datos, como por ejemplo la herramienta OLAP
que es capaz de proporcionar informacin resumida de
manera ms eficiente, con una mayor velocidad de
respuesta e informacin mejor fundamentada que OLTP,
donde la decisin final sigue siendo una aplicacin
tcnica del conocimiento y sentido comn. Tambin
cabe destacar que OLAP adems tiene dos tipos de
enfoques para controlar la inferencia de informacin
privada, dando una mayor seguridad a los proveedores
de fuentes de datos, pero el mejor catalogado para
resolver estos problemas es el enfoque de inferencia. Por
ltimo nos damos cuenta que estas herramientas se
deben tener en cuenta profesionalmente en las tomas de
decisiones, ya que entregan informacin estratgica que
puede ser usado en un gran nmero de industrias.

Tabla 1, comparacin OLAP y OLTP. (Osama y Nour,2013).

Ingeniera Civil Industrial, Tecnologa &Sistemas, Universidad de La Serena, Chile

Diego et al. Data Warehouse y On-line analitycal processing (OLAP), Septiembre del 2015.

Referencias
Bassil, Y., A Data Warehouse Design for A Typical University
Information System, Journal of Computer Science &
Research: 1(6), 12-17 (2012).
Qassim, W., Apply On-Line Analytical Processing (OLAP)
With Data Mining For Clinical Decision Support,
International Journal of Managing Information Technology
(IJMIT): 4(1), 25 - 37 (2012).
Abdellatif, T., Abo Elsoud, M., & Arafat Ali, H., Comparing
Online Analytical Processing and Data Mining Tasks In
Enterprise Resource Planning Systems, IJCSI International
Journal of Computer Science Issues: 8(6), 161-174 (2011).

Vijay, S., Manek, S., & Kamthania, D., Warehousing and


OLAP Analysis os Student Data-A Case Study, International
Journal of Advanced Research in Computer Science and
Software Engineering: 4(10), 482 - 489 (2014).
Saxena, V., & Patrad, A., OLAP Cube Representation for
Object-Oriented Database, International Journal of
Software Engineering & Application (IJSEA): 3(2), 10 9- 117
(2012).
Hamoudl, A. K., & Obaid, T. A. S., Using OLAP with Diseases
Registry Warehouse for Clinical Decision Support,
International Journal of Computer Science and Mobile
Computing: 3(4), 39 - 49 (2014).

Sethi, M., Data Warehousing and OLAP technology,


International Journal of Engineering Research and
Applications (IJERA): 2(1), 955 - 960 (2012).
Saagari, S., Devi Anusha, P., Lakshmi Priyanka, Ch., &
Sailaja, V.S.S.N., Data Warehousing, Data Mining, OLAP
and OLTP Technologies Are Essential Elements to Support
Decision-Making Process in Industries, International Journal
of Innovative Technology and Exploring Engineering
(IJITEE): 2(6), 88 - 93 (2013).
E.Sheta, O., & Nour Eldeen, A., The technology of using a
Data Warehouse to support decision-making in health
care, International Journal of Database Management
Systems (IJDMS): 5(3), 75 - 86 (2013).
Kumar, S., Aspect of Data Mining and Data warehousing,
International Journal of Technology Enhancements and
Emerging Engineering Research: 2(6), 48 - 51 (2014).
Suri, B., Continuous New OLAP Operations on Data
Streams, International Journal of Soft Computing and
Engineering (IJSCE): 4, 42 - 46 (2014).
Guleria, P., & Sood, M., Data Mining in Education: A Review
on the Knowledge Discovery Perspective, International
Journal of Data Mining & Knowledge Managment Process
(IJDKP): 4(5), 48 - 60 (2014).
Hun Park, N., & Hong Joo, K., Query Processing on OLAP
System with Cloud Computing Environment, International
Journal of Multimedia and Ubiquitous Engineering: 9(5),
169 - 174 (2014).
Mirabedini, S., & Fatemeh Nourani, S., The Research on
OLAP for Educational Data Analysis, International
Research Journal of Applied and Basic Sciences: 8(2), 224
- 230 (2014).
Goel, R., & Kumar, M., Implementation of Privacy
Preservation of N-D Algorithms for Online Analytical
Processing, International Journal of Innovative Research in
Computer and Communication Engineering: 2(6), 4730 4737 (2014).

Ingeniera Civil Industrial, Tecnologa &Sistemas, Universidad de La Serena, Chile