Está en la página 1de 42

OLAP

Se pueden considerar los sistemas OLAP (On Line Analytical Processing) [Codd et al., 1993] como pertenecientes a los sistemas de informacin para ejecutivos, EIS, utilizados para proporcionar al nivel estratgico informacin til para la toma de decisiones.

OLAP
En un modelo de datos OLAP, la informacin es vista como cubos, los cuales consisten de categoras descriptivas (dimensiones) y valores cuantitativos (medidas). El modelo de datos multidimensional simplifica a los usuarios formular consultas complejas, arreglar datos en un reporte, cambiar de datos resumidos a datos detallados y filtrar o rebanar los datos en subconjuntos significativos.

OLAP
Por ejemplo, las dimensiones tpicas de un cubo que contenga informacin de ventas incluiran: tiempo, regin, producto, canal, organizacin y escenario (planeado o real). Las medidas tpicas incluiran: ventas en dlares (u otra moneda), unidades vendidas, nmero de personas, ingresos y gastos.

Visualizacin de los datos


La vista de los datos como un cubo es una extensin natural de como la mayora de los usuarios de negocios interactan con los datos.

Visualizacin de los datos


Ellos ven a un problema de negocios en trminos de un cierto nmero de componentes (dimensiones) tales como productos, tiempo, regiones, fabricantes, o artculos. Los usuarios de negocios desean poder analizar un conjunto de nmeros usando cualquier par de estos componentes, como as tambin poder intercambiarlos para lograr distintas vistas.

Sin embargo, la mayora de los usuarios tambin deseara ver como se desarrollan las ventas en el tiempo. Para hacer esto, se necesitaran varias hojas de la planilla de clculo como se muestra en la figura

Las mismas celdas de datos se visualizan mediante un cubo

Dado que las celdas de datos pueden ser fcilmente representadas en un cubo, se pueden tomar rebanadas del mismo para responder preguntas como:

Cmo se venden los productos en cada regin en un mes dado? Esto es equivalente a ver Producto por Regin en un mes dado. Figura 2-9 a). Qu regiones han mejorado las ventas de un producto dado a travs del tiempo? Esto es equivalente a Regin por Tiempo de un producto dado. Figura 2-9 b). Cmo se venden los productos a travs del tiempo en una regin dada ? Esto es equivalente a Producto por Tiempo en una regin dada. Figura 2-9 c).

Visualizacin de cubos
En este caso, las dimensiones son Producto, Tiempo y Regin aunque se podra agregar otra dimensin al cubo para permitir al usuario visualizar cosas como, por ejemplo, Productos por Cliente y responder preguntas tales como: Qu cliente compr la mayor cantidad de productos del tipo x?, pero en este caso el cubo se vuelve ms difcil de dibujar debido a que posee ms de 3 dimensiones, de todas maneras el cubo funciona de la misma forma y soporta n dimensiones, necesarias para representar a cualquier problema del negocio de una compaa.

Visualizacin de cubos
Una metfora muy usada para describir la manera en que un cubo de datos OLAP se puede cortar para visualizar los datos que tienen tres o ms dimensiones se denomina slice and dice.

Modelos de almacenamiento

MOLAP, ROLAP y HOLAP

MOLAP
En un sistema MOLAP (OLAP multidimensional) los datos se encuentran almacenados en una estructura multidimensional. Para optimizar los tiempos de respuesta, el resumen de la informacin es usualmente calculado por adelantado. Estos valores precalculados o agregaciones son la base de las ganancias de desempeo de este sistema. Algunos sistemas utilizan tcnicas de compresin de datos para disminuir el espacio de almacenamiento en disco debido a los valores precalculados.

ROLAP
ROLAP (OLAP Relacional) es un sistema en el cual los datos se encuentran almacenados en una base de datos relacional. Tpicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran normalizadas. Los esquemas ms comunes sobre los que se trabaja son estrella o copo de nieve, aunque es posible trabajar sobre cualquier base de datos relacional.

HOLAP
Un sistema HOLAP (OLAP Hbrido) mantiene los registros detallados en la base de datos relacional, mientras que los datos resumidos o agregados se almacenan en una base de datos multidimensional separada. Este mtodo de almacenamiento es una combinacin de los dos anteriores e intenta rescatar lo mejor de cada uno.

Comparaciones
El primer enfoque corresponde a MOLAP. Con este mtodo, los datos son precalculados y luego son almacenados en cubos de datos multidimensionales. El resultado se traduce en una mejor performance en los tiempos de respuesta debido a que los datos se encuentran disponibles sin necesidad de calcularlos en cada nueva consulta. La desventaja de este enfoque se debe a que almacenar datos multidimencionalmente ocupa mucho ms espacio que con ROLAP.

Comparaciones
El segundo enfoque es ROLAP donde los datos son accedidos directamente del Data Warehouse (u otro tipo de fuente relacional) y no son almacenados por separado. Estos datos se calculan en tiempo de consulta (al vuelo). Por lo tanto el tiempo de respuesta sera mayor pero sin usar enormes cantidades de almacenamiento en disco.

Comparaciones
Las implementaciones MOLAP normalmente se desempean mejor que la tecnologa ROLAP, pero tienen problemas de escalabilidad. Las implementaciones ROLAP son ms escalables y son frecuentemente atractivas a los clientes debido a que aprovechan las inversiones en tecnologas de bases de datos relacionales preexistentes

Comparaciones
La mejor solucin probablemente est entre los dos extremos. En muchos casos se utilizan HOLAP que resultan de una combinacin entre ROLAP y MOLAP. HOLAP mantiene los volmenes de datos ms grandes en la base de datos relacional y las agregaciones en una base de datos MOLAP separada, logrando con esto un balance entre tiempo y espacio.

Data Mining

Data Mining
En una mina se desechan enormes cantidades de material inservible antes de que oro o diamantes sean encontrados.

Data Mining
El trmino Data Mining es una metfora que surge como analoga de lo anterior, y afirma que con una computadora se puede encontrar de manera automtica un diamante de informacin entre toneladas de datos inservibles en una base de datos, teniendo en cuenta que la informacin es un recurso muy valioso para una compaa tanto como lo es un diamante para un minero

Data Mining
Data Mining se ocupa del descubrimiento de conocimiento oculto, patrones inesperados y nuevas reglas a partir de grandes volmenes de datos. Actualmente se considera a Data Mining el elemento clave de un proceso mucho ms elaborado llamado KDD, el cual est estrechamente ligado a otro importante desarrollo tecnolgico, el Data Warehousing.

Proceso KDD

KDD
Si bien los trminos Minera de Datos (Data Mining) y Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery in Databases o KDD) son usados como sinnimos por algunos autores, el trmino KDD describe el proceso completo de extraccin de conocimiento a partir de los datos.

KDD
Mientras que Data Mining se refiere exclusivamente a la fase de descubrimiento del proceso completo KDD. Esta confusin se debe a que Data Mining era el trmino que se usaba anteriormente para describir el proceso entero de KDD.

Definicin de KDD
...la extraccin no trivial de conocimiento previamente desconocido y potencialmente til a partir de un gran volumen de datos en el cual la informacin est implcita. [Fayyad, 1996b].

Seleccin de los datos


En este paso se seleccionan los datos necesarios para el anlisis. En la mayora de los casos, estos datos se encuentran almacenados en bases de datos operacionales usadas por los sistemas de informacin de la organizacin.

Limpieza
Una tarea importante en la operacin de limpieza es la de eliminar registros duplicados (de-duplicacin), por ejemplo un cliente puede aparecer cargado 2 veces como consecuencia de un error de ortografa al cargar su apellido. Otro problema es la falta de consistencia de los dominios, por ejemplo una transaccin listada en una tabla finalizada en 1901 pero la compaa se estableci despus de 1901.

Mejora Agregar nueva informacin (datos externos) y combinarla con los registros existentes.

Codificacin
Algunas veces la informacin contenida en la base de datos no tiene el formato requerido por los algoritmos de reconocimiento de patrones. Algunos ejemplos de codificaciones incluyen pasar de direccin a regin, fecha de nacimiento a edad, dividir ingresos por 1000, etc.

Data Mining
Aqu es donde realmente aparece la fase de descubrimiento de conocimiento oculto y para ello existen diferentes tcnicas que se usan para diferentes propsitos.

Tcnicas de Data Mining


Procesamiento analtico en lnea (OLAP Reglas de asociacin Arboles de decisin Clustering

Reportes
Los resultados de la aplicacin de Data Mining se pueden mostrar en diferentes formatos. En general, se pueden usar reportes o grficos para visualizar los resultados.

Diferentes formas de conocimiento

Conocimiento evidente
Esta es la informacin que se puede recuperar fcilmente de bases de datos usando herramientas de consulta tales como SQL.

Conocimiento multidimensional
Esta es la informacin que se puede analizar utilizando herramientas de procesamiento analtico en lnea OLAP. La mayora de las cosas que se pueden hacer con OLAP tambin pueden hacerse utilizando SQL. La ventaja de OLAP es que est optimizada para este tipo de bsqueda y operaciones de anlisis.

Conocimiento oculto
Estos datos se pueden encontrar fcilmente con KDD y en particular con algoritmos de Data Mining. Una vez ms, se podra utilizar SQL para encontrar estos patrones pero se consumira una enorme cantidad de tiempo. Es decir, utilizando algoritmos de Data Mining se pueden encontrar datos ocultos en minutos, mientras que utilizando SQL se tardaran meses para conseguir los mismos resultados.

Conocimiento profundo
Esta es la informacin que est almacenada en la base de datos pero slo puede ser localizada si se tienen pistas que indiquen donde buscar.