Está en la página 1de 16

Conceptos de almacenes de datos (Data Warehousing) Conceptos de almacenes de datos (Data Warehousing)

Un almacn de datos es una tecnologa de gestin y anlisis de los datos. Puede definirse como una coleccin de datos clasificados por temas, integrada, variable en el tiempo y no voltil que se utiliza como ayuda al proceso de toma de decisiones por parte de quienes dirigen una organizacin. Los almacenes eb de datos son almacenes de datos distribuidos que se implementan sobre la eb, no e!istiendo ning"n repositorio centralizado.

Ventajas:
# # # $lto retorno de inversin %enta&as competitivas derivadas de su utilizacin 'ayor productividad de los responsables de la toma de decisiones

Comparacin entre OLTP y almacenes de datos:


Proceso de Transacciones en Lnea (OLTP) $lmacena datos actuales. $lmacena datos detallados. Los datos son dinmicos. Procesamiento repetitivo. $lta tasa de transacciones. Patrn de uso predecible. *irigido por transacciones. +rientado a la aplicacin. ,oporta las decisiones cotidianas. ,irve a un gran n"mero de usuarios administrativos - operacionales. Almacenes de datos $lmacena datos (istricos. $lmacena datos resumidos en poca gran medida. Los datos son principalmente estticos. Procesamiento ad hoc, no estructurado y (eurstico. )asa media ba&a de transacciones. Patrn de uso impredecible. *irigido por anlisis. +rientado a los temas. ,oporta las decisiones estratgicas. ,irve a un n"mero relativamente ba&o de usuarios de tipo gerencial.

Problemas de los almacenes de datos


# # # # # # # # # # ,ubestimacin de los recursos necesarios para la carga de datos. Problemas ocultos de los sistemas de origen. .o se capturan los datos requeridos. /ncremento de la demanda por parte de los usuarios finales. 0omogeneizacin de los datos. $lta demanda de recursos. Propiedad de los datos. $ltos costes de mantenimiento. Proyectos de larga duracin. 1omple&idad de la integracin.

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

Conceptos de almacenes de datos (Data Warehousing)


Arquitectura de un almacn de datos

Las principales componentes de un almacn de datos son3 2. 4uentes de *atos operacionales3 todos los datos operacionales previamente almacenados en 5*s, arc(ivos propietarios, estaciones primarias de traba&o e incluso en sistemas e!ternos como /nternet, bases de datos comerciales bases de datos dependientes de los proveedores clientes de la organizacin. 6. 7epositorio de datos operacionales 8+peracional *ata ,tore # +*,93 es un almacn de datos operacionales actuales e integrados que se utilizan para el anlisis. :. ;estor de carga 8 componente de interfaz93 realiza todas las operaciones asociadas con la e!traccin y carga de los datos en el almacn. ,e incluyen transformaciones simples. <. ;estor del almacn de datos3 realiza las operaciones asociadas con la gestin de datos dentro del almacn. /ncluye el anlisis de los datos para garantizar su co(erencia, transformacin y combinacin de datos de origen, creacin de ndices y vistas, generalizacin de agregaciones y desnormalizaciones, y el arc(ivado y copia de seguridad de los datos. =. ;estor de consultas 8 componente de servicio93 realiza todas las operaciones asociadas con la gestin de las consultas de los usuarios3 dirigir consultas (acia tablas apropiadas y planificar su e&ecucin. >. *atos detallados3 rea del almacn que guarda todos los datos detallados contenidos en el esquema de la 5*. ?. *atos poco resumidos y muy resumidos3 guarda todos los datos, poco muy resumidos 8agregados9, que (ayan sido establecidos por el gestor de datos como res"menes predefinidos. @. *atos de arc(ivo - copia de seguridad3 guarda los datos detallado y resumidos con el propsito de mantener un arc(ivo y disponer de copias de seguridad. A. 'etadatos3 guarda todas las definiciones de metadatos 8datos acerca de los datos9 utilizadas por todos los procesos del almacn. ,e utilizan para propsitos tales como3

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

Conceptos de almacenes de datos (Data Warehousing)


los procesos de e!traccin y carga3 los metadatos BmapeanC las fuentes de datos sobre una vista com"n de los datos utilizada dentro del almacn # el proceso de gestin del almacn3 los metadatos se utilizan para automatizar la produccin de tablas de res"menes # como parte del proceso de gestin de consultas3 los metadatos se usan para dirigir una consulta a la fuente de datos ms apropiada. 2D. 0erramientas de acceso para usuarios finales3 # 1onsulta y generacin de informes3 /ncluyen generacin de informes de produccin Ede carcter operacional, peridicos con altos vol"menes de tareas# y escritores de informes E diseFados para usuarios finales, de ba&o costo#. Las (erramientas de consulta para almacenes de datos relacionales estn diseFadas para aceptar ,GL generar instrucciones ,GL con el fin de consultar los datos del almacn. # *esarrollo de aplicaciones3 Puede requerirse por algunos usuarios. # ,istemas de informacin e&ecutiva 8H/,93 /nicialmente para ayuda a la toma de decisiones estratgicas de alto nivel. ,e (an ampliado para incluir soporte para todos los niveles de gestin. # Procesamiento analtico en lnea 8+L$P93 5asadas en el concepto de 5*s multidimensionales. Permiten analizar los datos mediante vistas comple&as de carcter multidimensional. ;enera modelos retrospectivos. # 'inera de *atos3 Proceso de descubrimiento de nuevas correlaciones, patrones y tendencias significativas procesando grandes cantidades de datos mediante tcnicas estadsticas, matemticas y de inteligencia artificial. Posee la capacidad de construir modelos predictivos. #

Flujos de datos en un almacn

Los almacenes de datos se centran en la gestin de cinco flu&os principales de datos3


Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

Conceptos de almacenes de datos (Data Warehousing)


2. 4lu&o de entrada3 1onstituido por lo procesos asociados con la e!traccin, limpieza y carga de los datos de los sistemas de origen en el almacn de datos. 6. 4lu&o ascendente3 1onstituido por los procesos asociados con la adicin de valor a los datos del almacn, mediante los procesos de resumen, empaquetado y distribucin de los datos. :. 4lu&o descendente3 ,on los procesos asociados con el arc(ivado y la realizacin de copias de seguridad de los datos en el almacn. <. 4lu&o de salida3 Procesos asociados con la puesta de los datos a disponibilidad de los usuarios finales. =. 'etaflu&o3 Procesos asociados con la gestin de los datos sobre los datos3 metadatos.

Herramientas y tecnolo !as de almacn de datos


2. 0erramientas de e!traccin, limpieza y transformacin # ;eneradores de cdigo3 1rean programas de transformacin :;L - <;L personalizados, basado en las especificaciones de datos de origen y de destino. # 7eplicacin de datos3 emplean disparadores 8triggers9 en 5*s usan el registro de actividad para capturar cambios efectuados en un origen de datos y aplicarlos sobre una copia ubicada en otro sistema diferente. # 'otores de transformacin dinmica3 dirigidos por reglas, capturan datos de un sistema de origen a intervalos definidos por el usuario, los transforman y envan para su carga en un entorno destino. 6. ,istemas de ;estin de 5ases de *atos para almacenes de datos Los requisitos para un ,istema de ;estin de 5ases de *atos 7elacional 8,;5*79 para almacenes de datos incluyen3 # velocidad de carga buena, a partir del requerimiento de carga incremental de nuevos datos de manera peridica, con ventanas temporales cortas. # el procesamiento de la carga, lo que incluye pasos para incluir datos nuevos, actualizar, convertir, filtrar, inde!ar y actualizar metadatos. # la gestin de la calidad de los datos, ya que deben garantizarse3 co(erencia local, co(erencia global e integridad referencial a pesar de los posibles problemas en los orgenes de datos. # la velocidad de las consultas no debe disminuir. Las tcnicas de gestin basadas en (ec(os y en anlisis ad hoc no deben ser ralentizadas in(ibidas por las prestaciones del ,;57 del almacn de datos. # escalabilidad en el rango de almacenamiento3 el ,;5*7 no debe tener limitaciones de arquitectura en lo que respecta ala tamaFo de la 5*, y debe soportar gestin modular y paralela. Hn caso de fallo, debe soportar una disponibilidad continua y proporcionar mecanismos para la recuperacin. *ebe permitir usar dispositivos de almacenamiento masivo3 discos pticos, y dispositivos de gestin &errquica de almacenamiento. La velocidad de las consultas no debe depender del tamaFo de la 5*, sino solamente de su comple&idad. # escalabilidad en cuanto a n"mero de usuarios3 los ,;5*7 deben ser capaces de soportar miles de usuarios concurrentes sin que por ello sufran una degradacin en la velocidad de procesamiento de las consultas. # $lmacn de datos en red3 capacidad para coopera en una red de almacenes de datos. *ebe incluir (erramientas que coordinen las transferencias de subcon&untos de datos entre diversos almacenes. # $dministracin del almacn3 demandan alta fle!ibilidad y gran facilidad de administracin. Hl ,;5* debe proporcionar controles para implementar lmites de utilizacin de los recursos, contabilidad de costos, mecanismos de asignacin de prioridad a las consultas, para optimizacin y control de la carga de traba&o, etc.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

<

Conceptos de almacenes de datos (Data Warehousing)


$nlisis dimensional integrado3 para proporcionar las m!imas prestaciones a las (erramientas +L$P relacionales. ,oporte para creacin rpida y simple de los tipos de res"menes precalculados y para automatizar la creacin de agregados precalculados. Los clculos dinmicos de agregados deben ser co(erentes con las prestaciones de procesamiento interactivo que esperan los usuarios finales. # 4uncionalidad avanzada de consultas3 *ebe proporcionarse un con&unto completo y avanzado de operaciones que permitan clculos analticos comple&os, anlisis secuenciales y comparativos y acceso co(erente a datos detallados y de resumen. :. 'etadatos de un almacn de datos ,u ob&etivo principal es mostrar cual es el camino que lleva (acia el origen de los datos, de modo que los administradores del almacn de datos conozcan la (istoria de cualquier elemento almacenado. ,u gestin es una tarea comple&a y difcil. ,e usan para diversos propsitos, resultando elementos crticos para conseguir una plena integracin del almacn. Hl principal problema de integracin consiste en sincronizar los diversos tipos de metadatos utilizados en el almacn. <. 0erramientas de administracin y gestin *eben ser capaces de soportar tareas tales como3 # monitorizar la carga de datos desde m"ltiples fuentesI # comprobar la calidad e integridad de los datosI # gestionar y actualizar los metadatosI # monitorizar el rendimiento de la 5* para garantizar tiempos de respuesta cortos a las consultas y eficiente empleo de los recursosI # auditar el uso del almacn para atribuir los costos respectivos a los distintos usuariosI # replicar, dividir y distribuir los datosI # purgar los datosI # arc(ivar y realizar copias de seguridadI # implementar mecanismos de recuperacin ante fallosI # gestionar adecuadamente la seguridad. #

"ercados de datos #Data Marts$


Un subcon&unto de un almacn de datos que soporta los requisitos de un departamento rea de negocios concreto. Las principales caractersticas que diferencian a los mercados de datos de los almacenes de datos son3 # un mercado de datos se centra "nicamente en los requisitos de los usuarios asociados con un departamento rea de negocio concretoI # los mercados de datos no contienen normalmente datos operacionales detallados, a diferencia de lo que sucede con los almacenes de datosI # como los mercados de datos contienen menos informacin que un almacn de datos, son ms fciles de comprender y de utilizar. 7azones para crear un mercado de datos3 # Proporcionar a los usuarios acceso a los datos que necesiten analizar de manera mas frecuente. # Proporcionar los datos en una forma que se adapte a la vista colectiva que tiene de los datos un grupo de usuarios pertenecientes a un departamento rea de negocios concreto. # 'e&orar el tiempo de respuesta a las consultas del usuario final, gracias a la reduccin en el volumen de los datos a los que (ay que acceder. # Proporcionar datos apropiadamente estructurados seg"n dicten los requisitos de las (erramientas de accesos para usuarios finales, las cuales pueden requerir sus propias estructuras de 5* internas.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

Conceptos de almacenes de datos (Data Warehousing)


# Los mercados de datos emplean normalmente menos datos, por lo que las tareas de limpieza, carga, transformacin e integracin de los datos son ms sencillas, lo que trae como resultado que la implementacin y puesta en marc(a sea ms simple que establecer un almacn corporativo. Hl costo de implementacin de los mercados es inferior al requerido para un almacn corporativo. Los usuarios potenciales estn claramente definidos y son ms fciles de convencer para que colaboren con un proyecto de mercado de datos que para un proyecto de almacn corporativo.

# #

1uestiones fundamentales en los mercados de datos # 4uncionalidad3 Las capacidades se (an incrementado. La comple&idad y el tamaFo de algunos mercados de datos es comparables con algunos almacenes corporativos de ba&a gama. # )amaFo3 Los usuarios esperan tiempos de respuesta ms cortos. # %elocidad de carga3 *eben equilibrarse dos componentes crticos3 tiempo de respuesta de las consultas del usuario final y velocidad de carga de los datos. # $cceso de los usuarios a m"ltiples mercados de datos3 Una tcnica posible es replicar datos entre diferentes mercados, otra construir mercados de datos virtuales. # $cceso /nternet - intranet al mercado de datos3 ba&o costo, utilizando navegadores. # $dministracin3 .ecesidad de gestionar y coordinar centralizadamente las actividades de los mercados de datos. ,urgen problemas con las versiones, co(erencia e integridad de los datos y metadatos, seguridad del nivel corporativo y con los a&ustes del rendimiento.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

>

Conceptos de almacenes de datos (Data Warehousing)


# /nstalacin3 1ada vez son ms comple&os de construir.

Diseo de almacenes de datos


%ise&o de la '% para un almacn de datos
,e necesita responder a preguntas tales como3 JGu requisitos de usuario son los ms importantesK JGu datos deben considerarse en primer lugarK J*eber reducirse el alcance del proyecto para que sea ms mane&able y al mismo tiempo proporcionar una infraestructura que pueda crecer posteriormente (asta convertirse en un almacn de datos completo de mbito corporativoK

"odelado de la dimensionalidad
)cnica de diseFo lgico que trata de presentar los datos de una manera estndar e intuitiva que permita un acceso de alto rendimiento. Utiliza los conceptos del modelado Hntidad E 7elacin 8H79, con algunas restricciones importantes. )odo modelo dimensional 8dimensional model E *'9 est compuesto de una tabla con una clave principal compuesta, denominada ta3la de 4ec4os, y un con&unto de tablas mas pequeFas denominadas ta3las de dimensi5n. 1ada tabla de dimensin tiene una clave principal simple 8no compuesta9 que se corresponde con e!actamente uno de los componentes de la clave compuesta de la tabla de (ec(os. )odas las claves naturales se sustituyen por claves subrogadas de manera que toda combinacin entre la tabla de (ec(os y las de dimensiones estn basadas en estas claves subrogadas. # Hsquema 8 combinacin9 en estrella3 Hstructura lgica que tiene una tabla de (ec(os que contiene datos 1actuales en el centro, rodeada por tablas de dimensin que contienen datos de referencia. # Hsquema en copo de nieve3 %ariante en el que las tablas de dimensin no contienen datos desnormalizados. # Hsquema en copo de estrella3 Hstructura (brida que contiene mezcla de esquemas en estrella y en copo de nieve. La forma predecible y estndar del modelo dimensional ofrece venta&as para un entorno de almacn de datos3 # Hficiencia3 La co(erencia de la estructura de 5* subyacente permite un acceso ms eficiente a los datos por parte de las distintas (erramientas, incluyendo las de consultas y generacin de informes. # Posibilidad de gestionar requisitos cambiantes, ya que el esquema puede adaptarse a cambios en los requisitos de los usuarios producto de que todas las dimensiones son equivalentes en trminos de proporcionar acceso a la tabla de (ec(os. Hl diseFo est me&or adaptado para soportar consultas ad hoc. # $mpliabilidad para3 a9 permitir adicin de nuevos (ec(os, siempre que sean co(erentes con la granularidad fundamental de la tabla de (ec(os e!istenteI b9 adicin de nuevas dimensiones, siempre y cuando (aya un "nico valor de dic(a dimensin definido para cada registro de (ec(os e!istenteI c9 $dicin de nuevos atributos dimensionalesI y d9 descomposicin de los registros de dimensin e!istentes para tener un menor nivel de granularidad a partir de un cierto instante temporal. # 1apacidad de modelar situaciones empresariales comunes. # Procesamiento de consultas predecible, ya que en el nivel mas ba&o, cada tabla de (ec(os debe ser consultada de manera independiente.

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

Conceptos de almacenes de datos (Data Warehousing)


"etodolo !a de dise&o de '%s para %(
Un aspecto importante en el traba&o con almacenes de datos es comprender que un modelo H7 se descompone normalmente en m"ltiples modelos *'. Los diferentes *' se asocian mediante tablas de dimensin con1ormadas 8BcompartidasC9. 1om"nmente se emplea la llamada B'etodologa de los .ueve pasosC3 2. ,eleccin del proceso3 0ace referencia al tema ob&etivo de un mercado concreto. 6. ,eleccin de la granularidad3 *ecidir e!actamente qu es lo que va a representar cada registro de la tabla de (ec(os. *etermina tambin la granularidad de las tablas de dimensin. :. /dentificacin y conformacin de las dimensiones3 ,e establece el conte!to para consultar los (ec(os. Un buen con&unto de dimensiones (ace que el mercado sea comprensible y fcil de usar. <. ,eleccin de los (ec(os3 La granularidad determina cules (ec(os pueden emplearse en el mercado de datos. =. $lmacenamiento de los valores precalculados en la tabla de (ec(os3 $nlisis para evaluar posibilidad de empleo de valores precalculados. >. )erminacin de las tablas de dimensin3 ,e aFaden tantas descripciones te!tuales, intuitivas y comprensibles para los usuarios, como sea posible. Hl uso de un mercado de datos est determinado por el mbito y naturaleza de los atributos de las tablas de dimensin. ?. ,eleccin de la duracin de la 5*3 0asta que momento del pasado debe retroceder la tabla de (ec(os. @. 1ontrol de dimensiones lentamente cambiantes. A. ,eleccin de las prioridades de consulta y de los modos de consulta3 1onsidera los aspectos del diseFo fsico.

Criterios para )eri*icar la dimensionalidad de un almacn de datos


,e dividen en tres grupos amplios3 2# $rquitectura3 ,on caractersticas fundamentales de la forma en que el sistema completo est organizado. 6# $dministracin3 ,on tcticos, pero esenciales para la operacin adecuada de un almacn de datos orientado dimensionalmente. :# H!presin3 1apacidades analticas necesarias en situaciones reales.

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

Procesamiento Analtico en Lnea (OLAP) OLAP


Hl Procesamiento $naltico en Lnea 8+L$P9 es la sntesis, anlisis y consolidacin dinmica de grandes vol"menes de datos multidimensionales. $plicaciones3 # clculo de presupuestos, # anlisis de rendimiento financiero, # anlisis y previsin de ventas, # anlisis e investigacin de mercados y # segmentacin de mercados - clientes.

Caracter!sticas
# %istas multidimensionales de los datos3 requisito fundamental para la construccin de un modelo de negocio BrealistaC. Una vista multidimensional de los datos proporciona la base para el procesamiento analtico, al permitir un acceso fle!ible a los datos corporativos. *ebe tratar todas las dimensiones de manera equitativa. .o debe influenciar los tipos de operaciones permitidas sobre una determinada dimensin ni la tasa a la que estas operaciones se realicen. *ebe permitir que los usuarios analicen los datos seg"n cualquier dimensin y en cualquier nivel de agregacin, manteniendo una misma funcionalidad y facilidad de uso. /gualmente, debe soportar todas las vistas multidimensionales de los datos en la manera mas intuitiva posible. Los sistemas +L$P deben ocultar lo ms posible a los usuarios la sinta!is de consultas comple&as y proporcionar tiempos de respuesta siempre cortos para todas las consultas, independientemente de su comple&idad. # ,oporte para clculos comple&os3 Hl softLare debe proporcionar diversos mtodos de clculo suficientemente potentes, como los requeridos para realizar previsiones de ventas, que utilizan algoritmos de clculos de tendencias3 medias mviles y crecimientos porcentuales. # /nteligencia temporal3 1aracterstica clave. *ebe poderse definir conceptos como acumulados de aFo, comparaciones entre perodos, etc. 5eneficios3 # mayor productividad de los usuarios finales de la organizacin, de los desarrolladores de los departamentos de tecnologas de la informacin, acceso controlado y oportuno a la informacin de carcter estratgicoI # reduccin en la carga de traba&o de desarrollo de aplicaciones, pues brinda autosuficiencia para los usuarios finales que pueden desarrollar sus propios modelos y cambios de esquemaI # se conserva el control sobre la integridad de los datos corporativos, ya que los sistemas +L$P dependen de los almacenes de datos y de los sistemas +L)P para refrescar sus datos de origenI # menor frecuencia de consultas y menor trfico de los sistemas +L)P en el almacn de datosI # mayores ingresos y beneficios potenciales al permitir que la organizacin responda rpidamente a las demandas del mercado.

+epresentacin de datos multidimensionales , Cubos


Los servidores de 5*s +L$P utilizan estructuras multidimensionales para almacenar los datos y relaciones entre los mismos. La me&or forma de visualizar estructuras multidimensionales es como cubos de datos. 1ada lado de un cubo se denomina dimensi5n. Hl tiempo de respuesta depende de cuantas celdas se sumen en la marc(a. 1on el incremento del n"mero de dimensiones, el n"mero de celdas del cubo crece e!ponencialmente. ,in embargo, la mayora de las consultas tratan con datos resumidos de alto nivel, por lo que pueden previamente agregarse 8consolidarse9 todos los totales y subtotales lgicos seg"n todas las dimensiones. Hsta agregacin previa puede ser especialmente valiosa ya que las dimensiones tpicas son de naturaleza
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

Procesamiento Analtico en Lnea (OLAP)


&errquica. /mponer &erarqua predefinida para cada dimensin permite agregacin lgica previa y, a la inversa, profundizacin lgica. +peraciones analticas comunes3 # 1onsolidacin3 implica agregacin de datos, como totalizaciones simples e!presiones comple&as que impliquen datos relacionados. # Profundizacin3 operacin inversa de la consolidacin. /mplica mostrar datos de detalle comprendidos en datos consolidados. # .avegacin 8pivota&e93 capacidad de e!aminar los datos desde diferentes puntos de vista, con el fin de analizar tendencias y encontrar patrones. La pre#agregacin, las &erarquas dimensionales y la gestin de datos dispersos pueden reducir significativamente el tamaFo de la base de datos y las necesidades de clculo. Hstas tcnicas eliminan la necesidad de efectuar combinaciones multitabla y proporcionan un acceso rpido y directo a las matrices de datos, acelerando la e&ecucin de las consultas multidimensionales. Los servidores +L$P tienen la capacidad de almacenar datos multidimensionales de manera comprimida, para ma!imizar el empleo del espacio. Los datos densos, que e!isten para un alto porcenta&e de celdas, pueden almacenarse independientemente de los datos dispersos, aquellos en que un porcenta&e altamente significativo de celdas estn vacas. La capacidad de un ,;5* para omitir celdas vacas repetitivas contribuye a reducir el tamaFo del cubo y la cantidad de procesamiento. Hstas optimizaciones minimizan necesidades de almacenamiento fsico, permitiendo el anlisis de grandes cantidades de datos, con incremento en las prestaciones, etc.

+e las de Codd para las -erramientas OLAP:


2. %ista conceptual multidimensional 6. )ransparencia :. $ccesibilidad <. Prestaciones co(erentes en la generacin de informes =. $rquitectura cliente E servidor >. *imensionalidad genrica ?. ;estin dinmica de matrices dispersas @. ,oporte multiusuario A. +peraciones interdimensionales no restringidas 2D. 'anipulacin de datos intuitiva 22. ;eneracin fle!ible de informes 26. *imensiones y niveles de agregacin ilimitados

Cate or!as de -erramientas OLAP


# +L$P multidimensional 8'+L$P93 Utilizan estructuras especializadas de datos y ,;5* multidimensionales para organizar, navegar y analizar los datos.

Los problemas de desarrollo asociados con la tecnologa '+L$P son3 a9 ,lo pueden almacenarse y analizarse de manera eficiente una cantidad limitada de datos.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

2D

Procesamiento Analtico en Lnea (OLAP)


b9 La navegacin y el anlisis de datos estn limitados. Hl soporte de nuevos requisitos puede demandar la reorganizacin fsica de los datos. c9 7equieren un con&unto diferente de capacidades y (erramientas para construir y mantener la 5*, incrementando el costo y comple&idad de las tareas de soporte. +L$P relacional 87+L$P93 ,oportan productos ,;5*7 mediante el uso de un nivel de metadatos, evitndose as crear una estructura de datos multidimensional esttica. $lgunos productos 7+L$P disponen de motores ,GL me&orados para soportar la comple&idad del anlisis multidimensionalI pero otros productos recomiendan usar 5*s altamente desnormalizadas como el esquema en estrella.

Los problemas de desarrollo asociados con la tecnologa 7+L$P son3 a9 Problemas de rendimiento asociados con el procesamiento de consultas comple&as que requieran efectuar m"ltiples pasadas a travs de los datos relacionales. b9 *esarrollo de middleware para facilitar el desarrollo de aplicaciones multidimensionales3 softLare que convierta la relacin bidimensional en una estructura multidimensional. c9 *esarrollo de una opcin para crear estructuras multidimensionales persistentes, &unto con las funciones para ayudar a administrarlas. +L$P (brido 80+L$P93 Proporciona capacidades limitadas de anlisis, bien mediante ,;5*7 por un servidor '+L$P intermedio. Hl servidor suministra un cubo de datos que se almacena, analiza y mantiene localmente.

Los problemas de desarrollo asociados con la tecnologa 0+L$P son3 a9 La arquitectura provoca una significativa redundancia de los datos y puede causar problemas en las redes que soporten muc(os usuarios. b9 La capacidad de cada usuario para construir un cubo personalizado puede provocar una falta de co(erencia entre los datos de diferentes usuarios. c9 ,lo puede mantenerse de manera eficiente una cantidad limitada de datos. +L$P de escritorio 8*esMtop +L$P # *+L$P93 $lmacenan los datos +L$P en arc(ivos situados en la plataforma del cliente y soportan el procesamiento multidimensional utilizando un motor multidimensional del lado del cliente. 7equiere e!tractos relativamente pequeFos de los datos en las mquinas de los clientes, los cuales pueden distribuirse por adelantado ba&o peticin.

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

22

Procesamiento Analtico en Lnea (OLAP)

Los problemas de desarrollo asociados con la tecnologa *+L$P son3 a9 Provisin de controles de seguridad apropiados, ya que los datos se e!traen fsicamente del sistema. b9 ,e necesita reducir el esfuerzo necesario para implementar y mantener (erramientas *+L$P c9 Las tendencias actuales apuntan (acia el uso de clientes simples.

./tensiones OLAP a la norma 01L


Una limitacin de ,GL para los analistas empresariales es su dificultad para responder a consultas frecuentes en dic(o entorno como el clculo del porcenta&e de cambio de una serie de valores entre el mes actual y el correspondiente del aFo anterior, calcular una serie de medias mviles, sumas acumulativas y otras funciones estadsticas. Hl estndar ,GL3 6DD: 8/,+-/H1 AD?=#69 soporta la funcionalidad +L$P al proporcionar una serie de e!tensiones para3 2.# 1apacidades de agrupacin ampliadas 8)<:29 La agregacin se proporciona mediante e!tensiones a la clusula ;7+UP 5N3 2.2.# H!tensin 7+LLUP a ;7+UP 5N3 Permite calcular m"ltiples niveles de subtotales seg"n un grupo especificado de dimensiones. ,HLH1) O ;7+UP 5N 7+LLUP 8lista de columnas9 2.6.# H!tensin 1U5H para ;7+UP 5N3 4orma un con&unto especificado de columnas de agrupamiento y crea subtotales para todas las posibles combinaciones. ,HLH1)O ;7+UP 5N 1U5H 8lista de columnas9 1U5H puede utilizarse en cualquier situacin donde sea necesario informe de tablas cruzadas. Hs especialmente adecuado en aquellas columnas que usen m"ltiples dimensiones, en lugar de columnas que representen diferentes niveles de una misma direccin. 6.# +peradores +L$P elementales 8)>229 Los operadores +L$P elementales del estndar ,GL soportan diversas operaciones3

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

26

Procesamiento Analtico en Lnea (OLAP)


6.2.# 4unciones de clasificacin ordenada3 1alcula la posicin de un registro en relacin con los restantes registros del con&unto de datos, basndose en los valores de un con&unto de medidas. 0ay distintos tipos de funciones de clasificacin. H&emplos3 7$.P 8 9 +%H7 8+7*H7 5N listaQdeQ1olumnas9 *H.,HQ7$.P8 9 +%H7 8+7*H7 5N listaQdeQ1olumnas9 La diferencia entre ambos operadores est en que *H.,HQ7$.P no de&a (uecos en la secuencia de clasificacin cuando e!isten empates para un cierto puesto. 6.6.# 1lculos de ventana mvil3 Pueden utilizarse para calcular agregados acumulativos, mviles y centrados. ,e devuelve un valor para cada fila de una tabla que depender de otras filas dentro de la ventana correspondiente.

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

2:

Minera de Datos Minera de Datos (Data Mining )


Proceso de e!traer informacin vlida, previamente desconocida, comprensible y "til de bases de datos de gran tamaFo y utilizar dic(a informacin para tomar decisiones de negocios. H&emplos de aplicaciones3 # 1omercio al por menor - marMeting /dentificacin de patrones de compra de los clientes *eterminacin de asociaciones entre las caractersticas demogrficas de los clientes Prediccin de la respuesta a las campaFas de publicidad $nlisis de cestas de la compra # 5anca *eteccin de patrones de uso fraudulento de tar&etas de crdito /dentificacin de clientes leales Prediccin de clientes que tienen probabilidad de cambiar de suministrador de servicio *eterminacin de los gastos realizados por ciertos grupos de clientes # ,eguros $nlisis de partes Prediccin de los clientes que suscriben nuevas plizas # 'edicina 1aracterizacin del comportamiento de los pacientes para predecir las visitas quir"rgicas /dentificacin de terapias mdicas adecuadas para diferentes enfermedades

Tcnicas de "iner!a de datos


0ay cuatro operaciones principales3 2. 'odelado predictivo Puede utilizarse para analizar una base de datos e!istente con el fin de determinar ciertas caractersticas esenciales 8modelo9 acerca del con&unto de datos. ,e utilizan observaciones para formar un modelo de las caractersticas ms importantes de alg"n tipo de fenmeno. Hs similar al proceso de aprendiza&e (umano. Hl modelo se desarrolla utilizando una tcnica de aprendiza&e supervisado que tiene dos fases3 entrenamiento y prueba. La fase de entrenamiento construye un modelo utilizando una muestra de datos (istricos denominada con&unto de entrenamiento. Las pruebas permiten comprobar el modelo utilizando datos nuevos, no empleados previamente para el entrenamiento. 1lasificacin3 )cnica empleada para establecer una clase predeterminada especfica para cada registro de una 5*. 0ay dos tipos bsicos3 induccin en rbol e induccin neuronal.

Prediccin de valores3 ,e utiliza para estimar un valor numrico continuo que est asociado con un registro de 5*. 6. ,egmentacin de la 5ase de *atos ,u ob&etivo es realizar la particin de la 5* en un n"mero desconocido de segmentos cl"steres de registros similares3 compartiendo un con&unto de propiedades, y que, por ello, se consideran
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

2<

Minera de Datos
(omogneos. Los segmentos tienen una alta (omogeneidad interna y alta (eterogeneidad e!terna. Hste enfoque utiliza aprendiza&e .+ supervisado para descubrir subcon&untos (omogneos dentro de una base de datos con el fin de me&orar la precisin de los perfiles. ,e asocia con las tcnicas de agrupacin neuronal demogrfica, que se distinguen por los tipos permitidos de datos de entrada, los mtodos utilizados para calcular la distancia entre los registros y la presentacin de los segmentos resultantes para su anlisis. :. $nlisis de enlaces )rata de establecer vnculos, denominados asociaciones, entre los registros individuales entre los con&untos de registros de una 5*. 0ay tres tipos3 a9 descubrimiento de asociaciones3 trata de encontrar elementos que impliquen la presencia de otros elementos en el mismo sucesoI b9 descubrimiento de patrones secuenciales3 trata de encontrar patrones entre sucesos tales que la presencia de un con&unto de elementos es seguida por otro con&unto de elementos en una 5* de sucesos a lo largo de un perodo de tiempoI y c9 descubrimiento de secuencias temporales similares3 se utiliza para descubrir enlaces entre dos con&untos de datos que sean dependientes del tiempo, y est basado en el grado de seme&anza e!(ibido por ambas series temporales. <. *eteccin de desviaciones )cnica novedosa que identifica las e!cepciones3 que e!presa la desviacin con respecto a una cierta e!pectativa a una norma previamente conocida.

.l proceso de "iner!a de %atos


H!iste una especificacin denominada Proceso estndar intersectorial para la minera de datos 817oss /ndustry ,tandard Process for *ata 'ining E 17/,P#*'9 cuyo ob&etivo es (acer que los grandes proyectos de *' funcionen de manera eficiente y que sean mas baratos, fiables y con me&or factibilidad de gestin. La metodologa 17/,P#*' es un modelo de proceso &errquico. Hl proceso se divide en seis fases genricas3 a9 1omprensin del negocio3 ,e centra en comprender los requisitos y ob&etivos del proyecto desde la perspectiva del negocio. b9 1omprensin de los datos3 /ncluye la recopilacin inicial de datos y se preocupa por establecer sus principales caractersticas. c9 Preparacin de los datos3 $ctividades para construir el con&unto final de datos al que pueden aplicrsele las (erramientas de modelado. d9 'odelado3 Propiamente 'inera. /mplica seleccionar las tcnicas de modelado, los parmetros y evaluar el modelo. e9 Hvaluacin3 %alida el modelo desde el punto de vista del anlisis de datos. f9 /mplantacin3 Hl conocimiento obtenido y refle&ado en el modelo tiene que organizarse y presentarse de una manera comprensible por parte de los usuarios.

Herramientas
Las caractersticas ms importantes son3 29 Preparacin de los datos3 $specto que demanda mayor tiempo. Puede dar soporte a operaciones de limpieza, transformacin, etc., de datos, as como para muestreo con vistas a la creacin de con&untos para entrenamiento y validacin, etc. 69 ,eleccin de las operaciones 8algoritmos9 de minera de datos3 ,u comprensin asegurar que cumplan los requisitos que demandan los usuarios. Hs importante conocer como los distintos algoritmos tratan los tipos de datos de las variables de respuesta y variables predictoras 8columnas de la 5* que pueden usarse para construir un modelo predictor de los valores de otra columna9, la rapidez con que llevan a cabo la fase de entrenamiento y la velocidad con que
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

2=

Minera de Datos
operan sobre nuevos datos. *ebe analizarse su sensibilidad al ruido 8diferencia entre un modelo y sus predicciones9, establecer sensibilidad a la falta de datos de un algoritmo dado y robustez de patrones que dic(o algoritmo descubre en presencia de datos irrelevantes incorrectos. :9 Hscalabilidad y prestaciones del producto3 1onsideraciones importantes cuando se traba&a con datos crecientes en trminos del n"mero de filas columnas, posiblemente con controles de validacin sofisticados. Puede demandar el uso de tecnologas de multiprocesamiento simtrico 8,ymmetric 'ulti Processing E ,'P9 de procesamiento masivamente paralelo 8'assively Parallel Processing E 'PP9 <9 4uncionalidades para comprender los resultados, proporcionadas mediante medidas que describan la precisin y lo significativo de los datos, permitiendo que el usuario analice la sensibilidad del resultado. )ambin es "til la presentacin de resultados con el empleo de varias maneras alternativas, por e&emplo, visualmente. Una matriz de confusin muestra el n"mero real de valores de una clase comparndolo con el n"mero predic(o. /lustra la capacidad predictiva del modelo y presenta los detalles necesarios para ver donde pudiera estar fallando. Hl anlisis de sensibilidad determina la sensibilidad del modelo respecto a pequeFas fluctuaciones de un valor predictor. Permite evaluar los efectos que tienen el ruido y los cambios ambientales sobre la precisin del modelo. Las tcnicas de visualizacin permiten mostrar los datos grficamente para facilitar la comprensin de su significado. Las capacidades van desde las simples grficas de dispersin (asta representaciones multidimensionales comple&as3

"iner!a de datos y almacenes de datos


Un desafo principal para las organizaciones es identificar los datos ms adecuados para aplicar estas tcnicas. La 'inera de *atos necesita una fuente de datos unificada, independiente, limpia, integrada y auto co(erente. Un almacn de datos est bien preparado para proporcionar los datos requeridos por la 'inera de *atos.

Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')

2>

También podría gustarte