Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Almacenes de Datos, OLAP y Minería de Datos
Almacenes de Datos, OLAP y Minería de Datos
Un almacn de datos es una tecnologa de gestin y anlisis de los datos. Puede definirse como una coleccin de datos clasificados por temas, integrada, variable en el tiempo y no voltil que se utiliza como ayuda al proceso de toma de decisiones por parte de quienes dirigen una organizacin. Los almacenes eb de datos son almacenes de datos distribuidos que se implementan sobre la eb, no e!istiendo ning"n repositorio centralizado.
Ventajas:
# # # $lto retorno de inversin %enta&as competitivas derivadas de su utilizacin 'ayor productividad de los responsables de la toma de decisiones
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
Las principales componentes de un almacn de datos son3 2. 4uentes de *atos operacionales3 todos los datos operacionales previamente almacenados en 5*s, arc(ivos propietarios, estaciones primarias de traba&o e incluso en sistemas e!ternos como /nternet, bases de datos comerciales bases de datos dependientes de los proveedores clientes de la organizacin. 6. 7epositorio de datos operacionales 8+peracional *ata ,tore # +*,93 es un almacn de datos operacionales actuales e integrados que se utilizan para el anlisis. :. ;estor de carga 8 componente de interfaz93 realiza todas las operaciones asociadas con la e!traccin y carga de los datos en el almacn. ,e incluyen transformaciones simples. <. ;estor del almacn de datos3 realiza las operaciones asociadas con la gestin de datos dentro del almacn. /ncluye el anlisis de los datos para garantizar su co(erencia, transformacin y combinacin de datos de origen, creacin de ndices y vistas, generalizacin de agregaciones y desnormalizaciones, y el arc(ivado y copia de seguridad de los datos. =. ;estor de consultas 8 componente de servicio93 realiza todas las operaciones asociadas con la gestin de las consultas de los usuarios3 dirigir consultas (acia tablas apropiadas y planificar su e&ecucin. >. *atos detallados3 rea del almacn que guarda todos los datos detallados contenidos en el esquema de la 5*. ?. *atos poco resumidos y muy resumidos3 guarda todos los datos, poco muy resumidos 8agregados9, que (ayan sido establecidos por el gestor de datos como res"menes predefinidos. @. *atos de arc(ivo - copia de seguridad3 guarda los datos detallado y resumidos con el propsito de mantener un arc(ivo y disponer de copias de seguridad. A. 'etadatos3 guarda todas las definiciones de metadatos 8datos acerca de los datos9 utilizadas por todos los procesos del almacn. ,e utilizan para propsitos tales como3
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
<
# #
1uestiones fundamentales en los mercados de datos # 4uncionalidad3 Las capacidades se (an incrementado. La comple&idad y el tamaFo de algunos mercados de datos es comparables con algunos almacenes corporativos de ba&a gama. # )amaFo3 Los usuarios esperan tiempos de respuesta ms cortos. # %elocidad de carga3 *eben equilibrarse dos componentes crticos3 tiempo de respuesta de las consultas del usuario final y velocidad de carga de los datos. # $cceso de los usuarios a m"ltiples mercados de datos3 Una tcnica posible es replicar datos entre diferentes mercados, otra construir mercados de datos virtuales. # $cceso /nternet - intranet al mercado de datos3 ba&o costo, utilizando navegadores. # $dministracin3 .ecesidad de gestionar y coordinar centralizadamente las actividades de los mercados de datos. ,urgen problemas con las versiones, co(erencia e integridad de los datos y metadatos, seguridad del nivel corporativo y con los a&ustes del rendimiento.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
>
"odelado de la dimensionalidad
)cnica de diseFo lgico que trata de presentar los datos de una manera estndar e intuitiva que permita un acceso de alto rendimiento. Utiliza los conceptos del modelado Hntidad E 7elacin 8H79, con algunas restricciones importantes. )odo modelo dimensional 8dimensional model E *'9 est compuesto de una tabla con una clave principal compuesta, denominada ta3la de 4ec4os, y un con&unto de tablas mas pequeFas denominadas ta3las de dimensi5n. 1ada tabla de dimensin tiene una clave principal simple 8no compuesta9 que se corresponde con e!actamente uno de los componentes de la clave compuesta de la tabla de (ec(os. )odas las claves naturales se sustituyen por claves subrogadas de manera que toda combinacin entre la tabla de (ec(os y las de dimensiones estn basadas en estas claves subrogadas. # Hsquema 8 combinacin9 en estrella3 Hstructura lgica que tiene una tabla de (ec(os que contiene datos 1actuales en el centro, rodeada por tablas de dimensin que contienen datos de referencia. # Hsquema en copo de nieve3 %ariante en el que las tablas de dimensin no contienen datos desnormalizados. # Hsquema en copo de estrella3 Hstructura (brida que contiene mezcla de esquemas en estrella y en copo de nieve. La forma predecible y estndar del modelo dimensional ofrece venta&as para un entorno de almacn de datos3 # Hficiencia3 La co(erencia de la estructura de 5* subyacente permite un acceso ms eficiente a los datos por parte de las distintas (erramientas, incluyendo las de consultas y generacin de informes. # Posibilidad de gestionar requisitos cambiantes, ya que el esquema puede adaptarse a cambios en los requisitos de los usuarios producto de que todas las dimensiones son equivalentes en trminos de proporcionar acceso a la tabla de (ec(os. Hl diseFo est me&or adaptado para soportar consultas ad hoc. # $mpliabilidad para3 a9 permitir adicin de nuevos (ec(os, siempre que sean co(erentes con la granularidad fundamental de la tabla de (ec(os e!istenteI b9 adicin de nuevas dimensiones, siempre y cuando (aya un "nico valor de dic(a dimensin definido para cada registro de (ec(os e!istenteI c9 $dicin de nuevos atributos dimensionalesI y d9 descomposicin de los registros de dimensin e!istentes para tener un menor nivel de granularidad a partir de un cierto instante temporal. # 1apacidad de modelar situaciones empresariales comunes. # Procesamiento de consultas predecible, ya que en el nivel mas ba&o, cada tabla de (ec(os debe ser consultada de manera independiente.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
Caracter!sticas
# %istas multidimensionales de los datos3 requisito fundamental para la construccin de un modelo de negocio BrealistaC. Una vista multidimensional de los datos proporciona la base para el procesamiento analtico, al permitir un acceso fle!ible a los datos corporativos. *ebe tratar todas las dimensiones de manera equitativa. .o debe influenciar los tipos de operaciones permitidas sobre una determinada dimensin ni la tasa a la que estas operaciones se realicen. *ebe permitir que los usuarios analicen los datos seg"n cualquier dimensin y en cualquier nivel de agregacin, manteniendo una misma funcionalidad y facilidad de uso. /gualmente, debe soportar todas las vistas multidimensionales de los datos en la manera mas intuitiva posible. Los sistemas +L$P deben ocultar lo ms posible a los usuarios la sinta!is de consultas comple&as y proporcionar tiempos de respuesta siempre cortos para todas las consultas, independientemente de su comple&idad. # ,oporte para clculos comple&os3 Hl softLare debe proporcionar diversos mtodos de clculo suficientemente potentes, como los requeridos para realizar previsiones de ventas, que utilizan algoritmos de clculos de tendencias3 medias mviles y crecimientos porcentuales. # /nteligencia temporal3 1aracterstica clave. *ebe poderse definir conceptos como acumulados de aFo, comparaciones entre perodos, etc. 5eneficios3 # mayor productividad de los usuarios finales de la organizacin, de los desarrolladores de los departamentos de tecnologas de la informacin, acceso controlado y oportuno a la informacin de carcter estratgicoI # reduccin en la carga de traba&o de desarrollo de aplicaciones, pues brinda autosuficiencia para los usuarios finales que pueden desarrollar sus propios modelos y cambios de esquemaI # se conserva el control sobre la integridad de los datos corporativos, ya que los sistemas +L$P dependen de los almacenes de datos y de los sistemas +L)P para refrescar sus datos de origenI # menor frecuencia de consultas y menor trfico de los sistemas +L)P en el almacn de datosI # mayores ingresos y beneficios potenciales al permitir que la organizacin responda rpidamente a las demandas del mercado.
Los problemas de desarrollo asociados con la tecnologa '+L$P son3 a9 ,lo pueden almacenarse y analizarse de manera eficiente una cantidad limitada de datos.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
2D
Los problemas de desarrollo asociados con la tecnologa 7+L$P son3 a9 Problemas de rendimiento asociados con el procesamiento de consultas comple&as que requieran efectuar m"ltiples pasadas a travs de los datos relacionales. b9 *esarrollo de middleware para facilitar el desarrollo de aplicaciones multidimensionales3 softLare que convierta la relacin bidimensional en una estructura multidimensional. c9 *esarrollo de una opcin para crear estructuras multidimensionales persistentes, &unto con las funciones para ayudar a administrarlas. +L$P (brido 80+L$P93 Proporciona capacidades limitadas de anlisis, bien mediante ,;5*7 por un servidor '+L$P intermedio. Hl servidor suministra un cubo de datos que se almacena, analiza y mantiene localmente.
Los problemas de desarrollo asociados con la tecnologa 0+L$P son3 a9 La arquitectura provoca una significativa redundancia de los datos y puede causar problemas en las redes que soporten muc(os usuarios. b9 La capacidad de cada usuario para construir un cubo personalizado puede provocar una falta de co(erencia entre los datos de diferentes usuarios. c9 ,lo puede mantenerse de manera eficiente una cantidad limitada de datos. +L$P de escritorio 8*esMtop +L$P # *+L$P93 $lmacenan los datos +L$P en arc(ivos situados en la plataforma del cliente y soportan el procesamiento multidimensional utilizando un motor multidimensional del lado del cliente. 7equiere e!tractos relativamente pequeFos de los datos en las mquinas de los clientes, los cuales pueden distribuirse por adelantado ba&o peticin.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
22
Los problemas de desarrollo asociados con la tecnologa *+L$P son3 a9 Provisin de controles de seguridad apropiados, ya que los datos se e!traen fsicamente del sistema. b9 ,e necesita reducir el esfuerzo necesario para implementar y mantener (erramientas *+L$P c9 Las tendencias actuales apuntan (acia el uso de clientes simples.
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
26
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
2:
Prediccin de valores3 ,e utiliza para estimar un valor numrico continuo que est asociado con un registro de 5*. 6. ,egmentacin de la 5ase de *atos ,u ob&etivo es realizar la particin de la 5* en un n"mero desconocido de segmentos cl"steres de registros similares3 compartiendo un con&unto de propiedades, y que, por ello, se consideran
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
2<
Minera de Datos
(omogneos. Los segmentos tienen una alta (omogeneidad interna y alta (eterogeneidad e!terna. Hste enfoque utiliza aprendiza&e .+ supervisado para descubrir subcon&untos (omogneos dentro de una base de datos con el fin de me&orar la precisin de los perfiles. ,e asocia con las tcnicas de agrupacin neuronal demogrfica, que se distinguen por los tipos permitidos de datos de entrada, los mtodos utilizados para calcular la distancia entre los registros y la presentacin de los segmentos resultantes para su anlisis. :. $nlisis de enlaces )rata de establecer vnculos, denominados asociaciones, entre los registros individuales entre los con&untos de registros de una 5*. 0ay tres tipos3 a9 descubrimiento de asociaciones3 trata de encontrar elementos que impliquen la presencia de otros elementos en el mismo sucesoI b9 descubrimiento de patrones secuenciales3 trata de encontrar patrones entre sucesos tales que la presencia de un con&unto de elementos es seguida por otro con&unto de elementos en una 5* de sucesos a lo largo de un perodo de tiempoI y c9 descubrimiento de secuencias temporales similares3 se utiliza para descubrir enlaces entre dos con&untos de datos que sean dependientes del tiempo, y est basado en el grado de seme&anza e!(ibido por ambas series temporales. <. *eteccin de desviaciones )cnica novedosa que identifica las e!cepciones3 que e!presa la desviacin con respecto a una cierta e!pectativa a una norma previamente conocida.
Herramientas
Las caractersticas ms importantes son3 29 Preparacin de los datos3 $specto que demanda mayor tiempo. Puede dar soporte a operaciones de limpieza, transformacin, etc., de datos, as como para muestreo con vistas a la creacin de con&untos para entrenamiento y validacin, etc. 69 ,eleccin de las operaciones 8algoritmos9 de minera de datos3 ,u comprensin asegurar que cumplan los requisitos que demandan los usuarios. Hs importante conocer como los distintos algoritmos tratan los tipos de datos de las variables de respuesta y variables predictoras 8columnas de la 5* que pueden usarse para construir un modelo predictor de los valores de otra columna9, la rapidez con que llevan a cabo la fase de entrenamiento y la velocidad con que
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
2=
Minera de Datos
operan sobre nuevos datos. *ebe analizarse su sensibilidad al ruido 8diferencia entre un modelo y sus predicciones9, establecer sensibilidad a la falta de datos de un algoritmo dado y robustez de patrones que dic(o algoritmo descubre en presencia de datos irrelevantes incorrectos. :9 Hscalabilidad y prestaciones del producto3 1onsideraciones importantes cuando se traba&a con datos crecientes en trminos del n"mero de filas columnas, posiblemente con controles de validacin sofisticados. Puede demandar el uso de tecnologas de multiprocesamiento simtrico 8,ymmetric 'ulti Processing E ,'P9 de procesamiento masivamente paralelo 8'assively Parallel Processing E 'PP9 <9 4uncionalidades para comprender los resultados, proporcionadas mediante medidas que describan la precisin y lo significativo de los datos, permitiendo que el usuario analice la sensibilidad del resultado. )ambin es "til la presentacin de resultados con el empleo de varias maneras alternativas, por e&emplo, visualmente. Una matriz de confusin muestra el n"mero real de valores de una clase comparndolo con el n"mero predic(o. /lustra la capacidad predictiva del modelo y presenta los detalles necesarios para ver donde pudiera estar fallando. Hl anlisis de sensibilidad determina la sensibilidad del modelo respecto a pequeFas fluctuaciones de un valor predictor. Permite evaluar los efectos que tienen el ruido y los cambios ambientales sobre la precisin del modelo. Las tcnicas de visualizacin permiten mostrar los datos grficamente para facilitar la comprensin de su significado. Las capacidades van desde las simples grficas de dispersin (asta representaciones multidimensionales comple&as3
Fuente: Connolly,T.M. y Begg,C. . !"istemas de B#$ Pearson, %&&'( Parte ): Ca*tulos +, al +-( ** ,&+'.,,%/ 0esumido *or: Dr. Juan Jos Aranda Aboy Pro1esor Titular (2rado ')
2>