Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad1 pdf3 PDF
Unidad1 pdf3 PDF
Índice
Objetivos
Los objetivos principales perseguidos en esta clase son:
• Entender los conceptos de: data mart., ODS, OLAP y Data Mining.
1 Componentes Asociados
Los datos de origen para el DWH pueden estar contenidos en varios sistemas
Los componentes asociados al DWH
diferentes. Para que el DWH sea cargado, un proceso debe ser desarrollado. Los datos
serían el área staging, procesos ETL y
de los sistemas origen deben ser:
capa de presentación (data marts,
reportes…)
• Extraídos de los sistemas de origen.
• Cargados en el DWH.
Los metadatos del negocio impulsan las reglas que los programas ETL necesitan
utilizar, ya que con esos metadatos técnicos se define el cómo realizar esas r eglas.
Metadatos
Este espacio de almacenamiento es por lo general un punto de destino para los datos
una vez que se han extraído por la ETL de los sistemas de origen. Este espacio de
almacenamiento Staging se encuentra antes de que cualquier transformación sea
llevada a cabo por el proceso de ETL.
Simplemente a modo de curiosidad, Ralph Kimball (uno de los autores más prestigiosos
de DWH) a menudo compara el área staging con la cocina de un restaurante. El cliente
nunca accede a ella y es el lugar dónde la información es preparada para ser servida a
los usuarios.
Es una especie de zona invisible sin acceso al usuario no viendo lo que hay ahí pero
absolutamente crítico para el sistema.
Una vez que el DWH se ha aprovisionado con los datos integrados correctos, los
informes pueden ser creados para “recuperar" los datos y presentarlos de manera
efectiva a los usuarios de negocios.
Herramientas de reporte
Como el DWH puede contener una gran cantidad de datos, se recomienda crear data
marts sobre temas específicos en la parte superior del DWH con el objetivo del acceso
a datos.
Estos data marts contendrán subconjuntos de temas específicos de los datos, que
contiene el DWH, por tanto, será más eficiente para la recuperación de datos. Estos
data marts no son un medio de reemplazo para el DWH y siempre deberían derivarse
del DWH.
Data marts
Las dos arquitecturas que podríamos encontrarnos sería disponer de data marts
El DWH es el componente central de la independientes (imagen izquierda) o data marts integrados (imagen derecho)
arquitectura de Business Intelligence.
Data marts
La carga de datos desde los sistemas de origen a diversos data marts sin disponer de
un DWH que consolide la información y les sirva de origen da como resultado un
descontrol de los datos:
Las características que implica esta visión de data marts integrados son:
• Cada data mart corresponde con un subconjunto lógico del almacén de datos.
Suele ser planificado, diseñado y ejecutado por una organización central de TI,
ejecutando una estrategia global de apoyo a la decisión
En este caso, sería posible el uso de estos data marts como sistemas de origen y crear
un DWH encima de ellos.
En este enfoque podría crearse un datawarehouse mediante varios data marts que no
están linkados, de manera que los datos fueran consolidados. Este enfoque requiere
actividad de limpieza y calidad de los datos.
Destacar que es el enfoque opuesto a lo que sugieren las buenas prácticas, pero podría
ser aceptado dependiendo de los sistemas actuales de los clientes.
Un almacén operacional de datos, también llamado ODS (del inglés Operational Data
Store), es un contenedor de datos transaccionales, es decir, está diseñado para integrar
datos de múltiples fuentes con los que realizar operaciones adicionales en los propios
datos. A diferencia de un almacén de datos maestro, los datos no vuelven de nuevo a
los sistemas operacionales de origen, sino que se preparan para la realización de otras
operaciones o para ser incorporados a un almacén de datos (o data warehouse) para
ser explotados en la realización de informes. Por tanto, se puede decir que un sistema
ODS estará ubicado entre uno o varios sistemas OLTP (origen) y un sistema OLAP
(destino).
Dado que los datos se originan a partir de múltiples fuentes, la integración a menudo
implica limpiar dichos datos, resolver redundancias y comprobar la integridad de los
mismos según las reglas del negocio. Un ODS está generalmente diseñado para
contener datos atómicos (indivisibles). Al contrario que los almacenes de datos la
actualización de los datos se realiza con una ventana temporal muy pequeña (a veces
en tiempo real), y contiene un histórico limitado de los mismos (volátil), por lo que se
pueden considerar un área de memoria temporal (los almacenes de datos constituyen
un histórico de datos completo y persistente).
El propósito general de un ODS es integrar los datos de los sistemas de origen dispares
en una sola estructura, utilizando las tecnologías de integración de datos como la
virtualización de datos, la federación de datos, o de extracción, transformación y carga.
Esto permitirá el acceso operacional a los datos, es decir, permitirá la realización de
informes bajo demanda, la gestión del maestro de datos o de datos de referencia.
Un ODS no sustituye a un almacén de datos, sino que puede convertirse en una de sus
fuentes.
Cubos OLAP
La razón de usar OLAP para las consultas es la rapidez de respuesta. Una base de datos
relacional almacena entidades en tablas discretas si han sido normalizadas. Esta
estructura es buena en un sistema OLTP pero para las complejas consultas multitabla
es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto
de vista operativo) es una base de datos multidimensional.
Entorno OLAP
La minería de datos generalmente se dirige a datos atómicos (por ejemplo, los datos de
las cestas de la compra), utilizando una aplicación cliente en el servidor de Data Mining
que extrae un subconjunto de datos del DWH.
Una vez revelada, esta información puede ser analizada y explotada, permitiendo así
producir un mayor valor a partir de los datos (es decir, agrupamiento, clasificación,
predicción, previsión, macheo).
Data mining
El ejemplo típico es sobre los productos que con frecuencia están presentes juntos en
la misma cesta de la compra (es decir, la fresa y la crema, cerveza y frutos secos, etc.)
IBM → InfoSphere Warehouse es la nueva oferta que IBM ha introducido para facilitar a
las empresas una mejor gestión de sus crecientes cantidades de datos, aunando en una
misma solución capacidades de archivo y data warehousing. La base de datos de IBM
se llama Netezza.
Oracle → El sistema gestor de base de datos se llama Oracle. Además esta compañía
ofrece una plataforma de almacenamiento de datos junto con una seria de aplicaciones.
Microsoft → Microsoft SQL Server es un sistema gestor de bases de datos del modelo
relacional, desarrollado por la empresa Microsoft.
5 Consideraciones
• Los costes de hardware: discos, redes, servidores de base de datos y ETL, PCs
de escritorio
• Los costes de personal interno: la gente senior del negocio, expertos en sistemas
origen
• La formación al usuario
• La formación de TI
6 Conclusiones
Para finalizar con éxito el desarrollo de un DWH se debe “pensar en grande empezando
en pequeño” con la siguiente implicación:
• Asegurar que el modelo de datos abarca todas las dimensiones clave del
negocio centrándose en el avance de la consecución de retos particulares
evitando así la “parálisis de análisis”.
• Mostrar capacidad para ofrecer un valor rápido y para comunicar y adherir para
iterar técnicas de diseño.
7 Bibliografía Esencial
La siguiente bibliografía debería ser leída con atención con el fin de que se afiancen los
conocimientos teóricos expuestos el tema.
http://mundodb.es/diseno-data-warehouse-hechos-y-dimensiones-modelo-
estrella-vs-copo-de-nieve
http://www.dataprix.com/componentes-tener-en-cuenta-la-hora-de-construir-
un-data-warehouse
Enlace:
https://es.wikipedia.org/wiki/Sistema_de_procesamiento_de_transacciones
8 Bibliografía Recomendada
En las siguientes comunidades se puede ampliar profundamente sobre los temas vistos
en el tema.
http://mundodb.es/category/business_intelligence
Enlace:https://www.monografias.com/trabajos17/data-warehouse/data-
warehouse.shtml