Está en la página 1de 9

Unidad 2 apuntes:

Según W.H Dimon


A Data Warehouse es una recopilación de datos de tema orientado, integrado, variante de tiempo y
colección de datos no volátil en el soporte de administración del proceso de toma de decisiones.
Características Data Warehourse – Tema orientado:

 Provee una visión simple y concisa sobre cuestiones temática particulares por exclusión.
 Se centra en el modelado y análisis de los datos para los tomadores de decisiones, no en
las operaciones diarias o procesamiento de transacciones.
Características Data Warehourse – Integreded:

 Construido por la integración de múltiples y heterogéneas (formado por elementos de


distinta calae) fuentes de datos.
 Técnicas de integración de datos y de limpieza de datos son aplicadas:
 Garantizar la coherencia de las convenciones (estrictas) de nomenclatura,
Características Data Warehourse – Variante en el tiempo:

 El horizonte de tiempo en DW es significativamente mas largo que el de los sistemas de


bases de datos operaciones.
 La información es útil solo cuando es estable (no tiene modificaciones constantes).
Características Data Warehourse – Nonvolatile:

 Se trata de un almacenamiento físicamente separado, de datos transformados desde el


ambiente operativo.
 La actualización de los datos no se produce en el entorno DW.
o Volátil: La información puede borrarse.
o No volátil: La información no puede borrarse.

OLTP y OLAP

 OLTP (On Line Transaction Processing) Los sistemas de transacciones tradicionales son
inapropiados para el soporte a las decisiones, suelen realizar tareas repetitivas muy bien
estructuradas e implican transacciones cortas y actualizaciones generalmente.

 Data Warehouse gran herramienta para integrar fuentes de datos heterogéneas y darles
lugar a los sistemas OLAP (On Line Analytics Processing).
 Los sistemas de soporte a las decisiones requieren la realización de consultas complejas
que involucran muchos datos e incluyen funciones de agregación.
¿Por qué tener un DW separa?
Mantener el rendimiento en ambos sistemas:

 DBMS están optimizados para OLTP. Métodos de acceso, Indexación (con un índice que
permite un orden), control de concurrencias (múltiples usuarios puedan acceder a esta),
mecanismos de recuperación.
 DW esta optimizado para OLAP. Resolver consultas complejas, vista, multidimensionales,
consolidaciones.
Diferentes funciones y diferentes datos:

 DSS requiere datos históricos.


 Consolidación de datos: DSS requieren consolidar (agregación, somatización) datos
heterogneos
ETLR (Extraer, Transformar, Cargar, Refrescar)
Arquitectura de múltiples capas de un DW
Capa 1: Recursos de datos
 Otros recursos
 Operaciones de BDs
Capa 2: Almacenamiento de datos
 Monito e integración
Capa 3 (OLAP Engine)
 Servidor OLAP
 Servicios
Capa 4 (Herramientas de Front-End)
 Consultas de Analisis
Tres modelos de DW

 DW Empresarial: Recoge toda la información sobre temas que abarcan toda la


organización
 Data mart: Un subconjunto de datos en toda la empresa que de valor para un grupo
especifico de usuarios
 Virtual Warehouse: Conjunto de vista sobre un sistema de OLTP. Solamente algunas de
las posibles sumarizaciones pueden ser materializadas (realizadas).
Las herramientas ETL:
Son piezas de software responsables de la extracción de datos desde varias fuentes, su limpieza,
puesta a punto, re formateo, integración e inserción en un DataWarehouse
Construir el proceso de ETL es una de las grandes tareas de la implementación de un data
warehouse.

La construcción de un data warehouse requiere enfocarse en entender tres cuestiones:


 Las fuentes de datos
 Quienes son los destinatarios
 Y como mapeas esos datos

Extracción de datos:
 Obtener datos de múltiples, heterogéneos y fuentes externas.
Limpieza de datos:
 Errores detectados en los datos y rectificarlos cuando sea posible.
Transformación de datos:
 Convertir datos de Legado o formato local a formato Warehouse
Carga:
 Clasificar, consolidar, sumariar, revisar, integrar indicios de construcción y particiones.
Refrescar:
 Propagar las actualizaciones de las fuentes de datos a la Warehouse.

Repositorio de metadatos
Metadato: Son los datos que definen a los objetos en DW. Datos que contienen datos, sirven para
suministrar información de los datos producidos.
En él se almacenan:

 Descripciones de la estructura del DW, Esquema, Vista, dimensiones, jerarquías.


 Metadato operacional: El linaje de los datos, datos en circulación, información de
monitoreo.
 Los algoritmos utilizados para la sumarización.
 Como es el mapeo desde el OLTP al DW.
 Datos relacionados con el rendimiento del sistema:
 Datos del negocio:
Modelo multidimensional:

 Las herramientas de DW y OLAP se basan en un modelo de datos multidimensional.


 Este modelo ve los datos como “cubos”.
 Un cubo permite que los datos sean modelados y visualizados en multiples dimensiones.
Un cubo se compone:

 Dimension Tables: Donde se establecen ítems o tiempo


 Fact Table: Contiene las medidas (y las claves para cada una de las tablas de
dimensiones relacionadas.
n-D (n de dimensiones)
El entramado de cuboides forma un cubo de datos.
Tablas de dimensiones:

 Representa lo que se quiere guardar en relación al problema.


 Cada tabla puede asociarse a otras tablas.
 Pueden ser especificadas por usuarios o expertos y ajustarlas según la distribución de los
datos.
Tabla de hechos:

 El modelo multidimensional es organizado generalmente entorno a un tema.


 El tema se representa en la Tabla de Hechos.
 Los hechos son medidas numéricas, que se expresan en cantidades que permiten
expresar relaciones entre dimensiones.
 TH tienen los nombres de los hechos o las medidas, así como las claves para cada una de
la tabla de dimensiones que se relacionaran.
Claves naturales y Claves Subrogadas:

 Las claves existentes en los OLTP se denominan claves naturales.


 Las claves subrogadas son aquellas que se definen articialmente, son: De tipo numérico
secuencial, No tienen relación directa con ningún dato y No poseen significado en especial.
Fuentes heterogéneas:
El DW sueles alimentarse de diferen fuentes, cada un de ellas con sus propias claves, por
lo que es arriesgado asumir un código de alguna aplicación en particular.
Cambios de en las aplicaciones origen:
Puede cambiar la lógica operacional
Rendimiento:
Ocupa menos espacio que una cadena, se lee mucho más rápido.
Es mejor crear nuestras propias claves subrogadas desde el inicio del proyecto.

Medidas:

 Consiste de 2 componentes: Propiedad numérica de un hecho y Una formula


Las medidas pueden ser 3 clases:
Aditivas:

 Pueden ser combinadas a lo largo de una dimensión.


 Ventas totales, localizacio y tiempo.
Semi-aditivas:
No se las puede combinar a lo largo de una o más dimensiones.
No aditivas:
No se puede combinar a lo largo de cualquier dimensión.
Formas de modelo multidimensional:

 Esquema de estrella
 Esquema de copo de nieve.,
 Constelacion de hechos.
Esquema de estrella:
Es el mas utilizado, donde el DW contiene:
1. Una gran tabla cental (Fact Table) que contiene el volumen de datos sin redundancia.
2. Un conjunto de tablas relacionadas (Dimension Tables) un por cada dimensión.
Cada dimensión es representada por una única tabla y cada tabla contiene un conjunto de
atributos.
Esquema de copo de nieve (Snowflake):

 Variante de estrella, algunas tablas de dimensiones son Normalizadas.


 La normalización genera tablas adicionales y el grafico resultante forma una figura similar a
un copo de nieve.
 El esquema snowflake reduce la redundancia generada en estrella a través de la
normalización.
 Son fáciles de mantener y ahorra espacio de almacenamiento (insignificante).
Problema de Snowflake:

 Reduce la efectividad de navegación por lo JOINS necesarios para correr una Query
(consulta).
 Reduce la redundancia, aunque no es tan popular como estrella.
Esquema constelación de hechos:

 Son múltiples tablas de hechos que comparten Tablas de Dimensiones visto como una
colección de esquemas de estrella.
Esquema de Data Warehouse y Data Mart:
DW:

 Recolecta información aceda de una temática que abarca toda la organización (cliente,
personal, ventas)
 El DW utiliza esquema de constelación.
Data Mart:

 Departamento o subconjunto de los temas de la organización que se enfoca en un tema


puntual, ej: ventas.
 Data Mart usa esquema de estrella y copo de nieve.
Concepto de jerarquía:

 Secuencia de mapeos de un conjunto de conceptos de bajo nivel a alto nivel, es decir,


conceptos más generales.
 Los datos se manejan en diferentes nivele de abstracción.

Modelo multidimensional:

 Roll up (Drill-up): Va de abajo hacia arriba. Reduce dimensiones. Entre menos


dimensiones. Datos resumidos.
o Particular a lo general
o Hora -> Mes -> Trimestre -> Año
 Drill down (Roll down): Elegir solo una parte unitaria. Permite desde un bajo nivel a un
alto nivel de resumen.
o De lo general a lo particular
o Producto -> Subcategoría -> Categoría
 Slice: Permite hacer un corte o proyección. En OLAP es una columna de datos
correspondientes a un solo valor.
 Dice: Permite seleccionar. Es más, una función de zoom que selecciona un subconjunto
sobre todas las dimensiones, pero para valores específicos de la dimensión.
 Pivo (Transpone): Gira el cubo, lo rota en algún sentido.
Servidores OLAP
Modelo Relacional (ROLAP)

 Utilizar la tecnología de BD relacional para el almacenamiento, emplean estructuras de


índices especializados, como bit-map-index, oara tener buen rendimiento en consultas.
Modelo multidimensional (MOLAP)

 Servidores especialmente desarrollados para almacenar y consultar datos


multidimensionales.
 Utiliza estructuras de datos basadas en arreglos.
Modelo hibrido (HOLAP)

 Los datos se almacenan en una BD relacional. Almacena datos agregado en forma


multidimensional.
 Se accede a los datos con herramientas MOLAP.
OLAP multidimensional (MOLAP) Capacidad de análisis.

 Ofrece vistas de objetos multidimensionales.


 El tiempo de respuesta cero, porque todo esta previamente calculado.
 Si no se calcula previamente todo, la capacidad de análisis se limita a aquellas porciones
del cubo ya que fueron previamente calculadas.
Sistema de Diseño suele ser propietario:

 Un cubo es una caja negra de datos encriptados que residen de forma local o en un
servidor MOLAP.
 Flexibilidad y escalabilidad limitada.
 Cambios en el modelo dimensional del negocio implican la generación de todos los cubos
nuevamente.
Ventajas de MOLAP con respecto al análisis de datos.
 Consultas rápidas, por la optimización del rendimiento de almacenamiento, indexación
multidimensional y la memoria cache.
 Ocupa menor tamaño en disco: Comparándose con datos almacenados en BD
relacionales, debido a técnicas de comprensión.
 Automatización del procesamiento de datos agregados de mayor nivel.
 Muy Compacto para conjuntos de datos de pocas dimensiones.
 El modelo de almacenamiento en vectores/matrices proporciona indexación natural
 Eficaz extracción de datos lograda por la pre-estructuración de datos agregados.
Desventajas de MOLAP:

 Etapa de procesamiento y carga de datos, bastante larga.


 Tiene dificultades para consultar modelos con dimensiones muy altas.
 Dificulta para actualizar y consultar modelos con más de diez dimensiones. Varía en
función de la complejidad y dimensión que se trate. Depende de la cantidad de hechos o
medidas almacenadas.
 El enfoque MOLAP introduce la redundancia en los datos.
Modelo multidimencional: ROLAP – Capacidad de análisis de datos.

 Ofrece vistas de objetos multidimensionales.


 Tiempo de respuestas en minutos y segundos.
 Técnicas como Tuning, Caching, Materialización de vistas, indexación y esquema de
diseño mejoran el Performance (Rendimiento) de respuesta en los ROLAP.
 Los datos se almacenas en tablas relacionales de BD relacionales.
 Uso de esquemas: Estrella (Star) y Copo de Nieve (Snowflakes).
 Es el enfoque más común en la práctica.
Sistema de diseño abierto:

 El cliente interactúa directamente contra el RDBMS en SQL en distintos motores.


 Flexibilidad y escalabilidad.
 Los cambios en el modelo dimensional se trasladan al DW e inmediatamente están
disponibles para consultar.
 Ventana de carga del DW es menor, al no existir tiempo de generación de los multi - cubos.
Ambientes adecuados para ROLAP:

 Modelos dimensionales grandes y dinámicos.


 Grandes volúmenes de datos.
 Necesidad de análisis a nivel transaccional.
Implementación de un DW
La estructura es clave para la efectividad del DW.
Formas básicas de la estructura del almacén:

 DW central: La implementación consta de un solo nivel con un solo almacén que soporta
los requerimientos de información de toda la empresa.
 DW distribuido: Estructura de un solo nivel que se particiona para distribuirlo a nivel
departamental.
 DW de dos niveles: Combinación de los dos anteriores que soporta requerimientos de
información a nivel empresarial como departamental.
EIS (Enterprices Intelligence System)
Datos abiertos (Open data)
Refiere a que ciertos datos para uso libre por terceros.
Formatos validos:
JSON, CSV, RDF, XML, y KML

Principios de Open Data


1.- Completos
Todos los datos públicos se ponen a disposición. Los datos públicos son datos que no están
sujetos a limitaciones de privacidad, seguridad o privilegios válidos.
2.- Primarios
Los datos se recogen en la fuente, con el más alto nivel de granularidad, no hay agregaciones o
modificaciones. Este principio exige que para que los datos abiertos sean tales, deben adoptar tres
cualidades ineludibles:
3.- Oportunos
Los datos se pondrán a disposición tan pronto como sea necesario para preservar el valor de los
datos.
4.- Accesibles
Los datos están disponibles para la gama más amplia de usuarios con la más amplia gama de
propósitos.Es fundamental que los datos abiertos puedan ser consultados por todos los
ciudadanos, implicando esto a personas con algún tipo de discapacidad.
5.- Procesables por máquinas
Los datos se estructuran razonablemente para permitir el procesamiento automatizado. Al publicar
datos siempre debemos incluir formatos cuya codificación permita el procesado automático. Estos
formatos deben estar adecuadamente documentados y aclarados.
6.- No discriminatorios
Los datos están disponibles a cualquier persona, sin necesidad de registro.
7.- No propietarios
Los datos están disponibles en un formato sobre el cual ninguna entidad tiene el control exclusivo.
Es necesario que los datos publicados lo estén en un formato abierto, para así facilitar su acceso
gratuito a todos, así como su reutilización.
8.- Libres de licencia
Los datos no están sujetos a ningún derecho de autor, patentes, marcas o regulación. Se permiten
restricciones razonables de privacidad y seguridad.
Diseño de un DataWarehouse:
1 - Comprender el problema: El equipo de desarrollo de DW debe realizar un diagnóstico de la
cantidad de datos que maneja la empresa y las transformaciones digitales que se deben
implementar. Conociendo en profundidad estos 2 puntos,

 el DW será un aliado potente para los altos mandos.


 Identificar la fuente de los datos.
2 – El equipo de desarrollo debe identificar todos los Datamarts que se utilizaran para el
procesamiento de datos. Las fuentes de datos pueden ser de cualquier tipo: otras BD (SQL/No
SQL), aplicaciones, redes sociales, encuestas, archivos de Excel, etc.
3 – Crear el modelo de DW: Establecido de los DataMarts y definidos los datos, se crear una BD
central para todos los elementos que estarán incluidos en el DW. Esta BD central debe ilustrar
todos los objetos y sus propiedades que irán en el almacén de datos.
4 – Seleccionar las herramientas ETL adecuadas: Las herramientas ETL se encargar de extraer
los datos de las fuentes, transformarlos y cargarlos al DW. Es muy importante seleccionar una
herramienta ETL que tenga un manejo sencillo y represente de manera visual todas las
transformaciones. Entre las herramientas mas conocidos tenemos 2 herramientas Microsoft SQL-
Server Integrate Services (SSIS), IBM Infosphere Information Server, Amazon Redshift y Oracle
Golden Gate.
5 – Emplear analítica e inteligente: En esta etapa se necesita crear gráficas, cuadriculas o tablas
para visualizar los datos y tomar las mejores decisiones. En esta etapa exiten programas que
permiten generar reportes como: Microft Powe BI, Pentaho, Qview, Tableu, etc.
6 – Documentar: Para que sea exitoso necesita ser parte funcional de las operaciones de una
empresa y evolucionar a medida que el negocio también cresca. Por lo tanto una buenas
documentación de como se ha venido desarrollando el almacen de datos y los logros que se van
alcanzando gracias a el, garantizara su continuidad.
Modelo de Inmon
Modelo con enfoque de Drill Down, 3ra forma normal, los datos se integran en el DW, el DW unica
fuente de datos
Modelo de Kimbal
Modelo que sigue un enfoque Roll up, todos los datos no estan integrados, no implica
normalización. l esquema en estrella es el elemento fundamental del modelo de almacén de datos
dimensional.
Formas básicas de desarrollar el proceso de carga:

 Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de
todas las transacciones comprendidas en el período de tiempo seleccionado y transportar
el resultado como una única transacción hacia el data warehouse, almacenando un valor
calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud
considerada. Es la forma más sencilla y común de llevar a cabo el proceso de carga.
 Rolling: este proceso sería el más recomendable en los casos en que se busque
mantener varios niveles de granularidad. Para ello se almacena información resumida a
distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o
diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud
almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

Tipos de paralelismo
Paralelismo de datos:
 Consiste en dividir un único archivo secuencial en pequeños archivos de datos para
proporcionar acceso paralelo.
Paralelismo de segmentación (pipeline):
 Se basa en permitir el funcionamiento simultáneo de varios componentes en el mismo flujo
de datos.
Paralelismo de componente:
 consiste en el funcionamiento simultáneo de múltiples procesos en diferentes flujos de
datos para el mismo puesto de trabajo

También podría gustarte