Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Provee una visión simple y concisa sobre cuestiones temática particulares por exclusión.
Se centra en el modelado y análisis de los datos para los tomadores de decisiones, no en
las operaciones diarias o procesamiento de transacciones.
Características Data Warehourse – Integreded:
OLTP y OLAP
OLTP (On Line Transaction Processing) Los sistemas de transacciones tradicionales son
inapropiados para el soporte a las decisiones, suelen realizar tareas repetitivas muy bien
estructuradas e implican transacciones cortas y actualizaciones generalmente.
Data Warehouse gran herramienta para integrar fuentes de datos heterogéneas y darles
lugar a los sistemas OLAP (On Line Analytics Processing).
Los sistemas de soporte a las decisiones requieren la realización de consultas complejas
que involucran muchos datos e incluyen funciones de agregación.
¿Por qué tener un DW separa?
Mantener el rendimiento en ambos sistemas:
DBMS están optimizados para OLTP. Métodos de acceso, Indexación (con un índice que
permite un orden), control de concurrencias (múltiples usuarios puedan acceder a esta),
mecanismos de recuperación.
DW esta optimizado para OLAP. Resolver consultas complejas, vista, multidimensionales,
consolidaciones.
Diferentes funciones y diferentes datos:
Extracción de datos:
Obtener datos de múltiples, heterogéneos y fuentes externas.
Limpieza de datos:
Errores detectados en los datos y rectificarlos cuando sea posible.
Transformación de datos:
Convertir datos de Legado o formato local a formato Warehouse
Carga:
Clasificar, consolidar, sumariar, revisar, integrar indicios de construcción y particiones.
Refrescar:
Propagar las actualizaciones de las fuentes de datos a la Warehouse.
Repositorio de metadatos
Metadato: Son los datos que definen a los objetos en DW. Datos que contienen datos, sirven para
suministrar información de los datos producidos.
En él se almacenan:
Medidas:
Esquema de estrella
Esquema de copo de nieve.,
Constelacion de hechos.
Esquema de estrella:
Es el mas utilizado, donde el DW contiene:
1. Una gran tabla cental (Fact Table) que contiene el volumen de datos sin redundancia.
2. Un conjunto de tablas relacionadas (Dimension Tables) un por cada dimensión.
Cada dimensión es representada por una única tabla y cada tabla contiene un conjunto de
atributos.
Esquema de copo de nieve (Snowflake):
Reduce la efectividad de navegación por lo JOINS necesarios para correr una Query
(consulta).
Reduce la redundancia, aunque no es tan popular como estrella.
Esquema constelación de hechos:
Son múltiples tablas de hechos que comparten Tablas de Dimensiones visto como una
colección de esquemas de estrella.
Esquema de Data Warehouse y Data Mart:
DW:
Recolecta información aceda de una temática que abarca toda la organización (cliente,
personal, ventas)
El DW utiliza esquema de constelación.
Data Mart:
Modelo multidimensional:
Un cubo es una caja negra de datos encriptados que residen de forma local o en un
servidor MOLAP.
Flexibilidad y escalabilidad limitada.
Cambios en el modelo dimensional del negocio implican la generación de todos los cubos
nuevamente.
Ventajas de MOLAP con respecto al análisis de datos.
Consultas rápidas, por la optimización del rendimiento de almacenamiento, indexación
multidimensional y la memoria cache.
Ocupa menor tamaño en disco: Comparándose con datos almacenados en BD
relacionales, debido a técnicas de comprensión.
Automatización del procesamiento de datos agregados de mayor nivel.
Muy Compacto para conjuntos de datos de pocas dimensiones.
El modelo de almacenamiento en vectores/matrices proporciona indexación natural
Eficaz extracción de datos lograda por la pre-estructuración de datos agregados.
Desventajas de MOLAP:
DW central: La implementación consta de un solo nivel con un solo almacén que soporta
los requerimientos de información de toda la empresa.
DW distribuido: Estructura de un solo nivel que se particiona para distribuirlo a nivel
departamental.
DW de dos niveles: Combinación de los dos anteriores que soporta requerimientos de
información a nivel empresarial como departamental.
EIS (Enterprices Intelligence System)
Datos abiertos (Open data)
Refiere a que ciertos datos para uso libre por terceros.
Formatos validos:
JSON, CSV, RDF, XML, y KML
Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de
todas las transacciones comprendidas en el período de tiempo seleccionado y transportar
el resultado como una única transacción hacia el data warehouse, almacenando un valor
calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud
considerada. Es la forma más sencilla y común de llevar a cabo el proceso de carga.
Rolling: este proceso sería el más recomendable en los casos en que se busque
mantener varios niveles de granularidad. Para ello se almacena información resumida a
distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o
diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud
almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).
Tipos de paralelismo
Paralelismo de datos:
Consiste en dividir un único archivo secuencial en pequeños archivos de datos para
proporcionar acceso paralelo.
Paralelismo de segmentación (pipeline):
Se basa en permitir el funcionamiento simultáneo de varios componentes en el mismo flujo
de datos.
Paralelismo de componente:
consiste en el funcionamiento simultáneo de múltiples procesos en diferentes flujos de
datos para el mismo puesto de trabajo