Introducción al Data Warehouse y sus características

MODULO II
CARRERA: GERENCIA DE NEGOCIOS
Carrera: Ingenieria en Computación
ASIGNATURA
INTELIGENCIA DE NEGOCIOS
<< PIN-0622 >>
Objetivo general:
Analizar para interpretar y modelar las necesidades de negocio,
procesando la información disponible en fuentes internas y
externas, donde los datos por sí solos no dicen nada, a menos que
sean transformados en conocimiento a partir del uso de
metodologías probadas de business intelligence y business
analytics.
Descripción actividades para módulo II

Descripción breve de actividades:
1. Desarrollo de la tarea sugerida en el módulo II

2. Participación en el foro “Tecnicas de Modelos Dimensional.”
Tarea:
Elaborar un ensayo de tres paginas, agregando los aspectos que usted
considera mas importante dar a conocer sobre el tema Warehouse y Data
Mart.
Indicaciones: Realizar de manera individual la tarea planteada
anteriormente y enviarla a través de la plataforma en el icono de tarea,
debes agregar una portada, introduccion, el ensayo de tres paginas,
conclusiones y bibliografia, el informe debe incluir 7 paginas exactamente.
Formato: Times New Roman, tamaño 12, con interlineado de 1.5,
margenes normales.
Foro:
“Tecnicas de Modelos Dimensional”, despues de leer el presente modulo
debe conversar con sus compañeros sobre las siguientes preguntas:
1. Cual de los modelos utilizaria usted?
2. Afecta el tipo de empresa para el que lo este realizando?
3. Detalle por lo menos cuatro aspectos de porque usted eligiria ese
modelo.
Data Warehouse Introduccion al concepto.

El concepto de data warehouse se originó en 1988 con el trabajo de los
investigadores de IBM, Barry Devlin y Paul Murphy aunque el término data
warehouse fue acuñado por William H. Inmon, el cual es conocido como el
padre de Data Warehousing. Inmon describió un data warehouse como una
colección de datos orientada a un tema específico, integrado, variante en el
tiempo y no volátil, que soporta el proceso de toma de decisiones.
¿Qué es un Data Warehouse?

Un data warehouse es un repositorio unificado para todos los datos que
recogen los diversos sistemas de una empresa. El repositorio puede ser físico
o lógico y hace hincapié en la captura de datos de diversas fuentes sobre todo
para fines analíticos y de acceso.
Normalmente, un data warehouse se aloja en un servidor corporativo o cada

vez más, en la nube. Los datos de diferentes aplicaciones de procesamiento
de transacciones Online (OLTP) y otras fuentes se extraen selectivamente
para su uso por aplicaciones analíticas y de consultas por usuarios.
Data Warehouse es una arquitectura de almacenamiento de datos que

permite a los ejecutivos de negocios organizar, comprender y utilizar sus
datos para tomar decisiones estratégicas. Un data warehouse es una
arquitectura conocida ya en muchas empresas modernas.
Características generales de un Data Warehouse
Podemos mencionar algunas características generales de los Data
warehouses:
• Los datos son organizados por área temática éstas representan una
recopilación de todos los datos en la organización que pertenecen a un
tema que puede ser de importancia para el tomador de decisiones.
• Los datos son integrados, a fin de ser útiles, los datos deben ser
transformados a formatos comunes de medida, referencia y
almacenamiento, generando así su integración.
• E1 Warehouse no es volátil, la información se carga en el warehouse, y
posteriormente se accede para la toma de decisiones. Esto difiere de
un sistema transaccional dado que este es actualizado, tan pronto
como ocurre un nuevo evento.
• La información está orientada al tiempo el warehouse es una secuencia
de snapshots (fotografías instantáneas) de información corporativa
tomadas a intervalos predefinidos - todos los días, una vez por semana,
una vez por mes, etc. -.
El data warehouse es muy usado en las áreas de Marketing y Comercial

(Clientes, Productos, Campañas y Acciones Promocionales) y también en
Control de Gestión (Canales de Distribución, Análisis por Centro de Costo,
Producto y Cliente). También se aplica en áreas tales como Gestión del
Riesgo, Morosidad, Reporting, o Gestión Financiera.
La forma más común de analizar la información es utilizando una
herramienta de proceso de análisis en línea conocida como On-line
Analytical Procesing (OLAP). Los productos OLAP ofrecen un rango muy
variado de capacidades de análisis avanzado, como el multidimensional y el
estadístico.
Un data warehouse soporta también sofisticadas operaciones de análisis que
se conocen con el termino de Data Mining.
Una de las novedades que aporta el data warehousing como sistema de
análisis de información es la creación del Meta Información (metadata). Se
trata de un archivo que es considerado como diccionario de estructuras de
datos que el administrador del sistema define con el objetivo de asistir en los
procesos de consulta a la base de datos. La metadata se adaptará a las
definiciones que el usuario utilizará posteriormente en sus consultas al
sistema. De esta manera, conseguirá minimizar los complejos
procedimientos de definición de nombres de campos, jerarquías y relaciones.
Estructuras de un Data Warehouse

La arquitectura de un data warehouse puede ser dividida en tres estructuras
simplificadas: básica, básica con un área de ensayo y básica con área de
ensayo y data marts.
• Con una estructura básica, sistemas operativos y archivos planos
proporcionan datos en bruto que se almacenan junto con metadatos.
Los usuarios finales pueden acceder a ellos para su análisis,
generación de informes y minería.
• Al añadir un área de ensayo que se puede colocar entre las fuentes
de datos y el almacén, ésta proporciona un lugar donde los datos se
pueden limpiar antes de entrar en el almacén. Es posible personalizar
la arquitectura del almacén para diferentes grupos dentro de la
organización.
• Se puede hacer agregando data marts, que son sistemas diseñados
para una línea de negocio en particular. Se pueden tener data marts
separados para ventas, inventario y compras, por ejemplo, y los
usuarios finales pueden acceder a datos de uno o de todos los data
marts del departamento.
Pasado y presente del Data Warehouse

Históricamente, los data warehouses se habían formado utilizando datos
repetitivos estructurados que eran filtrados antes de entrar en el data
warehouse. Sin embargo, en los últimos años, el data warehouse ha
evolucionado debido a información contextual que ahora se puede adjuntar
a los datos no estructurados y que también puede ser almacenada.
Aquellos primeros datos relacionales estructurados no podían ser mezclados

y emparejados para temas analíticos con datos textuales no estructurados.
Pero con el advenimiento de la contextualización, estos tipos de análisis
ahora sí pueden hacerse de forma naturales y fácil.
En el data warehouse, datos no repetitivos, como los comentarios en una

encuesta, correos electrónicos y conversaciones, se tratan de forma diferente
a las ocurrencias repetitivas de datos, como el flujo de clics, mediciones o el
procesamiento máquina o analógico. Los datos no repetitivos son datos
basados en textos que fueron generados por la palabra escrita o hablada, leída
y reformateada y, lo que es más importante, ahora puede ser contextualizada.
Con el fin de extraer cualquier sentido de los datos no repetitivos para su uso
en el Data Warehouse, deben tener el contexto de los datos establecidos.
En muchos casos, el contexto de los datos no repetitivos es más importante
que los datos en sí. En cualquier caso, los datos no repetitivos no pueden
utilizarse para la toma de decisiones hasta que se haya establecido el
contexto.
El data warehouse continúa evolucionando

Hay todavía un gran potencial en la evolución del data warehouse y su uso
sigue adelante.
El procesamiento analítico clásico de datos basado en transacciones se
realiza en el data warehouse como siempre se ha hecho. Nada ha cambiado
ahí. Pero ahora puede hacerse analítica sobre datos contextualizados, y esa
forma de análisis es nueva. La mayoría de las organizaciones, hasta ahora no
habían podido basar su toma de decisiones en datos textuales no
estructurados. Y ahora hay una nueva forma de análisis posible en un Data
Warehouse: la posibilidad de la mezcla de análisis. El análisis combinado se
realiza mediante una combinación de datos transaccionales estructurados y
datos contextuales no estructurados.
Existen muchas otras formas de análisis que también son posibles. Estas
formas incluyen análisis predictivo y prescriptivo, así como tecnologías de
machine learning y otras que están cambiando la forma en que los datos son
administrados y analizados. El data warehouse ha sido durante mucho
tiempo un elemento básico de la arquitectura de datos empresarial y sigue
teniendo tiene un gran futuro en el nuevo mundo de Big Data y la analítica
avanzada.
Data Warehouse en la nube

Los data warehouses están atravesando actualmente dos transformaciones
muy importantes que tienen el potencial de impulsar niveles significativos
de innovación empresarial:
• La primera área de transformación es el impulso para aumentar la
agilidad general. La gran mayoría de los departamentos de TI están
experimentando un rápido aumento de la demanda de datos. Los
directivos quieren tener acceso a más y más datos históricos, mientras
que al mismo tiempo, los científicos de datos y los analistas de
negocios están explorando formas de introducir nuevos flujos de datos
en el almacén para enriquecer el análisis existente, así como impulsar
nuevas áreas de análisis. Esta rápida expansión de los volúmenes y
fuentes de datos significa que los equipos de TI necesitan invertir más
tiempo y esfuerzo asegurando que el rendimiento de las consultas
permanezca constante y necesitan proporcionar cada vez más entornos
para equipos individuales para validar el valor comercial de los nuevos
conjuntos de datos.
• La segunda área de transformación gira en torno a la necesidad de
mejorar el control de costes. Existe una creciente necesidad de hacer
más con cada vez menos recursos, al mismo tiempo que se garantiza
que todos los datos sensibles y estratégicos estén completamente
asegurados, a lo largo de todo el ciclo de vida, de la manera más
rentable.
La nube está demostrando ser un facilitador dominante. Permite a las

organizaciones enfrentarse de forma activa a los desafíos que presentan estas
dos transformaciones clave.
¿Por qué migrar a la nube?

Las 3 tecnologías que ya tienen y seguirán teniendo un gran impacto en la
transformación de negocios son: la nube, datos y análisis, e Internet de las
Cosas. Estas tres tecnologías son parte clave del ecosistema del data
warehouse actual. Por lo tanto, es posible sacar la conclusión de que el data
warehouse en la nube tiene un gran potencial para generar un impacto
significativo en los negocios.
La importancia de la nube para el data warehouse está directamente
vinculado a tres factores clave:
• Mayor agilidad
• Mejor control de costes
• Co-localización
Mejora de la agilidad
Muchos data warehouses están embarcados en una fase de actualización.
Con mucho trabajo puesto ahora en torno al big data, las empresas buscan
aprovechar los nuevos flujos de datos y nuevos tipos de análisis más ricos
para apoyar e impulsar nuevas áreas, tales como:analítica de clientes de 360º,
anaĺisis predictivo, detección de fraude, análisis de IoT y el establecimiento
de los datos como centro de beneficio. Muchos de estos proyectos requieren
el aprovisionamiento de nuevos entornos de hardware y el despliegue de
software. Es más rápido, más fácil y más eficiente iniciar estos nuevos
proyectos centrados en los datos utilizando los servicios en la nube.
Mayor control de costes

Muchos equipos de TI están buscando maneras de consolidar los data marts
existentes, cada uno ejecutándose en hardware dedicado o incluso en
hardware propietario, en un único entorno integrado. Los servicios en la nube
de calidad ofrecen la oportunidad perfecta para iniciar este tipo de proyectos.
El cumplimiento legal no puede ser visto como un extra opcional cuando se
planifica un traslado a la nube. Los activos de datos deben estar protegidos
a lo largo de todo el ciclo de vida. Los servicios en la nube deben facilitar
todo esto, siendo más rentables ya que todas las características de seguridad
se pueden habilitar de forma predeterminada y mejorada, y actualizada de
forma transparente.
Co-Localización para una carga más rápida

La mayoría de los data warehouses generan datos directamente desde
aplicaciones clave, como entrada de pedidos, ventas, finanzas y fabricación.
Por lo tanto, tiene mucho sentido ubicar conjuntamente el data warehouse
junto con los sistemas fuente que ya se estén ejecutándose en la nube. La
ubicación conjunta ofrece una carga de datos más rápida, lo que significa
que los usuarios obtienen un acceso más oportuno a sus datos.
Principales ventajas de mover el data warehouse a la nube

Existen tres ventajas principales para mover un data warehouse a la nube, y
estas están directamente vinculados a los tres controladores clave
enumerados anteriormente:
• Más fácil consolidación y racionalización
• Monetización más rápida de los datos en la nube
• La nube ofrece mejor protección
Data Warehouse vs Big Data vs BI: cuales son las

diferencias
En este apartado compararemos brevemente los conceptos Data Warehouse
(DW), Big Data y Business Intelligence (BI).
Los tres conceptos están interconectados y la perspectiva es que, cada vez
más, la mayoría de empresas utilicen el análisis generado por este tipo de
tecnologías para tener una visión más analítica de su negocio y así poder
tomar las mejores decisiones para crecer.
Se trata de tres conceptos completamente diferentes que tienen en común

una nueva manera de lidiar con los datos, siempre teniendo en cuenta la
existencia de una gran volumen de información en varios formatos que
contribuyen, de forma estructurada o no estructurada, a la toma de decisiones
estratégicas. El objetivo final de cualquiera de estas tecnologías es ofrecer
una ventaja competitiva a las empresas, pero la forma en que se utiliza es la
que marcará la diferencia.
Big Data
Llamamos big data a un gran volumen de datos con una variedad,
complejidad y velocidad de crecimiento enorme y que además tienen la
característica de no ser estructurados. Eso significa que no son relacionales,
estando además fuera del entorno corporativo. Es un tipo de tecnología que
te permite analizar los datos en tiempo real y puede provenir de diferentes
fuentes y formas, tales como mensajería instantánea, redes sociales, registros
de grabaciones, imágenes, mensajes de correo electrónico, etc.
Para tener una idea de la importancia del big data, este mercado está
creciendo cada año, alrededor de un 40%. La paradoja reside en el hecho de
que cuanto mayor es la evolución del big data, mayor es la escasez de
profesionales cualificados para satisfacer esa demanda. La expectativa es
que en unos pocos años, haya un crecimiento aún más significativo para el
uso de big data y por lo tanto un aumento en la demanda mano de obra
especializada y de partners tecnológicos especializados en esta materia.
Data Warehouse
Por otro lado, un data warehouse almacena datos consolidados de diversas
fuentes o sistemas de la empresa. Se trata de datos estructurados, que tiene
como objetivo principal ser precisos y de alta calidad para de esta forma
poder dar soporte a la toma de decisiones de la empresa. Se trata de conseguir
tener todos los datos juntos para después poder dividirlos para hacer un
análisis de determinados sectores o estrategias.
Business Intelligence
Un Business Intelligence (BI) es una especie de “cuello de botella” de los
datos recogidos del data warehouse, que llegan de forma exacta y útil para
ayudar a la toma de decisiones. Business Intelligence transforma los datos
en información útil para analizar no sólo los negocios, sino también las
principales estrategias corporativas.
Los tres conceptos están interconectados y la perspectiva es que, cada vez
más, la mayoría de empresas utilicen el análisis generado por este tipo de
tecnologías para una visión más analítica de su negocio y así poder tomar las
mejores decisiones para crecer.
¿Qué es warehouse y qué debe contemplar un data

warehouse moderno?
Una definición de qué es warehouse en relación a datos, o más
concretamente un data warehouse, podría ser la siguiente: un data warehouse
es un sistema utilizado para reportar y analizar datos. Los data warehouse
son repositorios centrales de datos que integran una o más fuentes de datos
dispares. Almacenan datos actuales e históricos y son utilizados para crear
informes analíticos para los trabajadores del conocimiento de toda la
empresa.
Para entender por completo qué es warehouse y el proceso de data

warehousing se deben de considerar las tres capas generales que, aunque no
son obligatorias, sí son frecuentemente utilizadas, dependiendo de la
arquitectura del data warehouse:
• Capa de integración en la que se almacenan y preparan los datos brutos

extraídos.
• Capa principal del data warehouse donde los datos se adaptan al modelo
de datos homogéneo de la empresa.
• Capa de data marts y strategic marts, que proporciona extractos
específicos del data warehouse corporativo.
Estas capas, a menudo presentan una compleja lógica interna de negocios y

de transformación y, algunas veces, no son fácilmente distinguibles como
bloques arquitectónicos discretos. Los desarrollos recientes han simplificado
esto y permiten optimizaciones significativas.
Entender los distintos componentes para saber qué es

warehouse
Hoy día, quienes saben qué es warehouse entienden que este almacén de
datos ya no sólo se nutre de información generada por los sistemas internos.
Esos tiempos han quedado atrás y la realidad a nivel de arquitectura de datos
de cualquier organización es diferente. Nuevos formatos, fuentes de datos
alternativas y distintos tipos de información dotan de complejidad a una
estructura esencial en el proceso de generación de conocimiento.
Entre los elementos que componen el almacén de datos, y cuya comprensión

permite conocer qué es warehouse, se encuentran los siguientes:
1. Servicios de acceso a datos: a diferencia de los almacenes de

información tradicionales, en los actuales es preciso disponer de
capacidades de servicios de acceso a los datos ampliadas. Sólo de esta
forma es posible garantizar el acceso a fuentes NoSQL, la
conmutación flexible entre métodos de acceso a datos, la
transformación de datos no estructurados o la adaptación a fuentes en
la nube. , acceso a fuentes NoSQL y posibilidades de calidad y
transformación para geocodificación y datos no estructurados. Todas
estas diferentes tecnologías deben ser gestionadas y supervisadas por
el almacén de datos lógico. Es importante que las soluciones de data
warehouse ofrezcan un alto grado de flexibilidad en este área.
2. Preparación de datos: este componente se ocupa de llevar a cabo las
comprobaciones y reparaciones de los datos. Gracias a su intervención
se puede garantizar la confiabilidad de la fuente (linaje de datos), así
como que se cumplen las condiciones mínimas de completitud,
integridad y otros atributos de la calidad del dato. La preparación de
datos es importante especialmente para el trabajo con datos no
estructurados, aunque, precisamente son éstos los que requieren de la
participación de especialistas en el proceso, apoyados por las
herramientas adecuadas.
3. Modelado: en un entorno de almacén de datos moderno, las
necesidades de modelado están muy relacionadas con la capacidad
para hacer frente a diferentes semánticas de datos de procedencias
diversas. Entender qué es warehouse es asumir que el enfoque de
modelado no debe ser único, sino adaptable a los procesos de negocio
y las necesidades de la organización.
4. Metadatos: los datos sobre los datos ganan en importancia en los
nuevos almacenes puesto que es necesario que éstos puedan asimilar
los cambios en la forma en que los datos están representados. Los
metadatos hacen posible que contexto y naturaleza se descubran
independientemente de su representación real.
El almacén de datos diversificado de hoy en día tiene que estar preparado

para poder cubrir las necesidades usuarias, ya se trate de demandas
relacionadas con información on premise, ya se trate de big data o del cloud.
Lo que necesitas saber acerca de la arquitectura de un

datawarehouse
La arquitectura de un datawarehouse puede tener diferentes estructuras en
diferentes implementaciones. Algunas pueden tener un ODS (operational
data store), mientras que otras pueden tener múltiples data marts. Algunas
pueden tener un pequeño número de fuentes de datos, mientras que otras
pueden tener docenas de fuentes de datos. Visto esto, es mucho más
razonable de presentar las diferentes capas de la arquitectura de un
datawarehouse en lugar de discutir sobre ningún sistema específico.
En general, toda arquitectura de un datawarehouse tiene las siguientes capas:
• Capa de fuentes de datos
• Capa de extracción de datos
• Área de pruebas
• Capa ETL
• Capa de almacenamiento de datos
• Capa lógica de datos
• Capa de presentación de datos
• Capa de metadatos
• Capa de operaciones del sistema
Propiedades de la arquitectura de un datawarehouse

Las siguientes propiedades son esenciales para la arquitectura de un
datawarehouse :
• Separación: el proceso analítico y transaccional deben mantenerse
separados tanto como sea posible.
• Escalabilidad: la arquitectura de un datawarehouse, tanto de hardware
como de software, debe ser fácil de actualizar a medida que crece el
volumen de datos que debe ser gestionado y procesado, así como el
número de requisitos de los usuarios que tienen que ser satisfechos.
• Extensibilidad: la arquitectura debería ser capaz de alojar nuevas
aplicaciones y tecnologías sin necesidad de revisar todo el sistema.
• Seguridad: monitorizar los accesos es esencial debido a los datos
estratégicos que hay almacenados en el datawarehouse.
• Administrabilidad: la gestión del datawarehouse no debería ser
excesivamente difícil.
Capas de toda arquitectura de un datawarehouse

Veamos cada una de las capas de la arquitectura de un datawarehouse a
continuación:
• Capa de fuentes de datos: Esta representa las diferentes fuentes de
datos que alimentan los datos del datawarehouse. La fuente de datos
puede estar en cualquier formato: archivo de texto plano, base de
datos relacional, otros tipos de base de datos, archivo Excel, etc. Todos
estos pueden actuar como fuente de datos. Además, los tipos de datos
pueden ser muy variados:
o Datos de operaciones, como datos de ventas, datos de recursos
humanos, datos de productos, datos de inventario, datos de
marketing y datos de sistemas.
o Logs de un servidor web, con datos de navegación de los
usuarios.
o Datos internos de investigación de mercado.
o Datos de terceros, como datos del censo, datos demográficos
o datos de encuestas.
• Capa de extracción de datos: Los datos se extraen de las fuentes de
datos y se llevan al sistema datawarehouse. Es probable que en esta
capa se limpien algunos datos mínimos, pero no es previsible que haya
una transformación de datos importante.
• Área de pruebas: aquí es donde los datos son depurados y
transformados en un datamart y datawarehouse. Tener un área común
facilita el proceso y la integración posterior de los datos.
• Capa ETL: Aquí es donde los datos obtienen su inteligencia ya que se
aplica la lógica para transformar los datos de una naturaleza
transaccional a una naturaleza analítica. En esta capa es también donde
se limpian los datos. La fase de diseño ETL es frecuentemente la fase
que más se demora en un proyecto de datawarehouse y habitualmente
se utiliza una herramienta ETL en esta capa.
• Capa de almacenamiento de datos: Aquí es dónde se colocan los
datos transformados y limpios. Basándose en el alcance y la
funcionalidad se pueden encontrar tres tipos de entidades:
datawarehouse, data mart y almacén de datos operacional (ODS). En
cualquier sistema puedes encontrar sólo uno de los 3, 2 de los 3, o los
tres tipos juntos.
• Capa lógica de datos: Aquí es donde se almacenan las reglas de
negocio. Estas reglas de negocio no afectan a las reglas de
transformación de datos, pero afectan a lo que luego puedes ver en los
informes.
• Capa de presentación de datos: Se refiere a la información que llega
a los usuarios. Esto puede ser en forma de un informe tabular o gráfico
a través de un navegador, un informe enviado por email que se genera
automáticamente y se envia a diario, una alerta que advierte a los
usuarios acerca de excepciones, etc. Usualmente en esta capa se utiliza
una herramienta OLAP y una herramienta de generación de informes.
• Capa de metadatos: Aquí es donde la información sobre los datos
almacenados en el datawarehouse es almacenada. Un modelo de datos
lógico sería un ejemplo de algo que está en esta capa de metadatos.
Frecuentemente se utiliza una herramienta de metadatos para
administrar los metadatos.
• Capa de operaciones del sistema: Esta capa incluye información
sobre cómo está funcionando el sistema de datawarehouse, cuál es el
estado de trabajo ETL, cuál es el rendimiento del sistema y el historial
de acceso de los usuarios.
Modelo Dimensional
El modelo de datos dimensional, conlleva una técnica de modelado que
facilita la compresión de la base de datos, haciéndola intuitiva para
usuarios no expertos, y es comúnmente utilizada para implementar los
Data Warehouse o Data Mart.
Esta técnica goza de una gran aceptación y, a menudo, es elegida como

la preferida para representar datos analíticos por cumplir simultáneamente
con los siguientes requerimientos:
• Dispone y estructura los datos de manera comprensibles para el

usuario de negocio.
• Genera un alto rendimiento en las búsquedas desde la capa de
reporting.
Dentro del modelado de datos dimensional destacan 2 conceptos clave:

hechos y dimensiones.
• Hechos: Son las métricas, normalmente valores cuantitativos

(numéricos) susceptibles de ser agregados
o Ejemplo: La cantidad de ventas de coches de un
concesionario, el rendimiento en euros de una empresa, el
número de estudiantes de un colegio, etc.
• Dimensiones: Son los valores cualitativos. Proporcionan
descripciones a los hechos, aportando un contexto a los mismos.
o Ejemplo: Marca de coche, fecha, nombre concesionario,
dirección de la empresa, nombre del colegio, etc.
Existen 2 técnicas para llevar acabo el modelado dimensional: el esquema

de estrella y el esquema de copo de nieve.
Esquema de estrella
Un esquema de estrella es un modelo de datos formado por una tabla de

hechos, que contiene los datos para el análisis, rodeada de las tablas de
dimensiones.
Como podemos observar en la imagen, la tabla de hechos es TH-Ventas

y está rodeada de las dimensiones TD-Almacén, TD-Producto y TD-
Cliente, almacenando el ID de cada dimensión en la tabla de Hechos para,
así, poder relacionar los atributos descriptivos de cada dimensión con la
fila de la tabla de hechos.
El modelo estrella separa los datos del proceso de negocio en: hechos y
dimensiones. Los hechos contienen datos medibles, cuantitativos, y las
dimensiones los atributos que describen los datos indicados en los hechos.
Tabla de hechos
• Clave principal compuesta por los claves principales de las tablas
de dimensiones.
• Registra medidas o métricas de un evento específico. Ejemplo:
cliente compra un geranio de maceta de 25cm en floristería mineral
vegetal Lola a las 12:3 0am del 10 de Octubre de 2027.
• Evita repetir de manera completa los atributos dimensionales. En la
TH sólo irá un ID de la dimensión.
• Se diseñan según el nivel de granularidad deseado, pudiendo
registrar eventos a un gran nivel de atomicidad.
Tabla de dimensiones
• Tienen una clave primaria simple.

• Generalmente tienen un número bajo de registros
• Cada registro puede contener un gran número de atributos
• Suelen contener una surrogate primary key, generalmente una
columna de tipo entero
Las principales ventajas del esquema de estrella son:
• Queries simples. Las uniones y cruces son más sencillos, debido a

su lógica, que los de un esquema normalizado
• Lógica de reporting simplificada
• Mejoras en el rendimiento de las consultas
• Agregaciones más rápidas. Gracias a las queries simplificadas
Las principales desventajas del esquema de estrella son:
• Poco flexible. Los esquemas en estrella son construidos para una

vista de los datos en particular
Esquema en copo de nieve
Un esquema de copo de nieve es una estructura más compleja que el

esquema de estrella. Se da cuando alguna de las dimensiones se
implementa con más de una tabla de datos.
El objetivo es normalizar estas tablas y reducir el espacio de

almacenamiento al eliminar la redundancia.
Se representa como una tabla de hechos conectada con dimensiones

anidadas. Al normalizar por completo las dimensiones el resultado parece
un copo de nieve.
Observamos en la imagen, como se dividen las dimensiones de TD-

Almacén, TD-Producto y TD-Cliente en sub-dimensiones normalizadas.
Las principales ventajas del esquema de copo de nieve son:

• Algunas herramientas de modelado de bases de datos
multidimensional OLAP se optimizan
• La normalización de los atributos reduce el almacenamiento de
datos
Las principales desventajas del esquema de copo de nieve son:
• Queries complejas debido a la normalización (implica un mayor

número de cruces)
• Bajo rendimiento debido a la normalización
Después de haber descrito los esquemas de estrella y copo de nieve

vamos a dejar una tabla con la comparativa entre los dos esquemas:

Introducción al Data Warehouse y sus características

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción al Data Warehouse y sus características

Cargado por

Copyright:

Formatos disponibles

MODULO II

CARRERA: GERENCIA DE NEGOCIOS

Carrera: Ingenieria en Computación

Descripción actividades para módulo II

1. Desarrollo de la tarea sugerida en el módulo II

Data Warehouse Introduccion al concepto.

¿Qué es un Data Warehouse?

Normalmente, un data warehouse se aloja en un servidor corporativo o cada

Data Warehouse es una arquitectura de almacenamiento de datos que

El data warehouse es muy usado en las áreas de Marketing y Comercial

Estructuras de un Data Warehouse

Pasado y presente del Data Warehouse

Aquellos primeros datos relacionales estructurados no podían ser mezclados

En el data warehouse, datos no repetitivos, como los comentarios en una

El data warehouse continúa evolucionando

Data Warehouse en la nube

La nube está demostrando ser un facilitador dominante. Permite a las

¿Por qué migrar a la nube?

Mayor control de costes

Co-Localización para una carga más rápida

Principales ventajas de mover el data warehouse a la nube

Data Warehouse vs Big Data vs BI: cuales son las

Se trata de tres conceptos completamente diferentes que tienen en común

¿Qué es warehouse y qué debe contemplar un data

Para entender por completo qué es warehouse y el proceso de data

• Capa de integración en la que se almacenan y preparan los datos brutos

Estas capas, a menudo presentan una compleja lógica interna de negocios y

Entender los distintos componentes para saber qué es

Entre los elementos que componen el almacén de datos, y cuya comprensión

1. Servicios de acceso a datos: a diferencia de los almacenes de

El almacén de datos diversificado de hoy en día tiene que estar preparado

Lo que necesitas saber acerca de la arquitectura de un

Propiedades de la arquitectura de un datawarehouse

Capas de toda arquitectura de un datawarehouse

Esta técnica goza de una gran aceptación y, a menudo, es elegida como

• Dispone y estructura los datos de manera comprensibles para el

Dentro del modelado de datos dimensional destacan 2 conceptos clave:

• Hechos: Son las métricas, normalmente valores cuantitativos

Existen 2 técnicas para llevar acabo el modelado dimensional: el esquema

Un esquema de estrella es un modelo de datos formado por una tabla de

Como podemos observar en la imagen, la tabla de hechos es TH-Ventas

• Tienen una clave primaria simple.

Las principales ventajas del esquema de estrella son:

• Queries simples. Las uniones y cruces son más sencillos, debido a

Las principales desventajas del esquema de estrella son:

• Poco flexible. Los esquemas en estrella son construidos para una

Un esquema de copo de nieve es una estructura más compleja que el

El objetivo es normalizar estas tablas y reducir el espacio de

Se representa como una tabla de hechos conectada con dimensiones

Observamos en la imagen, como se dividen las dimensiones de TD-

Las principales ventajas del esquema de copo de nieve son:

Las principales desventajas del esquema de copo de nieve son:

• Queries complejas debido a la normalización (implica un mayor

Después de haber descrito los esquemas de estrella y copo de nieve

También podría gustarte