Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DataWarehousing PDF
DataWarehousing PDF
Tabla de contenido
Contenido
Introducción ........................................................................................................................................ 2
1. ASPECTOS TEÓRICOS ....................................................................................................................... 3
1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING ............................................................. 3
1.2 Problemas que dan origen a un Data WareHouse. ......................................................... 3
1.3 Beneficios asociados al Data WareHouse ....................................................................... 3
1.4 Diferentes tipos de información ..................................................................................... 4
1.5 Sistemas de Soporte de Decisiones..................................................................................... 4
1.6 Arquitectura Data Warehouse ............................................................................................ 5
1.6.3 Fuentes de datos ......................................................................................................... 5
1.6.4 Extracción, transformación y carga (ETL) .................................................................... 5
1.6.5 Ambiente Data Warehouse ......................................................................................... 7
1.6.6 Data Mart .................................................................................................................... 7
1.6.7 Herramientas de acceso y uso .................................................................................... 7
1.6.8 Metadatos ................................................................................................................... 7
1.7 Business Intelligence ........................................................................................................... 8
1.7.1 Datos, información, conocimiento .............................................................................. 8
1
Introducción
En la actualidad, el dinámico mundo de los negocios plantea la necesidad de disponer de
un acceso rápido y sencillo a información para la toma de decisiones. Dicha información
debe estar estructurada y elaborada de acuerdo a parámetros de calidad, a fin de
posibilitar una adaptación ágil y precisa a las fluctuaciones del ambiente externo.
Las empresas disponen, para la gestión de sus procesos de negocio, de sistemas
transaccionales corporativos que manejan enormes cantidades de datos, organizados de
forma tal que puedan ser utilizados por las aplicaciones operacionales existentes. Los
niveles gerenciales necesitan a menudo tomar decisiones de alto nivel, cruciales para el
funcionamiento de la empresa. Frecuentemente se basan en su experiencia, utilizando un
enfoque subjetivo del proceso decisorio. Este enfoque no es apto para las condiciones del
mundo actual en el que los sistemas de gestión de calidad vigentes han demostrado la
importancia de la toma de decisiones basada en cifras, datos y hechos.
El Data Warehouse permite que los gerentes tomen decisiones siguiendo un enfoque
racional, basados en información confiable y oportuna. Consiste básicamente en la
transformación de los datos operacionales en información útil para decidir. El uso del Data
Warehouse permite también encontrar relaciones ocultas entre los datos y predecir el
comportamiento futuro bajo condiciones dadas.
La filosofía de trabajo del Data Warehouse es diferente a la de los sistemas
transaccionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional
modelado relacional, y las herramientas de acceso a los datos se basan en una tecnología
de procesamiento analítico, distinta al procesamiento transaccional de los sistemas
operacionales.
Los datos operacionales que sirven de entrada al Data Warehouse generalmente están
dispersos en distintos sistemas de la organización, desarrollados en diferentes entornos
de desarrollo, por diferentes personas y en diferentes momentos. Es tarea fundamental
del Data Warehouse recolectarlos, unificarlos y depurarlos según las necesidades del
negocio, eliminando inconsistencias y conservando sólo la información útil para los
objetivos empresariales. Esto se lleva a cabo mediante procesos que se ejecutan
periódicamente y conducen a mantener la información actualizada.
Los datos dentro de un ambiente Data Warehouse pueden organizarse en un Data
Warehouse corporativo, o dividirse por área o sector departamental, almacenándose en
Data Marts, que son similares a una versión reducida de un Data Warehouse. Otra de las
características particulares de un Data Warehouse es la importancia que presentan los
metadatos, o datos acerca de los datos, considerados en todas las etapas de su desarrollo.
Las aplicaciones de usuario final que acceden al Data Warehouse brindan a los gerentes la
posibilidad de ver la información a diferentes niveles de agregación (detallados o
resumidos) y filtrar las consultas por distintas variables.
Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para
encontrar relaciones entre los datos a fin de comprender las causas de variabilidad
presentes y realizar pronósticos con el apoyo de modelos estadísticos.
2
1. ASPECTOS TEÓRICOS
3
Rediseño de procesos. Ofrecer a los usuarios una capacidad de análisis de la
información de su negocio que tiende a ser ilimitada y permite con frecuencia obtener una
visión más profunda y clara de los procesos de negocio propiamente dichos, lo que a su
vez permite obtener ideas renovadoras para el rediseño de los mismos.
4
1.6 Arquitectura Data Warehouse
Poder transformar los datos en conocimiento es un proceso complejo. Un Data Warehouse
es mucho más que simplemente copiar datos de un lugar a otro, de los sistemas
operacionales a una base de datos informativa independiente. Un Data Warehouse es, en
primer lugar, una arquitectura que debe servir como infraestructura para proporcionar
una solución completa a los problemas que le dieron origen. La arquitectura de un Data
Warehouse se representa en la Figura
5
Los subsistemas para poblar el Data Warehouse se pueden construir utilizando
herramientas y productos disponibles en el mercado, programas y procesos codificados
desde cero, o combinaciones de estos elementos.
Al construir los sistemas para poblar el Data Warehouse, se debe considerar la posibilidad
de que estos permitan regular el crecimiento evolutivo del Data Warehouse, brindando
escalabilidad y soporte para grandes cantidades de datos y consultas complejas. Se
pueden encontrar dificultades adicionales dependiendo de las fuentes de datos que se
tengan disponibles, que implican el uso de diferentes herramientas y tecnologías para
acceder a cada uno de ellos.
1.6.4.1Extracción (Extraction)
El propósito principal de la fase de extracción es capturar y copiar los datos requeridos de
uno o más sistemas operacionales o fuentes de datos. Los datos que se extraen son
colocados en un archivo intermedio con un formato definido, que luego será utilizado por
la siguiente fase del proceso.
Los registros que sean rechazados en el proceso deben ser registrados en un archivo o log
de rechazos para que puedan ser analizados posteriormente y así tener la posibilidad de
cargarlos en el Data Warehouse correctamente. Además, esto permite descubrir los
errores que han ocurrido en los procesos de creación de los datos operacionales. Ejemplos
de estos errores son violaciones de integridad, claves duplicadas, formatos de datos
incorrectos y datos inválidos como campos vacíos, fechas futuras e importes negativos
cuando estos no correspondan. En nuestro Caso: números telefónicos inválidos,
estándares no respetados, llamadas duplicadas y campos nulos.
Hay que tener en cuenta que después de la fase inicial de carga del Data Warehouse sólo
es necesario cargar los datos nuevos y que han sido modificados.
6
1.6.5 Ambiente Data Warehouse
Es el bloque donde se almacenan los datos informativos, utilizado principalmente para
usos estratégicos. No obstante, existen herramientas que no hacen uso de este bloque,
realizando las consultas multidimensionales directamente sobre la base operacional. En
este caso se puede pensar en el Data Warehouse simplemente como una vista lógica o
virtual de datos.
1.6.8 Metadatos
Los metadatos son datos acerca de los datos. En una base de datos los metadatos son la
representación de los diversos objetos que definen una base de datos, por ejemplo,
ubicación y descripción de base de datos, tablas, nombres y resúmenes. También
podemos mencionar las descripciones lógicas y físicas de tablas, columnas y atributos.
Uno de los problemas con el que pueden encontrarse los usuarios de un Data Warehouse
es saber lo que hay en él y cómo pueden acceder a lo que quieren. A fin de proveer el
acceso a los datos universales, es absolutamente necesario mantener los metadatos.
7
1.7 Business Intelligence
Desde un punto de vista más pragmático, y asociándolo directamente con las tecnologías
de la información, podemos definir Business Intelligence como el conjunto de
metodologías, aplicaciones y tecnologías que permiten reunir, depurar y transformar datos
de los sistemas transaccionales e información desestructurada (interna y externa a la
compañía) en información estructurada, para su explotación directa (reporting, cubos
OLAP, alertas...) o para su análisis y conversión en conocimiento, dando así soporte a la
toma de decisiones sobre el negocio.
1.7.2 Datos
Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de
información que por sí solos son irrelevantes como apoyo a la toma de decisiones.
También se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el
por qué de las cosas y no son orientativos para la acción.
8
Un número telefónico o un nombre de una persona, por ejemplo, son datos que, sin un
propósito, una utilidad o un contexto no sirven como base para apoyar la toma de una
decisión. Los datos pueden ser una colección de hechos almacenados en algún lugar físico
como un papel, un dispositivo electrónico (CD, DVD, disco duro...), o la mente de una
persona. En este sentido las tecnologías de la información han aportado mucho a
recopilación de datos.
Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la
organización, pudiendo ser de carácter objetivo o subjetivo, o de tipo cualitativo o
cuantitativo, etc.
1.7.3 Información
1.7.4 Conocimiento
9
Comparación con otros elementos.
Predicción de consecuencias.
Búsqueda de conexiones.
10
Cuestionario
19