Está en la página 1de 11

Introducción al Data Warehousing.

Tabla de contenido

Contenido
Introducción ........................................................................................................................................ 2
1. ASPECTOS TEÓRICOS ....................................................................................................................... 3
1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING ............................................................. 3
1.2 Problemas que dan origen a un Data WareHouse. ......................................................... 3
1.3 Beneficios asociados al Data WareHouse ....................................................................... 3
1.4 Diferentes tipos de información ..................................................................................... 4
1.5 Sistemas de Soporte de Decisiones..................................................................................... 4
1.6 Arquitectura Data Warehouse ............................................................................................ 5
1.6.3 Fuentes de datos ......................................................................................................... 5
1.6.4 Extracción, transformación y carga (ETL) .................................................................... 5
1.6.5 Ambiente Data Warehouse ......................................................................................... 7
1.6.6 Data Mart .................................................................................................................... 7
1.6.7 Herramientas de acceso y uso .................................................................................... 7
1.6.8 Metadatos ................................................................................................................... 7
1.7 Business Intelligence ........................................................................................................... 8
1.7.1 Datos, información, conocimiento .............................................................................. 8

1
Introducción
En la actualidad, el dinámico mundo de los negocios plantea la necesidad de disponer de
un acceso rápido y sencillo a información para la toma de decisiones. Dicha información
debe estar estructurada y elaborada de acuerdo a parámetros de calidad, a fin de
posibilitar una adaptación ágil y precisa a las fluctuaciones del ambiente externo.
Las empresas disponen, para la gestión de sus procesos de negocio, de sistemas
transaccionales corporativos que manejan enormes cantidades de datos, organizados de
forma tal que puedan ser utilizados por las aplicaciones operacionales existentes. Los
niveles gerenciales necesitan a menudo tomar decisiones de alto nivel, cruciales para el
funcionamiento de la empresa. Frecuentemente se basan en su experiencia, utilizando un
enfoque subjetivo del proceso decisorio. Este enfoque no es apto para las condiciones del
mundo actual en el que los sistemas de gestión de calidad vigentes han demostrado la
importancia de la toma de decisiones basada en cifras, datos y hechos.
El Data Warehouse permite que los gerentes tomen decisiones siguiendo un enfoque
racional, basados en información confiable y oportuna. Consiste básicamente en la
transformación de los datos operacionales en información útil para decidir. El uso del Data
Warehouse permite también encontrar relaciones ocultas entre los datos y predecir el
comportamiento futuro bajo condiciones dadas.
La filosofía de trabajo del Data Warehouse es diferente a la de los sistemas
transaccionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional
modelado relacional, y las herramientas de acceso a los datos se basan en una tecnología
de procesamiento analítico, distinta al procesamiento transaccional de los sistemas
operacionales.
Los datos operacionales que sirven de entrada al Data Warehouse generalmente están
dispersos en distintos sistemas de la organización, desarrollados en diferentes entornos
de desarrollo, por diferentes personas y en diferentes momentos. Es tarea fundamental
del Data Warehouse recolectarlos, unificarlos y depurarlos según las necesidades del
negocio, eliminando inconsistencias y conservando sólo la información útil para los
objetivos empresariales. Esto se lleva a cabo mediante procesos que se ejecutan
periódicamente y conducen a mantener la información actualizada.
Los datos dentro de un ambiente Data Warehouse pueden organizarse en un Data
Warehouse corporativo, o dividirse por área o sector departamental, almacenándose en
Data Marts, que son similares a una versión reducida de un Data Warehouse. Otra de las
características particulares de un Data Warehouse es la importancia que presentan los
metadatos, o datos acerca de los datos, considerados en todas las etapas de su desarrollo.
Las aplicaciones de usuario final que acceden al Data Warehouse brindan a los gerentes la
posibilidad de ver la información a diferentes niveles de agregación (detallados o
resumidos) y filtrar las consultas por distintas variables.
Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para
encontrar relaciones entre los datos a fin de comprender las causas de variabilidad
presentes y realizar pronósticos con el apoyo de modelos estadísticos.

2
1. ASPECTOS TEÓRICOS

1.1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING


Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un
negocio almacenados en un data warehouse, difieren de los datos operacionales usados
por las aplicaciones de producción.

1.2 Problemas que dan origen a un Data WareHouse.


Los Data Warehouse surgen por los siguientes problemas:
Falta de integración de la información. Muchos de los datos de que disponen las
empresas se encuentra en diversos almacenes de datos porque han evolucionado como
sistemas independientes, en diferentes lenguajes, desarrollados por diferentes personas y
en diferentes momentos. Estos almacenes de datos son incapaces de ofrecer a la empresa
una visión consolidada ya que no poseen vinculación entre ellos.
Sobrecarga de información. En las últimas décadas, los sistemas operacionales han
producido una gran cantidad de datos, los que son difíciles de analizar para tomar
decisiones de negocio. A pesar de las grandes sumas invertidas en tecnología de la
información, los distintos departamentos dentro de las empresas todavía carecen de
herramientas para explorar esos datos de una manera ágil y eficaz.
Exceso de información genérica y despersonalizada. Por lo general, los informes
producidos por un sistema operacional contienen una gran cantidad de datos. Sin
embargo, ofrecen muy poca información que ayude a la toma de decisiones. Estos
informes no tienen la capacidad de adaptarse a las necesidades actuales de los usuarios, y
carecen de información personalizada y/o relevante para los distintos perfiles que existen
en un negocio.
Falta de retroalimentación oportuna para la mejora de los negocios. En las
organizaciones, los ejecutivos trabajan haciéndose preguntas e imaginando posibles
situaciones futuras. Los resultados obtenidos de esa labor generarán a su vez más
preguntas y el planteo de nuevas situaciones repitiendo el ciclo hasta conseguir los
fundamentos para tomar una decisión. Con el uso de los sistemas operacionales, este
proceso se hace dificultoso, sino imposible, al no tener posibilidad de generar informes
adaptados a las necesidades del momento.

1.3 Beneficios asociados al Data WareHouse


Las ventajas competitivas en una empresa, al permitir el desempeño de tareas que
utilizando los sistemas tradicionales sufrirían un costo adicional, por ejemplo:
Mejor servicio al cliente. Lo dicho en el punto anterior implica una importante mejora en
la calidad de gestión, lo que también repercute en la relación con el cliente. De hecho, el
que un Data Warehouse implique una mayor flexibilidad ante el entorno tiene una
consecuencia directa en una mayor capacidad para responder a las necesidades de los
clientes.

3
Rediseño de procesos. Ofrecer a los usuarios una capacidad de análisis de la
información de su negocio que tiende a ser ilimitada y permite con frecuencia obtener una
visión más profunda y clara de los procesos de negocio propiamente dichos, lo que a su
vez permite obtener ideas renovadoras para el rediseño de los mismos.

1.4 Diferentes tipos de información


El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi
todos los casos. El data warehouse es siempre un almacén de datos transformados y
separados físicamente de la aplicación donde se encontraron los datos en el ambiente
operacional.
El proceso automatizado de un negocio utiliza datos operacionales, los que constituyen el
conjunto de registros de las transacciones del negocio. Estos datos son creados durante la
ejecución de estos procesos y son almacenados en un archivo o en una base de datos.
Lo que el usuario del negocio necesita como entrada a sus actividades de análisis son
datos informativos. Estos son una combinación de datos operacionales que han sido
modificados, depurados, transformados, consolidados y organizados desde diversas
fuentes externas al proceso del negocio. Este tipo de información generalmente es
específico para un conjunto de usuarios del negocio que lo hacen significante y útil para
su análisis.
Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es difícil cumplir
con ambos propósitos en el mismo sistema.
En el siguiente cuadro se muestran las diferencias entre los datos operacionales y los
datos informativos.

Datos Operacionales Datos Informativos


Orientados a una aplicación Orientados a un tema
Integración limitada Integrados
Constantemente actualizados No volátiles
Sólo valores actuales Valores a lo largo del tiempo
Soportan operaciones diarias Soportan decisiones de administración

1.5 Sistemas de Soporte de Decisiones


En el proceso de tomar decisiones hay dos partes en general: tener los datos y obtener
respuestas de los datos.
Un Sistema de Soporte de Decisiones (SSD) puede ser definido de una manera general
como un sistema de computación diseñado para apoyar al proceso de toma de decisiones
(de planeamiento, de administración y operacionales) en un negocio.
Este tipo de Sistema contiene todos los servicios o procesos para elegir, manipular y
analizar datos informativos y presentar los resultados. Debería brindar acceso
transparente a los datos en varias partes del Data Warehouse y proveer de interfaces
comunes a un grupo de usuarios de la organización. Fundamentalmente, un Sistema de
Soporte de Decisiones constituye la ventana del usuario a los datos informativos
almacenados en el Data Warehouse.

4
1.6 Arquitectura Data Warehouse
Poder transformar los datos en conocimiento es un proceso complejo. Un Data Warehouse
es mucho más que simplemente copiar datos de un lugar a otro, de los sistemas
operacionales a una base de datos informativa independiente. Un Data Warehouse es, en
primer lugar, una arquitectura que debe servir como infraestructura para proporcionar
una solución completa a los problemas que le dieron origen. La arquitectura de un Data
Warehouse se representa en la Figura

1.6.3 Fuentes de datos


Este componente es el que normalmente está presente originariamente en las
organizaciones, y a partir del cual se realiza la captura de datos que se contemplará en el
Data Warehouse. Estas fuentes de datos pueden ser sistemas operacionales corporativos
(representan el entorno del que se obtienen la mayor parte de los datos significativos de
la operativa diaria de la compañía), sistemas operacionales departamentales y fuentes
externas como copias de respaldo, planillas de cálculo, archivos planos, reportes de la
empresa, resultados de investigaciones de mercado, etc.

1.6.4 Extracción, transformación y carga (ETL)


Para poblar el Data Warehouse se deben mover bloques de datos, muchas veces desde
diferentes sistemas operativos, estructuras de archivos y bases de datos, mediante
procesos programados que se ejecutan frecuentemente fuera del horario de trabajo para
no insumir tiempo de procesamiento del hardware de la empresa, entorpeciendo la
operatoria de la misma.

5
Los subsistemas para poblar el Data Warehouse se pueden construir utilizando
herramientas y productos disponibles en el mercado, programas y procesos codificados
desde cero, o combinaciones de estos elementos.
Al construir los sistemas para poblar el Data Warehouse, se debe considerar la posibilidad
de que estos permitan regular el crecimiento evolutivo del Data Warehouse, brindando
escalabilidad y soporte para grandes cantidades de datos y consultas complejas. Se
pueden encontrar dificultades adicionales dependiendo de las fuentes de datos que se
tengan disponibles, que implican el uso de diferentes herramientas y tecnologías para
acceder a cada uno de ellos.

1.6.4.1Extracción (Extraction)
El propósito principal de la fase de extracción es capturar y copiar los datos requeridos de
uno o más sistemas operacionales o fuentes de datos. Los datos que se extraen son
colocados en un archivo intermedio con un formato definido, que luego será utilizado por
la siguiente fase del proceso.
Los registros que sean rechazados en el proceso deben ser registrados en un archivo o log
de rechazos para que puedan ser analizados posteriormente y así tener la posibilidad de
cargarlos en el Data Warehouse correctamente. Además, esto permite descubrir los
errores que han ocurrido en los procesos de creación de los datos operacionales. Ejemplos
de estos errores son violaciones de integridad, claves duplicadas, formatos de datos
incorrectos y datos inválidos como campos vacíos, fechas futuras e importes negativos
cuando estos no correspondan. En nuestro Caso: números telefónicos inválidos,
estándares no respetados, llamadas duplicadas y campos nulos.
Hay que tener en cuenta que después de la fase inicial de carga del Data Warehouse sólo
es necesario cargar los datos nuevos y que han sido modificados.

1.6.4.2 Transformación (Transformation)


Las funciones básicas a ser realizadas en esta fase consisten en leer los archivos
intermedios generados por la fase de extracción, realizar las transformaciones necesarias,
construir los registros en el formato del Data Warehouse y crear un archivo de salida
conteniendo todos los registros nuevos a ser cargados en el Data Warehouse. La mayor
parte del trabajo en esta fase involucra el efectuar las transformaciones necesarias. Estas
transformaciones incluyen:
Combinar campos múltiples de nombres y apellidos en un solo campo.
Fusionar campos o datos homónimos.
Separar un campo de fecha en campos de año, mes y día.
Cambiar la representación de los datos, como TRUE (verdadero) a 1, y FALSE (falso) a 0,
o códigos postales numéricos a alfanuméricos, respetando los estándares de la empresa.
Cambiar un dato que tiene múltiples representaciones a una sola representación, como
por ejemplo definir un formato común para números telefónicos, o establecer un término
común para los nombres de los campos o los valores de los datos que sean sinónimos.

6
1.6.5 Ambiente Data Warehouse
Es el bloque donde se almacenan los datos informativos, utilizado principalmente para
usos estratégicos. No obstante, existen herramientas que no hacen uso de este bloque,
realizando las consultas multidimensionales directamente sobre la base operacional. En
este caso se puede pensar en el Data Warehouse simplemente como una vista lógica o
virtual de datos.

1.6.6 Data Mart


Un Data Mart es una implementación de un Data Warehouse con un determinado alcance
de información y un soporte limitado para procesos analíticos, que sirve a un sólo
departamento de una organización o para el análisis de problemas de un tema particular.
El Data Warehouse es el resultado de la unión de los Data Marts de la empresa.

1.6.7 Herramientas de acceso y uso


Sin las herramientas adecuadas de acceso y análisis el Data Warehouse se puede convertir
en una mezcla de datos sin ninguna utilidad. Es necesario poseer técnicas que capturen
los datos importantes de manera rápida y puedan ser analizados desde diferentes puntos
de vista.
También deben transformar los datos capturados en información útil para el negocio.
Actualmente a este tipo de herramientas se las conocen como Herramientas de
Inteligencia de Negocio (Business Intelligence Tools, BIT) y están situadas
conceptualmente sobre el Data Warehouse. Cada usuario final debe seleccionar la
herramienta que mejor se ajusta a sus necesidades y a su Data Warehouse. Entre ellas
podemos citar las Consultas SQL (Structured Query Language), las Herramientas MDA
(Multidimensional Analysis), OLAP (On-Line Analytical Processing) y las herramientas Data
Mining.
Este bloque también incluye el hardware y software involucrados en mostrar la
información en pantalla y emitir reportes de impresión, hojas de cálculo, gráficos y
diagramas para el análisis y presentación.

1.6.8 Metadatos
Los metadatos son datos acerca de los datos. En una base de datos los metadatos son la
representación de los diversos objetos que definen una base de datos, por ejemplo,
ubicación y descripción de base de datos, tablas, nombres y resúmenes. También
podemos mencionar las descripciones lógicas y físicas de tablas, columnas y atributos.

Uno de los problemas con el que pueden encontrarse los usuarios de un Data Warehouse
es saber lo que hay en él y cómo pueden acceder a lo que quieren. A fin de proveer el
acceso a los datos universales, es absolutamente necesario mantener los metadatos.

7
1.7 Business Intelligence

Business Intelligence es la habilidad para transformar los datos en información, y la


información en conocimiento, de forma que se pueda optimizar el proceso de toma de
decisiones en los negocios.

Desde un punto de vista más pragmático, y asociándolo directamente con las tecnologías
de la información, podemos definir Business Intelligence como el conjunto de
metodologías, aplicaciones y tecnologías que permiten reunir, depurar y transformar datos
de los sistemas transaccionales e información desestructurada (interna y externa a la
compañía) en información estructurada, para su explotación directa (reporting, cubos
OLAP, alertas...) o para su análisis y conversión en conocimiento, dando así soporte a la
toma de decisiones sobre el negocio.

1.7.1 Datos, información, conocimiento

¿En qué se diferencia el conocimiento de los datos y de la información? En una


conversación informal, los tres términos suelen utilizarse indistintamente y esto puede
llevar a una interpretación libre del concepto de conocimiento. Quizás la forma más
sencilla de diferenciar los términos sea pensar que los datos están localizados en el mundo
y el conocimiento está localizado en agentes de cualquier tipo (personas, empresas,
máquinas...), mientras que la información adopta un papel mediador entre ambos.

1.7.2 Datos

Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de
información que por sí solos son irrelevantes como apoyo a la toma de decisiones.
También se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el
por qué de las cosas y no son orientativos para la acción.

8
Un número telefónico o un nombre de una persona, por ejemplo, son datos que, sin un
propósito, una utilidad o un contexto no sirven como base para apoyar la toma de una
decisión. Los datos pueden ser una colección de hechos almacenados en algún lugar físico
como un papel, un dispositivo electrónico (CD, DVD, disco duro...), o la mente de una
persona. En este sentido las tecnologías de la información han aportado mucho a
recopilación de datos.

Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la
organización, pudiendo ser de carácter objetivo o subjetivo, o de tipo cualitativo o
cuantitativo, etc.

1.7.3 Información

La información se puede definir como un conjunto de datos procesados y que tienen un


significado (relevancia, propósito y contexto), y que por lo tanto son de utilidad para quién
debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en
información añadiéndoles valor:

Contextualizando: se sabe en qué contexto y para qué propósito se generaron.

Categorizando: se conocen las unidades de medida que ayudan a interpretarlos.

Calculando: los datos pueden haber sido procesados matemática o


estadísticamente.

Corrigiendo: se han eliminado errores e inconsistencias de los datos.

Condensando: los datos se han podido resumir de forma más concisa


(agregación).

Por tanto, la información es la comunicación de conocimientos o inteligencia, y es capaz


de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de valor
y sus comportamientos.

Información = Datos + Contexto (añadir valor) + Utilidad (disminuir la incertidumbre)

1.7.4 Conocimiento

El conocimiento es una mezcla de experiencia, valores, información y know-how que sirve


como marco para la incorporación de nuevas experiencias e información, y es útil para la
acción. Se origina y aplica en la mente de los conocedores. En las organizaciones con
frecuencia no sólo se encuentra dentro de documentos o almacenes de datos, sino que
también esta en rutinas organizativas, procesos, prácticas, y normas.

El conocimiento se deriva de la información, así como la información se deriva de los


datos. Para que la información se convierta en conocimiento es necesario realizar acciones
como:

9
Comparación con otros elementos.

Predicción de consecuencias.

Búsqueda de conexiones.

Conversación con otros portadores de conocimiento.

10
Cuestionario

1. ¿Qué son los Data Warehouse?


2. ¿Cuál fueron la problemáticas en las Tecnologías de la Información que le dan
origen?
3. ¿Cuáles son las partes constructivas del Data WareHouse?. Definir cada una.
4. ¿Dónde puede ubicar a un Data WareHouse en la Inteligencia de Negocios?

19

También podría gustarte