Está en la página 1de 6

¿Qué es un Data Warehouse?

Viene del inglés Data = datos y Warehouse = almacén, por eso, una data Warehouse es un almacén
de datos. Esta palabra se utiliza para hablar de un almacén de datos diseñado para permitir las
actividades de inteligencia de un negocio. En definitiva, sirve para ayudar analizar los datos
recopilados por la empresa con el fin de mejorar su rendimiento.

Un Data Warehouse o Almacén de Datos, es una gran base de datos, normalmente medida en
gigabytes (miles de millones de caracteres) o terabytes (billones de letras), que recoge información
de múltiples fuentes, y que su actividad se centra en la Toma de Decisiones, es decir, en el análisis
de la información, en vez de su captura.

El término "Data WareHouse" fue acuñado por primera vez por Bill Inmon en 1990. De acuerdo con
Inmon, una data warehouse es un conjunto de datos estructurados orientados por temas,
integrados, variables con el tiempo, y no volátiles empleados para tomar decisiones.

- Orientados por temas: Colección de información relacionada organizada alrededor de un tema


central. Cuando se habla de datawarehouse se hace referencia a un sistema que esta organizado en
base a temas o asignaturas especiales, que permite entonces que los datos y la información de
mismo tipo quede siempre conectada. Ejemplos de temas pueden ser clientes, productos,
campañas, etc.

- Integrados: los datos se obtienen de fuentes diferentes, por ejemplo de los diferentes
departamentos de una organización, pero se deben aplicar técnicas de integración (agrupación) de
los datos. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de
los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una
única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán
más fáciles de responder dado que toda la información reside en el mismo lugar.

- No volátiles: quiere decir que los datos no van a cambiar con el tiempo una vez que se encuentran
en el almacén. El almacén de información de un datawarehouse existe para ser leído, pero no
modificado. La información ni se modifica ni se elimina.

- Variables con el Tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan
registrados para que los informes que se puedan generar reflejen esas variaciones.
Además de una base de datos, en una data Warehouse, se incluyen herramientas de extracción,
transporte, transformación y carga de los datos (ETL), un procesamiento analítico en línea (OLAP)
para analizarlos, herramientas de análisis de clientes, y otras aplicaciones que gestionan el proceso
de recopilación de datos y la entrega a los usuarios como la data mining. Luego veremos algunas de
estas aplicaciones.

¿Para qué sirve una data Warehouse?

 Para tener un mayor conocimiento del negocio


 Para tomar mejores decisiones y en un tiempo menor.
 Para mejorar y ser más efectivos.
 Para no perder distancia con la competencia.
 En definitiva, para aumentar los ingresos.
Los data Warehouse son la base para los sistemas de gestión de relaciones con los clientes, ya que
pueden ser utilizados para la consolidación de los datos del cliente y la identificación de áreas de
satisfacción y/o frustración del cliente.

También se utilizan para la detección de fraudes, análisis de reposicionamiento de producto, el


descubrimiento de centros de beneficio y gestión de activos corporativos.

Veamos más casos concretos con ejemplos:

 Para los minoristas, un almacén de datos o datawarehouse puede ayudar a identificar las
características demográficas de los clientes, identificar los patrones de compra y mejorar
las respuestas de correo directo.
 Para los bancos, puede ayudar en la detección de fraude de tarjetas de crédito, ayudar a
identificar a los clientes más rentables, y poner de relieve los clientes más fieles.
 Las empresas de telecomunicaciones la utilizan para predecir qué clientes tienen más
probabilidades de cambiar de compañía y luego aplicarles incentivos especiales para
quedarse.
 Las compañías de seguros la utilizan para el análisis de las reclamaciones para ver qué
procedimientos se reivindican y para identificar patrones de los clientes de riesgo.
 Los fabricantes pueden utilizarla para comparar los costos de cada una de sus líneas de
productos en los últimos años, a determinar qué factores producen incrementos y ver qué
efecto tuvieron estos aumentos en los márgenes globales.

Ahora vamos hacer un breve recorrido por esas otras herramientas que toda data Warehouse debe
tener. La mayoría de los datawarehouse tiene la siguiente arquitectura:

Expliquemos los pasos ETL y de análisis.

Data Warehouse ETL:


El proceso de extracción de datos de los sistemas de origen y ponerla en la data warehouse se
denomina comúnmente ETL.

ETL (Extract, Transform and Load) es un proceso responsable de la extracción de datos de los
sistemas de origen y de colocarlo en un almacén de datos o data warehouse. ETL implica las
siguientes tareas:

 Extracción de datos: Es lo primero que hace una herramienta ETL. Se trata de obtener la
información de las distintas fuentes de origen, tanto internas como externas. Durante la
extracción, se identifica los datos deseados y se extrae de muchas fuentes diferentes,
incluyendo los sistemas de bases de datos y aplicaciones. Después de la extracción de datos,
tienen que ser transportados físicamente al sistema de destino o a un sistema intermedio
para su posterior procesamiento y/o transformación.
 Transformación: es el filtrado, limpieza, depuración, homogeneización y agrupación de la
información. Incluye la agrupación de los datos de las diferentes fuentes. La
transformación se produce mediante el uso de reglas o tablas de consulta o mediante la
combinación de los datos con otros datos.
 Carga: es el proceso de escribir los datos en la date Warehouse. La fase de carga es el
momento en el cual los datos de la fase anterior (transformación) son cargados en el
sistema de destino.

Diseñar y mantener el proceso de ETL es a menudo considerada como una de las partes más difíciles
y que requieren más recursos de un proyecto de data warehouse. La mayoría de los programas de
data warehouse utilizan herramientas ETL para gestionar este proceso. El software ETL extrae datos,
transforma los valores de los datos inconsistentes, limpia los datos "malos", filtra los datos y carga
los datos en una data warehouse de destino.

Algunas de estas herramientas más utilizadas son:

 Oracle Warehouse Builder


 IBM Websphere DataStage
 Microsoft SQL Server Integration Services (SSIS)

Ya tenemos los datos correctamente, Ahora es el momento de analizarlos.

OLAP Data Warehouse:

OLAP = On-Line Analytical Processing = Procesamiento analítico en línea. Es el método más utilizado
para analizar y evaluar los datos de la datawarehouse en línea. Permite a los gerentes y analistas
obtener una idea de la información. Para analizar los datos se utilizan un conjunto de operaciones.
Estas operaciones se realizan mucho más fácilmente con software o programas OLAP, que suelen
incluir los programas datawarehouse. Para los programas OLAP un tiempo de respuesta es una
medida de su eficacia.

OLAP permite al usuario extraer y ver con facilidad y de forma selectiva los datos desde diferentes
puntos de vista.

Un ejemplo, un usuario puede solicitar que se analizaron los datos para mostrar una hoja de cálculo
que muestra todos los productos una pelota de playa de una empresa que se venden en Madrid en
el mes de julio, comparar las cifras de ingresos con los de los mismos productos en septiembre y
luego ver una comparación de otras ventas de productos en Madrid en el mismo período de tiempo.

Data Mining:

Data Mining significa "minería del datos". En general, el data mining (a veces descubrimiento de
conocimiento) es el proceso de analizar los datos desde diferentes perspectivas y resumirlos en
información útil; información que puede ser utilizada para aumentar los ingresos, reducir los costes,
o ambos. El data mining descubre patrones ocultos en los datos.
Técnicamente, el datamining es el proceso de encontrar correlaciones entre los patrones o de los
campos en grandes bases de datos como en los de una data warehouse.

Un ejemplo, una cadena de supermercados utiliza la capacidad de extracción de datos de Oracle


software para analizar los patrones de compra locales. Descubrieron que cuando los hombres
compran pañales los jueves y los sábados, también tendían a comprar cerveza. Un análisis más
detallado mostró que estos compradores normalmente hicieron su compra semanal los sábados.
Los jueves, sin embargo, sólo han comprado algunos artículos. El minorista llegó a la conclusión de
que debería comprar cerveza para tenerla disponible para el próximo fin de semana. La cadena de
supermercados podría utilizar esta información recientemente descubierta de diversas maneras
para aumentar los ingresos. Por ejemplo, podrían mover la estantería de la cerveza más cerca de la
de los pañales y los jueves no harían ninguna oferta para pañales y cerveza.

Diferencia entre OLAP y Data Mining:

OLAP y Data Mining se utilizan para resolver diferentes tipos de problemas analíticos.

Con OLAP se resumen los datos y se hacen pronósticos. Por ejemplo, responde a cuestiones
operativas como "¿Cuál es el promedio de ventas de automóviles, por región y por año?".

Data Mining descubre patrones ocultos en los datos y opera a un nivel detallado en lugar de un nivel
de resumen. Por ejemplo, en una industria de las telecomunicaciones, donde la pérdida de clientes
es un factor clave, la minería de datos podría responder a preguntas como: "¿Quién es probable que
cambie los proveedores de servicios y cuáles son las razones para que cambien?"

También podría gustarte