Está en la página 1de 14

Base de datos: Datamining, Datawarehouse, Datamart MACE

DATAMINING, DATAWAREHOUSE, DATAMART

DATA MINING
Descubriendo Informacin Oculta

Data Mining, la extraccin de informacin oculta y predecible de grandes bases de


datos, es una poderosa tecnologa nueva con gran potencial para ayudar a las
compaas a concentrarse en la informacin ms importante de sus Bases de
Informacin ( Data Warehouse). Las herramientas de Data Mining predicen futuras
tendencias y comportamientos, permitiendo en los negocios tomar decisiones
proactivas y conducidas por un conocimiento acabado de la informacin (knowledge-
driven). Los anlisis prospectivos automatizados ofrecidos por un producto as van
ms all de los eventos pasados provistos por herramientas retrospectivas tpicas de
sistemas de soporte de decisin. Las herramientas de Data Mining pueden responder
a preguntas de negocios que tradicionalmente consumen demasiado tiempo para
poder ser resueltas y a los cuales los usuarios de esta informacin casi no estn
dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de
patrones ocultos, encontrando informacin predecible que un experto no puede llegar
a encontrar porque se encuentra fuera de sus expectativas.

Muchas compaas ya colectan y refinan cantidades masivas de datos. Las tcnicas


de Data Mining pueden ser implementadas rpidamente en plataformas ya existentes
de software y hardware para acrecentar el valor de las fuentes de informacin
existentes y pueden ser integradas con nuevos productos y sistemas pues son tradas
en lnea (on-line). Una vez que las herramientas de Data Mining fueron implementadas
en computadoras cliente - servidor de alto performance o de procesamiento paralelo,
pueden analizar bases de datos masivas para brindar respuesta a preguntas tales
como, "Cules clientes tienen ms probabilidad de responder al prximo mailing
promocional, y por qu? y presentar los resultados en formas de tablas, con grficos,
reportes, texto, hipertexto, etc.

Los Fundamentos del Data Mining

Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y


desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron
almacenados por primera vez en computadoras, y continu con mejoras en el acceso
a los datos, y ms recientemente con tecnologas generadas para permitir a los
usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso
de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la
entrega de informacin prospectiva y proactiva. Data Mining est listo para su
aplicacin en la comunidad de negocios porque est soportado por tres tecnologas
que ya estn suficientemente maduras:

Recoleccin masiva de datos


Potentes computadoras con multiprocesadores
Algoritmos de Data Mining

Pgina 1 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

La necesidad paralela de motores computacionales mejorados puede ahora


alcanzarse de forma ms costo - efectiva con tecnologa de computadoras con
multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que han
existido por lo menos desde hace 10 aos, pero que slo han sido implementadas
recientemente como herramientas maduras, confiables, entendibles que
consistentemente son ms performantes que mtodos estadsticos clsicos.

En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo


paso se basa en el previo. Por ejemplo, el acceso a datos dinmicos es crtico para las
aplicaciones de navegacin de datos (drill through applications), y la habilidad para
almacenar grandes bases de datos es crtica para Data Mining.

El Alcance de Data Mining

El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de
negocios en grandes bases de datos - por ejemplo: encontrar informacin de la venta
de un producto entre grandes montos de Gigabytes almacenados - y minar una
montaa para encontrar una veta de metales valiosos. Ambos procesos requieren
examinar una inmensa cantidad de material, o investigar inteligentemente hasta
encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente
tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades
de negocios al proveer estas capacidades:

Prediccin automatizada de tendencias y comportamientos. Data Mining


automatiza el proceso de encontrar informacin predecible en grandes bases de
datos. Otros problemas predecibles incluyen pronsticos de problemas
financieros futuros y otras formas de incumplimiento, e identificar segmentos de
poblacin que probablemente respondan similarmente a eventos dados.
Descubrimiento automatizado de modelos previamente desconocidos. Las
herramientas de Data Mining barren las bases de datos e identifican modelos
previamente escondidos en un slo paso. Otros problemas de descubrimiento
de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e
identificar datos anormales que pueden representar errores de tipeado en la
carga de datos.

Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las
plataformas de hardware y software existentes y puede ser implementadas en
sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos
productos sean desarrollados. Cuando las herramientas de Data Mining son
implementadas en sistemas de procesamiento paralelo de alto performance, pueden
analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que
los usuarios pueden automticamente experimentar con ms modelos para entender
datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar
inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores
predicciones.

Las bases de datos pueden ser grandes tanto en profundidad como en ancho:

Pgina 2 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Ms columnas: los analistas muchas veces deben limitar el nmero de variables


a examinar cuando realizan anlisis manuales debido a limitaciones de tiempo,
pero se debe tomar en cuenta que las variables que son descartadas porque
parecen sin importancia pueden proveer informacin acerca de modelos
desconocidos. Un Data Mining de alto rendimiento permite a los usuarios
explorar toda la base de datos, sin preseleccionar un subconjunto de variables.
Ms filas: Muestras mayores producen menos errores de estimacin y desvos,
y permite a los usuarios hacer inferencias acerca de pequeos pero importantes
segmentos de poblacin.

Las tcnicas ms comnmente usadas en Data Mining son:

1. Redes neuronales artificiales: modelos predecible no-lineales que aprenden a


travs del entrenamiento y semejan la estructura de una red neuronal biolgica.
2. Arboles de decisin: estructuras de forma de rbol que representan conjuntos
de decisiones. Estas decisiones generan reglas para la clasificacin de un
conjunto de datos. Mtodos especficos de rboles de decisin incluyen Arboles
de Clasificacin y Regresin (CART: Classification And Regression Tree) y
Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square
Automatic Interaction Detection)
3. Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como
combinaciones genticas, mutaciones y seleccin natural en un diseo basado
en los conceptos de evolucin.
4. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un
conjunto de datos basado en una combinacin de las clases de los k registro (s)
ms similar/es a l en un conjunto de datos histricos (donde k ? 1). Algunas
veces se llama la tcnica del vecino k-ms cercano.
5. Regla de induccin: la extraccin de reglas if-then de datos basados en
significado estadstico.

Cmo Trabaja el Data Mining?

La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado.
Modelado es simplemente el acto de construir un modelo en una situacin donde
usted conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la
respuesta.

Este acto de construccin de un modelo es algo que la gente ha estado haciendo


desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y
de la tecnologa de Data Mining. Lo que ocurre en las computadoras, no es muy
diferente de la manera en que la gente construye modelos. Las computadoras son
cargadas con mucha informacin acerca de una variedad de situaciones donde una
respuesta es conocida y luego el software de Data Mining en la computadora debe
correr a travs de los datos y distinguir las caractersticas de los datos que llevarn al
modelo. Una vez que el modelo se construy, puede ser usado en situaciones
similares donde usted no conoce la respuesta.

La primera cosa que puede probar, para ver si es un buen modelo, es pedirle que
aplique el modelo a su base de clientes. Con Data Mining, la mejor manera para

Pgina 3 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data
Mining. Una vez que el proceso est completo, los resultados pueden ser testeados
contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona,
las observaciones deben mantenerse para los datos excluidos.

Una arquitectura para Data Mining

Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas
con el Data Warehouse as como con herramientas flexibles e interactivas para el
anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera
del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos.
Adems, cuando nuevos conceptos requieren implementacin operacional, la
integracin con el warehouse simplifica la aplicacin de los resultados desde Data
Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar
procesos de negocios en toda la organizacin, en reas tales como manejo de
campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos,
etc.

El punto de inicio ideal es un Data Warehouse que contenga una combinacin de


datos de seguimiento interno de todos los clientes junto con datos externos de
mercado acerca de la actividad de los competidores. Informacin histrica sobre
potenciales clientes tambin provee una excelente base para prospecting. Este
Warehouse puede ser implementado en una variedad de sistemas de bases
relacionales y debe ser optimizado para un acceso a los datos flexible y rpido.

Un server multidimensional OLAP permite que un modelo de negocios ms sofisticado


pueda ser aplicado cuando se navega por el Data Warehouse. Las estructuras
multidimensionales permiten que el usuario analice los datos de acuerdo a como
quiera mirar el negocio. El server de Data Mining debe estar integrado con el Data
Warehouse y el server OLAP para insertar el anlisis de negocios directamente en
esta infraestructura. Un avanzado, metadata centrado en procesos define los objetivos
del Data Mining para resultados especficos tales como manejos de campaa,
prospecting, y optimizacin de promociones. La integracin con el Data Warehouse
permite que decisiones operacionales sean implementadas directamente y
monitoreadas.

Este diseo representa una transferencia fundamental desde los sistemas de soporte
de decisin convencionales. Ms que simplemente proveer datos a los usuarios finales
a travs de software de consultas y reportes, el servidor de Anlisis Avanzado aplica
los modelos de negocios del usuario directamente al Warehouse y devuelve un
anlisis proactivo de la informacin ms relevante. Estos resultados mejoran los
metadatos en el server OLAP proveyendo un estrato de metadatos que representa una
vista fraccionada de los datos. Generadores de reportes, visualizadores y otras
herramientas de anlisis pueden ser aplicadas para planificar futuras acciones y
confirmar el impacto de esos planes.

Pgina 4 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Glosario de Trminos de Data Mining

Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como combinacin
gentica, mutacin y seleccin natural en un diseo basado en los conceptos de evolucin
natural.
Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas hechas a
intervalos especficos. El tiempo es usualmente la dimensin dominanate de los datos.
Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias,
comportamientos o eventos basado en datos histticos.
Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como descriptivas
para aprender acerca de la estructura de un conjunto de datos.
Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las tendencias ,
comportamientos o eventos basado en datos histricos.
rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones.
Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Ver CART y
CHAID.
Base de datos multidimensional: Base de datos diseada para procesamiento analtico on-
line (OLAP). Estructurada como un hipercubo con un eje por dimensin.
CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada para la
clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un
nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado.
Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparacin de datos
que CHAID .
CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol de
decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que
se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules registros
darn un cierto resultado. Segmenta un conjunto de datos utilizando tests de chi cuadrado para
crear mltiples divisiones. Antecede, y requiere ms preparacin de datos, que CART.
Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de
tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos
diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto
a variable(s) especfica(s) las cuales se estn tratando de predecir. Por ejemplo, un problema
tpico de clasificacin es el de dividir una base de datos de compaas en grupos que son lo
ms homogneos posibles con respecto a variables como "posibilidades de crdito" con valores
tales como "Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro,
y grupos diferentes estn lo "ms lejos" posible uno del otro, donde la distancia est medida con
respecto a todas las variables disponibles.
Computadoras con multiprocesadores: Una computadora que incluye mltiples procesadores
conectados por una red. Ver procesamiento paralelo.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean
consistentes y correctamente registrados.
Data Mining: La extraccin de informacin predecible escondida en grandes bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribucin de cantdades masivas de
datos
Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga)
o que representan eventos inusuales.
Dimensin: En una base de datos relacional o plana, cada campo en un registro representa
una dimensin. En una base de datos multidimensional, una dimensin es un conjunto de
entidades similares; por ej.: una base de datos multidimensional de ventas podra incluir las
dimensiones Producto, Tiempo y Ciudad.
Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un
rbol de decisin es un modelo para la clasificacin de un conjunto de datos
Modelo lineal: Un modelo analtico que asume relaciones lineales entre una variable
seleccionada (dependiente) y sus predictores (variables independientes).
Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los coeficientes de
las variables que son estudiadas.

Pgina 5 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un


conjunto de datos.
Navegacin de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una
base de datos multidimensional. Ver OLAP.
OLAP Procesamiento analtico on-line (On Line Analitic prossesing): Se refiere a
aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar,
manipular y analizar bases de datos multidimensionales.
Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la mayora del
resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberan
ser examinados detenidamente; pueden dar importante informacin.
Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar tareas
computacionales. El procesamiento paralelo puede ocurrir en una computadora con mltiples
procesadores o en una red de estaciones de trabajo o PCs.
RAID: Formacin redundante de discos baratos (Redundant Array of inexpensive disks).
Tecnologa para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de
alto rendimiento.
Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin lineal que
encaja entre una variable seleccionada (dependiente) y sus predicados (variables
independientes).
Regresin logstica: Una regresin lineal que predice las proporciones de una variable
seleccionada categrica, tal como Tipo de Consumidor, en una poblacin.
Vecino ms cercano: Tcnica que clasifica cada registro en un conjunto de datos basado en
una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de
datos histricos (donde k ? 1). Algunas veces se llama la tcnica del vecino k-ms cercano.
SMP Multiprocesador simtrico (Symmetric multiprocessor): Tipo de computadora con
multiprocesadores en la cual la memoria es compartida entre los procesadores

Terabyte: Un trilln de bytes.

Data Warehouse
Data Warehouse, son parte de las arquitecturas de informacin DSS (Decision Suport
System) y sistemas de informacin diseados especialmente para la realizacin de
consultas y reportes de datos histricos, stos son comunes en toda la organizacin,
la informacin puede estar sumarizada y/o detallada. Los datos que alimentan los
sistemas de Data warehouse los proporcionan los sistemas operacionales, tambin
denominados sistemas de ejecucin de procesos de negocios.

El datawarehouse es un repositorio de datos de muy fcil acceso, alimentado por


numerosas fuentes (llamadas grupos de informacin) sobre temas especficos del
negocio, es un almacn o bodega de datos con informacin depurada que los
ejecutivos extraen y consultan. El Data warehouse casi siempre es un sistema de
datos guardados fsicamente en estructuras separadas, los datos son transformados a
partir de los datos proporcionados por los sistemas operacionales.

El potencial de la explotacin de los datos (Data Mining) puede realzarse si de manera


apropiada los datos son recolectados y guardados en un almacn o depsito de datos
(Data warehouse). Un almacn de datos o Data warehouse es un sistema de gestin
de bases de datos relacional diseado especficamente para ofrecer las necesidades
de los sistemas de anlisis de la informacin que facilita la integracin y
homogeneizacin de los datos de toda la empresa. En otras palabras el almacn de
datos provee datos que ya han sido transformados y sumarizados, por lo tanto crea el
entorno apropiado para un uso ms eficiente de las herramientas DSS y EIS.

Pgina 6 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

La estructura bsica de la arquitectura Data Warehouse (DW) incluye:

1. Datos Operacionales: Un origen de datos para el componente de


almacenamiento fsico DW.
2. Extraccin de Datos: Seleccin sistemtica de datos operacionales usados
para poblar el componente de almacenamiento fsico DW.
3. Transformacin de datos: Procesos para sumarizar y realizar otros cambios
en los datos operacionales para reunir los objetivos de orientacin a temas e
integracin principalmente.
4. Carga de Datos: Insercin sistemtica de datos en el componente de
almacenamiento fsico DW.
5. Datawarehouse: Almacenamiento fsico de datos de la arquitectura DW.
6. Herramientas de Acceso al componente de almacenamiento fisico DW:
Herramientas que proveen acceso a los datos.

FIGURA 1: ESTRUCTURA BSICA DW.


Los pasos 2, 3 y 4, conforman el proceso conocido como
ETT (Extraccin, Transformacin y Transporte).

Los almacenes de datos (o Datawarehouse) generan bases de datos tangibles con


una perspectiva histrica, utilizando datos de mltiples fuentes que se fusionan en
forma congruente. Estos datos se mantienen actualizados, pero no cambian al ritmo
de los sistemas transaccionales. As un datawarehouse resulta ser un recipiente de
datos transaccionales para proporcionar consultas operativas, y la informacin para
poder llevar a cabo anlisis multidimensional. De esta forma, dentro de un almacn de
datos existen dos tecnologas complementarias, una relacional para consultas y una
multidimensional para anlisis.

Pgina 7 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Puede considerarse que el modelo relacional en el cual se basa OLTP (Procesamiento


Transaccional en Lnea), tiene como objetivo guardar la integridad de la informacin
necesaria para operar un negocio de la manera ms eficiente. Data Warehouse se
sustenta en un procesamiento distinto al utilizado por los sistemas operacionales,
OLAP (Procesamiento Analtico En Lnea), el cual surge como un proceso para ser
usado en el anlisis de negocios y otras aplicaciones que requieren una visin flexible
del negocio.

Opciones de Implementacion

La forma en la cual se estructure el almacenamiento de datos Data Warehouse,


genera una clasificacin respecto a la forma de implementar una arquitectura Data
Warehouse. La estructura adoptada para el almacn de datos se debe realizar de la
manera que mejor satisfaga las necesidades empresariales, siendo entonces dicha
eleccin factor clave en la efectividad del Data Warehouse. Las ms bsicas son:
EL DW central: es una implementacin de un solo nivel con un solo almacn
para soportar los requerimientos de informacin de toda la empresa.
El DW distribuido: es tambin una estructura de un nivel, pero que particiona
el almacn para distribuirlo a nivel departamental.
El DW de dos niveles: combina ideas de los dos anteriores, siendo sus
distribuciones tanto el almacn empresarial como los departamentales

Caracteristicas

Existen generalmente cuatro caractersticas que describen un almacn de datos:

1. Orientado al sujeto:

Los datos se organizan de acuerdo al sujeto en vez de la aplicacin, por


ejemplo, una compaa de seguros usando un almacn de datos podra
organizar sus datos por cliente, premios, y reclamaciones, en lugar de por
diferentes productos (automviles, vida, etc.). Los datos organizados por
sujetos contienen solo la informacin necesaria para los procesos de soporte
para la toma de decisiones.

2. Integrados:

Cuando los datos residen en muchas aplicaciones separados por los distintos
entornos operacionales, la descodificacin de los datos es a menudo
inconsistente. Por ejemplo, en una aplicacin, la palabra gender podra
codificarse como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un
entorno operacional a un entorno de almacn de datos o de data warehouse,
ellos asumen una codificacin consistente, por ejemplo gender siempre se
transformara a "m" y "f".

Pgina 8 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

3. Variacin-temporal:

El almacn de datos contiene un lugar para guardar datos con una antiguedad
de 5 a diez aos, o incluso ms antiguos, para poder ser usados en
comparaciones, tendencias y previsiones. Estos datos no se modificarn.
4. No son inestables:

Los datos no sern modificados o cambiados de ninguna manera una vez ellos
han sido introducidos en el almacn de datos, solamente podrn ser cargados,
ledos y/o accedidos

Como Construir y Manejar un Data Warehouse

Proceso de Scrubbing

Si la organizacin tiene muchos datos de aplicaciones tradicionales y est buscando


una solucin para transferir grandes volmenes de datos de un Mainframe, se necesita
una solucin de Bodega de Datos de fuerza industrial para hacer transferencia bruta
de datos diferentes de fuentes en Mainframes a Bodegas de Datos en DB2 o en Unix.

Se requiere de alguna herramienta para llenar y actualizar la Bodega de Datos que


realice extraccin de datos a altas velocidades y altos volmenes de datos, traslade y
distribuya de mltiples y diferentes Bases de Datos en Mainframes en la BODEGA y
elimine la necesidad de escribir complejos programas y rutinas de conversin.

Distribucin de datos es el proceso de mover los datos extrados y trasladarlos a la


Bodega de Datos o a diferentes Bases de Datos en cualquier plataforma en cualquier
sitio. Una herramienta de distribucin define Base de Datos Objetivo, informacin de
conversin y entrada/salida de datos. Una vez creadas estas definiciones, pueden ser
salvadas para ser reutilizadas, editadas o ejecutadas posteriormente.

Manejo de los Metadatos

El repositorio sirve como un sitio para almacenar los datos de los activos de
informacin de una organizacin. Abarca todos lo datos de la organizacin, sin
importar cual es la fuente original y facilita el entendimiento de toda la empresa y
controla la existencia de los recursos de datos existentes.

El repositorio sirve como una gua para definir un ambiente de migracin de datos y
contiene:

El mapeo entre las fuentes y lo la Bodega de Datos objetivo


Requerimientos de traslado de la informacin
Reglas de negocio
Pistas de auditoria
Otros criterios de seleccin para construir la Bodega de Datos

Pgina 9 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

El repositorio tambin racionaliza el desarrollo de aplicaciones a travs de


Documentacin, reparticin de datos, reutilizacin y estandarizacin. Los metadatos
almacenan herramientas CASE, programas existentes y estructuras de datos.

Existen facilidades para lograr que los usuarios no tcnicos puedan accesar la
informacin a nivel de metadatos con herramientas intuitivas, fciles de usar y de
hacer anlisis del tipo Drill - Down de tpicos generales a categoras mas especificas
de metadatos predeterminados. Este tipo de herramientas proveen al usuario final de
una cabina virtual de datos que les permite a travs del mouse ir a cajones grficos, a
los folders dentro de los cajones y paginas de apuntes rotuladas.

Acceso y Analisis de Datos

Una vez que la Bodega de Datos se ha llenado de informacin, los usuarios finales
pueden accesar y analizar los datos. Para satisfacer las necesidades de usuarios
finales en cualquier plataforma, se provee de algunas herramientas especializadas
para hacer reportes y queries, para desarrolladores de aplicaciones de oficina y
usuarios que necesitan revisar datos sumarizados de la Bodega as como crecientes
niveles de detalle

Manejo de Sistemas

La Base de Datos de la Bodega debe ser frecuentemente mantenida y manejada por


DBAs para reducir el impacto en el desempeo del sistema y recursos. Para ser
eficiente y productivo, el proceso de Bodega de Datos debe ser automatizado dentro
de un ambiente de produccin. Las herramientas necesarias para su mantenimiento,
se clasifican en:

Herramientas de manejos de Bases de Datos


Sistemas para Manejo de Procesos de Jobs
Resolucin de Problemas ( Help Desk)
Manejo de Almacenamiento y desempeo
Seguridad
Distribucin.

Construccion de la Bodega de Datos

Para construir una Bodega de Datos es necesario saber algunos temas generales, que
se agrupan en los siguiente tpicos:

Ambiente actual:

Es necesario entender el negocio y el ambiente tecnolgico actual de la Organizacin,


para construir una bodega que sirva. Cualquier solucin propuesta de Bodega de
Datos debe estar muy orientada por las necesidades del negocio y debe ser
compatible con la arquitectura tcnica existente y planeada de la compaa.

Ambiente de Negocios:

Pgina 10 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la


Organizacin y el soporte que representa la informacin dentro de todo su proceso de
toma de decisiones.

Ambiente Tcnico:

Se debe tener un claro concepto desde una perspectiva tcnica de los Sistemas de
Informacin de la Organizacin. En este anlisis se debe tener claridad del ambiente
tcnico actual y futuro a nivel de detalle. Se debe incluir tanto el aspecto de ambiente
hardware: mainframes, servidores, redes, as como aplicativos y herramientas .

Espectativas de los usuarios:

Esto es determinante en el xito de un proyecto de Bodega de Datos puesto que


Bodega de Datos no es un proyecto tecnolgico, es una forma de Vida de Las
Organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su
convencimiento sobre su bondad.

Estrategia Recomendada

Se recomienda iniciar con un prototipo.

Prototipo : provee a los usuarios finales una aproximacin de lo que la Bodega


de Datos les puede proporcionar en un perodo de tiempo corto, para que el
grupo de Bodega de Datos pueda demostrar los beneficios de la Bodega de
Datos a los usuarios y recolectar lo ms pronto la retroalimentacin crtica de
los usuarios. En la Bodega de Datos esto quiere decir que los datos deben ser
llevados e integrados y cargados en estructuras de Datos apropiadas.

Deben ser distribudas herramientas de acceso de datos a usuario finales y


aplicaciones para realizar queries. Deben ser creadas herramientas de soporte
en la Decisin si es aplicable.

Piloto

El piloto de la Bodega de Datos, es la primera fase del proyecto en el cual el


equipo de Bodega de Datos utilizar los mtodos, tcnicas y herramientas que
ser la base para una Bodega de Datos completa. Por esta razn el proyecto
piloto de Bodega de Datos debe tener un pequeo alcance y tiempo adicional
comparativamente con los esfuerzos sucesivos de Bodega de Datos.

Prueba del concepto tecnolgico

La prueba del concepto tecnolgico: es un paso opcional que se puede


necesitar para definir si la arquitectura especificada para la Bodega de Datos
funcionar. Dada esta meta el hecho de proveer factibilidad tcnica durante el
prototipo podra adicionar enormes e inaceptables riesgos al prototipo.

Pgina 11 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Arquitectura de la Bodega de Datos

Dependiendo de la estructura interna de los datos de la Bodega y


especialmente del tipo de consultas a realizar, se disea la arquitectura de la
Bodega de datos. Con este criterio los datos deben ser repartidos entre
numerosos Data Marts.

Los Datos de los sistemas de Aplicacin y de otras fuentes de Bodegas de


Datos deben ser peridicamente extrados y alimentados en la capa de Data
Scrubbing. La extraccin debe ser realizada en muchos casos utilizando los
programas para acompaar stas tareas. El Data Scrubbing debe ser hecho ya
sea con ayuda de programas desarrollados para esto, o con ayuda de
herramientas de scrubbing tales como Platinum Infopump

Factores de riesgo

Es importante conocerlos para poder monitorearlos y son:

Espectativas de los usuarios: muchas veces el xito depende de la diferencia


entre lo que los usuarios esperan y lo que ellos perciben que les es entregado.
Es crtico que el equipo de Bodega de Datos comunique las espectativas acerca
de lo que ser entregado muy claramente y ayude al usuario final a entender la
naturaleza iterativa de construir una Bodega de Datos.
Experiencia con Bodegas de Datos . Este riesgo se puede reducir con el uso
juicioso de experiencias de proveedores y consultores.
Direccin estratgica . Es relativamente lgico definir un punto de inicio lgico
para la Bodega de Datos.

DataMart
Un Datamart puede verse como una bodega entre un gran almacn de datos
(Datawarehouse) que almacena data para un propsito especifico. El concepto
Datamart es una extensin natural de Datawarehouse. Cuando se habla de Datamart,
se esta refiriendo ,en pocas palabras ,a un Datawarehouse en pequeo y concentrado
en una sola unidad del negocio, en lugar de en toda una corporacin.

Surge a partir de la necesidad de abordar los proyectos de Datawarehouse por reas


temticas de anlisis (esto es por la gran complejidad que alcanzan a tener los
proyectos de Datawarehouse). En lugar de crear el "gran repositorio" de la empresa,
se ha recomendado el desarrollo de proyectos mas pequeos, creando as cubos de
informacin que respondan a las necesidades de un rea especifica. Su funcin
principal es apoyar a otros sistemas para la toma de decisiones, adems de disponer
de la informacin solicitada en el momento preciso, permitiendo as un mejor control
de la informacin que se est abarcando.

Entre los diferentes tipos de Datamarts prevalecen los Datamarts mviles. Al hablar de
Datamarts mviles, se trata de bodegas personales que pueden cargarse en una
laptop y llevarse a donde quiera que sea.

Pgina 12 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Para el proceso de construccin de Datamarts existen dos enfoques: El primero es


construir primero un ncleo de la bodega de datos y luego hacer varios Datamarts
sobre dicha bodega. La segunda es construir primero un Datamart e ir expandiendo
poco a poco la bodega de datos y aadiendo nuevos Datamarts conforme sea
necesario hacerlo.

Los Datamarts deben consistir en datos extrados del corazn de la Bodega de Datos
y reorganizados y/o reformateados para hacer ms fcil su uso para diferentes
propsitos. Pero dado que esos propsitos especficos pueden cambiar en el tiempo, los
Datamarts deben ser concebidos con estructuras de Datos temporales. Cuando los usuarios no ven
ms los datos como estn presentados por un Datamart en particular, este Datamart debe ser removido.
Y mientras los usuarios desarrollan nuevas formas de hacer bsquedas y mirar los datos, deben ser
creados nuevos Datamarts para hacer sus bsquedas ms simples y con un mejor desempeo.

Los Datamart pueden incluir una gran variedad de estilos de tablas. Algunas pueden ser simplemente
un subconjunto de datos en la Bodega de Datos, conteniendo solamente datos para una particular zona
geogrfica, un perodo especfico de tiempo, una unidad de negocios. Otros Datamarts pueden ser el
resultado de reunir informacin proveniente de diferentes tablas del corazn de la Bodega de Datos en
una tabla Datamart desnormalizada. O talvz los Datamarts sern construidos para contener elementos
de datos calculados y derivados que no estn explcitamente almacenados en el corazn de la Bodega
de Datos.

Tambin es posible mencionar que el uso de estructuras de datos mutidimensionales debera estar
reservado para Datamarts. Esto es, datos que estn en el corazn de la Bodega de Datos deberan
almacenarse en forma relacional y luego ser extrados en un Datamart multidimensional si es requerido.
Hay diferentes estilos de usuarios finales cada uno con su propio nivel de conocimiento y necesidades,
para as proveer de apropiados mecanismos de acceso para cada clase de usuarios.

Diferencias con Bases de Datos tradicionales:

La primera diferencia es que los primeros sistemas de bases de datos tenan un propsito transaccional,
en un Datamart se manejan grandes cantidades de datos, y se enfocan a contestar preguntas del tipo
"Que pasara si." Por lo que requieren mayor flexibilidad. Una base de datos tradicional se optimiza
para transacciones y un Datamart se optimiza para queries con grandes volmenes de datos.

Productos de Aplicacin
Data Warehouse
1. Centricity Solution for Marketin Automation: www.cognos.com
2. DataSage iCRM : www.datasage.com
3. Influence Knowledge Warehouse for SAP : www.influencesw.com
4. Oracle Warehouse Builder : www.oracle.com/go/?TDWI2000
5. One-by-One Suite : www.paragren.com
6. VITAL MEASURES : www.prismsolutions.com
7. Prism Customer Relationship Management System : www.rtms.com
8. Sybase Industry Solutions : www.sybase.com
DataMart
1. Cognos DecisionStream 6.0 : www..cognos.com/dwirg
2. Oracle Data Mart Suite : www.oracle.com/go/?TDWI2000
3. DecisionPoint Producto Family : www.dpapplications.com
4. Sybase Industry Warehouse Studio : www.sybase.com/bi
5. SalesMan Pre-Built Data Mart : www.taurus.com
6. DataStage : www.ardentsoftware.com
7. Alue Decision Supportware : www.decisionism.com
8. DataDesigns : www.g1.com
9. MIS solution : www.mis.de

Pgina 13 de 14
Base de datos: Datamining, Datawarehouse, Datamart MACE

Datamining
1. KnowledgeSUITE: www.angoss.com
2. Neugents : www.ca.com
3. Cognitive Engine and Advisor Toolkit from CSI : www.csi.cc
4. S-PLUS : www.splus.mathsoft.com
5. PolyAnalyst Family : www.megaputer.com
6. SAS Data Mining Solution : www.sas.com
7. Darwin : www.oracle.com/go/?TDWI2000
8. Clementine : www.spss.com/clementine/downloads.htm

Pgina 14 de 14

También podría gustarte