Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo4 2
Capitulo4 2
DATA WAREHOUSE
Conceptos y Estrategias de Desarrollo
Publicado por el Instituto Nacional de Estadsticas e Informtica INEI/1997 (Lima)
Revisado y Editado por Prof. J. Elliott
Contenido
Presentacin
Prefacio
1. ASPECTOS TEORICOS
1.1 Introduccin al Concepto Data Warehousing
1.2 Sistemas de Informacin
1.2.1 Sistemas Tcnico-operacionales
1.2.2 Sistemas de Soporte de Decisiones
1.3 Caractersticas de un Data Warehouse
1.3.1 Orientacin a Temas
1.3.2 Integracin
1.3.3 De Tiempo Variante
1.3.4 No Variante
1.4 Estructura de un Data Warehouse
1.5 Arquitectura de un Data Warehouse
1.5.1 Elementos constituyentes de una Arquiteectura Data Warehouse
1.5.2 Operaciones en un Data Warehouse
1.6 Tranformacin de Datos y Metadata
1.6.1 Transformacin de Datos
1.6.2 Metadata
1.7 Flujo de Datos
1.8 Medios de Almacenamiento para la Informacin Antigua
1.9 Usos de Data Warehouse
1.10 Consideraciones Adicionales
1.11 Ejemplo de un Data Warehouse
1.12 Anomalas en un Data Warehouse
2. PROYECTO DE ELABORACION DE UN DATA WAREHOUSE
2.1 Fase: Organizacin
2.1.1 Factores en la Planificacin de un Data Warehouse
2.1.2 Estrategias para el Desarrollo de un Data Warehouse
2.1.3 Estrategias para el Diseo de un Data Warehouse
2.1.4 Estrategias para la Gestin de un Data Warehouse
Pag. 1 de 93
Pag. 2 de 93
PRESENTACION
El Instituto Nacional de Estadstica e Informtica (INEI), ente rector de los Sistemas Nacionales de Estadstica
e Informtica, se complace en presentar el "Manual para la Construccin de un Data Warehouse".
Esta tecnologa permite que la organizacin disponga, en forma integrada y estandarizada, de la informacin
correspondiente a la operacin de la empresa, as como, proporciona a los usuarios, que tienen a su cargo la
toma de decisiones, las herramientas adecuadas, para que a travs de consultas rpidas, ellos mismos
accedan la informacin requerida.
El documento consta de tres captulos. En el primero, "Aspectos Tericos", se dan los conceptos y el
fundamento de la tecnologa data warehousing. En el segundo, "Proyecto de Elaboracin de un Data
Warehouse", se definen las estrategias para su planificacin, desarrollo, diseo y gestin, adems de los
puntos que deben considerarse en la evaluacin de la inversin.
El tercer captulo, "Software en un Data Warehouse", permite comparar las herramientas de anlisis
adecuadas para los usuarios del data warehouse. Asimismo, en los Anexos, se proporciona una relacin de
los diversos Softwares que se usan en el manejo de un Data Warehouse, seguido de un Glosario de Trminos
utilizados en la publicacin.
El INEI, en su propsito de contribuir con la modernizacin de la gestin de los Servicios Informticos, pone a
disposicin de las Instituciones Pblicas, Privadas, estudiantes y pblico en general, este documento,
agradeciendo a las personas que han contribuido a la realizacin de la presente publicacin.
Lima, Setiembre de 1997
Pag. 3 de 93
PREFACIO
Desde que se inici la era de la computadora, las organizaciones han usado los datos desde sus sistemas
operacionales para atender sus necesidades de informacin. Algunas proporcionan acceso directo a la
informacin contenida dentro de las aplicaciones operacionales. Otras, han extrado los datos desde sus bases
de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los
usuarios en sus necesidades de informacin.
Ambos mtodos han evolucionado a travs del tiempo y ahora las organizaciones manejan una data no limpia e
inconsistente, sobre las cuales, en la mayora de las veces, se toman decisiones importantes.
La gestin administrativa reconoce que una manera de elevar su eficiencia est en hacer el mejor uso de los
recursos de informacin que ya existen dentro de la organizacin. Sin embargo, a pesar de que sto se viene
intentando desde hace muchos aos, no se tiene todava un uso efectivo de los mismos.
La razn principal es la manera en que han evolucionado las computadoras, basadas en las tecnologas de
informacin y sistemas. La mayora de las organizaciones hacen lo posible por conseguir buena informacin,
pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de
software
El data warehouse, es actualmente, el centro de atencin de las grandes instituciones, porque provee un
ambiente para que las organizaciones hagan un mejor uso de la informacin que est siendo administrada por
diversas aplicaciones operacionales.
Un data warehouse es una coleccin de datos en la cual se encuentra integrada la informacin de la Institucin y
que se usa como soporte para el proceso de toma de decisiones gerenciales. Aunque diversas organizaciones y
personas individuales logran comprender el enfoque de un Warehouse, la experiencia ha demostrado que
existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicacin en un ambiente integral
centralizado, simplifica el problema de acceso a la informacin y en consecuencia, acelera el proceso de
anlisis, consultas y el menor tiempo de uso de la informacin.
Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer ms prctica y
fcil la explotacin de datos para una mayor eficacia del negocio, que no se logra cuando se usan slo los datos
que provienen de las aplicaciones operacionales (que ayudan en la operacin de la empresa en sus operaciones
cotidianas), en los que la informacin se obtiene realizando procesos independientes y muchas veces
complejos.
Un data warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales. La
data extrada es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el
data warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos
de datos, ayudan a crear el ambiente para el acceso a la informacin Institucional. Este nuevo enfoque ayuda a
las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con ms
responsabilidad.
La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehousing, puede permitir a
cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de
toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para
crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas
necesarias para la implementacin de una arquitectura completa de data warehouse.
Pag. 4 de 93
1. ASPECTOS TERICOS
1.1 INTRODUCCION AL CONCEPTO DATA
WAREHOUSING
Data warehousing es el centro de la arquitectura para los sistemas de informacin en la
dcada de los '90. Soporta el procesamiento informtico al proveer una plataforma slida, a
partir de los datos histricos para hacer el anlisis. Facilita la integracin de sistemas de
aplicacin no integrados. Organiza y almacena los datos que se necesitan para el
procesamiento analtico, informtico sobre una amplia perspectiva de tiempo.
Un Data Warehouse o Depsito de Datos es una coleccin de datos orientado a temas,
integrado, no voltil, de tiempo variante, que se usa para el soporte del proceso de toma de
decisiones gerenciales.
Se puede caracterizar un data warehouse haciendo un contraste de cmo los datos de un
negocio almacenados en un data warehouse, difieren de los datos operacionales usados por
las aplicaciones de produccin.
Data Warehouse
Datos Operacionales
Orientado a la aplicacin
Orientado al sujeto
Actual
Actual + histrico
Detallada
Detallada + ms resumida
Cambia continuamente
Estable
Pag. 5 de 93
Destacan entre estos sistemas: los Sistemas de Informacin Gerencial (MIS), Sistemas de
Informacin Ejecutivos (EIS), Sistemas de Informacin Georeferencial (GIS), Sistemas de
Simulacin de Negocios (BIS y que en la prctica son sistemas expertos o de Inteligencia
Artificial - AI).
o
Destacan entre ellos: los Sistemas Ofimticos (OA), Sistemas de Transmisin de Mensajera
(E-mail y Fax Server), coordinacin y control de tareas (Work Flow) y tratamiento de
documentos (Imagen, Trmite y Bases de Datos Documentarios).
o
Pag. 6 de 93
Sin embargo, la tecnologa data warehousing basa sus conceptos y diferencias entre dos
tipos fundamentales de sistemas de informacin en todas las organizaciones: los sistemas
tcnico-operacionales y los sistemas de soporte de decisiones. Este ltimo es la base de un
data warehouse.
Pag. 7 de 93
Mientras las necesidades de los datos operacionales se enfocan normalmente hacia una
sola rea, los datos para el soporte de decisiones, con frecuencia, toma un nmero de reas
diferentes y necesita cantidades grandes de datos operacionales relacionadas.
Son estos sistemas sobre los se basa la tecnologa data warehousing.
Orientado al tema
Integrado
De tiempo variante
No voltil
Pag. 8 de 93
Pag. 9 de 93
una aplicacin de ingreso de rdenes puede accesar a los datos sobre clientes, productos y
cuentas. La base de datos combina estos elementos en una estructura que acomoda las
necesidades de la aplicacin.
En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente,
vendedor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes,
productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases
y profesores. Para un hospital pueden ser pacientes, personal mdico, medicamentos, etc.
La alineacin alrededor de las reas de los temas afecta el diseo y la implementacin de
los datos encontrados en el data warehouse. Las principales reas de los temas influyen en
la parte ms importante de la estructura clave.
Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En
data warehousing se enfoca el modelamiento de datos y el diseo de la base de datos. El
diseo del proceso (en su forma clsica) no es separado de este ambiente.
Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la
orientacin a temas, radican en el contenido de la data a nivel detallado. En el data
warehouse se excluye la informacin que no ser usada por el proceso de sistemas de
soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones,
contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso,
que pueden ser usados o no por el analista de soporte de decisiones.
Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales
mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que
est vigente. Las del data warehouse miden un espectro de tiempo y las relaciones
encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus
correspondientes relaciones de datos) se representan en el data warehouse, entre dos o
ms tablas.
Pag. 10 de 93
1.3.2 Integracin
El aspecto ms importante del ambiente data warehousing es que la informacin encontrada
al interior est siempre integrada.
La integracin de datos se muestra de muchas maneras: en convenciones de nombres
consistentes, en la medida uniforme de variables, en la codificacin de estructuras
consistentes, en atributos fsicos de los datos consistentes, fuentes mltiples y otros.
El contraste de la integracin encontrada en el data warehouse con la carencia de
integracin del ambiente de aplicaciones, se muestran en la Figura N 2, con diferencias
bien marcadas.
A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias
decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos
personalizados se muestran de muchas maneras.
Se diferencian en la codificacin, en las estructuras claves, en sus caractersticas fsicas, en
las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los
diseadores de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa. La Figura
N 2 mencionada, muestra algunas de las diferencias ms importantes en las formas en que
se disean las aplicaciones.
o
No importa mucho cmo el GENERO llega al data warehouse. Probablemente "M" y "F"
sean tan buenas como cualquier otra representacin. Lo importante es que sea de cualquier
fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado
uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicacin,
donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del
data warehouse.
o
Pag. 11 de 93
Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida
usadas en las diferentes bases de datos para transformarlas en una medida estndar
comn.
Pag. 12 de 93
Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al data warehouse
necesitar ser medida de la misma manera.
o
Tal como se muestra en la figura, los puntos de integracin afectan casi todos los aspectos
de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de
fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de
fecha inconsistentes y otros.
Cualquiera que sea la forma del diseo, el resultado es el mismo - la informacin necesita
ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun
cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su
enfoque deber estar en el uso de los datos que se encuentre en el depsito, antes que
preguntarse sobre la confiabilidad o consistencia de los datos.
Pag. 13 de 93
Pag. 14 de 93
3 La tercera manera en que aparece el tiempo variante es cuando la informacin del data
warehouse, una vez registrada correctamente, no puede ser actualizada. La informacin del
data warehouse es, para todos los propsitos prcticos, una serie larga de "snapshots"
(vistas instantneas).
Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces
pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos
no son alterados una vez hechos. En algunos casos puede ser no tico, e incluso ilegal,
alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a
partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad.
Pag. 15 de 93
1.3.4 No Voltil
La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una
base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma
de decisiones, requiere una base de datos estable.
En la Figura N 4 se muestra que la actualizacin (insertar, borrar y modificar), se hace
regularmente en el ambiente operacional sobre una base de registro por registro. Pero la
manipulacin bsica de los datos que ocurre en el data warehouse es mucho ms simple.
Hay dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No
hay actualizacin de datos (en el sentido general de actualizacin) en el depsito, como una
parte normal de procesamiento.
Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el
procesamiento operacional y del data warehouse. En el nivel de diseo, la necesidad de ser
precavido para actualizar las anomalas no es un factor en el data warehouse, ya que no se
hace la actualizacin de datos. Esto significa que en el nivel fsico de diseo, se pueden
tomar libertades para optimizar el acceso a los datos, particularmente al usar la
normalizacin y denormalizacin fsica.
Otra consecuencia de la simplicidad de la operacin del data warehouse est en la
tecnologa subyacente, utilizada para correr los datos en el depsito. Teniendo que soportar
la actualizacin de registro por registro en modo on-line (como es frecuente en el caso del
procesamiento operacional) requiere que la tecnologa tenga un fundamento muy complejo
debajo de una fachada de simplicidad.
Pag. 16 de 93
o
o
En vista de estos factores, la redundancia de datos entre los dos ambientes es una
ocurrencia rara, que resulta en menos de 1%.
Pag. 17 de 93
Pag. 18 de 93
Pag. 19 de 93
La metadata juega un rol especial y muy importante en el data warehouse y es usada como:
o
o
o
Un directorio para ayudar al analista a ubicar los contenidos del data warehouse.
Una gua para el mapping de datos de cmo se transforma, del ambiente
operacional al de data warehouse.
Una gua de los algoritmos usados para la esquematizacin entre el detalle de datos
actual, con los datos ligeramente resumidos y stos, con los datos completamente
resumidos, etc.
Pag. 20 de 93
En otras palabras, habra un retraso de tiempo de por lo menos veinticuatro horas, entre el
tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el
momento cuando la informacin de la venta haya ingresado al data warehouse.
Pag. 21 de 93
El detalle de las ventas son resumidas semanalmente por lnea de subproducto y por regin,
para producir un almacenamiento de datos ligeramente resumidos.
El detalle de ventas semanal es adicionalmente resumido en forma mensual, segn una
gama de lneas, para producir los datos completamente resumidos.
La metadata contiene (al menos):
o
o
o
Pag. 22 de 93
Pag. 23 de 93
Los sistemas operacionales procesan datos para apoyar las necesidades operacionales
crticas. Para hacer eso, se han creado las bases de datos operacionales histricas que
proveen una estructura de procesamiento eficiente, para un nmero relativamente pequeo
de transacciones comerciales bien definidas.
Sin embargo, a causa del enfoque limitado de los sistemas operacionales, las bases de
datos diseadas para soportar estos sistemas, tienen dificultad al accesar a los datos para
otra gestin o propsitos informticos.
Esta dificultad en accesar a los datos operacionales es amplificada por el hecho que muchos
de estos sistemas tienen de 10 a 15 aos de antigedad. El tiempo de algunos de estos
sistemas significa que la tecnologa de acceso a los datos disponible para obtener los datos
operacionales, es as mismo antigua.
Ciertamente, la meta del data warehousing es liberar la informacin que es almacenada en
bases de datos operacionales y combinarla con la informacin desde otra fuente de datos,
generalmente externa.
Cada vez ms, las organizaciones grandes adquieren datos adicionales desde bases de
datos externas. Esta informacin incluye tendencias demogrficas, economtricas,
adquisitivas y competitivas (que pueden ser proporcionadas por Instituciones Oficiales INEI). Internet o tambin llamada "information superhighway" (supercarretera de la
informacin) provee el acceso a ms recursos de datos todos los das.
o
Pag. 24 de 93
usuario final normalmente usa da a da. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access,
SAS, etc.
Este nivel tambin incluye el hardware y software involucrados en mostrar informacin en
pantalla y emitir reportes de impresin, hojas de clculo, grficos y diagramas para el
anlisis y presentacin. Hace dos dcadas que el nivel de acceso a la informacin se ha
expandido enormemente, especialmente a los usuarios finales quienes se han volcado a las
PCs monousuarias y las PCs en redes.
Actualmente, existen herramientas ms y ms sofisticadas para manipular, analizar y
presentar los datos, sin embargo, hay problemas significativos al tratar de convertir los datos
tal como han sido recolectados y que se encuentran contenidos en los sistemas
operacionales en informacin fcil y transparente para las herramientas de los usuarios
finales. Una de las claves para esto es encontrar un lenguaje de datos comn que puede
usarse a travs de toda la empresa.
o
El nivel de acceso a los datos de la arquitectura data warehouse est involucrado con el
nivel de acceso a la informacin para conversar en el nivel operacional. En la red mundial de
hoy, el lenguaje de datos comn que ha surgido es SQL. Originalmente, SQL fue
desarrollado por IBM como un lenguaje de consulta, pero en los ltimos veinte aos ha
llegado a ser el estndar para el intercambio de datos.
Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de una serie de "filtros"
de acceso a datos, tales como EDA/SQL para accesar a casi todo los Sistemas de Gestin
de Base de Datos (Data Base Management Systems - DBMSs) y sistemas de archivos de
datos, relacionales o no. Estos filtros permiten a las herramientas de acceso a la
informacin, accesar tambin a la data almacenada en sistemas de gestin de base de
datos que tienen veinte aos de antigedad.
El nivel de acceso a los datos no solamente conecta DBMSs diferentes y sistemas de
archivos sobre el mismo hardware, sino tambin a los fabricantes y protocolos de red. Una
de las claves de una estrategia data warehousing es proveer a los usuarios finales con
"acceso a datos universales".
El acceso a los datos universales significa que, tericamente por lo menos, los usuarios
finales sin tener en cuenta la herramienta de acceso a la informacin o ubicacin, deberan
ser capaces de accesar a cualquier o todos los datos en la empresa que es necesaria para
ellos, para hacer su trabajo.
El nivel de acceso a los datos entonces es responsable de la interfase entre las
herramientas de acceso a la informacin y las bases de datos operacionales. En algunos
casos, esto es todo lo que un usuario final necesita. Sin embargo, en general, las
organizaciones desarrollan un plan mucho ms sofisticado para el soporte del data
warehousing.
o
Pag. 25 de 93
Las descripciones de registro en un programa COBOL son metadata. Tambin lo son las
sentencias DIMENSION en un programa FORTRAN o las sentencias a crear en SQL.
A fin de tener un depsito totalmente funcional, es necesario tener una variedad de
metadata disponibles, informacin sobre las vistas de datos de los usuarios finales e
informacin sobre las bases de datos operacionales. Idealmente, los usuarios finales
deberan de accesar a los datos desde el data warehouse (o desde las bases de datos
operacionales), sin tener que conocer dnde residen los datos o la forma en que se han
almacenados.
o
El nivel de gestin de procesos tiene que ver con la programacin de diversas tareas que
deben realizarse para construir y mantener el data warehouse y la informacin del directorio
de datos. Este nivel puede depender del alto nivel de control de trabajo para muchos
procesos (procedimientos) que deben ocurrir para mantener el data warehouse actualizado.
o
El nivel de mensaje de la aplicacin tiene que ver con el transporte de informacin alrededor
de la red de la empresa. El mensaje de aplicacin se refiere tambin como "subproducto",
pero puede involucrar slo protocolos de red. Puede usarse por ejemplo, para aislar
aplicaciones operacionales o estratgicas a partir del formato de datos exacto, recolectar
transacciones o los mensajes y entregarlos a una ubicacin segura en un tiempo seguro.
o
En el data warehouse (ncleo) es donde ocurre la data actual, usada principalmente para
usos estratgicos. En algunos casos, uno puede pensar del data warehouse simplemente
como una vista lgica o virtual de datos. En muchos ejemplos, el data warehouse puede no
involucrar almacenamiento de datos.
En un data warehouse fsico, copias, en algunos casos, muchas copias de datos
operacionales y/o externos, son almacenados realmente en una forma que es fcil de
accesar y es altamente flexible. Cada vez ms, los data warehouses son almacenados sobre
plataformas cliente/servidor, pero por lo general se almacenan sobre mainframes.
o
Pag. 26 de 93
a) Sistemas Operacionales
Los datos administrados por los sistemas de aplicacin operacionales son la fuente principal
de datos para el data warehouse.
Las bases de datos operacionales se organizan como archivos indexados (UFAS, VSAM),
bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o sistemas de base de datos
relacionales (DB2, Oracle, Informix, etc.). Segn las encuestas, aproximadamente del 70% a
80% de las bases de datos de las empresas se organizan usando DBMSs no relacional.
b) Extraccin, Transformacin y Carga de los Datos
Se requieren herramientas de gestin de datos para extraer datos desde bases de datos y/o
archivos operacionales, luego es necesario manipular o transformar los datos antes de
cargar los resultados en el data warehouse.
Tomar los datos desde varias bases de datos operacionales y transformarlos en datos
requeridos para el depsito, se refiere a la transformacin o a la integracin de datos. Las
bases de datos operacionales, diseadas para el soporte de varias aplicaciones de
produccin, frecuentemente difieren en el formato.
Los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados
por diferentes software DBMS, pueden definirse al usar nombres de elementos
Pag. 27 de 93
inconsistentes, que tienen formatos inconsistentes y/o ser codificados de manera diferente.
Todas estas inconsistencias deben resolverse antes que los elementos de datos sean
almacenados en el data warehouse.
c) Metadata
Otro paso necesario es crear la metadata. La metadata (es decir, datos acerca de datos)
describe los contenidos del data warehouse. La metadata consiste de definiciones de los
elementos de datos en el depsito, sistema(s) del (os) elemento(s) fuente. Como la data, se
integra y transforma antes de ser almacenada en informacin similar.
d) Acceso de usuario final
Los usuarios accesan al data warehouse por medio de herramientas de productividad
basadas en GUI (Graphical User Interface - Interfase grfica de usuario). Pueden proveerse
a los usuarios del data warehouse muchos de estos tipos de herramientas.
Estos pueden incluir software de consultas, generadores de reportes, procesamiento
analtico en lnea, herramientas data/visual mining, etc., dependiendo de los tipos de
usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta no satisface
todos los requerimientos, por lo que es necesaria la integracin de una serie de
herramientas.
e) Plataforma del data warehouse
La plataforma para el data warehouse es casi siempre un servidor de base de datos
relacional. Cuando se manipulan volmenes muy grandes de datos puede requerirse una
configuracin en bloque de servidores UNIX con multiprocesador simtrico (SMP) o un
servidor con procesador paralelo masivo (MPP) especializado.
Los extractos de la data integrada/transformada se cargan en el data warehouse. Uno de los
ms populares RDBMSs disponibles para data warehousing sobre la plataforma UNIX (SMP
y MPP) generalmente es Teradata. La eleccin de la plataforma es crtica. El depsito
crecer y hay que comprender los requerimientos despus de 3 o 5 aos.
Muchas de las organizaciones quieran o no escogen una plataforma por diversas razones: el
Sistema X es nuestro sistema elegido o el Sistema Y est ya disponible sobre un sistema
UNIX que nosotros ya tenemos. Uno de los errores ms grandes que las organizaciones
cometen al seleccionar la plataforma, es que ellos presumen que el sistema (hardware y/o
DBMS) escalar con los datos.
El sistema de depsito ejecuta las consultas que se pasa a los datos por el software de
acceso a los datos del usuario. Aunque un usuario visualiza las consultas desde el punto de
vista de un GUI, las consultas tpicamente se formulan como pedidos SQL, porque SQL es
un lenguaje universal y el estndar de hecho para el acceso a datos.
f) Datos Externos
Dependiendo de la aplicacin, el alcance del data warehouse puede extenderse por la
capacidad de accesar a la data externa. Por ejemplo, los datos accesibles por medio de
servicios de computadora en lnea (tales como CompuServe y America On Line) y/o va
Internet, pueden estar disponibles a los usuarios del data warehouse.
1. Evolucin del Depsito
Pag. 28 de 93
Pag. 29 de 93
Pag. 30 de 93
1.6.2 Metadata
Otro aspecto de la arquitectura de data warehouse es crear soporte a la metadata. Metadata
es la informacin sobre los datos que se alimenta, se transforma y existe en el data
warehouse. Metadata es un concepto genrico, pero cada implementacin de la metadata
usa tcnicas y mtodos especficos.
Estos mtodos y tcnicas son dependientes de los requerimientos de cada organizacin, de
las capacidades existentes y de los requerimientos de interfase de usuario. Hasta ahora, no
hay normas para la metadata, por lo que la metadata debe definirse desde el punto de vista
del software data warehousing, seleccionado para una implementacin especfica.
Tpicamente, la metadata incluye los siguientes tems:
o
o
o
o
o
o
Las estructuras de datos que dan una visin de los datos al administrador de datos.
Las definiciones del sistema de registro desde el cual se construye el data
warehouse.
Las especificaciones de transformaciones de datos que ocurren tal como la fuente
de datos se replica al data warehouse.
El modelo de datos del data warehouse (es decir, los elementos de datos y sus
relaciones).
Un registro de cuando los nuevos elementos de datos se agregan al data warehouse
y cuando los elementos de datos antiguos se eliminan o se resumen.
Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas de registros de
su data warehouse.
Pag. 31 de 93
Sea eliminado
Sea resumido
Sea archivado
Pag. 32 de 93
Pag. 33 de 93
Uso de
Data Warehouse
Pocos usuarios concurrentes
Consultas complejas, frecuentemente
Los usuarios del data warehouse generan consultas complejas. A veces la respuesta a una
consulta conduce a la formulacin de otras preguntas ms detalladas, en un proceso
llamado drilling down. El data warehouse puede incluir niveles de resmenes mltiples,
derivado de un conjunto principal, nico, de datos detallados, para soportar este tipo de uso.
En efecto, los usuarios frecuentemente comienzan buscando en los datos resumidos y como
identifican reas de inters, comienzan a accesar al conjunto de datos detallado. Los
conjuntos de datos resumidos representan el "Qu" de una situacin y los conjuntos de
datos detallados permiten a los usuarios construir un cuadro sobre "Cmo" se ha derivado
esa situacin.
Pag. 34 de 93
Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases
de datos, las consultas al data warehouse permiten accesar a volmenes muy grandes tanto
de data detallada como resumida. Debido a los requerimientos de datos histricos, los data
warehouses evolucionan para llegar a un tamao ms grande que sus orgenes
operacionales (de 10 a 100 veces ms grande).
o
Pag. 35 de 93
Instalar un sistema chargeback, donde el usuario final pague por los recursos
consumidos
Sealar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la
data a un nivel alto de esquematizacin, a diferencia de un pobre tiempo de
respuesta que resulta de trabajar con los datos a un nivel bajo de detalle.
Para ilustrar cmo un data warehouse puede ayudar a una organizacin a mejorar sus
operaciones, se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un
data warehouse.
Pag. 36 de 93
Ejemplo:
Preparacin de un reporte complejo
Considere un problema bastante tpico en una compaa de fabricacin grande en el que se
pide una informacin (un reporte) que no est disponible.
El informe incluye las finanzas actuales, el inventario y la condicin de personal,
acompaado de comparaciones del mes actual con el anterior y el mismo mes del ao
anterior, con una comparacin adicional de los 3 aos precedentes. Se debe explicar cada
desviacin de la tendencia que cae fuera de un rango predefinido.
Sin un data warehouse, el informe es preparado de la manera siguiente:
La informacin financiera actual se obtiene desde una base de datos mediante un programa
de extraccin de datos, el inventario actual de otro programa de extraccin de otra base de
datos, la condicin actual de personal de un tercer programa de extraccin y la informacin
histrica desde un backup de cinta magntica o CD-ROM.
Lo ms interesante es que se ha pedido otro informe que contine al primer informe (debido
a que las preguntas se originaron a partir del anterior). El hecho es, que ninguno de los
trabajos realizados hasta aqu (por ejemplo, diversos programas de extraccin) se pueden
usar para los prximos o para cualquier reporte subsiguiente. Imagine el tiempo y el
esfuerzo que se ha desperdiciado por un enfoque anticuado. (Ver Figura N 13).
Las inconsistencias deben identificarse en cada conjunto de datos extrados y resolverse,
por lo general, manualmente. Cuando se completa todo este procesamiento, el reporte
puede ser formateado, impreso, revisado y transmitido.
Nuevamente, el punto importante aqu es que todo el trabajo desempeado para hacer este
informe no afecta a otros reportes que pueden solicitarse es decir, todos ellos son
independientes y caros, desde el punto de vista de recursos y productividad.
Pag. 37 de 93
Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los
siguientes beneficios:
o
o
o
o
Pag. 38 de 93
Por lo mismo, los datos en los niveles ms altos de detalle pueden ser
reestructurados fcilmente, mientras que el volumen de datos en los niveles
ms inferiores es tan grande, que los datos no pueden ser fcilmente
reestructurados.
Por consiguiente, el modelo de datos y el diseo clsico fundamentan que el
data warehouse se aplique casi exclusivamente al nivel actual de detalle. En
otras palabras, las actividades de modelamiento de datos no se aplican a los
niveles de esquematizacin, en casi todos los casos.
o
Pag. 39 de 93
Pag. 40 de 93
Adems, se observa que hay tablas del mismo tipo divididas a travs del tiempo. Por
ejemplo, para el histrico de la fabricacin de las piezas, hay muchas tablas separadas
fsicamente, representando cada una un trimestre diferente. La estructura de los datos es
consistente con la tabla de la elaboracin de las piezas, aunque fsicamente hay muchas
tablas que lgicamente incluyen el histrico.
Para los diferentes tipos de tablas hay diferentes unidades de tiempo que fsicamente
dividen las unidades de informacin. El histrico de fabricacin est dividido por trimestres,
el histrico de la orden de piezas est dividido por aos y el histrico de cliente es un archivo
nico, no dividido por el tiempo.
As tambin, las diferentes tablas son vinculadas por medio de un identificador comn,
piezas u rdenes de piezas (la representacin de la interrelacin en el ambiente de depsito
toma una forma muy diferente al de otros ambientes, tal como el ambiente operacional).
Pag. 41 de 93
Una de ellas es la data resumida pblica, que es la data que ha sido calculada
fuera del data warehouse pero es usada a travs de la corporacin. La data
resumida pblica se almacena y administra en el data warehouse, aunque su clculo
se haya hecho fuera de l.
Un ejemplo clsico de data resumida pblica es el archivamiento trimestral hecho por cada
compaa pblica. Los contadores trabajan para producir cantidades como rentas
trimestrales, gastos trimestrales, ganancias trimestrales y otros. El trabajo hecho por los
contadores est fuera del data warehouse. Sin embargo, esas cantidades referenciales
producidas por ellos se usan ampliamente dentro de la corporacin para marketing, ventas,
etc. Una vez que se haya hecho el archivo, los datos se almacenan en el data warehouse.
o
o
Si una corporacin expone a sus trabajadores a sustancias peligrosas hay una necesidad de
detalle de datos permanente. Si una corporacin produce un producto que involucra la
seguridad pblica, tal como la construccin de las partes de aviones, hay una necesidad de
datos permanentes. Si una corporacin se compromete con contratos peligrosos, hay una
necesidad de detalle de datos permanentes.
La organizacin simplemente no puede dejar los detalles porque en futuros aos, en el caso
de una demanda, una notificacin, un edificio en disputa, etc., se incrementara la exposicin
de la compaa. Por lo tanto hay un nico tipo de datos en el data warehouse conocido
como detalle de datos permanentes.
El detalle de datos permanentes comparte muchas de las mismas consideraciones como
otro data warehouse, excepto que:
o
o
El medio donde se almacena la data debe ser tan seguro como sea posible.
Los datos deben permitir ser restaurados.
Los datos necesitan un tratamiento especial en su indexacin, ya que de otra manera los
datos pueden no ser accesibles aunque se haya almacenado con mucha seguridad.
Pag. 42 de 93
Pag. 43 de 93
2da.: Construir una copia de los datos operacionales desde un sistema operacional nico y
posibilitar al data warehouse de una serie de herramientas de acceso a la informacin.
Pag. 44 de 93
Esta estrategia tiene la ventaja de ser simple y rpida. Desafortunadamente, si los datos
existentes son de mala calidad y/o el acceso a los datos no ha sido previamente evaluado,
entonces se puede crear una serie de problemas.
3ra.: Finalmente, la estrategia data warehousing ptima es seleccionar el nmero de
usuarios basados en el valor de la empresa y hacer un anlisis de sus puntos, preguntas y
necesidades de acceso a datos.
De acuerdo a estas necesidades, se construyen los prototipos data warehousing y se
prueban para que los usuarios finales puedan experimentar y modificar sus requerimientos.
Una vez se tenga un consenso general sobre las necesidades, entonces se consiguen los
datos provenientes de los sistemas operacionales existentes a travs de la empresa y/o
desde fuentes externas de datos y se cargan al data warehouse.
Si se requieren herramientas de acceso a la informacin, se puede tambin permitir a los
usuarios finales tener acceso a los datos requeridos usando sus herramientas favoritas
propias, o facilitar la creacin de sistemas de acceso a la informacin multidimensional de
alta performance, usando el ncleo del data warehouse como base.
En conclusin, no se tiene un enfoque nico para construir un data warehouse que se
adapte a las necesidades de las empresas, debido a que las necesidades de cada una de
ellas son diferentes, al igual que su contexto.
Adems, como la tecnologa data warehousing va evolucionando, se aprende cada vez ms
y ms sobre el desarrollo de data warehouses, que resulta en que el nico enfoque prctico
para al almacenamiento de datos es la evolucin de uno mismo.
Pag. 45 de 93
warehouses tienen que usar muchos "trucos" para ayudar a sus usuarios a "visualizar" sus
requerimientos. Por ello, son esenciales los prototipos de trabajo.
Pag. 46 de 93
2.2.
FASE DE DESARROLLO.
Pag. 47 de 93
o
o
o
Pag. 48 de 93
o
o
o
4.
Pag. 49 de 93
Ejecutivos y gerentes
"Power users" o "Buzo de Informacin" (analistas financieros y de negocios,
ingenieros, etc.)
Usuarios de soporte (de oficina, administrativos, etc.)
Pag. 50 de 93
Pag. 51 de 93
2 La arquitectura global distribuye informacin por funcin, con datos financieros sobre un
servidor en un sitio, los datos de comercializacin en otro y los datos de fabricacin en un
tercer lugar. (Ver Figura N 17)
3 Una arquitectura por niveles almacena datos altamente resumidos sobre una estacin de
trabajo del usuario, con resmenes ms detallados en un segundo servidor y la informacin
ms detallada en un tercero.
La estacin de trabajo del primer nivel maneja la mayora de los pedidos para los datos, con
pocos pedidos que pasan sucesivamente a los niveles 2 y 3 para la resolucin.
Pag. 52 de 93
Las computadoras en el primer nivel pueden optimizarse para usuarios de carga pesada y
volumen bajo de datos, mientras que los servidores de los otros niveles son ms adecuados
para procesar los volmenes pesados de datos, pero cargas ms livianas de usuario. (Ver
figura N 18).
Pag. 53 de 93
Se puede ampliar un solo servidor de redes mediante arquitecturas distribuidas que hacen
uso de subproductos, tales como Ambientes de Computacin Distribuida (Distributed
Computing Environment - DCE) o Arquitectura Broker de Objeto Comn (Common Objects
Request Broker Architecture - CORBA), para distribuir el trfico a travs de servidores
mltiples.
Estas arquitecturas aumentan tambin la disponibilidad, debido a que las operaciones
pueden cambiarse al servidor de backup si un servidor falla, pero la gestin de sistemas es
ms compleja.
2 Multiprocesamiento simtrico
Las mquinas de multiprocesamiento simtrico (Symmetric MultiProcessing - SMP)
aumentan mediante la adicin de procesadores que comparten la memoria interna de los
servidores y los dispositivos de almacenamiento de disco.
Se puede adquirir la mayora de SMP en configuraciones mnimas (es decir, con dos
procesadores) y levantar cuando es necesario, justificando el crecimiento con las
necesidades de procesamiento. La escalabilidad de una mquina SMP alcanza su lmite en
el nmero mximo de procesadores soportados por los mecanismos de conexin (es decir,
el backplane y bus compartido).
3 Procesamiento en paralelo masivo
Una mquina de procesamiento en paralelo masivo (Massively Parallel Processing - MPP),
conecta un conjunto de procesadores por medio de un enlace de banda ancha y de alta
velocidad. Cada nodo es un servidor, completo con su propio procesador (posiblemente
SMP) y memoria interna. Para optimizar una arquitectura MPP, las aplicaciones deben ser
"paralelizadas" es decir, diseadas para operar por separado, en partes paralelas.
Esta arquitectura es ideal para la bsqueda de grandes bases de datos. Sin embargo, el
DBMS que se selecciona debe ser uno que ofrezca una versin paralela. Y an entonces, se
requiere un diseo y afinamiento esenciales para obtener una ptima distribucin de los
datos y prevenir "hot spots" o "data skew" (donde una cantidad desproporcionada del
procesamiento es cambiada a un nodo de procesamiento, debido a la particin de los datos
bajo su control).
4 Acceso de memoria no uniforme
La dificultad de mover aplicaciones y los DBMS a agrupaciones o ambientes realmente
paralelos ha conducido a nuevas y recientes arquitecturas, tales como el acceso de memoria
no uniforme (Non Uniform Memory Access - NUMA).
NUMA crea una sola gran mquina SMP al conectar mltiples nodos SMP en un solo
(aunque fsicamente distribuida) banco de memoria y un ejemplo nico de OS. NUMA facilita
el enfoque SMP para obtener los beneficios de performance de las grandes mquinas MPP
(con 32 o ms procesadores), mientras se mantiene las ventajas de gestin y simplicidad de
un ambiente SMP estndar.
Lo ms importante de todo, es que existen DBMS y aplicaciones que pueden moverse
desde un solo procesador o plataforma SMP a NUMA, sin modificaciones.
Pag. 54 de 93
Pag. 55 de 93
Pag. 56 de 93
Relacional
SuperRelacional
Multidimensional
(Lgico)
Multidimensional
(Fsico)
ObjetoRelacional
Estructuras Normalizadas
Tipos de datos abstractos
Paralelismo
Estructuras
Multidimensionales
Drill-Down
Rotacin
Operaciones dependientes de
datos
=si
Elija
Requerimientos
comerciales
Usuarios
Soporte de
Sistemas
Arquitectura
Servidor
Alcance: departamental
Pequea -
Local mnimo -
Consolidado -
ubicacin nica
central promedio
paquete
o SMP
Alcance: departamental
Grande-analistas
en
Local mnimo -
Seccionado -
Grupos de SMP
RDBMS para
Usos: anlisis ms
detalle en
central-
para central;
central - MDDB
informtica
usuarios
informticos
resumen en
local
SP o SMP para
local
para local
Centralizado
Grupos de SMP
Objetorelacional-
DBMS
dispersos
Alcance: empresa
Grande;
geogrfica-
Usos: anlisis ms
mente disperso
Central fuerte
soporte Web
informtica
Alcance: departamental
Pequea - pocas
Usos: investigacin
ubicaciones
Central fuerte
Centralizado
MPP
RDBMS con
soporte
paralelo
Pag. 57 de 93
Pag. 58 de 93
Pag. 59 de 93
Los datos "sucios" pueden presentarse al ingresar informacin en una entrada de datos (por
ejemplo, "Sitsemas S. A." en lugar de "Sistemas S. A." ) o de otras causas. Cualquiera que
sea, la data sucia daa la credibilidad de la implementacin del depsito completo. A
continuacin, en la Figura N 23 se muestra un ejemplo de formato de ventas en el que se
pueden presentar errores.
Afortunadamente, las herramientas de limpieza de datos pueden ser de gran ayuda. En
algunos casos, puede crearse un programa de limpieza efectivo. En el caso de bases de
datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales puede
ser casi obligatorio.
Pag. 60 de 93
Pag. 61 de 93
Pag. 62 de 93
las cuales seran valiosas para las ventas de Intel. Desafortunadamente, la agencia de
servicio no hizo un buen trabajo de identificar las relaciones entre los clientes, lo que dio
como resultado el hecho de que algunas personas estuvieron asociadas con compaas
equivocadas.
Intel tom la cinta de la agencia de servicio y luego corri los datos con el paquete de
anlisis estadstico SAS, del Instituto SAS, para identificar y corregir los problemas con las
relaciones con un tope de 10 agrupaciones (es decir, las primeras compaas en una
relacin jerrquica nica).
La compaa luego us las herramientas de base de datos Oracle para propiciar el anlisis y
la limpieza. Ya que la nueva data llegaba todo el tiempo, algunas de las rutinas de limpieza
de Oracle fueron implementadas como procedimientos almacenados para que puedan correr
automticamente contra la nueva data.
Intel an persiste en encargar las tareas de la limpieza de los datos. Sin embargo, la
compaa planea mantener la limpieza in-house hasta que encuentre una agencia de
servicio aceptable.
Ejemplo 4:
CrediCard (So Paulo, Brasil), un gran emisor de tarjetas de crdito en Sudamrica,
consigui herramientas de limpieza y mejora de datos como parte de la implementacin de
un data warehouse por Market Knowledge, una filial de Equifax.
El personal de comercializacin de CrediCard usa aproximadamente 200 rutinas para
efectuar operaciones de limpieza, tales como la eliminacin de datos malos o sin uso,
correccin de valores equivocados y estandarizacin de formatos diversos.
Adems, ellos pueden mejorar los datos al realizar operaciones como correccin de
cantidades monetarias por la inflacin y la devaluacin, creando un campo de edad virtual
basado en la fecha de nacimiento de una persona y aadiendo datos de censos a los
registros entrantes. Estas rutinas (por ejemplo, correccin de inflacin) favorecen
particularmente a los requerimientos brasileos.
Ellos adems estn diseados para el uso del personal de comercializacin no-tcnico. Las
rutinas de limpieza de los datos, las cuales son programadas como comandos SQL, emple
slo alrededor de tres personas por semana para crearlas - una porcin mnima de un
proyecto de 2 aos y medio.
Las herramientas para mejorar los datos, ms automatizadas y ms inteligentes,
representan alrededor de $ 120,000 del total del proyecto de $ 840,000.
Pag. 63 de 93
tarea. El software de gestin del data warehouse puede ser suficiente para limpiar y validar
segn sus propsitos.
Muchos proyectos de data warehouse usan productos como Warehouse Manager de Prism
Solutions o Passport de Carleton, para una gama de tareas de gestin de data warehouse,
que incluyen:
o
o
o
Pag. 64 de 93
Enfoque Top-Down
Enfoque Bottom-Up:
Pag. 65 de 93
Los gerentes de proyectos de Data Warehouse necesitan evaluar el problema con realismo,
los recursos internos disponibles para distribuirlos y seleccionar la solucin que se adapte a
la planilla y presupuesto del proyecto, o modificar la planilla y el presupuesto para solucionar
el problema.
Pag. 66 de 93
Pag. 67 de 93
Pag. 68 de 93
4. Cmo tener mrgenes de operacin sobre los dos ltimos aos en cada rea de
negocio? Donde han disminuido los mrgenes, se han incrementado los costos?
Con frecuencia, los aspectos realmente importantes identificados por una gestin mayor,
tienen un valor agregado, en el que ellos saben si tuvieron la informacin que estaban
buscando, lo que significara una mejora de (por ejemplo) las ventas en 0.5% a 1% - que, si
su operacin estuvo por los billones de dlares en un ao, puede resultar en cientos de
millones de dlares. En algunos casos, el costo del depsito inicial se ha recobrado en un
perodo de 6 a 8 meses.
Al hacerse preguntas de este tipo, los usuarios comienzan a identificar las reas en la que
los costos han aumentado o disminuido significativamente y pueden evaluar cada una de
estas reas con ms detalle.
Caso prctico:
En un estudio encargado por 20 vendedores y consultores, se encontr un Retorno
Promedio Total de la inversin (Return On Investment-ROI) de 401%. Se encontr una
Pag. 69 de 93
401%
322%
533%
ROI mediano
160%
2.3 Aos
2.2 Millones
Costos preliminares
Planificacin
Diseo
Modelamiento/Ingeniera de Informacin
Costos iniciales
Plataforma de hardware
Software de base de datos
? Herramientas de transferencia y limpieza de datos
Costos en procesamiento
Mantenimiento de datos
Desarrollo de aplicaciones
Capacitacin y soporte
b) Beneficios
o
o
o
o
o
o
o
o
Beneficios Tcticos
Impresin y emisin de reporte reducido
Demanda reducida para consultas de clientes
? Entrega ms rpida de informacin a los usuarios
Beneficios Estratgicos (Potencialidad)
Aplicaciones y herramientas de acceso para los usuarios finales
Decisiones con mayor informacin
Toma de decisiones ms rpida
Capacidad de soporte a la informacin organizacional
Pag. 70 de 93
Pag. 71 de 93
Pag. 72 de 93
Pag. 73 de 93
Pag. 74 de 93
Pag. 75 de 93
redes neurales
deteccin de desviacin
modelamiento predictivo y
programacin gentica
Pag. 76 de 93
Tipo de Herramienta
Pregunta bsica
Modelo de Salida
Reportes de ventas mensuales;
Consulta y Reporte
Qu sucedi?
Usuario tpico
Necesita data histrica puede
tener aptitud tcnica limitada
histrico de inventario
Procesamiento analtico
Qu sucedi y
en lnea (OLAP)
por qu?
Sistema de Informacin
Qu necesito
Libros electrnicos;
Ejecutiva (SIE)
conocer ahora?
Centros de comandos
Qu es interesante?
Data mining
Modelos predictivos
Qu podra pasar?
tcnicamente astuto.
Pag. 77 de 93
ANEXOS
ANEXO 1.- SOFTWARE EN UNA DATA WAREHOUSE
Anexo 1-A
PRODUCTO
EMPRESA DISTRIBUIDORA
Access
Microsoft
Access+
Sonetics
Application System
IBM
Approach
Lotus Corporation
ARPEGGIO
APTuser
ASK Joe
aXcess/400
Glenbrook Software
BrioQuery
Brio Technology
Business Objects
Clear: Access
Sterling Software
Seagate Software
d.b. Express
Databoard, Dataread
SLP Infoware
DataDirect Explorer
Intersolv
DataSite
DB Publisher
DbPower
Db-Tech Inc.
Decision Analyzer
Decisin Technology
DECquery, DECdecision
Discoverer, Discoverer/2000
Oracle Corporation
DS Server, DS Modeler
Interweave
EasyReporter
Speedware Corporation
Eclipse Query/Report
Cornut Informatique
Pag. 78 de 93
ELF
ELF Software
English Wizard
English Wizard
EnQuiry
Progress Software
Esperant
Speedware
FOCUS Six
4S-Report
Freequery
GQL
Andyne
HarborLight
Harbor Software
HP Information Access
Hewlett-Packard
if
Impress, SqlBuddy
Impromptu
Cognos Corporation
InfoAssistant
Asymetrix
PRODUCTO
EMPRESA DISTRIBUIDORA
InfoMaker
Powersoft Corporation
InfoQuery
InfoReports
Fiserv
Internet DataSpot
inSight
Interactive Query
IQ/Objects, IQ/SmartServer
IQ Software Corporation
Iridon Panorama
Kinetix
Hilco Technologies
LANSA/Client
LANSA USA
MARKIS/400
AS Software
Nirvana
Synergy Technologies
OR-REPORTER II
Oracle Corporation
Paradox
Borland
ProBit
System Builder
QBE Vision
Sysdeco
QMF
IBM
QueryObject
Quest
Pag. 79 de 93
Report Writer
Raima
Reportoire
Reports
ReporTool
Zen Software
ReportSmith
Borland
Rocket Shuttle
Safari ReportWriter
SAS System
SAS Institute
Second Wind
Anju Technologies
Select!
Attachmate
SEQUEL
Spectrum Writer
SQLPRO Agent
SQR Workbench
MITI
Star Tracker
Strategy
ShowCase Corporation
The Reporter
Unique XTRA
Unique AS
URSA InfoSuite
ViewPoint
Informix
PRODUCTO
EMPRESA DISTRIBUIDORA
ViewPoint
Soliton Associates
Viper
Brann Software
VisPro/Reports
Hock Ware
Visual Cyberquery
Cyberscience Corporation
Visual Dbase
Borland
Visual Express
Visual FoxPro
Microsoft Corporation
Visual Net
CNet Svenska AB
IBM
Voyant
Brossco Systems
WebBiz
Cybercom Partners
WebSeQueL
InfoSpace Inc.
WinQL
Xentis
Pag. 80 de 93
Anexo 1-B
PRODUCTO
EMPRESA DISTRIBUIDORA
TIPO
Acuity ES
MDDB
Acumate ES
MDDB
Lighten, Inc.
MDDB
MDDB
BrioQuery
Brio Technology
MDDB
Business Objects
Relacional
Comshare Inc.
MDDB
Control
KCI Computing
Relacional
CrossTarget
Dimensional Insight
MDDB
Cube-It
FICS Group
MDDB
Dataman
SLP Infoware
MDDB
DataTracker
Relacional
DecisionSuite
Relacional
Delta Solutions
MIS AG
MDDB
MDDB
DSS Agent
MicroStrategy
Relacional
DynamicCube.OCX
Relacional
EKS/Empower
Metapraxis, Inc.
MDDB
MDDB
Essbase/400
ShowCase Corporation
MDDB
Oracle
MDDB
Fiscal
Relacional
Fusion
MDDB
FYI Planner
Think Systems
MDDB
Gentia
Planning Sciences
MDDB
Helm
Codeworks
MDDB
Holos
Holistic Systems
MDDB
Hyperion OLAP
Hyperion Software
MDDB
InfoBeacon
Relacional
Informer
Reportech
MDDB/Relacional
Pag. 81 de 93
IBM
Relacional
IQ/Vision
IQ Software Corporation
Relacional
Khalix
Relacional
Lightship
MDDB
Matryx
MDDB
MDDB Server
SAS
Relacional
Media
Speedware Corporation
MDDB
Metacube
Informix
Relacional
MIKSolution
MIK
MDDB
MIT/400
SAMAC, Inc
MDDB
PRODUCTO
EMPRESA DISTRIBUIDORA
TIPO
MSM
MDDB
Muse
MDDB
OLAP Office
MDDB
OpenOLAP
Relacional
Pablo
Andyne
MDDB/Relacional
ParaScope
DataVista
Relacional
PowerPlay
Cognos Corporation
MDDB/Relacional
StarTrieve
SelectStar
Relacional
Relacional
TM/1
Applix
MDDB
Toto
MDDB
MDDB
MDDB
Pag. 82 de 93
Anexo 1-C
EMPRESA DISTRIBUIDORA
TIPO
Acuity/ES
Applixware
Applix
BusinessMetrics
BOARD
Pragma Inform
COINS
ColumbusEIS
Jitcons YO
Commander EIS
Comshare Inc.
CorVu
Decision Suite
Softkit
Discovery EIS
EIS
Enterprise Periscope
Eureka
ExecuSense
TLG Corporation
FOCUS EIS
Pag. 83 de 93
iMonitor
BayStone Software
InfoManager
Iridon Almanac
inSight
LEADER
PRODUCTO
EMPRESA DISTRIBUIDORA
TIPO
MagnaFORUM
Merit
GIST, s.r.o.
Microsoft
Perspectives
Syntell
Qbit
Reveal
SAS System
SAS Institute
Tiler EIS++
Track
VentoMap, VentoSales
vHQ LLC
Visual EIS
Synergistic Software
Pag. 84 de 93
Visual Publisher
VITAL
Braintec Corporation
Wingz
AppSource Corporation
Pag. 85 de 93
Anexo 1-D
EMPRESA DISTRIBUIDORA
Adabas D
Software AG
Advanced Pick
Pick Systems
DB2
IBM
Fast-Count DBMS
MegaPlex Software
HOPS
HOPS International
Microsoft
Model 204
NonStop SQL
Tandem
Nucleus Server
Computer Associates
Oracle Server
Oracle
Rdb
Oracle
SAS System
SAS
Sybase IQ
Sybase
Sybase
SymfoWARE
Fujitsu
Teradata DBS
NCR
THOR
Hitachi
Time Machine
Titanium
Unidata
Unidata, Inc.
UniVerse
VMARK
Vision
WX9000
XDB Server
Pag. 86 de 93
ANEXO 2. GLOSARIO
GLOSARIO DE TERMINOS
BACKBONE
Red principal de una red de comunicaciones.
BASE DE DATOS (DATA BASE)
Conjunto de datos no redundantes, almacenados en un soporte informtico, organizados de
forma independiente de su utilizacin y accesibles simultneamente por distintos usuarios y
aplicaciones. La diferencia de una BD respecto a otro sistema de almacenamiento de datos
es que stos se almacenan en la BD de forma que cumplen tres requisitos bsicos: no
redundancia, independencia y concurrencia.
BLOB (Binary Large Object)
Objeto binario grande. Entre los tipos de datos que contienen los campos BLOB estn:
binarios, memo, memo con formato, de imagen, de sonido y OLE.
CLIENTE/SERVIDOR
Arquitectura de sistemas de informacin en la que los procesos de una aplicacin se dividen
en componentes que se pueden ejecutar en mquinas diferentes. Modo de funcionamiento
de una aplicacin en la que se diferencian dos tipos de procesos y su soporte se asigna a
plataformas diferentes.
CODIFICACION
a) Transformacin de un mensaje en forma codificada, es decir, especificacin para la
asignacin unvoca de los caracteres de un repertorio (alfabeto, juego de caracteres) a los
de otro repertorio.
b) Conversin de un valor analgico en una seal digital segn un cdigo prefijado.
DETECCION DE DESVIACION
Normalmente, para la deteccin de desviacin en bases de datos grandes se usa la
informacin explcita externa a los datos, as como las limitaciones de integridad o modelos
predefinidos. En un mtodo lineal por contraste, se enfoca el problema desde el interior de
los datos, usando la redundancia implcita de los datos. Aqu se simula un mecanismo
familiar a los seres humanos: despus de ver una serie de datos similares, un elemento que
perturba la serie se considera una excepcin.
Pag. 87 de 93
DICCIONARIO DE DATOS
Descripcin lgica de los datos para el usuario. Rene la informacin sobre los datos
almacenados en la BD (descripciones, significado, estructuras, consideraciones de
seguridad, edicin y uso de las aplicaciones, etc.).
DIRECTORIO DE DATOS
Es un subsistema del sistema de gestin de base de datos que describe dnde y cmo se
almacenan los datos en la BD (modo de acceso y caractersticas fsicas de los mismos).
DRILL-DOWN
Obtencin de informacin ms detallada sobre un conjunto de informacin en el cual se est
trabajando. Ejemplo: Si se est mirando el Activo, obtener todas las cuentas del activo.
EXTRANET
Constituye un servicio de comunicacin orientado a un pblico focalizado sobre el formato
de los sistemas Web, operando sobre la red Internet. Ejemplo: Una casa de ventas de
productos varios, implementa un sistema de Ofertas, Consulta a Catlogos, Bancos de
Datos y Compras a sus clientes preferenciales.
IN-HOUSE
Aplicable a la realizacin de un servicio de outsourcing en las instalaciones de la
organizacin que contrata el servicio.
INCONSISTENCIA
El contenido de una base de datos es inconsistente si dos datos que deberan ser iguales no
lo son. Por ejemplo, un empleado aparece en una tabla como activo y en otra como jubilado.
INTEGRIDAD
Condicin de seguridad que garantiza que la informacin es modificada, incluyendo su
creacin y borrado, slo por el personal autorizado.
INTERNET
Trmino usado para referirse a la red ms grande del mundo, que conecta miles de redes
con alcance mundial. Est creando una cultura que basndose en la simplicidad,
investigacin y estandarizacin fundamentado en usos de la vida real, est cambiando la
forma de ver y hacer muchas de las tareas actuales. Mucha de la tecnologa de punta en
redes est proviniendo de la comunidad Internet.
INTRANET
Constituye un servicio de comunicacin de los sistemas de informacin corporativos
orientados a su personal, sobre el formato de los sistemas Web, operando sobre la red
Internet. Ejemplo: El sistema contable de una empresa de ventas de productos de ferretera,
tipo Home Center.
Pag. 88 de 93
LIBRO ELECTRONICO
Gua electrnica. Documento realizado en un sistema informtico, normalmente con
caractersticas hipertexto y multimedia.
MAP
a) Conjunto de datos
b) Lista de datos u objetos, tal como actualmente estn almacenados en memoria o en
disco.
c) Transferir un conjunto de objetos de un lugar a otro. Por ejemplo, los mdulos de
programas en el disco son proyectados ("mapeados") en la memoria. Una imagen grfica en
memoria es proyectada en la pantalla.
d) Relacionar un conjunto de objetos con otro. Por ejemplo, una estructura de base de datos
lgica se proyecta sobre la base de datos fsica.
Mapping.- Proyeccin, correspondencia, transformacin.
Pag. 89 de 93
La meta de la PG es lograr que las computadoras aprendan a resolver problemas sin ser
explcitamente programadas, generando soluciones a problemas a partir de la induccin de
programas. El programador no especifica el tamao, forma y complejidad estructural de los
programas-solucin, sino que los programas evolucionan hasta generar soluciones
satisfactorias.
Dentro del espacio de posibles programas de computadora, la induccin de programas
involucra el descubrimiento inductivo de un programa que produzca alguna salida deseada,
cuando se le presenta alguna entrada en particular. Y sto es precisamente lo que la
metodologa de PG realiza de una manera sistematizada.
Con base en este planteamiento, un programa puede ser llamado una frmula, un plan, una
estrategia de control, un procedimiento computacional, etc. Similarmente, las entradas del
programa pueden ser llamadas variables independientes, variables de estado, valores de
sensores, argumentos de una funcin, etc. A su vez las salidas del programa pueden
denominarse variables dependientes, un movimiento, un actuador, el valor regresado por
una funcin, etc.
En programacin gentica, poblaciones de cientos, miles y decenas de miles de programas
o ms, se desarrollan genticamente. Este desarrollo se hace usando el principio darwiniano
de supervivencia del ms apto y las operaciones genticas primarias de Reproduccin y
Cruce (o recombinacin sexual) .
Caractersticas.
a) La forma de rbol de los programas de computadora. Para evitar el crecimiento
descontrolado de un programa, en muchos casos pueden encapsularse subrboles en hojas
individuales.
b) En cada etapa de este proceso altamente paralelo, descentralizado y localmente
controlado, el estado consiste nicamente de la poblacin actual de individuos.
c) La variabilidad dinmica de los programas en la bsqueda de la solucin. A menudo, es
difcil y no natural tratar de especificar o restringir el tamao y forma de una solucin
eventual de antemano. Ms an, el hacerlo reduce el tamao de la ventana por la cual el
sistema ve al mundo, pudiendo evitar encontrar la solucin final o, peor an, encontrar una
solucin predeterminada.
d) Ausencia o un menor pre-procesamiento de entradas y post-procesamiento de salidas.
Tpicamente, las entradas, los resultados intermedios y las salidas son expresados de
manera directa en la terminologa natural del dominio del problema. Los programas
producidos por la PG consisten de funciones que son naturales al dominio del problema.
e) En la PG las estructuras que sobreviven a la adaptacin son activas. Estas no son
cdigos pasivos (cromosomas) de la solucin de un problema. Las estructuras de PG son
estructuras activas capaces de ser ejecutadas en su forma actual.
En conclusin, la programacin gentica sistematiza el problema de induccin de
programas, es decir, la generacin automtica de un programa que solucione un problema
dado. La importancia de la induccin de programas se hace evidente al observar que todos
los problemas se pueden reformular como un programa de computadora.
Pag. 90 de 93
REDUNDANCIA
Repeticin de los mismos datos en varios lugares.
REPOSITORIO
Base de datos central en herramientas de ayuda al desarrollo. El repositorio ampla el
concepto de diccionario de datos para incluir toda la informacin que se va generando a lo
largo del ciclo de vida del sistema, como por ejemplo:
componentes de anlisis y diseo (diagramas de flujo de datos, diagramas entidad-relacin,
esquemas de bases de datos, diseos de pantallas, etc.), estructuras de programas,
algoritmos, etc. En algunas referencias se le denomina Diccionario de recursos de
informacin.
SCORING
Calificacin que se le da a un grupo de clientes/productos que mide la propensin a
compras, ventas, retiro, llegadas, etc.
Pag. 91 de 93
TERABYTE (TB)
Unidad de medida que equivale a 1024 GB.
TERADATA
El Sistema de Gestin de Base de Datos Relacional (RDBMS) Teradata de NCR, es una
base de datos relacional paralela de soporte de decisiones muy poderosa para data
warehousing. Con el servidor basado en el soporte para UNIX SVR4 y Microsoft Windows
NT, Teradata ofrece soporte a las empresas para la escalabilidad desde gigabytes a
terabytes, petabytes y ms.
Teradata tambin proporciona conectividad open client a virtualmente todos los sistemas
operativos, incluyendo Microsoft DOS, Windows, Windows 95, Windows NT, IBM OS/2 y
Apple Macintosh. Adems, soporta conectividad a cliente desde las aplicaciones basadas en
el host que corre sobre sistemas UNIX y en mainframes. De hecho, ofrece una conectividad
de mainframes muy resistente con canal paralelo bidireccional de alta velocidad para
mainframes de IBM, Unisys, Hitachi, Amdahl, Bull y otros.
Historia. El producto inicial de la Corporacin Teradata NCR se dise especficamente
para descargar el procesamiento reiterativo a gran escala de las mainframes IBM,
permitindoles enfocar hacia sus tareas operacionales principalmente.
Pag. 92 de 93
En 1984, sac el primer sistema de procesamiento paralelo masivo (MPP) del mundo para
computacin comercial, el Data Base Computer Modelo 1, ms conocido como el DBC 1012.
El nombre (especficamente "1012") personific la filosofa de la corporacin al soportar la
accesibilidad de Terabytes (10^12 Bytes) de datos por miles de usuarios concurrentes
corriendo consultas de negocios complejas.
En 1991, la Corporacin NCR compr la Corporacin Teradata NCR adquiriendo su
avanzada y nica tecnologa de procesamiento en paralelo comercial. La arquitectura de
hardware del DBC 1012 original evolucion en la actual familia WorldMark Server y el
software de base de datos se ha convertido en NCR Teradata RDBMS.
Hoy, el NCR Teradata RDBMS corre sobre plataformas Intel basado en UNIX y Windows
NT. Es an el nico producto de base de datos capaz de soportar data warehouses por
sobre los 500 Gigabytes de datos de usuario real.
UNIX
Sistema operativo multiproceso, multiprograma y multiusuario. Software diseado por AT&T
para ingeniera de telecomunicacin. Ha sido el primer sistema operativo concebido con
independencia de los fabricantes. Posee una gran facilidad para adaptarse a ordenadores
con diferentes arquitecturas, siendo ampliamente autnomo respecto del hardware. Est
escrito en lenguaje de alto nivel C.
--- O ---
Pag. 93 de 93